阿里开源 Qwen2.5-VL-32B:小模型,大能量
阿里巴巴发布Qwen2.5-VL-32B-Instruct,参数仅为32B却在多项关键指标上超越自家72B模型及GPT-4。该模型展示了强大的数学推理、图像理解能力,并且可以在单 GPU或配置合理的Mac笔记本电脑上运行。
阿里巴巴发布Qwen2.5-VL-32B-Instruct,参数仅为32B却在多项关键指标上超越自家72B模型及GPT-4。该模型展示了强大的数学推理、图像理解能力,并且可以在单 GPU或配置合理的Mac笔记本电脑上运行。
新模型Qwen2.5-VL-32B-Instruct在视觉理解和数学推理方面表现出色,并且其纯文本能力优于GPT-4o mini。该模型已在GitHub和Hugging Face上开源,可用于多种场景,包括对图片的理解、解决复杂的数学问题等。
今天除夕,阿里千问开源了Qwen2.5-VL模型,包含3B、7B和72B三个尺寸,并具有感知丰富世界、作为视觉Agent、理解长视频和捕捉事件、精准的视觉定位及结构化输出等新特性。
字节发布UI-TARS视觉语言模型,能像人一样操控电脑界面,并在多项测试中击败GPT-4等对手。它具备感知、推理及行动能力,支持点击、输入等多种操作。UI-TARS通过SFT和DPO训练,在多个GUI代理基准测试中达到最佳成绩,还开源了桌面版应用。