阿里开源Qwen2.5-VL新版本,视觉推理通杀,32B比72B更聪明
Qwen发布新版本Qwen2.5-VL-32B-Instruct,相比前代模型回复更符合人类偏好、数学推理能力更强、图像细粒度理解与推理表现优异。
Qwen发布新版本Qwen2.5-VL-32B-Instruct,相比前代模型回复更符合人类偏好、数学推理能力更强、图像细粒度理解与推理表现优异。
划重点:
❶
中国AI团队强势崛起
!
Qwen2.5系列
实现
多模态理解
、
百万字长文本处理
智谱、ByteDance和清华大学发布GLM-PC等智能体后,OpenAI发布了首个AGI L3级智能体Operator,可以执行网络任务并交互网页。Operator结合了GPT-4的视觉能力和强化学习推理能力。构建开源Computer-Using Agent的技术挑战包括安全隔离、精确点击、视觉理解和部署LLM等。
华人团队发布的MiniCPM-o 2.6多模态大模型在视觉和语音方面表现优异,参数量仅8B。其平均得分70.2,在OpenCompass评测中支持1344×1344高分辨率图像处理,并能实时识别双语语音,且支持30多种语言。