OpenAI智能体Operator背后CUA技术解析

智谱、ByteDance和清华大学发布GLM-PC等智能体后,OpenAI发布了首个AGI L3级智能体Operator,可以执行网络任务并交互网页。Operator结合了GPT-4的视觉能力和强化学习推理能力。构建开源Computer-Using Agent的技术挑战包括安全隔离、精确点击、视觉理解和部署LLM等。

GPT-4o级开源模型来了!MiniCPM-o:多语种情感控制的实时对话、仅8B、华人团队

华人团队发布的MiniCPM-o 2.6多模态大模型在视觉和语音方面表现优异,参数量仅8B。其平均得分70.2,在OpenCompass评测中支持1344×1344高分辨率图像处理,并能实时识别双语语音,且支持30多种语言。