生活机器人最后考验!杨笛一团队发布EgoNormia:现实中能否符合社会规范?

新智元报道
编辑:LRST
EgoNormia基准用于评估视觉语言模型在规范推理方面的能力,结果显示当前最先进的模型仍远不如人类。论文提出了三个子任务并分析了1853个视频数据集中的规范决策问题。

清华推出开源具身智能框架:用VLM解决机器人动作异构一致性难题,性能超越14倍参数对手

清华大学智能产业研究院联合商汤研究院等机构发布首个基于通用动作空间的具身基础模型框架UniAct,解决了具身智能中的动作空间异构一致性难题。通过视觉语言模型实现跨模态泛化,在多项权威评测中超越参数量达14倍的OpenVLA对手。

AI自动化黑马!3B小模型吊打GPT-4?这款开源神器让AI替你上班!

Proxy Lite 是一个仅3B参数的开源视觉语言模型,通过轻量级设计和低资源占用特性,提供高效、便捷的网页自动化操作体验。它能够像真人一样观察浏览器状态、思考决策并执行任务,适用于网页抓取、自动表单填写等多种场景,帮助开发者构建AI驱动的浏览器控制系统。

社区供稿 | 阿里国际 Ovis2 系列模型开源: 多模态大语言模型的新突破

Ovis2是阿里巴巴提出的新型多模态大模型架构,显著提升了小规模和大规模模型的能力密度,并增强了思维链推理能力、视频处理能力和多语言OCR能力。它已在OpenCompass上展示了卓越的性能,并在多个数学推理榜单中排名前列。

李飞飞S1成本仅50美元性能媲美Deepseek-R1,Logic RL成功重现了 DeepSeek R1 Zero 模型

本文介绍了5个AI和机器学习相关项目及工具:s1用于测试时间缩放提高推理效率;R1-V通过强化学习提升视觉语言模型泛化能力与训练效率;deepseek.cpp是一个基于C++的CPU-only推理实现,旨在为DeepSeek大语言模型提供支持;Logic RL成功复现了DeepSeek R1 Zero逻辑难题数据集上的问题解决能力;OpenHealth则是一款本地运行的AI健康助手。

太卷了!阿里千问送新年大礼:Qwen2.5-VL视觉模型免费体验,解锁无限视觉智能

阿里千问家族迎来了新的旗舰级成员Qwen2.5-VL,重点提升视觉理解、智能体能力和长视频理解能力。亮点包括精准图像识别、智能交互与任务完成、长时间视频内容理解和结构化数据输出等。