多模态大模型不会画辅助线?最新评估得分:o3仅25.8%,远低于人类82.3% 清华腾讯斯坦福联合
清华大学等机构联合发布RBench-V,评估大模型的视觉推理能力。结果显示表现最好的模型o3准确率仅为25.8%,远低于人类的82.3%。论文在Reddit机器学习社区引发讨论。
清华大学等机构联合发布RBench-V,评估大模型的视觉推理能力。结果显示表现最好的模型o3准确率仅为25.8%,远低于人类的82.3%。论文在Reddit机器学习社区引发讨论。
2025年CSRankings公布,卡耐基梅隆大学蝉联第一。清华、上海交通大学/浙江大学并列第三,北京大学位居第五。中国高校在AI领域表现突出,包揽全球前十中的六席。
BPO-AVASR通过双焦点偏好优化方法提升了视觉和音频结合的语音识别性能,解决了噪声、口语化表达及同音词混淆等问题,在多个基准数据集上取得了最优表现。
腾讯发布首个混合Transformer-Mamba MoE架构的超大模型Hunyuan-TurboS,其在数学、推理等关键benchmark上超越或持平GPT-4o-0806、DeepSeek-V3。模型成本降低7倍。
具身风暴近日完成天使轮融资,超千万元资金将用于产品研发及量产。该公司专注于具身智能机器人交互技术研发,目标打造通用理疗机器人,核心团队包括多位博士和教授。其产品已在降低成本的同时提升了用户体验和效率。