实现“双杀”!中国大模型竞争力排名出炉:第一名是他
阿里在2025年中国商用大模型厂商评估中连续两年被评为领导者,并在模型能力和执行能力两大核心维度上排名第一。Omdia报告显示,阿里不仅在技术层面领先,还因其生态建设和商业化优势实现全面领先。
阿里在2025年中国商用大模型厂商评估中连续两年被评为领导者,并在模型能力和执行能力两大核心维度上排名第一。Omdia报告显示,阿里不仅在技术层面领先,还因其生态建设和商业化优势实现全面领先。
姚顺雨指出AI发展分为上半场和下半场。上半场以模型和方法为主,而下半场的重点转向如何定义现实任务并有效评估AI的表现。他强调强化学习已能泛化,并提出新的评估规则来解决当前局限性。
中科大等团队提出VCR-Bench评估基准,用于评价视频理解中的CoT推理能力。该基准包含七个独立评估维度的任务框架,覆盖视觉感知和逻辑推理两大类别。结果显示当前多模态模型在复杂视频推理任务上表现不佳,最优模型仅获得62.8的CoT得分和56.7%的准确率。
多模态生成技术推动AI视频创作新阶段,生数科技产品副总裁廖谦分享了其对于多模态大模型终局的看法及应用场景。视频生成领域迎来黄金发展期,预计2024年将出现重大突破。
OpenAI发布O3和O4-mini两款新型AI推理模型,声称在数学、编程、推理、科学及视觉理解能力测试中超越此前所有模型。
UC伯克利研究发现,强制要求模型跳过思考过程仍能保持或提高推理能力。使用DeepSeek-R1模型,在定理证明任务中仅需30%的Token就能达到与完整思考相同的准确率。
Windsurf开发者与OpenAI洽谈收购事宜,交易金额约为30亿美元。若交易达成,OpenAI将直接竞争AI编程助手市场,并可能危及Cursor基金信誉。