AI加速“统治世界”?斯坦福2025年AI指数报告重磅发布,9个信号震撼全球!

2025年斯坦福《AI指数报告》揭示全球AI现状:技术加速进化、政府加码布局、顶尖人才涌向大模型公司,创新集中于少数巨头。尽管存在伦理风险和技术瓶颈,但AI正快速融入各行各业并改变人们的生活方式。

刚刚,OpenAI开源BrowseComp,重塑Agent浏览器评测

今天凌晨2点,OpenAI开源了专门用于智能体浏览器功能的测试基准——BrowseComp。这个测试基准非常有难度,OpenAI自己的模型准确率只有0.6%和0.9%,但最新发布的Agent模型Deep Research准确率达到51.5%,展示了其在自主搜索、信息整合和准确性校准方面的优秀能力。

奥赛级AI基准来了:难倒所有模型,GPT-4o仅考34分,上海交大出品

上海交通大学GAIR Lab推出OlympicArena多学科认知推理基准测试,评估模型综合解决问题能力。尽管GPT-4也仅得34.01%整体准确率,但其他开源模型的整体准确率难以达到20%。该平台覆盖7大领域11163道题目,难度偏高,旨在检验AI的多学科综合认知能力,并提供资源支持研究。