Humanity's Last Exam归档

谷歌CEO称其有史最智能模型，实测Gemini 2.5 Pro推理能力竟超DeepSeek-R1

下午2时 2025/03/28 作者 AI先锋官

Google发布全新大模型Gemini 2.5 Pro，支持100万个token上下文窗口，在编程、数学等领域全面领先。Gemini 2.5 Pro在各大基准测试中均实现第一，并且具备强大的逻辑推理和编程能力。

速递｜《指环王》级文本吞吐，谷歌发布Gemini2.5 Pro的能效比突破密码

下午4时 2025/03/26 作者 Z Potentials

谷歌发布下一代AI推理模型Gemini 2.5，具备多模态能力，并在多个基准测试中表现优异。该模型通过Google AI Studio提供给开发者，并计划在未来几周公布其API定价。

谷歌史上最强推理模型全面屠榜！击败DeepSeek断层第一，“人类最后考试”暴碾OpenAI，免费可用

上午11时 2025/03/26 作者智东西

谷歌发布的新一代Gemini 2.5 Pro在多项基准测试中超越OpenAI模型，尤其是在编程、数学和科学领域表现出色，并支持100万tokens上下文窗口。

OpenAI 和 Grok 都在卷的「深度检索」，Perplexity 推出了免费版，实测怎么样

下午11时 2025/02/24 作者 APPSO

Perplexity 推出新功能 Deep Research，对标 OpenAI 的深度检索、专业输出模式，在 Humanity’s Last Exam 测试中准确率高达21.1%。Deep Research 新增问题难度和多模态理解能力测试，并指出与其他模型相比在准确性及组织资料方面仍有提升空间。

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31