DeepSeek再开源!大模型直觉+强化学习新方法:AI 数学证明迎来新突破

今日 AI 模型 DeepSeek-Prover-V2 开源,专为 Lean 4 形式化证明开发。该模型在 MiniF2F-test 测试集上达到88.9%通过率,并成功解决PutnamBench中的49个问题。DeepSeek-Prover-V2-671B结合大语言模型直觉和强化学习,提出两步法:首先合成数据,再用强化学习提升模型能力。

五一大瓜!大模型顶级排行榜被指系统性“造假”,官方紧急回应,Karpathy也下场质疑

本文分析了LM Arena排行榜存在问题,并提出了替代方案OpenRouter。LM Arena存在排名与实际用户体验不符的问题。Andrej Karpathy指出,模型可能专门针对Arena分数进行优化,而非整体上更好。他推荐使用OpenRouter作为新的评估方式。最后分享了OpenRouter的综合大模型排行,涉及多个领域和场景。

最新!Qwen 3 GPQA跑分接近DeepSeek R1:仅用三分之一参数

大模型独立分析公司Artificial Analysis对Qwen3进行了最新评估,结果显示其表现优异。特别是235B-A22B版本的Qwen3模型,在开启推理模式下达到了70%的GPQA Diamond得分,接近DeepSeek R1和Gemini 2.5 Flash的表现,相比阿里此前最好的Qwen1.5-32B模型有显著提升。

谷歌大神首次揭秘Gemini预训练秘密:52页PPT干货,推理成本成最重要因素

谷歌内部分享揭秘Gemini预训练背后逻辑与挑战,提出优化模型大小、数据量及推理效率的新方法。强调硬件感知优化、蒸馏技术应用以及引入更多维度的低成本研究机遇。