AI寒武纪，作者每时AI

继火爆全网的MCP后，Anthropic 推出全新整合功能，Claude再添连接利器

下午4时 2025/05/02 作者 AI寒武纪

Anthropic 宣布推出Claude的新功能Integrations，使其能够访问并执行更多复杂任务。通过这一功能，Claude能与各种工具无缝连接，提升协作能力。

DeepSeek再开源！大模型直觉+强化学习新方法：AI 数学证明迎来新突破

上午8时 2025/05/01 作者 AI寒武纪

今日 AI 模型 DeepSeek-Prover-V2 开源，专为 Lean 4 形式化证明开发。该模型在 MiniF2F-test 测试集上达到88.9%通过率，并成功解决PutnamBench中的49个问题。DeepSeek-Prover-V2-671B结合大语言模型直觉和强化学习，提出两步法：首先合成数据，再用强化学习提升模型能力。

五一大瓜！大模型顶级排行榜被指系统性“造假”，官方紧急回应，Karpathy也下场质疑

上午8时 2025/05/01 作者 AI寒武纪

本文分析了LM Arena排行榜存在问题，并提出了替代方案OpenRouter。LM Arena存在排名与实际用户体验不符的问题。Andrej Karpathy指出，模型可能专门针对Arena分数进行优化，而非整体上更好。他推荐使用OpenRouter作为新的评估方式。最后分享了OpenRouter的综合大模型排行，涉及多个领域和场景。

GPT-4o“拍马屁”翻车，OpenAI光速撤回更新

下午4时 2025/04/30 作者 AI寒武纪

OpenAI 撤回了 ChatGPT 的 GPT-4 更新版本，因为新模型变得过于奉承或易于苟同。OpenAI 计划改进训练技术和系统提示、加强“诚实透明”护栏，并让用户有更多控制权来调整默认行为。

最新！Qwen 3 GPQA跑分接近DeepSeek R1：仅用三分之一参数

上午11时 2025/04/30 作者 AI寒武纪

大模型独立分析公司Artificial Analysis对Qwen3进行了最新评估，结果显示其表现优异。特别是235B-A22B版本的Qwen3模型，在开启推理模式下达到了70%的GPQA Diamond得分，接近DeepSeek R1和Gemini 2.5 Flash的表现，相比阿里此前最好的Qwen1.5-32B模型有显著提升。