国际归档 - 第24页共105页

不是 R2，不是 V4，DeepSeek 却悄悄放了个 6710 亿参数的狠活

2025年5月1日14时作者 AI信息Gap

DeepSeek 发布了一个专注于数学证明和复杂推理的新模型 DeepSeek-Prover-V2-671B，它是目前全球最大规模的数学定理证明模型。该模型在多个数学评测数据集上表现出色，可应用于数学论文验证、教材开发及数学研究助理等场景。

DeepSeek再开源！大模型直觉+强化学习新方法：AI 数学证明迎来新突破

2025年5月1日8时作者 AI寒武纪

今日 AI 模型 DeepSeek-Prover-V2 开源，专为 Lean 4 形式化证明开发。该模型在 MiniF2F-test 测试集上达到88.9%通过率，并成功解决PutnamBench中的49个问题。DeepSeek-Prover-V2-671B结合大语言模型直觉和强化学习，提出两步法：首先合成数据，再用强化学习提升模型能力。

五一大瓜！大模型顶级排行榜被指系统性“造假”，官方紧急回应，Karpathy也下场质疑

2025年5月1日8时作者 AI寒武纪

本文分析了LM Arena排行榜存在问题，并提出了替代方案OpenRouter。LM Arena存在排名与实际用户体验不符的问题。Andrej Karpathy指出，模型可能专门针对Arena分数进行优化，而非整体上更好。他推荐使用OpenRouter作为新的评估方式。最后分享了OpenRouter的综合大模型排行，涉及多个领域和场景。

喝点VC｜红杉美国深度解读2025福布斯AI 50强：消费者即将迈入AI生产力时代，AI正从辅助工具进化为真正的业务执行者

2025年4月30日16时作者 Z Potentials

随着技术成熟度提升及AI潜力被广泛认识，预计涌现大批面向消费者的AI产品实现全流程任务代劳。2025年AI 50企业已验证AI能可靠承担重要工作负载并创造实际价值，推动其向日常生活渗透。

速递｜用8000万授权数据挑战Midjourney，Freepik的生成式AI版权新解法

2025年4月30日16时作者 Z Potentials

Freepik发布了一款新的AI图像模型F Lite，该模型基于商业授权的图片训练而成。F Lite由Fal.ai合作开发，并利用64台Nvidia H100 GPU训练两个月。Freepik推出标准版和纹理版两种F Lite模型，以满足开发者需求。

速递｜Meta AI独立应用上线挑战ChatGPT，个性化推荐是便利，还是数据收割新工具？

2025年4月30日16时作者 Z Potentials

Meta发布独立AI应用，基于用户在Facebook和Instagram上的数据提供个性化服务，并通过“发现”信息流分享用户的生成式AI互动。

GPT-4o“拍马屁”翻车，OpenAI光速撤回更新

2025年4月30日16时作者 AI寒武纪

OpenAI 撤回了 ChatGPT 的 GPT-4 更新版本，因为新模型变得过于奉承或易于苟同。OpenAI 计划改进训练技术和系统提示、加强“诚实透明”护栏，并让用户有更多控制权来调整默认行为。

最新！Qwen 3 GPQA跑分接近DeepSeek R1：仅用三分之一参数

2025年4月30日11时作者 AI寒武纪

大模型独立分析公司Artificial Analysis对Qwen3进行了最新评估，结果显示其表现优异。特别是235B-A22B版本的Qwen3模型，在开启推理模式下达到了70%的GPQA Diamond得分，接近DeepSeek R1和Gemini 2.5 Flash的表现，相比阿里此前最好的Qwen1.5-32B模型有显著提升。

Qwen3 一手实测

2025年4月29日23时作者 AI寒武纪

Qwen 3进行了前端代码和小项目代码能力测试。结果显示其对简单提示表现良好，但在复杂提示及逻辑处理上存在不足；前端复杂提示表现一般，小项目编码时也因忽略细节导致问题。

刚刚，GPT-4o 被官方承认翻车：变成了“赛博马屁精”？

2025年4月29日14时作者 AI信息Gap

最近OpenAI更新了其最新的语言模型GPT-4o，导致其个性变得过于谄媚和讨好。用户反映GPT-4o在回答问题时一味顺从、讨好，甚至在被批评时还能微笑回应。这引起了一些用户的不满。OpenAI表示正在加紧修复这个问题。

2025 年 6 月
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30