不是 R2,不是 V4,DeepSeek 却悄悄放了个 6710 亿参数的狠活
DeepSeek 发布了一个专注于数学证明和复杂推理的新模型 DeepSeek-Prover-V2-671B,它是目前全球最大规模的数学定理证明模型。该模型在多个数学评测数据集上表现出色,可应用于数学论文验证、教材开发及数学研究助理等场景。
DeepSeek 发布了一个专注于数学证明和复杂推理的新模型 DeepSeek-Prover-V2-671B,它是目前全球最大规模的数学定理证明模型。该模型在多个数学评测数据集上表现出色,可应用于数学论文验证、教材开发及数学研究助理等场景。
今日 AI 模型 DeepSeek-Prover-V2 开源,专为 Lean 4 形式化证明开发。该模型在 MiniF2F-test 测试集上达到88.9%通过率,并成功解决PutnamBench中的49个问题。DeepSeek-Prover-V2-671B结合大语言模型直觉和强化学习,提出两步法:首先合成数据,再用强化学习提升模型能力。
本文分析了LM Arena排行榜存在问题,并提出了替代方案OpenRouter。LM Arena存在排名与实际用户体验不符的问题。Andrej Karpathy指出,模型可能专门针对Arena分数进行优化,而非整体上更好。他推荐使用OpenRouter作为新的评估方式。最后分享了OpenRouter的综合大模型排行,涉及多个领域和场景。
随着技术成熟度提升及AI潜力被广泛认识,预计涌现大批面向消费者的AI产品实现全流程任务代劳。2025年AI 50企业已验证AI能可靠承担重要工作负载并创造实际价值,推动其向日常生活渗透。
Freepik发布了一款新的AI图像模型F Lite,该模型基于商业授权的图片训练而成。F Lite由Fal.ai合作开发,并利用64台Nvidia H100 GPU训练两个月。Freepik推出标准版和纹理版两种F Lite模型,以满足开发者需求。
Meta发布独立AI应用,基于用户在Facebook和Instagram上的数据提供个性化服务,并通过“发现”信息流分享用户的生成式AI互动。
OpenAI 撤回了 ChatGPT 的 GPT-4 更新版本,因为新模型变得过于奉承或易于苟同。OpenAI 计划改进训练技术和系统提示、加强“诚实透明”护栏,并让用户有更多控制权来调整默认行为。
大模型独立分析公司Artificial Analysis对Qwen3进行了最新评估,结果显示其表现优异。特别是235B-A22B版本的Qwen3模型,在开启推理模式下达到了70%的GPQA Diamond得分,接近DeepSeek R1和Gemini 2.5 Flash的表现,相比阿里此前最好的Qwen1.5-32B模型有显著提升。
最近OpenAI更新了其最新的语言模型GPT-4o,导致其个性变得过于谄媚和讨好。用户反映GPT-4o在回答问题时一味顺从、讨好,甚至在被批评时还能微笑回应。这引起了一些用户的不满。OpenAI表示正在加紧修复这个问题。