日期: 2025 年 6 月 5 日
英伟达揭示RL Scaling魔力!训练步数翻倍=推理能力质变,小模型突破推理极限
NVIDIA团队提出ProRL框架,在2000步以上长期强化学习基础上,大幅提升大语言模型的推理能力。ProRL训练后模型在逻辑谜题等任务中表现出显著进步,不仅提高了解题准确率,还能生成新解法。研究揭示了长期RL训练的重要性及其对模型边界扩展的影响。
陶哲轩再爆:一个月三破18年未解难题!AlphaEvolve彻底改写数学研究规则
数学难题在30天内被AlphaEvolve与人类联手三度突破,和差集指数θ从1.173050提升至1.173077。AI提供初始构造,人类进行深度思考和理论升华。展示了未来科学发现中新范式。
深度研究白菜化?谷歌将Gemini级AI研究能力开源
谷歌发布开源项目Gemini-fullstack-langgraph-quickstart,结合Gemini 2.5模型与LangGraph框架,展示快速构建研究型AI代理系统的方法。项目分为五步智能查询生成、网络信息搜集、反思与知识缺口分析、迭代优化搜索和综合答案生成,强调组合式AI架构、可解释性设计和实时信息整合。
爆火AI编程Windsurf突遭Claude全面断供,开发者大量退订!直接打脸OpenAI
Windsurf CEO发文控诉Anthropic仅五天通知就大幅减少Claude 3.5和3.7 Sonnet模型服务配额,导致用户体验受影响。Windsurf已采取措施应对断供,并通过BYOK开放所有模型接入通道。