ICML 2025 细粒度奖励建模:判别式策略优化下的Q-RM方法

近日,中山大学计算机学院与腾讯微信搜索团队联合提出 Q-RM(Q-function Reward Model),在 ICML 2025 正式发表。这一方法专注于构建更精确的 token-level 奖励信号,显著提升了大语言模型的训练效率和效果。

新的AlphaGo时刻要来?谷歌推出“进化式”编程智能体,AI已学会设计高级算法!

谷歌DeepMind发布了AlphaEvolve模型,这是一个基于Gemini的独特编码代理,可用于设计高级算法、改进AI芯片设计以及解决数学和计算机科学领域中的其他重大问题。该模型展示了自主进化的潜力,并在内部应用中取得了显著效果,同时有望推进更广泛的科研和技术领域的进步。