谷歌DeepMind强化学习微调技术重构了语言模型决策范式

AI决策能力不足成为行业关注的问题。谷歌DeepMind与LIT AI实验室的研究通过强化学习微调技术提升了语言模型500%的决策能力。该方法利用思维链作为训练信号,并设计了惩罚-塑造机制,使模型能够在动态环境中做出可持续决策。研究显示单一增加模型规模无法突破执行鸿沟。

知乎AI大会,火山引擎创业大赛…5月不可错过的AI活动都在这里了

本月有多场开发者大会和活动即将举行。包括微软、谷歌及Anthropic的开发者大会,6月还有Apple WWDC活动。国内有知乎科技举办的AI变量研究所论坛、WaytoAGI主办的全球AI大会等。另有面向所有对AI编程感兴趣的朋友开放的技术小白也能做产品!AI编程创意挑战赛。更多详情请访问原文。

再见Bug!谷歌超级编码智能体Jules上线,免费使用直连GitHub

谷歌推出编程智能体Jules,支持Python和JavaScript,提供每日5次免费任务。它能自动修复代码中的bug、生成PR,并简化测试流程。Jules运行在最新多模态Gemini 2.5 Pro模型上,预计今年晚些时候将推出更多功能和企业版。