谷歌DeepMind强化学习微调技术,重构了大语言模型决策范式

谷歌DeepMind与LIT AI实验室的研究通过强化学习微调技术显著提升语言模型的决策能力,引发对未来AI新纪元的关注。该研究采用内在奖励机制和惩罚-塑造机制增强模型在真实世界中的应用效果,并探索人机共生、道德涌现等前沿议题。

重磅!谷歌DeepMind发布AlphaEvolve:AI界的“算法设计进化大师”诞生

谷歌DeepMind发布AlphaEvolve智能体,通过自动化考官系统优化算法并应用于多个核心业务中,包括数据中心调度、芯片设计及AI训练提速等。此外,AlphaEvolve还在数学算法发现上取得突破。

清华出手,挖走美国顶尖AI研究者!前DeepMind大佬被抄底,美国人才倒流中国

清华聘任前谷歌DeepMind科学家Alex Lamb为助理教授,美国AI人才反向流动加速。此前他曾看低中国AI研究,现选择加入清华大学。多位美国AI专家表示考虑离开,特朗普政府的移民政策加剧了这一趋势,中国正成为AI人才的主要目的地。

52页PPT,谷歌Gemini预训练负责人首次揭秘!扩展定律最优解

谷歌Gemini 2.5 Pro在模型训练和推理优化方面取得突破,Vlad Feinberg揭秘其核心技术。通过经典扩展定律、推理优化扩展定律以及知识蒸馏技术,谷歌找到了最优解,在资源有限的情况下实现了性能提升。

诺奖得主DeepMind CEO最新发声:10年可能终结所有疾病

谷歌DeepMind CEO Demis Hassabis在《60分钟》节目中分享了人工智能的最新进展。他提到AI正在‘看见’并理解真实世界,展示了AI助手Astra的实时识别、深度理解和创造故事能力。他还介绍了一种新模型Genie 2,能够将静态图片转化为互动3D环境,并指出未来5到10年内AGI可能会出现,使AI具备好奇心和主动提出问题的能力。此外,他预测在10年内可能终结所有疾病,基于AlphaFold模型在蛋白质结构预测上的成果。