谷歌DeepMind强化学习微调技术,重构了大语言模型决策范式
谷歌DeepMind与LIT AI实验室的研究通过强化学习微调技术显著提升语言模型的决策能力,引发对未来AI新纪元的关注。该研究采用内在奖励机制和惩罚-塑造机制增强模型在真实世界中的应用效果,并探索人机共生、道德涌现等前沿议题。
谷歌DeepMind与LIT AI实验室的研究通过强化学习微调技术显著提升语言模型的决策能力,引发对未来AI新纪元的关注。该研究采用内在奖励机制和惩罚-塑造机制增强模型在真实世界中的应用效果,并探索人机共生、道德涌现等前沿议题。
Google DeepMind 推出的 AlphaEvolve 智能体结合大语言模型和自动化评估机制,在算法设计领域取得多项突破,包括优化数据中心效率、芯片设计以及解决数学难题。
谷歌DeepMind发布编程AI AgentAlphaEvolve,通过结合大语言模型和自动化评估技术,提升算法设计与优化效率,在多个领域应用广泛。
谷歌DeepMind发布AI Agent AlphaEvolve,能自动评估通用算法并解决复杂的数学难题。它与大模型Gemini集成,提升了矩阵乘法运算效率。AlphaEvolve还能优化GPU底层指令和设计新算法。
谷歌DeepMind发布AlphaEvolve智能体,通过自动化考官系统优化算法并应用于多个核心业务中,包括数据中心调度、芯片设计及AI训练提速等。此外,AlphaEvolve还在数学算法发现上取得突破。
清华聘任前谷歌DeepMind科学家Alex Lamb为助理教授,美国AI人才反向流动加速。此前他曾看低中国AI研究,现选择加入清华大学。多位美国AI专家表示考虑离开,特朗普政府的移民政策加剧了这一趋势,中国正成为AI人才的主要目的地。
谷歌Gemini 2.5 Pro在模型训练和推理优化方面取得突破,Vlad Feinberg揭秘其核心技术。通过经典扩展定律、推理优化扩展定律以及知识蒸馏技术,谷歌找到了最优解,在资源有限的情况下实现了性能提升。
谷歌DeepMind CEO Demis Hassabis在《60分钟》节目中分享了人工智能的最新进展。他提到AI正在‘看见’并理解真实世界,展示了AI助手Astra的实时识别、深度理解和创造故事能力。他还介绍了一种新模型Genie 2,能够将静态图片转化为互动3D环境,并指出未来5到10年内AGI可能会出现,使AI具备好奇心和主动提出问题的能力。此外,他预测在10年内可能终结所有疾病,基于AlphaFold模型在蛋白质结构预测上的成果。
谷歌DeepMind发布的新模型Veo 2可以在用户提示下生成最高8秒720P电影级视频,已超过多个同类应用。API可免费使用,目前支持图片转视频和多种场景视频生成。