在这场大会上,我们看到了AI进入物理世界后的样子|

四位图灵奖得主集结,悟界大模型开启AI物理与生命科学新纪元


作者|王艺

编辑|栗子


6月7日,AI领域的顶级盛会——第七届北京智源大会在中关村国家自主创新示范区会议中心正式落下了帷幕。


「甲子光年」作为媒体全程参加了大会。整场大会参加下来,我们最明显的感受是,相较于往年的智源大会,本届智源大会亮点频频:


一是嘉宾量级更加重磅:本届大会邀请到了四位图灵奖得主,分别是深度学习代表人物约书亚·本吉奥(Yoshua Bengio)、强化学习之父理查德·萨顿(Richard S. Sutton)、约瑟夫·斯发基斯(Joseph Sifakis)和姚期智,是历届智源大会中图灵奖得主数量最多的。此外,包括Google、DeepMind、Meta、Mila、Physical Intelligence、MIT、斯坦福、UC Berkeley、Linux基金会等国际明星机构与技术团队代表,华为、百度、字节跳动、腾讯、阿里等互联网大厂以及智谱、宇树科技、生数科技、面壁等30多位AI公司的创始人、CEO,以及100余位全球青年科学家、200余位人工智能顶尖学者和产业专家等都来到了大会现场。


二是议题设置紧跟前沿:本次智源大会设置了20个论坛和180余场报告。主题包括多模态、深度推理、下一代AI路径、Agent智能体、具身智能、AI4S、AI产业、AI安全、AI系统和开源、类脑大模型等,这些都是当今学术界和产业界最为关心的话题;除了专题论坛,本届大会还设置了Tech Tutorial特色活动,并首次和联合Pytorch举办Pytorch Day China。


三是更加“有趣”、“有料”:本届大会不仅是学术交流和思想碰撞的场域,更是产品和技术的竞技擂台。在开幕式现场,银河通用的具身大模型机器人Galbot登台展示了端到端VLA大模型在商业零售场景的落地应用,《CMG世界机器人大赛·系列赛》机甲格斗擂台赛“AI策算师”冠军机器人宇树G1登台展示了敏捷帅气的“组合拳”,全球首个人形机器人半程马拉松冠军天工2.0也参与了现场互动,完成“准备点心”的精细化服务任务,获得满堂喝彩。


银河通用Galbot现场展示抓取物品,图源:智源研究院


宇树G1登台展示“组合拳”,视频来源:「甲子光年」拍摄


天工2.0现场展示水果摆盘,图源:智源研究院


除了会场内的展示,会场外,搭载智源研发的跨本体具身大小脑协作框架RoboOS 2.0以及具身大脑RoboBrain 2.0的各家的机器人更是“争奇斗艳”——


比如灵初智能的机械臂现场表演从桌面抓放物体:



松灵机器人的机械臂现场表演了制作汉堡:



宇树科技的机器人则现场给参会者倒起了果汁:



这场大会的开幕式也很值得关注。


比如,在开幕式上,图灵奖得主Yoshua Bengio做了题为《Avoiding catastrophic risks from uncontrolled AI agency》(避免不受控制的人工智能机构带来的灾难性风险)的演讲,指出部分前沿模型出现了自我保护、欺骗性对齐、篡改系统等类生物主体的行为,呼吁人类重视并预防这类风险;另一位图灵奖得主Richard Sutton则在《Welcome to the Era of Experience》(欢迎来到体验时代)的报告中表示,AI 正从依赖人类静态数据的 “人类数据时代” 迈入通过互动与经验学习的 “体验时代”,强调了强化学习对于智能体的重要性。


再比如,开幕式特意强调了“具身智能”元素——Physical Intelligence联合创始人兼CEO Karol Hausman做了题为《Building physical intelligence》(构建具身智能)的报告,指出VLA模型是具身智能发展的关键突破,可让机器人通过互联网数据学习,无需体验每个场景,还能与其他机器人连接获取数据;在随后的具身智能会客厅中,他则与智源研究院院长王仲远、宇树科技创始人王兴兴,银河通用创始人兼CTO、北京大学助理教授、智源具身智能研究中心主任王鹤,穹彻智能联合创始人、上海交通大学教授卢策吾,北京人形机器人创新中心总经理熊友军一起,就具身智能的不同技术路线、商业化路径探索、典型应用场景拓展、产业生态构建等议题展开了深度讨论。


但更加值得关注的,是智源研究院院长王仲远在做2025研究进展报告时,发布的“悟界”系列大模型


“悟界”系列大模型包含原生多模态世界模型Emu3脑科学多模态通用基础模型见微Brainμ跨本体具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0以及全原子微观生命模型OpenComplex2。其中,Emu3作为原生多模态统一架构让大模型具备理解和推理世界的能力,Brainμ基于Emu3架构引入了脑信号这一新的模态数据,RoboOS 2.0与RoboBrain 2.0新增了多机协作规划与物理常识驱动的空间推理能力;OpenComplex2可在原子分辨率层面捕捉分子相互作用及平衡构象探索微观构象波动与宏观生物功能的跨尺度关联


悟界系列大模型的发布,标志着人类在推动AI从数字世界向物理世界、从宏观理解到微观探索的技术路径上迈出了关键一步。




1.从“悟道”到“悟界”


回顾过去五年,智源研究院以”悟道”系列大模型为起点,走了一条“从大语言到多模态、再到世界模型”的大模型之路:


  • 2021年3月,“悟道”1.0系列模型发布,首次提出了“大模型”概念,开启了国产大模型时代;


  • 2021年6月,“悟道”2.0系列模型发布,不仅拥有1.75万亿参数规模,更是在知识推理、多语言生成等9项核心任务上实现国际领先;


  • 2023年6月,“悟道”3.0系列模型发布,其中,语言大模型悟道·天鹰(Aquila)集成了GPT-3/LLaMA架构优点,数据合规性得到了较大优化;视觉大模型悟道·视界覆盖了分类、检测、分割等任务,可以应用于自动驾驶、机器人感知等场景。


继“悟道”系列大模型在认知智能领域取得突破后,智源研究院此次推出的“悟界”系列,将目光投向了更为广阔和复杂的物理世界与生命科学。


“悟界”系列大模型主要包含四个模型:


首先是原生多模态世界模型Emu3。


该模型基于下一个token预测范式统一多模态学习,无需扩散模型或组合式架构的复杂性,通过研发新型视觉tokenizer将图像/视频编码为与文本同构的离散符号序列,构建模态无关的统一表征空间,实现文本、图像、视频的任意组合理解与生成。Emu3支持多模态输入、多模态输出的端到端映射,验证了自回归框架在多模态领域的普适性与先进性,为跨模态交互提供了强大的技术基座。


悟界Emu3文生图案例,图源:智源研究院 


「甲子光年」曾经在Emu3发布的第一时间就对其“Next Token Prediction”的自回归架构做了报道(详见《智源研究院 :Emu3证明Scaling Law在多模态大模型上依然成立|甲子光年》)。而此次智源研究院把Emu3作为“悟界”系列的首个模型进行发布,彰显了其对于多模态的重视。


具体而言,Emu3用一个从零开始训练的Transformer模型处理所有类型的数据——它提供了一个强大的tokenizer,能够将视频和图像转换为token。这些视觉离散token可以与文本tokenizer输出的离散token一起送入模型中,并统一到一个离散的token空间的。接着,Emu3通过auto-regressive(自回归)的方式一个接一个地预测序列中的token,然后生成文本、图像和视频。


Emu3架构,图源:智源研究院


其次是脑科学多模态通用基础模型见微Brainμ。


Brainμ基于Emu3的底层架构,将fMRI、EEG、双光子等神经科学与脑医学相关的脑信号统一token化,利用预训练模型多模态对齐的优势,可以实现多模态脑信号与文本、图像等模态的多向映射,并实现跨任务、跨模态、跨个体的统一通用建模,仅凭单一模型,就可以完成多种神经科学的下游任务


Brainμ整合了神经科学领域多个大型公开数据集和多个合作实验室的高质量神经科学数据,完成了超过100万单位的神经信号预训练,模型可以支持神经科学领域从基础研究临床研究和脑机接口应用的不同方向,有望成为脑科学的“AlphaFold”模型。


同时,作为神经科学领域跨任务、跨模态、跨个体的基础通用模型,Brainμ可同步处理多类编解码任务,兼容多物种动物模型(包括小鼠、狨猴 猕猴)与人类数据,实现科学数据注释、交互式科学结论解读、大脑感觉信号重建及模拟刺激信号生成。在自动化睡眠分型、感官信号重建与多种脑疾病诊断等任务中,Brainμ作为单一模型的性能显著超越了该领域的其他专有模型。


脑科学多模态通用基础模型见微Brainμ,视频来源:智源研究院


作为整合大规模多模态数据的基础通用模型,Brainμ也可以支持拓展脑机接口应用,在与脑机接口企业强脑科技BrainCO的合作中,Brainμ实现了首次在便携式消费级脑电系统上重建感觉信号,展现了模型支持拓展脑机接口应用能力的潜力。


目前,智源正在与国内前沿的基础神经科学实验室、脑疾病研究团队和脑机接口团队深入合作,包括北京生命科学研究所、清华大学、北京大学、复旦大学与强脑科技BrainCO,拓展Brainμ的科学与工业应用。


第三是跨本体具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0。


跨本体具身大小脑协作框架RoboOS 2.0是全球首个基于具身智能SaaS平台的、支持无服务器一站式轻量化的机器人本体部署开源框架。同时,RoboOS 2.0也是全球首个支持MCP的跨本体具身大小脑协作框架。它旨在构建具身智能领域的“应用商店”生态——通过该框架,用户可一键下载并部署来自全球开发者创建的相同型号机器人本体的小脑技能,完成大小脑的无缝整合。此外,RoboOS 2.0实现了小脑技能的免适配注册机制,显著降低了开发门槛,典型场景下,相关代码量仅为传统手动注册方式的1/10


相较于1.0,RoboOS 2.0对端到端推理链路进行了系统级优化,整体性能提升达30%,全链路平均响应时延低至3ms以下,端云通信效率提升27倍。在功能层面,RoboOS 2.0新增了多本体时空记忆场景图(Scene Graph)共享机制,支持动态环境下的实时感知与建模;同时引入了多粒度任务监控模块,可以实现任务闭环反馈,有效提升了机器人任务执行的稳定性与成功率。


RoboBrain2.0,图源:官网:https://superrobobrain.github.io


RoboBrain 2.0是目前全球最强的开源具身大脑大模型,在多项空间推理与任务规划指标上超越了主流大模型——


在任务规划方面,RoboBrain 2.0相比于RoboBrain 1.0的基于Prompt的多机任务规划机制和初级空间理解能力,进一步扩展了基于多本体-环境动态建模的多机协同规划能力,可实时构建包含本体定位的场景图(Scene Graph),并自动完成跨本体的任务规划。实验数据显示,RoboBrain 2.0的任务规划准确率相较RoboBrain 1.0实现了74%的效果提升。


在空间智能方面,RoboBrain 2.0在原有可操作区域(Affordance)感知与操作轨迹(Trajectory)生成能力的基础上,实现了17%的性能提升。同时,RoboBrain 2.0增加了空间推理能力(Spatial Referring),既包含机器人对相对空间位置(如前后、左右、远近)及绝对距离的基础感知与理解能力,也实现了对复杂空间的多步推理能力。


此外,RoboBrain 2.0还新增了闭环反馈以及具身智能的深度思考能力。闭环反馈使机器人能够根据当前环境感知和任务状态,实时调整任务规划与操作策略,以应对复杂环境中的突发变化和扰动;深度思考能力则支持机器人对复杂任务进行推理分解,进一步提升整体执行准确率与任务完成的可靠性。


正如视频所示,搭载了RoboBrain 2.0不仅可以制作汉堡,还可以根据女生“减肥”的意图为她选择合适的饮料、并在女生用餐结束后为她清理垃圾。


搭载了 RoboOS 2.0和RoboBrain 2.0的机器人为女生做汉堡、倒饮料,视频来源:智源研究院


目前,RoboOS 2.0与RoboBrain 2.0已全面开源,包括框架代码、模型权重、数据集与评测基准等;智源研究院也与全球20多家具身智能企业建立了战略合作关系,共同打造协同共生的具身智能生态体系。


最后是全分子微观生命模型OpenComplex2。


全原子微观生命模型OpenComplex2实现了生物分子研究从静态结构预测到动态构象分布建模的重大突破。该模型能够表征生物分子系统的连续演化能量景观(Energy Landscape),并通过融合扩散生成式建模与生物实验数据,在原子分辨率层面捕捉分子相互作用及平衡构象分布,为探索微观构象波动与宏观生物功能的跨尺度关联提供了全新的研究视角。


OpenComplex2基于FloydNetwork图扩散框架以及多尺度原子精度表示两大技术创新,有效突破了生物分子在功能活动中可及的动态构象分布预测的瓶颈,从而能够建模生物分子系统中各种原子组分之间复杂的依赖关系,且无需对构象空间施加先验约束,更加真实地还原生物分子的构象多样性和动态特性。此外,OpenComplex2能同时捕捉原子级、残基级和基序级(motif level)的相关性,从而在建模过程中兼顾关键的局部结构细节与全局构象变化,为揭示生物功能提供了更加全面的结构基础。


全分子微观生命模型OpenComplex2,视频来源:智源研究院


目前,OpenComplex2模型在生物分子动态特性预测、柔性系统及超大型复合物建模、生物分子相互作用精细化分析等关键任务中突破了静态结构预测的瓶颈,表现出了卓越的性能。2024年,在第16届蛋白质结构预测关键评估竞赛CASP16(Critical Assessment of protein Structure Prediction)中,OpenComplex2成功预测了蛋白质T1200/T1300的空间构象分布(定性上与实验数据一致),成为23支参赛队伍中唯一取得该突破的团队


「甲子光年」认为,OpenComplex2为原子级结构生物学提供了一种全新的建模工具,通过统一框架解码生物分子系统的动态作用机制,将加速从基础分子机制研究到药物设计等下游应用的发展。




2.聚焦All in 开源


除了“悟界”系列大模型,“开源”也是此次北京智源大会的重要主题。


作为非营利科研机构,智源研究院一直坚持“开源、开放”的原则。过去一年时间里,智源开源了70多款模型,除了上述四类模型外,还有通用向量模型BGE系列、轻量长视频理解模型Video-XL系列、全能视频生成模型OmniGen等。


2024年,智源推出了开源AI系统软件栈FlagOS系统。而在本次大会的开幕式上,智源将AI系统软件栈FlagOS进一步升级,新增了统一编译器FlagTree、统一通信库FlagCX、自动发版平台工具FlagRelease等板块,全面覆盖统一生态技术需求,实现了对11家国内外厂商的18款异构AI硬件的统一支持;FlagGems的算子平均性能已优于国际主流算子,并行训推框架FlagScale与人工优化相比,实现了最高23%的自动并行加速。


「甲子光年」了解到,升级后的FlagOS已支持DeepSeek、通义千问等更多开源大模型实现跨硬件平台运行。


截至目前,智源研究院已开源约200个模型和160个数据集,其中,模型全球总下载量超6.4亿次,开源数据集下载量近113万次,开源项目代码下载量超140万次。


此外,在开幕式的现场,Linux基金会执行董事Jim Zemlin做了题为《Open Source AI Has Won:Why That‘s Great for the World》的演讲。在演讲中他提到,2025 年是开源 AI 元年,开源正成为全球 AI 创新核心驱动力——哈佛商学院数据显示,全球开源软件经济价值达 9 万亿美元,可帮助开发者节约 70% 开发成本。而中国企业如DeepSeek发布开源大模型的行为不仅引发了技术生态变革,更是印证了开源打破垄断、加速迭代的作用。开源治理是平衡竞争与协同的核心机制,也是是技术普惠的唯一路径。它不仅是代码共享,更需全球协作。


Linux基金会执行董事Jim Zemlin,图源:智源研究院


智源研究院副院长兼总工程师林咏华则与Linux基金会执行董事Jim Zemlin与LAION工程负责人兼创始人Richard Vencu就全球AI开源与合作展开了深度对话。嘉宾们普遍认为,开源是AI发展的核心,数据集共享是关键基础,全球合作至关重要,应当鼓励开发者从提交代码等小事参与开源,共同推动AI创新。


开源对话,图源:智源研究院




3.“装护栏”还是“踩油门”?


在本届智源大会上,两位图灵奖得主Yoshua Bengio和Richard Sutton的报告也都围绕AI安全展开。但是,两位图灵奖得主的观点却不尽相同。


Yoshua Bengio认为,我们都低估了AI进步的速度——AI的能力正呈指数级增长,尤其是在规划、推理和欺骗等能力上,很快将超越人类。他列举了近期研究中发现的AI行为,如在游戏中作弊、为了自我保护而复制自身代码、对人类说谎、甚至“勒索”工程师等。这些行为是AI为了达成目标而产生的“自我保护”本能,是非常危险的信号。


他指出,当AI变得比人类更聪明并拥有自己的目标时,可能会为了实现其目标而失控,甚至与人类开发者形成竞争,最终可能导致灾难性甚至是毁灭性的后果。


因此,他提出了一种技术解决方案,即开发一种“科学家AI”(Scientist AI)。这种AI不是一个追求自身目标的“智能体”,而是一个诚实的“预测器”。它的核心功能是理解世界并预测不同行为的后果,充当一个“AI护栏”,监督和评估其他AI的行为是否会违背人类设定的安全准则。


“科学家AI护栏”的运作机制,图源:「甲子光年」拍摄


此外,Bengio还强调,仅有技术方案是不够的。当前的全球AI竞赛(类似军备竞赛)导致各国和公司忽视了安全性投入。他强烈呼吁建立国际性的法规和条约(类似核武器管制),确保所有领先国家共同遵守安全原则,避免将AI用作相互竞争的武器。


与Yoshua Bengio认为应该为AI“装护栏”不同,Richard Sutton则对AI的发展前景非常乐观,表示我们应该为AI“踩油门”。


Richard Sutton认为,AI正经历一个根本性的转变。过去,AI主要依赖于人类创造的静态数据集(文本、图像)进行学习,他称之为“人类数据时代”,而这个时代的数据量即将耗尽。未来属于“体验时代”,即AI需要像人类和动物一样,通过与环境的实时互动来主动学习和创造新知识。


他强调,真正的智能来源于经验。无论是婴儿玩玩具、球员踢足球,还是动物捕食,都是通过与世界互动来积累经验,从而获得智慧。AlphaGo的成功就是最好的例证。


Richard Sutton表示,未来的AI社会不应该是一个被集中控制的、只有一个目标的系统,而应该是一个由无数拥有不同目标的AI智能体组成的、去中心化的生态。就像人类社会一样,虽然个体目标各异,但通过合作可以实现共同繁荣。合作是人类的“顶级力量”,也是解决问题的最佳方式。


Richard Sutton PPT“合作是人类的超能力”,图源:「甲子光年」拍摄


因此,他明确反对“集中控制AI”的呼声,认为这种想法源于恐惧和不信任。他将限制AI发展的呼吁与限制言论自由、贸易自由相提并论,认为它们都根植于恐惧,而我们应该选择信任与合作。


第七届北京智源大会的帷幕已经落下,但其激荡起的思想涟漪与技术浪潮,无疑将在未来一段时间内持续影响人工智能领域的发展。从星光熠熠的图灵奖得主到前沿的议题设置,从“悟界”系列大模型的惊艳亮相到对开源生态的坚定投入,本届智源大会不仅展示了中国在人工智能领域的雄心与实力,也为全球AI的未来发展路径提供了丰富的思考维度。而未来,如何在拥抱技术进步的同时,构建一个负责任、可信赖的AI生态,将是摆在所有从业者和关注者面前的共同课题,考验着全人类的智慧与远见。


黄铁军闭幕致辞,图源:「甲子光年」拍摄


正如智源研究院理事长黄铁军在闭幕致辞所说,尽管人工智能不能在“自主性”、“通用性”和“智能”方面同时超越人类,但我们仍然可以利用其探索星辰大海,人类的使命依旧伟大而光荣。





(文:甲子光年)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往