跳至内容


智东西6月6日报道,今日,智源研究院重磅发布全新悟界系列大模型,是其对AI从数字世界迈向物理世界技术趋势判断交出的最新答卷。
智源研究院的悟道系列大模型拉开了中国大模型时代,如今AI加速从数字世界迈向物理世界,悟界系列大模型已然成为其面向AI下一阶段发展的代表。
与此同时,智源研究院作为链接产业界和学术界的重要平台,其举办的智源大会已经发展成AI领域的顶级学术盛会。
今年第七届智源大会更是顶级大咖云集,包含图灵奖得主、深度学习代表人物Yoshua Bengio,图灵奖得主、强化学习之父Richard S. Sutton,图灵奖得主Joseph Sifakis、姚期智4位图灵奖得主,30余位企业创始人或CEO、100余位青年科学家、200余位AI顶尖学者和产业专家,他们将开展180多场AI主题分享。
大模型正在经历从数字世界向物理世界的演进,悟界系列大模型应运而生,以拓展AI与物理世界交互的边界。
从微观生命体到具身智能体,悟界系列大模型共包含4款大模型。
1、原生多模态世界模型Emu3、脑科学多模态通用基础模型见微Brainμ
原生多模态世界模型Emu3,基于下一个token预测范式统一多模态学习,使模型更易扩展至更多模态。同时其通过研发新型视觉tokenizer将图像/视频编码为与文本同构的离散符号序列,构建模态无关的统一表征空间,可实现文本、图像、视频的任意组合理解与生成。
脑科学领域的多模态通用基础模型见微Brainμ,基于Emu3的底层架构,将fMRI、EEG、双光子等神经科学与脑医学相关的脑信号统一token化,利用预训练模型多模态对齐的优势,可以实现多模态脑信号与文本、图像等模态的多向映射,这使得单一模型就能完成多种神经科学下游任务,实现跨模态、跨任务、跨个体的统一通用建模。
目前,Brainμ整合了神经科学领域多个大型公开数据集和多个合作实验室的高质量神经科学数据,完成了超过100万单位的神经信号预训练。
智源研究院已经与国内顶尖脑科学团队、脑疾病研究团队、脑机接口应用团队建立了合作,例如与脑机接口公司强脑科技合作实现了首次在便携式消费级脑电系统上重建感觉信号。
2、跨本体具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0
具身智能作为AI与宏观物理世界交互的一个关键载体,智源研究院发布的跨本跨本体具身大小脑协作框架RoboOS 2.0是全球首个基于具身智能SaaS平台、支持无服务器一站式轻量化机器人本体部署的开源框架。同时,RoboOS 2.0也是全球首个支持MCP的跨本体具身大小脑协作框架,旨在构建具身智能领域的“应用商店”生态。
RoboOS 2.0实现了小脑技能的免适配注册机制,显著降低开发门槛,典型场景下,相关代码量仅为传统手动注册方式的1/10。相比于1.0,RoboOS 2.0对端到端推理链路进行了系统级优化,整体性能提升达30%,全链路平均响应时延低至3ms以下,端云通信效率提升27倍。
具身大脑RoboBrain 2.0是目前全球最强的开源具身大脑大模型,在多项空间推理与任务规划指标上超越主流大模型。
RoboOS 2.0与RoboBrain 2.0已全面开源,包括框架代码、模型权重、数据集与评测基准。
除了宏观世界,物理世界还有一大重要组成部分是微观世界。悟界系列的第四大模型正是全原子微观生命模型OpenComplex2。
OpenComplex2实现了生物分子研究从静态结构预测到动态构象分布建模的重大突破。该模型能够表征生物分子系统的连续演化能量景观(Energy Landscape),并通过融合扩散生成式建模与生物实验数据,在原子分辨率层面捕捉分子相互作用及平衡构象分布。
从悟道到悟界系列大模型的发布,是智源研究院探索实现AGI的重要一步。
去年智源大会上,王仲远就谈到了对大模型技术路径演进的看法:AGI可能的技术演化路径将会从大语言模型到统一的多模态大模型,然后进入物理世界、微观世界形成世界模型,最终推动AGI时代到来。
时至今日,这一判断也在实践中得到了验证。AI长远的目标是被用来解决实际问题,如今大模型研发已经进入解构现实世界的新阶段。
可以看出,作为引领AI产业发展的顶尖机构,智源研究院成立至今已经多次预见AI的发展机遇。
2020年,智源研究院成立百人技术攻关团队,至今已先后发布悟道1.0、2.0、3.0系列模型,构建了全栈大模型技术开源体系,并孵化出国内数家知名大模型创企;如今站在AI产业发展的关键转折点,悟界系列大模型应运而生。
从“悟道”与“悟界”命名也可以更为直观感受到,悟道的“道”代表智源研究院对大语言模型系统化方法论的探索,悟界的“界”则代表对虚实世界边界的不断突破。
更为重要的是,即使AI产业发展的重心不断变化,开源一直是智源研究院坚持的底色。
智源研究院打造的覆盖模型、算法、数据、评测、系统的大模型开源技术体系FlagOpen,截至目前已开源约200个模型和160个数据集,其中,模型全球总下载量超6.4亿次,开源数据集下载量近113万次,开源项目代码下载量超140万次。
其中,在开源模型方面,通用向量模型BGE于去年10月成为中国首个登顶 Hugging Face月度下载排行榜榜首的开源模型,同时也是截至去年年底的2023年所有发布模型的全球下载量冠军;开源轻量长视频理解模型Video-XL 2,支持在单张显卡上高效处理长达万帧的视频输入;开源全能视觉生成模型OmniGen,采用极简架构,仅由大模型基座和VAE模块构成,可降低了开发和部署成本,并通过广泛的指令学习,实现了视觉生成能力的高度集成。
此外,智源研究院构建的AI系统软件栈FlagOS实现升级,新增了统一编译器FlagTree、统一通信库FlagCX、自动发版平台工具FlagRelease,实现对11家国内外厂商的18款异构AI硬件的统一支持。
将视野放大到整个AI产业,我们可以更为清晰的观察到智源研究院当下布局在产业中的重要性。
目前,诸多企业都在朝着多模态基础模型、具身智能等方向进行探索,但痛点在于技术路线多元且并不收敛。
因此,智源研究院在此基础上,更看重对不同技术路线、方法的探索,当其研究达到一定成果就会通过开源的方式让企业来做。
一直以来,智源研究院都走在AI产业技术路线探索的前沿,并通过构建开源开放的生态推动学术界与产业界的发展。如今,AI产业正经历从数字世界走向物理世界,智源研究院的角色进一步凸显。
而北京智源大会作为“AI内行学术盛会”,不仅是智源研究院成果发布与探索的展现平台,更承载着海内外研究者分享研究成果、探寻前沿知识、交流实践经验的重要意义。
(文:智东西)