
“选择合成数据赛道的底层逻辑其实很简单,AI 的快速爆发带来了数据需求,这个 Gap 要靠合成数据去填。”
光轮智能联合创始人兼总裁杨海波表示,在大语言模型领域不存在外部合成数据的发展机会,因为其自身就具备强大的数据生成能力,能够利用自身模型结合专家标注自我服务。然而,随着人工智能向物理世界拓展,给外部公司带来了供应合成数据的商机。
光轮智能正在做的事就是,提供帮助 AI 进入物理世界的 3D 合成数据。具体来说,光轮智能为具身智能行业提供拥有足够真实的物理交互能力的、人类示范在环的、场景足够丰富的仿真合成数据。
现在,光轮智能几乎服务了所有的国内外头部的具身智能企业和主机厂, 包括英伟达、Figure AI、DeepMind、Wayve、智元机器人、银河通用、比亚迪、博世等数十家公司。
在这背后,是一支年轻化的技术团队,成员以 90 后、00 后为主力,不仅吸纳了来自英伟达的仿真专家、阿里最年轻的算法人才,还招募了众多应届生。在创业初期短短几个月内,光轮智能的核心班底便基本就位,其中不乏因看好行业需求主动加入的成员。
这家成立仅数月的企业,在合成数据尚未成为风口时便完成多轮数千万级融资。杨海波透露,光轮智能的融资一直很顺利。
“我们原计划用三年教育市场,但 2024 下半年合成数据行业拐点比预期来得更迅猛。”
前不久,Meta 计划斥资约 150 亿美元入股合成数据独角兽 Scale AI 49% 股权的消息震惊业内。“谁掌握数据,谁就握住了下一轮 AI 竞速的加速键。”杨海波指出。
令人瞩目的是,光轮智能的团队在创立两三个月内即实现产品商业化落地。
最初,光轮智能以自动驾驶切入具身智能第一个规模化的场景,不仅与全球头部主机厂及 Tier1 供应商完成签约交付,更通过定制化数据方案助推中国自主品牌出海;既为行业提供城市导航辅助驾驶(NOA)长尾数据解决方案,又联合顶尖车企加速端到端智驾算法工程化落地。
“头部客户最前沿的需求我们都满足了,这是对我们商业化能力的最佳印证。”杨海波表示。
在杨海波看来,相比同赛道公司,光轮智能的最大优势是独特的技术视野与路径。
“合成数据,是具身智能发展的必经之路”,杨海波指出,光轮智能聚焦的是具身合成数据,而具身合成数据有四个必备条件,也是光轮智能的最大优势:一是要有足够真实的物理交互能力、二是要有专家示范在环、三是场景足够丰富、四是要实现数据闭环验证。
首先,纯依赖传统 AI 技术的公司难以生成在视觉及物理交互层面都足够真实的数据,不能满足具身智能算法训练的核心需求。例如,自动驾驶领域的合成数据主要服务于识别算法,着重视觉真实性,但无需模拟实际物理参数的复杂反馈。
然而,对于具身智能而言,正如杨海波所强调的“掌握游泳技能需要亲身体验水流变化而非仅观察动作分解,要让机器人具备类人学习能力需要模拟出真实的物理反馈”,数据必须具备与物理世界交互时的真实物理反馈,例如拉开冰箱门需要精确模拟作用力、摩擦阻力和门铰链的运动规律;操作微波炉旋钮则需体现触觉反馈以及机械阻尼。
因此,生成满足具身智能训练需求的高质量合成数据,其必备条件之一就是能够真实地模拟这些物理交互过程及其反馈机制。光轮智能注重数据在物理与视觉层面的双重真实,据杨海波介绍,去年下半年,光轮智能实现了在物理级别仿真技术上的重大突破。
其次,光轮智能把“人类专家示范”机制作为合成数据的核心,利用合成数据技术将人类示范数据进行放大与泛化,来确保 AI 学习到物理世界的信息,真正给到模型训练价值。
杨海波指出,模型表面上是依赖算法能力,但其突破性的进展往往来自于人类专家的示范数据。正如 OpenAI 借助数千名专业标注员提炼人类反馈,Scale AI 则有数万个博士、工程师等专家标注员,特斯拉 FSD V12/13 基于”五星级驾驶员”数据进行自动驾驶训练。具身同样需要专家的遥操作数据作为种子,再通过仿真泛化出多样化的操作范式,填补 99% 的具身 Pre-Train(预训练)阶段的数据缺口。
“合成数据本质是放大人的示范作用,我们不相信纯粹 AI 生成的合成数据能够实现对 AI 的喂养。” 杨海波表示,纯 AI 生成数据类似于把 AI 当成数据永动机,AI 不可能通过完全自我训练突破现有能力边界。
总的来说,视觉真实和物理交互真实是光轮智能做合成数据的两个重要前置条件,而“人类专家示范”机制作为确保合成数据能源源不断地吸收新认知的关键是一个隐含条件。
如何高效、高质量地放大真实数据中的人类示范,也是光轮智能做合成数据的核心技术挑战。据杨海波介绍,难点主要体现在三个维度:一,不同领域对真实性的要求不同;二,数据生成策略必须根据下游任务目标进行动态调整,以确保模型训练的有效性;三,需积累一套保障数据可靠性的成熟体系,如数据有效性验证、场景分布需与客户真实数据对齐等方面。
“场景的丰富多样性至关重要,业界常讨论 Sim2Real Gap,但 Real2Real 在场景丰富度上的巨大 Gap 却被低估了。” 杨海波表示,自动驾驶在封闭测试场训练得再完美,面对真实路况依然束手无策,根源就在于测试场景的复杂度和多样性远远不足。
当前,大多数具身智能的数据采集方式存在局限:先搭建特定硬件场景再收集数据。这种“硬绑定”模式不仅难以适应硬件的快速迭代,更因其覆盖场景极其有限,导致成本高昂、效率低下。而光轮智能具身合成数据的核心价值之一,就是能够灵活生成百万级差异化场景。
“合成数据只有具备闭环验证能力即生成的数据能训练算法在真实场景中落地,并通过模型微调和性能回溯持续验证其有效性,它才真正具备价值。”光轮正是通过这种闭环验证机制,持续强化合成数据的质量与模型的真实适应能力。
在谈到数据闭环验证时,杨海波特别强调,“我们与英伟达合作,通过光轮合成数据去 Finetune 与 Sim2Real 落地,将 GR00T N1 模型成功部署到汽车制造生产线上。”
“在大厂内部做这件事情,是不合理的。”
据他介绍,做 3D 世界的合成数据,在商业模式上和认知上都需要形成一定的规模效应。第一,数据生产原料要可以规模化应用并服务于多个客户的多种需求,而大厂内部无法做到这一点。第二,合成数据本身的方法论非常重要,对合成数据的这种认知规模效应是体现在外部的,服务不同客户才会获得对于数据需求的不同认知,而大厂对于产品数据需求的认知是在完全闭环体系下得到的。
“一定要重视客户需求和产品化。”杨海波谈到,创业者应该是去盯着客户的真实需求。千万不能“拿着锤子去找钉子”,曲高和寡是创业很容易陷入的一个问题。要善于识别并聚焦于那些具体可落地的细分需求,选择技术可实现、商业价值闭环的精准方向,从单点突破建立商业正循环,这才是初创公司成功的关键。
另外,杨海波表示,对创业公司来说拒绝“囫囵吞枣”式接单很关键,要评估客户需求是否具有普遍性、客户企业的长期存续性、付费的可持续性,迭代选择出真正有长期付费意愿和付费能力的客户。
“当大模型将技术门槛推向千亿参数量级,创业者的生存空间不在于重复造轮子,而在于成为新大陆的铺路人。”站在北京中关村的落地窗前,这位曾拥有体制内外多重工作经历的跨界创业者,向我们道出 AI 时代创业的变迁。
杨海波指出,AI 领域的竞赛已显现出更残酷的丛林法则。与互联网创业的”721 法则”不同,在大模型等 AI 领域的创业赛道,第一名以外,第二名都可能没有生存空间。这种“赢者通吃”的态势,倒逼创业者必须重构生存逻辑:既不能困守大厂闭环体系失去创新锐度,也不能脱离产业场景陷入技术空转。
他认为,现在做 AI 创业要重点关注两点:第一,确实要有具体的商业场景,创业者本身很容易犯闭门造车的错误。第二,要有自己的数据闭环来守住场景的长期性。“如果有场景但数据无法闭环,那么大概率大模型的能力往前演进走一步就会把你给卷掉,这个创业项目也就随之夭折了。”
“在这个赛道,冠军之外可能都是陪跑者。”光轮智能选择的破局点,是选择直接“卖数据”。这一模式不仅紧贴客户需求,也为其带来了稳定的现金流。
杨海波在最后强调,“我们要做 AGI 时代的‘卖水人’,客户需要的不是仿真工具,而是即用型的高质量具身数据。”正如 19 世纪加州淘金热中真正的赢家是提供铲子、牛仔裤的供应商,在当今 AI 军备竞赛里,光轮智能通过标准化、可复用的合成数据服务,正在成为智能时代不可或缺的基础设施供应商。
后续我将通过微信视频号,以视频的形式持续更新技术话题、未来发展趋势、创业经验、商业踩坑教训等精彩内容,和大家一同成长,开启知识交流之旅
欢迎扫码关注我的微信视频号~

今日荐文
一天 15k 星,代码生成碾压 Claude,连 Cursor 都慌了?谷歌 Gemini CLI 杀疯了
成立 5 年最高估值超百亿,摩尔线程之后,又一家AI芯片独角兽争当“国产 GPU 第一股”
谷歌将 A2A 捐赠给 Linux 基金会,但代码实现还得靠开发者自己?!
印裔1号位删 Karpathy 团队90%代码、算力暴涨 50 倍!马斯克 Robotaxi 10年终上线,30 元乘车体验刷屏
字节张一鸣重回一线?消息人士:不存在;MiniMax被曝将赴港IPO;Ilya拒绝扎克伯格公司收购后其CEO被挖走 | AI周报

你也「在看」吗?👇
(文:AI前线)