

何谓未来?何谓先锋?
作者|王艺
编辑|王博
“今天,我代表生数团队发布我们最新的高可控视频大模型——Vidu Q1。”
今天下午,在2025年中关村论坛年会“人工智能主题日”主论坛未来人工智能先锋论坛上,清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军发布了业内首个高可控AI视频大模型Vidu Q1,其在多主体细节可控(特别是动作、布局可控)、音效同步可控、画质增强等方面均取得了显著成效。
视频来源:生数科技
这不是朱军第一次给我们带来惊喜。就在去年的未来人工智能先锋论坛上,事先没有一点声张,他就在现场发布了中国首个长时长、高一致性、高动态性视频大模型——Vidu。
可以说,中国AI视频生成模型与OpenAI Sora竞争的第一枪是从2024年未来人工智能先锋论坛上打响的。而今天,在2025年未来人工智能先锋论坛上,AI视频生成模型走向高可控时代的号角吹响了。
在论坛上,还有多项重磅发布:北京前沿算法协同创新矩阵、北京人工智能公共算力平台生态网络、法信法律基座大模型、AI100青年先锋、人工智能创新街区,这些从算法、算力、模型、人才、生态等方面,全面展示了中国人工智能的最新发展。
值得一提的是,北京人工智能公共算力平台自从2023年底启动建设以来,持续扩容增效,已建成北京最大、国内领先的超大规模高性能智算集群,同时不断拓展算力生态伙伴,已汇聚超过8万P绿色算力资源。
谈及中国人工智能的发展,图灵奖得主,美国国家科学院、工程院院士约瑟夫·斯发基斯(Joseph Sifakis)在论坛上表示:“中国拥有坚实而广泛的工业基础和统一的国内市场,非常适合开发更可靠的人工智能,以更好地适应实体经济的需求。”
斯发基斯认为“中国应发展自己的人工智能愿景”,这将使中国能够在工业人工智能领域取得领先地位,平衡人工智能的战略博弈,并与志同道合的国家合作,以一种符合发展和安全利益的方式规范人工智能。
创新工场董事长兼零一万物CEO李开复在现场分享了“后DeepSeek时代的几点思考”,他认为“开源力量+中国实力”获得全球广泛肯定,2025是AI-First应用爆发年,也是大模型商业化的大考年。在经历年初零一万物发展方向调整后,他认为“创业初衷未变”,但也坦陈“创业者应尊重商业规律,回归商业本质”,核心是要“Make AI Work”。
具身智能是当下热议的话题,论坛现场随处可见各种人形机器人,一个名为“小海”的人形机器人还参与到了成果发布环节中。
不过,金沙江创投主管合伙人朱啸虎近期透露,自己所在机构正在批量退出一些早期的具身智能项目,因为具身智能商业化的客户,可能“都是自己想象出来的客户”。此言一出,立即引发行业热议。
在今天论坛的圆桌对话《具身智能,通往AGI之路?》环节,嘉宾们并没有公开谈论这一话题,但也谈及了具身智能落地的挑战。上海交通大学教授、穹彻智能创始人卢策吾认为,场景可能是一批一批出现的,呈现一种阶梯性状态,大概每两年左右是一个技术突破的周期,因为有大量的人与资金进入这个行业,有非常多的场景正在优化。
而这些,都发生在今天下午的未来人工智能先锋论坛上。
正如海淀区委书记张革在致辞中所说:“未来人工智能先锋论坛是集中展示AI创新成果的窗口,更是智力协同、跨界、跨区域融合发展的平台。相信通过我们深入地交流和思想碰撞,一定能够产生更多高价值的观点和成果,为人工智能理论研究突破、核心技术攻关、应用场景拓展提供新思路和新启示。”
1.模型突破:Vidu Q1

“Vidu Q1里的Q代表quality,也就是质量。”刚刚完成Vidu Q1发布的朱军告诉「甲子光年」,“Q1是高质量、高可控的。”
对于视频生成模型质量的评价有很多维度,这次生数科技强调的是“高可控”。

清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军,图片来源:中关村论坛
过去一年,各家的视频模型从卷生成时长到卷画面质量,再到卷风格特效,已经让视频模型的能力有了显著提升,但是一直以来,AI视频生成过程中的随机性都是老大难问题。这次,Vidu Q1针对AI视频生成模型的痛点,通过技术手段引入多元素控制,达到了视频生成结果人为可控。
这种可控性体现在两个方面。
第一是多主体细节可控。在语义指令的基础上,通过融入参考图的视觉指令,Vidu Q1支持对场景中多主体的位置、大小、运动轨迹等属性进行更进一步的可控,对所有动作行为(出场、退场、坐立姿态、行动路线)进行精准调整。用户能够明显体验到用更低的抽卡率实现更高质量的可控生成。

【位置对比】行业现状:角色道具的位置难以控制

【位置对比】Vidu Q1:精确控制两个角色的相对位置

【运动轨迹对比】行业现状:机器人的运动轨迹难以控制

【运动轨迹对比】Vidu Q1:精确控制机器人从画外向右进入画内

【可控主体数量对比】行业现状:主体数量过多时,无法精确生成

【可控主体数量对比】Vidu Q1:多个主体均可精确生成
第二是音效同步可控。该功能则确保了随着视频环境与画面转场,Vidu Q1能够输出生成相应音效,并可精准控制每段音效的长短区间,精准设置每段音频出现的时间点,节省时间的同时,也大大增强了视频的沉浸感与感染力。
Vidu Q1提示词:1-2s时出现汽笛声、2-5s行人在嘈杂街道复合音效、6-8s时车辆驶过,视频来源:生数科技
Vidu Q1提示词:1-2s时出现打字声音、2秒时出现打字、打印的复合音效,视频来源:生数科技
此外,Vidu Q1还进一步增强了画质,可以为用户提供更加清晰、细腻、逼真的视觉体验。
现场发布时,朱军并没有公开这些新功能背后的具体技术。在论坛结束后与「甲子光年」的交流中,朱军透露这些突破是来自“通用基础模型能力的提升”。
“你可以认为我们最大的进展还是在基础模型上,当然我们也做一些新的技术创新,才能够实现高一致性、高可控性的结果。”朱军说。
高可控性可以让视频创作者对AI视频生成结果有更强的把控,那么这会不会在一定程度上用户和模型互动中的创造性?
对此,朱军认为“这不会影响创造性”,在目前有些视频生成模型“抽卡率”比较低,用户会感觉不好用,而高可控的视频模型实际上可以更快、更好地满足用户的需求。
在今天发布Vidu Q1之前,朱军还谈到了去年在未来人工智能先锋论坛上首次发布Vidu的场景,并回顾了这一年Vidu的多次突破。




Vidu视频大模型的多次突破,图片来源:生数科技
朱军告诉「甲子光年」,去年在未来人工智能先锋论坛上发布Vidu是“一次巧合”,而今年是“相互匹配”。
“我们源自清华大学,是一家来自北京海淀的公司,北京非常重视人工智能的创新,尤其是源头创新。去年在论坛开始前一周,Vidu取得了突破性进展,当时就被邀请到这样一个非常高端、有影响力的论坛来就发布Vidu 1.0。”朱军说,“今年其实也很有意义,新的一年论坛,我们的模型也发布了差不多一年,我们也很想继续在论坛上公布我们的最新进展,需求就刚好匹配在一起了。”
可以说,未来人工智能先锋论坛见证了Vidu从追赶到行业引领的转变。
2.算力升级:北京人工智能公共算力平台生态网络

在未来人工智能先锋论坛上,「甲子光年」还注意到一项重要的发布——北京人工智能公共算力平台生态网络。

北京人工智能公共算力平台生态网络发布 图片来源:中关村论坛
北京人工智能公共算力平台生态网络可以视作是北京人工智能公共算力平台的升级版。
北京人工智能公共算力平台是为应对算力需求爆发、推动人工智能产业创新而布局的核心基础设施。算力平台已经支撑各个机构产出了一批优势科研成果,比如北京智源人工智能研究院研发的全球首个原生多模态世界模型Emu3,就是通过这个算力平台进行训练的。
自从2023年底启动建设以来,算力平台持续扩容增效,已建成北京最大、国内领先的超大规模智算集群,同时不断拓展算力生态伙伴,构建跨域协同的智算网络,已汇聚呼和浩特和林格尔新区、兵团十三师新星市、张家口市、克拉玛依市、北京移动、北京联通、北京电信、华为云、火山引擎、无问芯穹、并行科技等多个算力资源主体超过8万P资源,旨在实现算力资源池的统一调度,促进跨域算力资源柔性互通,有效提升算力资源利用。
北京人工智能公共算力平台打造了“算力超市+撮合交易+算力券+模型服务”模式,实现了普惠算力的“一键触达”。搭载了自主可控的算力调度系统,可支撑万亿参数大模型训练、科学计算与具身智能机器人训练等场景。

北京人工智能公共算力平台生态网络发布现场 图片来源:中关村论坛
此次北京人工智能公共算力平台生态网络的发布,打破了传统算力资源的孤岛效应,优化了算力资源的配置效率,不仅可以加速产业链上下游的协同发展、提升自主创新能力,更是将赋能实体经济的数字化转型、推动人工智能技术更快地从实验室走向产业应用。
而这也将进一步推动全国人工智能算力生态的建设。
3.何谓未来?何谓先锋?

在这次的未来人工智能先锋论坛上,「甲子光年」深深感受到了“未来”和“先锋”的含义。
图灵奖得主,美国国家科学院、工程院院士约瑟夫·斯发基斯在论坛上表示,尽管生成式人工智能的出现带来了令人印象深刻的成果,但人工智能仍处于起步阶段。
在斯发基斯看来,自主系统(Autonomus Systems)代表了AI技术的未来愿景,但其发展受限于技术不可解释性、可靠性保障及复杂环境适应性等挑战。尽管面临争议,但其在提升社会效率、推动产业变革方面的潜力仍不可忽视。未来自主系统的突破需技术、伦理、政策多维度协同推进。
同时,他认为,AI与系统工程的融合既是技术革命也是认知革命。其核心矛盾在于AI的“黑箱性”与传统工程“确定性要求”的冲突,以及专用智能与通用智能的割裂。解决路径需要在技术层面(开发可解释AI与混合架构验证工具)、标准层面(推动全球协作制定适应性认证框架)和理论层面(构建跨符号逻辑、统计学习与认知科学的统一智能理论)三管齐下,才能在工业、交通等领域实现从“自动化”到“真自主”的跨越。

图灵奖得主,美国国家科学院、工程院院士约瑟夫·斯发基斯,图片来源:「甲子光年」拍摄
创新工场董事长兼零一万物CEO李开复在论坛上对生成式AI的发展进行了展望,并谈到了他对于DeepSeek的四个观察:
第一,DeepSeek不是靠蒸馏,而是从本质上、从第一性原理上实现了对推理过程思考的模型,其公开思维链的举措非常值得称赞;
第二,DeepSeek有着非常高的工程效率和速度,这极大提升了模型的性价比;
第三,DeepSeek证明了闭源是一条死路,开源才有光明的未来;
第四,DeepSeek的出现是中国的ChatGPT时刻,让全民都用上了大模型,也让To B、To C领域的应用百花齐放,推动了大模型应用时代的来临。

创新工场董事长兼零一万物CEO李开复 图片来源:中关村论坛
而基于上述这四点观察,零一万物也在过去的几个月做了战略调整,大力拥抱DeepSeek,围绕DeepSeek做模型的安全部署、应用实践和行业定制。
继DeepSeek之后,以Manus为代表的 AI Agent引发了今年人工智能领域的第二波小高潮。各大厂都在试水AI Agent产品,创业公司们更是围绕AI Agent展开激烈的技术竞速与场景争夺。
在本次论坛中,面壁智能联合创始人兼CEO李大海分享了他对AI Agent的看法。他认为,大模型和Agent只是两种不同的称呼,“大模型与 Agent 的关系,如同西红柿就是番茄,马铃薯就是土豆,把大模型送去上班就是Agent。”

面壁智能联合创始人兼CEO李大海 图片来源:中关村论坛
李大海认为,未来最重要的趋势就是“模型即Agent”,也就是把Agent的能力内化到大模型里面,所以只要模型能力足够强,能够被搭载到终端上去,它就是一个Agent。在现场,面壁智能还发布了首个纯端侧智能助手——小钢炮超级助手cpmGO。
本场论坛“先锋”并不仅限于此,在论坛最后一个环节《具身智能,通往AGI之路?》圆桌对话中,五位具身智能领域的嘉宾就探讨了具身智能发展所需的数据、落地的挑战和未来的机遇等问题。

具身智能圆桌嘉宾,分别为:主持人;上海交通大学教授、穹彻智能创始人卢策吾;星动纪元创始人、清华大学助理教授陈建宇;北京大学助理教授、银河通用创始人、智源具身智能研究中心主任王鹤;乐聚机器人创始人兼董事长冷晓琨;智源研究院院长王仲远。图片来源:中关村论坛
北京大学助理教授、银河通用创始人、智源具身智能研究中心主任王鹤认为,数据是具身智能的一大瓶颈。数据主要分为真实数据与仿真合成数据两大数据,真实数据又分为互联网上无动作标签的数据以及真实采集的数据。互联网数据有用,但不远远够,就像只看别人游泳永远学不会游泳一样。另一方面,采集的真实世界的数据又非常贵。
银河通用的经验是,用合成数据做预训练,以此推动99%乃至99.9%的具身智能能力的发展,用真机采集的数据做后训练,实现最后的1%的具身智能能力。

银河通用创始人、智源具身智能研究中心主任王鹤,图片来源:中关村论坛
星动纪元创始人、清华大学助理教授陈建宇则认为,视觉是信息量最大且最易获取的关键模态,其重要性在所有模态的数据中占到了80%,现在具身模型基本上还是纯文本的形式,缺乏实时的反馈决策,应该增加对声音这种模态的识别,这会有利于模型下一步的判断和决策。

星动纪元创始人、清华大学助理教授陈建宇,图片来源:中关村论坛
现场嘉宾还都提到了一个问题:现在大部分机器人硬件采集到的触觉信息还是太少了。只有加强对触觉、力反馈、温度感知等数据的采集,才能让机器人实现与物理世界更好的交互。
那么,具身智能是否会迎来“ChatGPT时刻”?
上海交通大学教授、穹彻智能创始人卢策吾认为,场景可能是一批一批出现的,呈现一种阶梯性状态,大概每两年左右是一个技术突破的周期,因为有大量的人与资金进入这个行业,又非常多的场景正在优化。

上海交通大学教授、穹彻智能创始人卢策吾,图片来源:中关村论坛
何谓未来?何谓先锋?
真正的未来,不在技术狂欢里,而在人类重新发现自己的过程中。
真正的先锋,不在于创造超越人类的智能,而在于保持人类文明向前演进的姿态。
斯发基斯在论坛上恳切地说到:“中国应发展自己的人工智能愿景。”这个声音从大洋彼岸传来,在论坛现场产生了悠长的回响。
*赵健对本文亦有贡献
(封面图来源:中关村论坛)

(文:甲子光年)