老罗数字人爆火背后,百度做对了什么?

内容编辑丨特工小猹 特工少女
内容审核丨特工小天
6 月 15 日,罗永浩的“数字人”再次开麦。这一次,他和“助播搭档”朱萧木的数字人一起出现在百度电商直播间,整整播了超过 6 个小时。
整场直播累计吸引了超过 1300 万人次观看,带货金额突破 5500 万元,部分品类的成交数据超过他 5 月真人直播时的表现。
更有意思的是,评论区很多人一开始都以为是视频录播。
对不少人来说,这场直播看起来更像一场再普通不过的“老罗式开麦”,甚至并没有意识到,它是由 AI 驱动完成的——从内容生成到动作控制,从语言节奏到表情调度,全部实时生成。
百度罗永浩数字人创纪录
在此前,大多数字人仍停留在低成本复用、标品类转化、脚本式互动的阶段:表情稍僵、语气带顿、回答靠关键词匹配,一旦脱离既定话术,就会陷入沉默或者尴尬回应。
相比之下,数字人老罗的动作、语调、表情生动活泼,“喝奶茶”“拎可乐”等细节自然切入;还能与直播间用户弹幕进行实时互动。
现场节奏与过往风格相似,互动中甚至保留了些许“朱罗互怼”的熟悉感。他接梗、讲段子喝水,仍旧不乏即兴反应。有观众问“这面膜脸大能敷吗”,他回:“脸大能有多大?能有我 210 斤的脸大吗?我也就用一张就够了。”
据悉,这次直播还创下了两个“行业首次” ——
1. 行业首次实现多数字人同场直播,罗永浩与助播之间实现了自然插话、节奏呼应与即兴互动,展现出高度协同的 AI 对话能力。
2. 行业首次由头部主播以数字人形态完成整场直播带货,直播时长突破 6 小时。
还记得百度李彦宏在 月 25 日首次提出的“高说服力数字人”的概念时,他强调其为“最令人激动的应用之一”。
如今高说服力数字人在老罗上身上得到了验证,也确实令人感到激动和震惊。
那么,百度做对了什么?
为何能“神形音”高度一致?文心 4.5T 作为核心支撑
首先在于「形」
「形」包括外貌、肢体动作。看一个人先看他的外貌,数字人最基本就是在外貌和动作上复刻的生动。
得益于视觉大模型的全面升级,百度在视频方面进行高表现力动作对齐,包括支撑唇动、表情生成和对齐。实现了老罗数字人各种神态的高一致性,表现力达到了「形」似的统一。
其次在于「音」。
「音」包括音色、语调和语气。人与人直接的交互是视听结合的。外表长得一样还不够,听起来还得足够逼真。
基于百度语音大模型,以及多模态融合生成技术的进步包括动作、表情、语调等模态贴合话术等方面。在声音维度上,百度使数字人语音在语调、情绪与表达上更自然流畅、富有感染力。
最终于更在于「神」。
「神」包括一个人的说话风格,语言习惯,这塑造了人的内核灵魂。

为什么数字人老罗的「神」能这么像老罗本人?这其中关键的技术就是剧本生成。

无论是直播还是内容创作,数字人的首要能力在于“会说话”——核心即台词生成。台词不仅要拟合人设、富有吸引力,还需具备多样化的表达风格,这背后依赖于风格建模、个性定制与高质量生成的协同支撑。

在这场直播过程中,AI 充分学习并表现了老罗的台词剧本风格,其中调用了知识库 1.3 万次,生成 9.7 万字剧本式产品讲解内容,双数字人搭档做出超 8300 个动作。

管中窥豹,可见一斑。
“神似”的背后,是百度基于最新的模型文心 4.5T,通过深度训练,让数字人做到了“懂创作”和“有个性”。
这相当于百度为数字人嵌入具备内容理解和节奏控制能力的 AI 大脑,“主动邀评”让数字人主播主动引导用户互动;在遇到复杂提问时,数字人可以做到“同时回复”,高效处理多线程互动,并结合了剧本驱动模式与多智能体协同机制,还原出老罗风趣幽默的人格风格表达。
实现了比如观众问“孩子吃了鸡蛋会变聪明吗”,他会回复:

“哪有什么会不会变聪明,我现在跟你说吃了鸡蛋会聪明,到时候孩子考差了,你就要找我麻烦了。如果大家吃完鸡蛋都能聪明,那就天天去吃鸡蛋好了。”

老罗的这些回答不是“播台词”,而是带有判断力、个性幽默与自我感知的即兴互动——这恰恰是“人”的关键特征。而剧本系统恰好在这里达到了一个技术边界突破点:不是让数字人模仿人类语言,而是重建语言人格的那个「神」。

形、音、神三位一体,实现的不是只做一个“像人”的壳,而是构建一个具备表达力、自我风格、内容理解与交互能力的“智能体”
帷幕拉下,数字人的下一站通向哪里?
这场直播能打出高 GMV,并非因为观众本就打算购物。真正起作用的,是一次从围观到信任的心理转变。

最初,大家是“来看 AI 表演的”;后来,很多人却“留下来看老罗说话”。看了一会能发现,观众的反馈其实大都不是“AI 好强”,而是:“这就是老罗吧?”

……

不是所有人都能像老罗一样侃侃而谈,但数字人可以学会像你一样说话。

试想一下,如果有更多像老罗这样的高说服力数字人出现代替大家直播,会发生什么?

它可以是一个小商家的门店前台,讲述自家产品的故事;也可以是一个医生助手,在科普疾病时保留语气的温和与坚定;还可以是教育场景中的知识表达者——根据学生学习节奏、实时反应,用不同的语气与讲法讲同一个知识点甚至可以是一个企业创始人的“第二人格”,24 小时在线阐述理念、对话客户、传递品牌风格。

而百度慧播星支持的“一键开播”功能,让人人都能用数字人做主播这件事情已经成为现实。

数字人不会疲惫、不会心情波动、不怕重复提问。你不必总是出现,但“你”始终在场。

这正是人类在很多岗位上难以长期维持标准化,而数字人恰恰擅长在“标准化中做到人格化”。

也许未来,真正重要的不再是“这个数字人是谁”,而是我们正在从“真人生产内容”进入“人格生产内容”的时代。

数字人老罗的直播,可能就是这个时代开始的帷幕。

— 推荐阅读 —
图片

(文:特工宇宙)

发表评论