百度文小言升级进击！多模型融合调度，玩转AI生图+视频，还有交互技术的三层创新

文丨谭梓鑫

面向广泛C端用户的AI产品应该是什么样子？百度正在不遗余力地拆解这个命题，寻找更加实用的产品价值点和可能的功能爆发点。

3月31日，在新一期百度AI DAY活动上，百度文小言宣布品牌焕新与功能升级，除了品牌视觉形象变化外，在产品层面，文小言聚焦模型开放与功能的进一步创新，还有在语音语言交互底层技术方面的变革。

百度AI产品创新业务负责人薛苏表示：“AI的未来不再是单纯的技术参数比拼，而是如何通过多模型协同，真正为用户创造价值，文小言希望通过开放生态，整合顶尖模型能力，做出更强大、更简单的AI产品。”

从产品体验来说，文小言在“搜、创、聊”三个维度体验上均进行了一轮迭代。

除了百度自研的文心X1、文心4.5等模型，文小言还接入了DeepSeek-R1、KlingAI等第三方模型，多模型之间可以智能协同调度，用户可以选择“自动模式”，一键调用最优模型组合，也可根据需求灵活选择单一模型完成特定任务，提升多种任务处理能力。

例如用户想要生成不同风格但视角一致的家中装修效果图，可以调用文心X1进行深度推理，给出多种创意风格参考。

新增的“图片问答”功能则展示了文心4.5模型的多模态分析能力。

用户可以通过拍摄或上传一张图片，以文字或语音提问直接获取对图片的深度解析。例如，分析图像中的地理位置、当地产业情况等；拍摄一道数学题生成解题思路或搜集相关视频讲解；上传商品图对比参数、价格，辅助购物决策；拍摄一款杯子设计图后，AI可自动解析风格并生成同款手机壳、支架等周边产品。

同时，多模型的搭配还可以实现“文生图”到“图生视频”的丝滑衔接，这比OpenAI最近的推出GPT-4o图像生成在创意实现层面还多走了一步棋。

例如，让它生成一个蒸汽朋克的爱因斯坦照片，并让爱因斯坦跳舞弹吉他，就会变得很简单，不用再跨软件和平台去来回操作了。

值得关注的是文小言在交互技术层面的一些创新。

据百度语音首席架构师贾磊在现场讲解，百度团队在三个方面对语音交互进行了迭代：1、开发了业界首个基于全新互相关注意力（Cross-Attention）的端到端语音语言大模型；2、识别文本一体化，实现内容理解和快速问答；3、文本合成一体化，实现业内领先的流式逐字的LLM驱动的多情感语音合成。

这种在语音交互技术层面的改进可实现超低时延与超低成本。

在典型的语音问答场景中，语音交互等待时间可压缩至1秒左右，调用成本较行业均值据说可下降约50%-90%，同时流式逐字的LLM驱动的多情感语音合成让交互听感也更加舒适。

one more thing，还有一个趣味性的小功能叫做“图个冷知识”。

用户可把文小言预设成“历史学者”“科技达人”“哲学家”等人设视角，可以为同一张图片赋予不同角度的解读，可以提高用户的发散思维和多视角见解能力。

从行业趋势来看，当下很多AI应用产品都开始PK全链路自主执行能力，迈向真正的实用型生产力工具阶段，通过 “规划-执行-验证” 多代理协同架构，智能体应用可独立完成从目标设定到成果交付的全流程任务，这正在成为新一轮的技术竞争焦点，有望催生出超级爆款应用。

但市场的竞争也相当激烈，用户对AI应用的期待值越来越高，它需要解决实际工作生活中的需求痛点、需要有丝滑流畅的智能体验、还要整合各种实用的强大功能，操作起来还要简单好用。

文小言正在紧跟市场节奏稳扎稳打技术底盘，同时寻找产品爆发突破口，给出来自百度的一份答卷。

（文：头部科技）