百度文小言升级进击!多模型融合调度,玩转AI生图+视频,还有交互技术的三层创新

文丨谭梓鑫
面向广泛C端用户的AI产品应该是什么样子?百度正在不遗余力地拆解这个命题,寻找更加实用的产品价值点和可能的功能爆发点。

3月31日,在新一期百度AI DAY活动上,百度文小言宣布品牌焕新与功能升级,除了品牌视觉形象变化外,在产品层面,文小言聚焦模型开放与功能的进一步创新,还有在语音语言交互底层技术方面的变革。

百度AI产品创新业务负责人薛苏表示:“AI的未来不再是单纯的技术参数比拼,而是如何通过多模型协同,真正为用户创造价值,文小言希望通过开放生态,整合顶尖模型能力,做出更强大、更简单的AI产品。

从产品体验来说,文小言在“搜、创、聊”三个维度体验上均进行了一轮迭代。
除了百度自研的文心X1、文心4.5等模型,文小言还接入了DeepSeek-R1、KlingAI等第三方模型,多模型之间可以智能协同调度,用户可以选择“自动模式”,一键调用最优模型组合,也可根据需求灵活选择单一模型完成特定任务,提升多种任务处理能力。
例如用户想要生成不同风格但视角一致的家中装修效果图,可以调用文心X1进行深度推理,给出多种创意风格参考。
新增的“图片问答”功能则展示了文心4.5模型的多模态分析能力。
用户可以通过拍摄或上传一张图片,以文字或语音提问直接获取对图片的深度解析。例如,分析图像中的地理位置、当地产业情况等;拍摄一道数学题生成解题思路或搜集相关视频讲解;上传商品图对比参数、价格,辅助购物决策;拍摄一款杯子设计图后,AI可自动解析风格并生成同款手机壳、支架等周边产品。
同时,多模型的搭配还可以实现“文生图”到“图生视频”的丝滑衔接,这比OpenAI最近的推出GPT-4o图像生成在创意实现层面还多走了一步棋。
例如,让它生成一个蒸汽朋克的爱因斯坦照片,并让爱因斯坦跳舞弹吉他,就会变得很简单,不用再跨软件和平台去来回操作了。

值得关注的是文小言在交互技术层面的一些创新。

据百度语音首席架构师贾磊在现场讲解,百度团队在三个方面对语音交互进行了迭代:1、开发了业界首个基于全新互相关注意力(Cross-Attention)的端到端语音语言大模型;2、识别文本一体化,实现内容理解和快速问答;3、文本合成一体化,实现业内领先的流式逐字的LLM驱动的多情感语音合成。

这种在语音交互技术层面的改进可实现超低时延与超低成本。

在典型的语音问答场景中,语音交互等待时间可压缩至1秒左右,调用成本较行业均值据说可下降约50%-90%,同时流式逐字的LLM驱动的多情感语音合成让交互听感也更加舒适。

one more thing,还有一个趣味性的小功能叫做“图个冷知识”。

用户可把文小言预设成“历史学者”“科技达人”“哲学家”等人设视角,可以为同一张图片赋予不同角度的解读,可以提高用户的发散思维和多视角见解能力。

从行业趋势来看,当下很多AI应用产品都开始PK全链路自主执行能力,迈向真正的实用型生产力工具阶段,通过 “规划-执行-验证” 多代理协同架构,智能体应用可独立完成从目标设定到成果交付的全流程任务,这正在成为新一轮的技术竞争焦点,有望催生出超级爆款应用。

但市场的竞争也相当激烈,用户对AI应用的期待值越来越高,它需要解决实际工作生活中的需求痛点、需要有丝滑流畅的智能体验、还要整合各种实用的强大功能,操作起来还要简单好用。

文小言正在紧跟市场节奏稳扎稳打技术底盘,同时寻找产品爆发突破口,给出来自百度的一份答卷。

(文:头部科技)

欢迎分享

发表评论