内容编辑丨特工女巫特工少女

内容审核丨特工小天

豆包升级实时音视频体验

去年，豆包的实时语音通话功能很受好评，特工们也经常使用，用来练习英语口语、或者当作树洞闲聊吐槽。而就在最近，豆包又更新了实时视频通话功能，这下不仅可以和豆包打电话，还可以和豆包打视频。

有了实时音视频功能，用户就像真的有一个赛博 AI 好朋友一样，有什么需要解决的问题、或者想要分享的心情，都可以像与真人打视频一样联系豆包。

比如买了一瓶橙汁，想要问问橙汁营养成分和 NFC 工艺的解释，对储存时间的建议。打开豆包视频通话功能后，只需要拿着这瓶橙汁放在镜头前，不断提出问题，豆包就能迅速、准确地响应回答。

在视频能力方面，豆包能快速识别整体画面和部分细节，即便是在圆柱体曲面上印刷模糊或肉眼看起来很小的字，豆包都能又快又准地理解；

在音频能力方面，每个问题抛出后，体感几乎在 2 秒内就能得到流畅、完整、自然的语音回复，不论是音色还是语音语调，都很有真人感。如果豆包在说话过程中被人打断，它也会自然地暂停，优先听用户新的表达，然后再顺畅地回复新内容。

此外，即便是使用时在有嘈杂的背景音乐、他人交流的咖啡店，豆包依然可以从嘈杂环境中精准筛选用户声音，屏蔽环境人声及噪声干扰。

再比如用豆包音视频通话功能帮助理解屏幕操作。用户遇到不确定的电脑操作时，不用发帖求助或者麻烦朋友，直接可以打视频给豆包，豆包能准确识别页面 GUI 元素以及对应操作步骤逻辑，用自然易懂的方式讲给用户精准的操作指引。

RTC 技术支撑豆包实时音视频

体验了强大的能力和丰富的场景，是时候了解一下豆包实时音视频功能的幕后功臣了——RTC实时音视频技术。

首先聚焦于基础技术的理解认知，目前业界主要有两种处理音视频通信的技术，分别是 RTC 和 WebSocket。

RTC 全称是 Real-Time Communication，是一种通过网络实现音频、视频和数据实时传输的技术，RTC 的核心优势在于毫秒级低延迟和抗弱网能力，适合用于音视频流类型的数据，可应用于视频会议、在线教育、智能驾驶等场景。

WebSocket 则是另一种实时技术，由一组协议和 API 组成，可通过持久的单套接字 socket 连接，在 Web 客户端和 Web 服务器之间实现全双工，实现客户端和服务器主动双向发送数据，相对延迟更久，而且会受限于网络环境。

特工们从应用场景、延迟、连接方式、数据类型、协议复杂度这几个维度对 RTC 与 WebSocket 进行对比：

接着从用户视角出发，当人们体验消费一个流媒体服务时，最基础的要素便是稳定。结合上面对 RTC 技术和 WebSocket 技术特点的理解，可以发现，RTC 的低延迟、稳定性、对网络环境较低的要求，相比 WebSocket 能更好保障视频传输、语音传输的稳定性。

像上文与豆包对话的场景，用户之所以能体验到一个能实时听、实时看的 AI 助手，是因为 AI 在进行同步、低延时的视觉推理和搜索反馈，而这样流畅的交互感对降低卡顿有更高的要求。

为了达成这类目标，豆包采用了火山引擎 RTC 传输方案，借助方案的带宽估计、前向纠错、丢包重传等抗拥塞能力与端到端传输优化，能够有效降低移动网络或拥挤 Wi‑Fi 下画面卡断、不清晰问题的出现，即便是 720p 高清视频流，依然能够保障稳定的低延时传输，从而得以支撑 AI 实时的多模态的感知与推理。

更进一步，在大模型应用时代下的与 AI 助手语音通话的场景中，RTC 可以为实时语音对话的低延迟与强对抗性保驾护航，让 AI 语音对话有更高的效率、更自然真实、更接近活人感。例如，从产品体验层面，用户在通话中可以更快速、更低延迟地收到 AI 助手的语音回复，也可以像与真人对话一样随时打断、开启新的话题。

再回到泛化的现实生活场景，生活中网络环境复杂多变，弱网环境更偏常态。虽然理想网络下 RTC 与传统 WebSocket 的语音延迟差异可能差距还不算特别显著，但根据线上实测数据，在网络条件不太好的情况下，RTC 的表现比 WebSocket 好太多了。

具体来说：当网络有 20% 的数据包丢失时，用 WebSocket 的话，会出现严重的卡顿甚至断连，这会导致线上 15% 的用户根本没法正常使用；但 RTC 就很优秀，就算网络丢包率高达 80%，用户无法使用的比例也只有 1%，虽然这时候使用起来可能会感觉有点延迟，但差不多 4.6 秒左右就能有反应，影响不算大。

从行业产品视角也不例外，除了豆包这类 AI 助理可实时音视频通话，语音应用场景在大模型应用落地中也愈发被看好，这对语音交互的实时性和并发管理提出了更高要求。

例如 AI 社交娱乐赛道，像狼人杀这类团队小游戏，玩家可以和多个 AI NPC 实时对话互动；在 AI 效率办公赛道，能通过语音交互让多个 AI Agent 工作助手并行任务处理。

在多 Agents 并行的场景下，传统 WebSocket 在处理多路音频时复杂性较高，相反 RTC 则具有优势。RTC 的房间管理、音频流控制、混音、角色权限等能力，可用于精细管理多个语音流与优先级，从而能构建一个结构清晰、响应流畅的 Multi Agents 语音交互系统。

在火山引擎可使用同款对话式 AI 方案

但凡事都有两面性，分析了这么多 RTC 技术的优点，它仍然存在问题。尽管 RTC 具有低延迟、抗弱网的优势，局限却在于自建集成门槛高、云端服务资源投入大。这些高门槛和高投入特点，导致很多应用开发时望而却步，在实际落地中只能降级采用 WebSocket 技术，为了可实现性而让步了体验。

事实上，不论是个人开发者或是企业内开发团队，在做技术选型时，都是既想要满足产品经理的需求、迎合用户诉求，又想要用尽量低的成本做好实现的方案，确实不是一件容易的事情。

不过好在火山引擎已经提前替开发者们考虑到了这一痛点，提供的火山引擎对话式 AI 一站式方案能够帮助企业以更低的集成门槛，实现超低延时、稳定流畅、自然逼真的 AI 音视频交互能力。

除了上面硬核的抗弱网、低延时能力之外，更惊喜地发现，对话式 AI 方案方案很接近真人！在与 AI 助手实时对话交流时，“活人感”是很重要的影响体验的因素。要想实现“活人感”，关键还需要具备准确断句的能力，这也是 AI 语音中最难解决的问题之一。

试想与真人交谈时，说话人之间可以随时灵活地判断对方有没有讲完话，也可以准确地判断说话人是不是想要打断对话。但一些传统 AI 语音对话只能机械地识别是否讲完，用户也只能等 AI 完全说完一段话才有机会开启新的对话。

这其中的技术挑战不少，一方面要求 AI 灵活理解语义和人声的完结，避免用户在思考时短暂停顿就收到回复；另一方面还需要 AI 判断输入的人声是否具有打断意图。应对这些问题，火山引擎基于 RTC 的对话式 AI 方案，已经支持了智能语义判停和声纹降噪等功能，从而让智能体更有“活人感”。

比如前文出现的在咖啡店嘈杂环境音下，用户打断豆包说话转而新起一个问题的例子，就可以直观地感受到智能判停和抗背景噪音的效果。

开发者现在就可以通过火山引擎官网低门槛接入对话式 AI 方案，同时获得每月 10,000 分钟的免费额度。

官网：https://www.volcengine.com/product/veRTC/ConversationalAI

也许下一个开发出像豆包 AI 音视频通话功能的人就是你。

（文：特工宇宙）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

豆包升级实时音视频体验

在火山引擎可使用同款对话式 AI 方案

发表评论 取消回复

发表评论取消回复