
图片来源:a16z
Z Highlights
-
语音Agent市场在2024年下半年迎来爆发式增长。据Cartesia统计,在最新一届YC中,构建语音相关产品的公司占比达22%。
-
模型开发的进步简化了基础设施栈,使得语音Agent的延迟更低,性能更优。这一改进主要在过去六个月内随着新型对话模型的推出而实现。
Olivia Moore,a16z消费者投资团队的合伙人,专注于人工智能领域。本文为其对AI语音Agent发展及未来的解读。
AI语音有什么新功能?

图片来源:a16z
模型开发的进步简化了基础设施栈,使得语音Agent的延迟更低,性能更优。这一改进主要在过去六个月内随着新型对话模型的推出而实现。
这些对话模型随着时间推移也变得更加经济实惠。2024年12月,OpenAI将GPT-4o实时API的输入价格降低了60%(至$40/百万tokens),输出价格降低了87.5%(至$2.50/百万tokens)。GPT-4o mini现在也可通过实时API使用。

图片来源:a16z
语音Agents现在发展到什么程度了?

图片来源:a16z
语音Agent市场在2024年下半年迎来爆发式增长。一个数据点表明:据Cartesia统计,在最新一届YC中,构建语音相关产品的公司占比达22%。

图片来源:a16z
语音Agent也正在被集成到更多横向或多模态产品中。在2024年,我们看到对话式语音技术栈的多个层面吸引了资金和市场关注,包括:模型公司:如ElevenLabs和Cartesia、横向平台:如Vapi和Bland以及垂直化平台:如HappyRobot和Wayfaster。

图片来源:a16z
不过,对于大型企业,我们很少看到从完全由人工接听电话直接跃迁到完全由AI接听。创始人通常会找到一个“楔子”切入市场,先捕捉客户中较小比例的通话——然后逐步扩展,覆盖更多类型的通话和工作流程。

图片来源:a16z
重点垂直领域:核心市场
语音Agent的早期应用通常集中在呼叫中心/BPO支出较高的行业。如果通话由本地员工作为日常工作的一部分处理,则可能面临以下挑战:一是痛点或收益不够显著——除非有大量员工专职接听或拨打电话;二是难以量化结果和节省成本,从而难以建立明确的商业案例。
我们预计以下领域将会出现大量创业者:金融服务(例如债务催收)、保险(覆盖客户服务和后台运营)、政府、支持服务(包括需要专业知识的复杂客户服务通话如IT支持)。这些主要垂直领域(金融服务、B2C、B2B、政府和医疗)通常拥有各自的核心服务提供商,就像它们有专属的数据记录系统一样。
在“呼叫中心类别”之外,我们发现AI语音Agent在教练培训等场景下也有较强的付费意愿,主要针对高薪岗位。在这些行业中,逼真的语音Agent可以充当“模拟器”,大幅提升实际工作表现,从而替代人工培训(如销售教练)或低效的软件解决方案。
为了观察早期创业者的动向,我们参考了YC公司的数据。

图片来源:a16z
自2020年以来,已有90家语音Agent公司成立,且这一趋势正在加速——其中10家属于W25批次(尚未完全公布)。许多公司是在过去一年内转型进入语音Agent领域。
YC创业者在语音Agent方向上的布局主要集中于:B2B(69%)、医疗(18%)、消费级应用(13%)。而在B2B领域,最常见的细分行业包括:金融科技(16.9%)、运营支持(主要是客户服务,12.4%)。另外,在医疗领域,语音Agent主要面向前台(面向患者)或后台(面向药房、保险等),重点覆盖:人类医学(11.2%)、牙科(3.4%)、兽医(2.2%)和物理治疗(1.1%)。

图片来源:a16z
原文:Al Voice Agents: 2025 Update
https://a16z.com/ai-voice-Agents-2025-update/
编译:KunyeQian;Yvonne
请注意,本文编译自文末载明的原始链接,不代表Z Potentials立场。如果您对本文有任何想法或见解,欢迎在评论区留言互动探讨。
Z Potentials将继续提供更多关于人工智能、机器人、全球化等领域的优质内容。我们诚邀对未来充满憧憬的您加入我们的社群,与我们共同分享、学习、成长。
(文:Z Potentials)