深度|AI语音独角兽11Labs创始人:“人性”中的不完美,恰恰是人愿意互动的关键

图片来源:Stripe

Z highlights

  • 我们很多语音生成工作,正是通过加入这些不完美的人性化特征,让合成声音显得更加真实和有情感,这也成为ElevenLabs的声音技术与众不同之处。当然,并不是所有场景都适合这种风格。但总体而言,人性中的不完美,恰恰是人愿意互动的关键。

  • 未来的语音Agent会具备上下文感知能力,能够理解你为什么打电话来,并帮助你顺畅地完成后续操作——无论是预约、账单问题、退款申请,整个流程都能变得迅速而顺滑。最初你可能只是想赶紧搞定,但它的价值会延伸得更远,比如:它可以帮助你理解一个产品的核心功能,教你怎么用,并让你真正用出价值来。

  • 在我们构建ElevenLabs的技术时,我们不是为了技术而做技术,而是希望通过技术把故事传达出去,让我们触达的不同群体都能理解并参与进来。让人们觉得他们也在这段故事之中。

ElevenLabs是一家2022年由前谷歌机器学习工程师Piotr Dabkowski与前Palantir部署策略师Mati Staniszewski共同创立的软件公司,专注运用深度学习开发自然逼真的语音合成软件。ElevenLabs发展迅猛,20251月完成1.8亿美元C轮融资,估值达33亿美元。其推出的语音转文本模型Scribe v1支持99种语言,准确性领先。Stripe总裁John Collison与哥哥Patrick Collison2010年创立支付领域知名的Stripe公司,致力于解决支付难题,在其领导下Stripe估值颇高,成为支付行业重要力量 。本次访谈首发于2025530Stripe频道。

探秘AI语音软件:Mati团队打造ElevenLabs的动机

John各位好,非常高兴今天能请到ElevenLabs的联合创始人Mati Staniszewski。我想可以毫不夸张地说,Eleven是过去五年里从英国走出来最成功的AI创业公司之一。你们现在的年经常性收入(ARR)已经突破了一亿美元

Eleven最近一轮融资的估值达到了30亿美元,投资方包括Sequoia(红杉资本)、Andreessen Horowitz以及我们刚刚提到的Nat Friedman等。正如大家所看到的,Eleven专注于语音AI的研发。为了让大家更直观地了解产品到底有多强大——你们应该很熟悉我的声音了,听我说了不少话。你们团队甚至还克隆了我的声音。或许我们可以现场做个演示,来听一下AI版的“John”是什么效果。

AI John(英语):虽然大家都说AI是提升生产力的工具,但真人John最近实在是有点懒啊。

John哈哈,这确实很有意思。而且,我们今天要讨论的一个重点就是AI在多语言环境下的表现。我自己不会讲印地语,但我们也可以做一个印地语的演示。

AI John(印地语):虽然大家都说AI是提升生产力的工具,但真人John最近实在是有点懒啊。

John效果真的很惊艳,有太多内容可以聊了。谢谢你今天来参加节目。

Mati谢谢你的邀请,很高兴来聊聊。

John我们有太多内容可以聊了,但不如从最开始说起。你在2022年创办了ElevenLabs,也就是在ChatGPT推出之前、在这波生成式AI浪潮真正席卷全球之前。为什么选择做语音?为什么是ElevenLabs

Mati很高兴来到这里。也很幸运能直接展示我们的成果,让大家亲耳听到我们的技术效果。我们一直有个坚定的信念:语音是人类与技术交互最自然、最高效的接口,也是人与设备之间最直观的沟通方式。真正的灵感来源其实挺特别的。我和我的联合创始人已经认识了15,我们一起读书、工作、生活,最后一起创办了ElevenLabs。尽管中途也经历了一些挑战,但我们仍然是最好的朋友,所以可以说时间站在我们这一边

促使我们真正行动起来的契机,其实源于我们成长的环境。我们两人都来自波兰。你可能不知道,在波兰如果你看一部外语电影,配音通常只有一个旁白演员,不管台词是男是女,都是由一个声音来念。可以想象,这种配音就像在听一本有声书——非常破坏观影体验。正是这个痛点,触发了我们创办ElevenLabs的念头。

John想象一下,一部电影里,不管是男主、女主,还是反派,全都是同一个配音演员的声音,这确实非常破坏观影体验。

Mati对,而且那种配音是故意做得很平淡,观众被要求自己去想象角色的情绪和语气。最关键的是,这种情况直到今天仍然在发生。这其实就是我们在2022年决定开始创业的触发点。那时我们已经看到了技术的突破:无论是Transformer架构,还是Diffusion Models的崛起,我们坚信这类进步不仅适用于图像生成,也同样适用于音频合成。

于是我们创办了ElevenLabs。虽然最初的愿景是聚焦在配音和影视本地化上,但后来我们意识到,声音的潜力远不止于此——它可以提升从叙述类内容到实时交互体验的方方面面。

ElevenLabs的起点时刻与人机交互的下一个十年

John你们是在什么时候第一次觉得,这个demo做得真的不错?我猜你们也经历了很多迭代,毕竟从零到现在年收入破亿美金(ARR $100M,这肯定不是一蹴而就的。但你们第一次觉得,哇,这真的有潜力demo,是在什么时候?

Mati要说真的不错的那一刻,其实我们在最初的六个月里,做了不少demo,但都不算理想。真正让我们觉得突破来了的,是我们第一次让AI能够发出类似笑声的时候。我们当时发布了一组语音样本,AI首次表现出一些类似人类的情绪反应,比如笑。很多人听完后告诉我们:这是我们第一次听到AI在笑。那一刻我心里想,这或许是个正确的方向。

还有一个关键时刻,是我们beta测试的时候。我们发布了一个原型产品,那时候还很简单,就是一个像推特输入框一样的小工具,只能一句一句地生成语音。结果我们发现,有不少图书作者参与测试,他们会直接把整本书复制进去,一次又一次粘贴生成语音,然后下载。那时市面上还没什么地方可以上传AI音频内容,他们就自己上传、分发、收反馈。最让人惊讶的是,很多听众居然反馈说这作品非常不错,这些创作者也因此带来了更多行业里的人来合作。

所以,那时候我们才真正意识到:这个产品开始跑起来了,它不再只是一个demo,而是可以开始规模化应用的东西了。之后类似的关键节点还发生了好几次。

John我想在这里稍微打断一下,因为很多人在谈到产品与市场的契合度(product-market fit)时会说,一旦你看见它、感受到它,就会明白。那种状态就是,产品几乎是从货架上被抢光的节奏,用户开始用它做一些你根本没预料到的事情。

听起来你们也经历了类似的时刻。虽然当时产品还远远称不上是一个成熟的有声书工具,但用户已经在把整本书拆成一小段一小段,硬是用你们的demo来实现完整的朗读体验。那会不会就是你们第一次意识到,这东西真的有戏了?

Mati完全正确。而且必须要特别感谢我的联合创始人Piotr他是我们早期很多核心技术背后的大脑”——真正让模型听起来更像人类、更具叙述性的关键创新,很多都来自他。

那是我们第一次在真实场景中看到用户和内容之间产生这种互动,我们才意识到:这个模型真的达到了实用层级,它可以胜任这样的任务。

John这个转折点,大概是公司历史中的哪个时间点?

Mati是在202211月。

John但这真的很快啊,能在这么短时间内就拿出一个让人震撼的demo。所以说,你们在一年之内就达到了这种程度?

Mati没错,一年之内。但当然,后面还要做很扫尾工作才能真正跑起来。比如你需要有真正能交互的产品,最开始的时候,系统经常崩溃,整个基础设施根本承受不了压力。在最初一两年里,我们也经历了你刚才提到的那种断崖时刻”——比如GPU资源根本不够,服务频繁中断,用户体验完全跟不上。但我们一步一步修补、扩容,现在整个系统已经相对稳定了。

John这个问题在AI领域尤其常见。因为算力消耗太大,经常会出现服务器宕机的情况。就比如我这周尝试用一下Claude 4,结果平台太热门,服务器直接崩了。这个服务熔断现象,在AI行业已经成了常态。你刚才提到了语音是人机交互的主界面这个观点,我也特别感兴趣。我们其实早在几十年前就有这样一个设想——未来人与计算机的交互,核心不再是UI,而是语音。

来举个例子:大家举手示意一下,现场有没有人看过《2001太空漫游》?(很多人举手)

好,看来大家审美不错。那是部经典影片。电影里有个AI系统HAL,最关键的一点是,人类和HAL之间的交互完全是通过语音来完成的。这部电影上映于1968年,也就是说已经过去57年了。结果我们现在——还在那儿像原始人一样划手机屏幕。所以我的问题是,语音真正成为我们与计算设备主要交互方式的时刻,什么时候才会到来?我说的不是“Alexa,开灯这种简单命令,而是更复杂、更智能的语音交互场景。那一天什么时候到来?它还缺什么关键因素?

Mati这背后需要实现两个关键突破。第一个是模型层面的突破。其实我们已经能在部分真实场景中看到它的应用,模型在语音交互中表现得越来越像人类,体验比以前任何技术都自然流畅但真正意义上的语音版图灵测试”——也就是你完全分辨不出这是AI,而不是人类时的交互体验——很有希望在今年内实现。

John是的,我觉得语音这部分其实已经足够好了,问题在于它整套体验里,其他环节还不到位……

Mati完全同意。而且另一个关键就是推广路径要打通。这点我们其实已经在一些公司里看到初步趋势,但真正的转折,会是在未来一到两年内,从现在的早期用户阶段迈向早期主流市场。举个例子,我们和Perplexity有合作。他们做了一个assistant,你既可以用打字的方式提问,也可以直接说话,它会给出语音回应。整个交互体验非常顺畅,甚至可以说是愉悦和惊艳的。

所以我们已经看到了这个趋势正在形成。但就像你说的,这种语音交互的幻想已经在很多电影里出现了很久了。比如《钢铁侠》里的Jarvis助手,人和技术之间完全通过语音交互,而不是敲键盘或划屏幕。我们从小看到大的这些幻想,真的有可能在今年逐步变成现实。

不完美才更真实:AI语音的人性化拐点

John在语音交流中,那些非文字层面的细节,有没有什么是特别值得注意、但又不容易被外行人意识到的?

我印象中最早注意到这个是在OpenAIChatGPT语音模式里,也可能你们更早就实现了——就是用户可以打断AI的语音回复。虽然现在的打断体验还有点生硬,但相比完全不能打断,已经是巨大的进步了。这个体验让我意识到,在语音交互里,知道什么时候一个句子结束了、能否自然打断,竟然是一个非常重要的要素。

除了这些显性的部分,比如把一段文字流顺畅地转成语音,还有没有其他我们非语音技术背景的人不会想到、但实际上非常关键或出乎意料的地方?

Mati有意思的是,一开始我们一直在追求让技术尽可能完美。我们刚起步时,也是想把语音做得尽量流畅、准确、没有错误——尤其是当我们为客户服务、医疗、金融等行业的公司提供语音解决方案时,这种追求听起来非常合理。但后来我们意识到,如果要让人真正愿意互动,语音太完美反而不是最佳答案。更人味儿的语音,反而会带来更好的用户参与感。

举个实际例子:我们跟一家物流行业的公司合作,他们提供一个语音Agent服务,用户可以通过电话预约配送,然后Agent会回电确认预约。后来他们在合成语音里特意加入了一些这种犹豫词,甚至还有些轻微的呼吸音——这些并不是错误,而是模拟人的语气。结果令人惊讶:用户通话流程的完成率提高了两个百分点级别的幅度,整体体验也被显著优化。

现在回头来看,我们很多语音生成工作,正是通过加入这些不完美的人性化特征,让合成声音显得更加真实和有情感,这也成为ElevenLabs的声音技术与众不同之处。当然,并不是所有场景都适合这种风格。但总体而言,人性中的不完美,恰恰是人愿意互动的关键。

另外还有些场景下,声音本身的特殊性就是体验的核心。例如我最近和Epic Games合作,他们希望复刻Darth Vader的声音——这就非常典型。Darth Vader的声音独特且极具辨识度,所以我们在重建时,既要保留他的语音特征,也要确保在玩家与他互动时,依然能传达那种黑暗原力的压迫感和氛围。

John他可是个严肃的角色。

Mati对,他很严肃,你不会想对Darth Vader开玩笑。你希望在所有场景中都能保持这种角色设定,而且是在数百万玩家同时互动的情况下,仍然保持低延迟的语音体验。

那么,怎么做到这一点?这就需要语音本身能传达出角色的气质,合成出来的声音要贴合角色,同时回答要简洁、有力度,确保角色感不被稀释。所以说,语音的个性风格,在拉近人机之间的情感距离时,其实是非常关键的一环

John目前大家用语音最多的三个场景,好像还是集中在:智能家居唤醒、手机语音输入(但也就只是填个文本框而已)、还有电话语音菜单(phone trees)。那你觉得,下一个还没有大规模普及的语音交互形态,会是什么?

Mati互动式媒体绝对是接下来会快速增长的一个方向。

John你是指你刚才讲到的那类电子游戏场景?

Mati没错,就是游戏的那个例子。这是其中一个方向。原本静态的内容宇宙,正在开始向可交互的方向演进,不仅是游戏,甚至传统媒体也会被重新定义。

我们看到一个很有代表性的用例:在年度人物报道上线期间,读者不仅可以阅读文章、听文章,还能与文章进行互动。比如你可以对它提问,了解更多关于这个年度人物的信息,甚至问出历年来其他的年度人物是谁。这种交互式媒体会成为一个非常大的类别。

第二个方向是现在还相对传统的客户支持。今天它还是你产品出问题了,就得去找客服这种模式。但它会逐渐演变为品牌体验和产品引导的一部分。未来,当你开始使用某个产品时,Agent会成为你体验的核心,主动引导你熟悉产品,告诉你功能在哪里、怎么用、如何组合这些功能。这会是一个非常有趣的转变——从传统软件的使用方式,过渡到以语音和交互为核心的产品体验

John所以你的意思是,现在的客户服务主要还是那种人在崩溃时才打过去的东西,但未来通过语音完成的产品引导,有可能真正帮助更多人顺利使用产品?

Mati完全正确。现在大家熟悉的电话语音树(IVR)那套体验,说实话并不好,也不够高效。但我们正看到这种体验会被彻底改变,变成真正愉悦的交互过程。

未来的语音Agent会具备上下文感知能力,能够理解你为什么打电话来,并帮助你顺畅地完成后续操作——无论是预约、账单问题、退款申请,整个流程都能变得迅速而顺滑。最初你可能只是想赶紧搞定,但它的价值会延伸得更远,比如:它可以帮助你理解一个产品的核心功能,教你怎么用,并让你真正用出价值来。

John是的。在座的很多企业,包括我们自己,其实都在思考怎样才能把AI真正地融入业务。你觉得企业该如何真正用好AI带来的效率提升?不只是语音,其他形式也行。

Mati是的。我们在实践中看到的模式,主要可以归为两大类:第一类是效率和利润率优化,即如何在现有流程中提升效率;第二类是增长,也就是你如何获取更多客户,以及如何将效率提升转化为可规模化的成果。

在实际应用上,有三个非常典型的切入点:首先,是所有人工处理、重复性强的流程;其次,就是那些看起来不那么明显但非常关键的场景——你是否拥有大量结构化的数据,能为AI的接入和训练提供土壤。我们和很多公司合作时,常见的一个误区是:到底需要多长时间才能做出来?我们的经验是:在三个月内,应该就能上线一个高质量的proof of concept(概念验证),验证价值;一年内则应该能进入正式上线。

John这位哥们(指Mati)不到一年就做出了业内领先的语音模型,所以我们谁也别找借口说自己的客户服务系统改进流程做不出来——如果比他还慢,那就说不过去了。你刚才提到数据,我理解你是在说,其实大家现在可能太急着想在流程上搞优化、找效率,但反而应该先回过头去想一想:我是不是拥有一些别人没有的、有价值的数据?我能不能用这些数据打造出独特的产品体验?哪怕一开始不是为了提高效率,也可以带着探索式的心态去构建AI相关功能,这反而能打开更大的想象空间。

Mati完全正确。这些应用基本都会落在我们刚才说的几大类里。如果你关注的是效率提升,客户支持是我们反复看到的最容易切入的场景,不论是基于文本还是基于语音都很适用。你已经拥有企业内部的知识库,你可以训练一个Agent,这完全是可行的。

但除此之外,还有一些更有趣的方向:比如你有IP、有内容、有你想传达的品牌故事,这些都是独特的资产现在,如果你有这些内容作为基础数据,你就可以围绕它构建交互式体验,打造一个能体现品牌调性的AI入口,让外部用户可以真正参与进来,与之互动和尝试。

AI语音的意想不到用途

John对。那你看到过最让你意想不到的、基于ElevenLabs产品的应用场景是什么?

Mati我先说一个对我们来说最温暖的故事。最初,很多人在失去声音后,比如因为ALS(渐冻症)或癌症,就开始用ElevenLabs来重现他们的声音。我们还和他们合作,帮助这些人找回了声音。但更令人惊讶的是,去年发生了一件事,一位美国国会议员不幸失去了声音,却希望继续在国会工作、代表她的州,我们帮助她重建了声音。这是AI语音第一次在国会中发声,尽管她面临不幸的境遇,却真正展示了技术的可能性,继续推动她的工作。这是一个非常励志、非常了不起的故事。

此外,我们看到在大多数大型AI实验室推出语音产品之前,有一家创业公司做了一个整合——ElevenLabs的语音模块、语言模型(LM)以及视觉模块结合起来,打造了一个AI旅游导游助手,可以环绕讲述你周围的世界,而且你还能与这个旅游助手互动。这大约是在两年前的一个hackathon里,有人做了这个项目,成功部署后开始组建公司,这也是早期的一个精彩案例。

最近还有一个有趣的例子,我们举办了一场hackathon,参与者探索未来Agent之间的交互。想象一下,你的Agent帮你订餐厅,打电话给餐厅,而接电话的是另一个Agent,负责接单。他们做了一个demo,展示Agent们会切换各自的AI声音,用自己的语言互相交流,以提高效率,然后在另一端完成整个处理流程。

John抱歉,能具体说说更高效的Agent语言是什么样的吗?

Mati这是一种叫做Jibber,或者Jibberlink的协议,它实际上是把我们熟悉的词语,转换成信号或者频率来传递信息。

John哦,明白了。

Mati也就是说,它通过编码和解码,完成消息的传输。

John那听起来就像调制解调器(ZP注:调制解调器(Modem)是一种实现数字信号与模拟信号相互转换的网络设备,主要用于在不同传输介质中传输数据,是早期互联网接入的关键设备。)连接时发出的声音,然后它们开始工作了,真有趣。这就像升级成了更高带宽的通信格式。你刚才提到大型AI实验室,他们总喜欢说应用层和更具体的东西都会成为路障,被碾压掉。那你们是怎么避免被这些更大的实验室碾压的呢?

MatiElevenLabs的特别之处在于,我们既做基础模型的研究工作,又做产品开发,聚焦于voice领域,同时兼顾这两个方面。

我们认为取胜的关键,第一是保持对voice的专注,真正加倍投入,打造最顶尖的研究模型。我的联合创始人成功聚集了音频领域一些最优秀的研究人员,我们相信他们能带来下一波技术突破。与其他模型相比,voice领域的最大不同可能在于,突破更多依赖模型和数据,而不是算力和规模。所以,即便现在仍在做基础模型的研发,也能显著提升效果。随着未来从单模态向多模态转变,这种情况可能会有所变化——这也是我们正在努力的方向。但目前来说,在音频和voice领域,技术突破依然是核心。

另外,我们公司花费大量时间的地方,是在研究之外——你必须能够把研究成果真正应用起来。无论是有声书的旁白,还是构建具备性能指标和知识库整合的voice agent,这些产品层面的工作占据了我们绝大部分的产品开发周期,目的是为客户打造实用的应用体验。

John因为大家最终都是想用AI去做点什么,有一个实际的行动结果。

Mati完全正确。只有研究和产品两手抓,才能真正取得成功。通过做研究,我们能把别人做不到的技术带进产品里;通过做产品,我们能贴近客户,和他们一起合作。

John你说这不仅仅是规模和堆更多GPU的问题,还关乎更好的技术手段。我记得OpenAIGreg Brockman也说过类似的话。虽然这在某些情况下是对的,但基本上,AI领域的每种方法,随着计算规模的增加,效果都会变得更好。我们发明了transformer,那非常棒,而投入的计算越多,效果越好。你觉得这在voice领域也是这样吗?还是有某些原因让它不一样?

Mati随着时间推移,这种情况会越来越明显。当我们解决了voice领域一些最基础的问题后,规模带来的优势才会真正显现出来。但如果不解决这些基础问题,仅靠堆算力,结果依然会是糟糕的输出。从长远看,百分之百如此。特别是,我们看到的一个主要范式是——我们之前也提过。你提到了互操作性的问题。实际上,这可以通过两种方式实现。我们公司最初的切入点是text-to-speech。然后随着时间推移,我们扩展到了speech-to-text,现在构建了一套编排系统,能够把speech-to-textLLMtext-to-speech结合起来,实现完整的流程。这三个模型本质上是相互独立的,我们把它们串联起来。但未来,这种级联(cascaded)的方式会逐渐转向多模态(multimodal)训练,即将这些模型一起训练。在那种情况下,规模的重要性会变得更加突出,这也是我们持续投入的方向。

有关AI语音欺诈的安全问题以及如何建立新的信任

John我们目前正处在一个社会性的信任平衡中,比如说你在进行一个需要高度信任的操作——例如在线银行业务,你说:我要把账户里所有的钱转出去。银行的反应通常是:这个请求可疑,我们得验证一下。于是他们会打电话给你,确认听到的声音确实非常像是你的,只有在这种情况下,他们才会允许资金转出。这个机制作为一种信任平衡已经持续了几十年,直到,你刚才听到的(AI合成语音)出现了。那现在的问题是,在语音信任这个问题上,我们的新平衡该是什么?因为我们不仅在语音上看到越来越多基于deepfake的欺诈,文本、甚至视频领域也出现了类似问题。你觉得这种新的平衡状态会是什么样?我们要如何验证一个人的身份?

Mati这是一个很重要的问题,也是我们花了很多时间深入思考的。尤其是在你发布这类技术时,必须考虑如何构建有效的安全防护措施,以防止它被恶意使用。而现实情况是,随着技术的发展,滥用的情况是不可避免的。我们从公司创立之初就非常重视一个核心理念:可追溯性(provenance)和透明性(transparency。也就是说,所有通过ElevenLabs生成的内容,都可以被追踪回其生成者的身份来源。这个机制会辅以我们的内容审查系统——包括语音和文本层面的审核机制——共同构成一道安全屏障。

John但我其实相信,你们或许还能在一定程度上控制ElevenLabs的语音被如何使用。不过问题在于,现在整个这项技术就像潘多拉的盒子一样已经被打开了。我很好奇,你是怎么思考这个问题的?从整个社会层面来看,我们该如何适应这样一个现实:现在非常逼真的语音复制技术已经广泛存在了。那么,我们所谓的新信任平衡该如何建立?

Mati完全正确。这也是我们在训练模型的过程中就开始思考的问题。所以我们做的一件事,是构建了一个公开可用的分类器,这个工具可以供整个行业使用。起初,它可以判断某段音频是否是通过ElevenLabs生成的。

John哦,听起来你们是给声音加水印了?

Mati严格来说,这就是一种基于分类器的方式。随着时间推移,我们也开始和其他公司合作,把这个能力扩展出去,比如和伯克利大学合作,在开源模型和其他模型上进行训练,尝试扩大识别范围。但这始终不是最优解,因为新的开源模型、新的商用模型总会不断涌现,这其实是一场永远追不上的游戏,无法长期可靠。

所以,回到你刚才的问题,未来的路径其实会反过来——不是检测内容是不是由AI生成的,而是去检测内容是不是由人类产生的。也就是说,在设备端,比如手机、电脑、屏幕,内建一种机制:这是某人本人在发声,是用某人的设备产生的内容,前端加密、后端解码,从而确认这就是这个人。这种方式很直接——如果所有人都采用,那问题就好解决了。

但还有第二层,我觉得其实更有意思。随着Agent的普及,大家都可能拥有一个或多个Agent,我们会需要一种机制来确认这个Agent是被认证过的、合法的。例如,有一段是用你的声音生成的语音,你希望明确知道:这段语音是经过你的授权和同意生成的,并且这个信息能够被外部获取。那么在这种情况下,我们就可以通过水印的方式,把这些元数据嵌入进去。这是第二层。

然后第三层就是其他一切内容。如果某段内容既没有水印,也没有认证,也无法验证它是真实的、由人类生成的,那就可以默认把它归类为AI生成的。在这种情况下,我们就可以再部署前面提到的分类器方法,去进一步确认这是否为AI内容。

总的来说,未来的默认逻辑应该是:凡是不经过验证的内容,都应被标记为AI生成的。

John这非常有意思,我之前还真没从这个角度想过。这让我想到恶意软件检测的工作原理,比如电脑上的杀毒软件,它会在你试图运行某个可执行文件时,去识别这个软件的代码签名,然后判断:嗯,我们以前见过这个,是恶意的。如果你看杀毒软件的检测机制,它当然也不是完美的,但总比完全没有好,整体上其实还是相当可用的。所以我们最终可能也会对AI生成的声音采用类似恶意软件检测的机制来识别。这想法挺有意思的。

Mati完全正确。其实还有一些想法可以借鉴HTTPS协议的机制,比如:有一组受信任的实体参与验证通信,来确认这是一个经过认证的消息。同样的思路也可以应用到AI声音上:所有愿意参与验证机制的公司,都可以为其AI生成的声音添加水印、认证或编码的真实声音,从而获得验证。这样一来,就像HTTPS中的安全证书一样,参与的公司就被视为可信来源。而没有加入这个体系的内容,就不会被认证。

John你刚才提到经许可使用你自己的声音,还有像你自己的Agent在外面替你工作,这点挺有意思的。那我该怎么理解自己用AI生成的声音?尤其是现在你们已经帮我做了一个,我是不是错过了一些使用它的机会?我该怎么用我的AI声音才算用得上?

Mati我觉得你至少可以从两个方向考虑。第一个当然是交互式的使用场景,比如你可以有一个Agent,它可以……

John代表我欢迎大家来到Stripe

Mati对,比如代表你欢迎大家来到Stripe,或者根据你过去的演讲、你生成过的内容,回答用户的问题。这是一个方向。

第二个方向,也是你刚才其实稍微提到过的,就是:未来会出现一个非常令人振奋的时刻,那就是语言的壁垒将会被打破。因为你的声音,将能够被理解成各种语言。你可以去不同国家旅行,而对方能听到你的声音用地道的语言在说话——带着你原有的语调、语气和情感。这种跨语言的沟通方式,过去几乎无法想象。当然我们也期待硬件层面能同步进化,那样你在任何地方都可以自然地表达自己,真正传达情绪和信息。希望到那个时候,像波兰的电影配音问题也能被解决,那就真的太棒了。

John确实。其实关于语言这件事,可能是最具变革意义的一点。曾经很长一段时间,人工翻译是网络内容中唯一可行的方案。人们投入了巨大的精力去做翻译。但到了这几年,机器翻译的质量已经足够好了,所以我们现在在网上看到的大量翻译,其实都是机器翻译,效果也挺不错的。类似的情况大概率也会发生在语音内容上。外语内容的数量将会出现爆发式增长,因为……

Mati因为Stripe全球所有员工都能听到母语版的讲话了。

John对。这真的挺有意思的。比如全员大会的内容,就可以本地化地传达出去。而且你还会看到一个诱导式需求效应:正因为这个能力存在,人们会生产更多原本不会制作的内容。真的很有意思。

Disney中获得的启发

John最后一个问题:我知道你是Disney的忠实粉丝,我也很好奇,Disney或者Bob Iger给你带来了什么启发?在你打造ElevenLabs的过程中,有哪些是你从Disney剧本中借鉴而来的?

Mati我觉得Disney多年来创造了很多令人惊叹的东西,当然,其中最显而易见、也最让我敬佩的一点,是他们对叙事的执着。这种叙事不仅贯穿在他们的动画电影里,也体现在App、甚至Star Wars等品牌中。你能感受到,不管是哪个作品,它们共同构建了一个统一而永恒的世界观,让你觉得自己也是其中的一部分。在我们构建ElevenLabs的技术时,也希望借鉴这种理念。我们不是为了技术而做技术,而是希望通过技术把故事传达出去,让我们触达的不同群体都能理解并参与进来。让人们觉得他们也在这段故事之中。

另外一点我特别喜欢的,是Bob IgerDisney推广的一个理念——他要求Disney内部的每个人都要穿上那些毛茸茸的园区人物服装,和游客互动。这样做是为了真正理解这个品牌意味着什么,它是如何被用户感知的,谁是你的受众。这个理念也对我们影响很大。我们始终希望公司内部每一部分,无论是在做研究、模型、产品还是运营,都能尽可能贴近用户,和用户保持真实而深入的联系。

John那你自己的穿上米老鼠服装的版本是什么呢?

Mati我自己反复在做的一件事是亲自参与客户支持,直接去处理用户工单,尽可能贴近用户。你真的能从中学到很多。我记得你也会这么做——邀请用户来电话里亲自聊他们遇到的痛点,从这些反馈中你能收获超出预期的洞察。

John所以,像Disney一样,你得真正理解自己公司的差异化优势是什么、最擅长的核心能力在哪里,然后确保公司里的每个人都保持对这个核心的深入参与和紧密联系。

Mati完全同意。谢谢你邀请我来聊这次。

John非常感谢你。

原视频:A conversation with ElevenLabs CEO Mati Staniszewski

https://www.youtube.com/watch?v=bslevdsr85s

编译:Lyra Chen

请注意,本文编译自文末载明的原始链接,不代表Z Potentials立场。如果您对本文有任何想法或见解,欢迎在评论区留言互动探讨。

Z Potentials将继续提供更多关于人工智能、机器人、全球化等领域的优质内容。我们诚邀对未来充满憧憬的您加入我们的社群,与我们共同分享、学习、成长。

——-

(文:Z Potentials)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往