Google 爆款 AI 产品终于支持中文!儿化音贼溜,AI 这口地道京腔要怎么练成?

从来没想过,AI 跑出来的语音,竟然可以摆脱「外国人说中文」,对味儿!
Google 系的第一大爆款 NotebookLM 发布更新,现在(终于)支持多达五十种语言来生成播客——包括中文。

速速测试了一下,神奇,听起来竟然还有股「京片子」的感觉,那叫一个地地道道!

昨天更新的 DeepSeek-Prover-V2 ,涉及到递归、强化学习以及数学推理这些硬核知识,NotebookLM 也可以马上转换成易懂的中文播客。
如果你还不知道 NotebookLM,那么快速回顾一下:这是 Google 旗下的产品,上传任意文本材料,就可以转换为轻松易懂的播客对谈——聊着聊着就能把晦涩的知识点听进去,且几乎没有传统文本转声音的「AI 味」。
据日本网友的测评,日语也说得非常好,是不是真好咱也不知道,且当做是吧。
我们也期待 NotebookLM 中文版能尽快更新和主持人对话的功能(英文版已经支持),APPSO 也曾做过详细的体验👉🏻年度最火 AI 工具更新了,知识以一种神奇的方式进入大脑
去年它一发布就风靡全球,NotebookLM 背后的主创团队也因此名声大噪。其中,Raiza Martin 是 Google AI 实验室级产品经理,她领导 NotebookLM 背后的整个团队。Steven Johnson 是 NotebookLM 编辑总监,同时也是畅销书作家,著作曾登上《纽约时报》畅销书榜单。
获得成功后,Raiza Martin 选择从 Google 离职,开始自己的创业之旅。在此之前,她和 Steven Johnson 一起作客 DeepMind 播客,那是她作为 Google 成员的最后一次亮相。
在这期节目上,两位主创分享了这个年度爆款背后的制作故事,还为播客主持人 Hannah Fry 送上了一份特殊的礼物。
以下为对谈节选,经整理及编辑,内容有所删减。
Hannah Fry:你们把我的博士论文第一页做成了播客!太神奇了,它听上去比实际上有趣得多!
Steven Johnson:这就是重点(笑)。
Hannah Fry:两个声音在完成彼此的句子,在双关语上感觉非常流畅,非常自然。NotebookLM 得到了非常多的反响,你对这些反响感到惊讶吗,Raiza?
Raiza Martin:是的,对我来说最令人惊讶且同样令人开心的是人们如何使用它。我曾经想象过他们可能会怎么用,但是发布一个如此令人兴奋的东西的美妙之处在于,你会看到一个全新的世界。我可能每天花很大一部分时间,大约三分之一的时间,就是在听这些内容。
Steven Johnson:我们真正感到惊讶的是人们会把他们的简历放在那里。这几乎就像一个小型夸夸机器,就像当你对自己感到沮丧的时候,听一段 10 分钟的音频对话,两个非常热情的主持人在说:「哇,斯蒂芬在他的职业生涯中确实做了很多事情。」实际上简历是一个更严肃的东西。
但这是很有趣和轻松的使用方式。比如你可以对你正在进行的项目进行改进,你可以上传你正在写的一个短篇小说,然后说,嘿,给我一些建设性的批评意见。然后你会听到「人们」谈论你的作品,他们非常擅长挖掘有趣的转折点,或者关注那些特别引人注目的角色。所以这是一种针对你正在进行的项目,获得讨论小组反馈的方式,这真的很神奇

NotebookLM 案例示范,视频来自网络

Hannah Fry:听到别人讨论的时候,好像是增加了一种客观性?
Raiza Martin:很多内容或内容生成,如果只是以文本形式呈现,其实并不新鲜,对吧?上传我的简历,然后让一个大语言模型吐出一些内容,比如「这是 Raiza 的职业生涯」,写一个类似的总结。也许它会在这里和那里抽取出一些有趣的细节,这在两年前可能还算新颖,当时每个人都对此感到兴奋。但我认为,添加那个新的层次或新的模态,就是那种非常像人类的声音,以一种非常不同的方式与人们建立了联系。
我个人认为,这种技术是「人性化」的,就是当你意识到它与你非常相似,以一种不同的方式引起共鸣。我记得第一次听我的简历时——我知道会是什么样子——但当我听到它时,我仍然感受到内心有一种激动,那种「哇」的感觉。我认为这就是新模态的魔力。
Steven Johnson:众所周知,人类已经通过对话交流和学习数十万年了。我们通过阅读书页上的结构化文本已经学习了 500 年,通过屏幕上的结构化文本学习了 30 年。所以当你激活那种真正类似人类对话的感觉时,这触及了我们作为人类最深层、最古老、最根本的部分。这就是为什么当人们第一次听到这种对话时会如此激动的原因之一。
Hannah Fry:你们决定有两个人对谈,而不是只有一个声音对着空气说话,也是很有趣的选择。
Steven Johnson:是的,这确实是一个非常不同的格式。如果只有一个人,听起来就像是文字转语音,对吧?我们都听过文字转语音。就像是电脑把它刚刚写的文字,转换成可以听的东西,这很棒。我们也很感兴趣地想找出在其他形式。
但要做明白对话,我们必须更详细更深入,比如有很多细微的东西,你必须让它们运转起来。没有人想听两个机器人互相对话,那肯定会失败,根本听不到 30 秒。你必须掌握人们在对话中做的所有微妙而奇怪的事情,这样才行。
Hannah Fry:那我们还是回到这个项目的起源吧,它是怎么来的?
Raiza Martin:我想很多人认为 Notebook LLM 是因为音频概览功能而新出现的。我们确实有大量的人涌入,人们都说「哇,这是谷歌的什么新东西?」但实际上,我们已经研发 NotebookLM 一年多了。
去年在 Google IO 大会上,我们首次以「Project Tailwind」的名称宣布了它,在那之前,我们实际上已经在谷歌实验室孵化了这个项目。这也是Steven 和我相识的方式。Steven 是被引进来的。Steven,你最开始的职位是什么?
Steven Johnson:我是访问学者,是的,然后我成为了编辑总监。
Raiza Martin:他当时已经升职了,当时 Josh Woodward——现在是谷歌实验室的负责人,他是副总裁——告诉我说「我希望你能建立一个新的人工智能业务。」我当时在想,要真正做到这一点究竟需要什么。但我要说的是,我早期的灵感之一就是简单地观察 Steven Johnson 的工作,说实话,就是理解他如何做他所做的事情,我当时想:「天哪,这真是一种超能力。」
Steven Johnson:我之前有长期写书的经历,Josh 读过我的一些书,也读过我写的关于思考工具的东西,基本上就是如何使用软件帮助人们思考和发展想法和研究,那是在 2022 年中期。
Steven Johnson
那时语言模型是重中之重,所以他联系了我说「嘿,你有没有兴趣来谷歌,帮助构建你一直想要帮助人们学习和组织想法的工具,建立在语言模型之上的。」我记得我在谷歌第二天就遇到了 Raiza,我和她从一开始就很清楚,当时就说,让我们来创造一些新东西。
Hannah Fry:你们怎么定夺它的特殊之处,相比于把文档上传给 Gemini 让它总结?
Steven Johnson:我们称之为 source grounding,这是我们的说法。在 2022 年中期,还没有人谈论,所以这是我们构建的第一件事。我们上传了我的一本书的部分内容,然后我可以与模型进行一种非常粗糙的对话,完全不像你现在看到的文本或音频。但你可以看到,如果(模型)拥有你所有的想法,而不仅仅是与一个普通的开源模型交谈的内容,会是什么样子
这会很棒,它还能减少幻觉,你可以用来做事实核查,可以回溯查看原始源材料,这是整个 NotebookLM 的重要组成部分。NotebookLM 是一切的开始,我们所做的一切都建立在那个平台上。
Hannah Fry:这里真正的关键区别在于它非常聚焦于你提供的源材料及其相关的一切,而不仅仅是你所说的那种通用的
Raiza Martin:是的,我想说的是,我们观察到这种范式一开始会有点难以上手,因为它太新了,对吧?首先,你是在与 AI 对话,而且还必须带上自己的资料。我每天的工作,Steven 每天的工作,以及全世界每天在电脑上工作的许多人,我们都在处理非常具体的信息,以及与他人共享的特定背景,对吧?比如我们做研究,收集资料,希望从中提取自己的见解。我认为这就是让 NotebookLM 变得特别的地方,从一开始就很特别。
Hannah Fry:所以它确实也包括了这些文本元素,因为正如你所说,播客部分是最为人所知的部分。
Raiza Martin:没错,播客功能是 NotebookLM 中最近的发展,但实际上我们是一年前推出的,当时它主要是一个聊天功能,你通过系统与它对话,使用你的资料,而且它始终会回溯并精确指出它使用了你内容中的哪些部分。
Hannah Fry:那给我一些更普通的例子,说明人们是如何在日常生活中使用这个的,而不是像 Steven 那样的高级用法。
Steven Johnson:实际上我们看到很多人主要使用它的文本功能。突然间,你拥有了一个可以回答关于所有几百页文档的任何问题的强大资源。在文本版本中,你会得到引用和所有相关信息。
其实这是非常学术化的。你得到的每一个答案,模型提供的每一个事实都会附带一个内嵌的脚注,你可以点击那个脚注,查看原文段落。作家和记者显然是在使用这个功能。
这有点来自于我参与这个项目的经历。我有一个笔记本,里面存储了我多年来阅读过的书籍中的成千上万的引用,还有我自己写的书的很多内容。这个笔记本基本上就像是我的大脑被 AI 捕捉了一样。所以每当我在做一些新的创意工作时,我就会去翻这个笔记本,问它:「嘿,你觉得这个点子怎么样?」然后 AI 会说:「嘿,Steven,你大约七年前读过与此相关的东西,看看这个段落怎么样?」所以它真的成了我记忆的延伸,就像这种东西。
Hannah Fry:不是仅仅回忆,而是它真的可以有洞察吗?
Raiza Martin:我会说有,因为我确实用过这个功能。其中一个我喜欢问它的事情是,每当我上传这些每周的日志时,我会问:「我随着时间的推移变化了多少?」这真的很了不起,它能够为我提取出一些非常有趣的细节,是我自己没有意识到的。它能告诉我,比如说:「嘿,你经常把很多负面情绪与这个特定话题关联起来,而你又把很多积极情绪与那个话题关联。」
这非常有趣,回到你之前问的关于日常和普通用例的问题,我们其实看到很多这样的情况——就是人们试图理解他们每天做的工作。例如,销售团队就常常使用这个功能来互相分享知识,这样的应用确实很有意义。处理大量技术复杂且不断变化的文档时,有一个 AI 伙伴真的很棒。
我觉得这和今天许多 AI 系统的工作方式非常不同。比如说,我使用了市面上所有的工具,而我写的提示非常庞大——我通常会先写:「你是一个……,这是我们正在做的事,这些是相关的文档。」而对于 NotebookLM,它其实直接简化了这个过程,它就像一个项目空间,知道你在说什么,你可以一直进行对话,它最多能处理 2500 万字的内容,简直是从上下文角度来看非常庞大。
Steven Johnson:我觉得其中一个有趣且可能有些独特的方面是,关于这个产品是否有效的问题,很多时候并不是技术性问题,而是编辑风格上的问题。例如,当你得到一个音频概览时,什么样的答案才是合适的?风格是什么?它们应该针对哪个层次的听众?
这些都不是技术问题,而是语言问题。这个正是语言模型时代的疯狂现实——那些曾经主要是「让编程做对」的问题,现在更多变成了关于修辞和表达的问题。
Hannah Fry:嗯,实际上我也很想更深入地探讨一下风格方面的问题。你们为什么决定采用音频概览的形式呢?是什么激发了这个灵感?毕竟现在已经有很多播客了,是吧?
Steven Johnson:音频概览的出现其实是实验室结构运作良好的一个例子,我觉得这也是它的一大亮点,因为这是实验室内的另一个小团队专注于音频版本的工作。它的部分理念并不是为了与播客竞争,而是认识到有一类内容,如果要制作成播客,是无法实现其经济效益
但如果能自动生成音频概览,就有可能吸引五个人、一个人,或者二十个人去听,而不是二十万人。比如说,我们想基于上周的团队会议制作一个播客,方便大家回顾,这显然不可能成为一个商业化的业务,没人会要求你去主持这样的节目。
Hannah Fryh:但实际上对那个团队来说,这个功能就很有用了。

OpenAI 联创 Andrej Karpathy 高度评价 NotebookLM 的创新

Steven Johnson:对。他们开始开发这个功能时,我听说过,那应该是在今年三月或四月吧。当时,我和其他听过音频概览的人一样,都会觉得:「哇,我刚听到的是什么?太棒了!」但我们很早就意识到,NotebookLM 的使命之一就是打造一个帮助人们理解事物的工具。
突然间我们发现,人们在以「两位聪明人之间的对话」的形式听到信息时,更能理解、记住并集中注意力。我们在夏天向 Google 内部员工发布了这个功能,那个时候我想我们开始觉得,这个肯定会火,因为你能明显看到人们对它的喜爱。虽然我们也很惊讶它能引起如此大的反响,但我们知道我们已经触及到了一些有趣的东西。
Raiza Martin:(最初)NotebookLM 的底层模型是 Gemini 1.5 Pro,这个模型能够生成非常令人印象深刻的内容和语音模型。我们使用的音频模型本身就是一个突破,我想这正是你所提到的——那种人类语音的真实感,对吧?
我们听到的那些类似人类的声音。然后再加上我们采用的方法,结合了内容的编辑化处理,思考如何为用户创造既有用又有趣、并且吸引人的东西。Steven 也能更详细地讲解这一点。
Steven Johnson:是的,这正好引出了一个我经常提到的主题,就是关于「有趣性」的问题。Simon 是音频团队的负责人之一,他有时会为音频概览提出一个口号:「让任何事情都变得有趣。」比如,不管是什么内容,把你的论文变得有趣——当然,我相信你的论文本来就已经很有趣了(笑)。
这真是一个很好的例子,展示了几种技术或突破的汇聚,创造出了某种魔法般的效果。Gemini 本身也可以在文本上做到这一点,它非常擅长从你提供的材料中提取出有趣的事实、观点或故事
我自己经常做这个,比如上传一些新的内容,然后问它:「告诉我从中最有趣的东西」,仅仅是文本形式。以前的计算机是做不到这一点的。你不可能通过 Command+F 来搜索有趣的内容,这根本不是一个能搜索的查询
Hannah Fry:但你如何定义它,我的意思是,「有趣」意味着什么?
Steven Johnson:我相信这来源于语言模型的基本理念,即它们是预测性的。它们的工作原理是:给定一串文本,我预期接下来会发生什么。所以,「有趣性」就是一种「受控的惊讶」。我原本以为会是这样,但实际上这里有些我没预料到的新信息.
语言模型擅长这个不足为奇了,因为它们的基本机制就是预测。它们在浏览所有信息时,会根据训练数据判断哪些信息是新颖的,或者哪些信息超出了它们的预期。所以,如果你很擅长这方面,那就是 Gemini 模型的一个基础能力,对吧?
第二个非常酷的地方在于,指令会将生成的脚本添加一些噪音。这些噪音被称为「语言不流畅性」,就是人类在说话时常出现的口吃、停顿和插入语。事实证明,这些噪音是必要的,因为如果没有这些,语音听起来就会显得过于机械化。
最后,还有音频的语音本身,它们会做出一些微妙的调整,比如在英语中,如果说话者不确定自己在说什么,或者是为了强调某些内容,他们的语调会稍微提高,或者会放慢语速。
这些都是我们在说话时自然而然地做的事情,我们甚至不需要去想,但直到现在,计算机才开始能够做到这些,而这正是其中的一部分,这背后的语言和语音模型,过去一年内才实现的技术突破。
Hannah Fry:正如你所说,Steven,我注意到,你让声音在某些地方会上扬,在其他地方会下降,音调的范围和语速完全发生变化。你们把这些所有的元素都融入到了其中。那么,究竟是如何做到的呢?
Steven Johnson:我们应该澄清一下,我们并没有自己开发语音模型,我你们也不知道它的内部如何运转。Google 的天才们开发了这项技术,我们只是继承了它,并展示了它如何被应用。但我们并没有亲自构建它。
现在有一个问题是,虽然目前只支持英语,很多人都非常期待它能支持其他语言。我们也非常希望能实现这一点,因为我们有非常棒的国际用户群体。但这并不是一件容易的事,因为每种语言的语调和对话中的细节都有所不同。所以你不能只是把文字翻译成西班牙语,然后按播放键就行了。
Hannah Fry:完全同意你说的,确实非常值得注意的一点是,技术在处理不同类型的数据时,需要有多样性和适应性。如何避免让它每次听起来像一堆陈词滥调,这真的是一个很好的问题。你在描述时提到你在编码所有的「语言不流畅性」,那么如何确保它不会听起来像是重复的、千篇一律的内容呢?
Raiza Martin:确实很难每次都避免让内容听起来像陈词滥调,尤其是当试图通过标准化「有趣」来处理内容时。听得多了,这种「有趣」确实会显得重复。所以我们引入了第一个改进,就是允许用户向主持人传递一些指示,像是「少用陈词滥调,深入探讨这个话题」,这样就能改变他们讲述内容的方式,确实能增加内容的多样性和深度。
Hannah Fry:我可以想象成这就像是不同类型的旋钮,比如可能你打开的是「风趣」的旋钮,或者你打开的是「历史事实」旋钮,或者之类的?
Steven Johnson:这个比喻非常有意思。其实你还可以设想成给每个主持人设定不同的专业领域。他们基本上是可以互换的,并不是从不同的世界观中找出各自的视角,他们只是轮流主导对话,随机地交换位置。
Hannah Fry:将来我真的能够与这些主持人互动吗?比如打断他们,并加入他们的对话吗?
Steven Johnson:我们在 Google 开发者大会上演示过,在演示中采用了类似音频播客的格式,然后实验室负责人 Josh Woodward 打断了演示,说:「嘿,你们在讲物理学,能不能用篮球比喻来解释一下?因为我的儿子正在听。」他们回应道:「哦,没问题。」 就这样,就像是有人打电话到电台节目中来,要求用篮球比喻来讲解。这个互动展示了我们想要实现的目标的一部分。你可以想象,我们非常渴望将这项功能带给更多用户。
(编者注:现版本已经支持加入对谈,仅限英语)
Google 2023 IO 开发者大会
Hannah Fry:你提到了一点,我其实想进一步探讨。有些人对这项技术提出了批评,认为它对播客行业构成威胁,认为你们可能会用大量的、低质量的 AI 生成播客内容淹没播客市场。对此你有什么回应吗?
Raiza Martin:一个有趣且微妙之处在于,我们发现人们正在创作一些原本可能没有播客覆盖的内容。它可能不是我想说的「平凡」,但它确实是那些没人会专门做成一个完整节目的东西。我认为那很有趣。我觉得工具赋予了人们创作他们想要的内容的力量,而这些内容他们通常无法接触到。
至于低质量内容这一点,我会说我听到的大多数内容,尤其是在互联网上、Discord 上发布的内容,质量相当高。第三点,所有来自 NotebookLM 的生成内容也都带有 synth ID 水印。因此,我们采取了非常负责任和谨慎的方式,确保在我们创造机器、推出能够生成非常类似人类音频输出的技术时,确保这些内容能够被水印标识。
注:除标注外,配图均由 AI 生成
我们正在招募伙伴
📮 简历投递邮箱hr@ifanr.com
✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)
更多岗位信息请点击这里🔗

(文:APPSO)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往