体验了下豆包这个播客功能，是真滴强

昨天，我不是写了篇用Agent做PPT的文章嘛。

我用MiniMax Agent做PPT，实在太爽了

发完稿后，我看到豆包新上线了一个功能：AI播客。

我就把这篇文章丢给了她。结果你猜怎么着，当我听到第一口声音出来的时候，直接就跪了。这也太像真人了吧，完全没有一丝AI味道，是一丝都没有啊。

我把这个音频发到了群里，大家都说NB。

怎么体验？

要做这个播客音频，很简单。

你什么都不用管，只需要发1个链接或者PDF给豆包就可以了，prompt不用写，音色不用选，内容不用管。豆包全盘帮你搞定。

目前，可以在豆包电脑版和网页版上进行体验。

以豆包网页版为例，进入www.doubao.com后，在下方功能区选择“AI播客”。

然后，上传文件（PDF）或网页链接就可以了（暂不支持文本输入）。

上传后，不需要等待，直接马上就可以听。

这速度！这质量！真的太顶了。

上周五的文章（我把群聊天做成了一个网页），我也做了一个音频。

最近，MiniMax开启连续5天的发布周。昨天，他们发布并开源了全球首个大规模混合架构的推理模型MiniMax-M1。一如既往，在长上下文方面很强，输入最高支持100万token，输出支持8万token。

从训练成本到API价格，都比DeepSeek-R1降了不少。

图表by Google AI studio

我想了解M1为何这么能打，于是我把技术报告下载了下来。但是，这全英文……我根本看不懂啊。

于是，我立马丢给了豆包，这回懂了。

后面，我又陆续测了10来个case。总的来说，豆包“AI播客”功能有着这些优点：

如果非要挑一些缺点的话，那就是在长句生成上会出现一丢丢卡顿。当然，我们人说长句子也很难做到流畅表达，可以理解。

我上一家公司，是做知识付费的，有时候自己需要录点课程。1小时的课程，基本上我要录一整下午，而且每次都是10几分钟、10几分钟的录，后期还要靠剪辑师和修音师帮我优化。

而现在，豆包这个语音播客模型直接一键帮我搞定。

是真的一键。

模型揭秘

其实，这个语音播客模型并不新鲜。

早在5月20号，火山引擎就放出了这个模型的demo（文章详情）。

当时，我把这条消息发到沃垠AI群里，大家都说太NB，太逼真了。

简单说就是，这个模型由豆包Seed团队技术转化，它基于流式模型构建，实现了从文本创作到双人对话式播客的秒级转化，是一个精调的TTS模型，包括文本总结prompt、音色模型和音频生成workflow，一同进行了封装。

后来，这个模型上架到火山方舟里，所有开发者可以调用。

5月28号左右，扣子空间（一款通用Agent）也上线了这个模型，支持调用。

今天，豆包则直接把这个模型产品化，内置进功能区。

当然，如果你在豆包电脑版里面使用，那就更简单了，直接点击右上角的“问问豆包”就可以。

目前，生成的播客不支持下载。这里分享给大家一个小技巧，可以把播客音频下载下来。

以Chrome浏览器为例，进入豆包播客生成页面，按下F12键，打开“开发者工具”（Developer Tools），找到NetWork，点击Meida区。

这时，再返回左侧网页，点击播放按钮，Meida区出现一个音频文件，右键音频文件，copy这个url。然后，重新打开一个浏览器窗口，粘贴上url，就可以把音频下载下来了。

如果下载下来的音频没有格式，我们可以手动改成.mp3。

写在最后

现在，有了音频，是不是想让形式更像播客一点？

这里，我把我用R1开发的音频可视化播放器，免费开源给到大家（后台回复“播放器”下载）。

只需要把音频传上去，一个可视化的播客视频就有了。

希望这篇文章你能够喜欢，能够帮到大家。如果觉得内容不错的话，记得给我们点赞、转发↷和推荐，感谢你的三连~

我们，下期见。

（文：沃垠AI）