体验了下豆包这个播客功能,是真滴强


昨天,我不是写了篇用Agent做PPT的文章嘛。


我用MiniMax Agent做PPT,实在太爽了


发完稿后,我看到豆包新上线了一个功能:AI播客


我就把这篇文章丢给了她。结果你猜怎么着,当我听到第一口声音出来的时候,直接就跪了。这也太像真人了吧,完全没有一丝AI味道,是一丝都没有啊。


我把这个音频发到了群里,大家都说NB。


怎么体验?


要做这个播客音频,很简单。


你什么都不用管,只需要发1个链接或者PDF给豆包就可以了,prompt不用写,音色不用选,内容不用管。豆包全盘帮你搞定。


目前,可以在豆包电脑版和网页版上进行体验。


以豆包网页版为例,进入www.doubao.com后,在下方功能区选择“AI播客”。


然后,上传文件(PDF)或网页链接就可以了(暂不支持文本输入)


上传后,不需要等待,直接马上就可以听。


这速度!这质量!真的太顶了。


上周五的文章(我把群聊天做成了一个网页),我也做了一个音频。


最近,MiniMax开启连续5天的发布周。昨天,他们发布并开源了全球首个大规模混合架构的推理模型MiniMax-M1。一如既往,在长上下文方面很强,输入最高支持100万token,输出支持8万token。


从训练成本到API价格,都比DeepSeek-R1降了不少。

图表by Google AI studio


我想了解M1为何这么能打,于是我把技术报告下载了下来。但是,这全英文……我根本看不懂啊。


于是,我立马丢给了豆包,这回懂了。


后面,我又陆续测了10来个case。总的来说,豆包“AI播客”功能有着这些优点:


  • 1.高拟真。模拟真人播客口语习惯,在停顿、附和、语气和情绪表达上确实没得说,完全就像是真人一样。

  • 2.低幻觉。模型总结的文本内容鲜有出错,10个case里均未出现“张冠李戴”的情况,幻觉率很低。

  • 3.“零”延时。巧妙利用缓存技术做到了“即时生成”的效果,发送链接/文件后,立马就可以听。

Powered by Gemini 2.5 pro正式版


如果非要挑一些缺点的话,那就是在长句生成上会出现一丢丢卡顿。当然,我们人说长句子也很难做到流畅表达,可以理解。


我上一家公司,是做知识付费的,有时候自己需要录点课程。1小时的课程,基本上我要录一整下午,而且每次都是10几分钟、10几分钟的录,后期还要靠剪辑师和修音师帮我优化。


而现在,豆包这个语音播客模型直接一键帮我搞定。


是真的一键。


模型揭秘


其实,这个语音播客模型并不新鲜。


早在5月20号,火山引擎就放出了这个模型的demo(文章详情)。


当时,我把这条消息发到沃垠AI群里,大家都说太NB,太逼真了。


简单说就是,这个模型由豆包Seed团队技术转化,它基于流式模型构建,实现了从文本创作到双人对话式播客的秒级转化,是一个精调的TTS模型,包括文本总结prompt、音色模型和音频生成workflow,一同进行了封装。


后来,这个模型上架到火山方舟里,所有开发者可以调用。


5月28号左右,扣子空间(一款通用Agent)也上线了这个模型,支持调用。


今天,豆包则直接把这个模型产品化,内置进功能区。


当然,如果你在豆包电脑版里面使用,那就更简单了,直接点击右上角的“问问豆包”就可以。


目前,生成的播客不支持下载。这里分享给大家一个小技巧,可以把播客音频下载下来。


以Chrome浏览器为例,进入豆包播客生成页面,按下F12键,打开“开发者工具”(Developer Tools),找到NetWork,点击Meida区。


这时,再返回左侧网页,点击播放按钮,Meida区出现一个音频文件,右键音频文件,copy这个url。然后,重新打开一个浏览器窗口,粘贴上url,就可以把音频下载下来了。


如果下载下来的音频没有格式,我们可以手动改成.mp3。


写在最后


现在,有了音频,是不是想让形式更像播客一点?


这里,我把我用R1开发的音频可视化播放器,免费开源给到大家(后台回复“播放器”下载)。


只需要把音频传上去,一个可视化的播客视频就有了。


希望这篇文章你能够喜欢,能够帮到大家。如果觉得内容不错的话,记得给我们点赞转发推荐,感谢你的三连~


我们,下期见。


(文:沃垠AI)

发表评论