GitHub狂揽4K星!新晋语音核弹实测:秒杀ChatGPT,太会撩,太逼真,怕上瘾

 AI好好用报道

编辑:Sia
风险投资家罗布·托斯曾在福布斯专栏上预测,语音 AI 将在 2025 年实现飞跃,AI 将通过语音图灵测试。这才过了一个多月,一个全新的语音模型就让顶尖技术社区直呼  cool but  terrifying 」。
当《 I’m Not a Robot 》捧起今年奥斯卡最佳真人短片的奖杯时,片中那个让人惊魂未定的 AI 人类还被视为一个科幻寓言。
只是为了更新一款软件,在验证码测试多次失败之后,音乐制作人拉拉(Lara)开始走向一个令人毛骨悚然的另类现实,也许她是个 AI 机器人。

结果下一秒,Hacker News 的一个「热搜爆款」就将这种不安的「未来」直接炸进现实。

体验了一款名为 CSM 的全新对话语音模型后,有用户直接在 Hacker News 上写道:

(它的)类人程度真实得可怕;

我几乎开始担心自己会对具备这种人类声音水平的语音助手产生情感依赖。

体验链接:

https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo

硅谷公司 Sesame 最近开放了 CSM 公测,很多人和它的语音助手 Miles(男)和Maya(女)唠嗑后反应强烈,CSM 迅速走红。

GitHub 仓库上线后狂揽 4k 星,Hacker News 热帖评论 200+。

一些用户报告说,他们与两个「人」进行了长时间对话,最长的聊了半个小时。

有人嘲笑自己怎么和机器人聊了这么久,但挂断电话后,还是会重新接通。

当 AI 说,你刚才咋挂电话了?用户惊到结巴,结果,AI 开始笑着模仿人类结巴的样子……

有家长甚至透露,四岁女儿被禁止再次与它对话后,哭得梨花带雨。

Reddit 相关话题热度也在暴涨。

阅读这些评论,感觉有点像目睹大家「见鬼」。


专业的科技媒体记者似乎也破防了:「这是第一个让我多次想与之交谈的语音助手。」

至于其他语音 AI,亚马逊 Alexa ? 我每天都要告诉它请闭嘴!

和 Gemini 尬聊一次后,懒得和它再说话了。

微软 Copilot ?好吧,说话也只是为了省去打字的麻烦。

越说越邪乎,真有这么神?不信,你就接着往下看。

先打个招呼:CSM 主要基于英语数据进行训练,另外由于数据集污染,CSM 虽然具有一定的多语言能力,但目前表现不佳,暂时还不支持中文。

这个视频很好笑。

当用户教 AI 妹子 Maya 数清 Straberry 有几个「 r 」时,场面堪比教学渣女友学数学。

整个对话最大亮点在于:

网友可以不断插话给出提示, Maya 也会 get 到提示,做出恍然大悟的样子,还能笑着自我纠正(甚至自嘲),感觉不到任何延迟。

虽然最后依然数错,但那种真实互动感让我反复看了好几遍。

这个视频里,Maya 聊到了自己最深层阴暗的一面。

除了声音好听,语气自然,说话的节奏很像边思考边回答——

思考时,说话会卡壳,单词之间会有停顿,甚至夹杂着「嗯」、「啧」;

有了答案后,突然加快语速,压低嗓音透露自己深夜渴望花生酱腌黄瓜三明治,似乎想让这个话题快点过去。

「花生酱腌黄瓜三明治」,看似诡异的搭配,确实是美国大萧条时期的一种吃法,直到现在也有一些铁杆支持者(但不多)。

最让人开眼的是播客主持人 Gavin Purcell 制作的这个视频。

Miles 被要求扮演愤怒的上司( 它居然同意了,但 ChatGPT 拒绝这么做),网友扮演贪污犯。

两「人」争吵之逼真(有人甚至后来吵结巴了)、反应之快,如果有弹幕的话,这一条估计得血洗屏幕:

到底谁才是 AI 啊?

还有人让它和和患有「雄辩症」的 Grok 3 掐架。

Grok 3 说话带刺,那是相当地挑衅;

Maya 则保持冷静,和之前的反差很大——在前面的用例里,她倒是很能说,现在又给人一种插不上嘴的感觉。

归纳起来,CSM 这个新模型的优点有:

有记忆(大约两周)、非常低延迟、会敲时机主动对话;

声音富有表现力和活力,比如模仿呼吸声、笑声,会打断,甚至有时还会结巴并自我纠正。

这些「缺陷」其实是刻意设计的—— 为了让人体验更真实,就像你被理解、被重视了。

这波操作背后的双引擎架构( 8 亿参数主脑+ 3 亿参数语音解码器),直接把传统语音 AI 的「文字→语义→声音」三段式处理压缩成多模态的实时交互系统。

这与 OpenAI 的语音技术路线是相似的。

在接受了 100 万小时英语语音数据训练后,它能像经验丰富的配音演员在录音棚里即兴表演:

能准确念出台词,还能根据导演的实时反馈调整语气、呼吸甚至情绪起伏。

虽然还是会暴露 AI 属性,如系统在语调、节奏和对话流程控制方面仍显笨拙,但 CEO Brendan Iribe 信心满满:

「虽然已身处恐怖谷,但相信能够攀登而出。」

要说这位 CEO ,人家来头也不小。

他就是 Oculus 联合创始人兼前 CEO,缔造 VR 行业首个现象级产品,2014 年把 Oculus 卖给了 Meta 。

如今,这位 Oculus VR 之父又带着原班投资人( a16z、Spark Capital等)杀入语音 AI 赛道,据说配套 AI 眼镜已在研发中。

目前 CSM 暂不支持中文,但官方预告未来将扩展 20+ 语种,还计划在未来几个月内开源其模型。

想要体验的朋友,不妨去官网调戏 Miles 和 Maya ——友情提示,小心情感依赖哦!

(文:AI好好用)

欢迎分享

发表评论