做完100个ASMR视频后，5万人围观我的AI吃饭吧唧嘴

ASMR 应该算是最长寿的ai视频制作模版了，过去一个月，我这两天某书还有5万人看。。。

那种一刀切到底的舒适之感配合上清脆得不真实的音效，真的是刷短视频路过都舍不得划走的放松方式了。（告诉修驴蹄的我今天先不回去了）

今天 ASMR 的视频价格也被打下来了，1个1块钱，比Veo3便宜了10倍，来看看这四个视频：

动态效果都还行，听声音质感都差不多，画面清晰度和细节展现也都大差不差的，第一条就是我发现的平价款

vivago 2.0

之前我测过它1.0版本的图像生成能力，当时在写实这块就已经完胜 Flux 了，

AI界出了又会画画还能修图的大象，把Flux们都打败了

2.0刚上线，我就看到鱿鱼游戏的玩梗视频（第三部太烂了别看，能救一个是一个），

正好 veo3 用起来真的太心疼，使用门槛还高，这期我们就来看看 vivago 2.0 效果怎么样，Here we go！

01｜ASMR大合集

想要看一个视频模型的音效生成能力，其实像我们一开始看到的那个ASMR视频是很好的一种测试方式，画面相对简单，观众的感受会更放在模型对于画面音效的理解和生成上。

（冷知识）ASMR，全称为自主性感官经络反应，是一种通过特定声音、视觉或其他感官刺激，引发头部、颈部等部位产生愉悦、放松感的现象。

所以这次，我给 vivago 2.0 来了史诗级难度测试，上 ASMR大集合！

现在火的ASMR也就分两种，要么切切东西，要么吃吃东西，这两部分我自然也是都给vivago 2.0测了一番。

先看切东西，这每一刀切的都很实在，刀刃和物体接触很有实感，而且能清晰的听到刀落下的声音还有相应的切割物体的声音，每一刀都对得上物体材质，说明它在生成声音时不仅识别了“切”这个动作，还分辨了被切物的属性。

实测下来，先花1积分用vivago 2.0生成一张图片再图生视频，稳定性会更高。

再看吃东西，就很有吃播那个味儿了，每嚼一下声音都很清晰的，甚至能听到吧唧嘴的声音，食物的质感和口腔与食物接触发生的声音都对得上。

大鸡腿大鸡腿大鸡腿！

当然，ASMR绝不止这两种，我故意选了四个我平时刷到会秒停的解压内容让 vivago 2.0来生成，谁能想到我一天会在看AI修驴蹄子呢。

当然，重要的不是驴蹄子，而是这种专注于声音的场景，vivago 2.0 目前做的都蛮符合现实的。

最后，我还测了适合放在耳边入眠的“自然白噪音”，简直就是失眠人士的福音：

打雷的声音是跟随着画面来的，海浪声是清晰的，草地和风声还有电扇呼呼作响，都让人感觉能够放松下来。

02｜音画同步

接下来，我们再来看几个视频动态比较大和音频效果比较丰富的case，从声画同步和语义理解两方面具体来看看vivago 2.0的能力。

先看一个简单的：

这个画面首先很漂亮，手部细节画的非常好，然后我让它“手指每次敲击都会产生同步的琴键声“，可以听到琴键声和手指落下的动作是吻合的，既做到了声画同步也很好的理解了我给出的提示语。

再看一个进阶的画面：

这个视频我给出的提示语是：

“一个年轻人冲出房间，砰的一声关上了他身后的木门。摄像机捕捉到门框的震动和墙上的相框轻微晃动。关门的声音伴随着响亮的“砰”的一声，与门扇撞击门框的声音完美同步。”

画面和提示语都对应的上，而且人物的动作很自然，最后这个响亮的关门还做出了震出大量灰尘，声画完美同步。

最后来看一个我个人觉得还有点厉害的案例：

公司里两个职员在进行激烈的争执，虽然我听不懂他们在说什么，但嘴形竟然都对上了，有种一本正经演戏的感觉，音频和画面对应程度还是很好的。（叽里咕噜说啥呢，给我转两百）

除了上面我们讲的音频功能外，vivago2.0的视频动态能力也是挺强的，

除了生成图片、视频、音效、对口型等等，vivago2.0还支持非常多的特效模版。

上面我提到的所有高清视频都打包好了，后台回复“智象”就行。

03｜技术拆解

虽然 vivago2.0 没有发布详细的技术文档，但从我实测这百条视频的表现来看，它的音频能力绝不是简单的“背景音乐+贴音效”。

大概率是用了多模态建模结构，把图像、文字和声音信息都放进一个上下文里联合理解。

像“切菜”这种场景，它不是在你输入“切东西”的时候随机贴个“咔哧”音效，而是真的在图像里识别了“切入”“接触”“滑动”这些动作，并逐帧判断哪一帧该响、响多久、响在哪里。

再比如我做的驴蹄修复视频，它会判断敲击的力道和节奏，刀和驴蹄接触时会带有轻微的共振和回响。这就说明它的声源不是统一背景声，而是“空间定位过”的音效贴合。

哪怕没有字幕、没有明确指令，它也能靠画面判断该出什么声、不该出什么声。

音频内容未必精细到 Foley（拟音级别），但已经可以看出AI对声音氛围的理解逐渐进入到了实用期。

就比如你生成一个“一只猫跳上桌子”的视频，

出来的视频中会有动势的声音，还有猫叫声和桌面晃动的环境反响。

你不会有那种声音迟到的违和感，这就说明它至少做了时序建模和触发点配音的基本功。

总结一句话就是：

它不是生成了个有声音的视频，而是把声音作为画面的一部分做出来的。

写在最后

画质不夸张，效果不过饱，

声音不抢戏，性价比还高，

正是这种“刚刚好”，让 vivago 成为了我近期创作节奏里很舒适的一个工具。

因为它在我需要灵感落地的时候，

真的能不心疼的就用起来。

AI 视频这个行业现在有意思的点就在于：

你不再需要等一个超级模型出现，

而是可以围绕自己的任务，慢慢攒出一支「AI 副驾小分队」，

现在我只希望，

像 vivago 这种稳且实的模型，

能越来越多，

然后跳到我碗里来。

@ 作者 / 阿汤 & 卡尔@ 动手学AI知识库 / learnprompt.pro

（文：卡尔的AI沃茨）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

01｜ASMR大合集

02｜音画同步

03｜技术拆解

写在最后

发表评论 取消回复

发表评论取消回复