
ASMR 应该算是最长寿的ai视频制作模版了,过去一个月,我这两天某书还有5万人看。。。
那种一刀切到底的舒适之感配合上清脆得不真实的音效,真的是刷短视频路过都舍不得划走的放松方式了。(告诉修驴蹄的我今天先不回去了)
今天 ASMR 的视频价格也被打下来了,1个1块钱,比Veo3便宜了10倍,来看看这四个视频:
动态效果都还行,听声音质感都差不多,画面清晰度和细节展现也都大差不差的,第一条就是我发现的平价款
vivago 2.0
之前我测过它1.0版本的图像生成能力,当时在写实这块就已经完胜 Flux 了,
AI界出了又会画画还能修图的大象,把Flux们都打败了
2.0刚上线,我就看到鱿鱼游戏的玩梗视频(第三部太烂了别看,能救一个是一个),
正好 veo3 用起来真的太心疼,使用门槛还高,这期我们就来看看 vivago 2.0 效果怎么样,Here we go!
01|ASMR大合集
想要看一个视频模型的音效生成能力,其实像我们一开始看到的那个ASMR视频是很好的一种测试方式,画面相对简单,观众的感受会更放在模型对于画面音效的理解和生成上。
(冷知识)ASMR,全称为自主性感官经络反应,是一种通过特定声音、视觉或其他感官刺激,引发头部、颈部等部位产生愉悦、放松感的现象。
所以这次,我给 vivago 2.0 来了史诗级难度测试,上 ASMR大集合!
现在火的ASMR也就分两种,要么切切东西,要么吃吃东西,这两部分我自然也是都给vivago 2.0测了一番。
先看切东西,这每一刀切的都很实在,刀刃和物体接触很有实感,而且能清晰的听到刀落下的声音还有相应的切割物体的声音,每一刀都对得上物体材质,说明它在生成声音时不仅识别了“切”这个动作,还分辨了被切物的属性。
实测下来,先花1积分用vivago 2.0生成一张图片再图生视频,稳定性会更高。
再看吃东西,就很有吃播那个味儿了,每嚼一下声音都很清晰的,甚至能听到吧唧嘴的声音,食物的质感和口腔与食物接触发生的声音都对得上。
大鸡腿大鸡腿大鸡腿!
当然,ASMR绝不止这两种,我故意选了四个我平时刷到会秒停的解压内容让 vivago 2.0来生成,谁能想到我一天会在看AI修驴蹄子呢。
当然,重要的不是驴蹄子,而是这种专注于声音的场景,vivago 2.0 目前做的都蛮符合现实的。
最后,我还测了适合放在耳边入眠的“自然白噪音”,简直就是失眠人士的福音:
打雷的声音是跟随着画面来的,海浪声是清晰的,草地和风声还有电扇呼呼作响,都让人感觉能够放松下来。
02|音画同步
接下来,我们再来看几个视频动态比较大和音频效果比较丰富的case, 从声画同步和语义理解两方面具体来看看vivago 2.0的能力。
先看一个简单的:
这个画面首先很漂亮,手部细节画的非常好,然后我让它“手指每次敲击都会产生同步的琴键声“,可以听到琴键声和手指落下的动作是吻合的,既做到了声画同步也很好的理解了我给出的提示语。
再看一个进阶的画面:
这个视频我给出的提示语是:
“一个年轻人冲出房间,砰的一声关上了他身后的木门。摄像机捕捉到门框的震动和墙上的相框轻微晃动。关门的声音伴随着响亮的“砰”的一声,与门扇撞击门框的声音完美同步。”
画面和提示语都对应的上,而且人物的动作很自然,最后这个响亮的关门还做出了震出大量灰尘,声画完美同步。
最后来看一个我个人觉得还有点厉害的案例:
公司里两个职员在进行激烈的争执,虽然我听不懂他们在说什么,但嘴形竟然都对上了,有种一本正经演戏的感觉,音频和画面对应程度还是很好的。(叽里咕噜说啥呢,给我转两百)
除了上面我们讲的音频功能外,vivago2.0的视频动态能力也是挺强的,

除了生成图片、视频、音效、对口型等等,vivago2.0还支持非常多的特效模版。

上面我提到的所有高清视频都打包好了,后台回复“智象”就行。
03|技术拆解
虽然 vivago2.0 没有发布详细的技术文档,但从我实测这百条视频的表现来看,它的音频能力绝不是简单的“背景音乐+贴音效”。
大概率是用了多模态建模结构,把图像、文字和声音信息都放进一个上下文里联合理解。
像“切菜”这种场景,它不是在你输入“切东西”的时候随机贴个“咔哧”音效,而是真的在图像里识别了“切入”“接触”“滑动”这些动作,并逐帧判断哪一帧该响、响多久、响在哪里。
再比如我做的驴蹄修复视频,它会判断敲击的力道和节奏,刀和驴蹄接触时会带有轻微的共振和回响。这就说明它的声源不是统一背景声,而是“空间定位过”的音效贴合。
哪怕没有字幕、没有明确指令,它也能靠画面判断该出什么声、不该出什么声。
音频内容未必精细到 Foley(拟音级别),但已经可以看出AI对声音氛围的理解逐渐进入到了实用期。
就比如你生成一个“一只猫跳上桌子”的视频,
出来的视频中会有动势的声音,还有猫叫声和桌面晃动的环境反响。
你不会有那种声音迟到的违和感,这就说明它至少做了时序建模和触发点配音的基本功。
总结一句话就是:
它不是生成了个有声音的视频,而是把 声音 作为 画面的一部分 做出来的。
写在最后
画质不夸张,效果不过饱,
声音不抢戏,性价比还高,
正是这种“刚刚好”,让 vivago 成为了我近期创作节奏里很舒适的一个工具。
因为它在我需要灵感落地的时候,
真的能不心疼的就用起来。
AI 视频这个行业现在有意思的点就在于:
你不再需要等一个超级模型出现,
而是可以围绕自己的任务,慢慢攒出一支「AI 副驾小分队」,
现在我只希望,
像 vivago 这种稳且实的模型,
能越来越多,
然后跳到我碗里来。
@ 作者 / 阿汤 & 卡尔@ 动手学AI知识库 / learnprompt.pro
(文:卡尔的AI沃茨)