AI 穿越 vlog 刷爆全网!我用这些视频模型「亲历」玄武门之变 附避坑提示词

最近,一类「穿越 vlog」爆火了。
有人让 Veo 3 变成「时间机器」,将人们带回历史事件中进行现场直播。
有战地记者在赤壁之战的大火中报道——
(@ YouTube 博主「nowsmon」)
也有人在战争空隙八卦曹操的私生活——
(@ X 博主「KellyV」)
还有人进入王者荣耀对后羿贴脸开大——
(@ 视频号博主「灵感不正经」)
这些脑洞大开的视频再次让人们惊呼,Veo 3 还能这么玩!导致 GoogleDeepMind 的总访问量从 4 月到 5 月 直接增长 162%。
前几天,我们也看得手痒痒,就用 Veo 3 做了两个穿越回「玄武门之变」现场的视频,效果很不错。
Prompt 如下:
「Scene 1: Under a sky heavy with storm clouds at dawn, dust swirls in front of the towering Xuanwu Gate. A young Asian woman in a battlefield reporter’s jacket stands on the right side of the frame, earpiece in place, her expression tense as chaos unfolds behind her. In the distance, Li Shimin’s forces charge through the gate—arrows fly and war drums thunder. She dodges debris and speaks into the camera in a low, urgent voice: This is Xuanwu Gate. Li Shimin’s troops have launched a sudden assault. The situation is extremely dangerous!   Scene 2: After the bloody battle at Xuanwu Gate, early morning sunlight falls across bloodstained stone tiles. The same Asian woman stands in front of a collapsed palace gate. Behind her, soldiers raise banners that read Prince Qin Ascends. Her face is solemn as she speaks firmly into the camera: We are now at the heart of the conflict. Li Jiancheng and Li Yuanji have been slain. Li Shimin is taking control. The Tang Dynasty’s history is being rewritten.」
那么其他 AI 是否也能做出这种效果?
给可灵输入同样的中文版提示词,看看可灵版的「玄武门之变」:
「画面一(冲突初现):
乌云压顶的黎明,玄武门城墙前尘土飞扬,一位身穿战地记者夹克的亚洲女性站在视角右前方,耳边挂着通讯耳机,表情凝重地注视着远处混乱的人马冲突;背景中,李世民率军破门而入,箭矢飞射、鼓声如雷,她一边躲避碎石,一边面向镜头低声播报:这里是玄武门,目前李世民军队已发起突袭,情况危急!
画面二(权力更替):
玄武门血战过后,清晨的阳光斜洒在血迹斑斑的石板上,一位亚洲女性站在倒塌的宫门前,身后士兵正高举「秦王即位」旗帜;她神情肃穆、语气坚定地对镜头说道:我们现在所在的是事变核心地,李建成与李元吉已被击杀,李世民正在掌控全局,唐王朝的历史正被改写。」
(by Kling 2.1 大师版)
画面质感不错,背景里的光影处理很细腻,尘土飞扬以及地面上的血迹效果做的都挺逼真。
相较于 Veo 3 能直接让人物说台词,可灵则需要额外选择「对口型」特效再添加配音和环境音效,导致面部细节有些时候不够自然。但整体来看还是很过关的。
不过,要想做出网络爆火的那种手持自拍杆的第一人称 vlog 效果,就需要琢磨一下新的 prompt 了。
我们分别用可灵、海螺、即梦、Vidu 和 Sora 做了一些好玩的视频(也翻车了不少),终于总结出一些这类「穿越 vlog」的玩法以及好用的 prompt 分享。
自拍杆是翻车重灾区?
我们先让 Sora 试了一下穿越到古代中国建造长城的大场面。
(by Sora)
效果有点翻车,主要问题出现在这个自拍杆上。
尽管提示词中写了「他手持自拍杆,直视镜头」, 但似乎 Sora 没能理解自拍杆的作用,于是就出现了自拍杆脱手悬浮的诡异画面。
Prompt: A modern male journalist is transported to the ancient construction site of the Great Wall of China. Holding a selfie stick, he looks directly into the camera and says, “I’ve arrived at the Great Wall construction site!” In the background, the Great Wall is being built, with workers and soldiers transporting stones. The sound of hammering and shouting fills the air. The distant mountains serve as the backdrop, showcasing the grand scale of the construction.
对其他 AI 来说,自拍杆同样也是重灾区:
可灵直接把自拍杆变成了指挥棒。
(by Kling 2.1 大师版)
Vidu 做的穿越回《红楼梦》场景中,更是把自拍杆变成了一个类似 GoPro 的设备,显然也没能准确理解指令。
而且,记者对着镜头说完一转身,竟然凭空消失了,属实是有点幽默了。
提示词:
「一位现代女记者来到《红楼梦》中的古典园林场景。女记者手持自拍杆,她直视镜头进行直播。她穿着白T恤牛仔裤,先露出微笑的脸,对着镜头讲话,然后展示身后场景。
场景:古典园林,有一座风景如画的拱桥和一条缓缓流淌的小溪。背景点缀着鲜艳的桃花,花瓣在春风中飞舞,营造出宁静而迷人的氛围。一位年轻男子(贾宝玉),身穿红色长袍,头戴金冠,与身着淡粉色长袍、头戴玉簪的女子(林黛玉)并肩而坐。两人一起捧着一本书全神贯注地阅读,神情专注而略带羞涩。阳光穿过树枝,将温暖的光芒洒在书页上,增强了唯美的氛围。」
(by Vidu Q1)
将同样的提示词给海螺 AI,虽然场景、运镜、人物表情都挺唯美自然,但自拍杆仍然是 bug。
(by Hailuo 02)
即梦做的「花果山寻找猴哥」,小女孩的真实度很让人惊喜,可自拍杆呈现效果依然不尽如人意。
(by Seedance 1.0 mini)
而且等等……背景里这个真的是美猴王吗?怎么看着那么像景区里「十元合影」的山寨版呢?这种「大家来找茬」时刻真的很容易让人出戏。
「穿越咒语」要念对,我们总结了好用的 prompt
所以,为了避免出戏,我们试了很多次,终于总结出能较好地呈现出手持自拍杆直播效果的 prompt,发现「穿越成功」的关键在于加上这些词语:
中文:「真实自拍镜头」「第一人称视角」「自拍杆延伸到手中」
英文:「first-person perspective」「real footage selfie video」「handheld selfie with extended arm」
其他的场景就可以自由发挥想象力啦!
比如,可以穿越到秦始皇陵修建现场去直播:
Prompt:
First-Person View: A Chinese girl wearing a white T-shirt, holding a selfie stick extended in her hand, stands in front of the construction site of the Terracotta Army near the Qin Shi Huang Mausoleum. The surroundings are filled with workers wearing traditional ancient Chinese clothing, such as tunics and straw hats. They are busy sculpting terracotta figures, shaping clay statues, and transporting construction materials. The air is thick with dust, and faint light from hanging oil lamps casts shadows on the walls, creating a mysterious atmosphere. The camera extends the selfie stick, showing the girl’s excited face, and then rotates to capture a scene where workers are carefully placing the first few terracotta warriors into the ground, their faces focused and determined. The girl’s voice breaks through the atmosphere, saying happily, “I can’t believe I’m here at the Qin Shi Huang Mausoleum construction site!”In the background, the sounds of hammering, workers shouting instructions, and the clattering of tools create a cinematic atmosphere.」
翻译成中文提示词:
第一人称视角:一位穿着白色T恤的中国女孩,手持自拍杆,杆子伸展到她的手中,站在秦始皇陵附近兵马俑工地前。周围是穿着传统古代中国服饰的工人们,身着长袍,戴着草帽。他们忙着雕刻兵马俑、塑形泥像和搬运建筑材料。空气中弥漫着尘土,悬挂的油灯散发出微弱的光,投下阴影,营造出一种神秘的氛围。相机伸展自拍杆,展示女孩兴奋的脸庞,然后旋转镜头,捕捉到工人们小心翼翼地将第一批兵马俑放入地下的场景,他们的表情专注且坚定。女孩的声音打破了这份氛围,高兴地说道:我真不敢相信我在秦始皇陵的工地上!背景中,锤击声、工人们的喊叫声和工具的碰撞声交织在一起,营造出一种电影般的氛围。」
(by Sora)
也可以进入《聊斋志异》中探险:
Prompt:
「The video is presented in the first-person selfie perspective, with a girl traveling back to the fantastical world of Liaozhai Zhiyi. She wears a simple long dress, holding a selfie stick extended in her hand, broadcasting live. The camera first focuses on her face as she nervously yet excitedly says, “I can’t believe I’ve traveled to the world of Liaozhai Zhiyi!” Then, she slowly turns, and the camera reveals the strange scene behind her.
Scene: Surrounded by an ancient mountain village shrouded in mist, a quiet river flows gently, with occasional eerie bird calls. In the distance, an old temple is faintly visible, its upturned eaves giving off a mysterious aura. Suddenly, a white fox quietly steps out from the trees, appearing in her camera frame.」
翻译成中文提示词:
「视频以第一人称自拍视角呈现,女孩穿越回《聊斋志异》的奇幻世界。她身穿简单的长裙,手握自拍杆,杆子伸展至她手中,正对着镜头进行直播。镜头先聚焦在她的脸上,她有点害怕又兴奋地对着镜头说道:我居然穿越到了《聊斋志异》的世界!然后,她缓缓转身,镜头展示出身后的奇异景象。
场景:四周是迷雾笼罩的古老山村,幽静的河流缓缓流淌,偶尔传来几声怪异的鸟鸣。远处,一座古老的庙宇隐约可见,屋顶上飞檐翘角,散发出一股神秘的气息。突然,一只白色狐狸悄悄地从树丛中走出,出现在她镜头里。」
(by Sora)
总之,加上这些关键「咒语」之后,Sora 能够较为理想地呈现出想要的视频,而且第二段视频中也做出了手持镜头的那种很晃的感觉,有几分伪纪录片的味。
接下来,用可灵跟着天津姐姐穿越到大宋汴京城,身临《清明上河图》中的景象:
提示词:
第一人称 Vlog视频:现代女记者穿越到宋代汴京城,出现在《清明上河图》的街市中。她穿着T恤、牛仔裤和运动鞋,手里拿着自拍杆,直视着镜头说:“我现在在北宋汴京,站在传说中的《清明上河图》里,这边有卖烧饼的,那边还有变戏法的,真热闹!”背后是拥挤热闹的古代街景:拱桥上人来人往,有人挑担子,有人在摆摊卖点心,有说书艺人和马车经过。画面中现代记者与古代场景形成鲜明对比,画面中有真实声音:叫卖声、人声嘈杂。」
(by Kling 2.1 大师版)
虽然可灵的文生视频是没有声音的,但可以通过「对口型」+「文本朗读」+「背景音效」来进一步优化,让视频更加生动有沉浸感。
而且对口型的过程中似乎还会根据文本内容进行调试,肢体动作和文本内容是的对应效果自然流畅。
从这些 AI 视频的新玩法,我们看到一个有趣的现象:AI 强大到足以构建宏大逼真的历史场景,但在理解人类习以为常的简单物件和行为时,显得有些呆萌。
但有时候利用这种「缺陷」反而会创造出意想不到的效果,比如最近爆火的「AI 切玻璃水果ASMR」,成了社交媒体一个新的流行赛道。
当我们尝试如何用更精准的语言去「教会」AI 理解我们的意图,如何巧妙地规避它的认知盲区,这可能才是过程中最有意思的事情。
就像 AI 大神 Andrej Karpathy 说的,现在最火的编程语言是英语。我们用自然语言输出的 prompt ,也正在成为现在最受欢迎的视频创作能力。
所以,别被那些「翻车集锦」劝退,也别因为 prompt 复杂而却步。 这些 AI 视频工具的真正价值,并不仅仅在于生成一个完美的大片,更在于它给了所有人前所未有的创作自由和叙事可能。


我们正在招募伙伴

📮 简历投递邮箱
hr@ifanr.com
✉️ 邮件标题
「姓名+岗位名称」(请随简历附上项目/作品或相关链接)
更多岗位信息请点击这里🔗


(文:APPSO)

发表评论