

关于爱诗科技的复盘与思考。
作者|王博
创始人坐在一个简洁、干净的场景中,用一句“Hi”开始全英文介绍,强调产品是“前所未有”“划时代”“首个”“通用性”,并搭配流畅的动画和现代化的UI设计演示,首发在海外社交媒体平台……这样的宣传视频,似乎成为了近期很多国产AI Agent产品发布时的“标配”。
这样做的目的就是为自己产品打上“全球化”的标签,吸引海外用户。
尽管部分宣传视频伴随着争议,但是海外市场的认可度及其对国内市场的影响,又被提到了一个新的高度。
宣传视频只是一种流量手段,但怎样才能真正获得并留住用户呢?
目前,AI Agent产品还处于市场布局阶段,我们不妨把目光放到一年多前被Sora点燃AI视频生成赛道。
AI视频生成赛道的竞争十分激烈,但目前的AI视频生成产品在功能上存在一定的同质化现象,很多产品都提供了文生视频、图生视频、风格迁移、视频模板等功能,各家在卷的技术也集中在视频主体一致性、运动轨迹控制、首尾帧生成、生成速度、清晰度、生成时长等方面。当某个竞争对手推出了用户欢迎的新功能时,其他公司为了不落后,往往会迅速跟进甚至模仿,导致功能的快速“标配化”。
就是在这个赛道,跑出了一款总用户超6000万,月活用户超1600万的产品——PixVerse。
PixVerse是爱诗科技旗下的AI视频生成产品,就公开数据而言,PixVerse是全球用户量最大的AI视频生成产品。
然而,爱诗科技当时并没有做“发布”的动作。2024年1月,PixVerse直接在海外上线,一个月后其月访问量就超过了100万。
经过这一年多的发展,PixVerse从国产AI视频生成产品全球化路线的先行者,成为了真正被全球用户认可的头部AI产品。
今年5月,PixVerse V4.5在海外上线约一周,就冲到了美区App Store免费总榜第四位,图片视频工具榜单第一位。

PixVerse在美区App Store排名,图片来源:App Store
「甲子光年」认为,在AI视频生成赛道,当某项产品的月活用户超过1000万并且持续稳步增长时,就可以被贴上“中型成熟”的标签。这意味着它已成为行业里值得重点关注的中坚力量,接下来的竞争将不再是“功能是否可用”,而是“生态扩展、多元商业化与持续创新”的竞争。
爱诗科技通过PixVerse把AI视频生成产品从专业小众工具推向亿级大众市场,在全球AI视频生成赛道里已形成“中型成熟”产品的头部样本。
近期,PixVerse国内版“拍我AI”正式上线,国内用户可以在App端和Web端登录“拍我AI”使用最新的PixVerse V4.5模型。保守估计,“拍我AI”将带来千万量级的用户增长。
从PixVerse到“拍我AI”,一个国产AI视频产品如何吸引全球6000万用户?
1.两次“纵身一跃”

“你为什么想不开,出来创业?”这是爱诗科技创始人、CEO王长虎两年前听到最多的话。
当时,绝大多数的投资人和业界专家都不理解他为什么要从大厂出来做AI视频生成创业,他们认为这“在五年之内没法落地”。
不过在2023年4月,王长虎还是开始了AI视频生成创业,他把这形容为“不归路”,这是他第一次“纵身一跃”。

爱诗科技创始人、CEO王长虎,图片来源:2025北京智源大会
2023年7月,爱诗科技开始训练AI视频生成大模型,到了10月,相关评测就已进入全球第一梯队。
“这一年的Magic Moment,是爱诗内部创作平台上生成第一个视频那一刻。它是一只小鹿,很萌,有个不大的动作,时长很短,清晰度也不够,却是我们走出的第一步,令人难以忘记。”王长虎告诉「甲子光年」。
王长虎团队用AI生成的第一个视频,来源:爱诗科技
2024年1月,PixVerse网页端在海外上线,一个月后其月访问量就超过了100万,吸引了不少“自来水”用户。
但是到了2024年2月,Sora发布了。
那天仍是春节假期,但王长虎的微信“炸”了,很多人对PixVerse的前景表达关切,甚至有人半开玩笑地说:“Sora出来之后,你们公司是不是完蛋了?”
但更多人还是对PixVerse抱有期待,王长虎印象最深的问题是“你们什么时候能赶超Sora”,他很谨慎地跟公司技术人员沟通后回应:“3到6个月。”
当时在国内外社交媒体上有一张AI视频生成产品座次梗图流传很广,PixVerse在海外网友的眼中处于追赶Sora的行列中。

Sora发布后,海外网友发的AI视频生成产品座次梗图,图片来源:X
对于这张图,2024年4月,王长虎在和《晚点LatePost》对话时说:“能被放在第一排,我们很高兴。”
Sora是基于Diffusion Transformer(DiT)架构之上的文生视频模型,它的成功验证了DiT在视觉生成任务中的可扩展性与实用价值。
在爱诗科技成立之初,团队采用过Diffusion Unet架构的技术路线,这是在Sora出现之前一种主流的文生图、文生视频模型生成路线。这个过程可以想象成将一滴墨水滴入水中,墨水逐渐扩散,而Diffusion模型需要学会如何将墨水从水中重新提取出来。
Unet架构在降低复杂度与保留细节度之间做到了很好的平衡,提升了模型的计算效率,模型的算力需求不会太高。但另一方面,如果要想模型越来越聪明,加入的参数越来越多,图像或指令变得越来越复杂,Unet架构很容易陷入性能瓶颈,面临扩展性问题。
由于Unet架构的局限性,爱诗科技在2023年规划技术路线时,也包括了DiT架构。王长虎透露,当时团队计划在2024年春节前后,等拿到第二笔融资就开始训练DiT架构的模型。
当时,Sora展示的Demo视频震撼了全球,也让王长虎陷入了纠结“跟,还是不跟”。
虽然爱诗科技在2023年发展还不错,但当时公司的现金流只够支撑一次训练模型的机会。
“训练不成功就完蛋了,没有第二次机会,你搞不搞?是继续训练大模型,还是放弃,转身做应用?”王长虎说,“但是创业就是‘纵身一跃’,这一跳都跳了,第二跳还怕什么,所以决定All in。”
第二次“纵身一跃”后,PixVerse进入了快速发展期。
2024年4月,王长虎在和《晚点LatePost》对话时谈到当时状态很像在西北戈壁徒步,“走到中途,前后都看不到人。Sora的出现意味着走着走着发现前面还有一个人,我的开心大过紧张,因为这个方向是对的,我没有走偏,并且还有机会超过它。”
2024年5月,智源研究院发布文生视频模型评测结果显示,PixVerse位列全球前三,在国内同类型产品中表现最佳。

多模态生成模型评测结果,图片来源:智源研究院王博王博王王
2024年12月,SuperCLUE中文大模型综合测评基准发布AIGVBench-T2V文生视频测评榜单,PixVerse V3模型总分排名第一,海螺、可灵1.5等紧随其后。

AIGVBench-T2V文生视频测评榜单,图片来源:SuperCLUE
PixVerse保持着大约2个月迭代一次版本的速度,不断为用户带来新的创作能力和体验。

PixVerse发展历程,图片来源:爱诗科技
王长虎曾表示,爱诗科技不会局限在一种技术路线,未来会多种技术路线共同探索,“一方面用Transformer路线进一步提升基座模型能力,并加入可控生成技术;另一方面会持续探索自回归路线,增强时空建模,并建立各个模态间统一范式。”
而对于两次“纵深一跃”的看法,有过字节跳动工作经历的王长虎引用了字节跳动创始人张一鸣的话——“务实的浪漫”。
什么是“务实的浪漫”?张一鸣的解释是“把想象变成现实,face reality and change it”。
在2024年第四季度,务实的王长虎迎来了浪漫时刻:单季度整体实现10倍用户增长,月活用户数量达到了1600万。
2.先做To C,再做API

在AI视频生成领域,头部玩家的月活大多在百万量级,少数可以达到千万量级,1600万月活直接让PixVerse和竞品拉开了一个身位,这意味着PixVerse已经从“成长型”产品一跃进入“中型成熟”产品行列,展现出极强的市场渗透力和商业化潜力。
但是在早期,爱诗科技的产品路线是To C还是To B并不清晰。王长虎后来拍了板,先做To C业务,再针对B端提供API服务。
“我们要做好两件事情:第一,如何降低普通人创作门槛;第二,如何提升普通人的创作体验。”王长虎说。
在AI视频生成领域,一个关键的讨论是“什么是AI视频大模型的ChatGPT时刻”?王长虎认为,当普通用户也能用起来时,才是ChatGPT时刻。
王长虎认为这一时刻出现在去年10月,PixVerse V3上线后。凭借PixVerse V3强大的基模和产品能力,用户只需要上传照片选择视频模板,不需要输入提示词(Prompt)就能生成视频,通过这种方式,视频抽卡概率提升到接近100%。
随后12月,PixVerse很快上线了移动端App并升级大模型到V3.5版本,PixVerse迅速增长为全球用户量最大、热度最高的视频生成平台,持续在Google Trends上领跑行业,登上欧洲及中东多国App Store总榜、影像榜第一;Google Play美国地区人气增速榜第一。
移动端App的推出,让AI视频创作不再局限于Web端,这极大地降低了用户的使用门槛,契合了移动互联网时代用户碎片化、随时随地的创作需求。
“我们的变身特效和拥抱特效等AI视频模版也在全球社交媒体上接连爆火。通过极致的工程化和产品化能力,我们让AI视频技术真正进入了每个普通人的娱乐生活。”王长虎告诉「甲子光年」。

PixVerse视频模板示例,动图来源:爱诗科技
不要忘了,抖音就是从15秒短视频和炫酷的视频模板做起来的,而AI视频生成产品的模板相比之前的短视频模板,给用户带来了全新的体验。
王长虎近期在对话《晚点LatePost》时解释:“短视频里的特效不是端到端的,每一个特效都要针对性去调整、设计;而用生成技术产生模版,效率高很多,同时能让用户也参与贡献模版,不是光靠我们的团队在做。这是过去的短视频特效没有的生产机制——所以我们的模版内容多元、足够有差异化。”
今年5月,PixVerse V4.5在海外上线约一周,就冲到了美区App Store免费总榜第四位,图片视频工具榜单第一位。
那么,海外用户的真实评价是什么?
「甲子光年」通过Grok 3搜集了PixVerse V4.5在海外上线前后(5月7日到5月14日)X平台用户对PixVerse的评价,总计56个来源,包括中文、英文、日文、葡萄牙文等,Grok 3给出的结论是:
用户对PixVerse的评价总体积极,特别是在视频质量和功能创新方面。
少数用户提到某些功能(如Fusion)结果可能不可预测,但仍持正面态度。
搜索未发现显著负面评论,反映用户对该工具的普遍满意度。

Grok 3搜集的X用户对PixVerse的评价,图片来源:Grok
X用户对PixVerse的正面评价主要集中在三个方面。
首先是生成视频质量。X用户@iriya_anju针对PixVerse V4.5给出了详细评分:画质9分(“优秀但未达到每根头发可见的程度”),分辨率9分(支持1080p),动作流畅性9分(“非常流畅且几乎无破绽”),功能性10分(“非常丰富,合成和角色参考功能水平高”)。X用户@levelsio更称其为“当前最先进的(SOTA)视频模型”,强调其角色一致性。


第二是用户体验。PixVerse V4.5版本的升级显著提升了用户体验。X用户@yudotanaka提到,新版本生成时间缩短至约10秒且积分消耗有下降,并称其为“最佳体验”。还有很多用户分享了使用PixVerse的创作成果,并对工具的创新性和艺术性表示赞赏。例如,X用户@SarahAnnabels称“无需摄制组即可制作电影级AI视频”,列举了新功能的使用方法。


第三是新功能。PixVerse V4.5新增的电影级运镜控制和支持多主体功能(Fusion)受到广泛好评。X用户@Damn_coder表示PixVerse适合创建舞蹈头像、电影镜头和病毒式视频混剪。

Grok 3在搜索结果中,仅有少量的功能改进建议,未发现强烈的负面评价。

Grok 3搜集的X用户对PixVerse的评价,图片来源:Grok
这些评价虽然比较主观,但是代表了海外真实用户的感受。
在AI视频生成这个高度依赖技术的领域,PixVerse显然在底层算法和模型训练上拥有显著优势,模型不断迭代,能够生成高质量、有吸引力的视频内容,这是用户选择并留下的最直接原因。
另外,PixVerse不仅仅是提供一个“能生成视频”的工具,而是深入理解了用户在视频创作过程中遇到的实际难题,并通过独特且实用的功能提供了有效的解决方案。这种以用户为中心的创新,极大地提升了用户体验和产品粘性。
而现象级的传播效应则放大了模型和产品的影响力。当产品本身足够优秀,又能有效触达潜在用户时,用户规模的爆发式增长就变得顺理成章。
PixVerse的高用户量和活跃度并非偶然,而是其在技术、产品、运营和市场策略上协同发力的结果。
今年,爱诗科技也面临两大挑战:从C端到B端,从海外到国内。
3.C端的沉淀带来B端的洞察

由于去年第四季度PixVerse的爆火,当时很多B端客户找到了王长虎,希望接入PixVerse的API。
虽然PixVerse率先在C端市场发力,但这并不意味着爱诗科技不做B端市场。
“我们已经有基于6000万用户的实践了,我们知道他们喜欢什么,他们爱用什么,他们怎么用,这些能力真的可以赋能全球B端客户。”王长虎说。
爱诗科技在今年1月份逐渐开展B端业务。对于企业用户,爱诗科技设置了优先通道,可提供易用、快捷的API在线服务接口,通过标准轻量化的接口极大提升集成效率;同时,爱诗科技还可提供多元的视频生成功能和丰富的模板;而对于企业关心的安全问题,爱诗科技支持高并发和高可用性保障,数据加密和安全合规体系可提供全方位的保障。
对于B端客户,“AI生产力”的概念非常重要。
其核心在于将AI视频生成能力融入企业工作流程,提升内容生产的效率、降低成本、支持规模化和个性化内容产出,最终服务于企业的商业目标和增长。
爱诗科技拥有的不仅仅是AI视频生成产品,还有持续积累的用户运营服务经验——C端长期的沉淀,带来B端深刻的洞察。
目前,爱诗科技的B端业务场景集中在广告、短剧和游戏。
在广告场景,基于强大的底模以及稳定快速的LoRA生成效率,相关产品可以在商品展示、口播、特定SKU广告等场景快速批量生成大量素材,帮助企业大量节省广告制作成本。
在短剧场景,相关产品可通过对分镜关键帧的链接,完成高质量短剧的创作,并对不同角色进行形象替换,帮助短剧创作者进行内容IP重构。
在游戏场景,相关产品通过更高的清晰度、更丰富的细节和稳定的动作表现力,帮助游戏企业在场景资产、概念向角色设计以及激励广告的批量生成上大幅提升效率。
PixVerse凭借极致的高速与稳定输出、企业级PGC工具和开放式生态合作,一方面让创作者能在短视频时代用极短时间产出高质量、有趣且连贯的内容,极大提升了用户的裂变与增长效率;另一方面,它为蓝色光标、思为科技等企业客户提供一站式视频营销与私域运营素材生成服务,显著降低了内容生产与获取成本。
同时,PixVerse正在与百度智能云、Fal.ai、Eachlab等技术伙伴深度协作,加速图文到视频的场景化落地,并与百度文库联手,将静态文档动态可视化,让知识类内容轻松生成旁白和动画,使得从文档到视频的创作流程更为流畅与生动。
4.“拍我AI”的使命

AI企业出海有一个误区:必须在国内先把产品做好,再把这个产品卖到国外去。
这并不是说产品打磨不重要,而是说前期的产品打磨不能只针对国内市场。出海是一个主动的策略,而不是被动的调整。既然想要海外市场,那么产品发布的第一天就要面向全球市场,要把出海的视角转为全球化的视角。
去年4月,王长虎在和《晚点LatePost》对话时就有相关表述:“做AI时代的产品就应该做全球产品。”
选择先海外后国内路线的另一个客观原因是公司初期“人手不足”。
如今,爱诗科技带着Pixverse在海外的积累会回到了国内,“拍我AI”的上线,意味着爱诗科技进入了一个新的发展阶段。
“拍我AI”上线,视频来源:爱诗科技
「甲子光年」认为,中国拥有庞大的短视频用户群体和活跃的内容创作生态,AI视频生成技术在这里具有巨大的应用潜力和市场空间。然而,中国用户的需求、使用习惯以及内容偏好与海外市场存在差异。“拍我AI”的推出,不仅仅是简单的本地化,更需要针对中国市场的特点进行产品优化和运营策略调整。
王长虎介绍,“拍我AI”会对齐PixVerse最新的基模和所有的功能,同时它是一个中国的模型,有中国风、中国味的模板和内容。
爱诗科技在海外市场积累的技术经验和用户运营能力,将为“拍我AI”在中国市场的推广提供宝贵的基础。同时,通过服务中国用户,“拍我AI”也能获取更丰富的中文语料和用户反馈,进一步反哺模型的训练和迭代,形成全球范围内的技术和产品协同优势。
“拍我AI”的使命,是将在全球范围内得到验证的AI视频生成能力,无缝对接到中国本土的内容创作和消费场景中,吸引并赋能更广泛的中国用户群体,进一步壮大爱诗科技整体用户基础。
尽管PixVerse在全球市场取得了成功,但对于爱诗科技而言,服务好中国市场,对于其C端和B端的用户增长至关重要。
王长虎很清醒,“过去两年很成功,不代表未来两年能成功。”
他只是觉得自己特别幸运,“创业两年,依然留在了牌桌上。”
(封面图来源:PixVerse生成视频截图)
(文:甲子光年)