深度|对话生数科技工程VP陈鑫和百度百舸产品负责人兰宇,探索后Sora时代国产视频模型的机遇

本期我们有幸邀请到生数科技工程副总裁(VP)陈鑫与百度智能云AI计算部副总经理兰宇,深度解析Vidu这款视频大模型从发布到在行业内爆火的背后故事。
陈鑫是生数科技的工程VP,负责公司多模态大模型的工程实现,并参与Vidu的整体研发工程。他所在的团队致力于为创作者和企业用户提供高效、高质量的AI视频生成方案。
兰宇则是百度智能云AI计算部的副总经理,全面负责百度百舸AI异构计算平台的产品和运营工作。百舸平台是百度智能云AI基础设施的核心体现,支持大规模AI模型的训练与推理服务,同时对外为企业客户提供全栈式的AI计算能力支持。
在本次访谈中,两位嘉宾结合自身领域,深入探讨了Vidu如何突破“一致性”这一视频模型的核心难题,如何在多主体动态表现和语义理解上实现行业领先,以及如何通过双方合作实现模型训练的效率提升与应用落地。此外,他们还分享了Vidu的典型应用案例以及AI视频技术对影视、广告等行业的深远影响。
从技术创新到行业生态建设,这场访谈带来了诸多洞见。我们对陈鑫在多模态模型研发中的追求,以及兰宇对AI基础设施赋能产业的全面洞察印象深刻,也感受到了他们在推动AI技术普惠与应用落地上的共同努力。希望通过这篇文章,为读者全方位展现Vidu背后的技术魅力与未来潜力。Enjoy! 🙂
  • Vidu突破了视频模型从未被解决的‘一致性’难题,新增「多图参考」功能。仅需几张设定图,即可高效生成连续多个视频内容片段。
  • 概括来说就是,“又快又好,还具备业界独有且最领先的一致性生成能力”。
  • Vidu 简化了创作流程,提高了效率,让创作者得以专注于内容创意本身。
  • 《毒液·最后一舞》宣传片用Vidu替代了90%的后期工作,将1-2个月的制作周期缩短到仅10天,效率提升三倍多。
  • 基于显性和隐性故障的发现能力,我们在产品中封装了一套任务自动容错机制……这一机制确保用户的训练任务能够保持连续性和稳定性,不会因底层硬件故障而中断,从而避免资源浪费。
  • 百度智能云千帆大模型平台已累计帮助用户精调超过3.3万个模型,开发出77万个企业级应用,Vidu作为千帆大模型平台首个接入的视频模型,接入后可让用户体验到全球领先的视频生成能力。
  • 生数科技通过百度智能云的弹性队列、弹性伸缩和潮汐混部等能力,将资源分配率提升至96%以上,保障训练时长达99.5%以上。
  • 百度智能云的高效基础设施帮助客户在几个小时内运行大规模的大型训练任务,极大提升了使用效率。
01 引爆AI视频革命:Vidu的核心突破
ZP:请二位先做下个人和公司的介绍。
陈鑫:我是生数科技VP陈鑫,主要负责工程开发方面的工作。生数科技是一家致力于打造全球领先的多模态大模型和应用产品的人工智能科技公司,我们的核心产品是AI内容生产平台Vidu,提供文生视频、图生视频、参考生视频能力。Vidu 在今年4月发布,7月全球上线,这是全球继Sora之后首个取得重大突破的视频模型。在模型表现上,Vidu有极快的生成速度、高一致性、高动态性、语义理解强等优势,同时在近期上线的1.5版本中全球首发了「多图参考」功能,是全球最早陆续突破面部一致性、主体一致性、多主体一致性的视频模型。
兰宇:我是兰宇。目前担任百度智能云AI计算部的副总经理,负责百度百舸AI异构计算平台的产品工作。百度百舸是百度智能云AI基础设施的产品化体现。对内,我们支持包括文心一言在内的大模型训练;对外,我们服务于包括大型客户、政府机构、中小企业等在内的广泛用户,由百度百舸的产品平台满足其对AI算力的需求。
ZP:请问生数科技的主营业务有哪些?
陈鑫:我们主要面向创作者,包括专业视频创意工作者、数字艺术家、短视频内容创作者等,当然也包括希望简单实现各类视频创意的普通用户,为他们提供一键AI视频创作能力,用户只需在平台上传图片或输入描述词,就可以自动生成想要的视频画面。我们希望通过Vidu来帮助他们自由的进行创意表达,以及高效的进行创作实现。
在服务模式上,我们的产品一方面面向C端用户直接开放订阅,另一方面面向有视频需求的B端机构、以及开发者开放API。
ZP:对比国内外厂商的核心优势是什么?发布至今主力产品的应用效果如何?
陈鑫: Vidu在模型效果层面具备高动态表现、超强的语义理解等领先优势,自上线以来就持续领跑行业。其中,Vidu在两方面具备代表性的领先优势:
一是,Vidu攻克了视频模型从未被解决的“一致性”难题,新增「多图参考」功能。模型首次涌现了极强的上下文理解与记忆能力。具体说,Vidu能够实现对单主体的精确控制,比如保证视频画面的角色形象,从人脸到整体造型,在任何角度下都保持一致;另外Vidu在全球范围内首次攻克了「多主体一致性」的难题,能够一键将多元素、多主体无缝融合到视频中,这一能力的实现,不仅在技术层面是0-1的突破,而且解锁了更多的实际应用场景,这一重大突破极大提升了视频创作的灵活性,未来仅需几张设定图即可高效生成一系列连贯的视频内容。
二是,Vidu实现了业界最快的推理速度,不到30秒就可以生成一段视频内容,与业界平均3-5分钟的生成速度比,我们实现了量级性的提升。
概括来说就是,“又快又好,还具备业界独有且最领先的一致性生成能力。”
再到我们的应用效果方面,自7月底全球上线以来,Vidu已受到全球用户的广泛使用。在影视、动画、广告电商等领域,我们也与多家头部企业机构开展合作,提供规模化视频产出能力,助力这些企业在视频生产环节降本增效。
ZP:我们看到AI视频技术有什么价值?
陈鑫:对于个人创作来说,AI视频技术的出现,主要带来了两方面价值:
一是,简化创作流程,降低成本。对于专业的内容创作者来说,例如像以前需要复杂后期制作的特效画面,或者需要运用专业的拍摄设备实现的画面等等,现在都能通过 AI 直接一键生成,不仅大大简化了制作流程,降低软硬件投入,还让创作者得以专注于内容创意本身。
二是,降低了创作门槛。AI视频技术让普通个人用户不再需要学习传统复杂的工具,极大降低了视频制作门槛,让更多的普通人可以加入到视频内容的创作中来。
另外面向影视、动画、广告等创意产业,AI视频技术将以高性能、低成本、智能化的方式重塑内容创作与商业模式。随着AI视频技术的不断成熟,企业将从单一内容创作能力转向以AI为核心的智能化生产和数据驱动的创意开发,这将显著提高内容产出效率及品质,助力企业提升竞争力。
02 极速生成与高效协作:视频模型的产业化路径
ZP:AI生产视频技术对影视等内容创作领域将产生哪些影响?目前是否有成功的应用案例?
陈鑫:从影视制作来看,目前AI视频技术主要能替代后期特效制作环节,简化制作流程,提升制作效率。
比如今年上映的《毒液·最后一舞》,用Vidu打造了一支独特的水墨风格宣传片,将毒液千变万化的形象与中国特有的水墨风融合。创作团队通过采用Vidu来完成整支片子的制作,片子中毒液不断变换的画面均由Vidu生成,要知道这样的画面,传统流程需要后期特效师逐帧手动制作,但Vidu替代了90%的后期工作,传统流程需要1-2个月制作周期的短片,在Vidu的助力下,仅花费了10天就完成了制作,整体制作效率较传统流程提高了三倍多。
以及国庆档电影《熊猫计划》,猫眼电影在宣发环节利用Vidu为电影中熊猫角色“呼呼”打造了一个抖音账号,就是通过十几张呼呼的照片,利用Vidu一键生成个性化的短视频内容,比如吃竹子、互动玩耍的画面。这样的画面传统只能通过建模和动画制作来完成,往往耗时较长,难以匹配短平快的宣发节奏。而Vidu 完美解决了这一难题,高效产出角色高度一致的视频内容,满足短视频日更需求。
ZP:用户在使用过程中有什么需求和痛点?我们如何满足?
陈鑫:在AI视频创作中,「一致性」一直都是用户迫切的诉求。不管是故事片中,需要保持主角形象的一致,或者是广告片中,商品形象与实物得是一致的。但是一般的AI视频工具没有办法做到将人物或物体的形象与实际始终保持一致。我们从发布之初就关注这一难题,从最开始的面部一致拓展到人物、物体等形象一致,一直到近期迭代的多主体一致性能力,最终突破了一致性难题。
近期我们发布的Vidu1.5,只需要上传3张图片,就可以让主角穿上指定衣服在指定场景做出指定动作
在Vidu1.5发布之后,有很多品牌方也在与我们积极联系,希望用一致性功能在产业中进行创作。
ZP:也很好奇,AI视频模型对底层算力基础设施有什么新要求、新挑战?
陈鑫:是的,AI视频模型对底层算力基础设施提出了前所未有的要求,包括大规模并行计算、高性能数据存储,以及灵活的调度响应能力。
我们相信,AI将改变未来实现创意的门槛,未来AI视频模型不仅会推动产业智能化升级,还将在游戏、娱乐、教育、广告等垂直领域释放更大的价值。通过持续优化底层模型,配合百度百舸支持的算力基础设施,我们有信心帮助更多行业用户完成从创意到实现的高突破性的效能转化。
03 算力为基,创新为本:百度智能云的技术助力
ZP:那么生数是如何与百度智能云合作的?通过合作解决了什么问题?
陈鑫:百度智能云的确为生数科技带来了很多的帮助和支持,首先是我们对多模态大模型的训练需要一个能把资源充分利用、性价比高的平台。从一开始训练基础模型到后续的模型迭代,百度百舸高性能算力集群的任务分发、队列调度和训练加速等功能,帮助我们提升了训练效率,加速模型迭代。
其次是产业协同发展方面,Vidu成为了首个接入百度智能云千帆大模型平台的视频模型。千帆大模型平台已累计帮助用户精调超过3.3万个模型,开发出77多万个企业级应用,Vidu的接入让平台上的用户能够直接体验到全球领先的视频生成能力。借助百度智能云的高性能引擎,Vidu 也实现 AI特效等创新互动玩法的开发与应用,通过开放 API 支撑起大批泛互娱乐、图视频编辑、社交直播等应用型产品的流量增长。
兰宇:我也从百度智能云的角度补充一些细节。在我们与生数的合作中,核心是为生数提供一套高效、稳定的AI基础设施。其中,关键支持功能包括自动容错、故障感知自愈以及资源共享/超发/抢占能力,这些能力有效帮助客户提升资源利用率。
在具体业务运行过程中,无论是初期还是当前的稳定期,客户会陆续遇到一些新问题,比如任务未被调度、运行任务突然卡住或变慢等情况。那么在这些场景中,我们针对硬件及基础设施方向提供故障诊断能力及相关产品功能。此外,我们的工程师团队也与售后团队协作,共同解决一些疑难问题。
同时我们在合作期间举办了多次workshop,从百度智能云的角度介绍了大模型框架、推理引擎及平台等技术建设思路,为生数提供了有价值的借鉴。我们既分享了百度内部的经验积累,包括文心一言及其他业务场景中AI基础设施方向上的实践成果,也介绍了业界最新的技术方案和趋势。
ZP:百度智能云在生数的合作中提供了哪些具体的技术支持和资源,例如稳定性提升、模型训练速度优化等?
陈鑫:从整体来讲,算力资源增长到一定规模时,需要去保持其高效训练和稳定性。在模型训练稳定性方面,百舸提供了丰富的运维和可观测工具以及容错保障能力,提升了大规模集群长期运行的稳定性,降低因为故障导致训推任务异常终止的概率,减少业务损失。
具体来说,通过百度智能云的弹性队列、弹性伸缩、潮汐混部等能力实现整体资源分配率达到96%以上,资源利用率95%以上;通过训练容错能力实现秒级故障感知,分钟级定位恢复,保障有效训练时长达到99.5%以上。
兰宇:是的,从我们的视角再来分享补充一下。首先,我们为生数提供了任务自动容错的能力,这跟我们的底层硬件是紧密相关的。因为在AI技术支持中通常会遇到两类问题:第一类是显性故障,也就是系统明确报错,比如网络连接故障或GPU卡报错等。这些问题比较容易被识别,但是也需要针对不同的故障类型提供最高效的处理方案。第二类是隐性故障,这种情况下系统不会报出明显的错误信息,但从大规模训练任务的角度来看,可能会出现任务卡住、停滞或变慢的情况。针对这类问题,我们通过BCCL高性能网络通信库,为系统提供了隐性故障发现和定位的能力。
基于显性和隐性故障的发现能力,我们在产品中封装了一套任务自动容错机制。当系统检测到这两类问题时,会自动捕捉错误信息,确认任务已出现问题,然后及时获取上一次保存的检查点(checkpoint),对任务进行重提操作。这一机制确保用户的训练任务能够保持连续性和稳定性,不会因底层硬件故障而中断,从而避免资源浪费。
其次,我们为生数提供了更全面的业务稳定性保障和资源支持,这里主要有两方面的支持。首先,在生数进行重要产品发布时,百度智能云会提供重点保障,确保其发布前后业务的稳定性。具体来说,在发布前后的几天或者一周内,我们会对生数的业务进行严密监控,同时严格控制百度智能云的上线变更,以确保生数在关键发布节点上的系统稳定性不受影响。
其次,就是在每个阶段产品发布时,外界的关注度会显著增加,同时客户的业务增长也会带来新的资源需求。作为百度智能云的重要客户,生数的资源供给一直是我们的优先事项。所以在关键发展节点,百度智能云会以最高优先级为生数提供资源保障。同时,在集群扩容过程中,我们不仅提供了完善的产品支持,还派出了专家团队进行全程协助,确保生数的扩容过程顺利、高效。
04 拓展未来边界:AI生态的无限可能
ZP:想问一下生数科技的陈鑫老师,我们如何看待应用层、模型层和infra层的关系?您认为应用层和模型层公司应该focus在什么?
陈鑫:我们认为整个生态是相辅相成、互相成就的关系
  • infra层:优化成本、计算效率和稳定性,为上层应用和模型提供可靠基础。
  • 模型层:注重技术创新和精度优化,追求差异化和前沿模型能力。如何使模型既具有高扩展性又能支持多样化场景。
  • 应用层:关注用户体验、场景适配和商业化能力,理解用户需求和场景创新。成功的应用层公司需要抓住用户痛点,设计清晰的产品功能和友好的用户体验。
ZP:那么您二位如何看待百度智能云在生态系统中的定位?未来生数和百度智能云会如何合作?
陈鑫:百度是一家专业能力强且具备生态协同发展意识的企业。未来,希望能与百度进一步深化合作,不仅在技术支持层面提供技术创新动力,更希望在更多生态协同中携手,共同提升用户体验。
兰宇:因为我是负责Infra这层的,所以我来重点讲一下这部分。我们作为Infra这层的产品,无论客户是从事自研大模型的企业(不论ToC还是ToB方向)还是传统巨头企业,希望通过大模型进行业务转型的,我们的核心仍然是为客户提供成熟稳定的AI基础设施,对于不同类型的客户,我们提供的服务也有所差异。
如果客户自身基础架构能力较强,百度智能云能够提供更加灵活的基础设施支持,例如底层的K8S接口和百舸API接口,客户可以通过API直接调用百舸提供的底层能力,这样百舸的平台能力可以无缝嵌入到客户的系统中,成为其平台的一部分。
对于基础架构相对较弱的公司,我们就提供完整度很高的产品。我们推荐这些客户使用我们的控制台产品,通过界面化的方式就把大规模集群管理好了。在控制台上,客户可以非常便捷地提交训练任务并完成大规模任务管理。通过这种方式,即使是没有AI基础设施经验或技术能力的纯算法团队,也能在短时间内运行上千卡的大型训练任务。
同时,我们还观察到推理需求正在快速增长。对于初创公司来说,要构建面向广大用户的高并发生产级推理服务仍然是一个较高的门槛。百度拥有丰富的大规模在线业务经验,可以为客户提供完整的生产级推理服务。客户只需将自己的训练或微调模型部署到平台中,像流量负载管理、弹性扩缩容,以及上下游服务调用等相对复杂的技术实现,都可以通过百舸平台高效完成。
ZP:那么想继续问一下兰宇老师,百度智能云如何帮助端到端的应用公司、转型AI的SaaS公司和模型公司提升效率和竞争力呢?
兰宇:首先先说转型AI的SaaS公司吧,对于这种公司来说,他们通常是某一领域的领先的企业,拥有相对独特的专有数据,主要以开源模型的预训练和微调为主。那么百度智能云给他们提供的,第一个肯定还是高效稳定的基础设施服务,同时也在开源模型方面通过加速框架显著提升训练与推理效率,性能的提升幅度大概可以达到30%到60%。另外,其实这里还是有一些偏传统的企业,他们可能是有很多数据,但是问题在于如何把这些数据变成对于大模型来说真正有用有效的训练语料。所以我们还提供一些数据管理和增强的工具和服务,帮助客户将其专有数据转化为大模型可用的高质量语料,从而提升其数据的实际应用价值。
然后对于端到端的应用公司和自研模型公司,在我们看来是比较类似的,因为他们都有自研模型需求。那么自研模型这块,不管客户最终是是ToC还是ToB,其实从它的训练过程来讲就跟刚才说到的第二个类型不一样。他们对数据和模型的安全性及保密性有着极高的要求。对于这些客户,百度智能云提供的服务有一些不同之处。在基础设施层面,我们仍然提供高效稳定的AI算力服务,但在模型和数据层面,由于这些公司本身在这方面实力很强,通常不需要厂商提供标准化的产品。我们的支持更多集中在模型和数据安全解决方案上。我们通过完善的流量审计、数据合规、权限管理等产品能力,确保客户的自研模型和数据在内部得到严格的权限隔离保护,同时防范外部泄露风险。我们还提供操作回溯和审计能力,为数据保护提供更全面的保障。另外的话,其实跟生数也比较类似,我们还会通过workshop形式,分享百度内部的实践经验和对大模型技术前沿方向的研究成果,为客户提供知识赋能。
请注意,本次访谈内容已经过编辑整理并已获得陈鑫和兰宇的认可,仅代表受访者个人观点。我们也欢迎读者通过留言互动,分享您对本访谈的看法。欲了解更多关于Vidu(https://www.vidu.studio/)和百度智能云(https://cloud.baidu.com/)的信息,敬请访问其官方网站 。
Z Potentials将继续提供更多关于人工智能、机器人、全球化等领域的创业者访谈。我们诚邀对未来充满憧憬的您加入我们的社群,与我们共同分享、学习、成长。
——-

(文:Z Potentials)

欢迎分享

发表评论