这届春晚开始拼技术了!AI大模型绝美定格、机器人扭秧歌,云使用量达历年之最

作者 | 褚杏娟  

“春晚的每次彩排,我们都会安排同学参与。”今年春晚彩排现场出现了很多程序员,这些就是阿里云的春晚项目团队。

这是阿里云第一次作为云计算和 AI 的独家服务商的身份参与春晚。为保障春晚顺利进行,阿里云在北京、杭州分别设立了项目作战室,并有工程师在春晚现场支持节目制作。

阿里云主要为春晚提供两部分技术支持:一是阿里云云转播技术支持全球华人云上看春晚,二是阿里云通义大模型技术支持春晚节目创新,创新视听效果。但无论哪种支持,都需要大量的计算资源。“今年云资源的使用量非常高,可能会达到历年春节的峰值。”

看得见的 AI 大模型技术

莫文蔚和毛不易合唱的《岁月里的花》赢得了不少网友好评。“真的好听,画面布置得也很好,后面也很惊艳。”节目演唱落下尾声时,舞台画面定格变成了一幅油画,无限岁月静好,让网友直呼“绝美”。

油画定格的效果正是依托阿里云通义万相 2.1 的能力,通过 AI 图像生成、视频生成、图像编辑等 AIGC 技术,生成对应主题的元素与背景,增强节目舞美的视觉表现力。通义万相 2.1 模型在本月赢来了一次重磅升级,在大幅度复杂运动、物理规律遵循、艺术表现等方面实现全面提升,能够实现影视级画面生成质量,在发布后就登顶第三方权威榜单 VBench。

据介绍,通义万相使用时空全注意机制,让模型能够更准确地模拟现实世界的复杂动态;团队还引入了参数共享机制并针对文本的嵌入进行优化。在视频 VAE 方面,通义万相设计了一种创新的视频编解码方案,通过将视频拆分成若干块(Chunk)并缓存中间特征的方式,实现显存的使用与原始视频长度无关,从而能够支持无限长 1080P 视频的高效编解码。

此外,人形机器人也在春晚炸场,艺术与科技结合得让很多网友眼前一亮。知乎网友称“这个实话说属于表现力远低于技术力。技术上两足机器人保持平衡就已经是很大的课题,但是春晚这种舞台上应该是外行人也能理解的牛逼。”
根据宇数科技介绍,表演机器人依据舞蹈要求设计动作,靠AI训练来执行16台H1激光SLAM定位,全自动走位变队形快速转、抛手绢结构复杂,还需紧凑且可靠舞台不平有缝隙。为凸显机械感的整机骨架设计,团队去掉了所有外皮壳体。

创新视觉

甄子丹领衔的《笔走龙蛇》武术表演,有网友对这个节目赞不绝口:“今年春晚最爱的节目!”这个节目中出现了“空中环绕、时空凝结”等创新视角,这就是阿里云 AI 在本次春晚投入最多的“子弹时间”特效视频。

“子弹时间”技术,也叫“云上 AI 多视角呈现”,采用了通义大模型技术增强的全新转播技术,具有如下特点:

  • 多视角。传统拍摄以单视角为主,视角的变化需要通过摄像机角度变化来实现,而多视角技术利用相机阵列进行多角度拍摄,力求 360 度全方位保留节目细节;

  • 3D 建模还原细节。利用云计算和 AI 大模型算法进行 3D 建模、3D 重建,完整还原节目的细节。

  • 虚拟运镜呈现最终效果。利用智能虚拟运镜手法实现“时空凝结、移步异景”等立体视效。

实际上,这并不是一个全新的技术,央视也并非第一次使用。

以往的“子弹时间”技术主要基于视频插帧技术(2 维图像处理技术)和深度图像渲染技术(传统 3 维处理技术),本次春晚则主要使用了三维重建与神经体渲染相结合的技术,分别对场景进行稀疏表达和稠密表达,这两种技术同属于空间智能技术,是通义 AI 能力的一个重要组成部分。

阿里云视频云负责人致凡表示,与之前相比,阿里云这次使用了更少的设备(摄像头),在云端完成了整个制作过程,真正发挥了云计算的处理能力。


30 台相机采集数据

阿里云和央视总台联合首次在春晚演播大厅部署由 30 台相机阵列组成的云上多视角拍摄系统。项目组进场前设计了多套解决方案,并提前将这些方案在 3D 模型中进行充分的场景模拟和效果比对,从而使导演组能够快速选定将 30 台 4K 超高清相机架设在距离舞台又高又远的位置,推出全新的“演播厅天空环绕视角”。

子弹时间的拍摄视角是从近乎三层楼的高度进行拍摄,这种全新视角可以根据不同节目需求灵活切换角度,还避免了对舞台布局的干扰。而且,这种高空拍摄方式更加灵活,无需频繁拆卸设备,降低了成本。

致凡坦言,相机问题面临的挑战要比奥运会更大。

春晚节目非常丰富,但不同节目对灯光、景别等要求差异很大。团队需要监控每个节目的灯光变化并动态调整相机的参数,否则就会出现闪烁、不同步等问题。团队还需要根据不同的节目特点重新调整镜头设置,比如舞蹈类节目要聚焦在中心位置,而技巧类节目中演员位置会比较高。这是一个不断优化的过程,一步步接近导演想要的效果。

30 台摄像机并非专业广播级摄像机,而是普通的商业级别设备。这带来成本、灵活度优势的同时,也让像相机快门、光圈、焦距等会容易受到舞台上其他摄像头影响。因此,团队做了大量的工作,包括背后的软件监控和检测,发现有弧光等问题的镜头则将其删掉。

另外,相机设备还有过热的问题。奥运会比赛有休息时间,但春晚彩排时为保证所有设备都能正常运行,相机一直处于高负荷状态,很容易过热。因此,团队为设备增加了自适应功能,以此判断一些关键节点是否过热,如果存在就让其自动重启。这种方法确保直播时不会因为设备问题而错过重要画面。

相机数量越少,要重建出高准确度、高精确度画面的难度就越大,对算法的要求也就越高。这次春晚上的 30 台摄像机相对巴黎奥运会而言,硬件数量缩减 70%,这是团队在相机数量、算法优化和成本之间平衡的结果。如果相机数量再减少,虽然成本会降低,但其他地方可能会出现瑕疵;如果再增加相机数量,算法的复杂度会降低,但成本就会变高。

更重要的是,超高速相机在拍摄子弹时间视频时,必须确保每个相机采集到的画面在时间上绝对同步,这样 3D 算法才能实现理想的视觉效果。团队采用了多种技术手段,包括使用时间戳软件、调整硬件设备以及相机的参数指标,来确保所有相机在任何时刻都能同步。


算法难度增大

“奥运会用的算法可以看作版本 2,春晚后则进入版本 3。随着版本不断迭代,算法通用性大幅提升,这也是我们的目标。”通义实验室应用视觉实验室负责人薄列峰说道。

算法优化过程中,团队增加了获取三维表达的时间。这一时间的增加与分辨率等具体需求密切相关。在春晚场景下,团队通过并行优化技术,如多卡并行处理,满足春晚对算法推理时间的要求。

与奥运会中的子弹时间不同,春晚项目涉及多种物体,包括透明物体和丝带型物体等,这些都对算法提出了挑战。团队的很大部分时间用在了研发自有算法解决方案上。这个过程中,团队会针对某一类问题进行算法优化,比如对传统服饰中的丝带类元素而非丝带本身。

视觉效果上,阿里云采用了 AI 大模型的 3D 建模和 3D 渲染技术,并结合本地传统的视觉特效算法进行叠加,改变了以往单一的镜头轨迹,还加入了动静结合的元素,比如镜头的移动、变焦、快放和慢放等,让画面更加丰富多样。

进行 3D 建模时,输入的数据是 30 个相机拍摄的照片。在建模过程中,首先要保证模型的完整度和真实度,观看时不能出现视觉上的阴影、模糊或不自然的地方。团队为此进行大量的算法优化,使模型看起来更加自然。

本次使用的技术方案还允许用户在时间和空间两个维度上更加自由地运镜,实现以往专业摄影师才能做到的高级运镜效果。而最终的效果由导演来审核。只要创意与导演想法一致,算法完全可以保障最终效果达到要求。

技术团队和春晚导演组之间有一个互相交流和打磨的过程。前期,技术团队会先给导演看视频小样,导演充分了解技术团队能力后会提出新的需求,技术团队再针对这些需求迭代算法或增加新效果。

不错的视频效果会得到导演组的赞许,导演之间也会进行互相交流和推荐,比如有的武术导演会把这种效果推荐给舞蹈导演。这也是致凡在参与春晚项目中印象深刻的地方。

“这种互动能够促进我们和导演之间的合作,我们的能力会激发导演的灵感,让他们突破传统拍摄视角、尝试新的方式。每次合作,他们都会有一些新的想法。这是一个互相交流、互相促进的过程。”致凡说道。

实际上,所有效果都在云上完成,制作速度非常快。无论是要改变、删除还是增加一个效果都能迅速实现,导演可以很快看到反馈并提出想法和意见。

致凡表示,“最后几次排练时,导演已经对我们非常熟悉了,他甚至能自己想象出一些想要的效果,有的导演还会和我们一起挑选高燃片段。”致凡说道,“对于央视来说,这也是一种比较灵活的安排,我们的存在并不会影响到他们彩排。”

播出背后的保障

这次蛇年春晚在境内新媒体端的实时直播收视次数和互动量均创新纪录。据初步统计,新媒体端直点播收视次数 28.17 亿次,比去年同比增长 6.9 亿次。“竖屏看春晚”直播播放量 4.96 亿次,较去年同时段提升 18.09%,直播用户人数达 2.86 亿人,较去年同时段提升 14.4%。

春晚对节目画质和效果的要求更高,需要全链路 4K HDR 的画质、500M 的超高清码率。从数据量上来说,它比巴黎奥运会的传输要求大得多,这对网络传输和云端计算的挑战也很大。

阿里云团队通过 HDR 处理和智能编码等算法的结合,最终达到央视的播出效果。

在传输和采集过程中,每个相机都需要同步采集并传输数据,这些数据量本身非常大。而且,处理的视频都是 4K 分辨率的,全部采用 4K HDR 格式,这意味着当 30 台相机同时传输视频,每台相机每秒 30 帧的视频数据汇聚在一起后,处理的计算量会非常大,网络传输速率的要求也会非常高,另外还需要不断存储这些数据。阿里利用云的弹性资源以及 GPU 算力来应对这种大规模的网络传输和存储需求。

值得注意的是,真正的 4K 画面和真实视角并不是通过简单的生成技术就能实现,而是需要实实在在地拍摄。AI 的作用主要是处理拼接以及解决重建过程中的各种效果问题。

巴黎奥运会的子弹时间视频是纯实时生成的。而这次春晚采用的是 4K 技术,数据量比以往大很多。因此,阿里云团队采用了两套方案:第一套是按照央视节目的要求,整体采用 4K 技术;另外则是将视频降低到 1080p 分辨率,制作一些简单效果,给导演进行预览。导演可以通过预览大致了解效果并提出意见,技术团队则根据意见进行调整。

“阿里云在云端使用弹性资源,可能会用到几十张 GPU 卡来进行处理,虽然现在还不能做到完全实时,但相比以前,时效性已经快了很多,只是最终效果的生成时间会稍长一些。当然,最终的成片还是要在云端用 4K 技术制作。”致凡说道。


运维智能体上线工作

随着智能手机和各类新媒体 APP 的普及,越来越多的人开始通过手机开看春晚。央视对于阿里云的技术要求是“丝滑顺畅、万无一失”。为此,阿里云通过“云转播”的技术方式来实现,让手机达到电视大屏看春晚的效果。

央视总台联合阿里云推出“云来云往”新媒体发布平台,成为 2025 年春晚直播信号远程分发的主要方式。该平台是央视总台和阿里云在 2021 年时就共同构建的,基于阿里云的全球基础设施构建国内和全球转播服务源站,依靠跨境 CEN 缩小远程信号传输延迟提升网络可靠性,最后通过 3200 多个边缘节点把直播流畅地传送到全球相关持权转播机构。

今年春晚的直播画面,通过阿里云部署在全球的云基础设施,从北京分发到全球各地的持权转播机构,同时满足 8K 电视大屏、移动小屏等多终端需求,并提供竖屏春晚、三维菁彩声等观看体验。

为保障春晚直播的稳定与流畅,阿里云建立了一套专属的重保护航机制:

  • 人力上,阿里云在北京、杭州两地工程师进行现场 24 小时值班,为春晚提供不间断的重保。

  • 技术上,将稳定性保障体系与云的弹性、高可用等能力相融合,建立从平台到业务的全链路可观测能力、弹性能力、智能告警及应急处置能力等,并将现有技术机制与云维小智(运维智能体)相结合。通过智能体与平台的深度互动,提升云平台的可运维性、稳定性,更好地辅助现场工程师提前发现风险并提升应急处置效率。

值得注意的是,云维小智是阿里云在 2024 年 9 月份发布的面向云平台运维场景打造的智能体 ,基于“Qwen2”基础模型实现,利用更全面、更智能的知识库进行业务领域的知识运营。据介绍,云维小智推荐的运维方案可以覆盖日常 45% 的场景,此前已经在国家电网和交行开始部署。

本次春晚中,阿里云还在央视首次采用“上行链路双源站多活,下行链路多域名容错”的先进技术架构,从总台到不同地域的双源站同时推流,确保任何时刻至少有一个源站能正常工作,并采用两个反亲和节点资源的直播域名提供拉流服务,让直播具备全链路容错能力,任何环节故障都不会影响直播,整体可用性能超过了广播电视专业级传输要求。

结束语

春晚已经逐渐成为各大技术厂商的试金石。作为一个重大且不容有失的项目,背后的技术人员投入了非常多的精力和时间,但大家更享受项目成功的喜悦。

“我们的技术能够满足导演的高需求,为观众提供一场增强的视觉体验,这种体验是现实中或通过其他技术很难获得的。”薄列峰说道。致凡也表示,“这是一个虽然非常辛苦,但很有意义的项目。”

期待明年的技术人助力下一场更加精彩的春晚。


采访嘉宾:

薄列峰,通义实验室应用视觉实验室负责人,负责云上多视角拍摄“子弹时间”AI 技术

致凡,阿里云视频云负责人,负责云上多视角拍摄“子弹时间”云技术支撑

 

(文:AI前线)

欢迎分享

发表评论