Sora 终于来了!
只要是 ChatGPT Plus/Pro 用户,直接就能用上。
至于效果 ……
看完官方放出的 demo,网友大呼:不太行 !
当人们对「超级应用」的热情被 Sora 浇上一盆凉水时,多模态应用已经悄咪咪跑了起来,速度超出想象。
一个创意、一键生成,短短五分钟,一段品牌宣传片便能完美呈现。手机,也能来个「即圈即搜」 。
贵阳市民早高峰拥堵时长缩短了半小时,大模型功不可没。
在百胜中国,AI 客服每天能处理超过 15 万次消费者沟通。
龙源电力的 5 万路视频监控,现在只需一句话就能过滤掉无关的烟雾、灯光等干扰误报。
这些都不是简单的技术 demo ,而是百度智能云在给实际生产「上价值」 的真实写照。
IDC 数据也印证了这一点。2023 年,百度智能云至少拿了两个第一:
在 AI 公有云市场份额达到了 26.4 %,已连续五年位居首位;
大模型又是 AI 公有云的细分领域,作为国内率先抢跑大模型的云厂商,2023 年百度智能云在大模型平台市场份额为 19.9%,也位居第一。
可见,大模型正成为百度智能云一年多来新的增长引擎。
百度创始人李彦宏曾在百度世界 2024 大会上透露,截至 11 月初,百度文心大模型的日均调用量达到 15 亿,相较一年前首次披露的 5000 万次,增长了约 30 倍。
调用量高、增速快,表明有越来越多的应用在使用大模型。「调用背后意味着它在给应用产生价值。」 李彦宏说。
「 Sora 这种,无论多火,百度都不去做。」 公开场合谈及此,李彦宏态度明确。
百度要做的是基建,帮更多用户做出自己的 Sora ,打造无数个「超级有用」 的多模态应用。
市场也用真金白银投了票。据媒体报道,市场大盘上,2024 年 1-8 月大模型中标项目数量已是 2023 年全年的 5 倍,百度综合排名第一:
除了中标金额、项目数量最多,行业覆盖也最广,央国企客户过半。
作为「标王」,不做 Sora 并不意味着放弃多模态。很多场景应用,如果没有多模态技术支持,根本落不了地。
但企业要的不是裸的模型,而是贴合自家业务场景的多模态能力,能「开箱即用」就更好了。
身为 「标王」 ,百度智能云也有底气给足各种选项。凭啥?
它控制了从底层算力到上层应用的堆栈每一层,在堆栈每一层都有关键自研技术。
在此,离不开两个核心支点:作为大模型精调和应用开发平台的千帆,以及提供稳定高效算力服务的百舸平台。
一些前沿的空间智能玩家已经盖戳认证,如生数科技、哇嘶嗒( VAST )、光魔科技。
这个以 GPU 为核心搭建的异构计算平台,本来就很适合多模态大模型训练,主打一个「多快稳省」 。
「多」 ,是指 「多芯混训」 ,支持同一智算集群中混合使用不同厂商芯片,兼容昆仑芯、昇腾、海光 DCU、英伟达、英特尔等国内外主流 AI 芯片。
选择灵活,也降低了算力成本,还不用担心性能显著下降。因为,百舸的多芯混合训练任务的性能损失,控制在了万卡性能损失 5%,已经是业界最高水平。
从发布到上线仅三个月,生数科技就完成了对 Vidu 的快速迭代。为啥这么快?
因为百舸会把不同地点、不同规模、不同集群的算力统一管理起来,再通过一些优化经验和技术,大大提升智能算力的效能:
万卡集群上的模型有效训练时长占比超过 99.5%,线性加速比和带宽有效性均超过了 95% ,业界领先。
训练 Vidu 大模型需要长序列训练和较大的上下文窗口,百舸创新提供了序列并行策略、显存优化策略,还支持超长上下文训练。
作为结果,大模型训练中最费时间的渲染环节,效率提升了 3 倍。同时,通过优化数据拉取机制,显著压缩了数据准备时间。
提供自定义镜像推理服务,用户可以「搭乐高」 ,满足不同推理服务部署。
多模态推理加速能力。这也是 Vidu 将 AI 视频生成等待时间压缩至 30 秒,比业内最快水平 Gen-3 还要快一倍的「幕后功臣」 。
值得一提的是,大模型 Scaling Law 仍在继续,百舸 4.0 也具备了成熟的 10 万卡集群部署和管理能力。
主打一个「低门槛」甚至「零门槛」 ,最好普通人都能用。至今,已经促成超 77 万应用的诞生。
凭借「三层分立」:模型开发层、模型服务层和应用开发层,满足千变万化现实需求。
在模型开发层,千帆提供全流程工具,从数据处理、模型调优到部署,满足多模态大模型定制化需求。
想直接调用多模态能力的用户,可以在模型服务层「各取所需」。多个领域主流模型,千帆都给安排了。
文生图:如 Stable-Diffusion-XL 、文心一格;
虽然百度 ERNIE 系列大语言模型和语音系列模型主要针对单一模态,但也可以通过组合使用来增强整体的多模态处理能力。
过去一年,文心旗舰大模型降价幅度超过 90%,两款主力大模型 ERNIE Speed 和 ERNIE Lite 免费,最大限度降低企业创新试错的成本。
最上一层是应用开发,帮助企业用多模态能力改造业务,这个办法最简单、直接。
最近上新了企业级 RAG 和企业级 Agent 开发,将多模态应用门槛又拉低了一截。
在现有工具链支持下,只需一、两句话+勾选、拖拽,大模型就能跑出一个简单、闭环的轻量化 Agent,如熟知业务「套路」的数字员工。
爱库存是一家私域电商供货平台,数百万店主通过微信群、朋友圈分发平台上的商品。他们正在千帆大模型平台开发「爱库存超级助手」Agent。
此前,店主遇到销量下滑需要经历繁琐流程:查看数据找原因,浏览热卖榜选品类,比价选品,再制作文案和海报。这一系列操作通常要花费数小时。
现在有了 Agent,这些工作只需几分钟就能完成。
对于千行百业中呈长尾分布、「拿来主义」就能搞定的需求来说,百度智能云打造的一批 AI 原生应用,会很趁手。
「客悦」 、「曦灵」 、「甄知」、「一见」 等都实现了多模态的「开箱即用」 。
营销、客服,几乎是所有企业舍得砸钱、也最容易积累数据与 AI 产生化反的通用场景。有了「客悦」、「曦灵」,数字人销售、直播带货,分分钟搞定。
某日化龙头企业用客悦 AI 外呼回访老客户,不仅摸清了客户流失原因,还通过精准派券带动复购,最终复购率提升超 10% 。
曦灵数字人平台拥有文生 3D 数字人的能力,不但可以一句话生成企业所需 3D 数字人形象,还可以让它立即投入工作,自动生成专业的带货视频。
有了多模态能力的加持,数字人主播可以一边展示货品一边讲解,还能和直播间用户实时互动,全年无休,多国语言也能张嘴就来。
价格上,仅需 199 元!一个 3D 超写实的数字人,过去定价可是万元级别。
企业知识管理也迎来多模态升级。「甄知」让知识管理从「重存储」转向「重应用」,企业知识被盘活。
以南方电网为例,集团拥有数万篇各类标准文件,都以 PDF 形式存储。「甄知」运用大模型的 OCR 视觉能力,快速将这些文档拆解为章节段落和图表,完成知识结构化。
员工能在「甄知」辅助下编写各种企业文档,新产生的知识会自动进入企业知识库,精准推给需要的同事。
基于多模态大模型重构的「一见」 视觉大模型,可快速满足碎片化场景下的视觉需求。矿区驾驶员的「一分钟安全确认」,从传统小模型需要 50 多天,缩短到现在仅需 2 天左右就能投产使用。
「开箱即用」的 AI 原生应用也延伸到了医疗、政务、交通等更多领域,加速多模态应用在千行百业落地。
一旦技术得到广泛应用,就会产生海量数据,这些数据又反哺 AI 进化,推动数据飞轮高速运转。不同于 Sora,这是百度认准的一条通往 AGI 之路。
「我们应该把注意力放在闭环怎么走完,而不是不断解锁能力。」李彦宏认为,一旦有一家(大模型)厂商的「飞轮」 转起来,后来者再追赶,需要花更多力气。
事实上,百度智能云能成为今天的「标王」 、领跑者,除了技术上的领先,也源于多年坚守「向实」 。
当一些互联网云厂商淡出政企市场时,百度智能云还在电信、能源、制造、交通等重点领域深耕,静待花开。这些年的项目经验,让百度智能云沉淀了大量 AI 解决方案,通过持续提炼,不断提升复用率和产品化水平。
正是沉淀在先,后来有了多模态大模型,才能「点石成金」 。
没有「专业选手」 ,用户也能基于「一见」 视觉大模型平台训练出和百度原厂效果一样的视觉模型,因为「一见」 凝结了七年的行业实践,积累了丰富的模型、算子和场景化模型产线。
龙源电力平台已成功接入 5 万多路视频监控,覆盖 250 多个风电场,实现了实时 AI 分析与统一管控。「一见」 在海量并发处理和数据管理方面的成熟能力也是通过大量标杆客户实践打磨出来的。
多模态生成式 AI 作为新一代前沿技术,正在突破大语言模型的固有局限。Omdia 最新发布的《全球生成式 AI 应用市场研究报告》预测,全球多模态生成式 AI 市场规模将于 2029 年达到 142 亿美元,较 2024 年增长 6 倍。
凭借技术实力和丰富的工程经验,百度智能云已在企业级市场建立起坚实根基。稳定的付费客户群不仅让其在价格竞争中保持优势,更为长远发展奠定了基础。
Omdia 也在报告中指出,企业在选择多模态应用解决方案时,百度智能云这类全栈服务供应商比单纯的多模态生成式 AI 基础模型提供商(如推出 Sora 的 OpenAI )更具优势。这源于其完整的技术体系能更好满足企业实际需求。
在大模型的马拉松争霸赛中,百度智能云正用实力证明:我不仅是开局的佼佼者,更将是决赛圈的重量级选手。
(文:机器之心)