跳至内容
回看今年的节奏,字节几乎月月有新招,甚至一月多更,一个个模型砸出来,不只是上新,也都有实打实的升级,持续把行业的竞争门槛推高一大截。
4 月,豆包 1.5 深度思考模型、文生图模型 3.0、视觉理解模型同步升级。
5 月,Seedance 1.0 lite 视频生成模型 、豆包 1.5·视觉深度思考模型以及音乐模型,文字、图像、声音,字节全都想卷。
到了今天火山引擎举办的 Force 原动力大会上,字节系 AI 产品线继续输出,不整玄学,主打一个量大管饱,开箱即用。
豆包大模型 1.6、视频生成模型 Seedance 1.0 pro 等新模型,能写行业报告的 DeepResearch 以及 Agent 开发平台等 AI 云原生服务接连登场。
说到底,你可以不懂 Transformer,但你一定能感受到这些 AI 产品真能替人干事了。
推理能力增强,支持「边想边搜」与「DeepResearch」
本次发布会的重头戏,就是豆包大模型 1.6 系列,由三个模型组成。
Doubao-Seed-1.6:一款「All-in-One」的综合模型
它支持深度思考、多模态理解,还能操作图形界面。深度思考有三种模式:开、关和自动。在自适应模式下,模型会根据任务难度自动决定是否启用深度思考,既能省时间又省 token。而且,它还是国内第一个支持 256k 上下文的模型。
Doubao-Seed-1.6-thinking:在深度思考方面的强化版本
1.6- thinking 是本次升级的重点,思考能力得到强化,能更准确地理解和处理复杂任务。在 coding、数学、逻辑推理、指令遵循等方面都有进一步的提升,同样也支持 256k 上下文和多模态推理。
Doubao-Seed-1.6-flash:1.6 系列的极速版本
延迟极低,非常适用于低延迟敏感场景。文本理解比豆包 1.5-lite 强,视觉理解也能媲美其他厂商的顶级产品。
在会议上,豆包 1.6 系列模型公布了多项权威测评成绩。特别是豆包 1.6-thinking 的表现,已经跻身全球顶尖行列。
模型会考试已经不是新鲜事,但能考清北的分数,还真不多见。
拿推理能力来说,豆包 1.6 相较于之前的模型进步很明显,做今年高考全国新一卷的数学题,豆包拿到了 144 分,位居全国第一。用海淀模拟全卷去测,相较于去年的 500 到 600多分,今年不管是文科还是理科,豆包 1.6 都超过了 700 分。
豆包在进行逻辑推理时的一个亮点在于,它不仅会自己思考,还懂得「边想边搜」。先拆解问题,找到关键信息,先做一轮思考,然后根据缺失的信息再做多轮的搜索。
比如,向豆包提问「详细梳理广东省内的昆虫分布状况、常见品种等,并以研究报告的形式呈现」。它在深度思考过程中首先考虑到了研究报告的格式要求,然后很快确定了梳理的框架。
接着,豆包考虑到「内容需要具体的数据和例子支撑」,所以开始自主搜索广东省的自然环境数据,以及以往相关研究。
会上还提到,豆包正在进行 DeepResearch 功能测试。过去需要专业人士花费数小时或者数天写的专业报告,豆包可以在 5 到 30 分钟内完成。而且还能自动的提炼信息,总结成网页,方便人们进行查阅。
另外,为方便企业用户使用「边想边搜」和 「DeepResearch」功能,火山引擎官网上线了大模型应用实验室,并开源了代码,可以搭建自己的 AI 应用原型,灵活编排自己的智能体。
豆包 1.6 全系列均原生支持多模态思考能力,让模型更好地理解和处理真实世界的问题。
多模态理解支持了豆包最新的「实时视频通话」功能。而在企业端,则可广泛应用于电商商品审核、自动驾驶标注、安全巡检等场景。
比如,可以用模型对商家上传的图片进行规范审查,也可以用模型快速对同类商品进行比价。
在汽车领域,可以通过模型来更准确的识别汽车行驶方向和驾驶意图,从海量的路采数据中选出特定的片段,用于下游的自动驾驶模型的训练。
在更多线下场景中,豆包可以准确地对图片中的信息进行定位和计数,从而完成安全巡检、门店巡检等任务。
比如,让豆包 1.6-thinking 检查一张洞穴探险的照片中是否存在因未戴头盔而可能引发的安全隐患。通过深度思考,它不仅能够对图片中的头盔佩戴情况进行准确计数。
更让人惊喜的是,它还能进一步思考「戴头盔就算安全吗」的问题,从而接着分析图片中头盔佩戴是否规范、穿衣是否合适、照明设备是否齐全、行走的安全距离是否恰当等等,并在最终提出了整改的优先级。
凭借领先的视觉深度思考能力和精确的视觉定位能力,豆包 1.6 能够让智能体与浏览器和其他工具进行流畅的交互和操作,高效地执行任务,比如,酒店预定筛选、票据整理等。
模型对 GUI 的操作,绝不仅仅只是替代人去解决手指点击 APP 的那几下的便利,而是能够突破传统的 APP 和 GUI 的限制,去更加智能、自动地去满足人本质的需求。
豆包大模型 1.6 采用统一定价模式,无论是否开启深度思考模式,无论是文本还是视觉,tokens 价格均一致,按照输入上下文长度区间定价。
在绝大部分企业使用的输入区间 0-32k 范围内,价格是输入 0.8 元/百万 tokens,输出 8 元/百万 tokens。
在输入区间 32k-128k 的范围内,价格是输入 1.2 元/百万 tokens,输出 16 元/百万 tokens。
在输入区间 128k-256k 的范围内,价格是输入 2.4 元/百万 tokens,输出 24 元/百万 tokens。
从综合成本来看,绝大部分请求输入都在 32k 以内,输入输出占比在 3:1,豆包大模型 1.6 的综合成本(2.6元)比豆包大模型 1.5 ·深度思考模型、DeepSeek R1 的综合成本(7元)下降 63%,相当于只需原来三分之一的价格,就能使用能力更强、原生多模态的新模型。
此次火山引擎还增设特惠区,对于输入 32k、输出 200 tokens 以内的请求,豆包大模型 1.6 的价格将进一步降低到输入 0.8元/百万 tokens、输出 2 元/百万 tokens。相当于绝大部分非思考模型的需求,也可以安心使用更好效果的新模型。
Seedance 1.0 pro 上线:不烧钱也能「拍」出大片
除了豆包大模型 1.6 系列模型,在本次发布会上,火山引擎还带来了一个:全新视频生成模型 Seedance 1.0 pro。
这款模型首先值得谈的变化,是它在镜头语言上的突破。
该模型支持文字与图片输入,可生成多镜头无缝切换的 1080P 高品质视频。Seedance 1.0 pro 主打一个多动作用例 & 随心运镜,不仅支持 2-3 个镜头切换的 10 秒视频生成,还能切换远景、中景、近景,并借此大幅提升视频的信息量与叙事性。
而且,配合后训练阶段引入的多维数据集与反馈学习机制,新模型在运动连贯性、画面稳定性与整体质感都维持在一个相当高的水准。
没有停留在 demo 阶段,无论是打造商品广告片,还是快速跑出分镜草图;亦或着为客户提供游戏角色与剧情视频创作的能力,豆包新视频模型一步步走向这些最具生产力的场景。
来自第三方评测机构 Artificial Analysis 的榜单显示,Seedance 1.0 是目前中英文双榜第一的模型。
在文生视频榜中,Seedance 1.0 ELO 得分为 1299,超越了 Google 的 Veo 3 Preview、Veo 2 和快手可灵系列。在图生视频榜单中,Seedance 1.0 ELO 得分为 1343,超越了 Runway Gen 4、可灵 2.0 等,主打一个所向披靡。
1 万元预算可以用 Seedance 1.0 pro 生成 2725 条视频(5 秒 1080P),等价于用 Seedance 1.0 lite 生成 9708 条视频(5s 720P)。相比之下,可灵 v2.1 大师版、Veo2 等竞品的产出量(5 秒 1080P)都在 1000 条以内。
除视频生成模型,豆包还同步推出全量上线的实时语音模型,将拟人感和语义控制推向了新高度。
它能根据语境灵活调整语调、音量等;支持唱歌、低语等富有表现力的语音互动;甚至支持包括四川话等地方方言,现场演示环节中,豆包语音模型还演唱了《月亮代表我的心》,你别说,听上去确实有点意思。
在实际应用场景方面,除了与奔驰合作开发车载语音交互,豆包还在实时语音技术的基础上推出了「播客生成模型」,支持多人自然对话、插话、停顿等复杂语音结构。
它能自动识别输入内容(prompt、网页链接、长文本),接着自动生成完整播客脚本 + 拟人音频内容。现场演示的一段播客片段从节奏到插话,再到语气,几乎都挑不出 AI 感。
2025 年是 Agent 元年,如何把一个 Agent 真正跑进企业系统里,成了摆在所有厂商面前的现实问题。
为了更好地支持 Agent 开发与应用,从 MCP 服务、PromptPilot 智能提示工具、AI 知识管理系统到 veRL 强化学习框架,再到多模态数据湖、AICC 私密计算、大模型应用防火墙,火山引擎一口气推出了一整套 AI 云原生全栈产品。
火山引擎总裁谭待特别强调了「安全」对于 Agentic AI 的重要性,并介绍了即将上线的两款 AI 安全产品:「AICC 密态计算」和「大模型应用防火墙」。
其中,AICC 密态计算可以在保障推理效果的前提下,让企业能够像用私有化模型一样,安全合规地去使用云端服务。
大模型应用防火墙脱胎于「火山方舟」,能够低延迟、高精度地拦截攻击变种,为企业智能体应用构建一个安全可信的推理空间。
纵观整场发布会,火山引擎没有沿着 AGI 的叙事继续拔高,相反,他们把视角拉回到当下,聚焦在那些今天能落地、能部署、能跑在生产环境里的 AI 产品上。
过去半年,行业的共识越来越清晰,AI 的下半场其实就是产品的上半场。参数差异会被不断抹平,但产品的调用效率,集成路径和使用成本,会决定用户的留存率。
这也是为什么,在今天这场发布会上,除了豆包大模型 1.6 和视频生成模型 Seedance 1.0 pro,火山引擎还同步推出了一批听起来不那么炸场,却极其关键的产品能力。
从模型调用、到具体场景组合、再到安全稳定地执行闭环,能力彼此打通之后,才构成了真正能用起来的 AI 生产系统。
这不一定是最吸睛,但可能是最可落地,最接近「用起来」的那条路。
欢迎加入 APPSO AI 社群,一起畅聊 AI 产品,获取#AI有用功,解锁更多 AI 新知👇
✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)
(文:APPSO)