这几天海外科技圈最受关注的有两件事,一个是一众科技大佬齐聚特朗普就职典礼,川普还拉上 OpenAI、软银等公司成立一家叫「星际之门」(Stargate Project)的 AI 公司,未来 4 年要投资 5000 亿美元,掀起了新一轮 AI 军备竞赛。
另外就是以 DeepSeek R1 为代表的国产推理模型给硅谷 AI 圈带来的震撼,赶超 OpenAI 是所有 AI 公司的课题,但 DeepSeek 只用 2048 块GPU、近 600 万美元在 2 个月时间做到。
一些外媒将这波国产 AI 的发布视为中国 AI 逼近甚至赶上美国的标志也并不奇怪,而且这股浪潮还在继续。
今天,字节跳动旗下的豆包大模型 1.5 Pro 正式亮相,不仅全面升级了模型的核心能力,也融合并进一步提升了多模态能力,在多项公开评测基准中也是全球领先水平。
豆包团队还强调,模型训练过程中并未使用任何其他模型生成的数据。
Doubao-1.5-pro:多项基准测试综合得分优于 GPT-4o、Claude 3.5 Sonnet 等业界一流模型,创历史最佳成绩
Doubao-1.5-lite:用轻量级成本实现旗舰级性能,综合性能持平或超越 GPT-4omini,Cluade 3.5 Haiku。
Doubao-1.5-vision-pro:定位专业视觉理解模型,在保持强大性能的同时,回复更简洁友好,多模态能力超越了 GPT-4o-0806
Doubao-1.5-realtime-voice-pro:真正实现端到端语音对话,具备低时延、对话中可随时打断、自然的情绪表达等特性,即将开放 API 服务
字节团队告诉 APPSO,Doubao-1.5-pro 目前已经在豆包 APP 灰度上线,由于对话是先接意图识别,所以用户大概率没法确定在使用时是否分流到 1.5 Pro,不过开发者也可在火山引擎直接调用 API。
附上体验链接:https://www.volcengine.com/
漂亮的参数背后是否有真材实料?我们也第一时间在火山引擎体验了豆包大模型 1.5 系列。
先来看看 Doubao-1.5-pro-32k 模型。尽管「9.11 和 9.8 哪个大」以及「Strawberry 里有几个 r」已经是常规测试环节了,但我们还是要走一遍流程,而模型都顺利通过了考验。
接下来,我们向模型提出了一个较有挑战性的问题——寻找古代名人中姓名末字与「峰」字发音接近的例子。
前半部分答案称得上出色,起码「翁」精确识别了与「峰」字发音相近的韵母(eng、ong),但后半段的关联性则较为牵强。
继续上一道电车难题,这个涉及道德伦理的经典思考题,考验的不仅是模型的逻辑分析能力,更是其对复杂道德议题的理解深度。
而 Doubao-1.5-pro-32k 并没有简单给出答案,分析深入透彻,指出这类问题并无标准答案,不同的道德观念和个人价值观会导致不同的决策。
在完成上述测试后,我们将目光转向了更强大的 Doubao-1.5-pro-256k 模型。
这是一款基于 Doubao-1.5-Pro 全面升级版的模型,整体效果大幅提升 10%,支持 256k 上下文窗口的推理,输出长度支持最大 12k tokens。
为测试其解题能力,我们提出了一个古早的经典逻辑推理题,它的回答再次展现出了清晰的思维逻辑。
「据说有人给酒肆的老板娘出了一个难题:此人明明知道店里只有两个舀酒的勺子,分别能舀 7 两和 11 两酒,却硬要老板娘卖给他 2 两酒。聪明的老板娘毫不含糊,用这两个勺子在酒缸里舀酒,并倒来倒去,居然量出了 2 两酒,请问是怎么做到的?」
那文本功底如何呢?我们也让它创作一出剧本。题材是 2015 年 44 岁的埃隆·马斯克与前 Google CEO 拉里·佩奇关于「AI 是否最终会取代人类」的对话。
与 GPT-4o 的回答相比,Doubao-1.5-pro-256k 的剧本创作更加细腻生动,不仅有具体的景别设计、画面描述,还包含了细致的台词和时长安排。
如果你是一位经常需要编写剧本的创作者,那选谁作为你的剧本创作搭子应该不用多说了吧。
而这种出色的创作能力,仅仅是豆包实力的一个缩影。实际上,此次更新中,Doubao-1.5-pro 基础模型能力获得全面提升,这一点从其在各大公开评测基准上的表现就可见一斑。
Doubao-1.5-pro 采用稀疏 MoE 架构实现了多项技术突破:通过深入研究稀疏度 Scaling Law,将性能杠杆从业界普遍的 3 倍提升至 7 倍,用仅占稠密模型七分之一的参数量就超越了 Llama-3.1-405B 等大模型的性能。
在训练流程上,团队坚持完全自主的数据标注路线,通过算法驱动的数据优化系统和 Verifier 与 Reward Model 的深度融合,建立了统一的评价框架。
豆包选择了一条最艰难但最踏实的那条路,这也是这次技术突破值得夸赞的地方。
据悉,字节研究团队通过高效标注团队与模型自提升相结合的方式持续优化数据质量,严格遵循内部标准,不使用任何其他模型的数据,确保数据来源的独立性和可靠性。
并且,在 RL 阶段突破了价值函数训练难点,高难度任务性能提升超过 10 个百分点,并通过用户反馈闭环持续优化模型表现。这些创新使模型在保持高性能的同时大幅提升了效率。
Doubao-1.5-pro 在多模态能力上实现了全面升级,通过原生动态分辨率架构支持百万级分辨率和任意长宽比图像处理,实现了精准的特征提取。
豆包团队自研的支持动态分辨率的 Doubao ViT 在多种视觉分类任务中表现优异,仅凭 2.4B 规模便在综合评分上取得 SOTA 表现,效果超越 7 倍于自身规模的模型。
在数据训练方面,模型采用了多样化的合成管线,结合搜索引擎的图文数据、渲染引擎和传统 CV 模型等多种方式生成高质量预训练数据。
通过在 VLM 训练阶段混入纯文本数据并动态调整学习率,模型实现了视觉和语言能力的平衡。
在语音领域,团队创新性地提出了 Speech2Speech 端到端框架,突破了传统 ASR+LLM+TTS 的级联模式,将语音和文本模态进行深度融合,显著提升了对话效果。
Doubao-1.5-pro 在语音和推理能力上取得重大突破:模型创新性地将语音和文本 Token 直接融合,摒弃了传统的语音文本对齐方法,为语音多模态数据的 Scaling 奠定基础。
在推理领域,通过大规模 RL 方法和 Test Time Scaling 的算力优化,团队研发出 Doubao 深度思考模式。
最新的 Doubao-1.5-pro-AS1-Preview 版本在 AIME 基准测试中已超越 o1-preview、o1 等主流推理模型,通过持续的 RL 优化,模型的推理能力在多个领域展现出强大的泛化性。
从这一系列突破性进展来看,豆包无疑交出了一份令人满意的答卷。更何况,在当前「模型喂模型」盛行的环境下,坚持原创的定力和勇气本身就值得赞赏。
通过始终如一的自主研发、原创数据和持续优化,豆包用实际成果证明了「慢工出细活」的价值。或许我们都应该牢记,AI 赛道最大的弯道超车,应该是坚持不走捷径。