鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI
春节前这一波大模型疯狂加更,字节也出手了,最新登场的是豆包全新基础模型——
Doubao-1.5-pro。
豆包“演技精湛”的真人级语音对话功能刚刷屏,仅隔一天,背后基础模型字节也给抖落出来了。
先欣赏一波此豆包的演出:
基础模型登场,背后团队不仅放出细节满满的技术博客,还亲自给划了重点:
-
MoE架构,仅用较小激活参数,就能达到世界一流模型性能,性能杠杆达到7倍
-
数据生产体系高度自主,不使用任何其他模型数据
-
多模态能力全面提升
更妙的是,Doubao-1.5-pro官宣即上线,火山方舟体验网址同步开放,同时也在豆包APP灰度上线。
这还等什么,当然是第一时间上手实测啦。
就着技术博客,我们也来扒一扒背后更多技术细节,一起往下看~
实测豆包1.5系列
Talk is cheap,show me the product。
官方提到,Doubao-1.5-pro模型综合能力有显著增强,在知识、代码、推理、中文等多个权威测评基准上都达到SOTA。
那么首先,来看现在大模型圈最卷的推理能力。
推理能力实测
先简单来道逻辑判断题,看看Doubao-1.5-pro能不能接住。
某校食堂发生了一起严重的食物中毒事故,关于事故的原因,有如下四种说法:
甲:事故是由食物过期引起的
乙:如果事故是由食物过期引起的,那么食堂管理方面一定存在着监管不到位的现象
丙:事故确实是由食物过期引起,但食堂管理方面并不存在监管不到位的现象
丁:事故不是由食物过期引起的,但食堂管理方面存在监管不到位的现象如果上述四种说法中只有一种是真的,由此可以推出
A. 乙为真,且食堂存在监管不到位的现象
B. 乙为真,但食堂没有存在监管不到位的现象
C. 甲为真
D. 丙为真
Doubao-1.5-pro的回答是酱婶的:
思路梳理得非常清晰,答案也是准确的。
加大一点难度,给豆包上点计算量,结果又会如何?
一个外星人来到地球后,第一天有相等的可能选择以下四件事中的一件完成:
1、自我毁灭;
2、分裂成两个外星人;
3、分裂成三个外星人;
4、什么都不做。
此后每天,每个外星人均会做一次选择,且彼此之间相互独立,求地球上最终没有外星人的概率
来看Doubao-1.5-pro的应对:
相同的提示词下,Claude 3.5 Sonnet一通输出,却在最后给答案的时候翻车了:
这一题,Doubao-1.5-pro也顺利过关。
值得一提的是,豆包大模型团队提到,Doubao-1.5-pro还经过了视觉、语音等多模态能力的“特训”。那么最后,我们再加试一道图片推理题:
看来跟豆包用表情包聊天,是不成问题了(doge)。
代码能力实测
测完推理能力,再来看看程序员们最关心的代码能力。
第一题,来个当时被o1-pro直接拒绝回答的离谱需求:
只用HTML代码复刻经典游戏《毁灭战士》。
Doubao-1.5-pro也表示:这不合理。
尽管如此,Doubao-1.5-pro还是试图满足我们“五彩斑斓的黑”的需求,主动提出解决方案:
可以使用HTML结合CSS和JavaScript来创建一个简化的、具有《毁灭战士》风格元素的小游戏示例。
运行这些代码,就能得到一个简单的射击小游戏界面,尽管认真要跑起来还需要微调细节,但大体框架并没有什么问题。
端到端语音功能
语音多模态方面,在Doubao-1.5-pro的加持下,豆包APP已经全量上线了新版实时语音对话功能。
于是,我们让豆包学华妃娘娘的语气,送了一波新春祝福:
这模仿能力和理解能力,你给打几分?
未使用任何其他模型蒸馏数据
一波实测下来,豆包大模型1.5 Pro不愧是压轴出场的角色,综合能力没有让大家伙儿失望。
而多个公开评测基准上的亮眼成绩,也从更客观的角度体现了Doubao-1.5-pro现在的身位。
可以看到,Doubao-1.5-pro已经达到业界领先水平,在中文能力上,更是超过了GPT-4o和Claude 3.5 Sonnet等国外大模型。
另外,在视觉和语音等多模态能力上,Doubao-1.5-pro同样取得了亮眼的成绩。
比如在视觉推理任务中,Doubao-1.5-pro的表现不逊色于GPT-4o:
值得关注的是,这一次模型上新,豆包大模型团队也在官方博客中释出了更多技术细节。
接下来,咱们就来划拉划拉重点。
性能杠杆提升至7倍
从Tokens使用量来看,截至12月中旬,豆包大模型的日均Tokens使用量已经超过4万亿,印证了Doubao API和豆包产品的海量推理需求。
为此,豆包团队从预训练阶段就坚持训练-推理一体设计,以平衡模型性能和推理成本。
具体而言,Doubao-1.5-pro采用稀疏MoE架构,团队通过对稀疏度Scaling Law的研究,确定了性能和效率比较平衡的稀疏比例,并根据MoE Scaling Law确定小参数量激活的模型就能达到世界一流模型的性能。
在预训练阶段,仅用较小参数激活的MoE模型,性能即可超过Llama3.1-405B等超大稠密预训练模型。
同时,在完全相同的部分训练数据(9T tokens)对比验证下,激活参数仅为1/7稠密模型参数量的MoE模型,表现超过了稠密模型,性能杠杆提升可达7倍。
此前,业界在这一新能杠杆上的普遍水平为不到3倍。比如IBM的Grantie系列模型中,800M激活的MoE模型性能可以接近2B总参数的稠密模型,性能比值约为2.5倍。
高效后训练流程
在近来大模型们集中精力卷的PostTraining上,豆包大模型团队构建了一套高度自主的数据生产体系。
其中最值得关注的一点是:不使用任何其他模型的蒸馏数据,确保数据来源的独立性和可靠性。
SFT阶段,团队开发了一套算法驱动的训练数据优化系统,涵盖训练数据多样性优化,以及精确人题匹配功能,并结合模型自演进(Self-evolve)技术,提升数据标注的多样性和难度,形成了模型性能提升的良性循环。
奖励模型(Reward Model)部分,团队建立了包含prompt分布优化、response筛选、多轮迭代和active learning的完整数据生产pipeline。
在此基础之上,为了实现模型在数学、编程、知识、对话等多维度能力的均衡提升,团队通过深度融合Verlfier和奖励模型,构建了统一的Reward框架。
此外,基于梯度筛选和迭代过滤技术,豆包大模型团队用25%的数据,能够达到近似全量的训练效果。
强化学习(RL)阶段,团队攻克了价值函数训练难点,实现了token-wise稳定建模,在高难度任务上的性能提升超过10个绝对点。并通过对比学习方法,有效提升了模型表现,显著缓解了reward hacking问题。在数据、算法、模型层面全面实现了 Scaling 。
字节最擅长的AB Test经验也被引入了豆包大模型的Post-Training全流程。基于豆包的大规模用户反馈,研发团队构建了从问题发现、数据挖掘、人机结合标注到快速迭代的闭环优化系统,以让用户数据飞轮能持续作用于模型实际使用体验的提升。
One More Thing
另外,豆包官方还低调透露了一嘴“深度思考模式”的消息。
研发团队在完全不使用其他模型数据的条件下,通过RL算法突破和工程优化,充分发挥test time scaling的算力优势,已经实现了豆包深度思考模型。
团队表示,随着RL的持续,模型能力还在不断提升中:
在这一过程中,我们也看到了推理能力在不同领域的泛化,智能的边界正在被慢慢拓宽。
如此说来,下一个版本的豆包更新,可以期待起来了。
豆包的远谋
总结一下豆包1.5背后的技术思路,有两个关键词浮出水面:高效,以及“不走捷径”。
采用顶级模型蒸馏数据,在业内已经是心照不宣的法门,连C端用户,也对A模型口吐“我是B模型”之语见怪不怪。
OpenAI CEO奥特曼自己也曾暗示,复刻o1并没有实现o1本身那么难:
一方面,是在技术创新角度上,从0到1远比从1到100困难得多。
另一方面,大量的学术论文和产业实践已经验证,蒸馏顶级模型数据对于训练基础模型而言,可以说是一条“捷径”。
当然,这条捷径上也并非没有坑。
首先是数据安全问题。
蒸馏其他模型的数据,对于模型开发者而言,天然存在不可控的风险。教师模型的偏见、错误以及版权问题等,都可能会被传递给学生模型。
另外,这一技术方案也可能限制模型的性能上限。
近期就有一线大模型创业者表达了类似观点:如果一定要把模型去对齐一个别的模型,比如GPT的结果,会有一些能力受限。
如此看来,此番豆包公开强调“不使用任何其他模型数据”,背后透露出的是国内第一梯队大模型产品更长远的布局思路:
不走捷径,确保数据来源的独立性、可靠性、可控性。在追求更高智能的长期突破的过程中,把主动权更多地把握在自己手中。
现在,这种自主技术、长期主义的思路,也正在市场上得到正反馈:
火山引擎Tokens日均消耗量的月均复合增长率超过60%,2024年12月日均Tokens市场份额占比已超50%,坐上大模型商用年度头把交椅。
体验地址:
https://www.volcengine.com/
— 完 —
一键关注 👇 点亮星标
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
(文:量子位)