大语言模型正在变得越来越「高效」!
清华大学和ModelBest Inc最新研究发现:大模型的「密度」每3个月就翻一倍,这意味着它们正在以惊人的速度变得更聪明、更节能。
这个发现被称为「Densing Law」(密度定律)。
它揭示了一个重要趋势:未来的AI发展不是比拼谁更大,而是比拼谁更「精」。
密度:衡量模型智商的新标准
研究团队提出了一个新概念:「容量密度」。
简单来说,就是看模型的实际表现和它的体积到底配不配。
就像人类社会里,有的人「块头」不大但能力惊人,有的人「块头」很大但效率一般。容量密度高的模型,就是那种「块头」适中但能力出众的选手。
来看看这张图:
从图中可以看到,各种开源模型的密度在不断提升。而且这个提升速度惊人:每3.3个月就翻一倍!
ChatGPT:密度提升的催化剂
更有趣的是,研究发现ChatGPT的发布直接把模型密度的增长速度提高了50%!
上图清晰地展示了在ChatGPT发布前后,模型密度增长趋势的显著变化。
这说明一个真正优秀的产品不仅改变了市场,还推动了整个技术领域的进步。
高密度模型有什么用?
Ksenia Se(@Kseniase_)总结了高密度模型的几大优势:
-
降低计算成本:用更少的资源达到更好的效果
-
适配普通设备:让智能手机也能跑大模型
-
节约能源:避免不必要的能源消耗
研究还发现了一些有趣的现象:
-
传统优化方法不一定有效:常用的剪枝和蒸馏技术并不总能提高模型的效率
-
硬件利用率提升:同样的硬件能处理的工作量在不断增加,增速甚至超过了密度增长和芯片性能提升的速度
研究论文详细阐述了如何计算模型的容量密度。
简单说,就是通过两步走:
-
先估算损失:将模型大小和训练数据与准确率联系起来
-
再评估性能:用S形函数预测模型基于损失的表现
这项研究给我们的启示很简单:与其一味追求更大的模型,不如想办法让现有的模型变得更高效。
论文链接: https://arxiv.org/abs/2412.04315
(文:AGI Hunt)