大模型的摩尔定律来了!清华研究:模型密度每3个月翻一倍

大语言模型正在变得越来越「高效」!

清华大学和ModelBest Inc最新研究发现:大模型的「密度」每3个月就翻一倍,这意味着它们正在以惊人的速度变得更聪明、更节能

这个发现被称为「Densing Law」(密度定律)。

它揭示了一个重要趋势:未来的AI发展不是比拼谁更大,而是比拼谁更「精」

密度:衡量模型智商的新标准

研究团队提出了一个新概念:「容量密度」。

简单来说,就是看模型的实际表现和它的体积到底配不配。

就像人类社会里,有的人「块头」不大但能力惊人,有的人「块头」很大但效率一般。容量密度高的模型,就是那种「块头」适中但能力出众的选手

来看看这张图:

从图中可以看到,各种开源模型的密度在不断提升。而且这个提升速度惊人:每3.3个月就翻一倍

ChatGPT:密度提升的催化剂

更有趣的是,研究发现ChatGPT的发布直接把模型密度的增长速度提高了50%

上图清晰地展示了在ChatGPT发布前后,模型密度增长趋势的显著变化。

这说明一个真正优秀的产品不仅改变了市场,还推动了整个技术领域的进步

高密度模型有什么用?

Ksenia Se(@Kseniase_)总结了高密度模型的几大优势:

  • 降低计算成本:用更少的资源达到更好的效果

  • 适配普通设备:让智能手机也能跑大模型

  • 节约能源:避免不必要的能源消耗

研究还发现了一些有趣的现象:

  • 传统优化方法不一定有效:常用的剪枝和蒸馏技术并不总能提高模型的效率

  • 硬件利用率提升:同样的硬件能处理的工作量在不断增加,增速甚至超过了密度增长和芯片性能提升的速度

研究论文详细阐述了如何计算模型的容量密度。

简单说,就是通过两步走

  • 先估算损失:将模型大小和训练数据与准确率联系起来

  • 再评估性能:用S形函数预测模型基于损失的表现

这项研究给我们的启示很简单:与其一味追求更大的模型,不如想办法让现有的模型变得更高效

论文链接: https://arxiv.org/abs/2412.04315

(文:AGI Hunt)

欢迎分享

发表评论