重磅!meta 推出BLT架构,Token,不存在了!

这次,Meta 不玩表面功夫了!

他们直接从底层动手,用BLT(Byte Latent Transformer)新架构,干掉了传统的分词器,让模型直接处理原始字节数据!

这个BLT可不是三明治,而是一个全新的字节级LLM架构

它不仅能在规模上匹配基于分词的LLM性能,还在推理效率和鲁棒性上实现了显著提升!

BLT:一个不一样的三明治架构

BLT的架构像一个三明治:

  • 底层是轻量级局部编码器,处理原始字节

  • 中间是强大的潜在Transformer,处理动态补丁

  • 顶层是轻量级局部解码器

最妙的是它用了一个「熵补丁」技术,能根据数据复杂度动态调整补丁大小。简单的预测用大补丁,复杂的预测用小补丁,这样就能把计算资源用在刀刃上!

玩转规模效应

实验结果显示,BLT在规模扩展上有惊人表现:

  • 支持同时增加补丁和模型大小,而不增加训练或推理成本

  • 在400B到1T字节的训练数据上,快速超越了BPE分词方式的Llama 2和3

  • 在8B参数和4T训练字节的规模下,完全匹配了Llama 3的性能

效率惊人

BLT不仅性能强,效率更是惊人:

  • 可以用相同的推理成本换取更大的模型规模

  • 在保持训练效率的同时,可节省高达50%的推理计算量

  • 特别擅长处理数据的长尾分布,对噪声更鲁棒

意想不到的优势

最让人惊喜的是,BLT在一些特殊任务上表现出众:

即便是训练了16倍数据量的Llama 3.1,在某些任务上也追不上BLT的表现!

该架构已经开源,代码可在GitHub上获取:

https://github.com/facebookresearch/blt

论文见:

https://dl.fbaipublicfiles.com/blt/BLT__Patches_Scale_Better_Than_Tokens.pdf

(文:AGI Hunt)

欢迎分享

发表评论