BLT 在许多基准测试中超越了基于 token 的架构。
-
提出了 BLT,这是一种字节潜在 LLM 架构,动态分配计算资源以提高 flop 效率; -
展示了在 8B(即 80 亿)参数规模下,能够实现与 Llama 3 模型相当的训练 flop 控制,同时可以通过牺牲一小部分评估指标来换取高达 50% 的 flop 效率提升; -
BLT 模型为扩展大型语言模型开启了一个新的维度,现在可以在保持固定推理预算的同时扩展模型大小。
-
论文标题:Byte Latent Transformer: Patches Scale Better Than Tokens -
论文地址:https://arxiv.org/pdf/2412.09871 -
项目地址:https://github.com/facebookresearch/blt
-
比较计算最优训练方案的趋势; -
在大量训练上训练匹配的 8B 模型数据并评估下游任务; -
测量推理成本控制设置中的扩展趋势。
(文:机器之心)