一作解读!从idea视角,聊聊Qwen推出的新Scaling Law——Parallel Scaling

MLNLP社区介绍了一个名为ParScale的新方法来扩展大语言模型的计算量,该方法可以在保持参数不变的情况下显著提升推理效率,并且适用于各种场景。通过将输入变换形式和输出聚合规则变为可学习的并增大并行计算数量,该技术展示了在推理和预训练阶段的有效性。

Token化一切!北大、谷歌等提出TokenFormer,Transformer从未这么灵活过

TokenFormer 是一种新的网络结构,通过在注意力机制中引入参数化键值对,实现了模型的灵活扩展和性能提升。它展示了在语言建模和视觉建模上的卓越能力,并提出了专家混合、参数高效微调、端云协同和增强可解释性等未来研究方向。