一作解读!从idea视角,聊聊Qwen推出的新Scaling Law——Parallel Scaling

MLNLP社区介绍了一个名为ParScale的新方法来扩展大语言模型的计算量,该方法可以在保持参数不变的情况下显著提升推理效率,并且适用于各种场景。通过将输入变换形式和输出聚合规则变为可学习的并增大并行计算数量,该技术展示了在推理和预训练阶段的有效性。

英伟达含量为零!华为密集模型性能比肩DeepSeek-R1,纯昇腾集群训练

华为训练出的盘古Ultra模型参数量为135B,在数学、编程等推理任务中与DeepSeek-R1相当。该模型在预训练和指令调优阶段采用了Sandwich-Norm层归一化、TinyInit初始化策略及多并行优化技术,实现了52%以上的算力利用率,并在多个数据集上取得优异表现。

大,就聪明吗?论模型的“尺寸虚胖”

文章介绍了Gemma-3和DeepSeek V3在参数量上的对比,并指出模型效果不仅仅取决于参数大小。通过详细解释Dense和MoE架构的区别及其实际应用效果,强调了参数数量并不能直接反映模型性能优劣的观点。同时讨论了知识蒸馏技术如何让小模型继承大模型的能力,而不仅仅是关注模型的规模大小。