实践教程|Transformer Decoder-Only 模型批量生成 Trick 下午11时 2024/12/04 作者 极市干货 本文介绍了如何通过调整输入向量的位置和掩码,使得Transformer模型在批量生成时能够更好地模拟训练过程中的情况,从而解决生成与训练阶段的不匹配问题。