何恺明LeCun联手改造Transformer!9行代码替代归一化层,性能不减还加速 下午4时 2025/03/14 作者 量子位 何恺明和LeCun团队提出替代Transformer归一化层的DyT方法,其性能达到或超过标准Transformer。通过几行PyTorch代码实现,适用于多种任务和模型架构。