何恺明LeCun暴击Transformer命门,9行代码砍掉归一化层!性能反而更强了? 下午11时 2025/03/14 作者 新智元 恺明LeCun、清华姚班刘壮联手,用9行代码砍掉了Transformer「标配」归一化层,创造了性能
何恺明LeCun联手改造Transformer!9行代码替代归一化层,性能不减还加速 下午4时 2025/03/14 作者 量子位 何恺明和LeCun团队提出替代Transformer归一化层的DyT方法,其性能达到或超过标准Transformer。通过几行PyTorch代码实现,适用于多种任务和模型架构。