重磅论文!何恺明、Yann LeCun等改造Transformer,CVPR 2025已收录
Transformer模型可能迎来新变化。一篇最新论文提出无需归一化的Transformer模型能够达到甚至超过带有归一化层的性能,通过动态双曲正切函数(DyT)替代传统归一化层,有望进一步改进AI模型性能。
Transformer模型可能迎来新变化。一篇最新论文提出无需归一化的Transformer模型能够达到甚至超过带有归一化层的性能,通过动态双曲正切函数(DyT)替代传统归一化层,有望进一步改进AI模型性能。