ICLR 2025 Oral|差分注意力机制引领变革,DIFF Transformer攻克长序列建模难题 下午11时 2025/04/28 作者 机器之心 建模能力为语言理解与生成带来了前所未有的突破。 然而,随着模型规模的不断扩大和应用场景的日益复杂,传