重磅论文!何恺明、Yann LeCun等改造Transformer,CVPR 2025已收录

Transformer模型可能迎来新变化。一篇最新论文提出无需归一化的Transformer模型能够达到甚至超过带有归一化层的性能,通过动态双曲正切函数(DyT)替代传统归一化层,有望进一步改进AI模型性能。

精度效率双冠王!时序预测新范式TimeDistill:跨架构知识蒸馏,全面超越SOTA

新智元报道
编辑:LRST
近期,来自美国埃默里大学、澳大利亚格里菲斯大学等多地的华人科研团队提出了一种跨架构知识蒸馏框架TimeDistill,将MLP作为学生模型,其他复杂先进架构(如Transformer和CNN)作为教师模型,通过蒸馏复杂模型的优势至轻量级模型,实现计算负担大幅降低的同时显著提升预测精度。

谷歌提出Titans:突破算力限制,扩展上下文

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言等大语言模型发展和应用落地。谷歌发布新研究Titans,通过神经长期记忆模块扩展大模型上下文窗口至200万token,超越现有Transformer模型。