Transformer模型归档

ICML 2025 长文本救星！清华等提出傅里叶位置编码，多项任务全面超越RoPE

下午4时 2025/05/20 作者 PaperWeekly

清华大学团队研究发现，RoPE 带来的周期性延拓受到频谱损坏影响限制了 LM 的长度外推能力。他们提出傅里叶位置编码（FoPE）来提升 Transformer 的长文本泛化能力。

下午11时 2025/05/15 作者机器之心

个由 LLMs 驱动的革命性进化编码智能体。
它不仅仅是一个代码生成工具，更是一个能够演化
整个代码

下午11时 2025/05/15 作者机器之心

eek 已经发布了 V3 模型的
技术报告
，但刚刚，他们又悄然发布了另一篇围绕 DeepSeek-

上午8时 2025/04/24 作者 NLP工程化

斯坦福发布新Transformer课程，邀请多位AI领域专家授课，内容涵盖基础知识、前沿技术等，现已开放免费在线观看。

上午8时 2025/04/15 作者 NLP工程化

Chonky 是一个基于神经网络的文本分块工具，使用Transformer模型精准分割长文本，支持RAG系统拓展应用范围，简单易用。

上午8时 2025/03/16 作者 AI寒武纪

Meta AI华人团队联合大牛发布论文，证明Transformer模型可以不用Normalization层也能达到甚至超越现有性能。核心秘密是Dynamic Tanh (DyT)函数，相比传统方法，DyT简单有效，性能不输且速度快、成本低。

下午2时 2025/03/09 作者小兵的AI视界

所未有的机遇。
BioMedGPT-R1
，由清华大学
AI
产业研究院（
AIR
）与北京水木分子

下午4时 2025/03/08 作者 AI前线

智能稳步发展过程中最新的一记强音。对于 ML 研发社区来说，这是一个颇为重要的版本，原因包括：
它是

上午8时 2025/02/21 作者 NLP工程化

Transformer教学项目：fun-transformer课程涵盖编码器和解码器实现，并在无深度学习框架环境下使用基础库实践，最后应用于机器翻译任务。