继VAE之后,Adam也拿到了ICLR 时间检验奖,OpenAI联创两次获奖

ICLR 2025 宣布 Adam 算法和 Neural Machine Translation by Jointly Learning to Align and Translate 分获时间检验奖一、二名。Adam 是深度学习领域应用最广泛的优化算法之一,而 Transformer 论文则较早引入注意力机制。

刚刚,ICLR 2025时间检验奖颁给Adam之父!Bengio「注意力机制」摘亚军

ICLR 2025时间检验奖揭晓,Adam优化器和注意力机制分别由Jimmy Ba、Yoshua Bengio领衔的两篇2015年论文摘得冠军与亚军。Adam让大模型训练更快更稳;注意力机制为Transformer奠定基础并广泛应用于各类AI模型。

DeepSeek创始人梁文锋亲自署名的论文长啥样?

最近,DeepSeek团队发表的论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》引起广泛关注。该文由DeepSeek创始人梁文锋亲自署名。NSA(Natively Sparse Attention)通过动态分层稀疏策略、粗粒度token压缩和细粒度token选择,显著提升了长文本处理速度,并在多个任务中超越了传统注意力模型。