被Transformer光芒掩盖的论文,Meta科学家回顾十年前创新之作

这篇论文是2015年发布的《End-to-End Memory Networks》,它包含了当前大型语言模型的许多要素,如完全用注意力机制替代RNN、引入带键值投影的点积软注意力机制和堆叠多层注意力等。尽管其影响力不及后来的《Attention is all you need》

DeepSeek再开源!大模型直觉+强化学习新方法:AI 数学证明迎来新突破

今日 AI 模型 DeepSeek-Prover-V2 开源,专为 Lean 4 形式化证明开发。该模型在 MiniF2F-test 测试集上达到88.9%通过率,并成功解决PutnamBench中的49个问题。DeepSeek-Prover-V2-671B结合大语言模型直觉和强化学习,提出两步法:首先合成数据,再用强化学习提升模型能力。