长上下文任务归档

多模态长文本理解测评首发：46款模型无一攻克128K难关

下午4时 2025/05/23 作者量子位

标准了！
来自香港科技大学、腾讯西雅图AI Lab、爱丁堡大学、Miniml.AI、英伟达的研究者联

下午4时 2025/03/13 作者 PaperWeekly

上下文建模
研究简介
当前大语言模型（LLMs）在处理长上下文任务时面临核心挑战：如何在超长输入中有

下午11时 2025/02/18 作者机器之心

点赞、转发、评论三连。
据介绍，DeepSeek 的这篇新论文提出了一种新的注意力机制 ——NSA。