北大团队提出LongRePS框架:面向长上下文场景的思维链过程监督方案 下午4时 2025/03/13 作者 PaperWeekly 上下文建模 研究简介 当前大语言模型(LLMs)在处理长上下文任务时面临核心挑战:如何在超长输入中有
刚刚!DeepSeek梁文锋亲自挂名,公开新注意力架构NSA 下午11时 2025/02/18 作者 机器之心 点赞、转发、评论三连。 据介绍,DeepSeek 的这篇新论文提出了一种新的注意力机制 ——NSA。