刚刚!DeepSeek梁文锋亲自挂名,公开新注意力架构NSA 下午11时 2025/02/18 作者 机器之心 点赞、转发、评论三连。 据介绍,DeepSeek 的这篇新论文提出了一种新的注意力机制 ——NSA。
阿里Qwen2.5-1M开源,仅320G可推理14B百万token 下午2时 2025/01/27 作者 PaperAgent 阿里千问开源了Qwen 2.5-1M模型及其对应的推理框架,支持百万Token上下文处理,并分享了训练和推理框架的设计细节及消融实验结果。