刚刚!DeepSeek梁文锋亲自挂名,公开新注意力架构NSA 2025年2月18日23时 作者 机器之心 点赞、转发、评论三连。 据介绍,DeepSeek 的这篇新论文提出了一种新的注意力机制 ——NSA。
阿里Qwen2.5-1M开源,仅320G可推理14B百万token 2025年1月27日14时 作者 PaperAgent 阿里千问开源了Qwen 2.5-1M模型及其对应的推理框架,支持百万Token上下文处理,并分享了训练和推理框架的设计细节及消融实验结果。