无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention 2025年6月28日16时 作者 机器之心 ASIC 等多种硬件平台上实现大模型的高效部署与加速。第二作者为香港中文大学的韩晨夏,研究方向聚焦
刚刚!DeepSeek梁文锋亲自挂名,公开新注意力架构NSA 2025年2月18日23时 作者 机器之心 点赞、转发、评论三连。 据介绍,DeepSeek 的这篇新论文提出了一种新的注意力机制 ——NSA。
阿里Qwen2.5-1M开源,仅320G可推理14B百万token 2025年1月27日14时 作者 PaperAgent 阿里千问开源了Qwen 2.5-1M模型及其对应的推理框架,支持百万Token上下文处理,并分享了训练和推理框架的设计细节及消融实验结果。