接棒DeepSeek!阿里千问宣布开源百万Token上下文模型:主打闪电般的推理「附送详细技术报告」

 

继DeepSeek R1后阿里通义千问团队刚刚宣布推出其最新的开源模型 Qwen2.5-1M!

此次发布的 Qwen2.5-1M 系列包含了两个开源模型:

Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M

这也是通义千问首次推出能够原生支持百万Token上下文长度的模型

  • • 处理超长文档: 轻松应对书籍、长篇报告、法律文件等,无需进行繁琐的文档分割。

  • • 进行深度对话: 支持更长时间、更深入的对话,模型能够记住更长的对话历史,实现更连贯、更自然的交互体验。

  • • 理解复杂任务: 更好地理解需要长程依赖的任务,例如代码理解、复杂推理、多
    轮对话等。

快如闪电的推理速度

除了令人震撼的百万Token上下文长度,Qwen2.5-1M 还带来了另一项重大突破:闪电般快速的推理框架! 通义千问团队完全开源了基于 vLLM 的推理框架,并集成了稀疏注意力机制。这一创新性的框架使得 Qwen2.5-1M 在处理百万Token输入时,速度提升了 3 倍到 7 倍!这意味着用户可以更加高效地使用超长上下文模型,极大地提升了实际应用场景的效率和体验

附送详细的技术报告

为了让用户更深入地了解 Qwen2.5-1M 系列背后的技术细节,通义千问团队还发布了详细的技术报告。报告中全面解析了模型的设计理念、训练方法、性能表现以及推理框架的技术细节,为研究人员和开发者提供了宝贵的参考资料

技术报告:

https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/Qwen2_5_1M_Technical_Report.pdf

体验

1.通义千问 Chat 平台 :

https://chat.qwenlm.ai

直接体验支持百万Token的 Qwen2.5-Turbo 模型,感受超长上下文带来的流畅对话体验

2.Hugging Face

https://huggingface.co/collections/Qwen/qwen25-1m-679325716327ec07860530ba

在 Hugging Face 上获取 Qwen2.5-1M 模型,方便开发者进行二次开发和集成

3.Modelscope:

https://modelscope.cn/collections/Qwen25-1M-d6cf9fd33f0a40

在 Modelscope 平台上获取模型,享受阿里云提供的模型服务和生态支持

参考:

https://qwenlm.github.io/blog/qwen2.5-1m/

 

(文:AI寒武纪)

欢迎分享

发表评论