上下文扩展归档

Qwen开源首个长文本新模型，百万Tokens处理性能超GPT-4o-mini

2025年1月27日16时作者量子位

阿里云Qwen模型首次将上下文扩展至1M长度，实现了长文本任务的稳定超越GPT-4o-mini，并提升了推理速度7倍。该模型分为长上下文训练、长度外推和稀疏注意力机制三大步骤。

2025年1月21日16时作者 APPSO

赶在放假前，支棱起来的国产 AI 大模型厂商井喷式发布了一大堆春节礼物。
前脚 DeepSeek-R