Qwen开源首个长文本新模型,百万Tokens处理性能超GPT-4o-mini 下午4时 2025/01/27 作者 量子位 阿里云Qwen模型首次将上下文扩展至1M长度,实现了长文本任务的稳定超越GPT-4o-mini,并提升了推理速度7倍。该模型分为长上下文训练、长度外推和稀疏注意力机制三大步骤。