1M长度归档 - 每时AI

Kimi新论文再次“撞车”DeepSeek，都谈到了长文注意力机制

2025年2月19日16时作者量子位

Kimi研究团队提出的MoBA注意力机制显著提升了处理1M和10M长文本的速度，相比传统方法快了6.5倍和16倍。MoBA通过将上下文划分为块，并采用参数无关的top-k门控机制选择最相关的块来高效处理长序列数据。

2025年1月27日16时作者量子位

阿里云Qwen模型首次将上下文扩展至1M长度，实现了长文本任务的稳定超越GPT-4o-mini，并提升了推理速度7倍。该模型分为长上下文训练、长度外推和稀疏注意力机制三大步骤。