日期: 2025 年 2 月 19 日
Kimi新论文再次“撞车”DeepSeek,都谈到了长文注意力机制
Kimi研究团队提出的MoBA注意力机制显著提升了处理1M和10M长文本的速度,相比传统方法快了6.5倍和16倍。MoBA通过将上下文划分为块,并采用参数无关的top-k门控机制选择最相关的块来高效处理长序列数据。
DeepSeek新注意力机制引热议!梁文锋亲自提交预印本,目标明确降低计算成本
DeepSeek提出NSA稀疏注意力机制,显著降低大模型训练成本。实验表明,在64k上下文时,NSA前向传播速度最高提升9倍,反向传播速度提升6倍,解码速度提升11.6倍。论文已在arXiv上发布,梁文锋等DeepSeek原班人马参与。
OpenAI掀「百万美金」编程大战!Claude 3.5 Sonnet狂赚40万拿下第一
OpenAI发布SWE-Lancer基准测试,评估AI模型在现实任务中的编码能力。Anthropic的Claude 3.5 Sonnet表现最佳,挣得403,325美元报酬,远超GPT-4o和o1模型。
今年“诺奖风向标”来了一位华南农大校友
2025年斯隆研究奖揭晓,126位学者获奖。其中,3位北大数院校友、4位清华校友及多所高校的优秀学者获得认可。华人占比近四分之一。姚班继续保持蝉联计算机领域的荣誉。
10亿AI算力大单!曙光中标
智东西报道:山东省济南市历城区人工智能融合算力中心工程总承包项目中标,由中科曙光国际信息产业有限公司胜出,总中标价格10.6588亿元,提供双精度峰值算力不低于50PFlops@FP64,半精度峰值算力不低于500PFlops@FP16。