在马斯克和奥特曼比谁喊的响的时候,DeepSeek低调发论文,梁文锋亲自参与

DeepSeek发布原生稀疏注意力(NSA)机制,在大语言模型处理64k长文本的速度上最高提升11.6倍,并实现性能反超传统全注意力模型。NSA结合算法创新和硬件优化解决了计算瓶颈,有望显著提升未来基座模型的能力。

小模型路线图来了!苹果弄清楚了“蒸馏Scaling Law”

苹果研究人员发现,多次‘蒸馏’更具优势。当教师模型性能比大小更重要时,选择与学生模型相近大小的教师模型可优化学习效果。这一研究成果有望为业界提供更高效、低成本的小模型训练方案。

百度Q4营收同比微降,智能云营收大增26%,预计2025年AI投资带来更显著回报 | 财报见闻

百度Q4财报显示,总营收1331亿元,同比增长-1%,归属百度核心的净利润234亿元,同比增长21%。智能云营收增长26%。李彦宏表示AI转型成效初现,自动驾驶出行服务进展良好。大摩称担忧百度搜索业务面临干扰和变现风险。