大模型推理更可能是概率模式匹配?北大团队从蒙特卡洛语言树的新视角解读GPT,思维链原理也有新的理解
北大课题组通过将语言数据集和GPT模型展开为蒙特卡洛语言树(Data-Tree 和 GPT-Tree),揭示了现有大模型拟合训练数据的本质是寻求一种更有效的近似方法。同时,作者提出大模型中的推理过程可能是概率模式匹配而非形式推理。
北大课题组通过将语言数据集和GPT模型展开为蒙特卡洛语言树(Data-Tree 和 GPT-Tree),揭示了现有大模型拟合训练数据的本质是寻求一种更有效的近似方法。同时,作者提出大模型中的推理过程可能是概率模式匹配而非形式推理。
首个FP4精度的大模型训练框架发布,可使所需存储和计算资源更少。与BF16相当的训练效果下,最高可达130亿参数规模的模型。研究团队采用定制化的FP4矩阵乘法、不同粒度量化策略以及新的梯度估计方法。
中国公司DeepSeek发布开源推理模型R1和图像生成模型Janus Pro,引发全球关注。这标志着中美在AI领域的竞争以及封闭与开源模式之间的较量正发生转变。
DeepSeek爆火引发多国关注与调查,OpenAI与Anthropic联合调查其使用API接口行为,Amodei呼吁加强芯片管制,意大利下架应用。