分布外任务归档 - 每时AI

英伟达笑到最后！训练2000步，1.5B逆袭7B巨兽，Scaling真来了

2025年6月22日16时作者新智元

L用超2000步训练配方给出了响亮的答案。仅15亿参数模型，媲美Deepseek-R1-7B，数学、

NeurIPS Spotlight 基于信息论，决策模型有了全新预训练范式统一框架

2024年12月17日22时作者机器之心

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000