Anima Anandkumar归档

DeepSeek-R1：通过强化学习提高大语言模型的推理能力

上午8时 2025/02/07 作者 NLP工程化

论文介绍了DeepSeek-R1-Zero和DeepSeek-R1两种推理模型，前者通过大规模强化学习训练，在没有监督微调下展现卓越推理能力，后者结合多阶段训练和冷启动数据优化其性能。

下午4时 2025/01/16 作者新智元

新智元报道
编辑：KingHZ
【新智元导读】
AI「幻觉」可能在一般人看来是模型的胡言乱语，但它为