ICLR 2025杰出论文揭晓:中科大LLM编辑、DeepMind安全对齐、LLM微调学习动态

ICLR 2025杰岀论文奖揭晓!3篇杰出论文涵盖安全对齐、语言模型学习动态和编辑等方面的研究成果,强调了当前大型语言模型存在的问题及潜在解决方案。

一文看懂多模态思维链

多模态思维链(MCoT)系统综述发布,介绍了其基本概念、分类法和应用场景,并探讨了当前挑战及未来研究方向。通过推理构建视角、结构化推理视角等六大技术支柱提升模型能力,改变机器人的操作、自动驾驶的安全性、医疗诊断的速度与准确性以及教育的个性化教学等方面。论文链接:https://arxiv.org/pdf/2503.12605

DeepSeek R1-Zero 内幕大公开:原来“顿悟时刻”早就来了?还有 GRPO 的秘密

新加坡国立大学与海航人工智能实验室团队提出了一篇关于R1-Zero-like训练的新论文。文章详细分析了基座模型和强化学习(RL)两大基石,并指出现有方法可能存在偏见问题,提出了改进方案。