ICLR 2025 真正「Deep」的「Research」,通过强化学习实现可自主进化的科研智能体来了!

CycleResearcher 研究团队发布了首个通过强化学习迭代优化训练的 AI 科研智能体,实现了文献检索、模型提问、论文撰写等完整闭环。团队开源了数据集和代码,展示了其在学术研究中的潜力。

上海AI Lab发布LLM高效Reasoning综述!全面总结如何“少想多做”

MLNLP社区致力于促进机器学习与自然语言处理领域的学术交流与进步。文章介绍了如何解决大型推理模型(LRMs)带来的冗余思考问题,包括字数预算、双系统切换、模型路由等方法,并探讨了未来高效推理的发展方向。