强化学习
8大类,100+技术:大模型 AI Agents 优化最新综述
华东师范大学等综述了针对大型语言模型的AI智能体优化方法,分为参数驱动和非参数驱动两大类,并详细探讨了基于强化学习、混合策略及经验反馈等多种具体技术。
ICLR 2025 真正「Deep」的「Research」,通过强化学习实现可自主进化的科研智能体来了!
CycleResearcher 研究团队发布了首个通过强化学习迭代优化训练的 AI 科研智能体,实现了文献检索、模型提问、论文撰写等完整闭环。团队开源了数据集和代码,展示了其在学术研究中的潜力。
上海AI Lab发布LLM高效Reasoning综述!全面总结如何“少想多做”
MLNLP社区致力于促进机器学习与自然语言处理领域的学术交流与进步。文章介绍了如何解决大型推理模型(LRMs)带来的冗余思考问题,包括字数预算、双系统切换、模型路由等方法,并探讨了未来高效推理的发展方向。