基于规则的强化学习归档

落地推理大模型“慢思考”的思考及DeepMath-103K推理数据集构造方案

2025年4月18日14时作者老刘说NLP

近期文章讨论了关于推理大模型以及DeepMath-103K数据集的相关进展和思考。主要内容包括推理大模型的研究方向、推理模型的数据集构建方案，以及RAG方向的发展与应用。

2025年4月8日23时作者机器之心

本文介绍了一种基于规则的强化学习（RL/RFT）在GUI智能体领域的应用，UI-R1模型通过精心设计的奖励函数和高效的数据筛选策略提升了跨领域的任务表现。