Search-R1:高效、可扩展的强化学习训练框架 上午8时 2025/03/02 作者 NLP工程化 高效、可扩展的强化学习训练框架Search-R1,支持3B规模的基础LLM,通过规则化奖励机制让LLM自主学会推理和搜索,提供完整的训练流程和工具支持。