lmpo:一个简洁易懂的语言模型策略优化GitHub项目 2025年7月12日8时 作者 NLP工程化 一个简洁易懂的语言模型策略优化GitHub项目(lmpo),通过强化学习提升特定任务表现,核心代码约400行,支持多主机TPU训练和多种LLM强化学习环境。