极客说|强化学习(RL)与有监督微调(SFT)的选择以及奖励函数的优化 2025年6月25日16时 作者 AIGC开放社区 注 AI 时代开发者分享的专栏,我们邀请来自微软以及技术社区专家,带来最前沿的技术干货与实践经验。在