执行推理时能对齐语言模型吗?谷歌InfAlign带来一种对齐新思路 下午12时 2025/01/27 作者 机器之心 机器之心报道 编辑:Panda 在根据某个奖励微调生成式语言模型时,使用 KL 正则化的强化学习(K