最差N策略归档 - 每时AI

执行推理时能对齐语言模型吗？谷歌InfAlign带来一种对齐新思路

下午12时 2025/01/27 作者机器之心

机器之心报道
编辑：Panda
在根据某个奖励微调生成式语言模型时，使用 KL 正则化的强化学习（K