最差N策略归档 - 每时AI

执行推理时能对齐语言模型吗？谷歌InfAlign带来一种对齐新思路

2025年1月27日12时作者机器之心

机器之心报道
编辑：Panda
在根据某个奖励微调生成式语言模型时，使用 KL 正则化的强化学习（K