推理时偏好优化归档 - 每时AI

推理时也能做偏好优化，无需额外重训练，来自上海AI Lab港中文等

2025年2月10日12时作者量子位

瞩目的能力，如何确保它们⽣成的回复既符合预期又安全，始终是⼀项关键挑战。
传统的偏好对⻬⽅法，如基于