推理时也能做偏好优化,无需额外重训练,来自上海AI Lab港中文等 下午12时 2025/02/10 作者 量子位 瞩目的能力,如何确保它们⽣成的回复既符合预期又安全,始终是⼀项关键挑战。 传统的偏好对⻬⽅法,如基于