无需RLHF显著提升GPT-4性能,北大团队提出对齐新范式「残差修正」 NeurIPS 2024 Oral 下午11时 2025/01/24 作者 PaperWeekly 学习对齐答案和未对齐答案之间的残差,要比直接学习问题到答案之间的映射更容易。 背景 当下大语言模型(