8B模型超越GPT-4o!通义实验室提出多轮对齐SDPO,让LLM更擅长多轮交互 下午11时 2025/01/26 作者 PaperWeekly LLM 如何在多轮任务中对齐人类偏好?通义提出多轮对齐 SDPO 效果上大幅度超过标准 DPO,让