偏好优化归档 - 每时AI

公开模型一切，优于DeepSeek-R1，英伟达开源Llama-Nemotron家族

2025年5月7日11时作者机器之心

AI 企业竞相追逐的焦点。
但近年来，推理效率已成为模型部署和性能的关键限制因素。
基于此，英伟达

8B模型超越GPT-4o！通义实验室提出多轮对齐SDPO，让LLM更擅长多轮交互

2025年1月26日23时作者 PaperWeekly

LLM 如何在多轮任务中对齐人类偏好？通义提出多轮对齐 SDPO 效果上大幅度超过标准 DPO，让

回顾 LLM 领域的一些热词，哪些你不知道？

2025年1月22日23时作者极市干货

↑ 点击
蓝字
关注极市平台
作者丨Glan格蓝@知乎 https://zhuanlan.zhihu