RLHF归档 - 每时AI

OpenAI爆出硬伤，强化学习是祸首！o3越强越「疯」，幻觉率狂飙

下午4时 2025/04/20 作者新智元

在一个致命问题：幻觉率高达33%，是o1的两倍。Ai2科学家直指，RL过度优化成硬伤。
满血o3更强

下午4时 2025/03/24 作者机器之心

设计 RLHF 的奖励模型时也是一样。
我们知道，一个 RLHF 算法是否成功的一大关键在于其奖励模

下午11时 2025/03/12 作者 AI前线

术变革转向产业变革，大模型应用也会进一步繁荣，传统基础设施技术已经不足以满足大模型应用的快速发展。整

下午12时 2025/02/14 作者新智元

的AI——语言模型与可控推理能力相结合的混合模型。模型包括一个独特的「滑动条」功能，它赋予开发者对计

下午11时 2025/01/13 作者极市干货

↑ 点击
蓝字
关注极市平台
作者丨ybq
来源丨NLP工作站
编辑丨极市平台
极市导读
本文探讨了

下午11时 2025/01/08 作者机器之心

机器之心报道
编辑：张倩
老婆饼里没有老婆，夫妻肺片里没有夫妻，RLHF 里也没有真正的 RL。在最

下午10时 2024/12/29 作者 AI技术研习社

从 0 到 1：用 RLHF 和 Python 构建奖励模型，全面提升语言模型能力！

下午4时 2024/12/13 作者智能涌现

姜旭，OpenAI前资深算法负责人，参与多项GPT-4开发项目。2023年离开OpenAI后创建“亮源新创”，专注于具身智能陪伴机器人领域。

下午4时 2024/12/13 作者机器人开放社区

江旭离开OpenAI后创立亮源新创，专注于开发具身智能陪伴机器人应用于家庭服务、医疗康养及教育培训等领域。