Skywork-Reward-V2 归档 - 每时AI

4000万样本炼出AI读心术，刷新七榜SOTA，最强「人类偏好感应器」开源

2025年7月4日11时作者新智元

高质量的千万级人类偏好样本，刷新七大评测基准SOTA表现。8款模型覆盖6亿至80亿参数，小体积也能媲

人机协同筛出2600万条数据，七项基准全部SOTA，昆仑万维开源奖励模型再迎新突破

2025年7月4日11时作者机器之心

很深的学问。
基于人类反馈的强化学习（RLHF）就是用来解决这个问题的，其中的奖励模型（Rewar