RLVER框架归档

7B模型“情商”比肩GPT-4o，腾讯突破开放域RL难题，得分直翻5倍

2025年7月18日23时作者量子位

腾讯混元AI数字人团队提出RLVER框架，利用用户模拟器解决多轮对话中的环境、奖励和训练问题，显著提升大模型在情感对话基准Sentient-Benchmark上的表现。