7B模型“情商”比肩GPT-4o,腾讯突破开放域RL难题,得分直翻5倍 2025年7月18日23时 作者 量子位 腾讯混元AI数字人团队提出RLVER框架,利用用户模拟器解决多轮对话中的环境、奖励和训练问题,显著提升大模型在情感对话基准Sentient-Benchmark上的表现。