性能准确率突破96%!上海算法创新研究院发布xVerify:面向推理模型的答案评估器 下午11时 2025/04/20 作者 PaperWeekly 展,但在长推理链、 困难数学表达式、多语言等复杂场景下,答案抽取与验证仍面临以下挑战: 慢思考场景: