推理正确率下降65.5%!斯坦福、MIT等用「不等式」拷问AI逻辑极限

斯坦福等团队提出IneqMath基准,用于评估大语言模型在数学不等式证明中的严谨性与合理性。结果显示模型推理正确率远低于答案正确率,暴露出其逻辑缺陷。研究者引入多维度评审器审查模型解题过程,以提升模型的逻辑严谨性。