开发者开放归档

推理正确率下降65.5%！斯坦福、MIT等用「不等式」拷问AI逻辑极限

2025年6月23日16时作者新智元

斯坦福等团队提出IneqMath基准，用于评估大语言模型在数学不等式证明中的严谨性与合理性。结果显示模型推理正确率远低于答案正确率，暴露出其逻辑缺陷。研究者引入多维度评审器审查模型解题过程，以提升模型的逻辑严谨性。