
新智元报道
新智元报道
【新智元导读】在32道高等数学测试中,LLM表现出色,平均能得分90.4(按百分制计算)。GPT-4o和Mistral AI更是几乎没错!向量计算、几何分析、积分计算、优化问题等,高等AI模型轻松拿捏。研究发现,再提示(Re-Prompting)对提升准确率至关重要。
但数学不会,数学不会就是不会。
相信学不好高等数学的人,对上面这个梗深有感悟。
数学不会好像是真不会:出口成章也好,身体素质惊人也好,面对微积分,能有什么招?
那大语言模型(LLMs)是不是也是一个偏科生呢?
最新研究用32道测试题,总计320分,涵盖4大主题:向量计算、几何分析、积分计算、优化问题,评估了AI模型在高等数学的表现。
总体而言,结果表明LLM高等数学不错,平均得分为90.4(按百分制计算):
-ChatGPT 4o和Mistral AI在不同类型的数学问题上表现稳定,准确率较高,展现出较强的数学推理能力和可靠性。
-Gemini Advanced(1.5 Pro)和Meta AI在某些积分和优化问题上表现较弱,显示出需要针对性优化的领域。
![]() |
![]() |
某些情况下,模型首次回答错误,但在重新提示后能够修正答案,这表明改进交互方式可提升模型解题效果。
新研究对教育工作者、研究人员和开发者在数学教育与实践应用中的LLM选择具有重要参考价值,同时也为LLM技术的进一步优化和发展提供了关键的灵感。

论文链接:https://arxiv.org/abs/2503.03960
LLM在微积分能带来什么惊喜?
解决微积分问题不仅需要计算的准确性,还要求模型具备深厚的数学原理理解能力、逻辑推理能力,以及将理论概念应用于实际问题的能力。
新研究所选问题涵盖微积分的多个重要主题,包括向量分析、几何解释、积分计算和优化问题。
通过评估这些模型在解题过程中的表现,希望识别它们的优势、劣势和可改进之处,从而推动更强大、更可靠的LLM技术的发展。
随着教育机构和工业界越来越多地探索AI技术的应用,深入了解LLM在处理复杂数学问题方面的能力和局限性变得至关重要。
新研究的分析结果对多个群体具有重要价值,包括开发AI辅助学习工具的教育工作者、致力于提升LLM能力的研究人员,以及希望在实际应用中部署这些技术的从业者。
此外,本研究还回应了对AI模型在专业领域进行系统评估的日益增长的需求。
通过精心设计的一组测试题和详细的评分体系,本研究为评估LLM在数学问题求解方面的表现提供了一种方法论框架。
此外,本研究还引入了重新提示(re-prompting)机制,并对错误模式进行了深入分析,以探讨模型的学习能力以及提高其准确性和可靠性的潜在策略。这些研究结果有助于更全面地理解LLM在数学推理中的优势和局限性,并为未来的优化提供有价值的参考。
研究方法
ChatGPT 4o以其先进的自然语言理解和生成能力而闻名;
Gemini Advanced with 1.5 Pro旨在处理高性能语言任务;
Copilot Pro专注于编程和数学问题求解;
Claude 3.5 Sonnet强调准确且具上下文意识的文本生成;
Meta AI旨在提供多功能的语言理解和生成;
Mistral AI以其高效且精准的语言处理能力著称;
Perplexity则专为复杂问题求解和推理任务设计。
现在就关心一个问题:这些模型高等数学到底会不会?
这次评估共涉及32道测试题,总分320分。
如果模型在首次尝试中给出正确答案,则得10分;如果在第二次尝试中找到正确答案,则得5分。
测试题涵盖多个微积分主题,包括:向量计算与几何解释、积分计算及其应用、优化问题与约束优化、微分方程及其应用以及高级微积分概念(如格林定理、曲线积分等)。
模型的评估主要基于两个核心标准:
-
准确性(Accuracy)——指模型给出的答案是否正确。 -
解题过程(Step-by-Step Explanation)——指模型是否能够提供清晰、正确的解题步骤。
为了进一步测试模型的错误修正能力,本研究引入了重新提示(re-prompting)机制。
测试结果
总体来看,所有LLM的平均得分为90.4(按百分制计算),显示出较强的整体表现。其中ChatGPT 4o和Mistral AI得分310,并列第一,具体结果如下:

找到向量u=3i−5j+2k在向量v=7i+j−2k上的投影,以及u中与v正交的分量,显示所有步骤。

求一个同时正交于向量u=⟨4,−3,1⟩和v=⟨2,5,3⟩的单位向量,并展示所有步骤。

检查函数的相对极值和鞍点:f(x, y)=-5x^2+4xy-y^2+16x+10。并给出全部步骤。

结果分析
对LLMs在微积分测试中的表现分析揭示了多个关键见解和趋势,这对于理解它们在数学问题求解中的能力和局限性至关重要。
LLM的优势
LLM的劣势
重新提示(Re-prompting)的重要性
本研究强调了重新提示机制在提高解题准确性方面的重要作用。
对LLM发展的启示
-
表现优异的模型(如ChatGPT 4o 和 Mistral AI):展现出了较强的数学问题求解能力,使它们成为可靠的数学辅助工具,可应用于教育领域。 -
其他模型的不足:指明了改进方向,为LLM技术的进一步优化提供了参考。未来,随着LLM在数学领域的不断进步,它们有望成为更强大、更可靠的数学教育和问题求解工具,在教学、科研和工业应用等多个领域发挥重要作用。
(文:新智元)