让AI做高考数学最难的解答题,这4家拿到满分
国内和国外的大模型在解答题考试中表现各异,豆包Seed1.5、混元T1、讯飞星火X1和Gemini 2.5 pro表现出色,得分满分;Qwen3及格,DeepSeek因超时得0分。
国内和国外的大模型在解答题考试中表现各异,豆包Seed1.5、混元T1、讯飞星火X1和Gemini 2.5 pro表现出色,得分满分;Qwen3及格,DeepSeek因超时得0分。
这篇文章描述了作者利用多个推理模型进行了一场数学高考的模拟测试,并详细介绍了测试规则。最终结果显示,Gemini表现最突出,而DeepSeek和Qwen3则表现较弱。通过这次测试,作者认为对于AI模型来说,数学高考并非特别难,但识别错误会影响结果。文章强调了考试公正性和严谨性的重要性。
五一假期即将到来,通过使用高德MCP和星火X1技术制作了私人行程规划师和AI导游团队,实现了精准需求解析、多工具协同作业以及结构化输出全要素攻略的目标。