大模型IMO25数学竞赛成绩公布了
大模型在IMO数学竞赛中的表现:Gemini以超30%总成绩拔得头筹,o3和o4-mini紧随其后。MathArena对五款模型进行评估发现多数模型在几何题上得分较低,且存在格式优化过度的问题;Grok 4则因答案过于简略而受到批评。
大模型在IMO数学竞赛中的表现:Gemini以超30%总成绩拔得头筹,o3和o4-mini紧随其后。MathArena对五款模型进行评估发现多数模型在几何题上得分较低,且存在格式优化过度的问题;Grok 4则因答案过于简略而受到批评。