以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上
谷歌 Gemini 2.5 模型在多领域测试中表现亮眼,但在数学推理和多模态识别方面存在不足。Gemini 2.5 总体正确率达80%,OpenAI两大模型 O3-mini 和 GPT-4.5 错误率高达100%。
谷歌 Gemini 2.5 模型在多领域测试中表现亮眼,但在数学推理和多模态识别方面存在不足。Gemini 2.5 总体正确率达80%,OpenAI两大模型 O3-mini 和 GPT-4.5 错误率高达100%。