资讯
国际
分享
大模型
学术
开源
机器人
关于我们

竹竿过城门

以一敌五、屠榜登顶的谷歌Gemini 2.5，居然栽在小学数学题上

2025年3月26日23时作者 AI好好用

谷歌 Gemini 2.5 模型在多领域测试中表现亮眼，但在数学推理和多模态识别方面存在不足。Gemini 2.5 总体正确率达80%，OpenAI两大模型 O3-mini 和 GPT-4.5 错误率高达100%。

分类分享标签 Gemini 2.5、 OpenAI、数学逻辑推理、杨文、竹竿过城门、谷歌发表评论

搜索

AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub Google GPT-4o LLM Meta OpenAI Python Sam Altman 人工智能人形机器人具身智能大型语言模型大模型大语言模型字节跳动工业机器人开源强化学习微软扩散模型技术创新智能体木易机器学习深度学习清华大学生成式AI 用户体验百度腾讯自然语言处理英伟达谷歌阿里云阿里巴巴马斯克

分类

分享
国际
大模型
学术
开源
机器人
资讯

马斯克发布“地球最强AI模型”Grok 4：横扫所有榜单，在“人类最终测试”超越人类博士”！
刚刚，Grok 4发布，「人类最后的考试」中拿下50.7%，碾压所有对手，游戏结束？
AMD AI 架构师张宁：多视角解析 AMD Triton 编译器，助力开源生态建设
钉钉上跑出的第一个行业专属大模型落地：准确率超 90% 的妇科专业大模型
Cursor 搭 MCP，一句话就能让数据库裸奔！？不是代码bug，是MCP 天生架构设计缺陷

2025 年 7 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

« 6 月

归档

2025 年 7 月
2025 年 6 月
2025 年 5 月
2025 年 4 月
2025 年 3 月
2025 年 2 月
2025 年 1 月
2024 年 12 月
2024 年 11 月

AI新闻 | X平台｜ APK反编译｜京ICP备2024096144号｜

© 2025 每时AI • Built with GeneratePress

下载我们的APP，AI秒送达！立即下载

×