数学题归档 - 每时AI

OCR推理大模型全军覆没？OCR-Reasoning基准揭示多模态大模型推理短板

2025年6月26日11时作者 PaperWeekly

近期多模态推理模型在数学题、学科题上表现出色，但OCR相关复杂任务的评测标准缺失。填补这一空白的是OCR-Reasoning基准，首次系统性检验了MLLMs在复杂文本图像推理中的能力。

清华提出ConCISE：简单有效，Reasoning过程砍掉一半，准确率不降！

2025年5月10日14时作者机器学习算法与自然语言处理

MLNLP社区是国内外知名的机器学习与自然语言处理社区。该社区致力于促进学术界、产业界和爱好者的交流与进步，特别是初学者的成长。最新研究表明，通过信心注入和早停机制，可以显著减少模型的冗余推理步骤，提高准确性而不影响性能。

Open R1 项目进展第二期

2025年4月1日14时作者 Hugging Face

把 DeepSeek R1 缺失的部分补齐，特别是训练流程和合成数据。
https://github

陶哲轩：o3-mini纠正了我一个数学错误，十分钟解决原本一小时才能完成的题目

2025年3月18日11时作者量子位

大模型o3-mini和GPT-o1在数学方面表现出色，陶哲轩和罗博深分别对其进行了测试，并且给予了高度评价。

斯坦福打脸大模型数学水平：题干一改就集体降智，强如o1也失准，能力涌现怕不是检索题库

2025年1月6日12时作者量子位

斯坦福大学研究表明，在更换数学题变量名称后，大模型的准确率直线下降。即使是表现最好的o1-preview模型，其准确率也从50%降至33.96%，表明它们可能更多依赖已存储的答案而非推理能力。团队提出Putnam-AXIOM。该基准解决了现有评估基准数据污染和饱和的问题，为自动化评估提供方法并生成变体数据集。

有了这个国产版 o1 模型，我想能在《鱿鱼游戏》里活到最后

2024年12月31日12时作者 APPSO

像人类一样思考的 AI 离我们还有多远？
在道格拉斯·亚当斯的科幻小说《银河系漫游指南》中，一个高纬

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31