逻辑推理归档 - 每时AI

马斯克最贵 AI 首批实测炸了！Grok 4 一边封神一边翻车，网友：2 万块就这？

2025年7月11日23时作者 APPSO

拿昨天的 Grok 4 来说，马斯克放话「这是地球上最聪明的 AI」，还没上线，就已经把话题度拉满了

ICML 2025 会刷题≠懂数学！CogMath打造“认知显微镜”，深扒大模型的数学能力

2025年7月7日23时作者 PaperWeekly

频繁刷榜，关于它们“是否真正理解数学”的讨论也日益增多。
针对这一问题，中国科学技术大学认知智能全国

腾讯开源了一个新的模型 Hunyuan-A13B

2025年6月28日8时作者 NLP工程化

腾讯开源新模型Hunyuan-A13B，支持快速和慢速思考模式，在Agent能力和逻辑推理方面表现不错，可通过官网体验。

OCR推理大模型全军覆没？OCR-Reasoning基准揭示多模态大模型推理短板

2025年6月26日11时作者 PaperWeekly

近期多模态推理模型在数学题、学科题上表现出色，但OCR相关复杂任务的评测标准缺失。填补这一空白的是OCR-Reasoning基准，首次系统性检验了MLLMs在复杂文本图像推理中的能力。

关于chatGPT和Deepseek模型在使用上的感受——chatGPT更像一个人，而DeepSeek更像一个机器

2025年6月25日14时作者 AI探索时代

不同的大模型在相同问题上可能给出截然不同风格的回答，这是由它们训练数据和设计目标的不同导致的差异性。

你的T2I模型真的看懂了你的Prompt吗？TIIF-Bench来了次摸底评测！

2025年6月18日23时作者 PaperWeekly

our Instructions?
作者单位：
北京大学、清华大学、中山大学、香港理工大学、OPPO

OpenAI o3-pro 全网沸腾！最强AI + o3降到“白菜价”，但是有哪个“槽”你发现了吗？

2025年6月16日14时作者 AI技术研习社

文章介绍了OpenAI最新发布的模型o3-pro及其降价策略，强调了其在推理、科学数据分析、代码编写等方面的强大能力，并讨论了其对AI产业生态可能产生的影响。

大模型结构化推理优势难复制到垂直领域！最新法律AI评估标准来了，抱抱脸评测集趋势第一

2025年6月5日16时作者量子位

。
但在数学和物理等STEM之外，当LLM落到更多实际应用领域之中，大模型的推理能力又有多大的潜能和

新版DeepSeek-R1深夜整大活！编程能力暴涨，实测直逼Claude 4，网友玩疯直呼太强了

2025年5月29日11时作者智东西

DeepSeek发布了新版本R1-0528，并在Hugging Face上开源。该模型在编程、逻辑推理和交互能力等方面显著提升。开发者称其性能接近OpenAI的o4 mini和o3模型高版本。