逻辑推理
OCR推理大模型全军覆没?OCR-Reasoning基准揭示多模态大模型推理短板
近期多模态推理模型在数学题、学科题上表现出色,但OCR相关复杂任务的评测标准缺失。填补这一空白的是OCR-Reasoning基准,首次系统性检验了MLLMs在复杂文本图像推理中的能力。
关于chatGPT和Deepseek模型在使用上的感受——chatGPT更像一个人,而DeepSeek更像一个机器
不同的大模型在相同问题上可能给出截然不同风格的回答,这是由它们训练数据和设计目标的不同导致的差异性。
OpenAI o3-pro 全网沸腾!最强AI + o3降到“白菜价”,但是有哪个“槽”你发现了吗?
文章介绍了OpenAI最新发布的模型o3-pro及其降价策略,强调了其在推理、科学数据分析、代码编写等方面的强大能力,并讨论了其对AI产业生态可能产生的影响。
苹果宣判推理模型死刑!Google CEO:忘了AGI吧,先用好AJI
苹果研究员通过一系列全新智力测试题,揭示了多种「推理」模型在高复杂度问题上的无效性。研究发现这些模型实际上是高级版的记忆大师,并且在训练时无法理解实际情况中的问题。Google CEO Sundar Pichai提出AJI(Artificial Jagged Intelligence)概念,描述当前AI处于「惊艳与弱智并存」的状态。Pichai预测到2030年将看到巨大进步,但强调重要的是利用现有能力带来积极影响。
新版DeepSeek-R1深夜整大活!编程能力暴涨,实测直逼Claude 4,网友玩疯直呼太强了
DeepSeek发布了新版本R1-0528,并在Hugging Face上开源。该模型在编程、逻辑推理和交互能力等方面显著提升。开发者称其性能接近OpenAI的o4 mini和o3模型高版本。