推理能力归档

马斯克推最强Grok 4！人类终极测试干翻OpenAI，包月费超2千元

2025年7月10日16时作者智东西

日，马斯克的AI公司xAI发布其最新旗舰大模型
Grok 4
和多智能体版本
Grok 4 Heav

2025年7月3日16时作者 APPSO

马斯克团队为即将发布的Grok 4和编程模型Grok 4 Code进行加班，新增多模态输入、强大推理能力等新功能。

2025年6月30日16时作者机器之心

论文提出 Deep Video Discovery (DVD)，通过将长视频分割成多粒度片段并利用LLM推理能力自主规划工具获取信息来回答问题。在最新的推理模型OpenAI o3帮助下，DVI以74.2%准确率超越现有工作，在LVBench上大幅领先。

2025年6月26日8时作者 NLP工程化

Sakana AI提出的新方法RLT让7B模型训练出的学生超过671B模型，且成本仅为传统方法的1/3。

2025年6月23日16时作者 Z Potentials

AI生态系统总收入与已投入的资金相比仍然相形见绌。然而，在算力日益充裕的世界里，人才优势变得更为关键。

2025年6月19日8时作者机器之心

s（如 GPT-4、Claude、Gemini 等）在代码生成领域取得了显著进展。它们不仅在经典编程

2025年6月16日14时作者 AI技术研习社

文章介绍了OpenAI最新发布的模型o3-pro及其降价策略，强调了其在推理、科学数据分析、代码编写等方面的强大能力，并讨论了其对AI产业生态可能产生的影响。

2025年6月14日11时作者 Founder Park

4o 和 Claude 3.5 接连登场，大模型的边界一次次被重写。但真正让 AI 产业链神经绷紧的

2025年6月9日23时作者机器之心

nAI o1/o3、Claude 3.7 Sonnet 为代表的推理大模型中得到了验证，它们显示出了

2025年6月6日23时作者机器之心

05）。
在保持 o3 四分之一以下的低价格的同时，在编码（Aider Polyglot）、推理能力