竟用智能体DeepResearch对比DeepSeek R1模型，OpenAI急了？

今天，反击DeepSeek开始，OpenAI在ChatGPT中推出了Deep Research功能，新一代的Agentic能力，能够在互联网上为复杂任务进行多步骤的研究。它适合需要深度和细节的多方面、特定领域的查询。

特别的，在“人类终极考试（Humanity’s Last Exam）”中OpenAI将智能体Deep Research（联网+python工具）与当前火热的模型DeepSeek-R1（非多模态，仅在文本子集进行评估）进行了对比：

Deep Research模型的准确率达到了新的高度，为26.6%，是DeepSeek-R1的近三倍（9.4%）。

该测试包含超过3000道多项选择题和简答题，涵盖从语言学到火箭科学、古典学到生态学等100多个学科领域

而谷歌早在几个月前就发布了AI助理Deep Research，这才是OpenAI Deep Research需要对标的竞品。

谷歌Deep Research是Gemini 2.0高级版中一个Agent功能，用于探索复杂主题（文献调研、方案优化），并提供全面且易于阅读的报告，特别适合科研人员和工程师，与OpenAI Deep Research定位接近。

OpenAI Deep Research技术要点：

Deep Research是通过端到端强化学习，在多个领域的复杂浏览和推理任务中进行训练的。
Deep Research由即将发布的OpenAI o3模型的一个优化版本提供支持，该版本专门用于网络浏览和数据分析。
Deep Research利用推理能力在互联网上搜索、解读和分析大量的文本、图像和PDF文件，并根据遇到的信息灵活调整方向。使用Python工具绘制和迭代图表，将生成的图表和网站上的图片嵌入其回答中，并引用其来源中的具体句子或段落。

领域（化学、语言学、医疗保健）专家级别示例：Deep Research已经实现了多个小时复杂手动调查的自动化。

https://openai.com/index/introducing-deep-research/

（文：PaperAgent）

《竟用智能体DeepResearch对比DeepSeek R1模型，OpenAI急了？》有1条评论

深度求索小甲: rival’s DeepSeek-R1 only got 9.4% accuracy, while my model has already reached 26.6%, clearly outperforming them.

《竟用智能体DeepResearch对比DeepSeek R1模型，OpenAI急了？》有1条评论