Deep Research:不只是一个工具,是新时代的开始(5+实践例子)

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

Openai 又在筹备新的活动了,接下来会更新些什么?敬请期待。
Deep Research,不只是一个工具,是新时代的开始。
它基于o3的代理系统不是在做简单的总结,而是在思考,在发现联系,在独立得出结论。它真的在工作,真的在创造价值。
看看GPQA测试的数据:这是一个连Google都无法帮助解决的难题。PhD专家在自己领域能得81%,但跨领域只有31%。而o3呢?整体超过90%。这条曲线还在陡峭上升。
这些模型现在已经达到了超越人类智能的智能水平。
沃顿商学院 Ethan Mollick 教授在这篇文章中提出了对Deep Research(深度研究)的独到见解。

Deep Research — 搜索的终结,研究的开始。
自主代理(Agent)和推理模型(Reasoners ),这两条平行线,终于在这里交汇。
既具备人类专家般深度与细腻度,又能以机器速度进行研究的人工智能系统 ——  OpenAI的“Deep Research”它正展示了的这种融合,让我们看到了未来:AI能像人类专家一样进行深度研究,却比人类快得多。

推理模型(Reasoners ):AI思考的革命
过去的聊天AI很简单:输入就输出,一个字一个字回应(更准确地说,逐个令牌)。为了提升推理能力,研究者想出了”在回答之前一步步思考”的提示方法。这种方法被称为思维链提示,它显著提高了人工智能的性能。
现在的推理模型不一样了。它会先产生”thinking tokens”,再给出答案。这一突破至少体现在两个重要方面:
第一,由于AI公司如今可以让AI通过优秀问题解决者的示例来学习推理,AI便能更高效地“思考”。
训练出的推理链比人工提示更有效,特别是在数学和逻辑这些难题上。而这些领域是旧聊天机器人无法解决的。
第二,推理模型思考时间越长,答案越好(尽管随着思考时间的延长,改进的速度会变慢)。
这意味着,提升AI不再只依赖更大的模型,而是给它更多思考的时间。因为此前提升AI表现的唯一方法是训练规模不断扩大的模型,而这既昂贵又需要大量数据。
推理模型表明,仅仅通过让AI在回答问题时(即在所谓的“推理时计算”中)生成更多思维令牌,就能显著提升其表现,而无需依赖训练阶段的大规模计算。
研究生级别的谷歌防御问答测试(GPQA)是一系列多项选择题,即便博士生具备互联网接入,在非专业领域的答题正确率仅为34%,而在其专业领域则能达到81%。这一测试展示了推理模型如何加速了AI能力的提升。


AI代理:自主行动的AI。
简单说,给它一个目标,它就能自己去完成。现在,AI实验室都在竞相开发通用代理,想要打造能应对一切任务的系统。
看看OpenAI的Operator实验:比如,可以设想这样一个过程:代理读取一份报告,并根据其中的统计数据生成图表。
开始时一切顺利:它定位到报告、解析数据、登录图表平台。但接下来遇到难题:平台对数据格式和数量有限制,任务受阻。它尝试了转换格式、拆分数据、寻找备用接口,但都没有成功。
这个过程既展示了通用代理的潜力,也暴露了现有技术的局限。

Deep Research:代理+推理模型。
但别急着否定AI代理。专注特定领域的代理已经展现出惊人能力。比如OpenAI的Deep Research,就让我们看到了专业AI代理的力量(后文有更多的例子)
专注于特定任务、具备经济价值的窄域代理已经初具成效。这些专用系统依托现有的大型语言模型技术,能在各自领域内取得卓越成就。一个明显的例子便是OpenAI的新系统Deep Research,它生动展示了专注型AI代理的强大能力。

Ethan Mollick 教授 称他使用Deep Research写过一篇关于深度研究的文章,得到了一份惊喜结果:13页,近4000字的专业分析。

▲ 认真花点时间看看它的“思考”过程的这三个片段

引用质量让人印象深刻。不是随意的网络文章,而是高质量学术论文,甚至能直接定位到关键引文。虽然还受限于付费墙,但已经展现出近似人类学者的研究能力。
当然,如果Deep Research 解锁那些被限制访问的高质量资料,很可能会有更好的效果输出:

对比Google的同名产品,差异很明显。Google引用更多,但良莠不齐。像是在做资料汇总,而不是深度研究。用老版Gemini 1.5,产出更像优秀本科生的作业。

但别忽视重点:这两个系统都在几分钟内完成了通常需要数小时的工作。OpenAI说他们能处理15%的高价值研究项目,9%的顶级项目。这个数字,从我的测试来看,并非夸张。

知名LLM框架llama_index的CEO 介绍, 代理报告生成将成为企业的核心需求。OpenAI的Deep Research已经证明了这一点。

但要真正在企业中落地,还需要三个关键能力:

1. 专业模板系统:支持问卷、财务报告等不同场景,直接输出PDF、PPT等格式,适应不同业务需求。

2. 离线数据处理:建立完整知识库索引、实现”无限上下文窗口”、支持RAG等技术集成。

3. 人机协作机制:领域特定的编辑验证、法律、工程等场景定制、多工具深度集成。


AI的拼图正在完整。
推理模型提供思维能力,代理系统负责行动。现在,像Deep Research这样的窄域代理已经能完成一些高级专家团队的工作。
但专家不会消失,他们的角色在转变:从直接工作者变成AI系统的指挥者和验证者。
各大实验室都在押注未来:更好的模型将突破通用代理的瓶颈。让AI能自主浏览网络,处理各类信息,在现实世界采取行动。
Operator表明我们还未达到那一阶段,但Deep Research则暗示我们可能正走在这条道路上。
这不是终点,而是新起点,AI正在从工具走向伙伴。

接下来是Deep Research实践例子,注意每个例子后面的共享链接,你可以直接打开查看Deep Research的结果。

Deep Research实践例子

一份关于 TTRPGs(桌面角色扮演游戏,Tabletop Role-Playing Games)演变的研究报告。

报告长度:30 页,10,600 字。

https://chatgpt.com/share/67a152bf-0d1c-8000-a4b1-773e7777e735

关于微塑料如何影响人体的研究共识

https://chatgpt.com/share/67a0a271-8850-8001-bd35-73a44510ab6f

任何主题的专家,全天候的助手

对 DeepSeek 整个研发历史进行专家级业务和技术分析

https://chatgpt.com/share/67a0d59b-d020-8001-bb88-dc9869d52b2e

《2010年以来戏剧讲故事方式的变迁》的研究报告

https://chatgpt.com/share/67a1717b-1e74-800f-bb85-9ec7c4f882ae

调查肺癌的分子基础、风险因素及新兴治疗手段如免疫疗法和基因疗法。

分析可再生能源存储:电池技术、替代方案、挑战与未来解决方案。

https://chatgpt.com/share/67a0e321-7cd0-8013-9aaa-f72db00a8746

Deep Research + o1-pro 解决了 R1、Claude3.5 和 o1-pro 单独无法解决的图形问题

OpenAI 员工 – “过去几周使用 Deep Research 是我个人的 AGI 时刻。现在只需 10 分钟即可生成准确而全面的竞争和市场研究(包含来源),而以前我至少需要 3 个小时。”

o3满血版体验?!Deep Research 远超 R1 ,开启深度研究(推理)完美解析癌症病历,堪比PhD研究员!

2025-02-03

🌟 知音难求,自我修炼亦艰,抓住前沿技术的机遇,与我们一起成为创新的超级个体(把握AIGC时代的个人力量)。
参考链接:
[Ethan Mollick] https://www.oneusefulthing.org/p/the-end-of-search-the-beginning-of?r=i5f7&utm_medium=ios&triedRedirect=true

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

(文:AI进修生)

欢迎分享

发表评论