o3满血版体验?!Deep Research 远超 R1 ,开启深度研究(推理)完美解析癌症病历,堪比PhD研究员!

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

OpenAI 刚刚投下了一颗重磅炸弹。持续思考30分钟输出1万字,什么?人类的最后一次考试 26.6 ?

今早8点,OpenAI紧急技术直播,Openai发布 “Deep Research”,开启深度研究(推理)。

此前 o3-mini发布之前,这个考试最高分还是只有9点多:

“人类最后的考试”(https://agi.safe.ai),一个包含3000道问题的数据库,由数百位学科专家精心设计。目前,就连最强大的AI也只能拿到不到10%的分数。但创造者预测,到2025年底,顶级AI可能达到50%,那时它们就堪称”世界级预言机”。
有趣的是,哈维洛佩兹问了个让人深思的问题:”如果我们的智商达到230,需要多少辈子才能通过这项考试?”

Deep Research 比o3-mini-high 在考试中分数高出一倍。对比其他是断层式领先。

回想起昨天我们讨论的:“ Sam透露,会有一个有关o3-mini的好东西留在后面。

现在看来,Sam没有炒作,炒作是有道理的。

可是,刚这样想,他另外一篇帖子又刚刚发布了:(注意:这不是 o3-mini 的“又一件事”。还要再过几天才能完成。)

  所以。。。 大的还有啊

真的,国内外这些AI公司一个一个放炮仗,根本追不过来

有网友辣评,Openai所说的 “ 大的要来了 ” 可能是修复他们的 “ 命名bug ”。

Deep Research 具有多步推理、网络搜索;使用 o3 模型作为底层驱动,对其如何浏览互联网、提取相关数据、使用 Python 进行计算、绘制嵌入式图像/图表进行了微调。

有时需要半个小时才能回答一次提问,最终总结为研究报告输出。

o1 构建者、openai 研究员 Sherwin Wu 表示:这是o3(完整版,不是mini版)首次向 OpenAI 以外的用户开放,并且产品体验非常流畅。

  知名博主@javilopen表示:R1加快了这一切!

此外,Deep Research在GAIA测试上创造新纪录。
这是考验AI在现实世界中的综合能力:推理、多模态理解、网页浏览、工具使用,样样都要精通。
数据很惊人:Level 1达到78.66分,Level 2有73.21分,就连最难的Level 3也拿到58.03分。平均分72.57,远超此前的63.64分。
这是AI向真实世界应用迈出的一大步。

Deep Research即将开放更多权限。
Plus用户(20美元/月)能获得每月约10次使用机会。同时,团队版和专业版用户也将获得访问权限。
有趣的是奥特曼的回应。当被问到免费用户额度时,他很坦诚:”argh,免费版确实额度很少,抱歉。”
虽然免费额度有限,但至少保留了一些。

Deep Research推出之后,部分组织或个人获取了测试权限。

知名生物医学科学家 Derya Unutmaz 表示:我不知道人类的期末考试怎么样,但在我这个复杂的生物医学领域,这也并不容易,OpenAI Deep Research 轻松以优异的成绩获得了 90% 以上的成绩!美妙之处在于,它几乎读懂了我的心思,并提出了正确的问题来集中研究!

还有两份癌症病历, 他对Deep Research给出的两份报告表示非常满意:

OpenAI表示,Deep Research 是为”知识工作者”打造的专业助手。比如金融分析师、科研人员、工程师这些需要深入精确研究的专业人士。
但OpenAI的野心更大。他们说:” 这是通往AGI的重要一步。”多年来,他们一直期待AI能独立进行科学研究,Deep Research让这个愿景开始成形。

可以通过搜索网络并将知识综合成研究论文作为输出来进行自主研究,这是 AI 自我发现新知识的下一步。

有网友调侃,看来我们将会看到大量论文涌入 arXiv 了。

Deep Research使用

Deep Research的使用很简单:在输入框提问,需要的话还能上传补充资料。

侧边栏会实时显示研究进度和信息来源,让你了解每一步的分析过程。

完成一项任务大约需要5到30分钟。OpenAI表示,很快还将支持在报告中嵌入图表、数据可视化等内容。

Deep Research比GPT-4o更擅长深入细致的任务,并能多角度分析问题;与o1相比,它在化学、人文社科和数学领域具有类似人类的专业信息搜寻能力。

与Google的Deep Research比较如何?

我们知道,此前,Google 也推出过一款 “ Deep Research ” 而且社区反响很好,不过需要Gemin 订阅付费解锁使用权限。 

还有一款名为Storm的推理+搜索的研究助手,据大多数网友评论,Storm 完全逊色与OpenAi 的 Deep Research:一手体验STORM写作系统,这才是AI写作的未来形态。

初创公司ceo emollick表示Google的像是一个高效的信息汇总员,搜索范围广,但主要做概述。而OpenAI更像一个PhD级研究员,会追踪文献线索,深入细节,还敢于表达观点。

从实例看,它能在文献中追踪概念,解决遇到的问题,展现出真正的研究深度。

不过两者都有个共同的限制:无法访问付费的研究论文和出版物。
至于 OpenAi 和Google的 到底谁更受一筹,还需要等待更多的实践测试,毕竟OpenAi的Deep Research还在少量测试阶段。
Openai 研究员 @_jasonwei 表示:Deep Research在Humanity’s Last Exam上的得分是o3-mini的两倍,甚至能在几分钟内完成PhD专家需要10多个小时的任务。

这不只是一个强大的AI助手,更是操作互联网的新界面。人类浏览网页总有局限:搜索耗时、注意力有限、网站范围受限。但AI不会疲惫,能同时浏览多个网站,知识面几乎无限。
想象一下这些可能:
  • 不用翻阅上百条评论来选酒店和餐厅
  • 获取全网最隐秘论坛的旅行建议
  • 快速整理任何科研主题的相关文献和人脉
这就像是为每个人定制的互联网。未来,手动浏览网页可能就像现在用手算算术一样”复古”。

Every团队介绍,给它一个问题,它就开始行动:自主搜索网络或指定资料,多轮深入研究,最后生成一份详尽报告。这个过程可能需要1到30分钟,但成果往往超过1万字。

 测试者们已经尝试了很多有趣的任务:

  • 梳理Every从2020年至今的发展历程

  • 解读《战争与和平》第一章,分析托尔斯泰笔下的人物如何反映他对人性的理解

  • 搜索近期财报,发现未被报道的财务异常

  • 根据几张照片,规划全新的衣橱搭配

测试者反应,目前还有两个小问题:信息来源的引用不够完整,没有中途停止的按钮。但瑕不掩瑜。
我站在我们普通用户的角度考虑一下,你现在是否还在续订ChtGPT ?这次的Deep Research发布之后,不少网友考虑可以续订了:

如果你记得Operator的话,试想:ChatGPT的Deep Research负责在线调查,Operator执行实际行动。这种Agent的融合,可以让AI能处理越来越复杂的任务。

此外,Sam Altman 表示,OpenAI 未来计划开发专用 AI 设备来取代智能手机:

我们正站在智能爆发的起点。
这不是渐进式的进步,未来某刻,可能是智能的质变。
你准备好面对这样的未来了吗?
🌟 知音难求,自我修炼亦艰,抓住前沿技术的机遇,与我们一起成为创新的超级个体(把握AIGC时代的个人力量)。

(文:AI进修生)

欢迎分享

发表评论