ChatGPT 4o 暴击设计师的同时,有产品暴击了 Perplexity

内容丨特工路卡
审核丨特工少女

穷则变,变则通,通则久。——《周易》

最近,ChatGPT 4o 新上线了多模态绘图功能,‘吉卜力’刷爆了特工们朋友圈的同时,也夹带着艺术设计圈朋友们的哀嚎,最让我们共情的莫过于推上的此段发言:

想当初,路卡也是一名设计师,最早通过 SD 踏入了 AI 的大门。还记得自己第一次训练 Lora,搭建 Comfy 工作流给前女友跑出一张卡通头像时的那种惊喜与兴奋。然而仅仅 2 年的时间,OpenAI 的一次模型迭代,大伙们便宣告了 SD 的死亡、宣告了 ComfyUI 工作流的死亡…

ChatGPT 创飞设计师们的同时,也给当下众多 AI 应用创业者们带来了些许的焦虑:

‘在大模型不断内化应用能力,日趋强大的趋势下,还应该坚持做 AI 应用吗?’

不过,有趣的是,特工们同时还看到了 Perplexoty CEO 在推上的一个推文:

作为一个“套壳”应用,且 AI 搜索功能早已被各家模型覆盖、竞品满天飞的 Perplexity 显然没有前文所述的烦恼,甚至还在做着收购 TikTok 的美国梦。

那么,是梁静茹给了 Perplexity 勇气还是其真有实力?

正好很久没实测过市面上 AI 搜索应用的能力如何了,不如就借此测试一波!

路卡看待一个 AI 搜索应用的能力如何,一般从以下四个角度考察:

  • 息整合与多源搜索要求 AI 搜索应用从学术、专利、政策文件和社交讨论中提取信息,测试在多数据源整合上的表现。

  • 时效性与动态更新聚焦 2023 年至今的内容,考察搜索引擎对最新数据的处理能力。

  • 语义理解与复杂任务解析涉及跨领域信息的归纳和综合,验证系统是否能正确理解并执行多步骤任务。

  • 报告生成能力检验 AI 是否能自动生成结构清晰、数据详实的报告,包括图表和统计数据。

为方便团队日常出行,少女最近正打算给特工们配置一辆新能源电车,关注了小米 SU7 许久,刚好来测试一下这个 Case:


请查询自 2023 年至今关于小米 SU7 在日常生活中的使用情况及最新动态。要求整合以下信息:

1. 全国各地小米 SU7 各型号的售价与补贴政策;

2. 媒体和科技评测中关于小米 SU7 各型号在家庭、工作及休闲等生活场景下表现的报道与分析;

3. 消费者在社交媒体、论坛和电商平台中对小米 SU7 各型号便捷性、性价比、续航表现及各项功能的讨论;

4. 市场调研报告及销售数据中,小米 SU7 各型号在不同消费群体中的受欢迎程度和使用场景的统计信息。

最后,请生成一份综合报告,概述小米 SU7 各型号在实际生活应用中的主要优势、存在的问题以及购买建议,并附上相关数据图表和统计信息。

先说测试下来的结果:真的不行!

Perplexity 目前提供了 Auto、Pro、Reasoning、Deep Research 共 4 种搜索模式,然而很遗憾的是,即使是最强的 Deep Research 模式给出的结果也存在很多问题:

1. 从最简单的型号上 Perplexity 就罗列不全,4 种模式下的答案都少了新出的 Ultra 版本数据;

2. 售价与补贴政策信息搜集不全,4 种模式下的答案都只计算到了 2 万元的国补,未搜集到 25 年 3 月新政策;

2025年3月,小米SU7的补贴力度进一步加码,涵盖“国补+地方补贴+置换补贴+平台补贴”的叠加模式。以标准版为例,原价21.59万元,叠加国补2万元、地方补贴(如广东、浙江等地)2万元、置换补贴1.8万元后,实际购车价可降至15.79万元。Pro版和Max版补贴后价格分别降至18.59万元和24.19万元。部分地区针对报废国三标准旧车的用户,还可额外申请2万元报废补贴。

——来自 什么值得买《小米SU7补贴最高省10万!四大版本选购指南+避坑攻略》2025-03-28 13:35:24

3. 数据搜集错误,Auto 模式下给到的 Max 版本续航能力仅有 620km(CLTC),实际上公开数据为 800km。620km 应该为实际综合路况数据或 Ultra 版本的数据;

4. 购买建议上皆未提到小米 SU7 标准版交付周期长达 8 个月的问题。这点真的很重要!

5. …

综上,在四个角度的考察上,Perplexity 唯一能让路卡觉得及格的点就是对任务步骤的拆解,但在执行上是远不及格的,不管是在数据源、时效性还是准确度上,Perplexity 的表现都差强人意,被 ChatGPT 的 DeepResearch 秒杀,甚至不及豆包。

作为 AI 搜索应用的‘祖师爷’,Perplexity 的表现尚且如此,路卡本以为其他 AI 搜索产品也不会带来太多惊喜…但事实证明,我错了。

继续拿同样的 Case 测试完市面上的 AI 搜索应用后,我们发现问小白的效果竟然出奇的好。

其共有 2 种搜索模式:日常搜索与专业搜索。后者相比前者会拆解更多搜索角度,检索更多信息源,信息网更广更深。
此外问小白还提供了 DeepSeek R1 和 DeepSeek V3 两个模型供选择,当需要深度分析时,可以使用 R1,当需要更快地获取搜索结果时,可以使用 V3。

而正是最新上线的问小白 DeepSeek V3 加专业搜索测试出的结果质量超乎了我们的预期!

Perplexity 的 Bad Case 全被其完美地回答了:

1. 出色的时效性问小白对小米 SU7 最新售价与补贴政策的信息搜集上,各版本实际购车价的计算结果与什么值得买社区中 3 月 28 日发布的《小米SU7补贴最高省10万!四大版本选购指南+避坑攻略》文章中价格一致:

2. 精准的数据呈现搜集整理的续航数据与公开数据一致,准确无误:

3. 实用建议不仅给到了标准版的轮毂选装意见,且注意事项中提及了交付周期长的问题:

除了时效性与准确度表现优异外,问小白检索到的信息源数量为 Perplexity 的 4.5 倍,在处理更多信源的前提下,问小白最终报告生成的速度甚至比 Perplexity 更快。

问小白 DeepSeek V3 专业搜索

Perplexity 专业搜索

而据特工们向官方了解到,问小白 AI 搜索之所以能在时效性、准确度及生成速度上优于其他 AI 搜索产品,主要归功于其自研元石大模型+DeepSeek R1/V3的双模能力,和其 RAG 增强能力(在 Chinese SimpleQA 评测中取得 91.60%的 F-score,性能优秀),两者强强结合之下,产生了 ‘1+1>2’ 的奇妙化学反应,在 DeepSeek V3 模型能力基础上实现了更好的 AI 搜索效果:

  • 更广的信源检索:单次搜索请求 3-5 个搜索引擎响应及 20-50 个领域知识库加持,每次检索普遍返回 160+ 信息源;

  • 更快的阅读速度:平均每秒处理 25-50 个信息源,是竞品的 3-5 倍;

  • 更强的信源时效性:资讯类内容分钟级更新,包括微博热点等。

最重要的是,问小白免费不限量,最近邀请好友使用问小白还可以获得抽奖券,有机会抽得华为 Mate XT 三折叠、小米 15Ultra 和黄金。

既然问小白 AI 搜索在信源广度与时效性方面均表现出色,就不得不联想到更多的应用场景,比如用它来监控基金相关新闻动态就是一个极好的案例。

很巧,问小白的 APP 端刚好就提供了追踪功能:允许用户自定义自己感兴趣的内容话题,让 AI 帮你全网定时找回想要的信息。

以白酒基金新闻追踪为例,创建好追踪任务后,问小白不仅帮忙追踪到了近期的白酒相关新闻动态,还顺带做了机构预判与投资策略。

能看到,即便是 ChatGPT 早已经上线了 Deep Research 功能,也并不意味着问小白等 AI 搜索应用就宣告死亡了,我们还是能在这些产品上找到一些独立于搜索之外的性感功能。

谈到 ChatGPT 的 Deep Research 功能,特工们发现了问小白正在内测一项名为‘小白研报’的功能,根据官方展示的 Case 来看这是一个对标前者的功能,与 ChatGPT 的 Deep Research 不同的是小白研报最终给到的是一份可视化的‘网页’,以下为一个官方放出的‘雷军与小米的成功故事’ Case:

可见,生成的效果很不错,辅以可视化图表后,让研究报告的可读性更强了。特工们特意去了解了下小白研报的背景,得知小白研报是一个 Pro 版本的联网搜索,对于需要大量资料、复杂推理及内容解析的项目能够提供有效的帮助。

在这样的多维度信息整合与逻辑推理能力的场景,大模型会根据用户需求不断地搜索-推理-总结-再搜索… 直到完成用户需求,输出一个专业、并且经过高度视觉化整理后的“网页”。

虽然‘小白研报’的功能正在内测,但特工们发现其实问小白现在已支持‘将答案转成精致的网页’。伴随着 AI 搜索、总结能力的提升与设计能力的加强,或许将来有一天我们就能直接拿着搜索结果去汇报了!

综上,模型的不断进化其实是为各领域带来了新的可能。正如 DeepSeek 为问小白带来了更精准、时效性强、丰富的信息搜索整合能力,ChatGPT 4o 的多模态绘图功能其实为艺术设计师带来的是更高效的创作工具。设计师们的价值在于创意,而非单纯技法,我们应该为有更智能的创作工具而兴奋,而不是焦虑、恐慌。

(文:特工宇宙)

欢迎分享

发表评论