每个有野心的AI浏览器都想成为新的操作系统

作者周一笑
邮箱zhouyixiao@pingwest.com

你多久没换过主力浏览器了?或者说,你知不知道浏览器其实是可以更换的?对许多人而言,浏览器就像电灯,每天都会打开,却又熟视无睹。几十年来,从开先河的Mosaic到如今几乎垄断市场的Chrome,浏览器那张“脸”,几乎就没怎么变过:地址栏、书签、刷新按钮——一套雷打不动的组合。我们早已习惯,甚至麻木。主流浏览器提供的功能,对绝大多数人来说,已经足够好,但似乎也足够“无聊”了。

然后,AI 来了。这个沉寂已久的领域开始发生变化。AI裹挟着终端设备、操作系统、应用,乃至芯片的加速进化,浏览器也站在了变化的中心,不再甘心只是网页的容器,而是试图挣脱旧的躯壳,成为更多。

1

浏览器,正在被 AI “重新发明”

在AI这把火点燃之前,很难在浏览器市场掀起浪花。少数巨头早已划定了势力范围,用户也几乎容不得任何偏离常规的设计。即便是那些打着“生产力提升”旗号的新产品,也大多因为一点点体验瑕疵或关键扩展的缺失,在一波尝鲜用户之后就被打回原形。但现在,游戏规则似乎变了。

一批最有野心的AI创业者正带着不同的剧本冲了进来。他们不再满足于给浏览器打个 AI 补丁,在侧边栏加个聊天框。他们的目标更为根本——用AI彻底重塑浏览器的核心逻辑,改变我们与互联网互动的方式。简单来说,他们想让浏览器拥有自己的“大脑”和“双手”,替你“思考”,更能替你“行动”。

首先是The Browser Company(TBC),这家公司的名字本身就带着明确的野心。TBC的第一款产品Arc就是融入了AI功能的浏览器,而他们推出的新产品 Dia 浏览器,则抛出一个更具颠覆性的愿景:“AI 不会仅仅是一个应用或一个按钮……它将是一个构建在浏览器之上的全新环境。” TBC认为AI将构成新的计算环境的基础,而浏览器将是其核心。看看他们想让 Dia 干的事,或许就能理解这句话的意思。

设想一下,你不再需要在不同应用和网页间手忙脚乱地切换,只需在 Dia 的地址栏用大白话下达指令——“帮我找到上周那份关于市场趋势的报告,然后用邮件发给张三”,更进一步,“帮我把这些东西加到亚马逊购物车”,浏览器也能代劳。

理想和现实之间总是有一些距离。Dia目前的早期版本,离他们第二支宣传片中那种能替你办事的AI似乎还有十万八千里,有人犀利地指出它在一些产品细节上有些亮点,但“本质上就是在 Chrome 上加了一层 ChatGPT 的外衣”。

Dia浏览器并未采用 Arc 浏览器的纵向标签栏(Arc的核心创新之一)设计,而是重新使用了用户熟悉的横向标签页模式;首页设计极其简洁,只保留了一个输入框,提供 Google 搜索和 Chat 两个选项。

Personalization功能可以优化的预设Prompt,可设置你的语言偏好、表达风格,AI会智能调整以匹配。但实际上无论你如何尝试个性化Dia,它给人的感觉依然像是ChatGPT。

那个号称能查看页面上所有内容的AI侧边栏功能,实际上任何非纯文本内容,都无法读取,反而会试图编造答案。

创始人Josh Miller在X上引以为傲的案例是用户可整合多个标签页的上下文执行复杂任务,例如根据一个标签页内容撰写文档却采用另一标签页的排版风格,或将打开的标签页转换为对比表格和报告。

Josh Miller称之为极致上下文建构(tripling-down on context),这也是它试图区别于其他 AI 产品(比如 ChatGPT、Copilot、Perplexity)的关键。他认为AI 在浏览器里的关键不是模型多强,而是有没有完整的上下文能喂给它。

从Josh Miller透露的产品规划来看,Dia想做的是一个会成长的AI交互层,它学习你的习惯、自动适配你的任务。

如果说Dia和它背后的公司还披着一些“文艺”的外衣,那Fellou就显得更“工科直男”一些,这两个产品在理念上有些相似之处,而Fellou在产品实现上甚至更进一步,打出“世界首款代理式浏览器 (Agentic Browser)”旗号。它的核心概念是“代理式深度行动 (Agentic Deep Action)”。这话听起来比 Dia 的“全新环境”更“技术流”一些,但内核如出一辙:让浏览器更主动、更深度地介入你的工作流。

Fellou声称,它的AI Agent不仅能帮你处理公共领域的开放数据,还能深入你的“私有领地”(比如本地文件或需要登录的平台),进行复杂的研究和信息编译。更诱人的一点是,这些任务可以在一个“影子窗口”中悄无声息地执行,不打扰你正在进行的“主要工作”——当然,也可能不打扰你“摸鱼”。

例如,我们让Fellou根据需求去电商上找一些商品推荐的选项,它的操作步骤和常见Agent类产品一样,区别是会在本地的浏览器中执行,因此可以让用户登陆相应的网站账号,从而进行跨平台检索,最后会输出一份可视化呈现的报告。

完整报告:https://chat.fellou.ai/report/7bd96eee-385d-4b46-a12e-cdb66516f25d

Fellou还可以自动化执行一些任务,任务自动化:能够自动执行重复性或复杂的在线任务,比如打开亚马逊将商品添加到购物车、会议预订等。我们让Fellou打开小红书,给硅星人最新的一条笔记留一条评论:

Fellou成功的执行了任务,全程的操作过程如下:

视频经5倍速处理

不过从用户的反馈整体看来,其自动化任务执行的稳定性有待提升,比如即使同样的任务,也不能保证每次都能复现,复杂任务可能出现中断或错误,由于环境是在本地,处理大量标签页时,可能出现卡顿或响应迟缓的情况。

Perplexity也是试图革新浏览器的重磅玩家,正在推进其浏览器产品Comet的开发,Perplexity2025年2月宣布正在开发Comet,5月中旬进入封闭Beta测试阶段。

从有限的测试者反馈看,Comet支持从Google Chrome导入书签、密码等数据。测试版中,用户可通过“Comet助手”下达指令,实现关闭/打开标签页、分组标签页、关闭重复标签、查看购物车、帮助查找未回复邮件等功能。

CometBeta版截图

Comet会根据用户的浏览历史和打开的标签页(所有数据均本地存储,不用于模型训练)提供个性化响应。它还将Perplexity的核心搜索功能集成到侧边栏中,可在所有网站上访问,使用户无需切换标签页即可查询、总结或探索内容。

此外,Comet的电子邮件邀请函中强调了诸如分析收件箱、准备面试以及生成会议记录等使用场景——这些功能旨在“每周节省数小时”。

当然,也有用户对Comet提出疑问,质疑其开发独立浏览器的必要性,如果只是为了集成那些AI功能,其实完全可以在现有Perplexity网页或插件上实现,无需另做一个浏览器 。

整体来看,Comet的愿景可总结为短期内稳步推出产品、完善AI浏览体验,长期则瞄准打造“浏览器即操作系统”的生态。在Srinivas看来,回答问题的AI能力终将成为各家必备的基础功能(commodity),真正的竞争优势将来自于帮助用户执行操作。

他明确表示,开发Comet浏览器是公司长远战略的重要一步,其最终愿景是构建一个类似 Windows、Mac或Android/iOS的全能AI操作系统,“我们的计划是开发一个操作系统,让用户几乎可以在其中完成一切”。

值得注意的是,Perplexity 已公开表示将利用这些丰富的用户数据来构建用户画像,并用于推出高度定制化的广告和服务 。Srinivas 在采访中坦言,这是他们打造浏览器的原因之一:“我们想获取应用之外的所有数据来更好地理解你……例如你购买了什么、去哪些酒店、浏览哪些内容,这些信息能更全面地告诉我们你的情况” ,这引发了不少网友对隐私的顾虑。

显然,从惊艳的概念到无缝的体验,Dia、Fellou和Comet们还有很长的路要走,不过他们展现出的核心理念本身,就已经捅破了传统浏览器功能的天花板。

1

巨头在行动

眼看AI创业者试图重新发明浏览器这个古老物种,巨头们自然也不会坐视不理,只不过巨头们的动作显得更为复杂。

微软算是其中动作最快的一个。Copilot全面植入Edge浏览器,目标清晰明确,将Edge打造为为每个人服务的AI伴侣。无论是帮你快速总结冗长的网页内容,辅助你润色措辞生硬的邮件,还是根据你的浏览习惯提供个性化的信息流,Copilot都在努力让Edge显得更智能、更贴心。

这是一种典型的“微软式”打法——利用庞大的生态系统为 Edge 导流并提供整合体验,通过AI增强现有功能,提升用户粘性。与其说是创造一个全新的浏览器物种,不如说是给成熟的Edge浏览器装上一个更强大的AI引擎。

相较之下,谷歌Chrome的AI化上则显得更加谨慎。Chrome的体量实在太大了,任何激进的改动都可能牵一发而动全身,影响数以十亿计的用户乃至其核心商业模式。因此,谷歌更多是将AI能力以一种更“润物细无声”的方式融入搜索、广告等核心业务,浏览器本身的AI功能迭代则相对谨慎。

然而,这并不意味着谷歌对AI浏览器的未来掉以轻心。一个颇具玩味的细节是,在美国司法部针对谷歌的反垄断案中,当“剥离Chrome”作为一种可能的处罚被提出时,几乎所有你能想到的科技巨头——包括OpenAI——都毫不掩饰地表达了对Chrome的“浓厚兴趣”。这赤裸裸地揭示了浏览器作为互联网核心入口的战略价值,在AI时代只增不减。谁掌握了浏览器,谁就掌握了塑造未来互联网体验的主导权。

而作为当前AI技术变革的头把交椅,OpenAI的思路则更加“釜底抽薪”。尽管有传闻称其对收购 Chrome抱有幻想,但OpenAI的核心战略似乎并非从头再造一款浏览器,而是要通过其日益强大的基础模型和正在研发的AI Agent产品Operator,Operator通过在OpenAI的服务器上操作远程浏览器来完成任务,它更像是Siri的未来形态,或者说是数字化“管家”。

梳理各方的路径可见,但还需要一些突破;微软谷歌这样的巨头则希望通过AI强化现有生态和用户体验,创业公司们在用AI的理念尝试从根本上颠覆浏览器,最终瞄准的都是深层次的交互革命。

1

“下一代操作系统”的阳谋

要理解为何这些 AI 浏览器创业者和科技巨头都将目光投向“操作系统”这一宏大目标,我们可以回到浏览器的诞生初衷。1989 年,蒂姆·伯纳斯-李爵士创建万维网(WWW),其核心是为了满足科学家、高校及研究机构间便捷共享信息的需求。浏览器的出现正是为了简化这一过程,因此,它最初是围绕“文档”设计的,将互联网视为一个巨大的文档库,而浏览器是访问这些文档的工具。这一核心理念至今未变。

然而,随着生成式 AI 的兴起,我们开始看到网页内容本身的“原子化”。AI 可以将信息从固定的文本、图片、视频等文档格式中解构出来,按需进行分析、总结、提炼,并重新组合成个性化的答案或内容。这本身就在削弱万维网最初“链接文档”的设想及其构建方式。如果信息不再以稳定的、可供链接的“文档”作为基本单元存在,而是以更碎片化、更动态的方式呈现,那么浏览器——这个传统上用来访问文档的工具——又该如何实现它一直以来的核心功能呢?

曾在Netscape任职的Flipboard创始人兼CEO Mike McCue认为,正如浏览器为适应移动优先的世界而“扭曲”成了某种应用形态一样,以个性化、交互性、对话为核心的人工智能系统,将迫使浏览器再次进化。AI正在重塑我们接收和处理信息的方式,随之变化的必然是承载信息的“容器”,浏览器本身、其底层的协议、以及我们与之交互的界面,它们都将发生演变。

有野心的创业者们都敏锐地捕捉到了这一趋势,并试图通过 AI 浏览器来引领这场变革。他们看到了传统浏览器在处理日益复杂和动态的信息、以及用户跨应用任务需求方面的局限性,并试图通过 AI Agent、深度上下文理解和任务自动化来弥补这些不足,将浏览器从一个静态的信息展示工具转变为一个动态的、智能的个人数字助理平台,这与操作系统的功能定位高度契合。

不过,这些新产品面对的挑战也是巨大的。目前许多 AI 浏览器产品,在核心技术层面(至少在用户可感知的层面)显得高度同质化,很大程度上依赖于现有的基础模型能力。Sam Altman说,大学生们倾向于将AI视为一种新型的“操作系统”。而这种“操作系统”式的使用方式,一个深度个性化、无处不在、能主动理解并协助你完成各种任务AI助手,正是OpenAI努力的方向——OpenAI也不会放过这个掌握新时代的入口的机会。

Josh Miller 也表示,“如果 Sam Altman 来模仿,我们再想应对办法。” 这些创业者们已经意识到,自己面对的不只是Chrome这些浏览器,而是同样怀揣着“下一代操作系统”野心的OpenAI这样的巨头们。对Dia,Fellou和Comet们来说,机会的确是巨大的,提出概念来卡住一个位置之后,接下来的竞争只会更加激烈。

点个爱心,再走

(文:硅星人Pro)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往