
在去年年底的采访里,合伙人Konstantine Buhler说,今年将成为Agent元年。
原因在于,Agent获取信息的方式和工作流上已经发生了巨大变化,它们不仅可以能同时打开多个网页,从网络中获取信息、思考内容,还能调用多个工具来完成任务。
Agent能力的变化,也带来了新的机会。今年以来,Agent浏览器开始火了起来,Browser Use、Fellou、Dia等Agent浏览器产品逐渐爆火海内外。
所谓Agnet专用浏览器,就好比一群AI组团在你的电脑上打工,而且他们被折叠在一个浏览器这个空间内,不占用界面和资源。
这个新兴赛道,正在受到投资人关注。
Browserbase成立刚满一年,就已融资千万美金、估值上亿美金。而由于Manus而爆火的Browser Use,也在最近拿到了千万美金种子轮。
由于产品形态过于早期,这些公司对Agent浏览器的理解也有着巨大差异。今天,乌鸦君就带你来看看这个由Agent催生的新赛道。
/ 01 /
为什么Agent需要一个浏览器?
在今年3月,Manus横空出世,这个能像人类一样熟练操作浏览器的智能体,瞬间点燃了行业热情。
但也催生了很多基础设施的变化,比如浏览器。
简单来说,浏览器的使用者正在逐渐从人类用户转移到AI Agent,传统浏览器产品更多是基于人类用户操作习惯而设计的,无法满足AI Agent自动化抓取、交互和实时数据处理的需求。
在Browserbase创始人的早期备忘录里,曾详细阐述传统浏览器在AI时代的不足:
-
普通浏览器,数据抓取困难。这种浏览器的网站动态加载、交互复杂,部分网页还有反爬虫机制,且网页结构多变,解析数据不易。
-
无界面浏览器(headless browser)页面加载过慢,Agent抓取容易出错。这种浏览器原来用于网页处理、爬虫、自动化测试等。在无界面模式下,页面元素的加载时间长,元素未完全加载完毕,就可能被Agent自动化抓取或交互,从而出错。
在这种情况下,“Agent专用浏览器”的讨论逐渐进入人们的视野。
今年以来,越来越多AI公司开始推出Agent浏览器产品。比如,今年2月,Perplexity CEO Aravind宣布,公司将推出自己的浏览器。
在Aravind看来,浏览器是构建Agents的唯一方式。原因是目前没有其他方式能让AI代理同时控制多个应用,尤其是在iOS上,甚至无法访问其他应用,这是苹果生态的限制。而浏览器是一个非常好的解决方案。
除了Perplexity下场外,还有一些做Agent浏览器的AI创业公司也开始拿到融资,并且在商业化上取得了突破。

其中,Browserbase是最早一批做Agent浏览器的研发商,该公司也才刚成立一年。4月22日,Browserbase完成最新B轮融资,由Notable Capital领投。
据“投资实习所”透露,该公司此轮投后估值达到3亿美金。在此之前,该公司已完成3轮融资,总融资2750万美元。
浏览器自动化代理Browser Use,也在今年拿到了1700 万美元融资,由 Felicis Ventures 领投,A Capital、Nexus Ventures、Y Combinator、Paul Graham、Liquid2、SV Angel、Pioneer Fund 等跟投。
曾推出Arc浏览器的AI明星公司The Browser Company,也在今年推出了自己的Agent浏览器Dia。
4月21日,云服务商Authing的创始人谢扬公布了Agent浏览器Fellou。据介绍,Fellou是全球首个Agentic Browser,即行动型浏览器,你可以理解为是一群AI组团在你的电脑上打工,且它们可以隐身在一个影子空间内,不影响你的操控。
那么这些各家在设计产品时,思路上各有什么不同?
/ 02 /
选AI-native,还是易用性?
以下是市面上几家Agent浏览器的产品形态和各自特点:
-
Browserbase:自带视觉模型的理解系统,功能丰富
Browserbase没有图形化界面,直接在内存中完成所有操作,包括点击链接、抓取网页内容等,而无需关心服务器的管理和维护。另一方面,它能利用大模型(LLM)和视觉语言模型(VLM),理解网页语义和自适应页面变化,从而实现自然语言交互。
它降低了Agent开发的门槛,包括帮助绕过反爬虫措施、管理和协调多账号操作,并且能够提供一个稳定、不易因网络问题中断的执行环境。特别是在处理那些缺乏现代API的传统网页时,发挥着重要作用。它还允许会话回放,逐页回放浏览器会话,以检查操作和网络请求。
-
Browser Use:把网页拆解成“结构化文本”让AI理解
Browser Use创始人Magnus Müller认为,当前大多数AI代理依赖于基于计算机视觉的方法来“观察”和浏览网页,这种方法存在速度慢、成本高,且效果不稳定的问题。
“许多代理依赖于视觉系统,试图通过屏幕截图来理解网站,但这种方式常常出现问题。”他解释道,“我们将网站转化为代理能够理解的结构化内容。这意味着我们可以以更低的成本重复执行相同的任务。”
让AI更容易浏览网站,是Browser Use产品的核心逻辑。简单来说,Browser Use把网站上的按钮和元素拆解成一种更容易理解、更像“文本”的格式给Agent用。这能帮助Agent搞清楚网页有哪些选项,运行多个AI代理,然后自主做出决策。
具体来说,Agent可以用Browser Use做这些:
兼容GPT-4、Claude、Llama等;
支持异步编程,让AI代理能非阻塞地执行网络请求和浏览器操作;
支持多标签页管理、视觉识别、内容提取;
能记录和重复执行特定动作;
支持开发者自定义动作,如保存文件、推送到数据库等。
-
Dia:超级搜索框,Agent处理精细度高
Dia看起来极简,只有搜索框,但对AI对搜索内容的分析精细度和融入Agent能力突出。
▲Dia概念视频;来自:官网
其产品逻辑是将AI作为核心构建理念,打造一个由AI驱动的浏览环境,让AI深度融入浏览器的各个环节,成为浏览器底层的能力。最主要的两个方面:
一是以AI为核心的交互模式。Dia通过智能输入建议,在用户输入时提供续写、扩写或总结等功能。用户还能通过地址栏输入自然语言命令,指示浏览器执行查找文档、发送邮件、从网页提取数据填入文档等任务。
二是类似操作系统的定位。创始人Josh Miller的野心是把浏览器从单纯的内容展示工具,变成操作系统般的存在,使产品管理个人偏好和行为,在系统层面实现跨设备的AI体验。
举例来说,Dia产品基于Chromium引擎特定版本,输入问题后有Google/Chat选项,Chat可调用自带大模型给出答案,有历史聊天记录,遇到复杂问题会联网搜索。交互设计方面,划词后右侧能直接提供查找或解释功能,支持通过“@”调用各个网页标签。

▲Dia浏览器邀请码在二手市场最高被卖到888元
-
Fellou:交付结果PPT化,帮助用户高效吸收
Fellou定位于“浏览器型的AI助手”,重点在于任务结果的交付。与多数以对话为主的Agnet浏览器不同,Fellou做了交付结果的可视化。这种PPT或者是图化的知识呈现对用户来说,是非常高效的。
具体来说,它将浏览器、Agent、工作流自动化,三者整合成了“行动型浏览器(Agentic Browser)”。
用户只需要一句话,Fellou就能自动解析指令、智能拆解任务,并跨多个网页和系统调度操作,从数据采集、表单填写到最终报告生成。比如,用户在Threads上发布的内容,要求fellow抓取后在Twitter上发布,并按照内容本身的threads形式发布多条动态。
▲将8款Product Hunt热门产品信息添加到Notion;来自:官网
Fellou还增加了对本地电脑的控制,行动空间更大。一般Agent浏览器跟微信、钉钉等生态不兼容,但是Fellou开箱即用。如manus、OpenAI的Agent,也只能在公开网站上来运行,访问领英等网站时会因为虚拟机而受到限制,而本地运行的Fellou就不存在这个问题。
/ 03 /
总结
作为大模型目前能调用的最重要的工具之一,浏览器在Agent落地中拥有着相当重要的场景价值。这也是OpenAI有兴趣收购Chrome的原因。
不过,作为一个新兴的产品形态,Agent浏览器的发展仍然处于早期。未来的Agnet浏览器形态,答案到底在谁那里?让我们一起期待。
文/朗朗
PS:如果你对AI大模型领域有独特的看法,欢迎扫码加入我们的大模型交流群。
(文:乌鸦智能说)