这个AI新赛道火了!给Agent做浏览器,千万融资估值3亿美金

在去年年底的采访里,合伙人Konstantine Buhler说,今年将成为Agent元年。


原因在于,Agent获取信息的方式和工作流上已经发生了巨大变化,它们不仅可以能同时打开多个网页,从网络中获取信息、思考内容,还能调用多个工具来完成任务。


Agent能力的变化,也带来了新的机会。今年以来,Agent浏览器开始火了起来,Browser Use、Fellou、Dia等Agent浏览器产品逐渐爆火海内外。


所谓Agnet专用浏览器,就好比一群AI组团在你的电脑上打工,而且他们被折叠在一个浏览器这个空间内,不占用界面和资源。


这个新兴赛道,正在受到投资人关注。


Browserbase成立刚满一年,就已融资千万美金、估值上亿美金。而由于Manus而爆火的Browser Use,也在最近拿到了千万美金种子轮。


由于产品形态过于早期,这些公司对Agent浏览器的理解也有着巨大差异。今天,乌鸦君就带你来看看这个由Agent催生的新赛道。


/ 01 /

为什么Agent需要一个浏览器?


在今年3月,Manus横空出世,这个能像人类一样熟练操作浏览器的智能体,瞬间点燃了行业热情。


但也催生了很多基础设施的变化,比如浏览器。


简单来说,浏览器的使用者正在逐渐从人类用户转移到AI Agent,传统浏览器产品更多是基于人类用户操作习惯而设计的,无法满足AI Agent自动化抓取、交互和实时数据处理的需求。


在Browserbase创始人的早期备忘录里,曾详细阐述传统浏览器在AI时代的不足:


  • 普通浏览器,数据抓取困难。这种浏览器的网站动态加载、交互复杂,部分网页还有反爬虫机制,且网页结构多变,解析数据不易。


  • 无界面浏览器(headless browser)页面加载过慢,Agent抓取容易出错。这种浏览器原来用于网页处理、爬虫、自动化测试等。在无界面模式下,页面元素的加载时间长,元素未完全加载完毕,就可能被Agent自动化抓取或交互,从而出错。


在这种情况下,“Agent专用浏览器”的讨论逐渐进入人们的视野。


今年以来,越来越多AI公司开始推出Agent浏览器产品。比如,今年2月,Perplexity CEO Aravind宣布,公司将推出自己的浏览器。


在Aravind看来,浏览器是构建Agents的唯一方式。原因是目前没有其他方式能让AI代理同时控制多个应用,尤其是在iOS上,甚至无法访问其他应用,这是苹果生态的限制。而浏览器是一个非常好的解决方案。


除了Perplexity下场外,还有一些做Agent浏览器的AI创业公司也开始拿到融资,并且在商业化上取得了突破。



其中,Browserbase是最早一批做Agent浏览器的研发商,该公司也才刚成立一年。4月22日,Browserbase完成最新B轮融资,由Notable Capital领投。


据“投资实习所”透露,该公司此轮投后估值达到3亿美金。在此之前,该公司已完成3轮融资,总融资2750万美元。


浏览器自动化代理Browser Use,也在今年拿到了1700 万美元融资,由 Felicis Ventures 领投,A Capital、Nexus Ventures、Y Combinator、Paul Graham、Liquid2、SV Angel、Pioneer Fund 等跟投。


曾推出Arc浏览器的AI明星公司The Browser Company,也在今年推出了自己的Agent浏览器Dia。


4月21日,云服务商Authing的创始人谢扬公布了Agent浏览器Fellou。据介绍,Fellou是全球首个Agentic Browser,即行动型浏览器,你可以理解为是一群AI组团在你的电脑上打工,且它们可以隐身在一个影子空间内,不影响你的操控。


那么这些各家在设计产品时,思路上各有什么不同?


/ 02 /

选AI-native,还是易用性?


以下是市面上几家Agent浏览器的产品形态和各自特点:


  • Browserbase:自带视觉模型的理解系统,功能丰富


Browserbase没有图形化界面,直接在内存中完成所有操作,包括点击链接、抓取网页内容等,而无需关心服务器的管理和维护。另一方面,它能利用大模型(LLM)和视觉语言模型(VLM),理解网页语义和自适应页面变化,从而实现自然语言交互。


它降低了Agent开发的门槛,包括帮助绕过反爬虫措施、管理和协调多账号操作,并且能够提供一个稳定、不易因网络问题中断的执行环境。特别是在处理那些缺乏现代API的传统网页时,发挥着重要作用。它还允许会话回放,逐页回放浏览器会话,以检查操作和网络请求。


Browserbase试用;来自:X用户MapleShaw


  • Browser Use:把网页拆解成“结构化文本”让AI理解


Browser Use创始人Magnus Müller认为,当前大多数AI代理依赖于基于计算机视觉的方法来“观察”和浏览网页,这种方法存在速度慢、成本高,且效果不稳定的问题。


“许多代理依赖于视觉系统,试图通过屏幕截图来理解网站,但这种方式常常出现问题。”他解释道,“我们将网站转化为代理能够理解的结构化内容。这意味着我们可以以更低的成本重复执行相同的任务。”


让AI更容易浏览网站,是Browser Use产品的核心逻辑。简单来说,Browser Use把网站上的按钮和元素拆解成一种更容易理解、更像“文本”的格式给Agent用。这能帮助Agent搞清楚网页有哪些选项,运行多个AI代理,然后自主做出决策。


具体来说,Agent可以用Browser Use做这些:


兼容GPT-4、Claude、Llama等;

支持异步编程,让AI代理能非阻塞地执行网络请求和浏览器操作;

支持多标签页管理、视觉识别、内容提取;

能记录和重复执行特定动作;

支持开发者自定义动作,如保存文件、推送到数据库等。


  • Dia:超级搜索框,Agent处理精细度高


Dia看起来极简,只有搜索框,但对AI对搜索内容的分析精细度和融入Agent能力突出。


Dia概念视频;来自:官网


其产品逻辑是将AI作为核心构建理念,打造一个由AI驱动的浏览环境,让AI深度融入浏览器的各个环节,成为浏览器底层的能力。最主要的两个方面:


一是以AI为核心的交互模式。Dia通过智能输入建议,在用户输入时提供续写、扩写或总结等功能。用户还能通过地址栏输入自然语言命令,指示浏览器执行查找文档、发送邮件、从网页提取数据填入文档等任务。


二是类似操作系统的定位。创始人Josh Miller的野心是把浏览器从单纯的内容展示工具,变成操作系统般的存在,使产品管理个人偏好和行为,在系统层面实现跨设备的AI体验。


举例来说,Dia产品基于Chromium引擎特定版本,输入问题后有Google/Chat选项,Chat可调用自带大模型给出答案,有历史聊天记录,遇到复杂问题会联网搜索。交互设计方面,划词后右侧能直接提供查找或解释功能,支持通过“@”调用各个网页标签。



▲Dia浏览器邀请码在二手市场最高被卖到888元


  • Fellou:交付结果PPT化,帮助用户高效吸收


Fellou定位于“浏览器型的AI助手”,重点在于任务结果的交付。与多数以对话为主的Agnet浏览器不同,Fellou做了交付结果的可视化。这种PPT或者是图化的知识呈现对用户来说,是非常高效的。


具体来说,它将浏览器、Agent、工作流自动化,三者整合成了“行动型浏览器(Agentic Browser)”。


用户只需要一句话,Fellou就能自动解析指令、智能拆解任务,并跨多个网页和系统调度操作,从数据采集、表单填写到最终报告生成。比如,用户在Threads上发布的内容,要求fellow抓取后在Twitter上发布,并按照内容本身的threads形式发布多条动态。


▲将8款Product Hunt热门产品信息添加到Notion;来自:官网


Fellou还增加了对本地电脑的控制,行动空间更大。一般Agent浏览器跟微信、钉钉等生态不兼容,但是Fellou开箱即用。如manus、OpenAI的Agent,也只能在公开网站上来运行,访问领英等网站时会因为虚拟机而受到限制,而本地运行的Fellou就不存在这个问题。


/ 03 /

总结


作为大模型目前能调用的最重要的工具之一,浏览器在Agent落地中拥有着相当重要的场景价值。这也是OpenAI有兴趣收购Chrome的原因。


不过,作为一个新兴的产品形态,Agent浏览器的发展仍然处于早期。未来的Agnet浏览器形态,答案到底在谁那里?让我们一起期待。



文/朗朗


PS:如果你对AI大模型领域有独特的看法,欢迎扫码加入我们的大模型交流群。


(文:乌鸦智能说)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往