浏览器自动化工具 browser-use:让 AI 轻松操控网页

Anthropic于去年10月底提出了“computer use”概念后,有很多这样的工具和框架随之出现,之前介绍过很多computer-use方面的Agent工具。

重磅消息:Claude 3.5 系列模型大更新及革命性增加计算机使用能力

最快体验 Claude 3.5 Sonnet 控制电脑方法来了!

“computer use”赛道战火将起,哪个模型最强,这个评估平台可以了解一下

今天介绍一款操作浏览器的自动化工具——brower-use,它是由gregpr07,MagMueller等人在去年11月初发布,随着能力不断完善,最近明显获得社区关注,星标量超过了12k。它能够自动化控制浏览器操作,让 AI 像人类一样浏览网页、点击链接、提取信息。

它的核心功能包括:

  1. 自动化网页浏览:AI 可以自动打开网页、点击链接、填写表单
  2. 信息提取:从网页中提取文本、图片等关键信息
  3. 任务执行:完成复杂的多步骤网页操作任务

该工具安装,使用都比较简单,基于langchain工具链及自动化框架playwright实现,因此基于其扩展也比较容易,支持主流 AI 模型,包括 OpenAI 和Anthropic 的LLM。

from langchain_anthropic import ChatAnthropic
from browser_use import Agent
import asyncio

llm = ChatAnthropic(model="claude-3.5-sonnet-20241022")

async def main():
   agent = Agent(
       task="Find a one-way flight from Bali to Oman on 12 January 2025 on Google Flights. Return me the cheapest option.",
       llm=llm,
   )
   result = await agent.run()
   print(result)

asyncio.run(main())

通过简单的代码,开发者就可以让 AI 完成各种网页操作任务。例如,查询股票价格、查找航班信息、浏览新闻网站等。

AI自动投递简历例子

总而言之,Browser-use 是一款功能强大、易于使用的浏览器自动化工具,适合开发者基于它开发一些小工具提升效率。如果你正在寻找一款可以操作浏览器自动化的工具,可以考虑它。

(文:AI工程化)

欢迎分享

发表评论