基于o3-mini 的浏览器agent,打造属于自己的Operator

本文分享一个实用的AI 浏览器代理工具。

这是一个强大的Python项目「ai-gradio」,它在Gradio的基础上,提供了一个统一的接口来调用各种AI模型和服务。上面视频展示了其中一个强大功能:让AI模型自动操作浏览器执行网页任务

核心功能

这个工具库支持的功能包括:

  • 多提供商支持:无缝接入OpenAI、Google Gemini、Anthropic等15+家AI服务商

  • 文本对话:支持所有文本模型的交互式聊天界面

  • 语音对话:支持与OpenAI模型进行实时语音交互

  • 视频对话:支持Gemini模型的视频处理能力

  • 代码生成:专门的编码辅助界面

  • 多模态支持:文本、图像、视频输入全覆盖

  • Agent团队:通过CrewAI集成实现AI协作任务

  • 浏览器自动化:支持AI执行网页任务

超全模型支持

核心语言模型支持:

  • OpenAI:gpt-4-turbo、gpt-4、gpt-3.5-turbo

  • Anthropic:claude-3-opus、claude-3-sonnet、claude-3-haiku

  • Gemini:gemini-pro、gemini-pro-vision、gemini-2.0-flash-exp

  • Groq:llama-3.2-70b-chat、mixtral-8x7b-chat

专业模型支持:

  • LumaAI:dream-machine、photon-1

  • DeepSeek:deepseek-chat、deepseek-coder、deepseek-vision

  • Qwen:qwen-turbo、qwen-plus、qwen-max

  • Browser:browser-use-agent

快速上手指南

安装超简单,根据需要选择不同的安装命令:

# 安装核心包pip install ai-gradio
# 安装特定提供商支持pip install 'ai-gradio[openai]' # OpenAI支持pip install 'ai-gradio[gemini]' # Google Gemini支持pip install 'ai-gradio[anthropic]' # Anthropic Claude支持pip install 'ai-gradio[groq]' # Groq支持
# 安装所有提供商支持pip install 'ai-gradio[all]'

几行代码搞定AI应用

创建简单的聊天界面

import gradio as grimport ai_gradio
gr.load( name='openai:gpt-4-turbo', # 或 'gemini:gemini-1.5-flash' src=ai_gradio.registry, title='AI Chat', description='Chat with an AI model').launch()

开启语音对话功能

gr.load(    name='openai:gpt-4-turbo',    src=ai_gradio.registry,    enable_voice=True,    title='AI Voice Assistant').launch()

浏览器自动化功能(需要Python 3.11+):

gr.load(    name='browser:gpt-4-turbo',    src=ai_gradio.registry,    title='AI Browser Assistant',    description='Let AI help with web tasks').launch()

特别注意事项

使用前需要配置相关API密钥:

# 核心提供商export OPENAI_API_KEY=<your token>export GEMINI_API_KEY=<your token>export ANTHROPIC_API_KEY=<your token>export GROQ_API_KEY=<your token>
# 语音功能需要Twilio凭证export TWILIO_ACCOUNT_SID=<your Twilio account SID>export TWILIO_AUTH_TOKEN=<your Twilio auth token>

系统要求:

  • Python 3.10+
  • gradio >= 5.9.1
  • 语音功能:需要gradio-webrtc、numba==0.60.0、pydub、librosa
  • 视频功能:需要opencv-python、Pillow
  • Agent团队:需要crewai>=0.1.0、langchain>=0.1.0

项目已在GitHub开源

https://github.com/AK391/ai-gradio

这个工具库不仅整合了主流AI服务,还提供了统一简洁的接口,大大简化了AI应用的开发流程。

无论是想要快速搭建AI聊天机器人,还是开发复杂的多模态应用,都能轻松实现。

你最想用ai-gradio 做什么?

(文:AGI Hunt)

欢迎分享

发表评论