本文分享一个实用的AI 浏览器代理工具。
这是一个强大的Python项目「ai-gradio」,它在Gradio的基础上,提供了一个统一的接口来调用各种AI模型和服务。上面视频展示了其中一个强大功能:让AI模型自动操作浏览器执行网页任务。
核心功能
这个工具库支持的功能包括:
-
多提供商支持:无缝接入OpenAI、Google Gemini、Anthropic等15+家AI服务商
-
文本对话:支持所有文本模型的交互式聊天界面
-
语音对话:支持与OpenAI模型进行实时语音交互
-
视频对话:支持Gemini模型的视频处理能力
-
代码生成:专门的编码辅助界面
-
多模态支持:文本、图像、视频输入全覆盖
-
Agent团队:通过CrewAI集成实现AI协作任务
-
浏览器自动化:支持AI执行网页任务
超全模型支持
核心语言模型支持:
-
OpenAI:gpt-4-turbo、gpt-4、gpt-3.5-turbo
-
Anthropic:claude-3-opus、claude-3-sonnet、claude-3-haiku
-
Gemini:gemini-pro、gemini-pro-vision、gemini-2.0-flash-exp
-
Groq:llama-3.2-70b-chat、mixtral-8x7b-chat
专业模型支持:
-
LumaAI:dream-machine、photon-1
-
DeepSeek:deepseek-chat、deepseek-coder、deepseek-vision
-
Qwen:qwen-turbo、qwen-plus、qwen-max
-
Browser:browser-use-agent
快速上手指南
安装超简单,根据需要选择不同的安装命令:
# 安装核心包
pip install ai-gradio
# 安装特定提供商支持
pip install 'ai-gradio[openai]' # OpenAI支持
pip install 'ai-gradio[gemini]' # Google Gemini支持
pip install 'ai-gradio[anthropic]' # Anthropic Claude支持
pip install 'ai-gradio[groq]' # Groq支持
# 安装所有提供商支持
pip install 'ai-gradio[all]'
几行代码搞定AI应用
创建简单的聊天界面:
import gradio as gr
import ai_gradio
gr.load(
name='openai:gpt-4-turbo', # 或 'gemini:gemini-1.5-flash'
src=ai_gradio.registry,
title='AI Chat',
description='Chat with an AI model'
).launch()
开启语音对话功能:
gr.load(
name='openai:gpt-4-turbo',
src=ai_gradio.registry,
enable_voice=True,
title='AI Voice Assistant'
).launch()
浏览器自动化功能(需要Python 3.11+):
gr.load(
name='browser:gpt-4-turbo',
src=ai_gradio.registry,
title='AI Browser Assistant',
description='Let AI help with web tasks'
).launch()
特别注意事项
使用前需要配置相关API密钥:
# 核心提供商
export OPENAI_API_KEY=<your token>
export GEMINI_API_KEY=<your token>
export ANTHROPIC_API_KEY=<your token>
export GROQ_API_KEY=<your token>
# 语音功能需要Twilio凭证
export TWILIO_ACCOUNT_SID=<your Twilio account SID>
export TWILIO_AUTH_TOKEN=<your Twilio auth token>
系统要求:
-
Python 3.10+ -
gradio >= 5.9.1 -
语音功能:需要gradio-webrtc、numba==0.60.0、pydub、librosa -
视频功能:需要opencv-python、Pillow -
Agent团队:需要crewai>=0.1.0、langchain>=0.1.0
项目已在GitHub开源:
https://github.com/AK391/ai-gradio
这个工具库不仅整合了主流AI服务,还提供了统一简洁的接口,大大简化了AI应用的开发流程。
无论是想要快速搭建AI聊天机器人,还是开发复杂的多模态应用,都能轻松实现。
你最想用ai-gradio 做什么?
(文:AGI Hunt)