
新智元报道
新智元报道
【新智元导读】AI组队自主开发时代来临!OpenAI Operator和Replit Agent组队编程,仅在5个提示90分钟内完成了应用程序的开发。



开源Brower-Use构建智能体




快速启动
pip install browser-use
安装playwright: playwright install
启动你的智能体: from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
from dotenv import load_dotenv
load_dotenv()
async def main():
agent = Agent(
task="Go to Reddit, search for 'browser-use', click on the first post and return the first comment.",
llm=ChatOpenAI(model="gpt-4o"),
)
result = await agent.run()
print(result)
asyncio.run(main())
将你想使用的提供商的API密钥添加到.env文件中。 OPENAI_API_KEY=
使用UI测试 你可以通过一个UI仓库来测试浏览器使用,或者简单地运行gradio示例: uv pip install gradio
python examples/ui/gradio_demo.py
除了Browser Use,另一位网友还推荐了微软团队开发的OmniParser V2的项目,也是利用AI操控屏幕帮人类完成复杂任务。 这两者开发的主要区别在于,OmniParser V2是图形用户界面自动化和屏幕解析,输入的是UI截图,输出的是大模型的结构化数据。 而Browser Use主要用在debug和代码导航,输入代码或程序执行文本,输出的是debug观点和导航。 两者侧重各有所不同,可依据实际使用场景择优选择。 AI自主开发,震惊全网
2025年,几乎所有科技大厂将赌注压在了智能体之上。 在巴黎AI行动峰会上,图灵奖得主Yann LeCun表示,Meta将在明年推出,带有显示屏和肌电接口的智能眼镜。 完全增强现实眼镜将在几年内问世,届时,我们每个人都会管理一支由人类级智能的AI智能体组成的团队。 奥特曼在通常会议中表示,如果AI智能体只需50美分的计算成本,就能完成5000美元的工作,那么AI带来的经济机会规模将是「瓶装闪电。 学术界,也将智能体的研究作为一个重点。 前段时间,来自斯坦福团队研究人员通过多智能体强化学习(multi-agent RL),训练LLM掌握战略性社交推理,结果发现,使胜率比标准强化学习提升一倍。
论文地址:https://www.alphaxiv.org/abs/2502.06060 1997年:深蓝(Deep Blue)击败卡斯帕罗夫(Kasparov) 2016年:AlphaGo精通围棋 2025年:斯坦福研究人员攻克《Among Us》 另有微软团队开源了OmniParser V2,可以将任何大模型转换为能够使用计算机的智能体。 以上demo中,两个AI分工协作的强大能力,让许多人窥见了另一个未来。 AI研究员David Shapiro表示,这比人们想象的要重要得多。人类发现了「分工」这一概念,改变了人类文明。 从来都不会是一个智能体单打独斗,而是无数智能体协作,「分而治之」去搞定任何任务。 一位教授表示,「这只是未来疯狂场景的一瞥,成百上千的AI智能体协作解决极其复杂的问题,或执行通常需要整个组织的任务——速度和效率是现在的成千上万倍」。 AI智能体时代已经到来! (文:新智元)