这AI浏览器代理太强!AI帮你自动完成复杂网页操作,微软开源新神器
ztj100 2025-07-03 20:57 5 浏览 0 评论
大家好,我是每日给大家推荐优秀开源项目的小G。
今天要给大家介绍的这个项目,可能会彻底改变你使用浏览器的方式。想象一下,当你需要在复杂的网站上填写表单、筛选航班信息、定制食物订单,或者从各种网站收集数据生成图表时,不用再一步步手动操作,而是直接告诉AI"帮我完成这个任务",然后AI就能像真人一样操作浏览器,完成所有复杂的网页交互。
这就是今天要介绍的Magentic-UI——一个由微软开源的革命性人机协作浏览器代理系统!
项目介绍
Magentic-UI是微软推出的一个研究原型,它提供了一个以人为中心的界面,背后由多智能体系统驱动,能够自动浏览和执行网页操作、生成和执行代码,以及生成和分析文件。
项目核心特色
与其他浏览器自动化工具不同,Magentic-UI最大的亮点在于其透明且可控的交互界面,让用户能够高效地参与到人机协作循环中。
核心功能详解
协作规划(Co-Planning)
通过聊天和计划编辑器协作创建和批准分步计划,让你和AI共同制定任务执行策略。
协作执行(Co-Tasking)
在任务执行过程中,你可以随时通过浏览器或聊天打断并引导执行过程。Magentic-UI也会在需要时主动寻求澄清和帮助。
操作防护(Action Guards)
对于敏感操作,系统会要求用户明确批准后才执行,确保安全性。
计划学习与检索
从以往的运行中学习,改进未来的任务自动化,并将成功的计划保存在计划库中。可以自动或手动检索保存的计划用于未来类似任务。
并行任务执行
支持同时运行多个任务,通过会话状态指示器让你知道什么时候需要输入或任务已完成。
系统架构
Magentic-UI的底层系统由一个专业化的智能体团队组成,改编自AutoGen的Magentic-One系统:
协调者(Orchestrator)
- 由大语言模型驱动的主导智能体
- 负责与用户协作规划
- 决定何时寻求用户反馈
- 将子任务委派给其他智能体
网页浏览者(WebSurfer)
- 配备可控制网页浏览器的LLM智能体
- 能够点击、输入、滚动、访问页面
- 支持标签管理、选择选项、文件上传、多模态查询
编码者(Coder)
- 配备Docker代码执行容器的LLM智能体
- 可以编写和执行Python和shell命令
文件处理者(FileSurfer)
- 配备Docker代码执行容器和文件转换工具
- 可以定位文件、转换文件为markdown格式、回答文件相关问题
用户代理(UserProxy)
- 代表与Magentic-UI交互的用户
- 协调者可以将工作委派给用户而不是其他智能体
快速开始
环境要求
- 1Docker:Magentic-UI正常运行需要Docker。Windows或Mac用户可以使用Docker Desktop
- WSL2(Windows用户):Windows运行需要WSL2环境
- OpenAI API密钥:通过设置环境变量OPENAI_API_KEY提供
- Python 3.10+:至少需要Python 3.10
PyPI安装
推荐使用虚拟环境避免包冲突:
python3 -m venv .venv
source .venv/bin/activate
pip install magentic-ui
# export OPENAI_API_KEY=<YOUR API KEY>
magentic ui --port 8081
如果使用uv进行依赖管理:
uv venv --python=3.12 .venv
. .venv/bin/activate
uv pip install magentic-ui
运行Magentic-UI
确保Docker正在运行,然后执行:
magentic ui --port 8081
注意:首次运行会需要较长时间构建Docker镜像,后续运行会快很多。
启动后,访问 http://localhost:8081 即可使用界面。
支持其他模型
如需使用Azure模型或Ollama:
# Azure支持
pip install 'magentic-ui[azure]'
# Ollama支持
pip install 'magentic-ui[ollama]'
自定义客户端配置
你可以通过UI设置(右上角图标)配置不同的模型,或创建config.yaml文件:
OpenAI配置示例:
# config.yaml
model_config:&client
provider:autogen_ext.models.openai.OpenAIChatCompletionClient
config:
model:gpt-4o
api_key:<YOURAPIKEY>
max_retries:10
orchestrator_client:*client
coder_client:*client
web_surfer_client:*client
file_surfer_client:*client
action_guard_client: *client
Azure OpenAI配置示例:
# config.yaml
model_config:&client
provider:AzureOpenAIChatCompletionClient
config:
model:gpt-4o
azure_endpoint:"<YOUR ENDPOINT>"
azure_deployment:"<YOUR DEPLOYMENT>"
api_version:"2024-10-21"
azure_ad_token_provider:
provider:autogen_ext.auth.azure.AzureTokenProvider
config:
provider_kind:DefaultAzureCredential
scopes:
-https://cognitiveservices.azure.com/.default
max_retries:10
orchestrator_client:*client
coder_client:*client
web_surfer_client:*client
file_surfer_client:*client
action_guard_client: *client
从源码构建
如果你想从源码构建或参与开发:
1. 克隆仓库:
git clone https://github.com/microsoft/magentic-ui.git
cd magentic-ui
2. 安装依赖:
uv venv --python=3.12 .venv
uv sync --all-extras
source .venv/bin/activate
3. 构建前端:
# 安装Node.js
curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.40.1/install.sh | bash
nvm install node
# 构建前端
cd frontend
npm install -g gatsby-cli
npm install --global yarn
yarn install
yarn build
4. 运行:
magentic ui --port 8081
使用场景
特别适合以下任务:
- 需要在网页上执行操作的任务(填写表单、定制订单等)
- 需要深度导航未被搜索引擎索引的网站(筛选航班、从个人网站找链接等)
- 需要网页导航和代码执行的任务(从在线数据生成图表等)
更多免费AI功能 云片AI:https://y-p.cc/?f=tt
本文完,记得随手点个赞、收藏和转发三连,大家感兴趣的可以关注下,后续我再研究点新东西分享给大家~
关注后私信发送:DeepSeek,即可领取完整版资料
相关推荐
- 人生苦短,我要在VSCode里面用Python
-
轻沉发自浅度寺量子位出品|公众号QbitAI在程序员圈子里,VisualStudioCode(以下简称VSCode)可以说是目前最火的代码编辑器之一了。它是微软出品的一款可扩展的轻量...
- 亲测可用:Pycharm2019.3专业版永久激活教程
-
概述随着2020年的到来,又有一批Pycharm的激活码到期了,各位同仁估计也是在到处搜索激活方案,在这里,笔者为大家收录了一个永久激活的方案,亲测可用,欢迎下载尝试:免责声明本项目只做个人学习研究之...
- Python新手入门很简单(python教程入门)
-
我之前学习python走过很多的歧途,自学永远都是瞎猫碰死耗子一样,毫无头绪。后来心里一直都有一个做头条知识分享的梦,希望自己能够帮助曾经类似自己的人,于是我来了,每天更新5篇Python文章,喜欢的...
- Pycharm的设置和基本使用(pycharm运行设置)
-
这篇文章,主要是针对刚开始学习python语言,不怎么会使用pycharm的童鞋们;我来带领大家详细了解下pycharm页面及常用的一些功能,让大家能通过此篇文章能快速的开始编写python代码。一...
- 依旧是25年最拔尖的PyTorch实用教程!堪比付费级内容!
-
我真的想知道作者到底咋把PyTorch教程整得这么牛的啊?明明在内容上已经足以成为付费教材了,但作者偏要免费开源给大家学习!...
- 手把手教你 在Pytorch框架上部署和测试关键点人脸检测项目DBFace
-
这期教向大家介绍仅仅1.3M的轻量级高精度的关键点人脸检测模型DBFace,并手把手教你如何在自己的电脑端进行部署和测试运行,运行时bug解决。01.前言前段时间DBFace人脸检测库横空出世,...
- 进入Python的世界02外篇-Pycharm配置Pyqt6
-
为什么这样配置,要开发带UI的python也只能这样了,安装过程如下:一安装工具打开终端:pipinstallPyQt6PyQt6-tools二打开设置并汉化点击plugin,安装汉化插件,...
- vs code如何配置使用Anaconda(vscode调用anaconda库)
-
上一篇文章中(Anaconda使用完全指南),我们能介绍了Anaconda的安装和使用,以及如何在pycharm中配置Anaconda。本篇,将继续介绍在vscode中配置conda...
- pycharm中conda解释器无法配置(pycharm配置anaconda解释器)
-
之前用的好好的pycharm正常配置解释器突然不能用了?可以显示有这个环境然后确认后可以conda正在配置解释器,但是进度条结束后还是不成功!!试过了pycharm重启,pycharm重装,anaco...
- Volta:跨平台开发者的福音,统一前端js工具链从未如此简单!
-
我们都知道现在已经进入了Rust时代,不仅很多终端常用的工具都被rust重写了,而且现在很多前端工具也开始被Rust接手了,这不,现在就出现了一款JS工具管理工具,有了它,你可以管理多版本的js工具,...
- 开发者的福音,ElectronEgg: 新一代桌面应用开发框架
-
今天给大家介绍一个开源项目electron-egg。如果你是一个JS的前端开发人员,以前面对这项任务桌面应用开发在时,可能会感到无从下手,甚至觉得这是一项困难的挑战。ElectronEgg的出现,它能...
- 超强经得起考验的低代码开发平台Frappe
-
#挑战30天在头条写日记#开始进行管理软件的开发来讲,如果从头做起不是不可以,但选择一款免费的且经得起时间考验的低代码开发平台是非常有必要的,将大幅提升代码的质量、加快开发的效率、以及提高程序的扩展性...
- 一文带你搞懂Vue3 底层源码(vue3核心源码解析)
-
作者:妹红大大转发链接:https://mp.weixin.qq.com/s/D_PRIMAD6i225Pn-a_lzPA前言vue3出来有一段时间了。今天正式开始记录一下梗vue3.0.0-be...
- 基于小程序 DSL(微信、支付宝)的,可扩展的多端研发框架
-
Mor(发音为/mr/,类似more),是饿了么开发的一款基于小程序DSL的,可扩展的多端研发框架,使用小程序原生DSL构建,使用者只需书写一套(微信或支付宝)小程序,就可以通过Mor...
你 发表评论:
欢迎- 一周热门
- 最近发表
-
- 人生苦短,我要在VSCode里面用Python
- 亲测可用:Pycharm2019.3专业版永久激活教程
- Python新手入门很简单(python教程入门)
- Pycharm的设置和基本使用(pycharm运行设置)
- 依旧是25年最拔尖的PyTorch实用教程!堪比付费级内容!
- 手把手教你 在Pytorch框架上部署和测试关键点人脸检测项目DBFace
- 进入Python的世界02外篇-Pycharm配置Pyqt6
- vs code如何配置使用Anaconda(vscode调用anaconda库)
- pycharm中conda解释器无法配置(pycharm配置anaconda解释器)
- Volta:跨平台开发者的福音,统一前端js工具链从未如此简单!
- 标签列表
-
- idea eval reset (50)
- vue dispatch (70)
- update canceled (42)
- order by asc (53)
- spring gateway (67)
- 简单代码编程 贪吃蛇 (40)
- transforms.resize (33)
- redisson trylock (35)
- 卸载node (35)
- np.reshape (33)
- torch.arange (34)
- npm 源 (35)
- vue3 deep (35)
- win10 ssh (35)
- vue foreach (34)
- idea设置编码为utf8 (35)
- vue 数组添加元素 (34)
- std find (34)
- tablefield注解用途 (35)
- python str转json (34)
- java websocket客户端 (34)
- tensor.view (34)
- java jackson (34)
- vmware17pro最新密钥 (34)
- mysql单表最大数据量 (35)