Spaces:
Runtime error
A newer version of the Gradio SDK is available:
5.23.3
如果你喜欢我们的项目,请在GitHub上为我们加星⭐以获取最新更新。
概览
Computer Use OOTB 是一个桌面GUI Agent的开箱即用(OOTB)解决方案,包括API支持的 (Claude 3.5 Computer Use) 和本地运行的模型 (ShowUI)。
无需Docker,支持 Windows 和 macOS。本项目提供了一个基于Gradio的用户友好界面。🎨
想了解更多信息,请访问我们关于Claude 3.5 Computer Use的研究 [项目页面]。🌐
更新
- 重大更新! [2024/12/04] 本地运行🔥 已上线!欢迎使用 ShowUI,一个开源的2B视觉-语言-动作(VLA)模型作为GUI Agent。现在可兼容
"gpt-4o + ShowUI" (~便宜200倍)
* 及"Qwen2-VL + ShowUI" (~便宜30倍)
*,只需几美分💰! *与Claude Computer Use相比。 - [2024/11/20] 我们添加了一些示例来帮助你上手Claude 3.5 Computer Use。
- [2024/11/19] 不再受Anthropic单显示器限制——现在你可以使用 多显示器 🎉!
- [2024/11/18] 我们发布了Claude 3.5 Computer Use的深度分析: https://arxiv.org/abs/2411.10323。
- [2024/11/11] 不再受Anthropic低分辨率显示限制——你可以使用 任意分辨率 同时保持 截图token成本较低 🎉!
- [2024/11/11] 现在 Windows 和 macOS 两个平台均已支持 🎉!
- [2024/10/25] 现在你可以通过手机设备 📱 远程控制 你的电脑 💻——无需在手机上安装APP!试试吧,玩得开心 🎉。
演示视频
https://github.com/user-attachments/assets/f50b7611-2350-4712-af9e-3d31e30020ee
🚀 开始使用
0. 前置条件
- 请通过此链接安装 Miniconda。(Python版本:≥3.11)
- 硬件要求(可选,针对ShowUI本地运行):
- Windows (支持CUDA): 有CUDA支持的NVIDIA GPU,GPU显存≥6GB
- macOS (Apple Silicon): M1芯片(或更新),统一RAM≥16GB
1. 克隆仓库 📂
打开Conda终端。(安装Miniconda后,将在开始菜单出现) 在 Conda终端 中运行以下命令:
git clone https://github.com/showlab/computer_use_ootb.git
cd computer_use_ootb
2.1 安装依赖 🔧
pip install -r dev-requirements.txt
2.2 (可选)为 ShowUI 本地运行做准备
- 使用以下命令下载 ShowUI-2B 模型的所有文件。确保 ShowUI-2B 文件夹位于 computer_use_ootb 文件夹下。
python install_showui.py
在您的机器上安装正确的 GPU 版 PyTorch(CUDA、MPS 等)。请参考 安装指南与验证。
获取 GPT-4o 或 Qwen-VL 的 API Key。对于中国大陆用户,可享受 Qwen API 免费试用 100 万token:点击查看。
3. 启动界面 ▶️
启动 OOTB 界面:
python app.py
若成功启动界面,您将在终端中看到两个 URL:
* Running on local URL: http://127.0.0.1:7860
* Running on public URL: https://xxxxxxxxxxxxxxxx.gradio.live (请勿与他人分享此链接,否则他们可控制您的电脑。)
为方便起见,我们推荐在启动界面前运行以下命令,将 API 密钥设置为环境变量。这样您无需在每次运行时手动输入。
在 Windows Powershell 中(如在 cmd 中则使用 set 命令):
$env:ANTHROPIC_API_KEY="sk-xxxxx" (替换为您的密钥)
$env:QWEN_API_KEY="sk-xxxxx"
$env:OPENAI_API_KEY="sk-xxxxx"
在 macOS/Linux 中,将上述命令中的 $env:ANTHROPIC_API_KEY 替换为 export ANTHROPIC_API_KEY 即可。
4. 使用任意可访问网络的设备控制您的电脑
- 待控制的电脑:安装了上述软件的那台电脑。
- 发送指令的设备:打开网址的任意设备。
在本机浏览器中打开 http://localhost:7860/(若在本机控制)或在您的手机浏览器中打开 https://xxxxxxxxxxxxxxxxx.gradio.live(若远程控制)。
输入 Anthropic API 密钥(可通过此页面获取),然后给出指令让 AI 执行任务。

🖥️ 支持的系统
- Windows (Claude ✅, ShowUI ✅)
- macOS (Claude ✅, ShowUI ✅)
⚠️ 风险
- 模型可能执行危险操作:模型仍有局限性,可能生成非预期或潜在有害的输出。建议持续监督 AI 的操作。
- 成本控制:每个任务可能花费几美元(Claude 3.5 Computer Use)。💸
📅 路线图
- 探索可用功能
- Claude API 在解决任务时似乎不稳定。我们正在调查原因:分辨率、操作类型、操作系统平台或规划机制等。欢迎提出想法或评论。
- 界面设计
- 支持 Gradio ✨
- 更简单的安装流程
- 更多特性... 🚀
- 平台
- Windows
- 移动端(发出指令)
- macOS
- 移动端(被控制)
- 支持更多多模态大模型(MLLMs)
- Claude 3.5 Sonnet 🎵
- GPT-4o
- Qwen2-VL
- ...
- 改进提示策略
- 优化提示以降低成本。💡
- 提升推理速度
- 支持 int8 量化。
加入讨论
欢迎加入讨论,与我们一同不断改进 Computer Use - OOTB 的用户体验。可通过 Discord 频道 或下方微信二维码联系我们!


