computer_use_ootb / docs /README_cn.md
baqr's picture
Upload folder using huggingface_hub
d73c58e verified

A newer version of the Gradio SDK is available: 5.23.3

Upgrade

Logo

如果你喜欢我们的项目,请在GitHub上为我们加星⭐以获取最新更新。

arXiv Project Page Hits

Star 概览

Computer Use OOTBStar 是一个桌面GUI Agent的开箱即用(OOTB)解决方案,包括API支持的 (Claude 3.5 Computer Use) 和本地运行的模型 (ShowUI)。

无需Docker,支持 WindowsmacOS。本项目提供了一个基于Gradio的用户友好界面。🎨

想了解更多信息,请访问我们关于Claude 3.5 Computer Use的研究 [项目页面]。🌐

更新

  • 重大更新! [2024/12/04] 本地运行🔥 已上线!欢迎使用 ShowUI,一个开源的2B视觉-语言-动作(VLA)模型作为GUI Agent。现在可兼容 "gpt-4o + ShowUI" (~便宜200倍)* 及 "Qwen2-VL + ShowUI" (~便宜30倍)*,只需几美分💰! *与Claude Computer Use相比
  • [2024/11/20] 我们添加了一些示例来帮助你上手Claude 3.5 Computer Use。
  • [2024/11/19] 不再受Anthropic单显示器限制——现在你可以使用 多显示器 🎉!
  • [2024/11/18] 我们发布了Claude 3.5 Computer Use的深度分析: https://arxiv.org/abs/2411.10323
  • [2024/11/11] 不再受Anthropic低分辨率显示限制——你可以使用 任意分辨率 同时保持 截图token成本较低 🎉!
  • [2024/11/11] 现在 WindowsmacOS 两个平台均已支持 🎉!
  • [2024/10/25] 现在你可以通过手机设备 📱 远程控制 你的电脑 💻——无需在手机上安装APP!试试吧,玩得开心 🎉。

演示视频

https://github.com/user-attachments/assets/f50b7611-2350-4712-af9e-3d31e30020ee

🚀 开始使用

0. 前置条件

  • 请通过此链接安装 Miniconda。(Python版本:≥3.11
  • 硬件要求(可选,针对ShowUI本地运行):
    • Windows (支持CUDA): 有CUDA支持的NVIDIA GPU,GPU显存≥6GB
    • macOS (Apple Silicon): M1芯片(或更新),统一RAM≥16GB

1. 克隆仓库 📂

打开Conda终端。(安装Miniconda后,将在开始菜单出现) 在 Conda终端 中运行以下命令:

git clone https://github.com/showlab/computer_use_ootb.git
cd computer_use_ootb

2.1 安装依赖 🔧

pip install -r dev-requirements.txt

2.2 (可选)为 ShowUI 本地运行做准备

  1. 使用以下命令下载 ShowUI-2B 模型的所有文件。确保 ShowUI-2B 文件夹位于 computer_use_ootb 文件夹下。
python install_showui.py
  1. 在您的机器上安装正确的 GPU 版 PyTorch(CUDA、MPS 等)。请参考 安装指南与验证

  2. 获取 GPT-4oQwen-VL 的 API Key。对于中国大陆用户,可享受 Qwen API 免费试用 100 万token:点击查看

3. 启动界面 ▶️

启动 OOTB 界面:

python app.py

若成功启动界面,您将在终端中看到两个 URL:

* Running on local URL:  http://127.0.0.1:7860
* Running on public URL: https://xxxxxxxxxxxxxxxx.gradio.live (请勿与他人分享此链接,否则他们可控制您的电脑。)

为方便起见,我们推荐在启动界面前运行以下命令,将 API 密钥设置为环境变量。这样您无需在每次运行时手动输入。
在 Windows Powershell 中(如在 cmd 中则使用 set 命令):

$env:ANTHROPIC_API_KEY="sk-xxxxx" (替换为您的密钥)
$env:QWEN_API_KEY="sk-xxxxx"
$env:OPENAI_API_KEY="sk-xxxxx"

在 macOS/Linux 中,将上述命令中的 $env:ANTHROPIC_API_KEY 替换为 export ANTHROPIC_API_KEY 即可。

4. 使用任意可访问网络的设备控制您的电脑

  • 待控制的电脑:安装了上述软件的那台电脑。
  • 发送指令的设备:打开网址的任意设备。

在本机浏览器中打开 http://localhost:7860/(若在本机控制)或在您的手机浏览器中打开 https://xxxxxxxxxxxxxxxxx.gradio.live(若远程控制)。

输入 Anthropic API 密钥(可通过此页面获取),然后给出指令让 AI 执行任务。

Desktop Interface

🖥️ 支持的系统

  • Windows (Claude ✅, ShowUI ✅)
  • macOS (Claude ✅, ShowUI ✅)

⚠️ 风险

  • 模型可能执行危险操作:模型仍有局限性,可能生成非预期或潜在有害的输出。建议持续监督 AI 的操作。
  • 成本控制:每个任务可能花费几美元(Claude 3.5 Computer Use)。💸

📅 路线图

  • 探索可用功能
    • Claude API 在解决任务时似乎不稳定。我们正在调查原因:分辨率、操作类型、操作系统平台或规划机制等。欢迎提出想法或评论。
  • 界面设计
    • 支持 Gradio
    • 更简单的安装流程
    • 更多特性... 🚀
  • 平台
    • Windows
    • 移动端(发出指令)
    • macOS
    • 移动端(被控制)
  • 支持更多多模态大模型(MLLMs)
    • Claude 3.5 Sonnet 🎵
    • GPT-4o
    • Qwen2-VL
    • ...
  • 改进提示策略
    • 优化提示以降低成本。💡
  • 提升推理速度
    • 支持 int8 量化。

加入讨论

欢迎加入讨论,与我们一同不断改进 Computer Use - OOTB 的用户体验。可通过 Discord 频道 或下方微信二维码联系我们!

gradio_interface gradio_interface

Logo