UI-TARS-desktop保姆级教程:从安装到第一个自动化任务

张开发
2026/6/7 18:49:45 15 分钟阅读
UI-TARS-desktop保姆级教程:从安装到第一个自动化任务
UI-TARS-desktop保姆级教程从安装到第一个自动化任务1. 准备工作与环境配置1.1 系统要求检查在开始安装前请确保您的系统满足以下最低要求操作系统Linux (推荐Ubuntu 20.04)、Windows 10/11或macOS 10.15硬件配置CPU4核及以上内存8GB及以上存储至少20GB可用空间GPU可选NVIDIA显卡显存6GB推荐1.2 安装Docker环境UI-TARS-desktop以Docker镜像形式提供首先需要安装Docker引擎# Ubuntu/Debian系统安装示例 sudo apt update sudo apt install -y docker.io sudo systemctl enable --now docker验证Docker是否安装成功docker --version1.3 配置NVIDIA支持GPU用户如果您使用NVIDIA显卡需要安装NVIDIA Container Toolkit# 添加NVIDIA Docker仓库 distribution$(. /etc/os-release;echo $ID$VERSION_ID) \ curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - \ curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list # 安装工具包 sudo apt update sudo apt install -y nvidia-docker2 sudo systemctl restart docker2. 部署UI-TARS-desktop镜像2.1 拉取并运行镜像执行以下命令启动UI-TARS-desktop容器# 创建数据目录 mkdir -p ~/tars-data # 运行容器GPU版本 docker run -d \ --gpus all \ -p 8080:8080 \ -v ~/tars-data:/root/workspace \ --name ui-tars \ ui-tars-desktop对于仅使用CPU的环境docker run -d \ -p 8080:8080 \ -v ~/tars-data:/root/workspace \ --name ui-tars \ ui-tars-desktop2.2 验证容器状态检查容器是否正常运行docker ps -f nameui-tars预期输出应显示容器状态为Up。3. 验证模型服务3.1 检查模型启动日志进入容器查看模型服务日志docker exec -it ui-tars bash cd /root/workspace cat llm.log正常启动时日志中应包含类似以下内容INFO: Loading model qwen3-4b-instruct-2507... INFO: Model loaded successfully in 45.2s INFO: vLLM inference server ready3.2 测试模型API您可以通过curl测试模型API是否可用curl -X POST http://localhost:8000/v1/completions \ -H Content-Type: application/json \ -d {prompt: 介绍一下你自己, max_tokens: 100}4. 访问Web界面4.1 打开UI-TARS界面在浏览器中访问http://localhost:8080您将看到类似下图的界面4.2 界面功能概览UI-TARS-desktop界面主要分为三个区域左侧导航栏任务历史记录预设配置管理系统状态监控中央交互区自然语言指令输入框AI响应显示区域任务执行状态指示器右侧辅助区实时操作预览窗口权限控制开关紧急停止按钮5. 创建第一个自动化任务5.1 基础任务示例让我们从简单的文件操作开始在输入框中输入在桌面上创建一个名为test_folder的文件夹然后在其中新建一个hello.txt文件内容写上你好UI-TARS点击执行按钮观察任务执行过程系统将创建指定文件夹生成文本文件写入指定内容5.2 浏览器自动化示例尝试更复杂的浏览器操作打开Chrome浏览器访问CSDN官网搜索UI-TARS将第一页结果标题保存到~/workspace/search_results.csv文件中系统将自动完成启动浏览器导航至CSDN执行搜索提取结果保存为CSV文件6. 高级功能探索6.1 多步骤任务编排UI-TARS支持复杂任务链例如首先检查我的下载文件夹中有没有超过30天未修改的PDF文件如果有就将它们移动到旧文档文件夹然后打开邮箱给adminexample.com发一封邮件主题是文件整理完成内容包含移动的文件列表6.2 视觉辅助操作利用内置的视觉能力可以执行基于屏幕元素的操作点击右下角系统托盘中的网络图标选择WIFI-Office连接如果提示需要密码就输入connect1237. 常见问题解决7.1 模型服务未启动如果llm.log中没有成功加载信息尝试# 进入容器 docker exec -it ui-tars bash # 手动启动服务 cd /root/workspace python -m vllm.entrypoints.api_server --model qwen3-4b-instruct-25077.2 权限问题处理某些操作可能需要额外权限Linux将用户加入docker组sudo usermod -aG docker $USERmacOS在系统设置中授予屏幕录制和辅助功能权限Windows以管理员身份运行Docker7.3 网络连接问题如果无法访问8080端口检查# 查看端口映射 docker port ui-tars # 检查防火墙设置 sudo ufw allow 8080/tcp8. 总结与下一步通过本教程您已经完成了UI-TARS-desktop的环境准备与安装模型服务的验证与测试Web界面的基本操作第一个自动化任务的创建常见问题的排查方法接下来您可以尝试探索更多内置工具的组合使用开发自定义插件扩展功能集成到您的工作流程中提高效率获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

更多文章