UI-TARS-desktop保姆级教程：从安装到第一个自动化任务

张开发

• 2026/6/7 18:49:45 • 15 分钟阅读

分享文章

UI-TARS-desktop保姆级教程从安装到第一个自动化任务1. 准备工作与环境配置1.1 系统要求检查在开始安装前请确保您的系统满足以下最低要求操作系统Linux (推荐Ubuntu 20.04)、Windows 10/11或macOS 10.15硬件配置CPU4核及以上内存8GB及以上存储至少20GB可用空间GPU可选NVIDIA显卡显存6GB推荐1.2 安装Docker环境UI-TARS-desktop以Docker镜像形式提供首先需要安装Docker引擎# Ubuntu/Debian系统安装示例 sudo apt update sudo apt install -y docker.io sudo systemctl enable --now docker验证Docker是否安装成功docker --version1.3 配置NVIDIA支持GPU用户如果您使用NVIDIA显卡需要安装NVIDIA Container Toolkit# 添加NVIDIA Docker仓库 distribution$(. /etc/os-release;echo $ID$VERSION_ID) \ curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - \ curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list # 安装工具包 sudo apt update sudo apt install -y nvidia-docker2 sudo systemctl restart docker2. 部署UI-TARS-desktop镜像2.1 拉取并运行镜像执行以下命令启动UI-TARS-desktop容器# 创建数据目录 mkdir -p ~/tars-data # 运行容器GPU版本 docker run -d \ --gpus all \ -p 8080:8080 \ -v ~/tars-data:/root/workspace \ --name ui-tars \ ui-tars-desktop对于仅使用CPU的环境docker run -d \ -p 8080:8080 \ -v ~/tars-data:/root/workspace \ --name ui-tars \ ui-tars-desktop2.2 验证容器状态检查容器是否正常运行docker ps -f nameui-tars预期输出应显示容器状态为Up。3. 验证模型服务3.1 检查模型启动日志进入容器查看模型服务日志docker exec -it ui-tars bash cd /root/workspace cat llm.log正常启动时日志中应包含类似以下内容INFO: Loading model qwen3-4b-instruct-2507... INFO: Model loaded successfully in 45.2s INFO: vLLM inference server ready3.2 测试模型API您可以通过curl测试模型API是否可用curl -X POST http://localhost:8000/v1/completions \ -H Content-Type: application/json \ -d {prompt: 介绍一下你自己, max_tokens: 100}4. 访问Web界面4.1 打开UI-TARS界面在浏览器中访问http://localhost:8080您将看到类似下图的界面4.2 界面功能概览UI-TARS-desktop界面主要分为三个区域左侧导航栏任务历史记录预设配置管理系统状态监控中央交互区自然语言指令输入框AI响应显示区域任务执行状态指示器右侧辅助区实时操作预览窗口权限控制开关紧急停止按钮5. 创建第一个自动化任务5.1 基础任务示例让我们从简单的文件操作开始在输入框中输入在桌面上创建一个名为test_folder的文件夹然后在其中新建一个hello.txt文件内容写上你好UI-TARS点击执行按钮观察任务执行过程系统将创建指定文件夹生成文本文件写入指定内容5.2 浏览器自动化示例尝试更复杂的浏览器操作打开Chrome浏览器访问CSDN官网搜索UI-TARS将第一页结果标题保存到~/workspace/search_results.csv文件中系统将自动完成启动浏览器导航至CSDN执行搜索提取结果保存为CSV文件6. 高级功能探索6.1 多步骤任务编排UI-TARS支持复杂任务链例如首先检查我的下载文件夹中有没有超过30天未修改的PDF文件如果有就将它们移动到旧文档文件夹然后打开邮箱给adminexample.com发一封邮件主题是文件整理完成内容包含移动的文件列表6.2 视觉辅助操作利用内置的视觉能力可以执行基于屏幕元素的操作点击右下角系统托盘中的网络图标选择WIFI-Office连接如果提示需要密码就输入connect1237. 常见问题解决7.1 模型服务未启动如果llm.log中没有成功加载信息尝试# 进入容器 docker exec -it ui-tars bash # 手动启动服务 cd /root/workspace python -m vllm.entrypoints.api_server --model qwen3-4b-instruct-25077.2 权限问题处理某些操作可能需要额外权限Linux将用户加入docker组sudo usermod -aG docker $USERmacOS在系统设置中授予屏幕录制和辅助功能权限Windows以管理员身份运行Docker7.3 网络连接问题如果无法访问8080端口检查# 查看端口映射 docker port ui-tars # 检查防火墙设置 sudo ufw allow 8080/tcp8. 总结与下一步通过本教程您已经完成了UI-TARS-desktop的环境准备与安装模型服务的验证与测试Web界面的基本操作第一个自动化任务的创建常见问题的排查方法接下来您可以尝试探索更多内置工具的组合使用开发自定义插件扩展功能集成到您的工作流程中提高效率获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

UI-TARS-desktop保姆级教程：从安装到第一个自动化任务

最新文章

Mac Mouse Fix终极指南：让你的普通鼠标秒变苹果触控板！[特殊字符]

mysql事务什么时候需要回滚_mysql异常处理解析

虚拟线程在Spring WebFlux中偷偷泄露数据库连接？深度剖析ThreadLocal跨虚拟线程失效的5类隐蔽漏洞，立即修复！

别再傻傻分不清了！一张图看懂NI USRP和Ettus USRP的区别与选型

从“鱼与熊掌”到帕累托最优：NSGA-II算法如何帮你做更聪明的决策？

2026年高并发AI应用架构指南：5款主流大模型API中转服务性能横评与接入实战

推荐文章

相关文章

分享文章

更多文章

Driver Store Explorer：解决Windows驱动臃肿问题的终极方案

RexUniNLU与STM32CubeMX集成：嵌入式NLP应用开发指南

SDMatte效果极限挑战：处理极端光照、低分辨率与密集遮挡的图片

Local Moondream2效果展示：同一张图在不同prompt引导下的描述多样性

ZenTimings效能优化实战指南：释放Ryzen平台内存潜能

Qwen3-ASR-1.7B保姆级教程：一键部署，轻松实现中英日韩语音转文字

DCT-Net人像卡通化：手把手教你用WebUI制作专属卡通头像

Anything to RealCharacters 2.5D转真人引擎实战案例：二次元头像→写实证件照生成

春联生成模型MySQL数据库集成：用户偏好存储与个性化推荐

OpenClaw极简API开发：用Qwen3-32B镜像快速构建智能接口

哔哩下载姬：如何轻松搞定B站视频下载？三个真实用户故事与决策指南

猫抓浏览器扩展终极指南：3分钟掌握网页视频音频下载技巧