【GitHub项目推荐--PokeClaw:把 Android 手机变成“本地 AI 智能体”的自动化神器】⭐

张开发
2026/6/25 1:10:43 15 分钟阅读
【GitHub项目推荐--PokeClaw:把 Android 手机变成“本地 AI 智能体”的自动化神器】⭐
GitHub 地址https://github.com/agents-io/PokeClaw简介PokeClaw原名 PocketClaw是一个开源的 Android 自动化应用它的目标不是让你“聊”AI而是让 AI 真正“操控”你的手机。它基于Gemma 4​ 模型主打本地优先Local-First​ 的隐私保护理念能将你的手机变成一台能自主执行任务的智能设备。与依赖云端 API 的自动化工具不同PokeClaw 的核心推理完全在设备端运行。它让 AI 具备了“看屏决策”的能力——读取屏幕内容自主选择工具点击、滑动、输入并完成跨应用的复杂流程。对于追求数据隐私、需要离线自动化或想体验真正“手机智能体”的用户来说这是目前极少数能跑通全流程的开源方案。主要功能1. 本地优先的 AI 决策引擎On-Device 模型内置 Gemma 4 模型所有推理均在手机端完成无需联网不消耗 API 费用数据绝对私有。屏幕理解OCR UIAI 能读取当前屏幕的文本内容和 UI 结构基于上下文决定下一步操作而非死板的坐标点击。工具调用Tool Calling模型自主调用底层工具如tap点击、swipe滑动、type输入、open_app打开应用等实现真正的自主交互。2. 可复用的“技能”Skills系统预制技能项目内置了经过验证的自动化流程Skills如“WhatsApp 上下文自动回复”、“相册整理”等。技能即流程技能本质是由通用工具组合成的“配方”Recipe。例如“自动回复”技能 open_app→read_screen→generate_reply→send_message。未来可扩展开发者可编写文本格式的技能文件教会 AI 新的复杂流程无需修改 App 源码。3. 混合模式与灵活架构云端辅助可选对于复杂任务可切换至 Cloud 模式支持 OpenAI/Anthropic 等利用更强的大模型提升成功率本地模式仍是默认首选。移动智能体底座作者将其定位为“移动智能体框架”Mobile Agent Harness而非简单的自动化脚本工具旨在构建通用的手机 AI 控制层。安装与配置硬件与前置要求Android 设备推荐 Pixel 8 Pro 或同等性能的旗舰机型。内存要求8GB RAM 为入门门槛12GB 为流畅体验甜点区。Gemma 4 模型加载较吃内存。系统权限需开启无障碍服务Accessibility Service​ 和悬浮窗权限这是 AI 操控屏幕的基础。安装步骤获取 APK从 GitHub Releases 页面下载最新版PokeClaw.apk。安装与覆盖若手机已存在旧版调试包必须先卸载旧版再安装新版0.6.x 起为稳定签名版不兼容旧数据。权限配置安装后打开 App跟随引导开启“PokeClaw”的无障碍服务。授予必要的悬浮窗和通知读取权限。模型与模式本地模式无需任何配置默认使用内置 Gemma 4即装即用。云端模式在设置中填入 OpenAI API Key 等仅当需要更强推理时使用。如何使用基础交互对话与任务启动服务确保 PokeClaw 无障碍服务处于ON状态。下达指令在聊天框输入自然语言指令如“帮我给妈妈发一条 WhatsApp说我今晚回家吃饭”。观察执行AI 会自行打开 WhatsApp定位到指定联系人输入文本并发送。整个过程无需你手动点击。高级使用技能与自动化启用技能在设置中开启如whatsapp_auto_replyWhatsApp 自动回复技能。配置触发条件设置监听的联系人如“妈妈”。全自动运行当收到新消息时AI 会自动读取聊天记录生成上下文相关的回复并发送全程无需人工干预。性能与预期管理速度感知本地模式在 CPU 上较慢复杂任务需 3-5 分钟在带 NPU 的旗舰机上仅需数秒。这是本地隐私与速度的权衡。任务边界目前模型擅长基于屏幕信息的决策流如“找到设置里的 Wi-Fi 并关闭”对于极度复杂的多步逻辑建议使用云端模式或拆解任务。应用场景实例无代码场景一隐私安全的“智能秘书”本地模式痛点你希望手机能自动处理日常通知如回复家人消息但担心聊天记录上传至云端泄露隐私。PokeClaw 方案在手机端部署 PokeClaw开启本地模式。设置“消息自动回复”技能绑定至“家庭群”和“伴侣”。当你在会议中时AI 自动读取微信/WhatsApp 消息判断是否为紧急或需回复内容并代你发送“正在开会稍后回复”。价值实现了 7×24 小时的智能响应且所有对话数据从未离开你的手机。场景二无障碍辅助与老年关怀痛点长辈不熟悉智能手机操作经常找不到功能或误触。PokeClaw 方案在长辈手机安装 PokeClaw配置语音唤醒或简化界面。通过远程指导或预设指令让 AI 协助操作。例如“打开微信找到儿子的头像发起视频通话”或“把手机音量调到最大”。AI 通过屏幕阅读逐步执行解决了“不会用”的痛点。价值将复杂的 GUI 操作转化为简单的语音指令降低数字鸿沟。场景三开发者的“自动化测试助手”痛点App 开发者需要在不同机型上重复进行 UI 回归测试人工操作耗时且易漏。PokeClaw 方案在测试机上部署 PokeClaw切换至 Cloud 模式以获得更稳定的逻辑推理。编写技能文件描述测试路径“打开 App → 点击登录 → 输入测试账号 → 验证首页元素”。让 AI 自动遍历核心流程并记录屏幕异常。价值将 UI 测试从“手动点按”升级为“语义化验证”大幅提升回归效率。总结PokeClaw 是开源移动 AI 智能体领域的一次重要实践。它证明了在终端设备上运行具备“工具使用能力”的模型是可行的。对于普通用户它是实现隐私安全自动化的利器对于开发者它是研究On-Device AI Agent的绝佳样板。⚠️ 注意事项该项目仍处于快速迭代期部分复杂任务成功率依赖模型性能。请务必在授权范围内使用自动化功能遵守平台规则。GitHub 地址https://github.com/agents-io/PokeClaw

更多文章