手机端的本地运行 Gemma 4 引热议:“0 Token”时代还有多远?

张开发
2026/6/9 19:04:38 15 分钟阅读
手机端的本地运行 Gemma 4 引热议:“0 Token”时代还有多远?
本地运行 Gemma 4 引热议“0 Token”时代还有多远近日谷歌开源的新一代模型Gemma 4引发广泛关注。该模型不仅性能强劲还能在手机上本地运行让“无需购买Token、随时随地使用AI”的愿景离现实更近了一步。且由于是谷歌官方发布的产品其安全性也更具保障。除手机端的轻量型号外也有开发者在更高性能的硬件上对 Gemma 4 的更大版本展开测试例如在搭载 M5 Pro 芯片的 MacBook Pro 上运行 Gemma 4 Mixture-of-Experts 26B 版本。在直接对话场景下该模型运行流畅文本生成、代码解释等任务均可高效完成。但当开发者将其作为代码智能体coding agent使用时问题便显现出来。代码智能体运行需要依托 256K 的大上下文窗口、复杂提示词以及稳定的工具调用能力而 Gemma 4 在这类场景中表现乏力频繁出现程序卡顿、报错或是输出内容结构混乱等问题。一、Gemma 4可随身携带的“性能小钢炮”Gemma 4 采用与 Gemini 3 同源的技术架构具备原生全模态能力支持文本、图像、音频等。在 Arena AI 排行榜上它位列全球第三。最引人注目的是其轻量版本E2B有效参数 23 亿E4B有效参数 45 亿这两个型号可直接部署在手机上本地运行且上下文窗口达128K被称为“随身携带的 Gemini 平替方案”。二、手机实测速度超乎想象模型发布后大量用户进行了实测iPhone 运行体验有用户在 iPhone 上本地运行 Gemma 4展示了图片处理、音频解析、控制手电筒等操作称其速度“近乎魔法”。量化测试iPhone 17 Pro依托苹果芯片和机器学习框架MLX推理速度可突破40 token/秒。三星 Galaxy 系列开启思考模式后速度与 iPhone 相当用户直呼“快得超预期”。这样的效率让手机端本地部署 AI 具备了实际可行性尤其在医疗等数据敏感场景中价值极高。三、如何体验官方应用一键部署普通用户无需专业极客知识即可体验下载谷歌官方应用Google AI Edge Gallery选择并安装所需模型版本即可本地运行因为是谷歌官方发布安全性也更有保障。四、更高性能设备上的尝试26B 版本表现如何开发者也在更强硬件上测试了更大版本如 Gemma 4 26B MoEM5 Pro 芯片的 MacBook Pro上直接对话流畅文本生成、代码解释等任务高效完成。但作为代码智能体coding agent使用时问题频出卡顿、报错、输出结构混乱。换用qwen3-coder后同一环境下可顺利完成文件创建、命令执行等多步骤任务。开发者判断问题出在Gemma 4 对“工具调用 结构化输出”的优化不足而非智能体框架。也有观点指出Gemma 4 的通用智能水平目前仍存在一定局限。五、行业影响0 Token 时代还有多远尽管有不足Gemma 4 这类“端侧高性能模型”的出现具有重要行业意义。短期 vs 长期趋势维度现状与短期长期趋势复杂推理、多智能体协作云端闭源模型领先仍可能由云端主导高频简单任务查询、聊天、代码、图像理解端侧模型逐步可用本地模型将大量替代云端Token/API 售卖业务仍是主流盈利模式面临被挤压风险试想如果日常任务都通过本地模型完成不再需要购买 Token那么以售卖 Token 为核心业务的厂商将受到巨大冲击。六、结论变革刚刚开始Gemma 4 只是一个开端。未来当某一款端侧模型能在日常使用中让人完全分辨不出“本地”与“云端”的差异时整个 AI 产业的商业模式将迎来深刻变革。对于依赖 API 订阅和 Token 售卖的厂商来说必须加速向“高难度赛道”转型更强的智能体系统更稳定的超长上下文海量实时数据支撑的专属功能

更多文章