这两年很多人开始研究本地大模型,原因很简单。
第一,云端 AI 用久了,API 账单是真的会累积。
第二,很多任务其实并不一定要把数据传到外部服务器。
第三,现在本地模型已经越来越能打,尤其是 Google 刚刚正式发布的 Gemma 4,这次不只是能聊天,它已经朝着多模态、本地推理、Agent 工作流这些方向全面推进了。Google 官方把 Gemma 4 定位成他们目前最强的一代开放模型,强调 reasoning、agentic workflows、多模态能力和 on-device 场景。
如果你想做一套“尽量不再依赖 API、尽量在自己电脑上完成任务”的 AI 工作流,那么 Ollama + Gemma 4 + OpenClaw 是一条非常值得试的组合。
Ollama 负责在你本机运行模型,Gemma 4 负责提供模型能力,OpenClaw 则把这个模型进一步变成一个真正能调用工具、执行任务、连接工作流的 Agent。OpenClaw 官方文档也明确写到,它可以直接对接 Ollama 的原生 API,支持本地或自建的 Ollama 服务。
这篇文章,我会带你从零开始,把整套思路讲清楚。
你会知道它适合谁、需要准备什么、怎么安装、怎么接起来,以及最容易踩的坑在哪里。
先说清楚:这套方案到底解决什么问题
如果你平时已经在用 ChatGPT、Claude、Gemini 这类云端 AI,那么你对 AI 的感受大概是这样的:
你提问题,它回答。
你复制内容,它总结。
你给任务,它帮你写。
但问题也很明显。
很多人越用越发现,真正耗钱的不是偶尔问一次,而是当你把它融入到每天的工作流里。尤其是你开始频繁做长文本、代码、多轮推理、自动化任务的时候,API 成本会慢慢放大。
这时候,本地模型的意义就出来了。
你把模型下载到自己的电脑上,让它在本地推理。只要你的硬件够,很多常见任务都可以不再走外部 API。Google 官方现在对 Gemma 的描述也很明确,它是为“从云端到笔电、甚至手机”的场景设计的开放模型。
如果再往前走一步,你不只是想“本地聊天”,而是想让 AI 帮你做事,比如:
- 帮你整理文件
- 帮你执行多步任务
- 帮你调用工具
- 帮你接消息、查网页、写内容、跑自动流程
那单有本地模型还不够,你还需要一个 Agent 框架。
OpenClaw 做的,就是把 AI 从一个只会对话的模型,变成一个能连接工具、能接入聊天入口、能做自动化动作的执行者。OpenClaw 官网对它的描述很直接:它是一个“真的能做事”的个人 AI 助手。
为什么是 Gemma 4
先讲模型。
Gemma 4 是 Google 在 2026 年 4 月初正式推出的新一代开放模型,发布记录页写的是 2026 年 3 月 31 日上线 Gemma 4 系列,官方博客则是在 2026 年 4 月 2 日发文详细介绍。
这次 Gemma 4 比较有分量的地方有几个。
1)它是 Google 现在主推的开放模型家族
官方文档列出的主要版本包括 E2B、E4B、26B A4B 和 31B。不同尺寸面向不同设备,小模型更适合本地设备和边缘场景,大模型适合更强的桌机和服务器。
2)它支持多模态
Gemma 4 不只是文本模型。
Ollama 的官方模型页写得很清楚,Gemma 4 支持文本和图片输入、输出文本。Google 官方文档还说明,E2B 和 E4B 支持音频理解相关能力。
3)它很适合 Agent 场景
Google 这次反复强调 Gemma 4 的 reasoning、coding、tool calling、agentic workflows。换句话说,它不是只拿来闲聊的,而是有明显往“执行复杂任务”方向去设计。
4)它的授权方式很友好
Gemma 4 这次采用 Apache 2.0 许可证。对开发者和内容创作者来说,这个点非常关键,因为它比很多“看起来开放、实际限制很多”的模型更适合进入真实使用和产品环境。Ollama 上 Gemma 4 的 license 页面也显示为 Apache License 2.0。
为什么是 Ollama
如果你只是想把开源模型跑起来,理论上有很多方式。
但对大多数普通用户来说,Ollama 最大的价值就是:简单、直接、适合本地起步。
Google 官方甚至专门写了 “Run Gemma with Ollama” 的集成说明,直接给出了 Gemma 4 在 Ollama 里的模型标签:
gemma4:e2bgemma4:e4bgemma4:26bgemma4:31b
这意味着什么?
意味着这条路不是社区乱拼出来的野路子,而是 Google 官方已经明确承认的 Gemma 4 使用方式之一。
同时,Ollama 自己的模型库也已经有 gemma4 页面,并说明它支持文本与图片输入。
对新手来说,这件事非常重要。
因为你不需要先去折腾一堆复杂推理框架,先把模型跑起来再说。
为什么还要加一个 OpenClaw
很多人到这一步会问:
我不是已经用 Ollama 跑了 Gemma 4 吗,为什么还要 OpenClaw?
答案很简单。
Ollama 更像是本地模型引擎,OpenClaw 更像是把模型变成“能干活的 Agent 系统”。
Ollama 负责让模型在你机器上活起来。
OpenClaw 则负责:
- 让模型接入聊天入口
- 让模型能调用工具
- 让模型有更完整的执行流程
- 让模型从“回答”走向“操作”
OpenClaw 官方文档明确写到,它支持 Ollama 的原生 /api/chat 接口,支持本地和自建 Ollama 服务器,也支持在 onboarding 过程中自动发现本地模型。
所以,这两者不是替代关系,而是组合关系。
开始前,你的电脑至少要满足什么
这一步一定要说实话。
“告别 API 账单”不代表“零成本”,因为本地跑模型本质上是在用你自己的电脑算力、电力和内存。
Google 官方文档显示,Gemma 4 不同模型的内存和显存需求差距很大。官方在模型总览和 model card 里都提醒了,小模型适合本地设备,但更大版本会明显更吃资源。
如果你是普通用户,我建议这样理解:
- 电脑一般,就先从 E2B / E4B 开始
- 想体验完整一点,本地个人设备优先试 E4B
- 26B、31B 这种版本,更适合高配电脑、工作站或者服务器
另外,OpenClaw 官方对本地模型也给了很直白的提醒:
如果你想把它作为比较严肃的本地 Agent 使用,它本身偏向需要更大上下文和更强模型,小显存卡虽然能跑一些轻任务,但在上下文、安全性和抗 prompt injection 这类问题上会明显受限。官方甚至建议要尽可能用更大、更完整的模型。
所以你要有一个心理预期:
本地免费,不等于低配万能。
第一步:安装 Ollama
先装 Ollama。
你可以直接从 Ollama 官网下载对应你系统的安装包。OpenClaw 官方文档在 Ollama provider 页面里,也把 “Install Ollama” 作为手动设置的第一步写了出来。
安装好之后,先打开终端,确认 Ollama 正常工作。
如果你之前没用过 Ollama,这一步主要是确保本地运行环境没问题。
第二步:拉取 Gemma 4 模型
接下来把 Gemma 4 拉到本地。
Google 官方的 Ollama 集成文档已经给出了 Gemma 4 的标准标签。
你可以直接这样理解:
- 轻量试用:
gemma4:e2b - 更实用一点:
gemma4:e4b - 高配机器:
gemma4:26b或gemma4:31b
对于大多数读者,我建议先从 E4B 开始。
原因很简单,它在能力和本地可跑性之间比较平衡。这个建议也是基于 Google 对各个版本的设备定位来判断的。
你在终端里执行拉取命令后,Ollama 会把模型下载到本地。
具体命令格式以 Ollama 当前版本为准,但模型标签就是上面那几个。Google 官方集成页和 Ollama 模型页是最稳的参考。
下载完成后,你就已经拥有一个本地可运行的 Gemma 4 了。
第三步:先单独测试 Gemma 4 能不能跑
这一步不要急着上 OpenClaw。
先单独测模型。
为什么?
因为很多问题其实不是出在 Agent,而是出在你机器本身跑这个模型就已经吃力了。
你可以先试几种最基础的任务:
- 让它做中文对话
- 让它总结一段长文本
- 让它解释一张图片
- 多轮聊几轮,观察速度和温度变化
如果这一步就已经卡顿得很厉害,那你后面接 OpenClaw,体验只会更差。
先在 Ollama 里把模型状态跑顺,再继续。
第四步:安装 OpenClaw
确认 Gemma 4 在本地跑起来以后,再装 OpenClaw。
OpenClaw 官方文档给出了几种安装方式。
最常见的一种,是使用安装脚本:
curl -fsSL https://openclaw.ai/install.sh | bash
中文文档里也写得很清楚,这就是重新运行安装器的标准方式之一。
如果你不想用安装脚本,也可以直接用 npm、pnpm 或 bun 全局安装。OpenClaw 中文更新页给出的命令包括:
npm i -g openclaw@latest
另外,OpenClaw 官方 Node.js 页面写明:
OpenClaw 需要 Node 22.14 或更高版本,推荐 Node 24。
如果你的 Node 太老,后面很容易出奇怪问题。
安装完成后,你可以运行官方推荐的 onboarding 流程:
openclaw onboard
OpenClaw 官方 Getting Started 页面就把这套流程作为起步入口。
第五步:在 OpenClaw 里接入 Ollama
这一步是整篇教程真正的核心。
OpenClaw 官方的 Ollama provider 页面写得很明确:
它可以直接接 Ollama 的原生 API,也支持自动发现本地模型。默认本地地址是:
http://127.0.0.1:11434
官方还特别提醒,不要在 Ollama 的 base URL 后面加 /v1,因为 /v1 走的是 OpenAI 兼容模式,在这种模式下工具调用并不可靠。要想保证原生 tool calling 行为,应该使用原生 Ollama API。
这个提醒非常重要。
因为很多人以前接别的东西时,习惯性会写成 /v1,结果就会出现模型明明接上了,但工具调用各种不稳定。
OpenClaw 文档还提到两种方式:
方式 A:自动发现本地 Ollama 模型
如果你设置了 OLLAMA_API_KEY,并且没有手动定义 models.providers.ollama,OpenClaw 会尝试从本地 Ollama 自动发现已有模型,成本也会被视为 0。文档中明确提到,它会查询 /api/tags,并把本地模型自动同步进来。
方式 B:手动写配置
如果你想自己精确控制,也可以在配置文件里手动定义 Ollama provider。
OpenClaw 的配置参考页说明,主配置文件路径通常是:
~/.openclaw/openclaw.json
如果你是第一次玩,我更建议先走 onboarding,把基础链路先通了,再去手动改配置。
第六步:让 OpenClaw 使用本地模式
如果你的目标是“尽量本地化,不依赖云端”,那你要注意 OpenClaw 的 gateway 模式。
OpenClaw 官方 CLI 文档和故障排查页都提到,本地 onboarding 会把 gateway.mode="local" 写进配置。如果后续配置丢了这个值,就会报错,常见报错信息就是提示你设置 gateway.mode=local。解决方法通常是重新运行:
openclaw onboard --mode local
或者重新执行 setup / onboard,让配置重新盖好。
这一步看起来小,但非常关键。
因为很多人以为模型接上了,结果实际上 OpenClaw 还没处在你想要的本地运行模式里。
第七步:检查当前状态
整套东西装完以后,不要急着开始做复杂任务。
先检查状态。
OpenClaw FAQ 里给了几个很实用的命令:
openclaw status
openclaw models status
openclaw doctor
官方说明里写得很清楚:
openclaw status:看 gateway 和 agent 的基本健康状态openclaw models status:检查 provider 认证和模型可用性openclaw doctor:验证并修复常见配置问题
这三个命令非常适合新手。
因为你很多时候不是不会装,而是不知道到底是哪一步没通。
这套组合,实际能做什么
如果你只是把 Gemma 4 跑在 Ollama 里,那它更像一个本地聊天模型。
但接进 OpenClaw 以后,它的玩法就开始不一样了。
你可以把它理解成一个本地 Agent 基础设施:
- 模型在本地
- 推理尽量在本机完成
- 工具链由 OpenClaw 来协调
- 任务从聊天走向执行
OpenClaw 官网写的那些方向,比如清理邮箱、发邮件、管理日历、通过聊天入口控制 AI,本质上就是在强调“AI 不是只会回答,它还能操作”。
而 Gemma 4 这次强化的 reasoning、tool calling、agentic workflows,刚好又和这个方向是对得上的。
也就是说,这两者拼在一起,逻辑是顺的。
最容易踩的坑
坑一:以为本地就真的完全零成本
不是。
你确实能大幅减少 API 支出,但本地运行会消耗你自己的硬件、内存、电力和时间成本。更大的 Gemma 4 版本对机器压力非常明显。
坑二:第一次就上大模型
这很容易把自己劝退。
如果你的机器只是普通笔电,从 E4B 起步更现实。Google 官方文档已经把不同尺寸的定位分得很清楚。
坑三:Ollama URL 写成 /v1
OpenClaw 官方文档明确提醒,Ollama 原生模式不要加 /v1。
因为 /v1 走兼容模式,工具调用不可靠。
坑四:OpenClaw 没进 local 模式
如果配置里没有 gateway.mode="local",后面就会出现一堆奇怪问题。官方 troubleshooting 页面已经把这个列成常见故障。
坑五:Node 版本太低
OpenClaw 官方已经写明需要 Node 22.14+,推荐 Node 24。
版本不对,后面很多命令不稳定很正常。
坑六:把“本地 Agent”想得太轻松
OpenClaw 官方对本地模型的提醒很现实:
如果你想做严肃任务,尤其涉及长上下文和安全防护,本地小模型并不是万能的。
我会怎么建议你开始
如果你是第一次折腾这套东西,我建议别一口气追求“最强”。
更稳的顺序是:
先装 Ollama。
先拉 Gemma 4 的 E4B。
先验证模型在本机能稳定跑。
再安装 OpenClaw。
再通过 openclaw onboard 接上 Ollama。
再用 openclaw status、openclaw models status、openclaw doctor 把状态检查一遍。
这样做,你出问题的时候会比较容易定位。
不然你一上来同时装模型、装 Agent、改配置、接聊天入口,最后哪怕错了,你都不知道是哪里错。
这套组合值不值得折腾
我觉得很值得。
因为它代表的是一个非常明确的方向:
AI 正在慢慢从“租来的云服务”,变成“你自己设备上的基础能力”。
Gemma 4 这次的发布方向,很明显已经不是单纯做一个开源聊天模型,而是在往本地、多模态、Agent、开发者工作流这些场景走。
Ollama 解决的是“怎么把模型真正在本地跑起来”。
OpenClaw 解决的是“怎么让这个模型不仅能回答,还能做事”。
如果你想尽量少碰 API 账单,又想亲手搭一套属于自己的 AI 工作流,那这条路是很有意思的。
如果你以前总觉得本地 AI 很遥远,那现在真的已经不是“只能看别人玩”的阶段了。
Gemma 4 把模型能力拉上来了,Ollama 把本地运行门槛压低了,OpenClaw 则把“本地模型”继续推进到“本地 Agent”。
当然,它还不是完全没有门槛。
你的电脑配置、系统环境、Node 版本、模型大小选择,都会影响最后的体验。
但只要你愿意花一点时间把第一套环境搭起来,你就会很明显感受到一件事:
以后很多 AI 能力,真的不一定非要租别人的服务器。
你自己的电脑,也可以慢慢变成一个真正能干活的 AI 工作站。









Leave a Review