如何在自己電腦部署本地 AI 模型

教你用 Ollama 或 LM Studio 喺自己電腦跑 Gemma、Llama 等開放模型。

ailocalollamagemmallamaprivacy

想喺自己電腦跑 AI 模型嘅技術用家中級

先看結論

用 Ollama 或 LM Studio，你可以喺自己嘅 Mac/PC 跑 Gemma 4、Llama 等開放模型，完全唔需要將資料送去雲端。8GB RAM 可以跑 3B 參數模型、16GB 可以跑 7-8B、32GB+ 可以跑更大嘅模型。

如果你想喺自己電腦離線跑 AI 模型（例如因為私隱需求），或者想試下最新嘅開放模型，呢篇啱你。

你需要一部有至少 8GB RAM 嘅 Mac 或 PC。如果用 Mac，Apple Silicon (M1/M2/M3/M4) 效果最好。你需要可以用 Terminal 執行指令。

步驟 1：安裝 Ollama。

# macOS
brew install ollama

# 或者去 ollama.com 下載安裝包

做完後你應該可以執行 ollama --version。

步驟 2：下載一個模型。

# Google Gemma 4 (3B, 適合 8GB RAM)
ollama pull gemma3:4b

# 或者 Llama 3 (8B, 適合 16GB RAM)
ollama pull llama3:8b

做完後模型會下載到本地（大約 2-5GB）。

步驟 3：同模型對話。

ollama run gemma3:4b

你可以直接打字問問題。所有運算都喺你嘅電腦完成，冇嘢送出去。做完後你應該見到模型嘅回應。

步驟 4：用 API 整合到你嘅程式。 Ollama 提供同 OpenAI 相容嘅 API：

curl http://localhost:11434/v1/chat/completions \
  -d '{"model": "gemma3:4b", "messages": [{"role": "user", "content": "Hello"}]}'

做完後你可以用任何支援 OpenAI API 嘅工具連接本地模型。

你嘅電腦可以離線跑 AI 模型，回應速度視乎硬件——M4 Mac 上 3B 模型大約每秒 30-50 token。資料完全留喺本地。

E1 對應步驟 2：下載太大嘅模型導致記憶體不足。修正方法：8GB RAM 就用 3-4B 模型，唔好硬試 70B。

E2 對應步驟 3：模型回應好慢或者 hang 住。修正方法：檢查 Activity Monitor，確保 RAM 未用爆。換細啲嘅模型。

E3 對應步驟 4：API port 被佔用。修正方法：檢查 Ollama 服務有冇跑緊（ollama serve）。

E4 通用：模型輸出質素唔夠好。修正方法：本地細模型同雲端大模型有差距係正常嘅，要調整期望。

試下用 Open WebUI 加一個圖形界面，或者用 LangChain 將本地模型整合入你嘅應用程式。