Google公布Gemma 4號稱最強本地端開放模型

一句話版本

Google 把 Gemma 4 用 Apache 2.0 開源，重點唔止係「可本地跑」，而係佢開始把多模態、長上下文同 agent 能力一齊下放，令本地部署模型由 demo 工具變成真係可以做產品同流程自動化嘅選項。

點解重要

本地模型嘅可用性再上咗一級
Gemma 4 唔係只強調聊天，而係直接瞄準複雜推理、多步規劃同 agent workflow，代表本地端開放模型已經開始夠力接近實務工作，而唔再只係成本較低嘅替代品。
授權條件對落地影響好大
今次用 Apache 2.0，對企業最實際嘅意義係商用、整合、再包裝同內部客製化都更容易過法務關，導入門檻比起限制較多嘅模型低。
模型家族分層清楚，方便按硬體揀型號
2B、4B、26B MoE、31B Dense 呢種配置，意味團隊可以按設備條件做分流：輕量版跑端側或開發機，大版先留畀較高要求場景，部署策略會更彈性。
長上下文令本地知識工作更實際
128K 到 256K context，對處理長文件、整份 codebase、操作手冊、合規文件特別有用，因為好多本地化場景卡關位其實唔係模型識唔識答，而係塞唔塞得落足夠背景。
多模態支援擴大咗本地應用面
圖像、影片，甚至部分版本支援音訊輸入，代表同一個模型可以覆蓋 OCR、圖表理解、語音理解等任務，減少系統要拼湊多個獨立模型嘅複雜度。
原生 function calling 同 JSON 輸出對工程化好關鍵
呢啲能力直接影響系統可唔可以穩定接工具、落流程、寫自動化。模型如果本身識跟結構化輸出同系統指令，開發者喺控流程、驗證結果、接後端服務時會省好多功夫。
Google 明顯想搶本地 agent 開發入口
佢特別強調代理人開發、工具調用、離線 coding，同埋 Android Studio／ML Kit 等開發路徑，反映呢次唔單止係發模型，而係想搶整個開發者生態位。
跨平台工具鏈成熟度值得留意
支援 Hugging Face、vLLM、llama.cpp、MLX、Ollama、LM Studio 等主流工具，表示團隊未必要綁死喺 Google 自家堆疊，可以較低成本接入現有本地推理流程。
硬體覆蓋範圍廣，部署選擇會更自由
從 Jetson、NVIDIA GPU、AMD ROCm，到 Google TPU 都有提到，重點唔係每個平台都最強，而係表示佢有意把 Gemma 4 包裝成「唔同硬體都可用」嘅通用底模。
對行動端同邊緣端有明確訊號
文章提到 Android 裝置可直接執行，說明 Google 唔只睇雲端 API 生意，而係想把生成式 AI 進一步推去裝置端，對重視隱私、延遲、離線能力嘅產品特別有吸引力。
Google 想改寫「開放模型 = 能力較弱」呢個印象
佢用排行榜同超越更大參數模型嘅說法，想傳遞一個訊息：開放模型唔一定只係平價選擇，亦可以係性能上有競爭力嘅主力方案。

我哋點睇

如果我哋有內網、隱私、延遲或成本壓力高嘅場景，Gemma 4 代表本地部署應該重新列入正式評估名單，唔好再只當實驗方案。
真正值得試嘅唔係「佢識唔識答問題」，而係三件事：長文件處理穩定性、工具調用成功率、結構化輸出失誤率；呢三樣先決定佢可唔可以接入生產流程。
對產品規劃嚟講，可以開始把模型分成兩層思考：輕量版放裝置端或開發機做即時輔助，大模型放工作站處理複雜任務，架構上會比單一大模型更實際。
如果團隊本身已經用緊 Ollama、llama.cpp、MLX 或 vLLM，Gemma 4 最大價值係容易做低摩擦 PoC；最快見效嘅方向會係文件問答、程式協助、OCR/圖表理解同內部 agent。

來源

原文：https://www.ithome.com.tw/rss