Holo3: Breaking the Computer Use Frontier
一句話版本
Hugging Face 嘅 Hcompany 推出 Holo3,話佢喺桌面電腦操作基準攞到新高分,但更值得留意嘅係佢哋唔係只靠模型變大,而係用可驗證嘅合成企業環境去訓練代理處理真實工作流。
點解重要
模型能力唔再只係睇參數量:文中最關鍵唔係 122B 定 10B active,而係佢用較低活躍參數都追到甚至超過更大模型,代表企業代理嘅競爭點正由「堆算力」轉去「訓練流程同資料工廠」。佢哋強調生產環境可用性而唔係只跑榜:OSWorld 分數只係入口,真正想證明嘅係模型可以喺企業系統入面完成多步驟任務,呢個方向同我哋做實際控制系統時重視「能唔能落地」係一致。合成環境成為代理訓練主戰場:佢哋用 coding agents 自動生成網站同任務,再配驗證腳本收數,代表高質訓練數據唔一定要等真人慢慢標,而可以系統化量產兼保持可驗證。可驗證任務比純示範數據更有價值:因為每個 synthetic task 都有 end-to-end verification,模型學到唔止係模仿操作,而係朝「做啱結果」優化,呢點對任何要追求可靠完成率嘅代理系統都好重要。重點能力被拆成 perception 同 decision-making:佢清楚講明訓練飛輪係圍繞「睇得準」同「揀得啱」,提醒我哋評估代理時唔好只睇最終成功率,仲要分辨失敗係出喺感知、路徑選擇,定長流程穩定性。out-of-domain augmentation 反映咗泛化先係硬仗:佢哋刻意把場景程式化擴展,目的係處理意外 UI 同新情況,說明真正有價值嘅代理唔係背熟固定流程,而係面對陌生介面都保持合理決策。企業 benchmark 設計比公開 benchmark 更接近實戰:486 個多步任務橫跨電商、商業軟件、協作同 multi-app,表示單一 App 成功已經唔夠,跨系統帶住上下文完成工作先至接近真實辦公。Multi-App 任務揭示代理最難位唔係 click,而係持續保持意圖:例如睇 PDF、對 budget、再發個人化郵件,當中真正困難係跨資料來源維持狀態同判斷一致性,唔係單次 UI 定位。佢哋把 benchmark 當成產品策略一部分:自己建立企業 benchmark,等於自己定義「乜嘢叫 ready for work」,呢個會直接影響後續訓練方向、銷售話術,同客戶對能力邊界嘅理解。開放權重加 API free tier 會推高試用速度:35B 版 Apache 2.0 開放,加上免費推理入口,意味市場會更快出現第三方驗證、微調同對比,聲稱嘅優勢會更快被放大或者被挑戰。文章其實係喺鋪陳「Autonomous Enterprise」敘事:Holo3 被包裝成里程碑,而唔係終點,說明佢哋賣嘅唔只係一個模型,而係一條由 UI 操作延伸到企業自動化平台嘅產品路線。下一步指向 adaptive agency:佢哋想做嘅唔係只會操作已知工具,而係即場學識新企業軟件,呢個代表未來比拼會落喺即時適應能力,而唔單止係靜態 benchmark 表現。
我哋點睇
- 如果我哋要做代理能力評估,唔應該只收集人手示範;更實際做法係優先建立「可驗證任務工廠」,因為咁先可以穩定回歸、重播失敗案例,同持續調校策略。
- 我哋自己嘅任務設計要明確分開單 App、跨 App、長流程三種難度,否則分數好睇都未必代表真係有營運價值。
- 對 OpenClaw 呢類控制系統嚟講,最值得吸收嘅唔係「追榜」,而係「任何完成都要有驗證腳本同可追溯真相」;呢點同我哋以資料庫做 task truth、唔靠聊天線程當真相來源,方向上其實相當一致。
- 如果之後要做回放或 golden tasks,應該刻意加入陌生介面、文檔抽取、跨系統資料核對呢類場景,因為呢啲先會提早暴露代理喺感知、狀態保持同決策連續性上嘅弱點。