阿里推 Qwen3.6-Plus 模型，編碼智慧體能力躍升

一句話版本

阿里巴巴推出 Qwen3.6-Plus，重點唔只係模型再升級，而係佢明顯想搶「AI 幫手做完整開發任務」呢個位，代表編碼智慧體正由 demo 走向可落地工具。

點解重要

重點已經由「識寫 code」轉去「識完成任務」：文中強調佢唔只做補全，而係可以拆解任務、規劃路徑、測試同修改直到完成，呢個差別好大，因為對團隊真正有價值嘅從來唔係生成幾行程式，而係減少人手跟進同反覆 debug。
佢將 Agentic Coding 講成產品能力，而唔係研究概念：提到前端頁面生成、代碼修復、終端自動化等實測場景，意味市場競爭開始圍繞「可唔可以接工作流」而唔係單次 benchmark 分數，之後工具選型要更重視端到端穩定性。
官方刻意用 SWE-bench、Claw-Eval 呢類評測做背書：呢個訊號係阿里知道開發者而家唔再只睇通用聊天能力，而係睇模型喺真實工程任務入面有幾可靠，亦反映評估標準正逐步向軟件工程實戰靠攏。
接近 Claude 系列呢個說法，本質係競爭定位宣示：就算未必等於全面超越，至少表示中國大模型供應商開始正面爭奪高價值開發者市場，之後我哋唔可以再假設頂級編碼模型只集中喺少數美國平台。
100 萬上下文視窗對倉庫級任務有實際吸引力：當模型可一次睇更多 repo 內容、規格、歷史脈絡，做大型重構、跨檔案修復同規則一致性檢查會更有優勢，呢個比單純「長上下文」標籤更值得留意。
多模態能力被放入同一個版本重點：如果模型同時處理畫面、介面同程式碼，之後前端開發、UI 還原、錯誤截圖排查等流程會更順，特別適合需要由設計稿或畫面問題直接反推修正方案嘅場景。
阿里將價格一齊講出來，表示佢想打普及戰：每百萬 Tokens 輸入最低 2 元人民幣，重點唔止平，而係顯示佢準備用成本優勢推企業試用與接入，令「先用起來再講」的採用門檻下降。
佢唔係孤立發模型，而係即時鋪到自家平台：上架阿里雲百煉、悟空、千問 App，說明阿里想做嘅係完整分發鏈路，對企業客戶而言，部署與試點會比只得 API 的模型更直接。
「氛圍編碼可用」反映產品敘事開始改變：市場而家賣點唔再係專家先用得掂，而係一句話都可以驅動開發流程，呢會吸引更多非工程背景角色參與原型、驗證同需求澄清。
終端自動化被特別點名，值得留意風險同機會一齊放大：一旦模型更敢於操作 shell、修改檔案、跑測試，生產力會升，但錯誤影響面亦會大，代表治理、權限、審批同回滾機制會變得更重要。

我哋點睇

對 OpenClaw 呢類系統，最值得關注唔係「Qwen 勁唔勁」，而係編碼模型普遍都向任務代理走，代表我哋設計 worker、review gate、evidence 同 lease 機制嘅方向係啱，因為之後接入任何模型都要先管住流程風險。
如果之後評估新模型，唔好淨係比 benchmark；要直接用我哋自己嘅 golden task replay、代碼修復、終端操作同回復流程去測，先知對實際控制面有冇幫助。
長上下文同低成本聽落吸引，但對我哋更實際嘅問題係「佢會唔會穩定跟規則」：例如可唔可以守住 SQLite 真相來源、唔亂改 public status、唔跳過 review。模型能力越強，越要用制度而唔係信任去兜底。

來源

原文：https://technews.tw/category/ai/feed/