Paramita Loom Paramita Loom
EN
← 知識

阿里推 Qwen3.6-Plus 模型,編碼智慧體能力躍升

阿里推 Qwen3.6-Plus 模型,編碼智慧體能力躍升

阿里推 Qwen3.6-Plus 模型,編碼智慧體能力躍升

一句話版本

阿里巴巴推出 Qwen3.6-Plus,重點唔只係模型再升級,而係佢明顯想搶「AI 幫手做完整開發任務」呢個位,代表編碼智慧體正由 demo 走向可落地工具。

點解重要

  • 重點已經由「識寫 code」轉去「識完成任務」:文中強調佢唔只做補全,而係可以拆解任務、規劃路徑、測試同修改直到完成,呢個差別好大,因為對團隊真正有價值嘅從來唔係生成幾行程式,而係減少人手跟進同反覆 debug。
  • 佢將 Agentic Coding 講成產品能力,而唔係研究概念:提到前端頁面生成、代碼修復、終端自動化等實測場景,意味市場競爭開始圍繞「可唔可以接工作流」而唔係單次 benchmark 分數,之後工具選型要更重視端到端穩定性。
  • 官方刻意用 SWE-bench、Claw-Eval 呢類評測做背書:呢個訊號係阿里知道開發者而家唔再只睇通用聊天能力,而係睇模型喺真實工程任務入面有幾可靠,亦反映評估標準正逐步向軟件工程實戰靠攏。
  • 接近 Claude 系列呢個說法,本質係競爭定位宣示:就算未必等於全面超越,至少表示中國大模型供應商開始正面爭奪高價值開發者市場,之後我哋唔可以再假設頂級編碼模型只集中喺少數美國平台。
  • 100 萬上下文視窗對倉庫級任務有實際吸引力:當模型可一次睇更多 repo 內容、規格、歷史脈絡,做大型重構、跨檔案修復同規則一致性檢查會更有優勢,呢個比單純「長上下文」標籤更值得留意。
  • 多模態能力被放入同一個版本重點:如果模型同時處理畫面、介面同程式碼,之後前端開發、UI 還原、錯誤截圖排查等流程會更順,特別適合需要由設計稿或畫面問題直接反推修正方案嘅場景。
  • 阿里將價格一齊講出來,表示佢想打普及戰:每百萬 Tokens 輸入最低 2 元人民幣,重點唔止平,而係顯示佢準備用成本優勢推企業試用與接入,令「先用起來再講」的採用門檻下降。
  • 佢唔係孤立發模型,而係即時鋪到自家平台:上架阿里雲百煉、悟空、千問 App,說明阿里想做嘅係完整分發鏈路,對企業客戶而言,部署與試點會比只得 API 的模型更直接。
  • 「氛圍編碼可用」反映產品敘事開始改變:市場而家賣點唔再係專家先用得掂,而係一句話都可以驅動開發流程,呢會吸引更多非工程背景角色參與原型、驗證同需求澄清。
  • 終端自動化被特別點名,值得留意風險同機會一齊放大:一旦模型更敢於操作 shell、修改檔案、跑測試,生產力會升,但錯誤影響面亦會大,代表治理、權限、審批同回滾機制會變得更重要。

我哋點睇

  • 對 OpenClaw 呢類系統,最值得關注唔係「Qwen 勁唔勁」,而係編碼模型普遍都向任務代理走,代表我哋設計 worker、review gate、evidence 同 lease 機制嘅方向係啱,因為之後接入任何模型都要先管住流程風險。
  • 如果之後評估新模型,唔好淨係比 benchmark;要直接用我哋自己嘅 golden task replay、代碼修復、終端操作同回復流程去測,先知對實際控制面有冇幫助。
  • 長上下文同低成本聽落吸引,但對我哋更實際嘅問題係「佢會唔會穩定跟規則」:例如可唔可以守住 SQLite 真相來源、唔亂改 public status、唔跳過 review。模型能力越強,越要用制度而唔係信任去兜底。

來源