How did Anthropic measure AI’s “theoretical capabilities” in the job market?
一句話版本
篇文核心係話,Anthropic 張「AI 理論上可以覆蓋好多工種」嘅圖,其實主要建基於一份 2023 年帶住大量主觀假設嘅研究,所以唔應該直接當成 AI 快將取代大部分工作嘅硬證據。
點解重要
圖表睇落嚇人,但意思冇表面咁直白- 藍色「theoretical capability」容易令人以為 AI 已經接近可以做走大部分白領工作,但篇文指出呢個數字唔係現役模型實測能力,而係對未來可能性的推估,呢個分別會直接影響我哋點解讀風險。
佢量度嘅唔係「取代工作」,而係「有冇機會幫某啲任務慳一半時間」- 研究嘅判準係某個 task 可唔可以喺「質量相若」之下節省至少 50% 時間,呢個本身已經偏向生產力輔助,而唔係完整接管一份職位,所以用嚟推論裁員規模會過度延伸。
職業層級嘅大結論,其實由好多細任務標籤堆出嚟- 研究先將工作拆成 O*NET 嘅細粒度 task,再逐個判斷 LLM 有冇幫助,最後再聚合成職業暴露度;問題係只要底層 task 標得鬆,去到職業層面就會產生一種「AI 幾乎識做成份工」嘅錯覺。
最關鍵嗰層其實係對「未來軟件」嘅想像- 文中提到影響最大嘅唔單止係當年 GPT-4 做到乜,而係假設之上再加「anticipated LLM-powered software」;即係話,最震撼嗰部分結論,實際上係押注未來工具鏈會點成熟。
標註者唔係做嗰份工嘅人,可信度自然有限- 參與標註嘅人主要係熟 AI 現況,而唔係熟悉相關職業工作流程嘅從業員,咁樣判斷某 task 是否真能「等質量、快一半」時,容易忽略行業細節、隱性知識同責任界線。
研究作者自己都承認主觀性係根本限制- 呢點重要在於,呢類圖表常常被當成客觀量化結果轉載,但連原研究都話標註有主觀性、聚合邏輯唔清楚,咁我哋睇到再俐落嘅視覺化,都應該當成有條件嘅估算。
「AI 擅長啲咩」其實集中喺文字與程式相關任務- 文中列舉例子幾乎都係寫作、改寫、翻譯、摘要、問答、文件回饋、寫 code 幫人自動化,反映研究想像中受影響最大嘅,主要係資訊處理型工作,而唔係所有知識工作都平均受衝擊。
如果將 task-level 能力直接升格做 occupation-level 威脅,會高估衝擊- 一份工通常唔只係一堆可拆分文字任務,仲包括判斷責任、協調、例外處理、對外承擔後果;呢啲元素如果冇被充分計入,就會令「理論覆蓋率」高過真實可替代性。
篇文其實提醒緊大家分清「觀察到嘅當下使用」同「推測中嘅未來能力」- 呢兩條線混埋講,會令市場同管理層誤判節奏:前者可以用嚟睇而家邊啲工序已受影響,後者只適合做情景規劃,唔適合當現實決策依據。
我哋點睇
- 如果我哋內部要評估 AI 對工作流嘅影響,應該用「實測任務表現 + 真實使用情境」做基準,唔好直接引用職業覆蓋率圖去推演組織改造。
- 做產品或流程設計時,重點應放喺邊啲明確 task 真係可以穩定提速,例如摘要、轉寫、草擬、文件問答,而唔係籠統講「AI 可以做某類工作」。
- 對外講述 AI 能力時,要刻意分開三件事:現時已驗證能力、依賴額外軟件先做到嘅能力、同真正可以交付責任嘅能力,否則好易誤導決策。