Paramita Loom Paramita Loom
EN
← 知識

How did Anthropic measure AI's "theoretical capabilities" in the job market?

How did Anthropic measure AI's "theoretical capabilities" in the job market?

How did Anthropic measure AI’s “theoretical capabilities” in the job market?

一句話版本

篇文核心係話,Anthropic 張「AI 理論上可以覆蓋好多工種」嘅圖,其實主要建基於一份 2023 年帶住大量主觀假設嘅研究,所以唔應該直接當成 AI 快將取代大部分工作嘅硬證據。

點解重要

  • 圖表睇落嚇人,但意思冇表面咁直白
  • 藍色「theoretical capability」容易令人以為 AI 已經接近可以做走大部分白領工作,但篇文指出呢個數字唔係現役模型實測能力,而係對未來可能性的推估,呢個分別會直接影響我哋點解讀風險。
  • 佢量度嘅唔係「取代工作」,而係「有冇機會幫某啲任務慳一半時間」
  • 研究嘅判準係某個 task 可唔可以喺「質量相若」之下節省至少 50% 時間,呢個本身已經偏向生產力輔助,而唔係完整接管一份職位,所以用嚟推論裁員規模會過度延伸。
  • 職業層級嘅大結論,其實由好多細任務標籤堆出嚟
  • 研究先將工作拆成 O*NET 嘅細粒度 task,再逐個判斷 LLM 有冇幫助,最後再聚合成職業暴露度;問題係只要底層 task 標得鬆,去到職業層面就會產生一種「AI 幾乎識做成份工」嘅錯覺。
  • 最關鍵嗰層其實係對「未來軟件」嘅想像
  • 文中提到影響最大嘅唔單止係當年 GPT-4 做到乜,而係假設之上再加「anticipated LLM-powered software」;即係話,最震撼嗰部分結論,實際上係押注未來工具鏈會點成熟。
  • 標註者唔係做嗰份工嘅人,可信度自然有限
  • 參與標註嘅人主要係熟 AI 現況,而唔係熟悉相關職業工作流程嘅從業員,咁樣判斷某 task 是否真能「等質量、快一半」時,容易忽略行業細節、隱性知識同責任界線。
  • 研究作者自己都承認主觀性係根本限制
  • 呢點重要在於,呢類圖表常常被當成客觀量化結果轉載,但連原研究都話標註有主觀性、聚合邏輯唔清楚,咁我哋睇到再俐落嘅視覺化,都應該當成有條件嘅估算。
  • 「AI 擅長啲咩」其實集中喺文字與程式相關任務
  • 文中列舉例子幾乎都係寫作、改寫、翻譯、摘要、問答、文件回饋、寫 code 幫人自動化,反映研究想像中受影響最大嘅,主要係資訊處理型工作,而唔係所有知識工作都平均受衝擊。
  • 如果將 task-level 能力直接升格做 occupation-level 威脅,會高估衝擊
  • 一份工通常唔只係一堆可拆分文字任務,仲包括判斷責任、協調、例外處理、對外承擔後果;呢啲元素如果冇被充分計入,就會令「理論覆蓋率」高過真實可替代性。
  • 篇文其實提醒緊大家分清「觀察到嘅當下使用」同「推測中嘅未來能力」
  • 呢兩條線混埋講,會令市場同管理層誤判節奏:前者可以用嚟睇而家邊啲工序已受影響,後者只適合做情景規劃,唔適合當現實決策依據。

我哋點睇

  • 如果我哋內部要評估 AI 對工作流嘅影響,應該用「實測任務表現 + 真實使用情境」做基準,唔好直接引用職業覆蓋率圖去推演組織改造。
  • 做產品或流程設計時,重點應放喺邊啲明確 task 真係可以穩定提速,例如摘要、轉寫、草擬、文件問答,而唔係籠統講「AI 可以做某類工作」。
  • 對外講述 AI 能力時,要刻意分開三件事:現時已驗證能力、依賴額外軟件先做到嘅能力、同真正可以交付責任嘅能力,否則好易誤導決策。

來源