The gig workers who are training humanoid robots at home

一句話版本

而家訓練人形機械人，唔係淨係靠實驗室同模擬器，仲愈來愈靠全球零工勞工喺屋企戴住 iPhone 錄家務片；呢件事重要，因為佢揭示咗機械人突破背後其實有一條新嘅資料供應鏈，同時帶來私隱、勞動同資料品質問題。

點解重要

人形機械人嘅瓶頸，原來係「真實世界動作資料」唔夠。 文章核心唔係零工本身，而係講明模擬訓練未足以教機械人穩定處理現實物件；如果呢個判斷成立，邊個可以大規模收集高質真人示範，邊個就更有機會拉開技術差距。
資料收集正由研究活動變成產業鏈。 唔單止一間公司做，仲有多家公司搶住招募人錄家務、賣資料畀機械人公司，意味「資料供應商」可能會變成人形機械人生態入面一層獨立而有議價能力嘅基礎設施。
資金流向證明市場已經將資料視為關鍵資產。 文中提到 2025 年人形機械人吸納超過 60 億美元投資，而資料公司聲稱機械人企業每年花逾 1 億美元買真實世界資料，反映資本而家唔再只押注模型或硬件，亦押注資料來源本身。
所謂「AI 自動化」背後，實際上有大量人手維持。 工人唔單止錄片，仲有 AI 加人類雙重審核、標註團隊等流程，提醒我哋任何標榜自動化嘅系統，背後往往仍然倚賴隱形勞動去清洗、驗證同補足資料。
資料品質唔係錄到就得，仲要有足夠變化先有用。 CEO 明講要好多變體先令機械人有泛化能力，但受訪者住喺細屋、可錄情境有限，代表供應量增加唔等於可用性同步增加，資料多樣性可能會成為下一個卡點。
家庭環境變成訓練場，私領域同生產資料嘅界線開始模糊。 工人要喺自己屋企拍片，又要避免拍到樣貌、姓名、電話等個資，顯示呢類資料天然帶有高私隱風險，唔係一般標註工作咁簡單。
「同意」未必等於真正理解後果。 受訪者知道自己喺做資料工作，但未必完全掌握片段之後會點被重用、組合、出售，尤其當資料最終用作訓練可進入家庭與工廠嘅機械人，倫理門檻其實比普通 AI 數據更高。
呢份工對當地勞工有真實吸引力，但未必可持續。 對尼日利亞等地嚟講，15 美元時薪已經好有吸引力，短期可以補充收入；但工作內容重複、創意要求高、又易被拒稿，長遠未必係穩定職涯，只係全球 AI 供應鏈上一段脆弱外包。
資料生產嘅地域分工開始固定化。 美國公司接單、全球南方勞工供應示範、再交返畀機械人企業，呢種結構同過去內容審核、數據標註產業好似，值得留意會唔會再次出現價值集中、風險外判。
招聘同篩選已經被 AI 介入。 工人先由 AI agent 面試同審片，說明唔單止產品用 AI，連勞動入口都被平台化同演算法化；對工人而言，機會與淘汰都更難申訴。
家務被重新定義成機械人能力模板。 摺衫、洗碗、煮食呢啲日常動作，而家被拆成可標註、可出售、可訓練嘅數據單位，意味未來人形機械人最先學會嘅，未必係高難技術動作，而係大量由人類日常生活抽出嘅微技能。
產業敘事同現場體驗有落差。 對外講係「訓練未來機械人」、好前沿；對工人嚟講卻可能只係長時間重複燙衫、諗新家務角度，呢個落差提醒我哋，評估技術趨勢時要分清楚願景同實際執行成本。

我哋點睇

如果我哋之後做任何依賴真人操作資料嘅系統，唔可以只問「收唔收到數據」，要一開始就定義資料多樣性、驗收標準同拒收原因，否則最後只會堆積一批量多但泛化差嘅素材。
牽涉家庭、Slack、內部操作畫面或者個人工作流程嘅資料時，私隱設計要前置做，不可以事後先補遮罩；因為一旦原始素材入庫，風險已經存在。
呢篇文亦提醒我哋，任何「人幫 AI 做前置工作」都要當成正式營運流程去設計，包括審核、追溯、證據同品質控制，而唔係當臨時外包雜務。

來源

原文：https://www.technologyreview.com/topic/artificial-intelligence/feed