Paramita Loom Paramita Loom
EN
← 知識

The gig workers who are training humanoid robots at home

The gig workers who are training humanoid robots at home

The gig workers who are training humanoid robots at home

一句話版本

而家訓練人形機械人,唔係淨係靠實驗室同模擬器,仲愈來愈靠全球零工勞工喺屋企戴住 iPhone 錄家務片;呢件事重要,因為佢揭示咗機械人突破背後其實有一條新嘅資料供應鏈,同時帶來私隱、勞動同資料品質問題。

點解重要

  • 人形機械人嘅瓶頸,原來係「真實世界動作資料」唔夠。 文章核心唔係零工本身,而係講明模擬訓練未足以教機械人穩定處理現實物件;如果呢個判斷成立,邊個可以大規模收集高質真人示範,邊個就更有機會拉開技術差距。
  • 資料收集正由研究活動變成產業鏈。 唔單止一間公司做,仲有多家公司搶住招募人錄家務、賣資料畀機械人公司,意味「資料供應商」可能會變成人形機械人生態入面一層獨立而有議價能力嘅基礎設施。
  • 資金流向證明市場已經將資料視為關鍵資產。 文中提到 2025 年人形機械人吸納超過 60 億美元投資,而資料公司聲稱機械人企業每年花逾 1 億美元買真實世界資料,反映資本而家唔再只押注模型或硬件,亦押注資料來源本身。
  • 所謂「AI 自動化」背後,實際上有大量人手維持。 工人唔單止錄片,仲有 AI 加人類雙重審核、標註團隊等流程,提醒我哋任何標榜自動化嘅系統,背後往往仍然倚賴隱形勞動去清洗、驗證同補足資料。
  • 資料品質唔係錄到就得,仲要有足夠變化先有用。 CEO 明講要好多變體先令機械人有泛化能力,但受訪者住喺細屋、可錄情境有限,代表供應量增加唔等於可用性同步增加,資料多樣性可能會成為下一個卡點。
  • 家庭環境變成訓練場,私領域同生產資料嘅界線開始模糊。 工人要喺自己屋企拍片,又要避免拍到樣貌、姓名、電話等個資,顯示呢類資料天然帶有高私隱風險,唔係一般標註工作咁簡單。
  • 「同意」未必等於真正理解後果。 受訪者知道自己喺做資料工作,但未必完全掌握片段之後會點被重用、組合、出售,尤其當資料最終用作訓練可進入家庭與工廠嘅機械人,倫理門檻其實比普通 AI 數據更高。
  • 呢份工對當地勞工有真實吸引力,但未必可持續。 對尼日利亞等地嚟講,15 美元時薪已經好有吸引力,短期可以補充收入;但工作內容重複、創意要求高、又易被拒稿,長遠未必係穩定職涯,只係全球 AI 供應鏈上一段脆弱外包。
  • 資料生產嘅地域分工開始固定化。 美國公司接單、全球南方勞工供應示範、再交返畀機械人企業,呢種結構同過去內容審核、數據標註產業好似,值得留意會唔會再次出現價值集中、風險外判。
  • 招聘同篩選已經被 AI 介入。 工人先由 AI agent 面試同審片,說明唔單止產品用 AI,連勞動入口都被平台化同演算法化;對工人而言,機會與淘汰都更難申訴。
  • 家務被重新定義成機械人能力模板。 摺衫、洗碗、煮食呢啲日常動作,而家被拆成可標註、可出售、可訓練嘅數據單位,意味未來人形機械人最先學會嘅,未必係高難技術動作,而係大量由人類日常生活抽出嘅微技能。
  • 產業敘事同現場體驗有落差。 對外講係「訓練未來機械人」、好前沿;對工人嚟講卻可能只係長時間重複燙衫、諗新家務角度,呢個落差提醒我哋,評估技術趨勢時要分清楚願景同實際執行成本。

我哋點睇

  • 如果我哋之後做任何依賴真人操作資料嘅系統,唔可以只問「收唔收到數據」,要一開始就定義資料多樣性、驗收標準同拒收原因,否則最後只會堆積一批量多但泛化差嘅素材。
  • 牽涉家庭、Slack、內部操作畫面或者個人工作流程嘅資料時,私隱設計要前置做,不可以事後先補遮罩;因為一旦原始素材入庫,風險已經存在。
  • 呢篇文亦提醒我哋,任何「人幫 AI 做前置工作」都要當成正式營運流程去設計,包括審核、追溯、證據同品質控制,而唔係當臨時外包雜務。

來源