當硅谷的生成式 AI 巨頭們將 Scaling Law 奉為圭臬並瘋狂燃燒算力預算時,人們很快意識到這個遊戲中唯一的戰略資產形成了:高質量的訓練數據成為了每個模型廠商都渴望的 “數字石油”。而這 “新石油” 的供應商、華裔天才 Alexandr Wang 與他一手創建的數據標註公司 Scale AI 一時間也風光無兩。他不僅成為了微軟、Meta、OpenAI 等大手筆投入模型訓練的公司指定的數據服務商,還登堂入室成為了美國國防部的座上賓。市場對高質量數據短缺的預期讓 Scale AI 這種靠加工數據賺錢的公司成為公認的好公司,在 2024 年完成 10 億美金 F 輪融資後,公司的估值也相較上一輪翻倍來到了 138 億美金。這位 1997 年出生的年輕 CEO 藉助機器學習以及生成式 AI 的浪潮,帶領 Scale AI 在 2024 年突破 10 億美金年化收入的門檻,相較於 2023 年之前翻了 4 倍。不僅是 Scale AI,Encord、Label Box、Snorkel AI 等廠商也憑藉自己的獨特技術快速成長為了這個朝陽市場中的重要玩家。
但這場盛宴並非不會結束,根據研究人員判斷,網絡上公開語料數據將很快被用盡,AI 巨頭迫切的需要各領域的專業人士貢獻自己的標註數據以及垂直領域知識來打造更好的 AI。這些專家存儲在私域中的數據無法被巨頭們從網絡上隨意抓取,這意味著他們有機會憑藉這些數據的控制權為自己獲取更大的利益,而不是讓數據白白流失。這或許是 Web3 介入的好機會。
作者:Hendrix,Web3Caff Research 研究員
封面:Logo and background photo by Sahara,Typography by Web3Caff Research
字數:全文共計 10400+ 字
目錄
- Sahara AI:Web3 數據工廠
- 數據&AI 101:Web2 & Web3 視角
- 第一步:Sahara Data Service Platform 重塑生產關係
- 平臺功能介紹
- Sahara Legend
- 標註案例:Myshell
- 同類數據標註平臺對比
- 第二步:AI Studio 完成數據商品化
- 平臺功能解讀
- 與競品對比
- 第三步:資產上鍊 + 生態運營
- 多層架構
- 生態補充
- Sahara 的機遇與挑戰
- 機遇:利基市場帶來更好的財務表現
- 挑戰:AI 挑戰數據標註
- 總結
- 要點結構圖






