OpenAI 與News Corp和Reddit等公司最近達成的備受矚目的數據許可協議凸顯了人工智能對高質量數據的需求。Frontier 模型已經在互聯網的大部分領域進行了訓練,例如 Common Crawl,它索引了大約10%的所有網頁,用於 LLM 訓練,包含超過 100 萬億個 token。
進一步改進 AI 模型的途徑之一是擴展和增強它們可以訓練的數據。我們一直在討論如何聚合數據的機制——特別是以去中心化的方式。我們特別感興趣的是探索去中心化方法如何幫助生成新的數據集,並在經濟上獎勵貢獻者和創造者。
過去幾年,加密行業內討論的一個話題是數據DAO ,即創建、組織和管理數據的個人集合。Multicoin 和其他公司已經討論過這個話題,但人工智能的快速發展催生了數據 DAO 的新“為什麼是現在?”。
我們想圍繞數據 DAO 主題分享我們的思考,以探究以下問題:數據 DAO 如何加速 AI 發展?
當今人工智能中的數據
如今,人工智能模型都是通過公共數據進行訓練的,要麼通過與新聞集團和 Reddit 等公司合作,要麼通過從開放互聯網上抓取數據。例如,Meta 的 Llama 3 就是通過來自公開來源的15 萬億個 token 進行訓練的。這些方法在快速聚合大量數據方面非常有效,但它們在收集數據的內容和方式方面都有侷限性。
首先,什麼是:AI 開發受到數據質量和數量的限制。Leopold Aschenbrenner 曾寫過關於限制算法進一步改進的“數據牆”的文章:“很快,在更多抓取的數據上對更大的語言模型進行預訓練的簡單方法可能會開始遇到嚴重的瓶頸。”
打破數據壁壘的一種方法是開放新數據集。例如,模型公司無法在不違反大多數網站服務條款的情況下抓取登錄限制的數據,而且從定義上講,他們無法訪問尚未彙總的數據。此外,還有大量私人數據無法用於當今的 AI 訓練:想想企業 Google Drive、公司 Slacks、個人健康數據或私人消息。
第二,如何: 在現有模式下,彙總數據的公司佔據了大部分價值。Reddit 的 S-1將數據許可列為主要預期收入來源:“我們預計我們不斷增長的數據優勢和知識產權將繼續成為未來法學碩士培訓的關鍵要素。” 生成實際內容的最終用戶不會從這些許可協議或 AI 模型本身中獲得任何經濟利益。這種錯位可能會抑制參與——已經有人起訴生成 AI 公司或選擇退出訓練數據集。更不用說將收入集中在模型公司或平臺手中而不將份額分給最終用戶的社會經濟影響。
數據 DAO 效應
上述數據問題有一個共同點:它們受益於來自多樣化、有代表性的用戶樣本的規模化貢獻。任何單個數據點對模型性能的價值可能微不足道,但總的來說,一大群用戶可以聚合對 AI 訓練有價值的新數據集。這就是數據 DAO 的理念可以發揮作用的地方。有了數據 DAO,數據貢獻者可以從貢獻數據中獲得經濟利益,並控制數據的使用和貨幣化方式。
數據 DAO 可以解決當前數據格局中的哪些空白?以下是一些想法——請注意,此列表並不詳盡,數據 DAO 肯定還有其他機會:
真實世界數據
在去中心化物理基礎設施 (DEPIN) 領域,Hivemapper 等網絡旨在通過激勵行車記錄儀所有者貢獻數據以及激勵用戶通過其應用貢獻數據(例如有關道路封閉或維修的信息)來收集世界上最新鮮的全球地圖數據。從某種角度來看,DEPIN 是現實世界的數據 DAO,其中數據集由硬件設備和/或用戶網絡生成。這些數據對各種公司都有商業利益,收入以代幣獎勵的形式返還給貢獻者。
個人健康數據
生物黑客是一項社會運動,個人和社區採用 DIY 方式研究生物學,通常是通過自己做實驗。例如,個人可能會服用不同的益智藥來提高大腦功能,或測試不同的療法或環境變化來改善睡眠,甚至給自己注射實驗藥物。
數據 DAO 可以通過組織參與者進行共同的實驗並有條不紊地收集結果,為這些生物黑客活動帶來結構和激勵。這些個人健康 DAO 獲得的收入(例如來自研究實驗室或製藥公司的收入)可以以個人健康數據的形式返還給貢獻結果的參與者。
通過人工反饋進行強化學習
使用 RLHF(基於人工反饋的強化學習)微調 AI 模型涉及利用人工輸入來提高 AI 系統的性能。通常,反饋者的理想形象是其領域的專家,他們可以有效地評估模型的輸出。例如,實驗室可能會尋求數學博士學位來提高其法學碩士的數學能力ETC。代幣獎勵可以通過其投機性優勢在尋找和激勵專家參與方面發揮作用,更不用說使用加密支付渠道提供的全球訪問權限了。Sapien、 Fraction和Sahara等公司正在這個領域開展工作。
私人數據
隨著可用於 AI 訓練的公開數據逐漸枯竭,競爭的基礎可能會轉向專有數據集,包括私人用戶數據。大量高質量數據仍無法通過登錄牆、私信、私人文檔ETC方式獲取。這些數據不僅可以有效地訓練個人 AI,而且還包含公共網絡上無法獲取的寶貴信息。
然而,訪問和利用這些數據在法律和道德方面都面臨著重大挑戰。數據 DAO 可以提供解決方案,讓有意願的參與者上傳和貨幣化他們的數據並管理其使用方式。例如, Reddit 數據 DAO允許用戶將從平臺本身導出的 Reddit 數據(包含評論、帖子和投票歷史)上傳到數據寶庫,然後以保護隱私的方式將其出售或出租給 AI 公司。代幣激勵措施不僅允許用戶通過一次性數據交易獲得收益,還可以根據在其數據上訓練的 AI 模型所創造的價值獲得收益。
未決問題與挑戰
雖然數據 DAO 的潛在優勢巨大,但也存在一些注意事項和挑戰。
激勵措施的扭曲影響
如果從加密貨幣中使用代幣激勵的歷史中可以得出一個結論,那就是外部激勵會改變用戶行為。這對於利用代幣激勵來獲取數據具有直接影響:激勵可能會扭曲參與者基礎和所貢獻的數據類型。
引入代幣激勵措施還可能使參與者試圖欺騙系統,提交低質量或偽造的數據以最大化他們的收益。這很重要,因為這些數據 DAO 的收入機會取決於數據質量。如果貢獻有偏差,就會損害數據集的價值。
數據測量和獎勵
數據 DAO 的核心理念是,貢獻者通過代幣激勵獲得其提交內容的獎勵,從長遠來看,這些獎勵將匯聚到 DAO 的收入中。然而,鑑於數據價值的主觀性,要確切知道要獎勵各種數據貢獻多少是一項挑戰。例如,在上面關於生物黑客的例子中:某些用戶的數據是否比其他用戶更有價值?如果是這樣,這些決定因素是什麼?對於地圖數據:某些地區的地圖信息是否比其他地區更有價值,如何量化這種差異?(目前有積極的研究通過計算其對模型性能的增量貢獻來衡量人工智能中的數據價值,但這種方法可能需要大量計算。)
此外,建立強大的機制來驗證數據的真實性和準確性至關重要。如果沒有這樣的措施,系統可能會受到欺詐性數據提交(例如創建虛假賬戶)或 Sybil 攻擊的影響。DEPIN 網絡試圖通過在硬件設備級別進行集成來解決這個問題,但其他類型的數據 DAO 依賴於用戶驅動的貢獻,可能會容易受到操縱。
新數據的增量
大多數開放網絡已經用於培訓目的,因此數據 DAO 運營商必須考慮通過分佈式努力收集的數據集是否真正具有增量性,是否對開放網絡上現有的數據具有補充作用,以及研究人員是否可以從平臺獲得這些數據的許可或通過其他方式獲取這些數據。上面概述的想法強調了收集超出現有範圍的全新數據的重要性,這又引出了下一個考慮因素:影響程度和收入機會。
評估收入機會
從本質上講,數據 DAO 正在構建一個雙邊市場,將數據買家與數據貢獻者聯繫起來。因此,數據 DAO 的成功取決於吸引願意為數據付費的穩定而多樣化的客戶群。
數據 DAO 需要確定並驗證其最終需求,並確保收入機會足夠大(無論是總體還是按每個貢獻者計算),以激勵所需數據的數量和質量。例如,創建用戶數據 DAO 以彙集個人偏好和瀏覽數據用於廣告的想法已經討論多年,但最終,這種網絡能夠傳遞給用戶的收入可能微乎其微。(作為比較,Meta 2023 年底的全球 ARPU 為13.12 美元。)由於 AI 公司計劃在培訓上花費數萬億美元,其數據的每個用戶收入可能足以吸引大規模貢獻,這為數據 DAO 提出了一個有趣的“為什麼是現在”。
克服數據牆
數據 DAO 代表著一種可能很有前途的途徑,可以生成新的高質量數據集並克服 AI 中的數據壁壘。具體如何實現還有待觀察,但我們很高興看到這個領域的發展。
如果您是在這個領域工作的建築商,請聯繫我們——我們很樂意聽到您的聲音。
感謝Matt Lim 、 Tom Hamer 、 Anastasios Angelopoulos和Nish Bhat的審閱,以及感謝 Variant 團隊的討論,這些討論促成了這些想法!
感謝閱讀 Li 的新聞通訊!免費訂閱以接收新帖子並支持我的工作。






