科技巨頭的數據成癮正在破壞人工智慧

本文為機器翻譯
展示原文
大型科技公司的資料成癮正在破壞人工智慧

Meta的LLaMA-4曾寄予厚望。然而,它令人失望。與其前身相比,它的推理能力更弱,出現更多幻覺,整體效能下降。根據D-GN的執行長Johanna Cabildo的說法,原因並非計算能力或創新不足,而是資料問題。

在耗盡網際網路上乾淨、多樣且高質量的文字後,Meta轉向合成數據:用於訓練新一代人工智慧的人工智慧生成內容。這造成了一個迴圈,模型從自身學習,每一輪都會失去準確性和深度。

其他主要參與者——OpenAI、谷歌、Anthropic——也面臨同樣的困境。豐富的現實世界訓練資料時代已經結束。剩下的只有合成填充物。因此,進展停滯,進步的假象掩蓋了悄然的衰退。

誰擁有資料?

2024年斯坦福人工智慧指數報告顯示,現在有八家公司控制了全球89%的人工智慧訓練資料和基礎設施。這不僅僅是市場力量的問題,還影響了人工智慧中嵌入的知識以及被排除的視角。

在有偏見或狹窄的資料集上訓練的模型可能會強化現實世界的傷害。基於美國醫療記錄的人工智慧工具會誤診其他國家的患者。招聘系統會懲罰非西方名字的申請者。面部識別在深色皮膚上不太準確,尤其是對女性。過濾器將少數群體方言視為令人反感或無關。

隨著模型更多地依賴合成數據,錯誤會變得更糟。研究人員警告存在遞迴迴圈,會產生"精美的廢話"——聽起來正確但包含虛構事實的文字。到2025年初,哥倫比亞新聞評論發現谷歌Gemini只有10%的引用是完全準確的。這些系統越是在自身有缺陷的輸出上訓練,衰退就越快。

被鎖定,被排除

人工智慧公司以公開可用的知識為基礎建立模型——包括書籍、維基百科、論壇,甚至新聞文章。但現在,這些公司正在封閉其模型並將訪問權商業化。

2023年末,紐約時報起訴OpenAI和微軟未經授權使用其內容。與此同時,Reddit和Stack Overflow簽訂了獨家許可協議,讓OpenAI獲取之前對所有人開放的使用者生成內容。

這個策略很清晰:收割免費的公共知識,將其商業化,並將其鎖在API後面。曾從開放生態系統中受益的同一批公司現在限制訪問,同時推廣合成數據作為可持續的替代方案——儘管越來越多的證據表明這會降低模型效能。人工智慧不能透過學習自身來進化。鏡子裡沒有洞察力。

另一種路徑

解決人工智慧的資料危機不需要更多計算能力或更大的模型——而是需要改變資料的收集、估值和治理方式。

Web3技術提供了一種可能的前進方向。區塊鏈可以追蹤資料的來源。代幣化系統可以公平地補償貢獻知識的人。像Morpheus Labs這樣的專案透過激勵社群輸入,將斯瓦希里語人工智慧效能提高了30%。

像零知識證明這樣的隱私保護工具增加了另一層信任。它們使得在敏感資訊(如醫療記錄)上訓練模型成為可能,同時不會暴露私人資料。這確保模型可以在道德的基礎上學習,同時仍然保持高效能。

這些想法並非空想。初創公司已經在使用去中心化工具,在全球範圍內構建具有文化準確性和隱私尊重的人工智慧系統。

重新奪回未來

人工智慧正在塑造影響社會的系統——教育、醫療、工作和通訊。現在的核心問題不再是人工智慧是否會主導,而是誰控制它將成為什麼樣子。

我們是否會允許少數公司回收自身輸出、降低模型質量並鞏固偏見?還是我們將投資建立一種新型資料生態系統——一個重視透明度、公平性和共同所有權的系統?

問題不在於機器沒有足夠的資料。問題在於它們使用的資料越來越多地是合成的、狹窄的和受控的。解決方案是將權力歸還給創造有意義內容的人,併為他們提供回報。更好的人工智慧從更好的資料開始。而更好的資料從我們開始。

這篇文章最初發表在元宇宙郵報上。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論