人工智慧行業越來越依賴於合成數據,但這是否是一條可持續的道路?
目前,許多網站已經阻止了人工智慧公司的資料收集工具。根據Epoch AI的預測,如果這一趨勢持續下去,用於訓練人工智慧的訓練資料可能會在2026年至2032年之間耗盡。在這種背景下,Anthropic、Meta和OpenAI等人工智慧公司已經開始使用合成數據來訓練他們的模型,如Claude 3.5 Sonnet、Llama 3.1和Orion。
這不僅有助於降低資料收集的成本和時間,而且還可以擴充套件建立豐富資料集的能力,而不依賴於實際資料。合成數據在訓練人工智慧模型方面發揮著關鍵作用,特別是在資料標註方面,這是幫助模型更準確識別和預測的關鍵因素。
合成數據市場預計到2030年將達到23.4億鎂。Gartner預測,今年用於人工智慧和分析的資料中,有60%將是合成數據。然而,過度依賴合成數據也帶來了資料質量和多樣性方面的挑戰。
來自Rice大學和斯坦福大學的研究表明,如果僅依賴合成數據,人工智慧模型的質量和多樣性可能會逐漸下降。此外,人工智慧行業還面臨著資料偏差的問題,因為合成數據可能反映了原始資料的侷限性和偏差。在有缺陷的資料上訓練的模型將產生更多缺陷的資料,形成一個負反饋迴圈。
艾倫人工智慧研究所的高階研究科學家Luca Soldaini認為,"粗糙"的合成數據是不可靠的。安全使用它們需要仔細檢查、排序和過濾,最理想的是將其與新的實際資料相結合。
然而,為了最大限度地利用合成數據的優勢,科技行業需要繼續研究和開發確保資料質量的方法,同時解決人力問題,以實現可持續發展。
儘管OpenAI的CEO Sam Altman曾預測,人工智慧將能夠自行生成足夠優質的合成數據進行自我訓練,但這項技術尚未出現。科技行業需要在利益和風險之間尋求平衡,以最佳化人工智慧在未來的潛力。