Ngành trí tuệ nhân tạo ngày càng sử dụng dữ liệu tổng hợp, nhưng liệu đây có phải là con đường bền vững?

Ngành trí tuệ nhân tạo ngày càng sử dụng dữ liệu tổng hợp, nhưng liệu đây có phải là con đường bền vững?Hiện tại, nhiều trang web đã chặn các công cụ thu thập dữ liệu của các công ty AI. Theo Epoch AI, nếu xu hướng này tiếp diễn, dữ liệu huấn luyện AI có thể cạn kiệt trong khoảng từ 2026 đến 2032. Trong bối cảnh đó, các công ty trí tuệ nhân tạo (AI) như Anthropic, Meta và <a href="https://techcrunch.com/2024/05/13/openais-newest-model-is-gpt-4o/" rel="nofollow">OpenAI </a>đã bắt đầu sử dụng dữ liệu tổng hợp để đào tạo các mô hình của mình, như Claude 3.5 Sonnet, Llama 3.1 và <a href="https://techcrunch.com/2024/09/12/openai-unveils-a-model-that-can-fact-check-itself/" rel="nofollow">Orion</a>.Việc này không chỉ giúp giảm chi phí và thời gian thu thập dữ liệu mà còn mở rộng khả năng tạo ra các bộ dữ liệu phong phú mà không phụ thuộc vào dữ liệu thực tế. Dữ liệu tổng hợp đóng vai trò quan trọng trong việc huấn luyện AI, đặc biệt trong việc gắn nhãn dữ liệu, một yếu tố then chốt giúp các mô hình nhận diện và dự đoán chính xác hơn.Thị trường dữ liệu tổng hợp dự kiến đạt 2,34 tỷ USD vào năm 2030, và Gartner dự đoán 60% dữ liệu được sử dụng cho AI và phân tích trong năm nay sẽ được tạo tổng hợp. Tuy nhiên, việc phụ thuộc quá nhiều vào dữ liệu tổng hợp cũng mang lại những thách thức về chất lượng và tính đa dạng của dữ liệu.Các nghiên cứu từ Đại học Rice và Stanford cho thấy mô hình AI có thể mất dần chất lượng và sự đa dạng nếu chỉ dựa vào dữ liệu tổng hợp. Ngoài ra, ngành công nghiệp AI cũng đối mặt với vấn đề thiên lệch dữ liệu khi dữ liệu tổng hợp có thể phản ánh <a href="https://phocapblockchain.net/ai-doi-mat-nguy-co-tu-huy-do-sup-do-mo-hinh/" rel="nofollow">những hạn chế và thiên lệch </a>của dữ liệu gốc. Các mô hình được đào tạo trên dữ liệu có lỗi sẽ tạo ra dữ liệu có nhiều lỗi hơn, tạo thành một vòng lặp phản hồi tiêu cực.<figure><img src="https://static.fwimg.io/img/feed/7559cc20462e8ef7666f65eca0dbc818.jpg" alt=""><figcaption>Vấn đề muôn thuở khi dùng lại dư liệu của AI. Nguồn:  Ilia Shumailov và cộng sự.</figcaption></figure>Luca Soldaini, một nhà khoa học nghiên cứu cấp cao tại Viện AI Allen, cho rằng dữ liệu tổng hợp “thô” không đáng tin cậy. Việc sử dụng chúng một cách an toàn đòi hỏi phải xem xét, sắp xếp và lọc kỹ lưỡng, và lý tưởng nhất là kết hợp nó với dữ liệu thực tế mới.Tuy nhiên, để khai thác tối đa lợi ích từ dữ liệu tổng hợp, ngành công nghệ cần tiếp tục nghiên cứu và phát triển các phương pháp đảm bảo chất lượng dữ liệu, đồng thời giải quyết các vấn đề về nhân lực để đạt được sự phát triển bền vững.Mặc dù CEO OpenAI, Sam Altman, từng dự đoán AI sẽ tự tạo ra dữ liệu tổng hợp đủ tốt để tự huấn luyện, nhưng công nghệ này vẫn chưa xuất hiện. Ngành công nghệ cần cân bằng giữa lợi ích và rủi ro để tối ưu hóa tiềm năng của AI trong tương lai.

Dữ liệu tổng hợp: Giải pháp hay rủi ro cho ngành AI

人工智慧行業日益依賴<資料>綜合,但這是否是一條可持續的道路?

人工智慧行業越來越依賴於合成數據,但這是否是一條可持續的道路?目前,許多網站已經阻止了人工智慧公司的資料收集工具。根據Epoch AI的預測,如果這一趨勢持續下去,用於訓練人工智慧的訓練資料可能會在2026年至2032年之間耗盡。在這種背景下,Anthropic、Meta和<a href="https://techcrunch.com/2024/05/13/openais-newest-model-is-gpt-4o/" rel="nofollow">OpenAI</a>等人工智慧公司已經開始使用合成數據來訓練他們的模型,如Claude 3.5 Sonnet、Llama 3.1和<a href="https://techcrunch.com/2024/09/12/openai-unveils-a-model-that-can-fact-check-itself/" rel="nofollow">Orion</a>。這不僅有助於降低資料收集的成本和時間,而且還可以擴充套件建立豐富資料集的能力,而不依賴於實際資料。合成數據在訓練人工智慧模型方面發揮著關鍵作用,特別是在資料標註方面,這是幫助模型更準確識別和預測的關鍵因素。合成數據市場預計到2030年將達到23.4億鎂。Gartner預測,今年用於人工智慧和分析的資料中,有60%將是合成數據。然而,過度依賴合成數據也帶來了資料質量和多樣性方面的挑戰。來自Rice大學和斯坦福大學的研究表明,如果僅依賴合成數據,人工智慧模型的質量和多樣性可能會逐漸下降。此外,人工智慧行業還面臨著資料偏差的問題,因為合成數據可能反映了原始資料的<a href="https://phocapblockchain.net/ai-doi-mat-nguy-co-tu-huy-do-sup-do-mo-hinh/" rel="nofollow">侷限性和偏差</a>。在有缺陷的資料上訓練的模型將產生更多缺陷的資料,形成一個負反饋迴圈。<figure><img src="https://static.fwimg.io/img/feed/7559cc20462e8ef7666f65eca0dbc818.jpg" alt=""><figcaption>使用人工智慧資料的永恆問題。來源:Ilia Shumailov等人。</figcaption></figure>艾倫人工智慧研究所的高階研究科學家Luca Soldaini認為,"粗糙"的合成數據是不可靠的。安全使用它們需要仔細檢查、排序和過濾,最理想的是將其與新的實際資料相結合。然而,為了最大限度地利用合成數據的優勢,科技行業需要繼續研究和開發確保資料質量的方法,同時解決人力問題,以實現可持續發展。儘管OpenAI的CEO Sam Altman曾預測,人工智慧將能夠自行生成足夠優質的合成數據進行自我訓練,但這項技術尚未出現。科技行業需要在利益和風險之間尋求平衡,以最佳化人工智慧在未來的潛力。

合成數據：AI行業的解決方案還是風險

Apechain 也決定開始搞 Meme Pump 了。
作者：深潮 TechFlow
這兩天，遊戲板塊集體回春，眾人期盼已久的板塊輪動效應在也有了些苗頭。
昨天至今市場最關心的事莫過於 $APE 價格暴漲翻倍，乍一看是被遊戲板塊的整體上漲帶動，但怎麼漲著漲著已經翻倍了？一刷社媒，發現昨天還在山羊、大鵝的 Meme 熱點今天已經轉移到 Apechain 上面。
是的，Apechain 也決定開始搞...

ApeExpress 帶動億元市值漲幅，這趟 Apechain 的 Meme 快車怎麼上？| 今日拉盤角度大賞

超七成MEME在今年走紅，驚人收益背後大多需持有至少五個月。
作者：Nancy，PANews
“今天衝哪個CA？”
層出不窮的MEME幣，玩家們樂此不疲地挖掘潛在“金狗”，一些MEME群裡，玩家互相分享自己剛買入的MEME幣的CA(合約地址），推陳出新的MEME發射平臺降低了發幣的難度，KOL們持續帶動各類MEME項目強勢霸屏，PANews也撰文分析了MEME在當下“碾壓”主流幣火熱的原因。
儘管...

如何挖掘潛在“金狗”？多角度解析 12 個熱門 MEME 的市場表現與崛起邏輯

作者 | Vitalik Buterin
編譯 | PANews（吳說在原文基礎上有所調整）
原文鏈接：
https://www.panewslab.com/zh/articledetails/tjxfwbpy.html
10 月 17 日，由萬向區塊鏈實驗室主辦的 “第十屆區塊鏈全球峰會” 正式召開。以太坊聯合創始人 Vitalik Buterin 在會上發表了演講，回顧了以太坊的發展歷程並展望...