Ngành trí tuệ nhân tạo ngày càng sử dụng dữ liệu tổng hợp, nhưng liệu đây có phải là con đường bền vững?

Ngành trí tuệ nhân tạo ngày càng sử dụng dữ liệu tổng hợp, nhưng liệu đây có phải là con đường bền vững?Hiện tại, nhiều trang web đã chặn các công cụ thu thập dữ liệu của các công ty AI. Theo Epoch AI, nếu xu hướng này tiếp diễn, dữ liệu huấn luyện AI có thể cạn kiệt trong khoảng từ 2026 đến 2032. Trong bối cảnh đó, các công ty trí tuệ nhân tạo (AI) như Anthropic, Meta và <a href="https://techcrunch.com/2024/05/13/openais-newest-model-is-gpt-4o/" rel="nofollow">OpenAI </a>đã bắt đầu sử dụng dữ liệu tổng hợp để đào tạo các mô hình của mình, như Claude 3.5 Sonnet, Llama 3.1 và <a href="https://techcrunch.com/2024/09/12/openai-unveils-a-model-that-can-fact-check-itself/" rel="nofollow">Orion</a>.Việc này không chỉ giúp giảm chi phí và thời gian thu thập dữ liệu mà còn mở rộng khả năng tạo ra các bộ dữ liệu phong phú mà không phụ thuộc vào dữ liệu thực tế. Dữ liệu tổng hợp đóng vai trò quan trọng trong việc huấn luyện AI, đặc biệt trong việc gắn nhãn dữ liệu, một yếu tố then chốt giúp các mô hình nhận diện và dự đoán chính xác hơn.Thị trường dữ liệu tổng hợp dự kiến đạt 2,34 tỷ USD vào năm 2030, và Gartner dự đoán 60% dữ liệu được sử dụng cho AI và phân tích trong năm nay sẽ được tạo tổng hợp. Tuy nhiên, việc phụ thuộc quá nhiều vào dữ liệu tổng hợp cũng mang lại những thách thức về chất lượng và tính đa dạng của dữ liệu.Các nghiên cứu từ Đại học Rice và Stanford cho thấy mô hình AI có thể mất dần chất lượng và sự đa dạng nếu chỉ dựa vào dữ liệu tổng hợp. Ngoài ra, ngành công nghiệp AI cũng đối mặt với vấn đề thiên lệch dữ liệu khi dữ liệu tổng hợp có thể phản ánh <a href="https://phocapblockchain.net/ai-doi-mat-nguy-co-tu-huy-do-sup-do-mo-hinh/" rel="nofollow">những hạn chế và thiên lệch </a>của dữ liệu gốc. Các mô hình được đào tạo trên dữ liệu có lỗi sẽ tạo ra dữ liệu có nhiều lỗi hơn, tạo thành một vòng lặp phản hồi tiêu cực.<figure><img src="https://static.fwimg.io/img/feed/7559cc20462e8ef7666f65eca0dbc818.jpg" alt=""><figcaption>Vấn đề muôn thuở khi dùng lại dư liệu của AI. Nguồn:  Ilia Shumailov và cộng sự.</figcaption></figure>Luca Soldaini, một nhà khoa học nghiên cứu cấp cao tại Viện AI Allen, cho rằng dữ liệu tổng hợp “thô” không đáng tin cậy. Việc sử dụng chúng một cách an toàn đòi hỏi phải xem xét, sắp xếp và lọc kỹ lưỡng, và lý tưởng nhất là kết hợp nó với dữ liệu thực tế mới.Tuy nhiên, để khai thác tối đa lợi ích từ dữ liệu tổng hợp, ngành công nghệ cần tiếp tục nghiên cứu và phát triển các phương pháp đảm bảo chất lượng dữ liệu, đồng thời giải quyết các vấn đề về nhân lực để đạt được sự phát triển bền vững.Mặc dù CEO OpenAI, Sam Altman, từng dự đoán AI sẽ tự tạo ra dữ liệu tổng hợp đủ tốt để tự huấn luyện, nhưng công nghệ này vẫn chưa xuất hiện. Ngành công nghệ cần cân bằng giữa lợi ích và rủi ro để tối ưu hóa tiềm năng của AI trong tương lai.

Dữ liệu tổng hợp: Giải pháp hay rủi ro cho ngành AI

人工智能行业日益依赖<数据>综合,但这是否是一条可持续的道路?

人工智能行业越来越依赖于合成数据,但这是否是一条可持续的道路?目前,许多网站已经阻止了人工智能公司的数据收集工具。根据Epoch AI的预测,如果这一趋势持续下去,用于训练人工智能的训练数据可能会在2026年至2032年之间耗尽。在这种背景下,Anthropic、Meta和<a href="https://techcrunch.com/2024/05/13/openais-newest-model-is-gpt-4o/" rel="nofollow">OpenAI</a>等人工智能公司已经开始使用合成数据来训练他们的模型,如Claude 3.5 Sonnet、Llama 3.1和<a href="https://techcrunch.com/2024/09/12/openai-unveils-a-model-that-can-fact-check-itself/" rel="nofollow">Orion</a>。这不仅有助于降低数据收集的成本和时间,而且还可以扩展创建丰富数据集的能力,而不依赖于实际数据。合成数据在训练人工智能模型方面发挥着关键作用,特别是在数据标注方面,这是帮助模型更准确识别和预测的关键因素。合成数据市场预计到2030年将达到23.4亿镁。Gartner预测,今年用于人工智能和分析的数据中,有60%将是合成数据。然而,过度依赖合成数据也带来了数据质量和多样性方面的挑战。来自Rice大学和斯坦福大学的研究表明,如果仅依赖合成数据,人工智能模型的质量和多样性可能会逐渐下降。此外,人工智能行业还面临着数据偏差的问题,因为合成数据可能反映了原始数据的<a href="https://phocapblockchain.net/ai-doi-mat-nguy-co-tu-huy-do-sup-do-mo-hinh/" rel="nofollow">局限性和偏差</a>。在有缺陷的数据上训练的模型将产生更多缺陷的数据,形成一个负反馈循环。<figure><img src="https://static.fwimg.io/img/feed/7559cc20462e8ef7666f65eca0dbc818.jpg" alt=""><figcaption>使用人工智能数据的永恒问题。来源:Ilia Shumailov等人。</figcaption></figure>艾伦人工智能研究所的高级研究科学家Luca Soldaini认为,"粗糙"的合成数据是不可靠的。安全使用它们需要仔细检查、排序和过滤,最理想的是将其与新的实际数据相结合。然而,为了最大限度地利用合成数据的优势,科技行业需要继续研究和开发确保数据质量的方法,同时解决人力问题,以实现可持续发展。尽管OpenAI的CEO Sam Altman曾预测,人工智能将能够自行生成足够优质的合成数据进行自我训练,但这项技术尚未出现。科技行业需要在利益和风险之间寻求平衡,以优化人工智能在未来的潜力。

合成数据：AI行业的解决方案还是风险

Apechain 也决定开始搞 Meme Pump 了。
作者：深潮 TechFlow
这两天，游戏板块集体回春，众人期盼已久的板块轮动效应在也有了些苗头。
昨天至今市场最关心的事莫过于 $APE 价格暴涨翻倍，乍一看是被游戏板块的整体上涨带动，但怎么涨着涨着已经翻倍了？一刷社媒，发现昨天还在山羊、大鹅的 Meme 热点今天已经转移到 Apechain 上面。
是的，Apechain 也决定开始搞...

ApeExpress 带动亿元市值涨幅，这趟 Apechain 的 Meme 快车怎么上？| 今日拉盘角度大赏

超七成MEME在今年走红，惊人收益背后大多需持有至少五个月。
作者：Nancy，PANews
“今天冲哪个CA？”
层出不穷的MEME币，玩家们乐此不疲地挖掘潜在“金狗”，一些MEME群里，玩家互相分享自己刚买入的MEME币的CA(合约地址），推陈出新的MEME发射平台降低了发币的难度，KOL们持续带动各类MEME项目强势霸屏，PANews也撰文分析了MEME在当下“碾压”主流币火热的原因。
尽管...

如何挖掘潜在“金狗”？多角度解析 12 个热门 MEME 的市场表现与崛起逻辑

作者 | Vitalik Buterin
编译 | PANews（吴说在原文基础上有所调整）
原文链接：
https://www.panewslab.com/zh/articledetails/tjxfwbpy.html
10 月 17 日，由万向区块链实验室主办的 “第十届区块链全球峰会” 正式召开。以太坊联合创始人 Vitalik Buterin 在会上发表了演讲，回顾了以太坊的发展历程并展望...