人工智能行业越来越依赖于合成数据,但这是否是一条可持续的道路?
目前,许多网站已经阻止了人工智能公司的数据收集工具。根据Epoch AI的预测,如果这一趋势持续下去,用于训练人工智能的训练数据可能会在2026年至2032年之间耗尽。在这种背景下,Anthropic、Meta和OpenAI等人工智能公司已经开始使用合成数据来训练他们的模型,如Claude 3.5 Sonnet、Llama 3.1和Orion。
这不仅有助于降低数据收集的成本和时间,而且还可以扩展创建丰富数据集的能力,而不依赖于实际数据。合成数据在训练人工智能模型方面发挥着关键作用,特别是在数据标注方面,这是帮助模型更准确识别和预测的关键因素。
合成数据市场预计到2030年将达到23.4亿镁。Gartner预测,今年用于人工智能和分析的数据中,有60%将是合成数据。然而,过度依赖合成数据也带来了数据质量和多样性方面的挑战。
来自Rice大学和斯坦福大学的研究表明,如果仅依赖合成数据,人工智能模型的质量和多样性可能会逐渐下降。此外,人工智能行业还面临着数据偏差的问题,因为合成数据可能反映了原始数据的局限性和偏差。在有缺陷的数据上训练的模型将产生更多缺陷的数据,形成一个负反馈循环。
艾伦人工智能研究所的高级研究科学家Luca Soldaini认为,"粗糙"的合成数据是不可靠的。安全使用它们需要仔细检查、排序和过滤,最理想的是将其与新的实际数据相结合。
然而,为了最大限度地利用合成数据的优势,科技行业需要继续研究和开发确保数据质量的方法,同时解决人力问题,以实现可持续发展。
尽管OpenAI的CEO Sam Altman曾预测,人工智能将能够自行生成足够优质的合成数据进行自我训练,但这项技术尚未出现。科技行业需要在利益和风险之间寻求平衡,以优化人工智能在未来的潜力。