
Meta的LLaMA-4曾寄予厚望。然而,它令人失望。与其前身相比,它的推理能力更弱,出现更多幻觉,整体性能下降。根据D-GN的首席执行官Johanna Cabildo的说法,原因并非计算能力或创新不足,而是数据问题。
在耗尽互联网上干净、多样且高质量的文本后,Meta转向合成数据:用于训练新一代人工智能的人工智能生成内容。这造成了一个循环,模型从自身学习,每一轮都会失去准确性和深度。
其他主要参与者——OpenAI、谷歌、Anthropic——也面临同样的困境。丰富的现实世界训练数据时代已经结束。剩下的只有合成填充物。因此,进展停滞,进步的假象掩盖了悄然的衰退。
谁拥有数据?
2024年斯坦福人工智能指数报告显示,现在有八家公司控制了全球89%的人工智能训练数据和基础设施。这不仅仅是市场力量的问题,还影响了人工智能中嵌入的知识以及被排除的视角。
在有偏见或狭窄的数据集上训练的模型可能会强化现实世界的伤害。基于美国医疗记录的人工智能工具会误诊其他国家的患者。招聘系统会惩罚非西方名字的申请者。面部识别在深色皮肤上不太准确,尤其是对女性。过滤器将少数群体方言视为令人反感或无关。
随着模型更多地依赖合成数据,错误会变得更糟。研究人员警告存在递归循环,会产生"精美的废话"——听起来正确但包含虚构事实的文本。到2025年初,哥伦比亚新闻评论发现谷歌Gemini只有10%的引用是完全准确的。这些系统越是在自身有缺陷的输出上训练,衰退就越快。
被锁定,被排除
人工智能公司以公开可用的知识为基础建立模型——包括书籍、维基百科、论坛,甚至新闻文章。但现在,这些公司正在封闭其模型并将访问权商业化。
2023年末,纽约时报起诉OpenAI和微软未经授权使用其内容。与此同时,Reddit和Stack Overflow签订了独家许可协议,让OpenAI获取之前对所有人开放的用户生成内容。
这个策略很清晰:收割免费的公共知识,将其商业化,并将其锁在API后面。曾从开放生态系统中受益的同一批公司现在限制访问,同时推广合成数据作为可持续的替代方案——尽管越来越多的证据表明这会降低模型性能。人工智能不能通过学习自身来进化。镜子里没有洞察力。
另一种路径
解决人工智能的数据危机不需要更多计算能力或更大的模型——而是需要改变数据的收集、估值和治理方式。
Web3技术提供了一种可能的前进方向。区块链可以追踪数据的来源。代币化系统可以公平地补偿贡献知识的人。像Morpheus Labs这样的项目通过激励社区输入,将斯瓦希里语人工智能性能提高了30%。
像零知识证明这样的隐私保护工具增加了另一层信任。它们使得在敏感信息(如医疗记录)上训练模型成为可能,同时不会暴露私人数据。这确保模型可以在道德的基础上学习,同时仍然保持高性能。
这些想法并非空想。初创公司已经在使用去中心化工具,在全球范围内构建具有文化准确性和隐私尊重的人工智能系统。
重新夺回未来
人工智能正在塑造影响社会的系统——教育、医疗、工作和通信。现在的核心问题不再是人工智能是否会主导,而是谁控制它将成为什么样子。
我们是否会允许少数公司回收自身输出、降低模型质量并巩固偏见?还是我们将投资建立一种新型数据生态系统——一个重视透明度、公平性和共同所有权的系统?
问题不在于机器没有足够的数据。问题在于它们使用的数据越来越多地是合成的、狭窄的和受控的。解决方案是将权力归还给创造有意义内容的人,并为他们提供回报。更好的人工智能从更好的数据开始。而更好的数据从我们开始。
这篇文章最初发表在元宇宙邮报上。





