GM(Good Morning) 隐私与合规问题:当前各个国家、企业逐渐注意到优质数据集的重要性,正在对数据集爬取进行限制。
数据处理成本高昂:数据量大,处理过程复杂。公开资料显示,AI 公司超过30% 的研发成本是用于基础数据采集、处理。
目前,web3 的解决方案体现在以下四个方面:
1、数据收集:能够免费提供抓取的真实世界数据正在迅速耗尽,AI 公司为数据付费的支出逐年升高。但与此同时,这份支出并没有反哺到数据真正的贡献者身上,平台全然享受了数据带来的价值创造,如 Reddit 通过与 AI 公司签订的数据授权协议实现合计 2.03 亿美元的收入。
让真正贡献的用户同样参与数据带来的价值创造,以及通过分布式网络与激励机制,以低成本的方式获取用户更加私人、更具价值的数据,是 Web3 的愿景。
- 如Grass 是一个去中心化的数据层和网络,用户可以通过运行 Grass 节点,贡献闲置带宽和中继流量用以捕获整个互联网中的实时数据,并获取代币奖励;
- Vana 则引入了一个独特的数据流动性池(DLP)概念,用户可以将他们的私人数据(如购物记录、浏览习惯、社交媒体活动等)上传至特定 DLP,并灵活选择是否将这些数据授权给特定的第三方使用;
- 在 PublicAI 中,用户可在 X 上使用 #AI 或#Web3 作为分类标签并@PublicAI 即可实现数据收集。
2、数据预处理:在 AI 的数据处理过程中,由于收集来的数据通常嘈杂且包含错误,其在训练模型之前必须将其清理并转换为可用格式,涉及标准化、过滤和处理缺失值的重复任务。此阶段是 AI 行业为数不多的人工环节,已经衍生出数据标注师这一行业,随着模型对数据质量的要求提高,数据标注师的门槛也随之提升,而这一任务天然适合 Web3 的去中心化激励机制。
- 目前,Grass 与 OpenLayer都正在考虑加入数据标注这一关键环节。
- Synesis提出了「Train2earn」的概念,强调数据质量,用户可通过提供标注数据、注释或其他形式的输入获得奖励。
- 数据标注项目Sapien 则将标记任务游戏化,并让用户质押积分以赚取更多积分。
3、数据隐私与安全:需要厘清的是,数据隐私与安全是两个不同的概念。数据隐私涉及敏感数据的处理,数据安全则保护数据信息免遭未经授权的访问、破坏和盗窃。由此,Web3 隐私技术优势和潜在的应用场景体现在两个方面:(1)敏感数据的训练;(2)数据协作:多个数据所有者可以共同参与 AI 训练,而无需共享其原始数据。
当前 Web3 较为普遍的隐私技术包括:
- 可信执行环境(TEE),例如Super Protocol;
- 完全同态加密(FHE),例如 BasedAI 、Fhenix.io 或 Inco Network;
- 零知识技术(zk),如 Reclaim Protocol 使用 zkTLS 技术,生成 HTTPS流量的零知识证明,允许用户从外部网站安全导入活动、声誉和身份数据,而无需暴露敏感信息。
不过,目前该领域仍处于早期阶段,大部分的项目仍在探索中,目前的一个困境是计算成本太高,一些例子是:
- zkML框架EZKL需要大约 80 分钟才能生成一个 1M-nanoGPT 模型的证明。
- 根据 Modulus Labs 的数据,zkML 的开销比纯计算高出 1000 倍以上。
4、数据存储:有了数据之后,还需要一个地方来在链上存储数据,以及使用该数据生成的 LLM。以数据可用性(DA)为核心问题,在以太坊 Danksharding 升级之前,其吞吐量为 0.08MB。与此同时的是,AI 模型的训练和实时推理通常需要每秒 50 到 100GB 的数据吞吐量。这种数量级的差距,让现有的链上解决方案在面对"资源密集型的AI应用时"力不从心。
- 0g.AI是这一类别的代表项目。它是一个针对AI高性能需求设计的中心化存储解决方案,其关键特性包括:高性能与扩展性,通过高级分片(Sharding)和纠删码(Erasure Coding)技术,支持快速上传和下载大规模数据集,数据传输速度接近每秒 5GB。
二、中间件:模型的训练与推理
▎开源模型去中心化市场
有关于 AI 模型闭源还是开源的争论从未消失。开源带来的集体创新是闭源模型无法比拟的优势,然而在毫无盈利模式的前提下,开源模型如何提高开发者驱动力?是一个值得思索的方向,百度创始人李彦宏就曾在今年 4 月断言,"开源模型会越来越落后。"
对此,Web3 提出一个去中心化的开源模型市场的可能性,即对模型本身进行代币化,为团队保留一定比例的代币,并将该模型的部分未来收入流向代币持有者。
- 如 Bittensor协议建立一个开源模型的 P2P 市场,由数十个"子网"组成,其中资源提供者(计算、数据收集/存储、机器学习人才)相互竞争,以满足特定子网所有者的目标,各个子网可以交互并相互学习,从而实现更强大的智能。奖励由社区投票分配,并根据竞争表现进一步分配在各子网中。
- ORA引入了初始模型发行(IMO)的概念,将AI模型代币化,可通过去中心化网络购买、出售和开发 AI 模型。
- Sentient,一个去中心化的 AGI 平台,激励人们贡献者合作、构建、复制和扩展AI模型,并对贡献者进行奖励。
- Spectral Nova,聚焦于 AI 和 ML 模型的创建与应用。
▎可验证推理
针对AI的推理过程中的"黑盒"难题,标准的 Web3 解决方案是让多个验证者重复相同的操作并比较结果,但由于目前高端"Nvidia 芯片"短缺,这种做法面临的明显挑战是AI推理成本高昂。
更有希望的解决方案是对链下 AI 推理计算执行ZK 证明「零知识证明,一种密码协议,其中一方证明者可以向另一方验证者证明一个给定的陈述是真实的,而不泄露除该陈述为真以外的任何附加信息」,在链上对 AI 模型计算进行无需许可的验证。这需要在链上以加密方式证明链下计算已正确完成(例如数据集未被篡改),同时确保所有数据保密。
主要优点包括:
- 可扩展性:零知识证明可以快速确认大量链下计算。即使交易数量增加,单个零知识证明也可以验证所有交易。
- 隐私保护:数据和 AI 模型详细信息保持私密,同时各方可以验证数据和模型没有被破坏。
- 无需信任:无需依赖中心化各方即可确认计算。
- Web2集成:从定义上讲,Web2 是链下集成的,这意味着可验证推理可以帮助将其数据集和 AI 计算带到链上。这有助于提高 Web3 的采用率。
目前 Web3 针对可验证推理的可验证技术如下:
- zkML:将零知识证明与机器学习相结合,以确保数据和模型的隐私和机密性,允许可验证的计算而无需透露某些底层属性,如 Modulus Labs 基于ZKML 发布了为 AI 构建的 ZK 证明器,来有效检查 AI 提供商在链上是否操纵算法正确执行,不过目前客户基本为链上 DApp。
- opML:利用乐观汇总原则,通过验证争议发生的时间,提高 ML 计算的可扩展性和效率,这个模型中,只需要验证"验证者"生成结果中的一小部分,但将削减经济成本设置得足够高,以提高验证者作弊成本从而节省冗余计算。