数据是AI时代的石油,AI模型的进化离不开海量且高质量的数据集。然而,开源AI模型的发展常常受到高质量数据集缺乏的限制。闭源AI开发者为了降低数据收集成本,让许多工人从事着高强度的精神劳动,却只能获得每小时不到2美元的报酬。这些模型带来的好处集中在少数人手中,加剧了贡献者之间的不平等。
在Bittensor生态中,也有Subnet 33致力于解决高质量数据集缺乏的问题。那么,SN 33具体是如何运行的?目前的表现如何呢?
Subnet 33 ReadyAI
Emission:2.51%(2024–10–13)
Github:https://github.com/afterpartyai/bittensor-conversation-genome-project
Team: SN33背后的团队来自Afterparty AI,这是一家成立于2021年的初创公司,并且在2023年9月获得了来自Blockchange Ventures领投的五百万美元。
The Goal
SN33旨在为个人或企业提供低成本、资源最小化的数据结构化和语义标记流程。为实现这个目标,SN33在文本数据的标注和结构化方面进行了创新,将海量的原始对话数据转化为能够被AI应用采用的结构化数据。
The Execution
SN33巧妙地将分形数据挖掘(fractal data mining)的方法结合到Bittensor的Validator-Miner架构中,以期得到更完整、可靠的结构化数据集。
具体的流程包括:
- Validator:
- 从自行设置的data store或CGP API拉取一段待标注的原始对话数据
- 对原始对话数据进行标注
- 将原始数据拆分成多个相互重叠的短数据,并分发给Miners
2. Miner:
- 使用LLMs处理短数据,生成标签、参与者画像以及每个语义标签的向量嵌入
- 将元数据发回给Validator
3. Validator:
- 将原始对话数据的标注作为事实基准进行比较,从而给Miners的输出结果评分
- 将所有元数据推送回data store或CGP API
这种方法不仅提高了数据处理的效率,还通过交叉验证来增强数据的鲁棒性,防止单一错误或不准确的结果对整体数据集产生重大影响。
The Product
ReadyAI是基于SN33打造的,面向AI 应用开发者的工具平台。通过ReadyAI的服务,AI开发者能够将他们想要采用的原始数据转化为结构化数据,从而优化其产品体验。
例如,网站为Docs Wizards场景提供了一个Demo,用户能够直接与Afterparty CEO的AI化身对话,来了解SN33。
除此之外,针对更丰富的场景,也支持AI开发者通过Personas API来定制符合其需求的对话机器人。
The Update
ReadyAI于2024年9月12日宣布了一项新进展,宣称SN 33头部的Miners处理数据的表现远远超过了亚马逊旗下众包平台Mechanical Turk(MTurk)上人工标注的水平,甚至超过了GPT-4o,并且成本也显著更低。
这项实验选取了1270段对话样本,使用SN 33 Top 5 Miners的模型进行标注,并与MTurk工人和GPT-4o的表现进行比较。实验结果显示,Miners的标注准确率比MTurk高出71%,比GPT-4o高出37%。并且,Miners的标注成本也远远小于人工,大约是MTurk的1/660。
这项实验进一步支持了LLMs在数据标注任务中更有竞争优势,并且SN 33输出的服务在这方面较GPT-4o也更加领先。
The Conclusion
高质量数据集是AI Model训练、微调中不可或缺的一环。SN 33以低成本提供高质量、可定制的数据集,这对开源AI模型的发展非常有价值。尤其是对中小企业来说,这种负担得起的标注方案能够帮助他们以更低的成本获取优质的结构化数据,从而推动AI应用和自动化,增强竞争力。这样的创新让更多企业能够参与AI的发展,并从中受益。