SN 33:为开源 AI 贡献高质量数据集

本文为机器翻译
展示原文

数据是人工智能时代的生命线,对人工智能模型的发展至关重要。然而,开源人工智能模型的发展常常受到缺乏大规模、高质量数据集的限制。相比之下,闭源人工智能开发者通过雇佣工人进行密集的认知任务来降低数据收集成本,通常每小时支付不到2美元。这些模型的收益集中在少数人手中,加剧了贡献者之间的不平等。

在Bittensor生态系统中,Subnet 33旨在解决高质量数据集的稀缺问题。SN 33是如何运作的,它目前的性能指标是什么?

Subnet 33 ReadyAI

Emission:2.51%(2024–10–13)

Github:https://github.com/afterpartyai/bittensor-conversation-genome-project

团队: SN33背后的团队来自于2021年成立的初创公司Afterparty AI。2023年9月,Afterparty AI获得了由Blockchange Ventures领投的500万美元融资。

Root Network验证者在SN 33上的质押TAO数量(数量=验证者的总质押*验证者在SN 33上的权重)

目标

SN33旨在为个人和企业提供低成本、资源高效的数据结构化和语义标注流程。为此,SN33在文本数据的注释和结构化方面进行了创新,将大量原始对话数据转化为可供人工智能应用程序使用的结构化数据集。

执行
SN33将分形数据挖掘方法集成到Bittensor的验证者-矿工框架中,以生成更全面、可靠的结构化数据集。

https://github.com/afterpartyai/bittensor-conversation-genome-project?tab=readme-ov-file#introduction-to-readyai

具体流程包括:

验证者:
1. 从自己的数据存储或CGP API拉取原始数据。
2. 生成数据真实性的概览元数据。
3. 创建数据窗口并分发给矿工。

矿工:
1. 使用大语言模型处理数据窗口,提供元数据和注释。
2. 将元数据和注释后的数据发送回验证者。

验证者:
1. 将注释数据与事实基准进行比较,评分矿工的结果。
2. 将所有元数据推送回自己的数据存储或CGP API。

这种方法不仅提高了数据处理的效率,还通过交叉验证增强了数据的稳健性,防止单一错误或不准确严重影响整个数据集。

产品:
ReadyAI是建立在SN33之上的工具平台,面向人工智能应用开发者。通过ReadyAI的服务,开发者可以将原始数据转换为结构化数据,优化他们的产品体验。

https://conversations.xyz/

例如,该网站提供了一个演示,用户可以直接与Afterparty的CEO的AI化身互动,了解更多关于SN33的信息。

Super Dave AI聊天

此外,对于更复杂的场景,人工智能开发者可以使用Personas API定制满足其特定需求的聊天机器人。

Personas API示例

更新
2024年9月12日,ReadyAI宣布了一项重大更新,声称SN 33的顶级矿工提供的数据注释结果远远超过了亚马逊众包平台Mechanical Turk (MTurk)的人工标注质量,甚至超过了GPT-4o,成本却大幅降低。

在这项实验中,1,270个对话样本使用SN 33前5名矿工的模型进行了注释,并与MTurk工人和GPT-4o进行了性能比较。结果显示,矿工的注释准确率比MTurk高71%,比GPT-4o高37%。此外,矿工的注释成本大幅降低,约为MTurk的1/660。

这项实验进一步支持了使用大语言模型进行数据注释任务的竞争优势,表明SN 33的服务为GPT-4o在这个领域提供了更先进的替代方案。

结论
高质量的数据集对于训练和微调人工智能模型至关重要。SN 33提供定制的高质量数据集,成本较低,这对于开源人工智能模型的发展尤其有价值。对于中小企业来说,这种可负担的解决方案使他们能以较低的成本获得优质的结构化数据,从而推动人工智能应用和自动化,增强其竞争力。这种创新使更多企业能参与人工智能的发展,并从中获益。

Medium
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论