SN 33:為開源 AI 貢獻高質量數據集

本文為機器翻譯
展示原文

資料是人工智慧時代的生命線,對人工智慧模型的發展至關重要。然而,開源人工智慧模型的發展常常受到缺乏大規模、高質量資料集的限制。相比之下,閉源人工智慧開發者透過僱傭工人進行密集的認知任務來降低資料收整合本,通常每小時支付不到2美元。這些模型的收益集中在少數人手中,加劇了貢獻者之間的不平等。

在Bittensor生態系統中,Subnet 33旨在解決高質量資料集的稀缺問題。SN 33是如何運作的,它目前的效能指標是什麼?

Subnet 33 ReadyAI

Emission:2.51%(2024–10–13)

Github:https://github.com/afterpartyai/bittensor-conversation-genome-project

團隊: SN33背後的團隊來自於2021年成立的初創公司Afterparty AI。2023年9月,Afterparty AI獲得了由Blockchange Ventures領投的500萬美元融資。

Root Network驗證者在SN 33上的質押TAO數量(數量=驗證者的總質押*驗證者在SN 33上的權重)

目標

SN33旨在為個人和企業提供低成本、資源高效的資料結構化和語義標註流程。為此,SN33在文字資料的註釋和結構化方面進行了創新,將大量原始對話資料轉化為可供人工智慧應用程式使用的結構化資料集。

執行
SN33將分形資料探勘方法整合到Bittensor的驗證者-礦工框架中,以生成更全面、可靠的結構化資料集。

https://github.com/afterpartyai/bittensor-conversation-genome-project?tab=readme-ov-file#introduction-to-readyai

具體流程包括:

驗證者:
1. 從自己的資料儲存或CGP API拉取原始資料。
2. 生成資料真實性的概覽元資料。
3. 建立資料視窗並分發給礦工。

礦工:
1. 使用大語言模型處理資料視窗,提供元資料和註釋。
2. 將元資料和註釋後的資料傳送回驗證者。

驗證者:
1. 將註釋資料與事實基準進行比較,評分礦工的結果。
2. 將所有元資料推送回自己的資料儲存或CGP API。

這種方法不僅提高了資料處理的效率,還透過交叉驗證增強了資料的穩健性,防止單一錯誤或不準確嚴重影響整個資料集。

產品:
ReadyAI是建立在SN33之上的工具平臺,面向人工智慧應用開發者。透過ReadyAI的服務,開發者可以將原始資料轉換為結構化資料,最佳化他們的產品體驗。

https://conversations.xyz/

例如,該網站提供了一個演示,使用者可以直接與Afterparty的CEO的AI化身互動,瞭解更多關於SN33的資訊。

Super Dave AI聊天

此外,對於更復雜的場景,人工智慧開發者可以使用Personas API定製滿足其特定需求的聊天機器人。

Personas API示例

更新
2024年9月12日,ReadyAI宣佈了一項重大更新,聲稱SN 33的頂級礦工提供的資料註釋結果遠遠超過了亞馬遜眾包平臺Mechanical Turk (MTurk)的人工標註質量,甚至超過了GPT-4o,成本卻大幅降低。

在這項實驗中,1,270個對話樣本使用SN 33前5名礦工的模型進行了註釋,並與MTurk工人和GPT-4o進行了效能比較。結果顯示,礦工的註釋準確率比MTurk高71%,比GPT-4o高37%。此外,礦工的註釋成本大幅降低,約為MTurk的1/660。

這項實驗進一步支援了使用大語言模型進行資料註釋任務的競爭優勢,表明SN 33的服務為GPT-4o在這個領域提供了更先進的替代方案。

結論
高質量的資料集對於訓練和微調人工智慧模型至關重要。SN 33提供定製的高質量資料集,成本較低,這對於開源人工智慧模型的發展尤其有價值。對於中小企業來說,這種可負擔的解決方案使他們能以較低的成本獲得優質的結構化資料,從而推動人工智慧應用和自動化,增強其競爭力。這種創新使更多企業能參與人工智慧的發展,並從中獲益。

Medium
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論