數據是AI時代的石油,AI模型的進化離不開海量且高質量的數據集。然而,開源AI模型的發展常常受到高質量數據集缺乏的限制。閉源AI開發者為了降低數據收集成本,讓許多工人從事著高強度的精神勞動,卻只能獲得每小時不到2美元的報酬。這些模型帶來的好處集中在少數人手中,加劇了貢獻者之間的不平等。
在Bittensor生態中,也有Subnet 33致力於解決高質量數據集缺乏的問題。那麼,SN 33具體是如何運行的?目前的表現如何呢?
Subnet 33 ReadyAI
Emission:2.51%(2024–10–13)
Github:https://github.com/afterpartyai/bittensor-conversation-genome-project
Team: SN33背後的團隊來自Afterparty AI,這是一家成立於2021年的初創公司,並且在2023年9月獲得了來自Blockchange Ventures領投的五百萬美元。
The Goal
SN33旨在為個人或企業提供低成本、資源最小化的數據結構化和語義標記流程。為實現這個目標,SN33在文本數據的標註和結構化方面進行了創新,將海量的原始對話數據轉化為能夠被AI應用採用的結構化數據。
The Execution
SN33巧妙地將分形數據挖掘(fractal data mining)的方法結合到Bittensor的Validator-Miner架構中,以期得到更完整、可靠的結構化數據集。
具體的流程包括:
- Validator:
- 從自行設置的data store或CGP API拉取一段待標註的原始對話數據
- 對原始對話數據進行標註
- 將原始數據拆分成多個相互重疊的短數據,並分發給Miners
2. Miner:
- 使用LLMs處理短數據,生成標籤、參與者畫像以及每個語義標籤的向量嵌入
- 將元數據發回給Validator
3. Validator:
- 將原始對話數據的標註作為事實基準進行比較,從而給Miners的輸出結果評分
- 將所有元數據推送回data store或CGP API
這種方法不僅提高了數據處理的效率,還通過交叉驗證來增強數據的魯棒性,防止單一錯誤或不準確的結果對整體數據集產生重大影響。
The Product
ReadyAI是基於SN33打造的,面向AI 應用開發者的工具平臺。通過ReadyAI的服務,AI開發者能夠將他們想要採用的原始數據轉化為結構化數據,從而優化其產品體驗。
例如,網站為Docs Wizards場景提供了一個Demo,用戶能夠直接與Afterparty CEO的AI化身對話,來了解SN33。
除此之外,針對更豐富的場景,也支持AI開發者通過Personas API來定製符合其需求的對話機器人。
The Update
ReadyAI於2024年9月12日宣佈了一項新進展,宣稱SN 33頭部的Miners處理數據的表現遠遠超過了亞馬遜旗下眾包平臺Mechanical Turk(MTurk)上人工標註的水平,甚至超過了GPT-4o,並且成本也顯著更低。
這項實驗選取了1270段對話樣本,使用SN 33 Top 5 Miners的模型進行標註,並與MTurk工人和GPT-4o的表現進行比較。實驗結果顯示,Miners的標註準確率比MTurk高出71%,比GPT-4o高出37%。並且,Miners的標註成本也遠遠小於人工,大約是MTurk的1/660。
這項實驗進一步支持了LLMs在數據標註任務中更有競爭優勢,並且SN 33輸出的服務在這方面較GPT-4o也更加領先。
The Conclusion
高質量數據集是AI Model訓練、微調中不可或缺的一環。SN 33以低成本提供高質量、可定製的數據集,這對開源AI模型的發展非常有價值。尤其是對中小企業來說,這種負擔得起的標註方案能夠幫助他們以更低的成本獲取優質的結構化數據,從而推動AI應用和自動化,增強競爭力。這樣的創新讓更多企業能夠參與AI的發展,並從中受益。