Tether發佈QVAC Genesis II,將全球最大的合成教育數據集擴展至1480億枚代幣。

本文為機器翻譯
展示原文

2025年12月22日Tether Data旗下人工智能研究部門QVAC今日宣佈發佈QVAC Genesis II,這是全球最大的公開人工智能預訓練合成教育數據集的重大擴展。新增1070億個代幣後,QVAC Genesis數據集的總代幣數達到1480億,涵蓋19個教育領域,顯著提升了開放人工智能訓練數據的規模、深度和推理質量。

QVAC Genesis II 直接建立在 QVAC Genesis I 的基礎上,後者引入了一個經過嚴格驗證、以教育為中心的合成數據集,涵蓋了核心 STEM 學科。第二版將覆蓋範圍擴展到 10 個新領域,包括化學、計算機科學、統計學、機器學習、天文學、地理學、計量經濟學和電氣工程,同時還使用改進的方法重新生成了大學水平的物理學數據。Genesis I 和 II 共同構成了迄今為止向公眾發佈的最全面的合成教育數據集。

此次更新的核心是一種名為“選項級推理”的全新數據生成方法,旨在從模型錯誤答案和正確答案中都提取結構化推理過程。該方法並非將正確答案視為最終輸出,而是系統地分析多項選擇題中的每個選項,強化正確的推理過程,並明確指出常見的誤解。最終生成的訓練數據強調清晰度、因果關係和決策過程,而不僅僅是表面上的正確性。

這種新方法是對 Genesis I 中引入的原始故障分析方法的補充,形成了一個雙方法流程,確保生成的每個問題都能貢獻教育價值。獨立評估表明,基於 Genesis II 數據訓練的模型比基於先前合成數據集訓練的模型展現出更高的推理準確率,並且能夠更穩定地生成清晰明確的答案。

此次發佈不僅僅是規模上的提升,更體現了教育人工智能數據構建方式的重大轉變。當業界普遍專注於抓取和聚合海量文本時,QVAC 的方法旨在教會模型如何思考、推理和解釋,將智能建立在理解而非模仿之上。

Tether首席執行官 Paolo Ardoino 表示:“如今大多數人工智能訓練都以流暢性為目標,而非理解力。此次發佈,我們不再追求數量,而是著眼於結構、推理和清晰度。智能應該建立在理解事物本質的基礎上,而不僅僅是預測聽起來是否正確。通過開放這個數據集,我們為研究人員和開發者提供了工具,幫助他們開發出更可靠、更易解釋、最終對社會更有用的人工智能。”

與 Genesis I 一樣,擴展後的數據集也以開放形式發佈,旨在支持在封閉的專有系統之外開展工作的研究人員、學術機構和獨立開發者。該數據集採用知識共享署名-非商業性使用 (CC-BY-NC 4.0) 許可協議,進一步體現了 QVAC 對開放的、社區驅動的人工智能研究的承諾。

此次發佈延續了QVAC推進本地化、去中心化智能的更廣泛使命,在這種智能模式下,人工智能模型無需依賴集中式雲平臺即可進行訓練、優化和部署。通過強化人工智能訓練數據的開放基礎, Tether Data旨在減少創新面臨的結構性障礙,並確保全球研究界能夠持續獲取高質量的智能數據。

該數據集的完整技術分析報告,題為“QVAC Genesis II:擴展用於預訓練的最大、最高質量的多領域教育合成數據集”,現已發佈在QVAC研究博客上,同時Hugging Face平臺也提供了該數據集和模型的訪問權限。更多信息,包括詳細的常見問題解答,請訪問QVAC網站。

關於Tether Data

Tether Data, SA de CV(簡稱“Tether Data”)是Tether公司願景的一部分,旨在通過技術促進自由、透明和創新。其使命是使個人和組織能夠直接連接和共享信息,無需不必要的中介機構。通過創建安全的點對點系統, Tether Data使用戶能夠更好地控制其數據、通信和數字互動。Tether Data致力於通過以去中心化基礎設施取代集中式模型,重新定義信息在網絡中的流動方式,該基礎設施的設計兼顧隱私性、效率和彈性。公司的目標是使全球連接更快、更安全、更私密,從而賦能個人和機構自由安全地交換信息。

關於 QVAC

QVAC 是Tether Data 的先進人工智能研究計劃,致力於構建開放、去中心化和自適應的智能系統。其使命是“本地人工智能,無限智能,絕不妥協”,設想人工智能可以在任何設備上運行和學習,從而賦能個人和社區,而不是將權力集中在企業數據中心。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
87
收藏
17
評論