Tether推出面向智能手機的Bitnet AI框架,減少對英偉達GPU的需求

本文為機器翻譯
展示原文

Tether 的目標是打破大型科技公司在人工智慧硬體領域的壁壘,它推出了一套框架,旨在將數十億參數的模型訓練縮小到手機可以處理的程度。

Tether AI框架將顯存使用量降低70%以上,並擴展了邊緣運算能力。

週二, Tether發布了適用於微軟 Bitnet 模型的跨平台 LoRA 微調框架,並推出了據稱是第一個能夠在包括智慧型手機和筆記型電腦在內的消費級設備上訓練和運行 1 位元大型語言模型的系統。

這個版本是 Tether 的 QVAC Fabric 堆疊的一部分,旨在降低人工智慧開發通常伴隨的大量運算和記憶體需求,而這些需求在很大程度上局限於雲端供應商和高端 Nvidia 硬體。

透過支援異質硬體(包括英特爾、AMD 和蘋果的晶片以及行動 GPU),該框架允許開發人員在本地微調模型,而無需依賴集中式基礎設施。

實際上,這意味著曾經只能在資料中心運行的 AI 工作負載現在可以在背包或口袋裡的設備上運行,這種轉變可以降低成本,並擴大美國乃至全球開發人員的存取權限。

Tether表示,其工程師已成功展示了 Bitnet 在行動 GPU(包括 Adreno、Mali 和 Apple Bionic 晶片)上的微調,這標誌著新興的 1 位元模型架構首次實現微調。

該公司發布的性能基準測試表明,在三星 S25 設備上,一個 1.25 億參數的模型可以在大約 10 分鐘內完成微調,而一個 10 億參數的模型在相同的硬體上完成相同的任務大約需要 1 小時 18 分鐘。

該公司報告稱,在蘋果設備上也取得了類似的結果,在 iPhone 16 上,一個 10 億參數的模型在大約 1 小時 45 分鐘內進行了微調,實驗運行將模型在設備上的參數推高至 130 億。

根據 Tether 的內部基準測試,該框架在推理速度方面也取得了可衡量的提升,而行動 GPU 的效能是 CPU 的 2 到 11 倍。

記憶體效率是另一個關鍵賣點,Bitnet-1B 使用的 VRAM 比同類 16 位元型號少 77.8%,比其他廣泛使用的架構少 65% 以上,從而使更大的型號能夠在有限的硬體上運行。

Tether表示,該系統還首次實現了在非英偉達硬體上對 LoRA 進行微調,此舉可以減少對專用晶片和雲端服務的依賴,同時將敏感資料儲存在用戶設備本地。

該公司補充說,這種方法可以讓聯邦學習更加實用,因為它允許在分散式設備上訓練模型而無需集中數據,這是以隱私為中心的 AI 開發領域日益關注的一個方面。

Tether執行長 Paolo Ardoino 在聲明中表示:「透過在包括智慧型手機在內的消費級硬體上實現有意義的大型模型訓練,Tether 的 QVAC 正在證明,先進的人工智慧可以去中心化、包容性強,並能為每個人賦能。」他還補充說,該公司計劃繼續投資於設備端人工智慧基礎設施。

技術版本(包括基準測試和實作細節)已透過 Hugging Face 發布,這表明該公司正努力直接與開發者溝通,而不是將技術限制在專有系統之後。

常見問題🔎

  • Tether 的全新 AI 框架是什麼?
    Tether 的 QVAC Fabric 引入了一個跨平台系統,用於在手機和筆記型電腦等消費級設備上訓練和運行 Bitnet AI 模型。
  • 智慧型手機真的能訓練人工智慧模型嗎?
    是的,Tether 的基準測試表明,在三星 S25 和 iPhone 16 等設備上,可以在幾個小時內對數十億參數模型進行微調。
  • 為什麼這對美國開發者來說很重要?
    它減少了對昂貴的雲端基礎設施和專用GPU的依賴,從而降低了成本,並增加了人工智慧開發的機會。
  • Bitnet 與其他型號有何不同?
    BitNet 採用 1 位元架構,與傳統的 16 位元模型相比,顯著降低了記憶體使用量並提高了效率。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
50
收藏
10
評論