微軟開發1位人工智能模型

本文為機器翻譯
展示原文

微軟新推出的BitNet b1.58 2B4T模型擁有20億引數,效能遠超同等規模的對手,同時顯著減少記憶體使用。

微軟的研究人員成功開發出迄今為止最大的1位人工智慧模型(也稱為"bitnet")。

該名為BitNet b1.58 2B4T的模型已按照MIT許可證釋出,能夠在普通CPU上執行,包括Apple M2晶片。

輕量級人工智慧的革命性突破

Bitnets是經過壓縮的人工智慧模型,可以在輕量級硬體上執行。與當前標準模型需要大量位元來表示權重不同,bitnets將權重量化為僅三個值:-1、0和1。這使得bitnets比大多數現有模型節省更多記憶體和計算資源。

BitNet b1.58 2B4T是微軟首個擁有20億引數的bitnet模型。該模型在4萬億代幣的海量資料集上進行訓練,相當於約3300萬本書。根據微軟的公開宣告,該模型在效能上優於同等規模的傳統模型。

在效能測試中,BitNet b1.58 2B4T在多個重要基準測試中超越了Meta的Llama 3.2 1B、谷歌的Gemma 3 1B和阿里巴巴的Qwen 2.5 1.5B,包括GSM8K(小學級別問題集)和PIQA(物理世界推理能力測試)。

特別令人印象深刻的是BitNet b1.58 2B4T的速度,在某些情況下比同等規模的模型快一倍,同時使用的記憶體僅為對手的一小部分。

然而,要獲得最佳效能,BitNet b1.58 2B4T需要使用微軟的bitnet.cpp框架,目前僅與某些特定硬體相容。值得注意的是,這個列表不包括GPU——目前人工智慧基礎設施中主導的晶片型別。

Bitnets對於資源受限的裝置似乎很有前景,但相容性問題仍是一個重大障礙,並可能在近期繼續存在。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論