一家西班牙人工智慧初創公司剛剛說服投資者投入2.15億美元,基於一個大膽的宣告:他們可以將大型語言模型壓縮95%,同時不影響其效能。
Multiverse Computing的創新依賴於其CompactifAI技術,這是一種借鑑量子物理數學概念來將人工智慧模型縮小到智慧手機尺寸的壓縮方法。
這家聖塞巴斯蒂安公司表示,他們壓縮後的Llama-2 7B模型在推理時執行速度提高25%,同時使用的引數減少70%,準確性僅下降2-3%。
如果在大規模驗證,這可以解決人工智慧的大象級問題:模型如此龐大,以至於需要專門的資料中心才能執行。
"在歷史上首次,我們能夠剖析神經網路的內部工作原理,消除數十億個虛假關聯,真正最佳化各種人工智慧模型,"Multiverse的首席科學官Román Orús在週四的部落格文章中說道。
Bullhound Capital領投了這2.15億美元的B輪融資,並獲得惠普科技風投和東芝的支援。
應用量子啟發的概念來解決人工智慧最緊迫的問題聽起來不太可能——但如果研究成果成立,這將是真實的。
與傳統壓縮僅僅是切除神經元或降低數值精度不同,CompactifAI使用張量網路——物理學家開發的數學結構,用於跟蹤粒子相互作用而不被資料淹沒。
這個過程就像是人工智慧模型的摺紙:權重矩陣被摺疊成更小的、相互連線的矩陣乘積運算元。
系統不是儲存神經元之間的每個連線,而是僅保留有意義的關聯,同時丟棄重複的模式,如反覆出現的資訊或關係。
Multiverse發現人工智慧模型並非均勻可壓縮。早期層證明脆弱,而最近表明對效能不太關鍵的深層可以承受激進壓縮。
這種選擇性方法使他們能在其他方法失敗的地方實現戲劇性的規模縮減。
壓縮後,模型經過簡短的"修復"——由於引數數量減少,重新訓練只需不到一個輪次。公司聲稱這個恢復過程比訓練原始模型快50%,因為GPU-CPU傳輸負載減少。
長話短說——根據公司自己的說法——你從一個模型開始,執行Compactify魔法,最終得到一個引數不到50%的壓縮版本,可以以兩倍的推理速度執行,成本大大降低,且與原始模型一樣強大。
在其研究中,團隊展示了可以將Llama-2 7B模型的記憶體需求減少93%,引數數量減少70%,訓練速度提高50%,回答(推理)速度提高25%——同時僅損失2-3%的準確性。
傳統的縮小方法,如量化(降低精度,如使用較少的小數位)、剪枝(完全切除不太重要的神經元,如修剪樹上的枯枝)或蒸餾技術(訓練一個較小的模型模仿更大模型的行為),甚至接近不了這些數字。
Multiverse已為包括博世和加拿大銀行在內的100多個客戶提供服務,將其量子啟發演算法應用於人工智慧之外的能源最佳化和金融建模。
西班牙政府在3月共同投資了6700萬歐元,使總融資額超過2.5億美元。
目前透過AWS提供Llama和Mistral等開源模型的壓縮版本,公司計劃擴充套件到DeepSeek R1和其他推理模型。
OpenAI或Claude的專有系統顯然仍然是禁區,因為它們不可用於修改或研究。
該技術的前景不僅僅是成本節省。惠普科技風投的參與表明對邊緣人工智慧部署的興趣——在本地而非雲伺服器上運行復雜模型。
"Multiverse的創新方法有潛力為任何規模的公司帶來增強效能、個性化、隱私和成本效率的人工智慧優勢,"惠普技術和創新總裁Tuan Tran說。
所以,如果你將來某天在智慧手機上執行DeepSeek R1,這些傢伙可能就是你要感謝的人。
編輯:Josh Quittner和Sebastian Sinclair





