今天一上班,又刷到國外一家公司整了個新活。
這家叫Groq的公司推出了一個聊天機器人頁面,看起來比ChatGPT還要粗糙,頁面上什麼指示都沒有,本來實在是提不起什麼興趣。
直到我看了下面這個演示視頻。。。
很難想象,這是AI“生成”內容的速度,看起來和直接找到答案然後複製粘貼過來一樣。
硅基君問GPT一個問題等他輸入的空餘還能回幾條微信。。。
我們仔細觀察上面的視頻,可以發現在Groq測試中有一個在其他大模型網站一般不會顯示的參數——325.68 T/s。
這一個參數也是Groq在推廣頁面中著重強調的,具體意思是大模型每秒可以計算多少tokens。
簡單說一下tokens在大模型中是幹什麼的。在大模型訓練、推理、生成的時候,會把文本切分成最小單元即token。比如你問chatgpt一個問題,chatgpt會先把你完整的話切成tokens再進行計算。當chatgpt回答的時候,也不是一下子全部輸入出來,而是一個token一個token的蹦出來。
chatgpt是如何切分文本的,可以參考OpenAI的分詞器網頁。比如“希望老黃送我一張4090顯卡玩掃雷”這句話,chatgpt就會把它切分成22個tokens。
https://platform.openai.com/tokenizer
據ArtificialAnalysis.ai的測評數據,Groq提供的Mixtral 8x7B 接口創下了新的大模型吞吐量記錄,達到每秒430 Tokens。
當然,Groq到底有多快,還是要多方比較才能有個完整概念。在github有一個針對70B大模型在不同平臺運行速度的測試。可以發現,無論是每秒生成tokens還是響應速度,Groq都是遙遙領先。
天下武功唯快不破,這個說法對大模型也同樣適用。就在不久前,互聯網上就出現針對chatgpt是不是變慢的討論。有人說是OpenAI對免費用戶進行限制,具體怎麼回事硅基君也不清楚,但可以看出大模型生成的速度的確是用戶的一個痛點。
可以想象一下,電商公司為了提高用戶的體驗,引入AI客服,同樣的話術,秒回和隔個10幾秒再回,用戶的體驗會天差地別。
類似的還有AI直播,AI寫作等等。在大模型的落地應用環節,大模型生成速度一定很重要。
但實際上,Groq回答問題準確度實在堪憂,稍微複雜一點的問題基本都得不到正確答案,看起來就和那位最近爆火的胡言亂語大媽似的。
不過,人家Groq可不是賣大模型的,人家是賣AI芯片的。
簡單來說,它們想宣傳的點,是“用了我家的芯片,你的模型生成內容的速度也可以這麼快。”
甚至直接喊話黃仁勳,這塊芯片推理速度比英偉達的快10倍!
Groq自研的芯片稱作LPU。
據官網所說,Groq是一家生成式AI解決方案公司,也是市場上最快的語言處理加速器LPU推理引擎的創建者。
它從頭開始構建,可大規模實現低延遲、高能效和可重複的推理性能。客戶依靠LPU推理引擎作為端到端解決方案,以10倍的速度運行大型語言模型 (LLM) 和其他生成式AI應用程序。
也就是說,任何模型在LPU上運行,在速度上都能獲得提升。
為了推廣自己的LPU,Groq甚至在官網上喊話AI界大佬Meta的扎克伯格和OpenAI的阿爾特曼。
在LPU的技術層面上,據官網介紹,它旨在克服兩大LLM瓶頸:計算密度和內存帶寬。
就LLM而言,LPU比GPU和CPU具有更高的計算能力。這減少了每個單詞計算所需的時間,允許更快地生成文本序列。此外,消除外部內存瓶頸使得LPU推理引擎在LLM上的性能相比GPU有了數量級的提升。
根據twitter網友解釋,LPU之所以比GPU快,主要原因在於它使用的存儲技術和架構設計。
LPU使用SRAM(靜態隨機訪問存儲器),而不是GPU常用的HBM(高帶寬內存)。SRAM的訪問速度大約是HBM的20倍,這使得LPU在處理數據時能夠更快地訪問和處理數據此外,LPU採用的時間指令集計算機架構減少了對內存的重複訪問需求,進一步提高了處理效率。
說人話,舉個形象的例子就是:
把LPU和GPU比作兩個廚師,LPU有一個高效的工具箱(SRAM),裡面裝著他需要的所有材料,他可以隨手拿到任何東西,不需要走遠路。而GPU的材料都在一個大倉庫(HBM)裡,每次需要材料時,都要跑到倉庫去拿,這就花費了更多時間。即使倉庫很大,能存很多材料(高帶寬),但往返跑動的時間就使得整個烹飪過程變慢了。
SK海力士看到它說HBM不好用了豈不是著急死?
簡單看完LPU的技術,Groq背後的團隊來頭也不小。
Groq不是橫空出世,它成立的背後也有谷歌的影子(結合最近另一個熱點sora,心疼一下谷歌)。
Groq是由谷歌前僱員Jonathan Ross創建的企業,在加州成立於2016年。Jonathan Ross也是谷歌TPU最早的團隊成員。
TPU對於谷歌來說,基本上覆蓋了它們的大部分算力需求。據悉,Google今天宣佈的最強大、最通用的人工智能模型 Gemini是使用 TPU 進行訓練和服務的。
回到模型本身,一般而言算力的變化只會影響模型推理的速度,但由於大模型的計算量不小,其小數位數不斷優化後,可能會發生點變化。那麼Groq的LPU與GPU相比,對大模型生成的質量會產生影響嗎?
硅基君問了Groq上的Llama-2-70b和POE上的Llama-2-70b,同樣一個問題“Introduce Elon Musk in 100 words”。
在速度上兩個平臺都差不多,結果上有略微不同,但基本上還算通順。
目前Groq支持api接入,一共提供了3個模型,分別是Llama 2 70B、Llama 2 7B 和Mixtral 8x7B SMoE。價格上,Groq也是相當便宜,Llama 2 70B輸入和輸出價格分別為0.7$/1000k tokens 和 0.8$/1000k tokens。價格方面,Groq保證,一定低於市面上同等價格。
這幾天,sora刷屏全網,但別的公司也沒有閒著。谷歌發佈了Genimi pro 1.5,支持1000K的上下文長度,把大模型的寬度拉長了不少。而Groq帶來了LPU,把大模型的生成速度提高了10倍。
結合之前大模型在算力和規模上的改善,硅基君很期待大模型的繼續進化。
參考資料:
[1]10倍英偉達GPU:大模型專用芯片一夜成名,來自谷歌TPU創業團隊 | 機器之心
[2]可能是全球最快的大語言模型推理服務Groq:實測每秒500個tokens輸出的450億參數的Mixtral 8×7B模型 | DataLearner
[3]Groq技術新突破:Mixtral 8x7B模型實現每秒500個tokens的生成速度 | 思辨view
本文來自微信公眾號“新硅NewGeek”(ID:XinguiNewgeek),作者:董道力,編輯:張澤一,視覺設計:疏睿,36氪經授權發佈。



