有沒有嫌棄GPT內容生成太慢的？總算有公司在解決這問題了

36氪

02-21

今天一上班，又刷到國外一家公司整了個新活。

這家叫Groq的公司推出了一個聊天機器人頁面，看起來比ChatGPT還要粗糙，頁面上什麼指示都沒有，本來實在是提不起什麼興趣。

直到我看了下面這個演示視頻。。。

很難想象，這是AI“生成”內容的速度，看起來和直接找到答案然後複製粘貼過來一樣。

硅基君問GPT一個問題等他輸入的空餘還能回幾條微信。。。

我們仔細觀察上面的視頻，可以發現在Groq測試中有一個在其他大模型網站一般不會顯示的參數——325.68 T/s。

這一個參數也是Groq在推廣頁面中著重強調的，具體意思是大模型每秒可以計算多少tokens。

簡單說一下tokens在大模型中是幹什麼的。在大模型訓練、推理、生成的時候，會把文本切分成最小單元即token。比如你問chatgpt一個問題，chatgpt會先把你完整的話切成tokens再進行計算。當chatgpt回答的時候，也不是一下子全部輸入出來，而是一個token一個token的蹦出來。

chatgpt是如何切分文本的，可以參考OpenAI的分詞器網頁。比如“希望老黃送我一張4090顯卡玩掃雷”這句話，chatgpt就會把它切分成22個tokens。

https://platform.openai.com/tokenizer

據ArtificialAnalysis.ai的測評數據，Groq提供的Mixtral 8x7B 接口創下了新的大模型吞吐量記錄，達到每秒430 Tokens。

當然，Groq到底有多快，還是要多方比較才能有個完整概念。在github有一個針對70B大模型在不同平臺運行速度的測試。可以發現，無論是每秒生成tokens還是響應速度，Groq都是遙遙領先。

天下武功唯快不破，這個說法對大模型也同樣適用。就在不久前，互聯網上就出現針對chatgpt是不是變慢的討論。有人說是OpenAI對免費用戶進行限制，具體怎麼回事硅基君也不清楚，但可以看出大模型生成的速度的確是用戶的一個痛點。

可以想象一下，電商公司為了提高用戶的體驗，引入AI客服，同樣的話術，秒回和隔個10幾秒再回，用戶的體驗會天差地別。

類似的還有AI直播，AI寫作等等。在大模型的落地應用環節，大模型生成速度一定很重要。

但實際上，Groq回答問題準確度實在堪憂，稍微複雜一點的問題基本都得不到正確答案，看起來就和那位最近爆火的胡言亂語大媽似的。

不過，人家Groq可不是賣大模型的，人家是賣AI芯片的。

簡單來說，它們想宣傳的點，是“用了我家的芯片，你的模型生成內容的速度也可以這麼快。”

甚至直接喊話黃仁勳，這塊芯片推理速度比英偉達的快10倍！

Groq自研的芯片稱作LPU。

據官網所說，Groq是一家生成式AI解決方案公司，也是市場上最快的語言處理加速器LPU推理引擎的創建者。

它從頭開始構建，可大規模實現低延遲、高能效和可重複的推理性能。客戶依靠LPU推理引擎作為端到端解決方案，以10倍的速度運行大型語言模型（LLM）和其他生成式AI應用程序。

也就是說，任何模型在LPU上運行，在速度上都能獲得提升。

為了推廣自己的LPU，Groq甚至在官網上喊話AI界大佬Meta的扎克伯格和OpenAI的阿爾特曼。

在LPU的技術層面上，據官網介紹，它旨在克服兩大LLM瓶頸：計算密度和內存帶寬。

就LLM而言，LPU比GPU和CPU具有更高的計算能力。這減少了每個單詞計算所需的時間，允許更快地生成文本序列。此外，消除外部內存瓶頸使得LPU推理引擎在LLM上的性能相比GPU有了數量級的提升。

根據twitter網友解釋，LPU之所以比GPU快，主要原因在於它使用的存儲技術和架構設計。

LPU使用SRAM（靜態隨機訪問存儲器），而不是GPU常用的HBM（高帶寬內存）。SRAM的訪問速度大約是HBM的20倍，這使得LPU在處理數據時能夠更快地訪問和處理數據此外，LPU採用的時間指令集計算機架構減少了對內存的重複訪問需求，進一步提高了處理效率。

說人話，舉個形象的例子就是：

把LPU和GPU比作兩個廚師，LPU有一個高效的工具箱（SRAM），裡面裝著他需要的所有材料，他可以隨手拿到任何東西，不需要走遠路。而GPU的材料都在一個大倉庫（HBM）裡，每次需要材料時，都要跑到倉庫去拿，這就花費了更多時間。即使倉庫很大，能存很多材料（高帶寬），但往返跑動的時間就使得整個烹飪過程變慢了。

SK海力士看到它說HBM不好用了豈不是著急死？

簡單看完LPU的技術，Groq背後的團隊來頭也不小。

Groq不是橫空出世，它成立的背後也有谷歌的影子（結合最近另一個熱點sora，心疼一下谷歌）。

Groq是由谷歌前僱員Jonathan Ross創建的企業，在加州成立於2016年。Jonathan Ross也是谷歌TPU最早的團隊成員。

TPU對於谷歌來說，基本上覆蓋了它們的大部分算力需求。據悉，Google今天宣佈的最強大、最通用的人工智能模型 Gemini是使用 TPU 進行訓練和服務的。

回到模型本身，一般而言算力的變化只會影響模型推理的速度，但由於大模型的計算量不小，其小數位數不斷優化後，可能會發生點變化。那麼Groq的LPU與GPU相比，對大模型生成的質量會產生影響嗎？

硅基君問了Groq上的Llama-2-70b和POE上的Llama-2-70b，同樣一個問題“Introduce Elon Musk in 100 words”。

在速度上兩個平臺都差不多，結果上有略微不同，但基本上還算通順。

目前Groq支持api接入，一共提供了3個模型，分別是Llama 2 70B、Llama 2 7B 和Mixtral 8x7B SMoE。價格上，Groq也是相當便宜，Llama 2 70B輸入和輸出價格分別為0.7$/1000k tokens 和 0.8$/1000k tokens。價格方面，Groq保證，一定低於市面上同等價格。

這幾天，sora刷屏全網，但別的公司也沒有閒著。谷歌發佈了Genimi pro 1.5，支持1000K的上下文長度，把大模型的寬度拉長了不少。而Groq帶來了LPU，把大模型的生成速度提高了10倍。

結合之前大模型在算力和規模上的改善，硅基君很期待大模型的繼續進化。

參考資料：

[1]10倍英偉達GPU：大模型專用芯片一夜成名，來自谷歌TPU創業團隊 | 機器之心

[2]可能是全球最快的大語言模型推理服務Groq：實測每秒500個tokens輸出的450億參數的Mixtral 8×7B模型 | DataLearner

[3]Groq技術新突破：Mixtral 8x7B模型實現每秒500個tokens的生成速度 | 思辨view

本文來自微信公眾號“新硅NewGeek”（ID:XinguiNewgeek），作者：董道力，編輯：張澤一，視覺設計：疏睿，36氪經授權發佈。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論