速度秒殺GPT們10倍,國外的DeepSeek時刻來了?

avatar
36氪
3 天前

什麼?AI 界又整新活了?

這次雖然沒像 DeepSeek 、 Manus 們那樣搞得人盡皆知,但可能對 AI 界發展的影響還真不小。

前段時間,有個名不見經傳的小公司 Inception Labs 搞了個大新聞,說是開發出了全球首個商業級擴散大模型( dLLM ) Mercury 。

而這個所謂的擴散大模型,可能要會掀起一股浪潮,徹底顛覆大模型 3 年多來的基礎路線

人家也實打實放出了數據,在一眾測試裡, Mercury Coder 基本是一路吊打 GPT-4o Mini 和 Claude 3.5 Haiku ,這些大家都快用爛的模型了。

而且,這些同臺競技的模型們,還特地專門為生成速度進行過優化,但 Mercury 還是比他們快了多達 10 倍

不僅如此, Mercury 還能在 NVIDIA H100 芯片上,實現每秒超過 1000token 的處理速度,而常見的大模型想要實現這個速度,往往都得用上專門定製的 AI 芯片。

要知道,為了實現更高的 token 處理速度,定製化 AI 芯片幾乎成了各個廠商的新戰場。

除了速度超級超級超級快之外,我們也能從 Artificial Analysis 的測試座標系裡看出,Mercury 的生成質量也是槓槓的

雖然目前還不如頂尖的 Claude3.5 Haiku 等,但考慮到它是一目十行的效率,能保持這個生成質量已經是非常哇塞了。

我們也在官方放出的 Mercury Coder Playground 裡簡單試了幾個例子,一頓測試下來發現生成效果確實不錯,而且速度真的是極快。

提示詞:用HTML5寫一個貪吃蛇遊戲(Implement the game Snake in HTML5.Include a reset button.Make sure the snake doesn't move too fast .)

提示詞:用HTML5 , CSS 和 Javascript 寫一個掃雷遊戲( Write minesweeper in HTML5 , CSS , and Javascript.Include a timer and a banner that declares the end of the game .)

提示詞:用 HTML5 做一個 Pong 遊戲( Create a pong game in HTML5.)

可能不少差友看到這估計決定,這也沒多牛啊,說什麼 AI 界可能要變天了?

Mercury 的厲害的點倒不是它的實際效果有多棒,更重要的是它給 AI 界帶來了一眾新可能:誰說大語言模型就一定要走 Transformer 的路線?

在這個 AI 時代, Transformer 和 Diffusion 大家估計都聽得耳朵起繭子了,一會是 Transformer 單幹,一會是 Diffusion 單飛,又或者是兩者一起合作。

但本質上來說,這兩者其實代表了 AI 的兩個不同進化方向,甚至可以說,Transformer 和 Diffusion 的 “ 思維 ” 機制不同

Transformer 是“ 典型 ”人類的鏈式思維,它有一個自迴歸的屬性,就是它有個先後的概念,你得先生成了前面的結果,才能想出後面的玩意兒。

所以我們現在看到的 AI 生成,都是逐字逐句,從上從下一點點長出來的。

而 Diffusion ,則是反直覺的,直接從模糊去噪從而到清晰的過程

就是你問他問題,他不會有整理邏輯,按 1 、 2 、 3 、 4 ……步驟回答你的想法,而是腦子直接想好了所有答案雛形,但這些答案全都是模糊不清的,然後一步步把所有答案一起變清晰,直到生成結果。

用生活裡的一個最常見的例子就是去配眼鏡,當你拿掉眼鏡看東西的時候,一整片都朦朧不清,但你確實都看到了,隨著一片片鏡片加上去,最終你看清了每一個字。

所以 Mercury 生成的結果都是一大片模糊的亂碼,然後一頓 quickly quickly biu biu biu , ber 得一下就全搞定了。

就像這樣

關於這倆的效果對比,我感覺歷史上曾經有一個著名發佈會上,有人曾用過更直觀的對比,可能更形象化幫助大家理解。

CPU 就好比如今的 Transformer

GPU 就好比如今的 Diffusion

其實光從我們這麼簡單的描述看起來,大家也能明白, Transformer 的確是更符合大家邏輯的思維方式,所以在大語言模型剛爆紅的時候,基本就是 Transformer 一個人勇闖天涯。

但逐漸的, Transformer 開始展露自己的不足。

其中最讓人頭疼的就是, Transformer 的注意力機制看起來很優秀的背後,是計算複雜度(計算複雜度公式為 O ( n ² d )( n 為序列長度, d 為特徵維度 ) )指數級別增長。

計算複雜度的爆炸增長帶了多方面的制約,比如模型推理速度顯著下降,在長文本、視頻等領域,生成速度顯然無法滿足實際需求。

進一步的,複雜度不斷升高,所需要的硬件資源也同樣指數級增長,這種硬件需求阻止了 AI 真正走進大家生活。

所以一直以來,業界都在想著法地緩解 Transformer 模型的計算複雜度

像通過量化、蒸餾、壓縮模型的 DeepSeek 能夠爆火出圈,其實也是建立在這種迫切需求上。

那 Mercury 的出現,似乎也在提醒大家,如果降低 Transformer 的計算複雜度太難的話,要不試試新路子?

而且 Mercury 背後的 Diffusion 路線,大家並不陌生。

比如早期爆紅的 stable Diffusion , Midjournery 、 DALL-E 2 裡,都看到了 Diffusion 模型的應用。

甚至還出現了像是 OpenAI 的 sora 模型,就是利用了 Diffusion Transformer ( DiTs )這種 Transformer 和 Diffusion 混合雙打模型。

雖然理想很美好,但 Diffusion 此前幾乎都被各路人馬判了死刑,因為他們覺得這貨駕馭不了語言模型

因為 Diffusion 的特點是沒了自迴歸,不用依賴上下文,從而可以節省資源,加快生成速度。

但這麼一來,生成精度有點難以把握,就像現在文生圖、文生視頻的各種模型,依舊難以控制手部、吃麵條、文字等高精度的生成。

可這次 Mercury 的突破性成果,的確也第一次向大家驗證了, Diffusion 也能幹 Transformer 的活。

不過可惜的是,目前 Mercury 並沒有公開任何技術文檔,我們無法進一步得知它是如何搞定生成內容質量難關的。

但我們從它挑的對手比如 Claude3.5 Haiku 、 GPT4-omini 、 Qwen2.5 coder 7B 、 DeepSeek V2 lite 等等這些袖珍版大模型裡,也能看出來,顯然最強大的 Diffusion 語言模型 Mercury 也還沒法做得特別大。

甚至經過我們測試發現,除了官方推薦的提示詞生成效果比較精準以外,如果用一些自定義提示詞,它的出錯概率就高得有點誇張了。

而且生成的穩定性也相當一般,經常第一次生成效果還不錯,再測試一次結果反而不會了。

提示詞:用 HTML 畫出太陽系的模擬動畫( Use HTML to write an animation of the solar system simulation operation )

但毫無疑問, Mercury 的成果是了不起的,特別在考慮到 Diffusion 在多模態生成上的強勢地位,也讓人不禁想象,如果 Diffusion 的路線才是 AI 大模型更正確的道路( 好像也不是不可能吧 ),未來的聯動進化好像更水到渠成些。

前不久,差評君剛看了一部名為《 降臨 》的電影,裡面的外星人就不是按照人類這樣 1 、 2 、 3 、 4 ……的鏈式思維邏輯,不同的思維方式顯然會帶來更多的可能性。

那問題來了,誰說 AI 就得要像人類一樣思考呢?對他們來說,是不是 Diffusion 的思考方式更符合 “ 硅基生命 ” 的屬性呢?

當然,這些都是差評君的瞎瘠薄扯淡,不過有意思的是, Mercury 既是太陽系的水星,也是羅馬神話中的信使,他們倆的特點就是跑得飛快,而在占星學裡,它又代表著人的思維方式和溝通能力。

我們也不妨期待, Mercury 的出現,能給 AI 帶來新的路子。

圖片、資料來源:

X.com

Mercury官網

OpenAI:Generating videos on Sora

techcrunch:Inception emerges from stealth with a new type of AI model

AimResearch:What Is a Diffusion LLM and Why Does It Matter?

知乎:如何評價Inception Lab的擴散大語言模型Mercury coder?

本文來自微信公眾號“差評”,作者:八戒,編輯:江江 & 面線,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論
Followin logo