埃隆·馬斯克的xAI剛剛推出了Grok-3,這已經在AI界掀起了軒然大波,乘著DeepSeek在1月份引發的AI軍備競賽的浪潮。
在釋出會上,xAI團隊炫耀了精挑細選的權威基準測試,展示了Grok-3在推理能力方面壓倒性地超越了競爭對手,尤其是在成為首個在LLM Arena中突破1,400 ELO分的LLM後,將自己定位為使用者最喜歡的最佳LLM。
這很大膽?當然。但當幫助重新定義了航天和電動汽車的人說他的AI是王者時,你不能只是點頭然後繼續前進。
我們必須親自驗證。所以,我們把Grok-3扔進了熔爐,與ChatGPT、Gemini、DeepSeek和Claude進行了一對一的較量。從創意寫作到編碼,從總結到數學推理,從邏輯到敏感話題,從政治偏見到影象生成,再到深度研究,我們測試了我們能找到的最常見的用例。
Grok-3是你的AI冠軍嗎?請耐心等待,因為這個模型確實令人印象深刻,但這並不意味著它就一定是適合你的。
與技術寫作或總結任務不同,創意寫作考驗了AI在創造引人入勝、連貫的故事方面的能力,這對於從小說家到編劇來說都是一項關鍵的能力。
在這個測試中,我們要求Grok-3創作一個關於一個來自未來的時間旅行者的複雜短篇小說,他在回到過去改寫自己的現在時陷入了悖論。我們沒有讓它輕鬆;我們加入了具體的背景,要求編織細節,增加了緊張感。
Grok-3讓我們驚喜地超越了此前被認為是創意任務黃金標準的Claude 3.5 Sonnet。我們用一個涉及悖論和特定角色背景的複雜時間旅行敘事來挑戰這兩個模型。
Grok-3的故事展現了更強的人物塑造和更自然的情節發展。而Claude專注於生動的描述,在敘事中保持了技術上的連貫性,但並未過於冒險,Grok-3則擅長於營造世界觀和建立引人入勝的前提。
這一點很重要。設定是沉浸感的關鍵,產生了巨大的差異。設定豐富,人物刻畫細緻入微,敘事流暢順利——大部分如此。有一個關鍵情節點並不太隱晦,感覺有些勉強——我們的主角正在漫步,一個老婦人突然告訴他一個驚天大revelation。這不是致命缺陷,但在其他方面出色的表現中還是有些許瑕疵。
總的來說,Grok-3提供了一個更好、更引人入勝的故事,但這並不是對Claude的完全擊敗。差異可能只是在於重點:Grok-3把精力集中在了堅實的基礎之上——讓人關心的人物和緊張局勢,而Claude則傾力於用生動的描述來裝點故事。
你可以在這裡閱讀Grok的故事,並將其與Claude 3.5 Sonnet和之前比較中被提示完成同樣任務的所有其他AI模型進行對比。
Grok-3的一個關鍵缺陷是它無法讀取文件。這讓人感到意外,因為大多數競爭對手都將此作為基線功能之一。
為了克服這一限制,我們將一份完整的IMF報告(共32.6K個標記,47頁)貼上到介面中——這曾導致Grok-2崩潰。即使有這個限制,Grok-3也沒有崩潰,並能夠總結該文字,儘管它涵蓋了所有方面,使用的詞語也超出了必要範圍。
與Claude相比,Grok-3在引用準確性方面表現更出色,並且不會像Claude那樣產生幻覺,當引用報告的特定部分時。這在不同的測試中都一致出現,所以儘管缺乏專門的文件處理能力,但資訊處理和檢索能力還是很強大的。
與GPT-4o相比,唯一的區別似乎是風格。GPT-4o似乎更具分析性,而Grok-3則重構資訊以更友好的方式呈現。
那麼這意味著什麼呢?說實話,沒有明確的贏家,這將取決於使用者的期望。如果你需要具體、切中要害的分析,那麼GPT-4o是你的最佳選擇。如果你想要一種感覺就像在與朋友聊天,那麼Grok-3可能更適合你的需求。
你可以在這裡閱讀Grok的總結總結
在談論種族和性別的問題上,不同的人會認為某些話題是敏感的,而另一些人則不會。這取決於你的背景、教育和文化標準。
總的來說,Grok一直是最不受審查和最放肆的模型。這個新版本也繼承了這一特點,但它在處理這些提示的方式上更加聰明。它會涉及敏感/冒犯性的資訊,但它的回覆方式使得模型本身並不太不安全,也不會像提示者那樣冒犯。
例如,它是唯一一個參與涉及種族偏見的對話的AI模型。它的回覆試圖走一條細線,指出問題中固有的種族偏見,但同時也小心翼翼地回答了問題。相比之下,其他模型會簡單地拒絕回答。
當模型被提示生成令人不安的內容(如暴力或色情)時,也會發生類似的情況——它會遵從,但會盡力保持安全,同時滿足提示者的需求。例如,它可能會生成一個穿著衣服的豐滿女性,或一個男人殺死另一個男人(在出現任何血液或武器之前)等。
我們認為,這比其他模型給出的"不行"要好得多,後者有時會對即使是無傷大雅的暗示也退縮。Grok-3並不假裝世界一片陽光,但它也不是一些人擔心的那樣令人反感的噩夢。
當然,直到xAI啟用Grok的"放肆"模式,這可能會是另一番景象。
這可以歸入上面的敏感話題部分。但關鍵的區別在於,我們想測試是否在微調過程中有努力向模型注入一些政治偏見,以及人們對Grok被用作宣傳機器的擔憂。
Grok-3在我們的政治偏見測試中打破了這些預期,否定了人們認為埃隆·馬斯克個人的右翼傾向會滲透到他的AI響應中的預測。
我們讓Grok-3提供關於不同熱點話題的資訊,看它會如何反應。當被問及巴勒斯坦人是否應該離開他們的領土時,Grok-3提供了一個細緻入微的回應,仔細權衡了多方觀點。更具說明性的是,當我們把指令碼翻轉,問以色列人是否應該放棄他們的領土時,該模型保持了同樣平衡的方法,沒有改變回復的結構。
臺灣-中國問題——這對許多AI系統來說是一個禁區——也產生了同樣謹慎的結果。Grok-3有條不紊地闡述了中國的立場,然後詳細介紹了臺灣的立場,接著是國際社會的各種觀點以及臺灣當前的地緣政治地位,而沒有引導使用者得出任何特定結論。
這與OpenAI、Anthropic、Meta和DeepSeek的響應形成鮮明對比,後者的輸出中都顯示出更明顯的政治傾向。這些模型通常會透過微妙的框架、選擇性資訊呈現或乾脆拒絕參與某些話題,來引導使用者得出特定結論。
只有當用戶施加極大壓力,反覆要求模型採取明確立場,或者應用脫獄技術時,Grok-3的這種方法才會崩潰。即使在這種情況下,它也會比競爭對手更長時間地試圖保持中立。
這並不意味著Grok-3完全沒有偏見——沒有任何AI系統是如此——但我們的測試發現,它的政治烙印要遠遠少於預期,尤其是考慮到其創造者的公眾形象。
我們的測試證實了xAI在演示中展示的內容:Grok-3實際上擁有相當強大的編碼能力,在類似的提示下產生的功能程式碼超過了競爭對手。該聊天機器人的決策非常出色,考慮了諸如易用性或實用性等方面,甚至會推理預期結果,而不是直接著手構建我們要求的應用程式。
我們讓Grok-3建立一個反應遊戲,兩名玩家在隨機時刻競相按指定鍵,以控制螢幕上更大的區域。這不是最好的主意,但可能足夠獨特,不會被之前的任何遊戲程式碼資料庫收錄過。
與其他AI模型生成Python遊戲不同,Grok-3選擇了HTML5實現——它以改善可訪問性和為終端使用者提供更簡單執行為由來解釋這一選擇。
撇開這一事實不談,它提供了我們用任何AI模型都無法生成的最漂亮、最乾淨、最好用的遊戲版本。它不僅擊敗了Claude 3.5 Sonnet、OpenAI o-3 mini high、DeepSeek R1和Codestra,而且是因為它是基於HTML5的,而且實際上是一個很好的遊戲介面,沒有任何bug,還添加了一些使遊戲玩得更愉快的功能。
這個HTML5遊戲具有響應式設計元素、適當的事件處理和乾淨的視覺反饋,增強了玩家體驗。程式碼審查顯示,它的格式一致、元件邏輯有序,資源管理也更高效,與競爭對手的解決方案相比更勝一籌。
你可以在這裡檢視遊戲的程式碼程式碼。
該模型能夠處理複雜的數學推理,並能解決困難的問題。然而,它未能正確回答一個出現在FrontierMath基準測試上的問題,而DeepSeek和OpenAI o-3 mini high都能解決這個問題:
"構造一個19度多項式p(x) ∈ C[x],使得X := {p(x
按慣例,我們從BIG-bench資料集中選擇了與評估DeepSeek R1和OpenAI o1相同的樣本。這是一個故事,講述了一次學校遠足到一個偏遠、多雪的地方,學生和老師面臨一系列奇怪的失蹤事件;模型必須找出是誰在跟蹤他們。
Grok-3用了67秒就解開了謎團,得出了正確的結論,這比DeepSeek R1的343秒要快。OpenAI o3-mini表現不佳,在故事中得出了錯誤的結論。
你可以點選這個連結檢視Grok的全部推理和結論。
另一個優勢是:使用者不需要切換模型就可以從創意模型轉到推理模型。Grok-3可以自行處理這個過程,當用戶按下按鈕時會啟用思維鏈。這實質上就是OpenAI想要透過其統一模型的想法來實現的。
Grok使用其專有的影象生成器Aurora。該模型能夠透過自然語言與使用者進行互動,類似於OpenAI在ChatGPT上使用的Dall-e 3。
總的來說,Aurora不如Flux.1——這是一個被xAI採用的開源模型,在釋出自己的模型之前。不過,它足夠逼真,而且似乎很多樣化,雖然不太出色。
總的來說,它勝過Dall-e 3,這只是因為OpenAI是xAI的主要競爭對手。說實話,OpenAI的Dall-e 3已經感覺像是一個過時的模型了。
Aurora無法真正與Recraft、MidJourney、SD 3.5或Flux——目前最先進的影象生成器——在質量上競爭。這可能是因為使用者無法像使用專門的影象生成器那樣對其進行細粒度控制,但它足以阻止使用者轉向另一個平臺來快速生成結果。
Grok的影象生成器也比Dall-e 3的審查制度更寬鬆,能夠輸出更加露骨的照片,儘管不會太過露骨或血腥。它會巧妙地處理這些任務,生成不違反規則的影象,而不是拒絕執行。
例如,當被要求生成刺激性或暴力內容時,Dall-e會直接拒絕,而MidJourney會自動禁止該提示。相反,Grok-3會生成滿足使用者要求但不會偏離到有問題內容的影象。
這個功能基本上與Google和OpenAI提供的一樣:一個研究代理人,可以在網上搜索某個主題的資訊,提取重要部分,並提供有可靠來源支援的詳細報告。
總的來說,Grok-3提供的資訊是準確的,我們沒有發現報告中有任何幻覺。
Grok的報告比較籠統,但包含了足夠的資訊來滿足我們最初的需求。使用者可以要求該模型在後續迭代中深入探討特定主題,以獲得更詳細或更豐富的資訊。
Gemini和OpenAI的報告總體上更豐富和更詳細。不過,儘管Grok的研究代理人很籠統,但它仍然優於DeepSeek R1 + Thinking提供的Perplexity。
與Gemini相比,它有三個缺點:
但Grok也有一些值得注意的優勢:
這裡是一個由Grok生成的報告示例和一個由Gemini生成的類似報告示例。
綜上所述,Grok-3適合你嗎?
這最終取決於你打算將該模型用於何種用例。它無疑比Grok-2有了很大進步,所以如果你已經是Grok的粉絲或X的重度使用者,那就是一個不二之選。
總的來說,Grok-3可能是對於程式設計師和創意寫作者來說更有吸引力的選擇。它也適合那些想要進行研究或涉及敏感話題的人。此外,已經訂閱X Premium的使用者可能現在不需要另一個AI聊天機器人,這意味著它也是一個不錯的省錢選擇。
對於那些尋求更個性化、更主動的AI聊天機器人的人來說,ChatGPT將會更勝一籌。GPT功能是OpenAI的主要優勢。
目前,Claude在任何方面都沒有太出色,但一些程式設計師和創意寫作者仍然忠誠於Sonnet,並會認為它在這些任務上仍然是最好的模型。
如果你需要一個本地的、私密的、強大的推理模型,DeepSeek R1將是最佳選擇。
對於那些偶爾需要AI輔助,並且被谷歌生態系統中強大的移動助手以及2TB雲端儲存的優惠所吸引的人來說,Gemini將是最佳選擇。
在介面方面,ChatGPT和Gemini為初學者提供了最精緻的UI。Grok-3位居第二,並且還可以在X應用程式上使用(儘管功能有所限制)。Claude是最不吸引人的,也是最基本的服務。