由埃隆·馬斯克的xAI開發的Grok-3於週一釋出,該公司在展示了一個龐大的計算基礎設施,並對其功能做出了大膽的宣稱,這表明其野心更大。
這個公告主要關注原始計算能力、基準效能和即將推出的功能,儘管許多實際演示看起來像是其他人工智慧公司已經實現的重播。
這次釋出會的主角不是人工智慧本身,而是"Colossus",這是一個由20萬個GPU組成的龐大叢集,為Grok-3的訓練提供動力。
這個系統分兩個階段建成:首先是在10萬個GPU上進行為期122天的同步訓練,然後擴充套件到20萬個GPU,持續92天。據xAI開發人員介紹,建設這個基礎設施比開發人工智慧模型本身更具挑戰性。
該公司已經計劃建立一個更強大的叢集,馬斯克表示,他們的目標是將當前的計算能力提高5倍,實際上將建造世界上最強大的GPU叢集。
在效能方面,Grok-3在標準人工智慧基準測試中顯示出令人印象深刻的結果。基礎模型(不包含思維鏈和推理的常規模型)在數學(AIME)、科學(GPOA)和編碼(LCB)測試中一直位居榜首。
它在盲測中也表現非常出色。
xAI確認,代號為"Chocolate"的神秘模型實際上是Grok-3的早期測試版本,已經上傳到LLM Arena。
在這些測試中,它在所有語言模型中獲得了最高的ELO評分,這意味著使用者更喜歡它的答案,而不知道他們在評估哪個模型。
這可能是衡量質量最準確的方式,因為它不會給模型任何機會在基準測試中作弊。這個基準測試完全基於成千上萬匿名使用者的偏好和盲目選擇。
Grok-3的一個專門的"推理測試版"變體,採用了內部思維鏈處理和額外的測試時間計算,使數學成績更高——在2025年AIME基準測試中達到93%,而其他表現最好的模型都低於87%。
有趣的是,一個名為Grok-3 Mini Reasoning Beta的較小版本有時會超越其更大的兄弟版本,這要歸功於更長的訓練時間。
換句話說,全尺寸的Grok-3在獲得類似的訓練時長後,仍有進一步提升的空間,這看起來很有前景,因為它的引數數量更大。
但是當xAI展示Grok-3的實際能力時,這個演示更像是一場追趕遊戲,而不是創新。該團隊展示了該模型解決物理問題和從頭編寫遊戲程式碼的能力——這些都是ChatGPT、Claude和谷歌的Gemini已經掌握的功能。
他們還推出了DeepSearch,這是一個研究代理,就像OpenAI和谷歌的類似工具一樣,可以搜尋網路併為給定的主題生成詳細的報告。
X Premium Plus訂閱者可以立即訪問Grok-3,但最強大的版本和更新版本通常會在專門的獨立應用程式或Grok.com上提供。
語音互動,類似於OpenAI的"高階語音模式"將在未來幾周內推出,馬斯克強調這不是簡單的文字到語音,而是一個真正的AI語音模型,能夠進行自然、富有表現力的語音。
開發者將在未來幾周內獲得API訪問許可權,以及語音轉錄功能,這使Grok-3成為第三方AI驅動應用程式的強大工具。
在展示了一個由Grok生成的俄羅斯方塊遊戲示例之後,xAI還透露了建立一個由Grok-3驅動的AI遊戲工作室的計劃,讓開發者可以構建遊戲。
目前,該模型正在緩慢推出。在撰寫本文時,Decrypt尚未獲得該模型的訪問許可權,但一些愛好者已經嘗試過,到目前為止對結果感到滿意。
計算機科學家Lex Friedman,人工智慧領域最響亮的聲音之一,讚揚了Grok-3的能力。
其他人則將其與市場領先的競爭對手進行了比較。
"Grok 3 + Thinking感覺在OpenAI最強大的模型(o1-pro,每月200美元)的水平附近,略好於DeepSeek-R1和Gemini 2.0 Flash Thinking,"前OpenAI聯合創始人Andrej Karpathy在X上的一篇詳細帖子中寫道。"目前,向xAI團隊表示祝賀,他們顯然擁有巨大的速度和動力"
X使用者Penny2x分享了一個由Grok-3構建的遊戲——一個類似馬里奧兄弟的2D平臺遊戲。
他們對Grok理解指令並在多次迭代中不斷改進的能力印象深刻。
"我只是要求做一些調整,它就會在一個單獨的檔案中吐出這個遊戲,我可以把它放在桌面上執行。"他在X上的一篇帖子中寫道。"這太令人難以置信了。我們生活在未來。現在每個人都是開發者了。"
這個遊戲可以在Thank Doge上進行測試。
該公司還確認,一旦Grok-3完全成熟並執行正確,預計在未來幾個月內,就會開源Grok-2。
xAI此前在Grok-2之後開源了自己的模型,繼續保持釋放舊版本以促進創新的趨勢——儘管Grok-2落後於頂級模型。
目前,Grok-3似乎擅長模仿其他最佳人工智慧模型已經做到的事情。
真正的考驗將在xAI在未來幾周內推出承諾的語音功能、遊戲工具和API訪問時到來。現在,球在OpenAI的手中,它即將釋出GPT-4.5。