全球大模型進化的下一個方向,OpenAI的GPT-5做出來了

avatar
36氪
08-08

(OpenAI CEO薩姆·奧爾特曼正在發佈GPT-5  圖源/OpenAI官網直播)

美國明星AI(人工智能)創業公司OpenAI的每一代旗艦模型,都會引領全球未來半年的技術潮流。美國西部時間8月7日,這家公司發佈了GPT-5。

OpenAI CEO(首席執行官)薩姆·奧爾特曼(Sam Altman)形容,GPT-3給人感覺像是在和高中生交談。雖然偶爾靈光乍現,但也有很多惱人的地方。GPT-4o或許像在和一個大學生交談,它具備了真正的智能和實用性。而現在,有了GPT-5,就像是在和一位專家對話——一位在任何領域都能隨時待命、專業的博士級專家,他們能幫你實現任何目標。GPT-5不僅能聊天,還能為你做事。

GPT-5是兩個模型(長思考版+高效率版,前者可以深度思考,後者可以高效問答)組成的一個系統。它會在用戶提問時,自動判斷切換版本。

OpenAI官網披露的性能基準測試結果顯示,GPT-5超越了上一代旗艦模型OpenAI o3,GPT-5(長思考版)幻覺數量比o3少了六倍。國際市場調研機構Artificial Analysis長期對全球主流模型進行性能基準測試,截至8月8日的測試結果顯示,GPT-5目前是全球性能最強的模型。

性能提升的同時,GPT-5推理算力成本也大幅下降。OpenAI官網公佈的測試結果顯示,GPT-5成本表現優於 OpenAI o3,輸出token(AI推理算力計量單位,一個Token可以是單詞、標點、數字、符號等)數量減少了50%-80%。

需要鞏固“脆弱的優勢”

OpenAI一直是大模型賽道領頭羊,它是全球估值最高、收入最高的AI創業公司。截至今年8月,OpenAI再次融資83億美元,累計融資超過797億美元,估值3000億美元。

截至今年8月,ChatGPT日活躍用戶1.8億,付費企業用戶數量500萬。截至今年4月,ChatGPT付費個人用戶數量2000萬。

此前有媒體報道,截至今年7月末,OpenAI預計將實現120億美元的年度經常性收入(ARR,Annual Recurring Revenue),同比增長超過80%。其中消費者訂閱(ChatGPT Plus等用戶訂閱產品)收入55億美元,商業與合作伙伴(ChatGPT Team和Enterprise企業部署版本)收入36億美元,API(軟件調用接口)調用收入29億美元,代碼專用產品收入4億美元。

OpenAI作為全球最大AI創業公司,融資、營收、估值遠超它的最大競爭對手——全球第二大AI創業公司Anthropic。

Anthropic 2023年至今已完成14次融資,總金額182億美元。目前Anthropic估值615億美元。OpenAI估值是Anthropic的4.9倍。截至今年7月末,Anthropic年度經常性收入預計約為50億美元。也就是說,OpenAI營收規模是Anthropic的2.4倍。

雖然手握優勢,OpenAI面臨的市場競爭卻變得更激烈。美國市場,谷歌的Gemini、Anthropic、AI創業公司xAI都是它的直接競爭對手。這幾家公司的旗艦模型和OpenAI的差距幾乎只在三個月以內。中國市場,兩款開源模型——阿里旗下的Qwen系列、AI創業公司深度求索旗下的DeepSeek系列,和OpenAI旗艦模型差距僅為3-6個月。

2024年以來,OpenAI模型迭代明顯在提速。但過去一年,OpenAI卻遭遇到了比過去更多的批評。模型迭代次數多,但性能提升卻未達公眾預期。OpenAI多位創始團隊成員出走。這家公司堅持的閉源商業模式也招致抱怨,業內調侃OpenAI應更名為“CloseAI”。

摩根大通7月18日研報指出,OpenAI融資主要被用於算力和人才投入,未來四年可能還要花費約460億美元用於算力成本和員工薪酬,預計2029年才能盈利。摩根大通還認為,谷歌的Gemini 2.5 Pro和中國的DeepSeek-R1崛起表明,大模型市場競爭激烈,性價比日益重要。

一位中國雲廠商大模型業務負責人今年4月曾對《財經》表示,2025年大模型的發展主脈絡之一是,提升精度並降低算力成本,簡單說就是多、快、好、省。

“卷模型”不能確保永遠領先,但卻仍是維持優勢的少數路徑之一。GPT-5正是在這個背景下誕生的——它在性能提升的同時,還降低了算力成本。

為回應“不如變成CloseAI”的批評,OpenAI還在8月5日開源了兩款模型——gpt-oss-120b和gpt-oss-20b。市場普遍認為,OpenAI此次開源的主要目的是擴大自家模型在全球市場的影響力(報道詳見《為了“不站在歷史錯誤的一邊”,OpenAI又開源了》)。

搶佔AI應用爆發前夜的先機

AI應用爆發,尤其是Agent(智能體,一種輕量級的AI應用)爆發是2025年大模型落地過程中最明顯的趨勢。

國際IT諮詢機構Gartner預測,到2028年,33%的企業軟件將包含Agent,2024年該比例不到1%;到2028年,15%的日常工作將由Agent自主完成,2024年該比例接近0%。

不過,2025年上半年,Agent被認為並不成熟(報道詳見《AI智能體,為什麼看不懂?》)。原因就是基礎模型能力還不夠強。

此次GPT-5兩項重要技術突破,都是在解決這一問題——一是多模態(文本、圖像、視頻、音頻等複雜格式資料)的模型能力,二是指令遵循和Agent工具使用能力。

OpenAI聯合創始人格雷格·布羅克曼(Greg Brockman)在GPT-5發佈會以代碼場景舉例表示,GPT-5樹立了一個全新的標準。它在智能體代碼任務方面是最好的模型。你可以讓它完成一些非常複雜的事情。它會開始工作,調用許多工具,連續工作好幾分鐘,有時甚至更長,來完成你的目標、你的指令,無論你想創建什麼。

也就是說,隨著GPT-5的多模態理解能力、Agent工具使用能力成熟,意味著大模型能指揮多個Agent協同工作。它將具備駕馭Muti-Agent(多智能體)並處理複雜任務的能力。

GPT-5開啟了基礎大模型的一個新競爭點,它的基礎能力躍升意味著更多複雜的AI應用將被解鎖。每誕生一批新的AI應用,AI算力消耗也會指數級增長。模型、應用、算力的“飛輪”將加速轉動。

字節跳動火山引擎智能算法負責人、火山方舟負責人吳迪今年6月曾對《財經》解釋上述邏輯。在他看來,無論是中國市場還是美國市場,未來12個月基礎模型的能力還會不斷提升,有三個提升方向。

其一,多模態(文本+圖片+音頻+視頻)推理模型會成為主角,這是當下正在發生的變化。AI將可以把文本、圖片、音頻、視頻等多種信息融合在一起進行綜合推理。它將極大增強Agent對現實世界複雜信息的理解能力。

其二,視頻生成模型將成熟可用,預計今年末將迎來一輪爆發。這意味著Agent不僅能理解世界,還能以更動態、更直觀的方式生成內容和模擬過程。

其三,多步驟的複雜任務處理能力會大幅提升,預計今年末會有重大突破。這是Agent走向成熟的關鍵一步。當模型能夠穩定、可靠地規劃和執行包含數十步甚至上百步的複雜任務時,Agent“爛尾”的問題將從根本上被解決。

在吳迪看來,目前大部分Muti-Agent應用都“像是玩具”,但基於這三條技術主線的突破,他給出了最終判斷——Muti-Agent應用2025年末準確率將會大幅提升。2025年底具備視覺理解、推理能力的AI應用普及後,一個基礎任務消耗的算力可能就會超過10萬token。屆時,token消耗量會快速爬坡。

新一輪模型競賽拉開帷幕

模型、應用、算力“飛輪”轉動的基礎,是不斷提升的模型能力。2025年,全球科技公司的大模型競賽愈演愈烈,大模型迭代步伐都在加速。

大模型領域的知識迭代以“月”甚至“周”為單位。一篇論文、一個模型就可能顛覆原有的技術路線。一位資深算法工程師曾對《財經》表示,大模型領域,每週都有大量學術論文被髮表;幾乎每個月都有新的技術突破;幾乎每三四個月,領先的模型就會被趕超。

據《財經》不完全統計,2025年1月1日-8月8日的220天內,中美參與模型競爭的11家科技公司(包括阿里、字節跳動、騰訊、百度、華為、DeepSeek、月之暗面、谷歌、OpenAI、Anthropic、xAI)發佈或迭代了至少32版大模型,平均每6.9天就會有一版新的大模型被髮布。

基礎模型更新週期甚至越來越短。OpenAI的GPT-4.5到GPT-5更新週期是161天;OpenAI的o1到o3,更新週期132天;xAI的Grok 3到Grok 4,更新週期142天; DeepSeek-R1兩個版本,更新週期128天;DeepSeek-V3兩個版本,更新週期87天;谷歌Gemini 2.5兩個版本,更新週期僅42天。

GPT-5的發佈,將倒逼中美科技公司展開新一輪大模型的競賽——訓練更強的模型、採購更大規模的算力,這條路徑在短時間內不會改變。

當前大模型的發展,有幾個關鍵基石。一是數據、二是算法、三是算力,它依賴“大力出奇跡”,即用巨大的資源投入來換取性能提升。

今年6月,杜克大學電子與計算機工程系教授陳怡然曾對《財經》表示,AI演進的基本路線,仍是大力出奇跡。大家一直在討論,這種模式未來何時是頭,潛力何時會被耗盡用盡,學術界也試圖尋找新的路徑。但目前並沒有其他行之有效的方式,所以產業界也沒有太多選擇,一直在沿著“大力出奇跡”往前走。

目前,中國科技公司,如阿里Qwen 3今年7月更新版本暫時追平了OpenAI今年4月發佈的o3。GPT-5發佈意味著,新一輪追趕又要開始。

《財經》瞭解到,阿里大模型研發部門——通義實驗室今年核心目標之一就是,模型性能、下載量、衍生模型數量都要保持領先。

阿里雲CTO(首席技術官)、通義實驗室負責人周靖人今年6月在魔搭開發者大會群訪環節曾對《財經》表示,模型性能必須具備足夠的競爭力,能夠在權威的、公認的基準測試(Benchmark)中證明自身實力。

他還提到,通義實驗室一直將追蹤研判全球前沿技術動態視為日常工作的一部分。他們不僅會關注人工智能頂會(AAAI、IJCAI、ICML、NIPS等頂級國際學術會議)的論文,還會密切跟蹤全球各大開源社區、技術博客以及頭部AI公司的產品發佈。

上述資深算法工程師認為,大模型領域,任何性能優勢都只是暫時的,競速是持續不斷的。

本文來自微信公眾號 “半熟財經”(ID:Banshu-Caijing),作者:吳俊宇 周源,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論