你的專業工作,70.9%可能已被AI超越:GPT-5.2深度評測

avatar
36氪
12-12

凌晨,OpenAI正式推出新一代大模型GPT-5.2。

這距離上一代GPT-5.1發佈僅一個月,卻標誌著AI輔助人類工作的新時代臨界點已經到來。

在官方基準測試中,GPT-5.2在涵蓋44個職業的專業工作任務上,以70.9%的勝率首次整體表現達到或超越人類行業專家水平。每天為普通企業用戶節省40-60分鐘,為重試用戶每週節省超過10小時——OpenAI正將AI從“對話助手”轉變為能夠創造直接經濟價值的“專業協作者”。

與以往迭代不同,GPT-5.2不再單純追求通用對話能力的提升,而是精準聚焦於“專業知識型工作”。OpenAI在官方公告中明確指出,該系列是“迄今為止最強大的模型系列,為專業知識型工作而打造”

01  臨界點:從“專家”到“助手”的質變 

OpenAI官方公佈的數據顯示,目前一般ChatGPT Enterprise用戶平均每天能節省40-60分鐘工作時間,而重度用戶甚至表示每週節省超過10小時。這一數據背後,是AI從“信息提供者”到“價值創造者”的角色轉變。

GDPval基準測試的結果更具顛覆性:在這一涵蓋美國GDP貢獻最大的9個行業、44種職業的專業工作評估中,GPT-5.2 Thinking以70.9%的勝率,首次在整體表現上達到或超越了人類行業專家水平

作為對比,前代GPT-5在這一測試中的勝率僅為38.8%。

“這是一次令人興奮的質量飛躍。”一位GDPval評委在評審GPT-5.2的輸出時評價道,“它看起來就像是由一家擁有專業團隊的公司完成的,佈局設計頗為驚豔。”

更驚人的是效率對比:GPT-5.2完成這些專業任務的速度比人類專家快11倍以上,成本卻不到專家的1%。這不僅是技術的進步,更是經濟模型的革新。

02  三分天下,精準匹配的專業化矩陣 

面對多樣化的專業場景,GPT-5.2首次採用“三版本”策略,形成覆蓋不同需求的專業矩陣。

Instant版定位為“效率引擎”,面向日常辦公與學習場景。它在保持GPT-5.1自然對話風格的基礎上,在信息查詢、操作指南、技術寫作及翻譯方面有顯著提升。早期測試者特別指出,其解釋更清晰,能夠在一開始就呈現出關鍵信息。

Thinking版則是“智能中樞”,作為主打型號專為深度複雜工作設計。它在編碼、長文檔總結、數學邏輯推導和項目規劃方面表現突出。在ChatGPT中,GPT-5.2 Thinking還擁有前代所不具備的新工具,如電子表格和演示文稿的直接生成功能。

Pro版扮演“頂尖智庫”角色,面向需要極致準確性與可靠性的高難度任務。在科學研究、複雜數學問題和前沿探索中,它是目前最智能、最值得信賴的選擇。早期測試顯示,它的重大錯誤更少,在編程等複雜領域的表現也更為出色。

這種精細化分工,反映了OpenAI對市場需求更深的理解:不是一款模型解決所有問題,而是為不同場景提供最適配的智能解決方案

03  五大躍遷:透視“專家級”能力革新 

如果將GPT-5.2的能力提升歸納為五個維度,我們可以看到一幅清晰的“專家進化路線圖”。

在深度辦公方面,GPT-5.2實現了從“生成文本”到“創造成果”的跨越。它能夠直接創建、分析並格式化複雜的電子表格與演示文稿。在針對初級投資銀行分析師的內部電子表格建模任務中,其平均得分比GPT-5.1提升了9.3個百分點

並排對比顯示,GPT-5.2生成的電子表格和幻燈片在複雜度與格式呈現上都有明顯提升。無論是股權結構表還是項目管理可視化圖表,它都能以接近專業水準的質量完成

在代碼駕馭層面,GPT-5.2展現了從“輔助編寫”到“主導開發”的能力進化。在嚴格評估真實軟件工程能力的SWE-Bench Pro測試中,它以55.6%的成績刷新紀錄,而前代為50.8%。

更具說服力的是實際操作能力:僅憑一段提示詞,GPT-5.2就能生成完整的單頁應用,如“海浪模擬”、“節日賀卡製作器”和“打字雨遊戲”。Windsurf首席執行官Jeff Wang評價道:“GPT-5.2代表了自GPT-5以來在智能體編碼上的最大飛躍。”

與此同時,GPT-5.2的幻覺率大大降低。在一組去標識化的ChatGPT查詢中,GPT-5.2 Thinking含有錯誤的回答出現頻率相對GPT-5.1 Thinking減少了38%

長上下文理解方面,GPT-5.2在OpenAI MRCRv2測試中,首次在4-needle MRCR評測變體(高達256k Token)中達到接近100%的準確率。這意味著專業人士可以放心用它處理長篇報告、合同、研究論文等多文件項目。

視覺理解能力的突破讓GPT-5.2能夠從“看到”進步到“看懂”。在圖表推理和軟件界面理解方面,其錯誤率比GPT-5.1減少約一半

科學圖表類問題解答準確率達到88.7%,GUI截圖理解準確率為86.3%。即使是面對低質量的主板圖像,GPT-5.2也能準確識別主要組件並標註位置,而GPT-5.1僅能識別少數部分。

任務調度與工具調用能力的成熟,使GPT-5.2真正具備了“智能體”特質。在Tau2-bench Telecom測試中,它取得了98.7%的優異成績,展現了在長程、多輪任務中可靠使用工具的能力。

實際案例中,當用戶提出涉及航班延誤、錯過轉機、行李丟失和醫療座位需求的複雜問題時,GPT-5.2能夠協調完整工作流——重新預訂、安排特殊協助座位和處理賠償,提供比前代更完整的結果。

04  可用性與前景:逐步落地的生產力升級 

從今天開始,GPT-5.2系列將在ChatGPT中陸續向付費用戶開放,涵蓋Plus、Pro、Go、Business和Enterprise套餐。在API平臺中,所有開發者現已可以訪問這一新模型。

定價策略反映了能力的提升:GPT-5.2的API價格為每百萬輸入Token 1.75美元,輸出Token 14美元,較GPT-5.1有所上漲。但OpenAI強調,由於其更高的Token效率,在多項智能體評測中達到同等質量水平的整體成本反而更低

安全方面,GPT-5.2延續並增強了安全措施。特別是在心理健康相關對話中,其不理想回復顯著減少。OpenAI還在逐步上線年齡預測模型,以自動為未成年人應用更嚴格的內容保護。

OpenAI選擇在公司成立十週年的時刻發佈GPT-5.2,頗有承前啟後的象徵意義。從GPT到GPT-3,從ChatGPT到如今的GPT-5.2,這家公司始終引領著AI技術的發展方向。

隨著GPT-5.2逐步向全球數億用戶開放,一個清晰的時代信號正在釋放:AI不再只是回答問題或生成文本的工具,而是能夠理解複雜需求、協調多步驟流程、產出專業成果的智能協作者。

專業工作的本質正在被重新定義,而這次重新定義的核心引擎,已經悄然升級至5.2版本。

本文來自微信公眾號“第一新聲”,作者:賈玥,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論