你的專業工作，70.9%可能已被AI超越：GPT-5.2深度評測

12-12

凌晨，OpenAI正式推出新一代大模型GPT-5.2。

這距離上一代GPT-5.1發佈僅一個月，卻標誌著AI輔助人類工作的新時代臨界點已經到來。

在官方基準測試中，GPT-5.2在涵蓋44個職業的專業工作任務上，以70.9%的勝率首次整體表現達到或超越人類行業專家水平。每天為普通企業用戶節省40-60分鐘，為重試用戶每週節省超過10小時——OpenAI正將AI從“對話助手”轉變為能夠創造直接經濟價值的“專業協作者”。

與以往迭代不同，GPT-5.2不再單純追求通用對話能力的提升，而是精準聚焦於“專業知識型工作”。OpenAI在官方公告中明確指出，該系列是“迄今為止最強大的模型系列，為專業知識型工作而打造”。

01 臨界點：從“專家”到“助手”的質變

OpenAI官方公佈的數據顯示，目前一般ChatGPT Enterprise用戶平均每天能節省40-60分鐘工作時間，而重度用戶甚至表示每週節省超過10小時。這一數據背後，是AI從“信息提供者”到“價值創造者”的角色轉變。

GDPval基準測試的結果更具顛覆性：在這一涵蓋美國GDP貢獻最大的9個行業、44種職業的專業工作評估中，GPT-5.2 Thinking以70.9%的勝率，首次在整體表現上達到或超越了人類行業專家水平。

作為對比，前代GPT-5在這一測試中的勝率僅為38.8%。

“這是一次令人興奮的質量飛躍。”一位GDPval評委在評審GPT-5.2的輸出時評價道，“它看起來就像是由一家擁有專業團隊的公司完成的，佈局設計頗為驚豔。”

更驚人的是效率對比：GPT-5.2完成這些專業任務的速度比人類專家快11倍以上，成本卻不到專家的1%。這不僅是技術的進步，更是經濟模型的革新。

面對多樣化的專業場景，GPT-5.2首次採用“三版本”策略，形成覆蓋不同需求的專業矩陣。

Instant版定位為“效率引擎”，面向日常辦公與學習場景。它在保持GPT-5.1自然對話風格的基礎上，在信息查詢、操作指南、技術寫作及翻譯方面有顯著提升。早期測試者特別指出，其解釋更清晰，能夠在一開始就呈現出關鍵信息。

Thinking版則是“智能中樞”，作為主打型號專為深度複雜工作設計。它在編碼、長文檔總結、數學邏輯推導和項目規劃方面表現突出。在ChatGPT中，GPT-5.2 Thinking還擁有前代所不具備的新工具，如電子表格和演示文稿的直接生成功能。

Pro版扮演“頂尖智庫”角色，面向需要極致準確性與可靠性的高難度任務。在科學研究、複雜數學問題和前沿探索中，它是目前最智能、最值得信賴的選擇。早期測試顯示，它的重大錯誤更少，在編程等複雜領域的表現也更為出色。

這種精細化分工，反映了OpenAI對市場需求更深的理解：不是一款模型解決所有問題，而是為不同場景提供最適配的智能解決方案。

如果將GPT-5.2的能力提升歸納為五個維度，我們可以看到一幅清晰的“專家進化路線圖”。

在深度辦公方面，GPT-5.2實現了從“生成文本”到“創造成果”的跨越。它能夠直接創建、分析並格式化複雜的電子表格與演示文稿。在針對初級投資銀行分析師的內部電子表格建模任務中，其平均得分比GPT-5.1提升了9.3個百分點。

並排對比顯示，GPT-5.2生成的電子表格和幻燈片在複雜度與格式呈現上都有明顯提升。無論是股權結構表還是項目管理可視化圖表，它都能以接近專業水準的質量完成。

在代碼駕馭層面，GPT-5.2展現了從“輔助編寫”到“主導開發”的能力進化。在嚴格評估真實軟件工程能力的SWE-Bench Pro測試中，它以55.6%的成績刷新紀錄，而前代為50.8%。

更具說服力的是實際操作能力：僅憑一段提示詞，GPT-5.2就能生成完整的單頁應用，如“海浪模擬”、“節日賀卡製作器”和“打字雨遊戲”。Windsurf首席執行官Jeff Wang評價道：“GPT-5.2代表了自GPT-5以來在智能體編碼上的最大飛躍。”

與此同時，GPT-5.2的幻覺率大大降低。在一組去標識化的ChatGPT查詢中，GPT-5.2 Thinking含有錯誤的回答出現頻率相對GPT-5.1 Thinking減少了38%。

長上下文理解方面，GPT-5.2在OpenAI MRCRv2測試中，首次在4-needle MRCR評測變體（高達256k Token）中達到接近100%的準確率。這意味著專業人士可以放心用它處理長篇報告、合同、研究論文等多文件項目。

視覺理解能力的突破讓GPT-5.2能夠從“看到”進步到“看懂”。在圖表推理和軟件界面理解方面，其錯誤率比GPT-5.1減少約一半。

科學圖表類問題解答準確率達到88.7%，GUI截圖理解準確率為86.3%。即使是面對低質量的主板圖像，GPT-5.2也能準確識別主要組件並標註位置，而GPT-5.1僅能識別少數部分。

任務調度與工具調用能力的成熟，使GPT-5.2真正具備了“智能體”特質。在Tau2-bench Telecom測試中，它取得了98.7%的優異成績，展現了在長程、多輪任務中可靠使用工具的能力。

實際案例中，當用戶提出涉及航班延誤、錯過轉機、行李丟失和醫療座位需求的複雜問題時，GPT-5.2能夠協調完整工作流——重新預訂、安排特殊協助座位和處理賠償，提供比前代更完整的結果。

從今天開始，GPT-5.2系列將在ChatGPT中陸續向付費用戶開放，涵蓋Plus、Pro、Go、Business和Enterprise套餐。在API平臺中，所有開發者現已可以訪問這一新模型。

定價策略反映了能力的提升：GPT-5.2的API價格為每百萬輸入Token 1.75美元，輸出Token 14美元，較GPT-5.1有所上漲。但OpenAI強調，由於其更高的Token效率，在多項智能體評測中達到同等質量水平的整體成本反而更低。

安全方面，GPT-5.2延續並增強了安全措施。特別是在心理健康相關對話中，其不理想回復顯著減少。OpenAI還在逐步上線年齡預測模型，以自動為未成年人應用更嚴格的內容保護。

OpenAI選擇在公司成立十週年的時刻發佈GPT-5.2，頗有承前啟後的象徵意義。從GPT到GPT-3，從ChatGPT到如今的GPT-5.2，這家公司始終引領著AI技術的發展方向。

隨著GPT-5.2逐步向全球數億用戶開放，一個清晰的時代信號正在釋放：AI不再只是回答問題或生成文本的工具，而是能夠理解複雜需求、協調多步驟流程、產出專業成果的智能協作者。

專業工作的本質正在被重新定義，而這次重新定義的核心引擎，已經悄然升級至5.2版本。

本文來自微信公眾號“第一新聲”，作者：賈玥，36氪經授權發佈。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論