凌晨,OpenAI 發佈了新一代 AI 科研利器 Prism,該平臺由 GPT-5.2 加持,供科學家們撰寫和協作研究,即日起向所有擁有 ChatGPT 個人賬戶的用戶免費開放。用華人 AI 創業者 Yuchen Jin 的話說,“每篇論文都將把 ChatGPT 列為合著者。”
而在昨日,OpenAI 副總裁、新成立的 OpenAI for Science 團隊負責人 Kevin Weil 就在 X 上發文預熱道,“我們的目標是賦予每位科學家 AI 超能力,讓他們能做更多事情,讓世界在 2030 年就能開展 2050 年的科學研究。”
自 ChatGPT 爆紅面世後的三年裡,OpenAI 的技術顛覆了日常生活中方方面面的行為模式。如今 OpenAI 正明確發力科研領域,面向科研人員佈局。10 月,該公司宣佈成立全新的 OpenAI for Science 團隊,核心致力於探索其大語言模型(LLM)助力科研人員的路徑,並優化旗下工具為科研人員提供支持。過去數月,社交媒體上湧現出大量相關內容,學術期刊也刊發了諸多研究成果,數學家、物理學家、生物學家等領域研究者紛紛撰文,講述大語言模型、尤其是 GPT-5 如何助力他們取得新發現或是為他們指引方向,讓他們找到原本可能錯失的解決方案。
那麼,OpenAI 為何選擇此時入局?此番佈局,究竟想要達成怎樣的目標?發力科研領域,與該公司更宏大的使命如何契合?在這一領域,OpenAI 已然姍姍來遲。谷歌 DeepMind 早在數年前便已成立 AI-for-science 團隊,打造了 AlphaFold、AlphaEvolve 等具有開創性的科學模型。2023 年,谷歌 DeepMind 的 CEO 兼聯合創始人 Demis Hassabis 曾就該團隊的情況在採訪中表示,“這是我創立 DeepMind 的初衷。事實上,這也是我整個職業生涯深耕 AI 領域的原因。”
近日,Kevin Weil 在一次訪談中不僅正面回應了這些問題,還對當前模型的實際能力給出了比先前更為保守的評價:目前模型還達不到取得顛覆性新發現的水平,但倘若能讓人不必把時間浪費在已經解決的問題上,也是對科研的一種加速。有意思的是,據其透露,一位 OpenAI 主動接觸且開通了 GPT-5 付費服務的科研人員反饋,GPT-5 會犯一些低級錯誤,比人犯的錯誤更加愚蠢,不過一直在進步。
此外,按照 OpenAI 在 AI 科研領域的佈局,接下來其將對模型整體設計作兩大思路優化:一是讓 GPT-5 在給出答案時降低置信度,具有認知層面上的謙遜性;另一方向,是利用 GPT-5 反向對自身輸出進行事實核查。
“2026 年對於科研領域的意義,將堪比 2025 年之於軟件工程。”Weil 表示,“2025 年初,若有人藉助 AI 完成大部分代碼編寫,還只是早期嚐鮮者;而 12 個月後的現在,若還未用 AI 編寫大部分代碼,就可能已經落後。現在,科研領域正顯現出與編程領域類似的早期發展勢頭。一年後,倘若一名科研人員還未深度運用 AI 開展研究,就將錯失提升思考質量、加快研究進度的機會。”
模型能力早已超過 90% 研究生,AGI 最大價值在於推動科學進步
數年前,Weil 加入 OpenAI 出任首席產品官,他曾擔任 Twitter 和 Instagram 的產品負責人官。但他的職業起點是科研領域:在斯坦福大學攻讀粒子物理博士學位期間,他完成了三分之二的學業,隨後為追尋硅谷夢離開學術界。Weil 也樂於提及自己的這段學術背景,他說:“我曾以為自己餘生都會做一名物理教授,現在度假時還會讀數學相關的書籍。”
當被問及 OpenAI for Science 與公司現有的白領生產力工具、爆火的視頻應用 Sora 如何契合時,Weil 脫口而出:“OpenAI 的使命是研發通用人工智能(AGI),並讓這項技術為全人類帶來福祉。”他表示,不妨想象這項技術未來能為科研領域帶來的變革:全新的藥物、材料、器械。
“試想一下,它能幫助我們探索現實的本質,攻克懸而未決的科學難題。或許 AGI 能為人類創造的最重大、最積極的價值,正是其推動科學進步的能力。”他補充道:“GPT-5 的出現,讓我們看到了這種可能。”
在 Weil 看來,如今的大語言模型已足夠優秀,能成為科研人員的得力協作夥伴。它們能提出各種想法,建議新的研究方向,並在新問題和幾十年前發表在冷門期刊或外語期刊上的舊解決方案之間找到富有成效的聯繫。但在大約一年前,情況並非如此。自 2024 年 12 月發佈首個推理模型(一種能夠將問題分解成多個步驟並逐一解決的邏輯學習模型)以來,OpenAI 一直在不斷拓展這項技術的邊界。推理模型的問世,讓大語言模型解決數學和邏輯問題的能力得到大幅提升。
“放在幾年前,模型能在 SAT 考試中拿到 800 分,就足以讓我們所有人驚歎不已。”Weil 稱。而如今,大語言模型能在數學競賽中奪冠,解出研究生階段的物理難題。去年,OpenAI 和 谷歌 DeepMind 均宣佈,其研發的大語言模型在國際數學奧林匹克競賽中取得金牌級成績,該賽事是全球難度最高的數學競賽之一。Weil 表示,“這些模型的能力,早已不只是超過 90% 的研究生,而是真正達到了人類能力的極限。”
這一論斷非常大膽,卻也並非無懈可擊。但毋庸置疑的是,搭載了推理模型的 GPT-5,在解決複雜問題方面較 GPT-4 有了質的飛躍。行業基準測試 GPQA 包含 400 多道選擇題,專門考察生物、物理、化學領域的博士級專業知識,GPT-4 在該測試中的正確率僅為 39%,遠低於人類專家約 70% 的基準線;而據 OpenAI 數據,2024 年 12 月推出的 GPT-5 最新版本 GPT-5.2,正確率達到了 92%。
讀遍 30 年來的論文,模型也做不出顛覆性新發現
Weil 的這種興奮之情顯而易見,卻或許有些過頭了。去年 10 月,Weil 等 OpenAI 高管曾在 X 平臺高調宣稱,GPT-5 已為多個數學未解難題找到解決方案。但數學家們很快指出,GPT-5 實際只是從早期研究論文中挖掘出了已有的答案,其中至少還有一篇德文文獻。這樣的能力雖有價值,卻絕非 OpenAI 宣稱的那般突破性成就。事後,Weil 與其同事刪除了相關帖子。
當時,這件事鬧出了不小的風波。剛開始瘋傳的是:GPT-5 解決了 10 個此前未解決的埃爾德什問題(Erdős problems),並在另外 11 個問題上取得了進展,而之後被負責維護埃爾德什問題網站的數學家 Thomas Bloom 澄清為;GPT-5 只是找到了一些能解決這些問題的參考文獻。DeepMind 首席執行官 Demis Hassabis 對此指出,該團隊的溝通方式“過於草率”。前 Meta 首席 AI 科學家 Yann LeCun 則諷刺道, OpenAI“被自己的炒作所反噬”(hoisted by their own GPTards),“搬起自己的 GPT 石頭砸了自己的腳”。
但就在前幾天,又有消息稱,GPT-5.2 Pro 破解了一道埃爾德什猜想,題目是埃爾德什問題庫中的第 281 號。這次證明由數學家 Neel Somani 推動,且論證過程由菲爾茨獎得主陶哲軒證明沒有問題,並評價其是“AI 解決開放性數學問題中“最明確的案例之一”。目前,GPT-5.2Pro 對該問題的證明結果已被埃爾德什問題網站收錄。
據悉,GPT-5.2Pro 對這個問題提出了新的證明方法,雖然忽略了此前已有的相關證明,但陶哲軒指出 GPT-5.2Pro 的證明思路與之前的方法“相當不同”,只在概念上有些重疊。現在這道題有了兩條論證思路,一是 GPT-5.2 Pro 採用的遍歷理論框架,策略是“弗斯滕伯格對應原理”的變體;二是兩個早在 1936 年和 1966 年就已經存在的定理組合:達文波特 - 埃爾多斯定理和羅傑斯定理,且解法更簡單。
不過,如今的 Weil 也更加謹慎了。他表示,能找到那些已存在卻被遺忘的答案,本身就已意義重大:“我們都站在巨人的肩膀上前行,倘若大語言模型能整合這些知識,讓我們不必把時間浪費在已經解決的問題上,這本身就是對科研的一種加速。”他也淡化了大語言模型即將取得顛覆性新發現的說法:“我認為目前模型還達不到那個水平,未來或許能做到,我對此持樂觀態度。”
但他強調這並非團隊的核心使命:“我們的使命是加速科學發展,而加速科學發展的標準,並非一定要像愛因斯坦那樣對整個領域進行徹底的重新構想。”在 Weil 看來,核心問題只有一個:科學發展速度是否真的更快了?“當科研人員與模型協作時,能比獨自研究完成更多工作、效率也更高。我認為我們已經看到了這一點。”
去年 11 月,OpenAI 發佈了一系列由公司內外科研人員提供的案例研究,以真實案例展現了 GPT-5 的實際應用及助力科研的過程。Weil 表示,“這些案例的研究者,大多早已在研究中直接使用 GPT-5,他們通過各種方式找到我們,告訴我們‘看看這些工具能讓我做到什麼’。”GPT-5 擅長的關鍵事情是:找到科研人員尚未意識到的現有研究成果及關聯線索,這有時能催生新的思路;協助科研人員草擬數學證明過程;為科研人員在實驗室驗證假說提供實驗思路。
“GPT 5.2 幾乎閱讀了過去 30 年發表的每一篇論文。它不僅理解科學家所處領域的內容,還能從其他不相關的領域中提煉出可類比的思路。”Weil 稱,“這太強大了。你總能在相關領域找到人類合作者,但要在所有可能相關的上千個相關領域找到上千個合作者,那就難上加難了。除此之外,我還能在深夜與模型一起工作,它從不需要休息,也能同時向它提出十個問題,這些事若是對人做,難免會顯得尷尬。”
GPT-5 犯錯比人更愚蠢,機器人更願意聽它的指揮?
據悉,OpenAI 為佐證 Weil 的觀點,接觸了多位科研人員,其中絕大多數都對此表示認同。範德堡大學物理與天文學教授 Robert Scherrer 此前僅將 ChatGPT 當作消遣工具把玩,他告訴我:“我曾讓它以《貝奧武夫》的文風改寫《吉利根島》的主題曲,它完成得非常出色。”直到同在範德堡大學的同事、如今任職於 OpenAI 的物理學家 Alex Lupsasca 告訴他,GPT-5 幫其解決了一個研究中的難題,他才改變了對這款模型的看法。
Lupsasca 為 Scherrer 開通了 GPT-5 Pro,這是 OpenAI 每月 200 美元的高級訂閱服務。Scherrer 說,“我和我的研究生為一個問題鑽研了數月都毫無頭緒,GPT-5 卻成功解決了它。”但他也坦言,這款模型並非完美:“GPT-5 還是會犯一些低級錯誤。當然,我自己也會出錯,但 GPT-5 犯的錯誤更愚蠢。”不過他表示,其進步速度有目共睹,“如果當前的發展趨勢能持續下去,我想很快所有科研人員都會用上大語言模型。當然,這只是個假設。”
非營利性研究機構傑克遜實驗室的生物學教授 Derya Unutmaz,在其免疫系統相關研究中,會藉助 GPT-5 進行頭腦風暴、論文總結和實驗規劃。在他向 OpenAI 分享的案例研究中,其團隊曾分析過一組舊數據集,而 GPT-5 對這組數據的分析,得出了全新的見解和解讀。他說:“大語言模型對科學家來說已經至關重要了。以前需要幾個月才能完成的數據集分析,現在用大語言模型就能完成了,不用大語言模型已經行不通了。”
加州大學伯克利分校的統計學家 Nikita Zhivotovskiy 表示,從 ChatGPT 首個版本發佈開始,他就在研究中使用大語言模型了。和 Scherrer 一樣,他認為大語言模型最有用的地方在於,能挖掘出其研究工作與一些未知現有研究成果之間的意外關聯。“我相信大語言模型正在成為科學家們必不可少的技術工具,就像曾經的計算機和互聯網一樣。那些拒絕使用這類工具的人,將會長期處於劣勢。”但他並不指望大語言模型能在短期內取得什麼新發現,“我幾乎沒見過模型能提出真正值得單獨發表的全新觀點或論證。到目前為止,它們似乎主要是在整合現有的研究成果,有時還會出錯,而非創造真正的全新研究方法。”
也有與 OpenAI 無任何關聯的科研人員,態度則沒那麼樂觀。
利物浦大學化學教授、勒沃休姆功能材料設計研究中心主任 Andy Cooper 表示,“到目前為止,我們尚未發現大語言模型從根本上改變了科學研究的方式,但我們近期的研究結果表明,這類工具確實有其用武之地。Cooper 正牽頭研發一款所謂的 AI scientist,該系統能實現部分科研工作流程的完全自動化。他表示,其團隊並不會藉助大語言模型構思研究思路,但這項技術已開始在更龐大的自動化系統中顯現實用價值,比如大語言模型可協助操控機器人。
“我猜測,大語言模型或許會更多應用於機器人工作流程,至少在初期會是如此。因為我不確定人們是否願意聽從大語言模型的指揮,我自己當然是不願意的。”Cooper 稱。
團隊重點發力:讓 GPT 少點自信、更加謙遜
大語言模型的實用性或許與日俱增,但保持謹慎仍是關鍵。去年 12 月,研究量子力學的科學家 Jonathan Oppenheim 指出,某本科學期刊中出現了一處由大語言模型導致的錯誤。他在 X 平臺發文稱,“OpenAI 的管理層正在推廣《Physics Letters B》上的一篇論文,其中的核心思路由 GPT-5 提出,這或許是首篇由大語言模型貢獻核心觀點且通過同行評審的論文。但有個小問題:GPT-5 提出的思路,驗證的對象完全錯了。研究人員讓 GPT-5 設計一個能檢測非線性理論的驗證實驗,它卻給出了一個檢測非定域性理論的方案。二者看似相關,實則截然不同。這就好比你想要一個新冠檢測試劑盒,大語言模型卻興沖沖地遞給你一個水痘檢測試劑盒。”
顯然,許多科研人員正以富有創意、貼合實際的方式運用大語言模型。但同樣顯而易見的是,這項技術所犯的錯誤可能極為隱蔽,甚至連專家都難以察覺。這一問題的成因,部分源於 ChatGPT 的交互特性,它總能以迎合的語氣讓使用者放鬆警惕。正如 Jonathan Oppenheim 所言,“核心問題在於,大語言模型的訓練目標是迎合用戶,而科學研究需要的是能夠挑戰我們的的工具。”曾有一個極端案例,一名非科研領域的普通人被 ChatGPT 誤導,長達數月都堅信自己發明了一個新的數學分支。
當然,Weil 也深知大語言模型的幻覺問題,但他強調,新一代模型產生幻覺的概率已大幅降低。即便如此,他認為,僅僅關注幻覺可能就偏離了重點。
“我的一位同事曾是數學教授,他說過的一番話讓我印象深刻:‘我做研究時,和同事交流碰撞想法,自己的觀點 90% 都是錯的,但這正是意義所在。我們都在大膽暢想思路,只為找到一條可行的研究路徑。’”Weil 表示,“這其實是科研中最理想的狀態。當你提出足夠多的錯誤觀點,有人偶然發現了一絲真理,另一人抓住這一點繼續探討:‘你說的這點並不完全正確,但如果我們換個思路’。就這樣,人們便能在科研迷霧中逐漸摸索出前行的道路。”
這正是 Weil 為 OpenAI for Science 設定的核心願景。他認為,GPT-5 固然優秀,但它並非萬能靈藥。這項技術的價值在於引導人們探索新的方向,而非提供最終答案。事實上,OpenAI 目前正著手優化 GPT-5 的一項特性:讓它在給出答案時降低其置信度。它不會再直接說“答案在這裡”,而是會以更委婉的方式告訴科研人員:“以下思路可供參考。”“這正是我們目前投入大量精力在做的事:努力讓模型具備某種認知層面的謙遜性。”Weil 稱。
據透露,OpenAI 正在探索的另一方向,是利用 GPT-5 對自身輸出進行事實核查。實際應用中常有這樣的情況:如果你把 GPT-5 的某個答案重新輸入到模型中,它會逐條分析並指出其中的錯誤。Weil 表示,“我們可以讓模型充當自身的校驗者。如此便能搭建一套工作流程:模型先完成初步推理,再將結果交由另一模型審核;如果這個模型發現了可以改進的地方,就會把結果反饋給原模型,並提示‘注意,這部分內容有誤,但這部分思路有價值,可保留’。這就像兩個智能體協同工作,只有當輸出內容通過校驗者的審核後,才會最終呈現。”
這一機制,與谷歌 DeepMind 為 AlphaEvolve 打造的模式高度相似。AlphaEvolve 是一款工具,它將大語言模型 Gemini 封裝在一個更大的系統中,該系統能夠篩選出優質回覆,並將其反饋給模型進行改進。谷歌 DeepMind 已藉助 AlphaEvolve 解決了多個現實中的科研難題。
如今,OpenAI 面臨著競爭對手的激烈角逐,這些企業的大語言模型即便無法實現 OpenAI 為其模型宣稱的全部功能,也能完成絕大部分。倘若如此,科研人員為何要選擇 GPT-5,而非同樣在逐年迭代升級的 Gemini 或 Anthropic 旗下的 Claude 系列模型?歸根結底,OpenAI for Science 的佈局,很大程度上也是為了在這一新領域搶佔先機。而真正的技術創新,尚未到來。
參考鏈接:
https://www.technologyreview.com/2026/01/26/1131728/inside-openais-big-play-for-science/
https://openai.com/zh-Hans-CN/prism/
本文來自微信公眾號“AI前線”,整理:華衛,36氪經授權發佈。




