GPT-5.2連肝7天，300萬行代碼造出Chrome級瀏覽器

36氪

01-15

【導讀】一個大模型持續寫代碼，能寫多久？一小時？一天？還是像大部分AI編程工具那樣，完成一個任務就結束對話？Cursor的CEO MichaelTruell決定搞一次極限壓力測試！

Michael Truell讓Cursor中的GPT-5.2連續運行了整整一週。

不是一小時，不是一天，而是不眠不休，晝夜不停，168小時持續寫代碼。

結果？

300萬行代碼。數千個文件。

AI完全從零構建出一個全新瀏覽器。

而且，還是Chrome那種瀏覽器。

HTML解析、CSS佈局、文本渲染、還有一個自研的JavaScript虛擬機——全是AI自己寫的。

Michael Truell輕描淡寫地發了條推文：它基本能跑！簡單的網頁能快速且正確地渲染出來。

一個模型究竟能跑多久

傳統的AI編程工具，比如Github Copilot和早期的其他IDE，都是一問一答模式。

對話長度有限，上下文有限，任務複雜度有限。

後來出現了所謂的Agentic編程——Claude Code、Cursor Agent、Windsurf等工具讓AI可以自主執行多步任務，讀取文件、運行命令、修復錯誤。

這已經是很大的進步，但大多數情況下，任務仍然以分鐘計算，最多幾小時。

AI完成一個功能，人類review，然後繼續下一個任務。

但沒有人嘗試過讓一個模型連續跑一週。

直到GPT-5.2。

Cursor團隊讓GPT-5.2持續運行了整整一週，不是斷斷續續，而是連續工作。

在這一週裡，它：

寫下了超過300萬行代碼
創建了數千個文件
執行了數萬億個token
從零構建了一個完整的瀏覽器渲染引擎

一個模型究竟能運行多久？

答案是：理論上，可以無限。

只要基礎設施穩定，只要任務足夠明確，AI就能持續工作——不眠不休，不吃不喝，7×24小時全年無休。

就像澳洲的放羊大叔的「賽博黑工」。

但實際上，不同模型的「耐力」差異巨大。

上下文窗口是第一道門檻。

早期的GPT-3.5只有4K token上下文，意味著對話稍長就會失憶。

Claude 3推出了200K上下文，GPT-4 Turbo跟進128K，Gemini 1.5 Pro更是號稱支持100萬token。

但上下文長度只是理論值——真正考驗的是模型在長任務中能否保持一致性、專注度和執行力。

Cursor團隊在實驗中發現了關鍵差異。

在Cursor這篇官方博客中，團隊在實驗中發現了關鍵差異：

GPT-5.2 能長時間自主工作，遵循指令精準，保持專注不偏離；
Claude Opus 4.5 傾向儘早結束，走捷徑，頻繁把控制權交還給用戶；
GPT-5.1-Codex 雖專為編碼訓練，但規劃能力不如GPT-5.2，所以容易中斷。

用更直白的話說：Opus像個急躁的實習生，幹一會就想問「這樣行不行？我先交了哈」；

而GPT-5.2像個老練的高級工程師，交代清楚任務就埋頭幹到底。

這也是為什麼Cursor官方宣稱：GPT-5.2是處理長期運行任務的前沿模型。

不止瀏覽器。

Cursor還透露了其他正在運行的實驗項目：JavaLSP、Windows 7模擬器和Excel克隆。

數據都很誇張，AI自己不停地寫了55萬行代碼、120萬行代碼和160萬行代碼。（話說，Excel代碼比Windows還多點，因吹斯汀）

多智能體系統協作

一個模型在一週內寫300萬行代碼，注意是不停的寫，沒有人類干預！

這顯然不是一個模型「單打獨鬥」，怎麼做到的？

Cursor團隊透露了他們的秘密武器：多智能體系統（Multi-Agent System）。

最初，他們嘗試讓所有Agent平等協作，通過共享文件來同步狀態。結果發現：

Agent會持有鎖太久，或者乾脆忘記釋放鎖。二十個Agent的速度下降到相當於兩三個Agent的有效吞吐量。

這像極了人類團隊中常見的問題：會議太多、溝通成本高、責任邊界不清。

最終有效的方案是分層架構：

規劃者（Planners）：持續探索代碼庫，創建任務，進行高層決策
執行者（Workers）：專注於完成具體任務，不關心全局，提交後繼續下一個
評審（Agent）：判斷每輪迭代是否合格，決定是否進入下一階段

這幾乎是人類軟件公司的組織架構：產品經理/架構師負責規劃，程序員負責執行，QA負責評審。

但區別在於——這是成百上千個Agent同時工作。

Cursor團隊實現了上百個Agent可以在同一個代碼庫上協同工作數週，幾乎沒有代碼衝突。

這意味著AI已經學會了人類團隊需要多年才能磨合出的協作默契。

瀏覽器的「護城河」比你想象的要深得多

如果聽到「不就是個顯示網頁的軟件嗎」這種評價，所有做過瀏覽器內核的工程師大概都會苦笑。

在計算機科學的鄙視鏈裡，手寫瀏覽器內核的難度，僅次於手寫一個操作系統。

為了讓你對這300萬行代碼有個概念，我們需要看一眼谷歌的Chromium（Chrome的開源母體）。

作為人類軟件工程的巔峰之一，Chromium的代碼量早已突破3500萬行。

它不僅僅是一個軟件，本質上已經是一個「偽裝成應用程序的操作系統」。

GPT-5.2挑戰的究竟是什麼？

首先是CSS的「混沌理論」。

網頁排版從來不是簡單的堆積木。

CSS標準裡充滿了各種歷史遺留的怪癖、層疊規則（Cascade）和複雜的繼承邏輯。

一位前火狐瀏覽器工程師曾打過比方：實現一個完美的CSS引擎，就像是在模擬一個物理法則隨心所欲變化的宇宙。你改動一個父元素的屬性，可能導致幾千個子元素的佈局瞬間崩塌。

其次是「虛擬機裡的虛擬機」。

這次AI不僅寫了界面，還寫了一個JS虛擬機。

現代網頁跑的JavaScript代碼需要內存管理、垃圾回收（GC）和安全沙箱。

稍微處理不好，網頁就會吃光你的內存，或者直接讓黑客穿透瀏覽器接管電腦。

最要命的是，它選了Rust。

Rust這門語言以「絕不妥協的安全」著稱，它的編譯器就像一位極度神經質的考官。

人類工程師在寫業務邏輯時，往往要花一半的時間和編譯器「吵架」，處理借用檢查（BorrowChecker）和生命週期問題。

AI不僅要懂業務，還得在幾百萬行代碼的規模下，讓這位「考官」挑不出毛病。

能在七天內把這些硬骨頭啃下來，並且讓它們協同工作，這已經不是簡單的「寫得快」了，這意味機器開始具備了頂級的架構掌控力。

當AI能夠「忍受孤獨」

但這則新聞真正的炸點，其實不在於瀏覽器本身，而在於那個「Uninterrupted」（無中斷）。

這是AI進化的分水嶺。

在此之前，我們熟悉的AI編程工具（比如早期的Copilot）的情況是：你寫個函數頭，它補全五行代碼；你發個指令，它生成一個腳本。

它們的記憶是碎片化的，注意力是短暫的。

一旦任務稍微複雜一點，比如「重構這個模塊」，它們往往會顧頭不顧尾，改了這頭壞了那頭，最後還得人來擦屁股。

但這次不一樣。這是一次「長時任務」的勝利。

這300萬行代碼分佈在數千個文件裡。

當AI寫到第300萬行時，它必須依然「記得」第1行代碼裡定下的架構規矩；

當渲染引擎和JS虛擬機打架時，它必須能回溯幾萬行代碼去尋找Bug的源頭。

這168個小時裡，GPT-5.2肯定寫出過Bug。

但它沒有停下來報錯等待人類投餵答案，而是自己讀取錯誤日誌，自己調試，自己重構，然後繼續前行。

這種「編寫-運行-修復」的自主閉環，曾經是我們人類工程師最引以為傲的護城河。

現在，這條護城河被填平了。

我們正在目睹AI從「聊天伴侶」向「數字勞工」的質變。

以前我們指揮AI做「任務」，比如「寫個貪吃蛇」；

現在我們指揮AI做「項目」，比如「造個瀏覽器」。

沉默的螺旋

雖然這個AI版瀏覽器的成熟度距離Chrome還有很長的路要走，但它證明了路徑的可行性。

當算力可以轉化為極其複雜的工程實施能力時，軟件開發的邊際成本將趨近於零。

這場實驗最令人震撼的，其實不是屏幕上那個渲染出的網頁，而是那個在後臺沉默運行了整整七天的進度條。

它不眠不休，不急不躁，以每秒數千字符的速度構建著數字世界的基石。

也許我們該重新審視「創造」的定義了。

只有當工具開始獨自在深夜裡解決問題時，我們才明白，它不再只是工具，而是我們的同行者。

從澳洲大叔的「賽博黑工」到AI長時任務

用5行代碼逼瘋硅谷的澳洲放羊大叔，其實只做了一件事情，就是讓AI不達目標不能停止。

至於Prompt.md寫了什麼命令，並不是重點。

就像今天Cursor CEO搞的這個極限壓力測試一樣，目標就是造一個Chrome、造一個Windows、開發一個Excel，只要沒完成目標，AI就要一直運行下去。回到最開始那個問題：

一個AI究竟能自己幹多久？

物理上的答案是無窮。只要你有足夠的算力、穩定的基礎設施、清晰的任務定義，AI可以無限運行下去。

但更重要的是，這改變了軟件開發的經濟學。

傳統軟件開發的主要成本是人力和時間。

一個10人團隊開發一個複雜項目，可能需要6個月到數年。每個月的人力成本可能是幾十萬到上百萬。

現在，AI可以在一週內完成原本需要數月的工作。

成本可能只是一些token費用，Emad Mostaque（Stability AI前CEO）猜測Cursor瀏覽器項目可能消耗了約30億個token。

他還有一個想法：用多少token能夠重寫一套Windows級別的操作系統？成本如何？

Token是越來越便宜的，就像之前的水和電，最終基於token的算力也會變得極其廉價。

於是，軟件經濟學就被徹底顛覆。比如，軟件按照授權付費的方式恐怕要消失了。

在2026年的今天，軟件開發正在經歷一場基因級別的變異。

從前，代碼是人類一行一行敲出來的產物。

未來，代碼可能只是人類意圖的自動展開：你描述你想要什麼，AI就能把它變成現實。

一個模型能跑多久？

只要你需要，它就能跑下去。

參考資料：

https://x.com/mntruell/status/2011562190286045552

https://x.com/leerob/status/2011565729838166269

https://cursor.com/cn/blog/scaling-agents

本文來自微信公眾號“新智元”，編輯：定慧艾倫，36氪經授權發佈。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論