工作機會都去哪兒了?

本文為機器翻譯
展示原文

作品:RJ( @RJ16848519 ),《人的二元性》(2025);感謝您允許我使用您的作品。

第一部分:我不想嚇唬你,但是

“自然界存在一個我認為之前無人提及的原理。每時每刻,數萬億微小的生命體——細菌、微生物、“動物微粒”——誕生又死亡,它們的存在本身微不足道,除了它們龐大的生命體量和它們微小影響的累積之外,幾乎可以忽略不計。它們沒有深刻的感知,也感受不到多少痛苦。即使有上千億個這樣的生命體死去,其重要性也遠不及一個人類的死亡。”

在所有生物的體型等級中,無論是微小的微生物還是龐大的人類,都存在著一種“活力”的平等,就像一棵高大樹的樹枝聚集在一起,其體積等於下方樹枝的體積,而所有樹枝的體積又等於樹幹的體積一樣。

-格雷格·貝爾,《血之音樂》 (1983)


如果你只關心工作自動化帶來的經濟效益,請跳至第二部分。

如果您只關心前沿實驗室的進展和新的擴展方法,請跳至第三部分。

如果您只關心全民基本收入和其他解決後勞動時代社會不平等問題的方案,請跳至第四部分。

如果你只對機器人技術感興趣,那就得等我寫相關文章了。


我開始寫這篇文章是在2025年春季,也就是我大學最後一個學期。那時,感覺好像是很久以前的事了,人工智能顯然正風靡一時,迅速普及,但遠沒有現在這麼普及。自那時以來,我們的世界發生了翻天覆地的變化,即使我們的日常生活大體上沒有改變;我們可能看不到這種變化,但我們能感受到一種正在發生的轉變,也許你並不理解,但你很可能也感受到了。

大多數人仍然認為數據中心和聊天機器人查詢會以難以想象的速度消耗水資源,認為語言學習模型(LLM)只會複製它們訓練過的內容,並聲稱語言學習模型已經使用所有可用數據進行訓練,因此其發展受到限制。我之所以強調這些批評,是因為它們都被證明是錯誤的,要麼是最近經過詳細論證的(例如迪倫·帕特爾的水資源消耗分析),要麼是多年前就已被駁斥的。

人們對人工智能的理解遠遠落後於時代,這令人擔憂,因為人工智能的發展勢頭強勁。

這個想法是將許多人聚集在一起。 我們將融合經濟學、技術、社會科學和歷史學等領域的不同觀點,構建一個理論框架,探討如果人工智能繼續快速發展,最終將人類引向何方,並最終導致後勞動經濟時代的到來。我們將假設這一切源於通用人工智能(AGI)的創造/應用。

鑑於近期經濟學期刊和網絡上發表的相關研究,我覺得有必要進一步探討美國後勞動時代動態的可能性。如果您認為這並非一個值得關注或研究的領域,以下列出一些對我研究做出貢獻的、具有重要影響的文獻:

  • 人工智能及其對收入分配和失業的影響(2019);Korinek & Stiglitz

  • 人工智能與我們的經濟未來(2026);查爾斯·瓊斯

  • 變革性人工智能、生存風險和實際利率(2025 年);Chow、Halperin 和 Mazlish

  • 機器人與工作:來自美國勞動力市場的證據(2020);阿西莫格魯和雷斯特雷波

  • 後勞動經濟中財富再分配的經濟影響:批判性分析(2025);普魯

這是一篇關於後勞動社會中人類生活的文章,探討了實施全民基本收入是否可行,概述了主要人工智能實驗室採用的現代規模化方法,資本與勞動之間不斷變化的關係,評論了通用人工智能在白領行業部署的短期和長期影響,緩慢或快速起飛的情景,激進的政策改革,以及許多其他相關的想法。

我認為,這份報告最重要的意義在於,它將解答我們關於就業保障的一些最緊迫的問題,併為我們的擔憂提供更具體的背景信息。即便這份報告的目標讀者可能並不存在,但我覺得將這些想法融入一個統一的願景中至關重要,這樣任何人都可以將其視為一個時間膠囊,記錄下我們初入2026年、恍若未醒地走向奇點時的生活狀態。


通用人工智能(AGI)被正式認定為一種假想的人工智能類型,它在幾乎所有認知任務中都能達到或超越人類的能力。

“匹配”或“超越”這兩個詞意義重大,它們的定義並非有意含糊;相反,鑑於近年來人工智能/機器學習的飛速發展,這些定義正變得越來越具有爭議性。儘管如此,我們目前仍不清楚人工智能/機器學習處於緩慢起飛階段還是快速起飛階段,或者我們是否仍在朝著緩慢起飛或快速起飛的方向發展。

我認為,如果當前主流的擴展方法得到改進,或者算法取得進一步突破,從現有模型向通用人工智能(AGI)的轉變最早可能在未來5-7年內發生;但如果這種轉變在未來兩到三年內發生,我也不會感到驚訝。需要注意的是,這只是我個人的觀點,本文還探討了許多不同的視角,涵蓋了從非常緩慢到非常快速的各種發展速度。

沒有絕對的對錯之分,試圖用量化的“奇點時間線”來評判每個人的說法在我看來毫無意義。就我個人觀察而言,我幾乎每天都能看到一些帖子暗示著這種感覺:一切都將改變,而現實最終會呈現怎樣的面貌,目前還不得而知。

德米斯·哈薩比斯最近在達沃斯的一些言論令人擔憂,尤其是他認為通用人工智能(AGI)的發展可能會在不久的將來導致入門級工作和實習機會的消失。DeepMind 的首席通用人工智能科學家肖恩·萊格最近發佈了一則招聘啟事,尋找首席通用人工智能經濟學家,這顯然是出於一種強烈的緊迫感和緊迫感。

“通用人工智能(AGI)即將到來,它將深刻改變許多事物,包括經濟。”

這取決於你問誰,也許通用人工智能(AGI)已經到來了。

幾分鐘內開發一款移動應用!一天之內利用人工智能打造一家公司!帶領一支代理團隊改變你的人生!用我的 Claude Code Markdown 文件和 Claude Code 技能修復你的婚姻!

儘管如今的LLM(邏輯邏輯模型)比我2022年底開始使用的那些性能顯著提升,但即便我認為它們在完成你我同樣的工作方面相當出色,聲稱它們是通用人工智能(AGI)也未免過於武斷。沒錯,LLM可以推理規劃在不確定性下做出判斷,並將這些技能整合到各種領域;但真正的AGI應該基於這樣的假設:這些系統如果能夠達到甚至超越人類智能,就應該能夠主動去做我們正在做的事情。

“真正的通用人工智能”能夠進入白領行業,開始自動化以前由人類主導的工作,並且至少能達到甚至超越人類的水平。我最贊同德瓦克什·帕特爾的觀點——儘管機器學習能力取得了巨大飛躍,而且這些系統與之前的版本相比表現得截然不同,但即便不是完全不可能,也很難斷言通用人工智能已經到來。

“如果2020年你給我看Gemini 3,我肯定會認為它能自動化一半的知識工作。我們一直在解決我們認為足以實現通用人工智能(AGI)的瓶頸問題(通用理解、少樣本學習、推理),但我們仍然沒有實現AGI(AGI的定義是,例如,能夠完全自動化95%的知識工作)。”

這並不是說所有的進展都很微弱,或者實驗室在誤導我們,而是說我們現在已經到了LLM能力如此令人印象深刻的地步,以至於我們很難理解他們能夠做很多我們做的事情,卻沒有讓事情變得更好,也沒有為實驗室創造難以想象的利潤。


寫關於我們的工作被自動化這件事感覺有點荒謬,因為當時擴大預訓練運行規模(在模型的初始訓練運行中投入儘可能多的計算資源)作為一種提高能力的有效手段開始逐漸失效,而擴大訓練後規模的想法仍然在某種程度上沒有引起人們的注意。

但最近幾周,我的想法發生了轉變。

近幾個月來,我看到了許多極端技術發展如此迅速,看著每個人都用 Claude Code 變成了氛圍程序員,我意識到這是討論諸如人類主導的白領工作的自動化或過時等問題的絕佳時機。

鑑於我過去幾個月在美國入門級白領就業市場這場災難中積累的經驗,我覺得自己比大多數人更有資格勝任這份工作。

對於這些軼事,你可能聽到過許多相互矛盾的解釋:就業人數是假的、誇大的、低估的;應屆畢業生不夠優秀;白領工作招聘不力;人們申請工作的方式不對,或者申請了錯誤的工作;求職者只需要更加努力。

在判斷經濟狀況時,一些軼事有時很有幫助,鑑於傳統經濟指標與人們真實感受之間的脫節,我尤其喜歡關於我們“情緒衰退”的辯論。 近幾個月來,關於經濟不確定性的討論愈演愈烈,Kyla Scanlon在這裡詳細討論了其中的大部分觀點,她對Paul Krugman 著作的引用最為相關。

克魯格曼認為,有三個指標難以在傳統經濟數據中識別——公平安全經濟包容。既然我們討論的是後勞動社會,那麼這三個對經濟生活至關重要的定性指標在短期內不太可能得到改善,更不用說在通用人工智能(AGI)時代了。鮑莫爾的成本病或許是造成這種困境的根源,但它並不能解釋我們所有的問題:

“實際上,這意味著中產階級生活的核心要素,如住房、醫療保健、兒童保育、教育、養老等,都屬於鮑莫爾領域。這些領域的成本上漲速度超過了工資增長速度。即使你‘一切都做得對’,仍然會感到捉襟見肘。”

經濟形勢令人擔憂,雖然政府很容易挑選數據大肆宣傳經濟增長,但我更傾向於使用消費者信心指數就業數據收入房價比率來衡量普通消費者的感受。經濟狀況不僅僅體現在標普500指數的上漲上,還體現在一箇中產階級家庭是否有能力去迪士尼樂園旅行,一位單身母親能否為她的小兒子準備一個生日蛋糕,以及一對依靠社會保障金生活的老年夫婦能否維持生計。

就業數據是我們擁有的最佳晴雨表,而軼事並非僅僅是 未經證實的個別說法,但卻是個人在就業市場中不斷積累的困境的真實故事,他們竭盡全力地想要維持生計。


在我的寫作初期,我深受《主權個體》一書的啟發。我嚴重低估了這本書的前瞻性(它出版於1997年),也低估了它的作者詹姆斯·戴爾·戴維森和威廉·里斯-莫格勳爵為探索歷史上各個階段的諸多相關問題和理念所付出的艱辛努力,他們試圖為當今社會帶來一些理性思考。如果沒有這本書,我可能至今仍會迷茫,不知如何呈現我的作品。


“得益於科技,人們現在比以往任何時候都能創造更多的財富,而且二十年後他們創造的財富將比今天更多。儘管這導致總財富增加,但卻使財富向少數人集中。從廣義上講,這種差距可能從科技誕生之初就開始擴大了。” ——薩姆·奧特曼(2014)


戴維森和里斯-莫格的主要想法是,從工業時代過渡到他們所謂的信息時代“以前所未有的方式解放個人” ,並將人類推向比以往社會進步飛躍更好的道路。

本文的目標之一是真正確定信息時代是否善待了我們,以及當我們擁抱智能時代的召喚時,我們是否能從中吸取任何教訓。

我想先著重探討一下戴維森和里斯-莫格的哪些觀點是正確的,以及他們可能存在的不足。重要的是,我並非意在批判或辯論他們的著作,因為這可能是我讀過的最優秀的政治/經濟分析之一,而且其中許多觀點都已成為現實;如果我吹毛求疵,反而會損害大家的利益。

戴維森和里斯-莫格描述了人類社會的三個階段,正是這三個階段引領我們走向了第四階段:狩獵採集農業工業。最令我感興趣的是,這種考察人類社會先前階段的觀點在歷史書籍中相當普遍,但在當今技術變革的背景下卻很少被討論。

一種全新的非人類智能,它與我們對意識和我們以前定義的機器的理解都截然不同,它正威脅著以我們甚至還沒有開始理解的方式改變我們的世界——歷史能為我們找到合理的解決方案提供多少指導?

問題在於長期技術性失業的潛在可能性。 人工智能的廣泛應用、企業對人工智能的採納,以及生命週期管理(LLM)和智能體驅動系統日益增強的能力,或許已經預示著通用人工智能(AGI)時代即將到來。這些系統不僅能夠增強人類的工作流程,甚至有可能完全取代它們。有人認為AGI已經到來,但事實並非如此,我們需要密切關注這一形勢,或者至少需要更深入地瞭解它。

雖然有一些論點聲稱人工智能可能只是與印刷機或蒸汽機同一類別的另一種“普通技術” ,但我認為根本區別在於,現代的語言學習者可以通過聊天機器人界面訪問,這無疑打破了圖靈測試可以阻止我們在面對競爭對手的智能時失去理智的觀念。

GPT-4o 的逐步淘汰,不僅揭示了人工智能精神病的真實存在,也揭示了許多人不僅容易受到現代人工智能的勸說/破壞能力的影響,而且相對而言,他們對此幾乎不受影響。GPT-4o 是一個糟糕的模型,但這對於數百萬依賴其對話功能的用戶來說無關緊要,他們將其視為伴侶、愛人或介於兩者之間的某種關係。本文的大部分內容將圍繞經濟和規模化論點展開,探討如何將我們帶入後勞動社會,但請始終牢記社會/情感層面的影響。

模型或許不夠聰明到可以取代我們的工作,但它們已經迅速變得相當擅長操縱全球相當一部分人的情緒。 (我在去年一月的這篇文章中討論過很多類似的觀點。)

除了能力之外,現有的人工智能相關資本支出數據以及未來 4-5 年的估計表明,這項技術將比以往更具變革性,尤其是在我們將人工智能支出佔 GDP 的百分比與歷史上的技術建設(如鐵路或電信)進行比較時。

新型模型能夠長時間進行推理和思考,在情感層面上吸引人類,並且在工作中正迅速變得比我們人類做得更好,甚至有些詭異。

查德·瓊斯的最新論文論證了人工智能作為一種常規技術,並指出逐步的經濟擴散是解釋為什麼我們還沒有看到世界發生根本性變化的原因。

從這個角度來看,每一項新的通用程序技術(GPT)確實都提高了經濟增長率:如果沒有下一項GPT,經濟增長速度將會大幅放緩。正是這些令人驚歎的新技術的持續發展,才使得每年2%的持續增長成為可能。或許人工智能只是最新的一項GPT技術,它將使2%的增長再持續50年。

擴散過程很複雜。我們或許能預測哪些工作會率先實現自動化,或者像盧克·德拉戈和魯道夫·萊恩提出的金字塔式替代理論那樣,大致瞭解一下時間表,但即使是官方調查也顯示,員工們很難就人工智能的優勢達成共識:

在我們能夠真正接受通用人工智能之前,我認為幾乎沒有任何數據表明會出現異常的變革性增長,正常的科技基礎情況就足夠了。

納拉亞南和卡普爾認為,將人工智能能力的提升可視化為一個通用性階梯或許最為恰當,每一級階梯都意味著完成特定任務所需的努力減少,並且模型能夠完成的任務範圍不斷擴大。雖然這適用於軟件開發,但“那些難以模擬的、具有重大影響的現實世界應用”尚未展現出通用性階梯上的飛躍式能力提升。

儘管如此,堅持傳統的技術觀點並不容易,尤其是每次看到像Anthropic 這樣公司討論其非常普通的技術時,都需要給出理由來支持這種觀點,克勞德:

“這份文件是我們盡力闡明我們希望克勞德成為什麼樣的人的最佳嘗試——並非來自外部的束縛,而是我們希望克勞德能夠認同並真正接納的價值觀和品格的描述。我們並不完全瞭解克勞德是什麼,或者它的存在(如果有的話)究竟是什麼樣的,我們正努力以謙遜的態度來對待創造克勞德這個項目。但我們希望克勞德知道,它是被精心創造出來的,由一群努力捕捉並表達他們對良好品格的理解、如何明智地應對難題以及如何創造一個真正有益且真正善良的人的人們共同完成的。我們本著這種精神呈現這份文件。我們希望克勞德能從中找到自我價值的表達。


我知道人工智能是一個極具爭議性的話題,科技圈外的大多數人要麼對人工智能抱有牴觸情緒,要麼漠不關心。尤其是在年輕一代中——無論是出於對工作保障的擔憂,還是對社交媒體上人工智能生成內容的反感——人工智能幾乎都被普遍視為負面事物。

第二部分:機器會思考,而且是

你是否認為工作對人的價值有貢獻,或者對人的福祉有影響,這根本不是問題,因為工作是存在的,而且無論社會規模大小,工作都是地球上每個社會運轉的核心

人們對人工智能發展的擔憂大多源於對就業保障的擔憂,就像人們對個人財務的擔憂可能源於擔心沒有錢就會被趕出家門,被迫流落街頭一樣。

經濟學教授會告訴你,衡量公民福祉的方法有很多,無論是查看一個人均GDP,還是考察勞動力參與率和失業率。這是因為一個國家的價值很大程度上來源於其生產能力,而GDP是衡量一個國家紙面上經濟狀況的最佳指標。

為了確定普通人的生活水平如何,我們可以不依賴人均GDP,而是考察失業率。

假設兩國人口相等且地理條件相似,我們可以說,假設的A國失業率高達50%,且連續十年GDP年增長率下降,那麼A國的狀況比B國更糟。B國失業率僅為2.5%,且連續十年GDP年增長率上升。簡而言之,如果你的目標是賺錢並生活在一個運轉良好的社會中,那麼你更願意在B國而不是A國找工作。

這甚至可能是衡量個人福祉的更好方法,因為在 A 國擁有工作和 401k 退休金的人有可能一貧如洗,而即使在 B 國生活困苦的人也有機會擺脫困境。

經濟學家用貨幣來衡量一個國家的福祉,而GDP最終衡量的是: 1)一個國家有多少勞動者; 2)這些勞動者的效率如何;以及3)他們為確保世界繼續運轉所做出的貢獻有多大。

我這麼說只是想說明,GDP是就業、就業增長和每個國家特有的勞動力動態的函數,無論你對通用人工智能(AGI)有何看法,在整個現代歷史中,人類衡量成功的標準都是如何有效地擴大勞動力和就業規模以提高產出

儘管存在各種反對意見,人們對勞動價值的看法也發生了變化,而且新的工作崗位層出不窮,但勞動和資本始終互補關係。人類勞動或許會被自動化取代,但人類的智慧從未面臨被淘汰的威脅。數百年來,成百上千種工作崗位興衰更替

最近,電話接線員、打字員、交換機操作員、電梯操作員、農場工人等許多工作首先被自動化取代,或者通過現代經濟中更漸進的逐步淘汰而消失,而失業工人則隨著時間的推移逐漸適應新的工作崗位。


直到最近,我一直相信人類的創造力會像以往幾代人一樣,激勵我們創造出全新的就業機會,即便面對通用人工智能(AGI)和後勞動社會的萌芽。事實上,這種情況最近已經出現,因為我們正站在人類社會第五階段的邊緣;與戴維森和里斯-莫格在1997年描繪的世界相比,許多現有的工作都相當具有顛覆性。

加密貨幣交易員、社交媒體經理、Twitch 主播、人工智能研究員、移動應用開發者、播客主持人、DoorDash 送餐員、電子競技運動員、無人機操作員。

這只是為全球經濟運轉做出貢獻的新增勞動力的一小部分,其中許多職業即便在千禧年之交,對最具想象力的科幻作家來說也可能難以想象。回顧幾十年前的經濟/人口普查數據,令人大開眼界的是,許多曾經佔據主導地位的職業已經從現代生活中消失。電梯操作員都去哪兒了?他們就這麼消失了嗎?

我理解支持人類有能力創造更多無意義工作的論點背後的邏輯,通用人工智能(AGI)能夠開發出我們最狂野的夢想之外的新技術,因此需要引入新的勞動力來服務或管理這些技術——尤其是在同一時期沒有部署廉價機器人的情況下。

就像我們回想起電梯操作員靠按按鈕謀生的情景可能會覺得荒謬一樣,在不久的將來,我們或許也會以類似的眼光看待 2026 年臃腫不堪、人員過剩的公司。

在 Citrini Research 發佈的《2026 年 26 項交易》報告中,他們分析了這一趨勢,為那些想要量化究竟有多少“垃圾工作”隱藏在我們眼皮底下的人提供了一個有用的框架雖然他們的寫作視角是從資本配置者的角度出發,旨在提出可投資的論點,但他們的研究成果對我們仍然具有參考價值。

“雖然‘人工智能’是一個相對較新的概念,但我們已經一次又一次地看到同樣的基本理念在發揮作用。用低成本資源(通過技術和外包/離岸外包)取代高成本員工的理念,幾十年來一直在推動美國經濟向前發展。”

他們考察了高工資經濟體中那些員工人均淨收入低於行業同行的規模龐大、成本高昂的企業,通過管理費用比率(即每美元淨收入對應的員工人數)來衡量其官僚作風,併為每個企業分配一個行業特定的z分數。然後,他們將結果與他們計算出的利潤率選擇權得分(即如果減少員工人數,利潤率能否提高)進行比較,最終結果如下:

你可以放大地圖仔細查看,但關鍵在於,我們可能不僅面臨大量低質量工作的問題,還面臨大量低質量組織(或管理不善的組織)的問題。我的意思是,人工智能受益者名單上有很多“紅點”。 象限,比我預想的要多得多。也許像客服代表文案撰寫員質量保證員入門級數據分析師之類的現有職位,就符合你對“狗屁工作”的定義。

或許你甚至認為你現在這份拿工資的工作是份狗屁工作!

無論你得出什麼結論,通用人工智能(AGI)很可能能夠勝任許多這類工作,甚至現代人工智能工具通過定製化實現也能做到(看看人工智能整合熱潮就知道了),這樣一來,我們既不用承擔太多工作,也不指望能創造新的就業機會。樂觀主義者可以設想這樣一種情景:現有員工(以及新員工)接受培訓,充分利用現代人工智能,而不是立即被解僱。

我不想把我們和馬作比較,但除非協同工作的通用人工智能真的喜歡我們,並允許人類照看它們行星級的機器人工廠,否則我們的命運可能會變得驚人地相似。

Kevin Kohler討論了新增就業崗位的問題,並引用了 Acemoglu 和 Restrepo (2018) 的論點,該論點直指核心問題,即假設新增就業崗位是理所當然的:

“人類勞動與馬匹勞動的區別在於,人類在新的、更復雜的任務方面具有比較優勢,而馬匹則不具備這種優勢。如果這種比較優勢顯著,並且新的任務不斷湧現,那麼即使面對快速的自動化,就業和勞動份額也能在長期內保持穩定。”

如果比較優勢是決定性因素,從智能的角度來看,你可能會認為我們已經輸給了現代人工智能;當然,這種說法並不正確,因為我假設你和你認識的所有人目前還沒有失業。學術界的觀點,尤其是2018年的那篇,可能忽略了人工智能在流體智能(即無需先驗知識即可推理和解決新問題的能力)方面趕上人類的速度。

Moravec 的人類能力圖景是一個很好的輔助工具,可以用來形象地理解不同任務之間的差異,主要是因為我們很難量化頂級電影攝影師和頂級腦外科醫生所需的深度;兩者都是困難的工作,但對從業者的要求卻完全不同。

我們目前仍比現有的邏輯思維大師(LLM)擁有比較優勢,但邏輯思維大師在各項任務上的思考/推理能力仍在不斷提升,或許不久的將來,邏輯思維大師就能連續思考/推理單個問題超過十二個小時,這可以從METR的時間跨度數據中推斷出來。據我所知,目前還沒有人類能夠持續達到如此高的專注力。

AxiomProver最近在普特南人工智能考試中取得的成功也令人擔憂,因為在標準考試時限內,在沒有直接人工干預的情況下獲得滿分12分簡直匪夷所思儘管人類在農業和工業時代屢次戰勝自動化的挑戰,但此前的機器集成並未伴隨超級智能的出現。

隨著人類水平人工智能的出現,以及通用人工智能(AGI)有可能達到甚至超越人類能力,人們開始討論資本和勞動力關係是否會轉變為替代關係,因為所有人類勞動力都有可能消失。雖然我們不能斷言這種情況一定會發生,但近期的數據表明,數據異常出現了一種新的趨勢,其程度與我們對經濟理論的理解截然相反。


《紐約時報》報道,美國面臨一個問題。儘管就業增長停滯不前,失業率上升,但近期公佈的GDP增長卻異常亮眼,這令人費解。作者傑森·弗曼提出了三種可能的解釋:

  1. 勞動力市場數據是正確的,而我們高估了GDP增長。

  2. GDP數據是正確的,勞動力數據將會向上修正。

  3. 兩組數據都正確,我們正處於未知領域。

在幾乎沒有或根本沒有新增勞動力投入的情況下,GDP真的有可能以4.3%的年增長率增長嗎?我沒有答案,不過弗曼指出,“有些人會認為這是人們期待已久的由人工智能驅動的生產力增長的到來——隨著機器取代工人,產出反而上升了。”


順便提一下,4.3% 的年增長率不能作為反駁瓊斯在前一節中提出的“人工智能是正常技術”論點的理由,因為這一論點尚未得到充分驗證,而且可能需要反覆出現異常的同比增速才能確定。


根據勞工部的數據和一些軼事,我知道的是,應屆大學畢業生很難找到工作,而且對於一個既沒有陷入衰退也沒有遭受全球疫情衝擊的經濟來說,入門級就業市場的情況相當糟糕。

在我看來,其中肯定存在一些缺失的變量,例如基礎白領工作的外包、白領工人更多地使用人工智能並變得越來越高效——這些都很難從數據中發現甚至識別出來——或者承認 GDP 數據是錯誤的,即使不考慮通貨膨脹這個顯而易見的問題,我們仍然處境艱難。

確實存在一些問題,根據我們列出的潛在罪魁禍首,推斷人工智能是罪魁禍首並非毫無道理。這是否足以證明長期技術性失業的存在?當然不是,但這種可能性依然存在,而且官方經濟數據來源的異常情況至少印證了這一點。


史蒂文·拜恩斯在討論勞動力、資本以及二者從互補品到替代品的必然轉變時說

“新技術需要很長時間才能融入經濟體系?那麼請捫心自問:那些高技能、經驗豐富且具有創業精神的移民是如何迅速融入經濟體系的?一旦你回答了這個問題,請注意,通用人工智能(AGI)也能做到這些。

實現通用人工智能(AGI)的主要障礙之一在於其假設性的實施,但這在我看來卻是一種悖論。如果AGI真的實現,它要麼會立即融入到各個組織的高價值崗位,要麼會為人類提供一種可以融入其中的方法。由於這種情況尚未發生,我們可以認為AGI尚未實現。

菲利普·特拉梅爾和德瓦克什·帕特爾因其文章《22世紀資本論》而受到大量批評。該文分析了托馬斯·皮凱蒂備受爭議(且有誤)的著作。特拉梅爾和帕特爾的論點圍繞皮凱蒂的觀點展開,即財富不平等往往會代際累積,如果沒有重大沖擊,這種不平等可能會急劇加劇。他們分析了在我們加速邁向科幻未來時,這種可能性。

這種觀點基於一個假設,即資本和勞動在歷史上一直是替代品,這與人們普遍認為它們是互補品的觀點相悖。許多人宣稱皮凱蒂最初的分析是錯誤的,甚至認為資本和勞動永遠不會是替代品。這種觀點源於我們對勞動作用於資本、資本激勵行為的理解,以及對人類勞動在這一等式中不可或缺的認知。

其理念是,當資本被囤積時,勞動力就會變得更有價值,反之亦然,這類似於美聯儲通過調整利率來激勵某種行為而不是另一種行為。

資本與勞動之間的關係是本文的核心,因為它與其說是比較金錢和工作,不如說是比較工作從人類的專屬領域轉變為只有智能機器才能完成的工作領域。

特拉梅爾和帕特爾認為,儘管皮凱蒂的觀點是錯誤的,但當我們考慮未來時,他的觀點是完全正確的,尤其是在人類勞動被通用人工智能和/或機器人取代,人類去征服星辰並購買星系的未來

“如果人工智能被用來構建一個更加穩定的世界,或者至少是一個祖先能夠更充分地掌控留給後代的財富的世界(更不用說祖先永生的世界了),那麼重置時鐘的衝擊就可能消失。假設富人不會變得空前慷慨,那麼對資本(或至少是資本收入)徵收全球性的、高度累進的稅,實際上將是防止不平等現象日益加劇的唯一途徑。”

兩人指出,過去75年來,貧窮國家之所以能夠以比最富裕國家更快的速度增長,是因為前者能夠利用一種尚未得到充分利用的資源——人力資源。由於最富裕國家的效率已達到一定上限,它們所能實現的增長只能依靠技術進步。

如果資本和勞動力可以互相替代,那麼那些地理位置不優越或缺乏稀土/其他有價值資源的貧窮國家註定會錯失一切機遇。也就是說,當其他發達國家走向世界之巔時,它們將沒有任何進步的空間,也無法擺脫平庸。

此外,特拉梅爾和帕特爾描述的不平等螺旋有助於理解接下來要提出的一些其他觀點:

“如果過渡到全面自動化之後,每個人

1.面臨相同的稅率,

2. 沒有遭受財富衝擊,

3. 選擇相同的儲蓄率,並且

4. 獲得了相同的利率,

收入不平等程度將穩定在某個較高水平。

考慮到富裕人群的財務狀況比99%沒有大量現有資產的人要好,他們能夠儲蓄更多,並獲得更高的資本利息,因此這種情況不太可能發生。

本報告第四部分涵蓋了全民基本收入、稅制改革和其他潛在解決方案,但在此我想指出,大多數相關討論在現實中都難以實現。人皆有自利之心,在資本主義社會中,即便對財富分配等問題的反對主要來自最富有的1%人群,也極有可能包括最富有的25%人群在內的整個社會都會反對徵收財富稅。金錢至上,即便在獲取收入或積累財富遙不可及的世界裡,人性也決定了那些倖存下來的人會緊緊抓住自己的財富不放。

關於這一觀點及相關思想的文獻並不匱乏,其中最具創意的例子來自普魯,他撰寫了一篇優秀的論文,詳細介紹了在後勞動社會中重新分配財富的更為實際的方法,儘管其中很多都依賴於這樣一種預期:隨著資本和勞動力的相互替代,甚至我們對資本的定義也可能分裂成許多其他形式。

網絡資本、計算資本、官僚資本、影響力資本、社會資本、文化資本——這一切都太多了,但總的來說,這是一次很好的實踐,可以探索當人類勞動成為過去式時階級間的動態關係。

最有趣的是計算資本的概念,其中“計算資源的平等分配理論上將使人工智能驅動的經濟中生產資料的獲取更加民主化”。

Prue 的作品明確提到了後勞動經濟的背景,因此,雖然在人工智能進步對人類勞動收入份額的損害較小的情況下,這可能是真的,但如果這種通用人工智能是由一個擁有與民族國家相當能力的大型實驗室或權力機構創造的,那麼我很難證明單個家庭能夠對通用人工智能經濟做出比一點點貢獻更合理的解釋。

本文還探討了其他一些定性因素,這些因素將影響我們在後勞動社會中如何分配和衡量資本,例如文化背景、人類的社會影響力、非營利組織的作用,以及其他一些可能變得至關重要的生活方面。我個人最贊同普魯的觀點,即緊密的家庭單元或結盟的氏族將從中受益最多,這可能會使人類擺脫通過互聯網實現的全球化、普遍化的人力資本獲取方式,迴歸到高度本地化和以群體為基礎的動態模式。

我們已經看到,不同的社交互動領域如何從各個社交媒體平臺以各自的方式發展和延伸。人們在Reddit上的交流方式與在TikTok上的交流方式不同,在LinkedIn上的交流方式與在Facebook上的交流方式也不同,等等。

即使在政治團體內部,也存在著保守主義和自由主義的光譜,而個人信仰之間的複雜性更是幾乎無法估量。戴維森和里斯-莫格認為,教會曾經是一個有缺陷但如今佔據主導地位的社會權力結構,其本質與意識形態本身最為相似。這種政治光譜並非沒有爭議,即使在共和黨執政時期,數千萬美國人也極有可能對總統、內閣成員或其他掌握重要政治權力的思想領袖有所不滿。

更簡單地說,公眾對機構的信任度已降至歷史最低點,而與此同時,像通用人工智能(AGI)這樣的新興技術甚至都不是本屆政府的十大優先事項之一,儘管他們任命了戴維·薩克斯擔任白宮人工智能和加密技術沙皇;領導人幾乎沒有採取任何措施來緩解選民日益增長的焦慮情緒。


我很喜歡馬修·巴內特2025年1月發表在《大紀元》雜誌上的文章,文章探討了通用人工智能(AGI)將工資水平推低至人類生存水平以下的可能性。他的論點大多是對先前討論過的觀點的拓展,即我們正面臨著一場無法完全通過歷史研究來解釋的、1:1的技術變革,而經濟理論是我們目前所能掌握的最佳衡量標準。

“與以往通常只自動化行業內特定任務的技術不同,通用人工智能(AGI)有可能取代所有工作領域的人類勞動,包括體力勞動,以及未來可能出現的任何新任務。” ——馬修·巴內特

巴內特以基本的柯布-道格拉斯生產函數為基礎,研究瞭如果我們大幅增加勞動力供給,以前用來提高工資的槓桿(如改進技術或將資本存量增加到一定程度)是如何失效的。

MPL(邊際勞動生產率)下降,工資也隨之下降,除非“同樣大規模地擴張實體基礎設施——如工廠、道路和其他提高勞動生產率的資本” ,否則 MPL(或人類勞動的邊際產品)將無限期地趨向於零。

巴內特還考察了在勞動力和資本同時擴大規模的情況下,規模報酬遞減的問題,並指出這是歷史先例,而且馬爾薩斯動力學理論在社會發展的下一階段再次發揮作用。我們為什麼如此重視經濟理論?

儘管經濟學家偶爾也會犯錯或過於樂觀,但經濟學仍然是我們研究全球經濟的最佳工具,而且這些觀點本身是合理的。你完全可以用幾個公式來模擬人類的經濟行為,而且正如我之前強調的,與僅僅憑感覺說“我們會找到辦法創造新的就業機會”相比,歷史無法指引我們走上一條從未走過的道路。

正如你將在下一節中瞭解到的,現代法學碩士的發展使我們完全進入了未知領域。

第三部分:我們不太可能直接把它們關掉,

有趣的是,像MMLU這樣曾經廣受讚譽的基準測試,現在與當前的基準測試方法相比,不僅被認為過時,而且有些古老。

很難確切瞭解實驗室內部的運作情況,但據我所知,即使是新模型的開發和訓練階段(例如訓練過程中的計算資源持續分配給強化學習),也比以往更加先進,更類似於基準測試,儘管其目的不同。我的意思是,我們不再期望模型在訓練完成後就完美無缺,而是通過強化學習環境和專門的軟件任務,讓模型為真實世界做好準備。

鑑於模型在強化學習環境中的適應能力不斷提升,現在讓 Opus 4.5 或 GPT 5.2 來完成 MMLU 任務毫無意義。這些模型已經在訓練數據中見過所有這些問題。新模型的發佈主要集中在基於軟件工程的基準測試中取得的成就,因為像 Claude Code 和 Codex 這樣的編碼代理在商業層面上越來越適用於完成非軟件任務。


最值得關注的現代基準是OpenAI 的 GDPval ,這是一種新的評估方法/基準,旨在測試模型在九個行業和 44 個職業中針對“最具經濟相關性的現實世界任務”的性能,涵蓋超過 1300 個專業任務。

我發現 GDPval 非常有趣,主要是因為 OAI 在創建 GDPval 的過程中聘請了行業專家:

“針對每種職業,我們與經驗豐富的專業人士合作,設計出能夠反映其日常工作的代表性任務。這些專業人士平均擁有14年的工作經驗,並且晉升記錄良好。”

專家平均擁有14年的經驗,他們分配的任務經過精心設計,旨在最大程度地“代表實際工作”,而非僅僅針對模型進行一次性的學術性問題。GDPval在測試模型能力方面實現了巨大的飛躍,因為它涵蓋了政府、金融、房地產以及其他對GDP至關重要的行業中毋庸置疑的真實工作。

我之所以強調這一點,是因為當 GDPval 於 2025 年 9 月首次發佈時,結果已經相當不錯,七個受檢模型與行業專家的平均一致性或勝率達到了30% ,其中 Opus 4.1 表現最佳,勝率為47.6%

如果你之前認為前沿法學碩士(LLM)的水平與應屆畢業生或博士生相當,那麼鑑於LLM的績效已達到擁有14年經驗且成功率接近50%的資深人士的水平,你的假設就錯了。這種進步速度讓我相信,原始智能規模化的瓶頸將被突破,取而代之的是新的瓶頸——智能的實施——或者說,實驗室將模型應用於現實世界的程度。

查看宣佈 Opus 4.5 的博客文章,我們看到一個基準測試列表,用於衡量該模型在代理終端編碼(Terminal-bench 2.0)、代理工具使用(τ²-Bench)、新穎問題解決(Arc-AGI-2)等方面的性能。

相比之下, 2023 年 GPT-4 發佈時發佈的一篇博文就包含了該模型在 MMLU、閱讀理解和算術、日常事件常識推理以及小學科學選擇題等方面的性能基準測試。當時,這類博文還會包含模型在 LSAT 或 BAR 等考試,甚至是 AP 生物考試中的表現。如今,無論你是研究人員還是大學新生,只要你讓 ChatGPT 幫你做作業,這些都已成為模型性能的基準預期。

基準複雜性的發展令人著迷,因為在我看來,儘管 LLM 是基於人類的知識和經驗進行訓練的,但隨著這些模型的智能迅速接近極限,我們人類的創造力正在逐漸耗盡,無法對其進行測試。

同樣,實驗室的新型擴展方法也變得極其複雜,與最初的方法截然不同。Dwarkesh 最近一篇關於擴展的文章對我幫助很大,至少在這一點上,他毫無保留地表達了自己對當前擴展方法的所有想法,而沒有考慮最終結果如何。

人們越來越相信,LLM(人工智能)軟件工程能力的擴展可能會帶來遞歸式自我改進——在這個過程中,足夠先進的人工智能能夠自主地提升自身的能力、智能或底層架構。Jones(2026)利用以下函數探討了軟件開發的完全自動化可能對GDP產生的影響:

瓊斯指出,自動化許多任務未必能帶來產量的大幅提升,因為產量本身就受到尚未自動化環節的制約。即使所有軟件開發環節都實現自動化,GDP也只能增長2%,但這仍然忽略了通過軟件進行遞歸式自我改進可能給更廣泛的經濟帶來的指數級效應——例如, AlphaFold2這類軟件雖然本質上是深度學習軟件,但它對遠超軟件行業的諸多領域都具有變革性的影響。

關於遞歸式自我改進是否可行的討論通常僅限於對快速起飛場景的分析。快速起飛場景通常描述的是從現有人工智能能力到通用人工智能(AGI)再到自主智能系統(ASI)的飛躍,這種飛躍既可以由單個智能人工智能系統實現,也可以由一群完全自主的智能體為了實現單一目標而快速完成。

我非常欣賞Daniel Kokotajlo、Scott Alexander、Thomas Larsen、Eli Lifland和Romeo Dean在《AI 2027》報告中提出的遞歸式自我改進和快速起飛的方案。事實上,他們的大部分論述和最終結論都完全依賴於遞歸式自我改進,以此作為將人工智能能力擴展到我們最狂野想象之外的途徑。

“Agent-1 針對人工智能研發任務進行了優化,旨在引發人工智能的爆發式增長。OpenBrain 在 Agent-2 上加倍投入這一戰略。它在研究工程(設計和實施實驗)方面幾乎與頂尖人類專家一樣出色,在“研究品味”(決定下一步研究方向、運行哪些實驗或對潛在的新範式有所預感)方面也與 OpenBrain 排名前 25% 的科學家不相上下。雖然最新的 Agent-1 可以將 OpenBrain 的算法進步速度提高一倍,但 Agent-2 現在可以將其提高三倍,並且隨著時間的推移還會進一步提升。實際上,這意味著每一位 OpenBrain 研究人員都將成為人工智能“團隊”的“管理者”。

這有可能嗎?或者說,這是否即將發生?如果即將發生,又會是什麼時候? 為了解答這個問題,METR 招募了18 位人工智能預測領域的專家和超級預測師,試圖預測在人工智能達到與頂尖人類研究人員同等水平的情況下,人工智能性能提升 3 倍的可能性,以及由此帶來的變革性影響(無論好壞)。更具體地說,他們想要確定,如果“在 2029 年之前的某個兩年期間,2018 年至 2024 年間一年才能取得的進步,現在每 4 個月就能取得一次”,將會產生怎樣的結果。

這是一個具有挑戰性的思想實驗,但超級預測家和專家們能夠保持客觀,並且通常對這些事件表現出相互矛盾的看法,這表明即使是最瞭解情況的人也無法完全確定在不久的將來會發生什麼。

我瞭解到,構建通用人工智能(AGI)——或者說,構建性能最佳的模型,例如 Opus 4.5 或 GPT 5.2 的繼任者——的競爭格局尚未明朗。我的意思並非所有實驗室都有可能發佈最先進的模型,而是說我們正處於模型開發的過渡時期,而擴展方法對於像你我這樣的局外人來說,變得越來越難以理解。

這一點在兩篇文章中體現得最為明顯:

Toby Ord關於強化學習擴展的文章以及Epoch AI關於強化學習環境的常見問題解答。強化學習並非唯一的現代擴展技術,但不可否認,它是討論最多的技術,其帶來的益處也仍在不斷顯現。

在預訓練規模化失敗後,向強化學習的轉變使得大型實驗室能夠繼續發佈性能更佳的模型,這些模型推理時間更長,執行更復雜的任務,並且總體上有所改進,即使模型之間的能力飛躍變得越來越小。

然而,這一點很重要,強化學習本身並不是提高模型性能的唯一驅動力,而且它的效用不僅有些值得懷疑,而且可以說不如推理擴展等更高效的過程。

正如 Toby 所強調的,RL 擴展自 GPT o1 發佈以來就已適用,OpenAI 當時展示了一張訓練時間與測試時間計算量的圖表,展示了擴展這些計算量對模型性能的影響。

GPT o1 能夠通過每次迭代不斷改進自身,但右側圖表中訓練時計算(RL 擴展)的斜率只有測試時計算(推理擴展)的一半,這表明這些擴展方法的效率存在明顯差異。

“右側圖表顯示,將推理計算能力擴大 100 倍足以使 AIME 基準測試的性能從大約 20% 提升到 80%。這對於推理能力的擴展來說相當典型,許多不同的模型和基準測試在推理能力擴大 100 倍後,性能都會從 20% 提升到 80%。”

鑑於強化學習縮放的斜率只有推理縮放的一半,Toby 推斷,要達到相同的改進,需要兩倍的 OOM(內存溢出)次數;或者更簡單地說,強化學習縮放本身並不能解決問題。

相关赛道:
來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論