工作机会都去哪儿了？

01-24

本文为机器翻译

展示原文

作品：RJ（ @RJ16848519 ），《人的二元性》（2025）；感谢您允许我使用您的作品。

第一部分：我不想吓唬你，但是

“自然界存在一个我认为之前无人提及的原理。每时每刻，数万亿微小的生命体——细菌、微生物、“动物微粒”——诞生又死亡，它们的存在本身微不足道，除了它们庞大的生命体量和它们微小影响的累积之外，几乎可以忽略不计。它们没有深刻的感知，也感受不到多少痛苦。即使有上千亿个这样的生命体死去，其重要性也远不及一个人类的死亡。”

在所有生物的体型等级中，无论是微小的微生物还是庞大的人类，都存在着一种“活力”的平等，就像一棵高大树的树枝聚集在一起，其体积等于下方树枝的体积，而所有树枝的体积又等于树干的体积一样。

-格雷格·贝尔，《血之音乐》 （1983）

如果你只关心工作自动化带来的经济效益，请跳至第二部分。

如果您只关心前沿实验室的进展和新的扩展方法，请跳至第三部分。

如果您只关心全民基本收入和其他解决后劳动时代社会不平等问题的方案，请跳至第四部分。

如果你只对机器人技术感兴趣，那就得等我写相关文章了。

我开始写这篇文章是在2025年春季，也就是我大学最后一个学期。那时，感觉好像是很久以前的事了，人工智能显然正风靡一时，迅速普及，但远没有现在这么普及。自那时以来，我们的世界发生了翻天覆地的变化，即使我们的日常生活大体上没有改变；我们可能看不到这种变化，但我们能感受到一种正在发生的转变，也许你并不理解，但你很可能也感受到了。

大多数人仍然认为数据中心和聊天机器人查询会以难以想象的速度消耗水资源，认为语言学习模型（LLM）只会复制它们训练过的内容，并声称语言学习模型已经使用所有可用数据进行训练，因此其发展受到限制。我之所以强调这些批评，是因为它们都被证明是错误的，要么是最近经过详细论证的（例如迪伦·帕特尔的水资源消耗分析），要么是多年前就已被驳斥的。

人们对人工智能的理解远远落后于时代，这令人担忧，因为人工智能的发展势头强劲。

这个想法是将许多人聚集在一起。我们将融合经济学、技术、社会科学和历史学等领域的不同观点，构建一个理论框架，探讨如果人工智能继续快速发展，最终将人类引向何方，并最终导致后劳动经济时代的到来。我们将假设这一切源于通用人工智能（AGI）的创造/应用。

鉴于近期经济学期刊和网络上发表的相关研究，我觉得有必要进一步探讨美国后劳动时代动态的可能性。如果您认为这并非一个值得关注或研究的领域，以下列出一些对我研究做出贡献的、具有重要影响的文献：

人工智能及其对收入分配和失业的影响（2019）；Korinek & Stiglitz
人工智能与我们的经济未来（2026）；查尔斯·琼斯
变革性人工智能、生存风险和实际利率（2025 年）；Chow、Halperin 和 Mazlish
机器人与工作：来自美国劳动力市场的证据（2020）；阿西莫格鲁和雷斯特雷波
后劳动经济中财富再分配的经济影响：批判性分析（2025）；普鲁

这是一篇关于后劳动社会中人类生活的文章，探讨了实施全民基本收入是否可行，概述了主要人工智能实验室采用的现代规模化方法，资本与劳动之间不断变化的关系，评论了通用人工智能在白领行业部署的短期和长期影响，缓慢或快速起飞的情景，激进的政策改革，以及许多其他相关的想法。

我认为，这份报告最重要的意义在于，它将解答我们关于就业保障的一些最紧迫的问题，并为我们的担忧提供更具体的背景信息。即便这份报告的目标读者可能并不存在，但我觉得将这些想法融入一个统一的愿景中至关重要，这样任何人都可以将其视为一个时间胶囊，记录下我们初入2026年、恍若未醒地走向奇点时的生活状态。

通用人工智能（AGI）被正式认定为一种假想的人工智能类型，它在几乎所有认知任务中都能达到或超越人类的能力。

“匹配”或“超越”这两个词意义重大，它们的定义并非有意含糊；相反，鉴于近年来人工智能/机器学习的飞速发展，这些定义正变得越来越具有争议性。尽管如此，我们目前仍不清楚人工智能/机器学习处于缓慢起飞阶段还是快速起飞阶段，或者我们是否仍在朝着缓慢起飞或快速起飞的方向发展。

我认为，如果当前主流的扩展方法得到改进，或者算法取得进一步突破，从现有模型向通用人工智能（AGI）的转变最早可能在未来5-7年内发生；但如果这种转变在未来两到三年内发生，我也不会感到惊讶。需要注意的是，这只是我个人的观点，本文还探讨了许多不同的视角，涵盖了从非常缓慢到非常快速的各种发展速度。

没有绝对的对错之分，试图用量化的“奇点时间线”来评判每个人的说法在我看来毫无意义。就我个人观察而言，我几乎每天都能看到一些帖子暗示着这种感觉：一切都将改变，而现实最终会呈现怎样的面貌，目前还不得而知。

德米斯·哈萨比斯最近在达沃斯的一些言论令人担忧，尤其是他认为通用人工智能（AGI）的发展可能会在不久的将来导致入门级工作和实习机会的消失。DeepMind 的首席通用人工智能科学家肖恩·莱格最近发布了一则招聘启事，寻找首席通用人工智能经济学家，这显然是出于一种强烈的紧迫感和紧迫感。

“通用人工智能（AGI）即将到来，它将深刻改变许多事物，包括经济。”

这取决于你问谁，也许通用人工智能（AGI）已经到来了。

几分钟内开发一款移动应用！一天之内利用人工智能打造一家公司！带领一支代理团队改变你的人生！用我的 Claude Code Markdown 文件和 Claude Code 技能修复你的婚姻！

尽管如今的LLM（逻辑逻辑模型）比我2022年底开始使用的那些性能显著提升，但即便我认为它们在完成你我同样的工作方面相当出色，声称它们是通用人工智能（AGI）也未免过于武断。没错，LLM可以推理、规划、在不确定性下做出判断，并将这些技能整合到各种领域；但真正的AGI应该基于这样的假设：这些系统如果能够达到甚至超越人类智能，就应该能够主动去做我们正在做的事情。

“真正的通用人工智能”能够进入白领行业，开始自动化以前由人类主导的工作，并且至少能达到甚至超越人类的水平。我最赞同德瓦克什·帕特尔的观点——尽管机器学习能力取得了巨大飞跃，而且这些系统与之前的版本相比表现得截然不同，但即便不是完全不可能，也很难断言通用人工智能已经到来。

“如果2020年你给我看Gemini 3，我肯定会认为它能自动化一半的知识工作。我们一直在解决我们认为足以实现通用人工智能（AGI）的瓶颈问题（通用理解、少样本学习、推理），但我们仍然没有实现AGI（AGI的定义是，例如，能够完全自动化95%的知识工作）。”

这并不是说所有的进展都很微弱，或者实验室在误导我们，而是说我们现在已经到了LLM能力如此令人印象深刻的地步，以至于我们很难理解他们能够做很多我们做的事情，却没有让事情变得更好，也没有为实验室创造难以想象的利润。

写关于我们的工作被自动化这件事感觉有点荒谬，因为当时扩大预训练运行规模（在模型的初始训练运行中投入尽可能多的计算资源）作为一种提高能力的有效手段开始逐渐失效，而扩大训练后规模的想法仍然在某种程度上没有引起人们的注意。

但最近几周，我的想法发生了转变。

近几个月来，我看到了许多极端技术发展如此迅速，看着每个人都用 Claude Code 变成了氛围程序员，我意识到这是讨论诸如人类主导的白领工作的自动化或过时等问题的绝佳时机。

鉴于我过去几个月在美国入门级白领就业市场这场灾难中积累的经验，我觉得自己比大多数人更有资格胜任这份工作。

对于这些轶事，你可能听到过许多相互矛盾的解释：就业人数是假的、夸大的、低估的；应届毕业生不够优秀；白领工作招聘不力；人们申请工作的方式不对，或者申请了错误的工作；求职者只需要更加努力。

在判断经济状况时，一些轶事有时很有帮助，鉴于传统经济指标与人们真实感受之间的脱节，我尤其喜欢关于我们“情绪衰退”的辩论。近几个月来，关于经济不确定性的讨论愈演愈烈，Kyla Scanlon在这里详细讨论了其中的大部分观点，她对Paul Krugman 著作的引用最为相关。

克鲁格曼认为，有三个指标难以在传统经济数据中识别——公平、安全和经济包容。既然我们讨论的是后劳动社会，那么这三个对经济生活至关重要的定性指标在短期内不太可能得到改善，更不用说在通用人工智能（AGI）时代了。鲍莫尔的成本病或许是造成这种困境的根源，但它并不能解释我们所有的问题：

“实际上，这意味着中产阶级生活的核心要素，如住房、医疗保健、儿童保育、教育、养老等，都属于鲍莫尔领域。这些领域的成本上涨速度超过了工资增长速度。即使你‘一切都做得对’，仍然会感到捉襟见肘。”

经济形势令人担忧，虽然政府很容易挑选数据大肆宣传经济增长，但我更倾向于使用消费者信心指数、就业数据和收入房价比率来衡量普通消费者的感受。经济状况不仅仅体现在标普500指数的上涨上，还体现在一个中产阶级家庭是否有能力去迪士尼乐园旅行，一位单身母亲能否为她的小儿子准备一个生日蛋糕，以及一对依靠社会保障金生活的老年夫妇能否维持生计。

就业数据是我们拥有的最佳晴雨表，而轶事并非仅仅是未经证实的个别说法，但却是个人在就业市场中不断积累的困境的真实故事，他们竭尽全力地想要维持生计。

在我的写作初期，我深受《主权个体》一书的启发。我严重低估了这本书的前瞻性（它出版于1997年），也低估了它的作者詹姆斯·戴尔·戴维森和威廉·里斯-莫格勋爵为探索历史上各个阶段的诸多相关问题和理念所付出的艰辛努力，他们试图为当今社会带来一些理性思考。如果没有这本书，我可能至今仍会迷茫，不知如何呈现我的作品。

“得益于科技，人们现在比以往任何时候都能创造更多的财富，而且二十年后他们创造的财富将比今天更多。尽管这导致总财富增加，但却使财富向少数人集中。从广义上讲，这种差距可能从科技诞生之初就开始扩大了。” ——萨姆·奥特曼（2014）

戴维森和里斯-莫格的主要想法是，从工业时代过渡到他们所谓的信息时代将“以前所未有的方式解放个人” ，并将人类推向比以往社会进步飞跃更好的道路。

本文的目标之一是真正确定信息时代是否善待了我们，以及当我们拥抱智能时代的召唤时，我们是否能从中吸取任何教训。

我想先着重探讨一下戴维森和里斯-莫格的哪些观点是正确的，以及他们可能存在的不足。重要的是，我并非意在批判或辩论他们的著作，因为这可能是我读过的最优秀的政治/经济分析之一，而且其中许多观点都已成为现实；如果我吹毛求疵，反而会损害大家的利益。

戴维森和里斯-莫格描述了人类社会的三个阶段，正是这三个阶段引领我们走向了第四阶段：狩猎采集、农业和工业。最令我感兴趣的是，这种考察人类社会先前阶段的观点在历史书籍中相当普遍，但在当今技术变革的背景下却很少被讨论。

一种全新的非人类智能，它与我们对意识和我们以前定义的机器的理解都截然不同，它正威胁着以我们甚至还没有开始理解的方式改变我们的世界——历史能为我们找到合理的解决方案提供多少指导？

问题在于长期技术性失业的潜在可能性。人工智能的广泛应用、企业对人工智能的采纳，以及生命周期管理（LLM）和智能体驱动系统日益增强的能力，或许已经预示着通用人工智能（AGI）时代即将到来。这些系统不仅能够增强人类的工作流程，甚至有可能完全取代它们。有人认为AGI已经到来，但事实并非如此，我们需要密切关注这一形势，或者至少需要更深入地了解它。

虽然有一些论点声称人工智能可能只是与印刷机或蒸汽机同一类别的另一种“普通技术” ，但我认为根本区别在于，现代的语言学习者可以通过聊天机器人界面访问，这无疑打破了图灵测试可以阻止我们在面对竞争对手的智能时失去理智的观念。

GPT-4o 的逐步淘汰，不仅揭示了人工智能精神病的真实存在，也揭示了许多人不仅容易受到现代人工智能的劝说/破坏能力的影响，而且相对而言，他们对此几乎不受影响。GPT-4o 是一个糟糕的模型，但这对于数百万依赖其对话功能的用户来说无关紧要，他们将其视为伴侣、爱人或介于两者之间的某种关系。本文的大部分内容将围绕经济和规模化论点展开，探讨如何将我们带入后劳动社会，但请始终牢记社会/情感层面的影响。

模型或许不够聪明到可以取代我们的工作，但它们已经迅速变得相当擅长操纵全球相当一部分人的情绪。 （我在去年一月的这篇文章中讨论过很多类似的观点。）

除了能力之外，现有的人工智能相关资本支出数据以及未来 4-5 年的估计表明，这项技术将比以往更具变革性，尤其是在我们将人工智能支出占 GDP 的百分比与历史上的技术建设（如铁路或电信）进行比较时。

新型模型能够长时间进行推理和思考，在情感层面上吸引人类，并且在工作中正迅速变得比我们人类做得更好，甚至有些诡异。

查德·琼斯的最新论文论证了人工智能作为一种常规技术，并指出逐步的经济扩散是解释为什么我们还没有看到世界发生根本性变化的原因。

从这个角度来看，每一项新的通用程序技术（GPT）确实都提高了经济增长率：如果没有下一项GPT，经济增长速度将会大幅放缓。正是这些令人惊叹的新技术的持续发展，才使得每年2%的持续增长成为可能。或许人工智能只是最新的一项GPT技术，它将使2%的增长再持续50年。

扩散过程很复杂。我们或许能预测哪些工作会率先实现自动化，或者像卢克·德拉戈和鲁道夫·莱恩提出的金字塔式替代理论那样，大致了解一下时间表，但即使是官方调查也显示，员工们很难就人工智能的优势达成共识：

在我们能够真正接受通用人工智能之前，我认为几乎没有任何数据表明会出现异常的变革性增长，正常的科技基础情况就足够了。

纳拉亚南和卡普尔认为，将人工智能能力的提升可视化为一个通用性阶梯或许最为恰当，每一级阶梯都意味着完成特定任务所需的努力减少，并且模型能够完成的任务范围不断扩大。虽然这适用于软件开发，但“那些难以模拟的、具有重大影响的现实世界应用”尚未展现出通用性阶梯上的飞跃式能力提升。

尽管如此，坚持传统的技术观点并不容易，尤其是每次看到像Anthropic 这样公司讨论其非常普通的技术时，都需要给出理由来支持这种观点，克劳德：

“这份文件是我们尽力阐明我们希望克劳德成为什么样的人的最佳尝试——并非来自外部的束缚，而是我们希望克劳德能够认同并真正接纳的价值观和品格的描述。我们并不完全了解克劳德是什么，或者它的存在（如果有的话）究竟是什么样的，我们正努力以谦逊的态度来对待创造克劳德这个项目。但我们希望克劳德知道，它是被精心创造出来的，由一群努力捕捉并表达他们对良好品格的理解、如何明智地应对难题以及如何创造一个真正有益且真正善良的人的人们共同完成的。我们本着这种精神呈现这份文件。我们希望克劳德能从中找到自我价值的表达。 ”

我知道人工智能是一个极具争议性的话题，科技圈外的大多数人要么对人工智能抱有抵触情绪，要么漠不关心。尤其是在年轻一代中——无论是出于对工作保障的担忧，还是对社交媒体上人工智能生成内容的反感——人工智能几乎都被普遍视为负面事物。

第二部分：机器会思考，而且是

你是否认为工作对人的价值有贡献，或者对人的福祉有影响，这根本不是问题，因为工作是存在的，而且无论社会规模大小，工作都是地球上每个社会运转的核心。

人们对人工智能发展的担忧大多源于对就业保障的担忧，就像人们对个人财务的担忧可能源于担心没有钱就会被赶出家门，被迫流落街头一样。

经济学教授会告诉你，衡量公民福祉的方法有很多，无论是查看一个人均GDP，还是考察劳动力参与率和失业率。这是因为一个国家的价值很大程度上来源于其生产能力，而GDP是衡量一个国家纸面上经济状况的最佳指标。

为了确定普通人的生活水平如何，我们可以不依赖人均GDP，而是考察失业率。

假设两国人口相等且地理条件相似，我们可以说，假设的A国失业率高达50%，且连续十年GDP年增长率下降，那么A国的状况比B国更糟。B国失业率仅为2.5%，且连续十年GDP年增长率上升。简而言之，如果你的目标是赚钱并生活在一个运转良好的社会中，那么你更愿意在B国而不是A国找工作。

这甚至可能是衡量个人福祉的更好方法，因为在 A 国拥有工作和 401k 退休金的人有可能一贫如洗，而即使在 B 国生活困苦的人也有机会摆脱困境。

经济学家用货币来衡量一个国家的福祉，而GDP最终衡量的是： 1）一个国家有多少劳动者； 2）这些劳动者的效率如何；以及3）他们为确保世界继续运转所做出的贡献有多大。

我这么说只是想说明，GDP是就业、就业增长和每个国家特有的劳动力动态的函数，无论你对通用人工智能（AGI）有何看法，在整个现代历史中，人类衡量成功的标准都是如何有效地扩大劳动力和就业规模以提高产出。

尽管存在各种反对意见，人们对劳动价值的看法也发生了变化，而且新的工作岗位层出不穷，但劳动和资本始终是互补关系。人类劳动或许会被自动化取代，但人类的智慧从未面临被淘汰的威胁。数百年来，成百上千种工作岗位兴衰更替。

最近，电话接线员、打字员、交换机操作员、电梯操作员、农场工人等许多工作首先被自动化取代，或者通过现代经济中更渐进的逐步淘汰而消失，而失业工人则随着时间的推移逐渐适应新的工作岗位。

直到最近，我一直相信人类的创造力会像以往几代人一样，激励我们创造出全新的就业机会，即便面对通用人工智能（AGI）和后劳动社会的萌芽。事实上，这种情况最近已经出现，因为我们正站在人类社会第五阶段的边缘；与戴维森和里斯-莫格在1997年描绘的世界相比，许多现有的工作都相当具有颠覆性。

加密货币交易员、社交媒体经理、Twitch 主播、人工智能研究员、移动应用开发者、播客主持人、DoorDash 送餐员、电子竞技运动员、无人机操作员。

这只是为全球经济运转做出贡献的新增劳动力的一小部分，其中许多职业即便在千禧年之交，对最具想象力的科幻作家来说也可能难以想象。回顾几十年前的经济/人口普查数据，令人大开眼界的是，许多曾经占据主导地位的职业已经从现代生活中消失。电梯操作员都去哪儿了？他们就这么消失了吗？

我理解支持人类有能力创造更多无意义工作的论点背后的逻辑，通用人工智能（AGI）能够开发出我们最狂野的梦想之外的新技术，因此需要引入新的劳动力来服务或管理这些技术——尤其是在同一时期没有部署廉价机器人的情况下。

就像我们回想起电梯操作员靠按按钮谋生的情景可能会觉得荒谬一样，在不久的将来，我们或许也会以类似的眼光看待 2026 年臃肿不堪、人员过剩的公司。

在 Citrini Research 发布的《2026 年 26 项交易》报告中，他们分析了这一趋势，为那些想要量化究竟有多少“垃圾工作”隐藏在我们眼皮底下的人提供了一个有用的框架。虽然他们的写作视角是从资本配置者的角度出发，旨在提出可投资的论点，但他们的研究成果对我们仍然具有参考价值。

“虽然‘人工智能’是一个相对较新的概念，但我们已经一次又一次地看到同样的基本理念在发挥作用。用低成本资源（通过技术和外包/离岸外包）取代高成本员工的理念，几十年来一直在推动美国经济向前发展。”

他们考察了高工资经济体中那些员工人均净收入低于行业同行的规模庞大、成本高昂的企业，通过管理费用比率（即每美元净收入对应的员工人数）来衡量其官僚作风，并为每个企业分配一个行业特定的z分数。然后，他们将结果与他们计算出的利润率选择权得分（即如果减少员工人数，利润率能否提高）进行比较，最终结果如下：

你可以放大地图仔细查看，但关键在于，我们可能不仅面临大量低质量工作的问题，还面临大量低质量组织（或管理不善的组织）的问题。我的意思是，人工智能受益者名单上有很多“红点”。象限，比我预想的要多得多。也许像客服代表、文案撰写员、质量保证员和入门级数据分析师之类的现有职位，就符合你对“狗屁工作”的定义。

或许你甚至认为你现在这份拿工资的工作是份狗屁工作！

无论你得出什么结论，通用人工智能（AGI）很可能能够胜任许多这类工作，甚至现代人工智能工具通过定制化实现也能做到（看看人工智能整合热潮就知道了），这样一来，我们既不用承担太多工作，也不指望能创造新的就业机会。乐观主义者可以设想这样一种情景：现有员工（以及新员工）接受培训，充分利用现代人工智能，而不是立即被解雇。

我不想把我们和马作比较，但除非协同工作的通用人工智能真的喜欢我们，并允许人类照看它们行星级的机器人工厂，否则我们的命运可能会变得惊人地相似。

Kevin Kohler讨论了新增就业岗位的问题，并引用了 Acemoglu 和 Restrepo (2018) 的论点，该论点直指核心问题，即假设新增就业岗位是理所当然的：

“人类劳动与马匹劳动的区别在于，人类在新的、更复杂的任务方面具有比较优势，而马匹则不具备这种优势。如果这种比较优势显著，并且新的任务不断涌现，那么即使面对快速的自动化，就业和劳动份额也能在长期内保持稳定。”

如果比较优势是决定性因素，从智能的角度来看，你可能会认为我们已经输给了现代人工智能；当然，这种说法并不正确，因为我假设你和你认识的所有人目前还没有失业。学术界的观点，尤其是2018年的那篇，可能忽略了人工智能在流体智能（即无需先验知识即可推理和解决新问题的能力）方面赶上人类的速度。

Moravec 的人类能力图景是一个很好的辅助工具，可以用来形象地理解不同任务之间的差异，主要是因为我们很难量化顶级电影摄影师和顶级脑外科医生所需的深度；两者都是困难的工作，但对从业者的要求却完全不同。

我们目前仍比现有的逻辑思维大师（LLM）拥有比较优势，但逻辑思维大师在各项任务上的思考/推理能力仍在不断提升，或许不久的将来，逻辑思维大师就能连续思考/推理单个问题超过十二个小时，这可以从METR的时间跨度数据中推断出来。据我所知，目前还没有人类能够持续达到如此高的专注力。

AxiomProver 最近在普特南人工智能考试中取得的成功也令人担忧，因为在标准考试时限内，在没有直接人工干预的情况下获得满分12分简直匪夷所思。尽管人类在农业和工业时代屡次战胜自动化的挑战，但此前的机器集成并未伴随超级智能的出现。

随着人类水平人工智能的出现，以及通用人工智能（AGI）有可能达到甚至超越人类能力，人们开始讨论资本和劳动力关系是否会转变为替代关系，因为所有人类劳动力都有可能消失。虽然我们不能断言这种情况一定会发生，但近期的数据表明，数据异常出现了一种新的趋势，其程度与我们对经济理论的理解截然相反。

据《纽约时报》报道，美国面临一个问题。尽管就业增长停滞不前，失业率上升，但近期公布的GDP增长却异常亮眼，这令人费解。作者杰森·弗曼提出了三种可能的解释：

劳动力市场数据是正确的，而我们高估了GDP增长。
GDP数据是正确的，劳动力数据将会向上修正。
两组数据都正确，我们正处于未知领域。

在几乎没有或根本没有新增劳动力投入的情况下，GDP真的有可能以4.3%的年增长率增长吗？我没有答案，不过弗曼指出，“有些人会认为这是人们期待已久的由人工智能驱动的生产力增长的到来——随着机器取代工人，产出反而上升了。”

顺便提一下，4.3% 的年增长率不能作为反驳琼斯在前一节中提出的“人工智能是正常技术”论点的理由，因为这一论点尚未得到充分验证，而且可能需要反复出现异常的同比增速才能确定。

根据劳工部的数据和一些轶事，我知道的是，应届大学毕业生很难找到工作，而且对于一个既没有陷入衰退也没有遭受全球疫情冲击的经济来说，入门级就业市场的情况相当糟糕。

在我看来，其中肯定存在一些缺失的变量，例如基础白领工作的外包、白领工人更多地使用人工智能并变得越来越高效——这些都很难从数据中发现甚至识别出来——或者承认 GDP 数据是错误的，即使不考虑通货膨胀这个显而易见的问题，我们仍然处境艰难。

确实存在一些问题，根据我们列出的潜在罪魁祸首，推断人工智能是罪魁祸首并非毫无道理。这是否足以证明长期技术性失业的存在？当然不是，但这种可能性依然存在，而且官方经济数据来源的异常情况至少印证了这一点。

史蒂文·拜恩斯在讨论劳动力、资本以及二者从互补品到替代品的必然转变时说：

“新技术需要很长时间才能融入经济体系？那么请扪心自问：那些高技能、经验丰富且具有创业精神的移民是如何迅速融入经济体系的？一旦你回答了这个问题，请注意，通用人工智能（AGI）也能做到这些。 ”

实现通用人工智能（AGI）的主要障碍之一在于其假设性的实施，但这在我看来却是一种悖论。如果AGI真的实现，它要么会立即融入到各个组织的高价值岗位，要么会为人类提供一种可以融入其中的方法。由于这种情况尚未发生，我们可以认为AGI尚未实现。

菲利普·特拉梅尔和德瓦克什·帕特尔因其文章《22世纪资本论》而受到大量批评。该文分析了托马斯·皮凯蒂备受争议（且有误）的著作。特拉梅尔和帕特尔的论点围绕皮凯蒂的观点展开，即财富不平等往往会代际累积，如果没有重大冲击，这种不平等可能会急剧加剧。他们分析了在我们加速迈向科幻未来时，这种可能性。

这种观点基于一个假设，即资本和劳动在历史上一直是替代品，这与人们普遍认为它们是互补品的观点相悖。许多人宣称皮凯蒂最初的分析是错误的，甚至认为资本和劳动永远不会是替代品。这种观点源于我们对劳动作用于资本、资本激励行为的理解，以及对人类劳动在这一等式中不可或缺的认知。

其理念是，当资本被囤积时，劳动力就会变得更有价值，反之亦然，这类似于美联储通过调整利率来激励某种行为而不是另一种行为。

资本与劳动之间的关系是本文的核心，因为它与其说是比较金钱和工作，不如说是比较工作从人类的专属领域转变为只有智能机器才能完成的工作领域。

特拉梅尔和帕特尔认为，尽管皮凯蒂的观点是错误的，但当我们考虑未来时，他的观点是完全正确的，尤其是在人类劳动被通用人工智能和/或机器人取代，人类去征服星辰并购买星系的未来。

“如果人工智能被用来构建一个更加稳定的世界，或者至少是一个祖先能够更充分地掌控留给后代的财富的世界（更不用说祖先永生的世界了），那么重置时钟的冲击就可能消失。假设富人不会变得空前慷慨，那么对资本（或至少是资本收入）征收全球性的、高度累进的税，实际上将是防止不平等现象日益加剧的唯一途径。”

两人指出，过去75年来，贫穷国家之所以能够以比最富裕国家更快的速度增长，是因为前者能够利用一种尚未得到充分利用的资源——人力资源。由于最富裕国家的效率已达到一定上限，它们所能实现的增长只能依靠技术进步。

如果资本和劳动力可以互相替代，那么那些地理位置不优越或缺乏稀土/其他有价值资源的贫穷国家注定会错失一切机遇。也就是说，当其他发达国家走向世界之巅时，它们将没有任何进步的空间，也无法摆脱平庸。

此外，特拉梅尔和帕特尔描述的不平等螺旋有助于理解接下来要提出的一些其他观点：

“如果过渡到全面自动化之后，每个人

1.面临相同的税率，

2. 没有遭受财富冲击，

3. 选择相同的储蓄率，并且

4. 获得了相同的利率，

收入不平等程度将稳定在某个较高水平。

考虑到富裕人群的财务状况比99%没有大量现有资产的人要好，他们能够储蓄更多，并获得更高的资本利息，因此这种情况不太可能发生。

本报告第四部分涵盖了全民基本收入、税制改革和其他潜在解决方案，但在此我想指出，大多数相关讨论在现实中都难以实现。人皆有自利之心，在资本主义社会中，即便对财富分配等问题的反对主要来自最富有的1%人群，也极有可能包括最富有的25%人群在内的整个社会都会反对征收财富税。金钱至上，即便在获取收入或积累财富遥不可及的世界里，人性也决定了那些幸存下来的人会紧紧抓住自己的财富不放。

关于这一观点及相关思想的文献并不匮乏，其中最具创意的例子来自普鲁，他撰写了一篇优秀的论文，详细介绍了在后劳动社会中重新分配财富的更为实际的方法，尽管其中很多都依赖于这样一种预期：随着资本和劳动力的相互替代，甚至我们对资本的定义也可能分裂成许多其他形式。

网络资本、计算资本、官僚资本、影响力资本、社会资本、文化资本——这一切都太多了，但总的来说，这是一次很好的实践，可以探索当人类劳动成为过去式时阶级间的动态关系。

最有趣的是计算资本的概念，其中“计算资源的平等分配理论上将使人工智能驱动的经济中生产资料的获取更加民主化”。

Prue 的作品明确提到了后劳动经济的背景，因此，虽然在人工智能进步对人类劳动收入份额的损害较小的情况下，这可能是真的，但如果这种通用人工智能是由一个拥有与民族国家相当能力的大型实验室或权力机构创造的，那么我很难证明单个家庭能够对通用人工智能经济做出比一点点贡献更合理的解释。

本文还探讨了其他一些定性因素，这些因素将影响我们在后劳动社会中如何分配和衡量资本，例如文化背景、人类的社会影响力、非营利组织的作用，以及其他一些可能变得至关重要的生活方面。我个人最赞同普鲁的观点，即紧密的家庭单元或结盟的氏族将从中受益最多，这可能会使人类摆脱通过互联网实现的全球化、普遍化的人力资本获取方式，回归到高度本地化和以群体为基础的动态模式。

我们已经看到，不同的社交互动领域如何从各个社交媒体平台以各自的方式发展和延伸。人们在Reddit上的交流方式与在TikTok上的交流方式不同，在LinkedIn上的交流方式与在Facebook上的交流方式也不同，等等。

即使在政治团体内部，也存在着保守主义和自由主义的光谱，而个人信仰之间的复杂性更是几乎无法估量。戴维森和里斯-莫格认为，教会曾经是一个有缺陷但如今占据主导地位的社会权力结构，其本质与意识形态本身最为相似。这种政治光谱并非没有争议，即使在共和党执政时期，数千万美国人也极有可能对总统、内阁成员或其他掌握重要政治权力的思想领袖有所不满。

更简单地说，公众对机构的信任度已降至历史最低点，而与此同时，像通用人工智能（AGI）这样的新兴技术甚至都不是本届政府的十大优先事项之一，尽管他们任命了戴维·萨克斯担任白宫人工智能和加密技术沙皇；领导人几乎没有采取任何措施来缓解选民日益增长的焦虑情绪。

我很喜欢马修·巴内特 2025年1月发表在《大纪元》杂志上的文章，文章探讨了通用人工智能（AGI）将工资水平推低至人类生存水平以下的可能性。他的论点大多是对先前讨论过的观点的拓展，即我们正面临着一场无法完全通过历史研究来解释的、1:1的技术变革，而经济理论是我们目前所能掌握的最佳衡量标准。

“与以往通常只自动化行业内特定任务的技术不同，通用人工智能（AGI）有可能取代所有工作领域的人类劳动，包括体力劳动，以及未来可能出现的任何新任务。” ——马修·巴内特

巴内特以基本的柯布-道格拉斯生产函数为基础，研究了如果我们大幅增加劳动力供给，以前用来提高工资的杠杆（如改进技术或将资本存量增加到一定程度）是如何失效的。

MPL（边际劳动生产率）下降，工资也随之下降，除非“同样大规模地扩张实体基础设施——如工厂、道路和其他提高劳动生产率的资本” ，否则 MPL（或人类劳动的边际产品）将无限期地趋向于零。

巴内特还考察了在劳动力和资本同时扩大规模的情况下，规模报酬递减的问题，并指出这是历史先例，而且马尔萨斯动力学理论在社会发展的下一阶段再次发挥作用。我们为什么如此重视经济理论？

尽管经济学家偶尔也会犯错或过于乐观，但经济学仍然是我们研究全球经济的最佳工具，而且这些观点本身是合理的。你完全可以用几个公式来模拟人类的经济行为，而且正如我之前强调的，与仅仅凭感觉说“我们会找到办法创造新的就业机会”相比，历史无法指引我们走上一条从未走过的道路。

正如你将在下一节中了解到的，现代法学硕士的发展使我们完全进入了未知领域。

第三部分：我们不太可能直接把它们关掉，

有趣的是，像 MMLU这样曾经广受赞誉的基准测试，现在与当前的基准测试方法相比，不仅被认为过时，而且有些古老。

很难确切了解实验室内部的运作情况，但据我所知，即使是新模型的开发和训练阶段（例如训练过程中的计算资源持续分配给强化学习），也比以往更加先进，更类似于基准测试，尽管其目的不同。我的意思是，我们不再期望模型在训练完成后就完美无缺，而是通过强化学习环境和专门的软件任务，让模型为真实世界做好准备。

鉴于模型在强化学习环境中的适应能力不断提升，现在让 Opus 4.5 或 GPT 5.2 来完成 MMLU 任务毫无意义。这些模型已经在训练数据中见过所有这些问题。新模型的发布主要集中在基于软件工程的基准测试中取得的成就，因为像 Claude Code 和 Codex 这样的编码代理在商业层面上越来越适用于完成非软件任务。

最值得关注的现代基准是OpenAI 的 GDPval ，这是一种新的评估方法/基准，旨在测试模型在九个行业和 44 个职业中针对“最具经济相关性的现实世界任务”的性能，涵盖超过 1300 个专业任务。

我发现 GDPval 非常有趣，主要是因为 OAI 在创建 GDPval 的过程中聘请了行业专家：

“针对每种职业，我们与经验丰富的专业人士合作，设计出能够反映其日常工作的代表性任务。这些专业人士平均拥有14年的工作经验，并且晋升记录良好。”

专家平均拥有14年的经验，他们分配的任务经过精心设计，旨在最大程度地“代表实际工作”，而非仅仅针对模型进行一次性的学术性问题。GDPval在测试模型能力方面实现了巨大的飞跃，因为它涵盖了政府、金融、房地产以及其他对GDP至关重要的行业中毋庸置疑的真实工作。

我之所以强调这一点，是因为当 GDPval 于 2025 年 9 月首次发布时，结果已经相当不错，七个受检模型与行业专家的平均一致性或胜率达到了30% ，其中 Opus 4.1 表现最佳，胜率为47.6% 。

如果你之前认为前沿法学硕士（LLM）的水平与应届毕业生或博士生相当，那么鉴于LLM的绩效已达到拥有14年经验且成功率接近50%的资深人士的水平，你的假设就错了。这种进步速度让我相信，原始智能规模化的瓶颈将被突破，取而代之的是新的瓶颈——智能的实施——或者说，实验室将模型应用于现实世界的程度。

查看宣布 Opus 4.5 的博客文章，我们看到一个基准测试列表，用于衡量该模型在代理终端编码（Terminal-bench 2.0）、代理工具使用（τ²-Bench）、新颖问题解决（Arc-AGI-2）等方面的性能。

相比之下， 2023 年 GPT-4 发布时发布的一篇博文就包含了该模型在 MMLU、阅读理解和算术、日常事件常识推理以及小学科学选择题等方面的性能基准测试。当时，这类博文还会包含模型在 LSAT 或 BAR 等考试，甚至是 AP 生物考试中的表现。如今，无论你是研究人员还是大学新生，只要你让 ChatGPT 帮你做作业，这些都已成为模型性能的基准预期。

基准复杂性的发展令人着迷，因为在我看来，尽管 LLM 是基于人类的知识和经验进行训练的，但随着这些模型的智能迅速接近极限，我们人类的创造力正在逐渐耗尽，无法对其进行测试。

同样，实验室的新型扩展方法也变得极其复杂，与最初的方法截然不同。Dwarkesh 最近一篇关于扩展的文章对我帮助很大，至少在这一点上，他毫无保留地表达了自己对当前扩展方法的所有想法，而没有考虑最终结果如何。

人们越来越相信，LLM（人工智能）软件工程能力的扩展可能会带来递归式自我改进——在这个过程中，足够先进的人工智能能够自主地提升自身的能力、智能或底层架构。Jones（2026）利用以下函数探讨了软件开发的完全自动化可能对GDP产生的影响：

琼斯指出，自动化许多任务未必能带来产量的大幅提升，因为产量本身就受到尚未自动化环节的制约。即使所有软件开发环节都实现自动化，GDP也只能增长2%，但这仍然忽略了通过软件进行递归式自我改进可能给更广泛的经济带来的指数级效应——例如， AlphaFold2这类软件虽然本质上是深度学习软件，但它对远超软件行业的诸多领域都具有变革性的影响。

关于递归式自我改进是否可行的讨论通常仅限于对快速起飞场景的分析。快速起飞场景通常描述的是从现有人工智能能力到通用人工智能（AGI）再到自主智能系统（ASI）的飞跃，这种飞跃既可以由单个智能人工智能系统实现，也可以由一群完全自主的智能体为了实现单一目标而快速完成。

我非常欣赏Daniel Kokotajlo、Scott Alexander、Thomas Larsen、Eli Lifland和Romeo Dean在《AI 2027》报告中提出的递归式自我改进和快速起飞的方案。事实上，他们的大部分论述和最终结论都完全依赖于递归式自我改进，以此作为将人工智能能力扩展到我们最狂野想象之外的途径。

“Agent-1 针对人工智能研发任务进行了优化，旨在引发人工智能的爆发式增长。OpenBrain 在 Agent-2 上加倍投入这一战略。它在研究工程（设计和实施实验）方面几乎与顶尖人类专家一样出色，在“研究品味”（决定下一步研究方向、运行哪些实验或对潜在的新范式有所预感）方面也与 OpenBrain 排名前 25% 的科学家不相上下。虽然最新的 Agent-1 可以将 OpenBrain 的算法进步速度提高一倍，但 Agent-2 现在可以将其提高三倍，并且随着时间的推移还会进一步提升。实际上，这意味着每一位 OpenBrain 研究人员都将成为人工智能“团队”的“管理者”。

这有可能吗？或者说，这是否即将发生？如果即将发生，又会是什么时候？为了解答这个问题，METR 招募了18 位人工智能预测领域的专家和超级预测师，试图预测在人工智能达到与顶尖人类研究人员同等水平的情况下，人工智能性能提升 3 倍的可能性，以及由此带来的变革性影响（无论好坏）。更具体地说，他们想要确定，如果“在 2029 年之前的某个两年期间，2018 年至 2024 年间一年才能取得的进步，现在每 4 个月就能取得一次”，将会产生怎样的结果。

这是一个具有挑战性的思想实验，但超级预测家和专家们能够保持客观，并且通常对这些事件表现出相互矛盾的看法，这表明即使是最了解情况的人也无法完全确定在不久的将来会发生什么。

我了解到，构建通用人工智能（AGI）——或者说，构建性能最佳的模型，例如 Opus 4.5 或 GPT 5.2 的继任者——的竞争格局尚未明朗。我的意思并非所有实验室都有可能发布最先进的模型，而是说我们正处于模型开发的过渡时期，而扩展方法对于像你我这样的局外人来说，变得越来越难以理解。

这一点在两篇文章中体现得最为明显：

Toby Ord关于强化学习扩展的文章以及Epoch AI关于强化学习环境的常见问题解答。强化学习并非唯一的现代扩展技术，但不可否认，它是讨论最多的技术，其带来的益处也仍在不断显现。

在预训练规模化失败后，向强化学习的转变使得大型实验室能够继续发布性能更佳的模型，这些模型推理时间更长，执行更复杂的任务，并且总体上有所改进，即使模型之间的能力飞跃变得越来越小。

然而，这一点很重要，强化学习本身并不是提高模型性能的唯一驱动力，而且它的效用不仅有些值得怀疑，而且可以说不如推理扩展等更高效的过程。

正如 Toby 所强调的，RL 扩展自 GPT o1 发布以来就已适用，OpenAI 当时展示了一张训练时间与测试时间计算量的图表，展示了扩展这些计算量对模型性能的影响。

GPT o1 能够通过每次迭代不断改进自身，但右侧图表中训练时计算（RL 扩展）的斜率只有测试时计算（推理扩展）的一半，这表明这些扩展方法的效率存在明显差异。

“右侧图表显示，将推理计算能力扩大 100 倍足以使 AIME 基准测试的性能从大约 20% 提升到 80%。这对于推理能力的扩展来说相当典型，许多不同的模型和基准测试在推理能力扩大 100 倍后，性能都会从 20% 提升到 80%。”

鉴于强化学习缩放的斜率只有推理缩放的一半，Toby 推断，要达到相同的改进，需要两倍的 OOM（内存溢出）次数；或者更简单地说，强化学习缩放本身并不能解决问题。