杨立昆:单靠LLM想实现AGI是胡说八道,AI未来需要JEPA世界模型(GTC大会万字访谈)

大型语言模型 (LLM) 正在加速推动世界拥抱 AI 的当下,被誉为卷积神经网路之父、现任 Meta 首席 AI 科学家的杨立昆(Yann LeCun)近期却语出惊人地表示,他对 LLM 的兴趣已减退,甚至认为已接近 LLM 发展瓶颈。

在人工智慧社群引发广大讨论,

上个月在一场与 NVIDIA 首席科学家 Bill Dally 的深度对谈中,LeCun 详述了他对 AI 未来发展方向的独到见解,强调理解物理世界、持久记忆、推理与规划能力,以及开源生态的重要性,才是引领下一波 AI 革命的关键,下文为您做重点整理。


Bill Dally: Yann,过去一年 AI 领域发生了很多有趣的事情。在你看来,过去一年最令人兴奋的发展是什么?

Yann LeCun: 多到数不清,但我告诉你一件事,可能会让你们中的一些人感到惊讶。我对大型语言模型(LLM)不再那么感兴趣了。

LLM 已经有点步入尾端,它们掌握在产业的产品人员手中,只是在边际层面上进行改进,试图获取更多数据、更多计算能力、生成合成数据。我认为在四个领域有更有趣的问题:

如何让机器理解物理世界、如何让它们拥有持久性记忆,这一点没有太多人谈论、最后两个是,如何让它们进行推理和规划。

当然,有一些努力让 LLM 进行推理,但在我看来,这是一种非常简化的看待推理的方式。我认为可能有更好的方法来做到这一点。所以,我对那些科技社群中的很多人可能五年后才会感到兴奋的事情感到雀跃。但现在,它们看起来不那么令人兴奋,因为它们是一些晦涩的学术论文。

世界模型与物理世界的理解

Bill Dally: 但如果不是 LLM 在推理物理世界、拥有持久性记忆和规划,那会是什么呢?底层模型会是什么?

Yann LeCun: 所以,很多人正在研究世界模型。什么是世界模型?

我们所有人的脑海中都有世界模型。这基本上是让我们能够操纵思想的东西。我们有一个关于当前世界的模型。你知道如果我从上面推这个瓶子,它很可能会翻倒,但如果我从底部推它,它会滑动。如果我压得太用力,它可能会爆开。

Yann LeCun 受访截图

我们拥有关于物理世界的模型,这是在我们生命的最初几个月获得的,这使我们能够应对真实世界。应对真实世界比应对语言要困难得多。我们需要的系统架构,要能够真正处理真实世界的系统,与我们目前处理的完全不同。LLM 预测 token,但 token 可以是任何东西。我们的自动驾驶汽车模型使用来自感测器的 token,并产生驱动车辆的 token。在某种意义上,它是在推理物理世界,至少是关于哪里开车安全以及你不会撞到柱子。

Bill Dally: 为什么 token 不是表示物理世界的正确方式?

Yann LeCun: Token 是离散的。当我们谈论 token 时,我们通常指的是一个有限的可能性集合。在典型的 LLM 中,可能的 token 数量大约在 10 万左右。当你训练一个系统来预测 token 时,你永远无法训练它预测出文本序列中确切跟随的 token。

你可以产生一个关于你字典中所有可能 token 的机率分布,这只是一个包含 10 万个介于零和一之间且总和为一的数字的长向量。我们知道如何做到这一点,但我们不知道如何处理影片,处理那些高维度且连续的自然数据。每一次试图让系统理解世界或建立世界的心理模型,通过训练它预测像素级别的影片,基本上都失败了。

即使是训练一个像某种神经网路的系统来学习图像的良好表示,所有通过从损坏或转换过的版本重建图像的技术都失败了。它们有点效果,但不如我们称之为联合嵌入(joint embedding)的替代架构效果好,后者基本上不试图在像素级别进行重建。它们试图学习图像、影片或正在训练的自然讯号的抽象表示,以便你可以在该抽象表示空间中进行预测。

Yann LeCun: 我经常使用的例子是,如果我拍摄这个房间的影片,移动摄影机并停在这里,然后要求系统预测该影片的后续内容,它可能会预测这是一个房间,里面坐著人等等。它无法预测你们每个人长什么样子。这从影片的初始片段来看是完全不可预测的。

世界上有很多事情就是无法预测的。如果你训练一个系统在像素级别进行预测,它会把所有资源都花在试图找出它根本无法发明的细节上。这完全是浪费资源。我们尝试过的每一次,而且我已经研究这个 20 年了,通过预测影片来使用自我监督学习训练系统都行不通。只有在表示层面进行才有效。这意味著那些架构不是生成式的。

Bill Dally: 如果你基本上是说 transformer 没有这个能力,但是人们有 vision transformer 并且得到了很好的结果。

Yann LeCun: 我不是这个意思,因为你可以为此使用 transformer。你可以在那些架构中放入 transformer。只是我谈论的那种架构被称为联合嵌入预测架构(joint embedding predictive architecture)。所以,取一段影片或一张图片或其他什么,通过一个编码器运行它,你得到一个表示,然后取该文本、影片或图像的转换版本的后续部分,也通过一个编码器运行它,现在尝试在那个表示空间中进行预测,而不是在输入空间中进行。

你可以使用相同的训练方法,即填空,但你是在这个潜在空间(latent space)而不是在原始表示中进行。

Yann LeCun: 困难点在于,如果你不小心并且不使用聪明的技术,系统会崩溃。它会完全忽略输入,只产生一个恒定的、对输入资讯量不大的表示。直到五六年前,我们没有任何技术可以防止这种情况发生。

现在,如果你想将此用于一个具备代理性(agentic)的系统,或者一个能够推理和规划的系统,你需要的是一个预测器。当它观察到一段影片时,它会对世界的状态、世界的当前状态有一些概念,而它需要做的是预测,假设我可能采取一个我正在想像的行动,世界的下一个状态会是什么。

所以,你需要一个预测器,给定世界的状态和你想像的一个行动,可以预测世界的下一个状态。如果你有这样一个系统,那么你就可以规划一系列行动以达到特定的结果。这是我们所有人进行规划和推理的真正方式。我们不是在 token 空间中进行的。

Yann LeCun: 让我举一个非常简单的例子。现在有很多所谓的代理性推理系统,它们的工作方式是,它们使用随机生成不同 token 的方式,生成大量大量的 token 序列,然后有第二个神经网路试图从所有生成的序列中选择最好的那个。这有点像在不知道如何编写程式的情况下编写程式。

你编写一个随机程式,然后测试所有程式,保留那个实际给你正确答案的程式,这完全是没希望的。

Bill Dally: 嗯,实际上有一些关于超优化(super-optimization)的论文建议正是这样做。

Yann LeCun: 对于短程式,你当然可以,但随著长度呈指数级增长,过了一段时间后,就完全没希望了。

笔者补充我的理解:简单来说,目前 LLM 模型玩的是机率游戏,从众多文字选择中挑出可能最好的答案。但是 Yann LeCun 认为现实世界变数太多太复杂,下一步的模型应该做到的事能自行预测未来。就像小孩子从生活中学习到放开球它会掉到地上、接近火会觉得烫…孩子虽然不了解背后原理,但他可以从生活经验中或获得预测能力。

AGI/AMI 的展望与挑战

Bill Dally: 那么,很多人说 AGI,或者我想你会称之为 AMI,即将到来。你的看法是什么?你认为它什么时候会出现,以及为什么?差距在哪里?

Yann LeCun: 我不喜欢 AGI 这个词,因为人们用这个词来指代具有人类水平智能的系统,而可悲的是,人类智能是超级专业化的。所以,称之为通用(general)是个用词不当。我更喜欢 AMI 这个短语,意思是先进机器智能(advanced machine intelligence)。

这只是词汇问题,我认为我描述的那个概念,即能够学习世界的抽象心智模型并将其用于推理和规划的系统,我认为我们很可能在三到五年内能够很好地掌握如何让它至少在小规模上运作。然后,这将是一个扩大规模的问题,直到我们达到人类水平的 AI。

Yann LeCun: 事情是这样的:在 AI 的历史上,一代又一代的 AI 研究人员发现了一种新的范式,并声称就是这样了。十年内,我们将拥有达到人类水平的智能。我们将拥有在所有领域都比人类更聪明的机器。这种情况已经持续了 70 年,大约每 10 年就有一次这样的浪潮。

当前的浪潮也是错误的。那种认为你只需要扩大 LLM 的规模,或者让它们生成数千个 token 序列并选择好的那些,就能达到人类水平的智能,并且在几年内,你将在一个数据中心拥有一个充满天才的国度,引用某位不愿透露姓名的人的话,这是胡说八道。完全是胡说八道。

当然,对于许多应用来说,不久的将来的系统将达到博士水平,如果你愿意这样说的话,但在整体智能方面,不,我们还差得很远。不过当我说很远的时候,它可能在十年左右发生。

Bill Dally: 这并不算太远。AI 已经以多种方式应用,改善了人类的状况,使人们的生活更轻松。你认为 AI 的哪个应用最引人注目且最有优势?

Yann LeCun: 我认为 AI 对科学和医学的影响可能会比我们目前能想像的要大得多,尽管它已经相当大了。不仅仅是在蛋白质折叠和药物设计等研究方面,而且在理解生命机制方面也是如此。并且有很多短期的后果。现在在美国,当你进行医学影像处理时,通常会涉及 AI。如果是乳房 X 光检查,它很可能已经用深度学习系统进行了预筛选以检测肿瘤。如果你去 MRI 机器,你在那台 MRI 机器中必须花费的时间减少了四倍左右,因为我们现在可以用更少的数据恢复高解析度的 MRI 影像。所以有很多短期的后果。

Yann LeCun: 当然,我们每一辆汽车,而 NVIDIA 是这方面的大供应商之一,现在都至少配备了驾驶辅助系统或自动紧急煞车系统。这些在欧洲几年前就已经是强制性的了。这些东西将碰撞减少了 40%。它们拯救了生命。这些都是巨大的应用。

显然,这不是生成式 AI;这是感知,现在还有一些针对汽车的控制。LLM 在现有或未来几年内在工业和服务业等领域有很多应用,但我们也必须考虑到其局限性。要部署和实施达到预期准确性和可靠性水平的系统,比大多数人想像的要困难得多。对于自动驾驶来说,情况确实如此。达到 L5 级自动驾驶的时间表一直是一个不断后退的地平线。我认为情况会是一样的。AI 通常失败的地方,不是在基本技术或华丽的演示中,而是在你实际必须部署它、应用它并使其足够可靠以与现有系统集成时。

这就是它变得困难、昂贵且耗时超出预期的原因。

Bill Dally: 当然,在像自动驾驶汽车这样的应用中,它必须始终正确,否则有人可能会受伤或死亡,准确性水平必须几乎完美。但有许多应用,如果它大部分时间都能做对,就非常有益。即使是一些医疗应用,有医生进行二次检查,或者当然还有娱乐和教育,你只想利大于弊,而且出错的后果不是灾难性的。

Yann LeCun: 当然。对于大多数这些系统来说,最有用的系统是那些让人们更有效率、更有创造力的系统。例如,辅助他们编码的编码助手。在医学上是这样,在艺术上是这样,在生成文本方面也是这样。AI 并不是在取代人;它是在给他们提供强大的工具。

嗯,它可能在某个时候会取代,但我认为人们不会接受。我们与未来 AI 系统,包括超级智能的关系是,我们将成为它们的老板。我们将拥有一群超级智能的虚拟人为我们工作。我不知道你怎么样,但我喜欢和比我聪明的人一起工作。这是世界上最棒的事情。

Bill Dally: 那么,反过来说,就像 AI 可以通过多种方式造福人类一样,它也有黑暗面,人们会将其应用于制造深度伪造(deep fakes)和假新闻,如果应用不当,会造成情感困扰。你对 AI 的使用最大的担忧是什么?我们如何减轻这些担忧?

Yann LeCun: Meta 非常熟悉的一件事是,使用 AI 作为对抗攻击的对策,无论这些攻击是否来自 AI。可能令人惊讶的一件事是,尽管 LLM 和各种深度伪造等已经可用了好几年,但我们负责侦测和移除这类攻击的同事告诉我们,我们并没有看到生成内容在社交网路上发布的大幅增加,或者至少不是以恶意方式发布。通常,它会被标记为合成的。所以,我们没有看到三四年前人们警告的所有灾难性场景,说这将摧毁资讯和通讯系统。

Yann LeCun: 我需要告诉你一个有趣的故事。在 2022 年秋天,我在 Meta 的同事们,一个小团队,整合了一个 LLM,该 LLM 是在整个科学文献上训练的。所有他们能弄到的技术论文。它被称为 Galactica,他们发布了一个长篇论文,描述了它是如何训练的、开源代码,以及一个你可以随便玩的演示系统。

这遭到了 Twitter 领域的猛烈抨击。人们说:「哦,这太可怕了。这会害死我们。它会摧毁科学交流系统。现在任何傻瓜都可以写一篇听起来像科学论文的文章,阐述吃碎玻璃的好处之类的。」负面意见的浪潮如此之大,以至于我可怜的同事们,一个五人小组,晚上都睡不著觉。他们撤下了演示,留下了开源代码和论文,但我们的结论是,世界还没有为这种技术做好准备,没有人对此感兴趣。

Yann LeCun: 三周后,ChatGPT 出现了,就像弥赛亚的第二次降临。我们面面相觑,说:「刚刚发生了什么?」 我们无法理解公众对此的热情,考虑到之前对 Galactica 的反应。

Bill Dally: 很大程度上是观感问题。GPT 并不是试图写学术论文或做科学研究;它是你可以与之交谈并询问任何问题的东西,试图更加通用。在某种程度上,它对更多人更有用,或者说更近似有用。

Yann LeCun: 肯定存在危险,也存在各种滥用。但对抗滥用的对策就是更好的 AI。正如我之前谈到的,存在不可靠的系统。解决这个问题的方法是更好的 AI 系统,它们具有常识、推理能力、检查答案是否正确以及评估自身答案可靠性的能力,而目前情况并非如此。但那些灾难性的场景,坦白说,我不相信。人们会适应的。我倾向于认为 AI 总体上是好的,即使其中夹杂著一些坏处。

开放原始码的重要性与未来

Bill Dally: 作为一个在大西洋两岸都有家的人,你有非常全球化的视角。你认为未来 AI 的创新会来自哪里?

Yann LeCun: 它可以来自任何地方。到处都有聪明人。没有人垄断好主意。有些人有巨大的优越感,认为他们可以不与任何人交谈就想出所有好主意。根据我作为科学家的经验,情况并非如此。

好主意来自许多人的互动和思想交流。在过去十年左右的时间里,代码的交流也变得重要。这就是为什么我一直是开源 AI 平台的坚定倡导者,以及为什么 Meta 在一定程度上也采用了这种理念的原因之一。我们并没有垄断好主意,尽管我们自认为很聪明。最近关于 DeepSeek 的故事确实表明,好主意可以来自任何地方。

Yann LeCun: 中国有很多非常优秀的科学家。很多人应该知道的一个故事是,如果你问自己,过去 10 年里,所有科学领域中引用次数最多的论文是哪一篇?那篇论文发表于 2015 年,正好是 10 年前。它是关于一种特殊的神经网路架构,称为 ResNet 或残差网路(residual networks),它来自北京的微软亚洲研究院,由一群中国科学家提出。

主要作者是何恺明(Kaiming He)。一年后,他加入了位于加州的 Meta 的 FAIR 实验室,在那里待了大约八年,最近转到了麻省理工学院(MIT)。这告诉你,世界各地有很多优秀的科学家,想法可以来自任何地方。但要真正将这些想法付诸实践,你需要庞大的基础设施、大量的计算资源,你需要给你的朋友和同事很多钱来购买必要的资源。拥有一个开放的知识社群可以让进步更快,因为有人在这里想出了一半的好主意,而另一个人说出了另一半。如果他们沟通,事情就会发生。如果他们都非常闭塞和封闭,进步就不会发生。

Yann LeCun: 另一件事是,为了让创新思想涌现,作为 NVIDIA 的首席科学家,你需要让人们真正创新,而不是强迫他们每三个月或每六个月拿出点东西。这基本上就是 DeepSeek 和 LLaMA 的情况。

一个不太广为人知的故事是,2022 年 FAIR 有几个 LLM 项目。一个拥有大量资源和领导层支持,另一个是由巴黎的十几个人组成的小型「海盗」项目,他们决定构建自己的 LLM,因为他们出于某种原因需要它。那个项目变成了 LLaMA,而你从未听说过的那个大型项目则被停止了。

所以,即使你没有所有的支持,你也可以想出好主意。如果你在某种程度上与你的管理层隔绝,他们让你独自工作,你可能会比被要求按计划创新时想出更好的主意。十几个人开发了 LLaMA,然后决定选择它作为平台。围绕它建立了一个团队来开发 LLaMA 2,最终它被开源,并在行业格局中引起了一场小小的革命。截至昨天,LLaMA 的下载量已超过 10 亿次。我觉得这很惊人。我假设其中包括你们中的许多人,但是所有那些人是谁?我的意思是,你一定认识他们,因为他们都必须购买 NVIDIA 硬体来运行那些东西。我们感谢你们(辉达)卖了所有这些 GPU。

Bill Dally: 让我们多谈谈开源。我认为 LLaMA 在这方面确实具有创新性,因为它是一个最先进的 LLM,并且提供了开放权重(open weights),所以人们可以自己下载和运行它。这样做的利弊是什么?公司显然投入了巨额资金来开发模型、训练模型和微调模型,然后将其免费提供。这样做的好处是什么?缺点是什么?

Yann LeCun: 嗯,我认为有缺点。如果你是一家期望直接从该服务中获得收入的公司,如果那是你唯一的业务,那么透露你所有的秘密可能对你没有好处。但如果你是一家像 Meta 或 Google 这样的公司,收入来自其他来源:对 Meta 来说是广告,对 Google 来说是各种来源,重要的不是你在短期内能产生多少收入,而是你是否能够构建你想要构建的产品所需的功能,并让世界上最多的聪明人为之做出贡献。

对 Meta 来说,如果其他一些公司将 LLaMA 用于其他目的,这并不会造成损害,因为他们没有可以在此基础上构建的社交网路。这对 Google 来说威胁更大,因为你可以用它来构建搜索引擎,这可能就是为什么他们对这种方法不太积极的原因。

Yann LeCun: 我们看到的另一件事的影响,首先是 PyTorch,现在是 LLaMA,是它们启动了整个新创公司的生态系统。我们现在在更大的行业中看到了这一点,人们有时会使用专有 API 来原型化 AI 系统,但到了部署的时候,最具成本效益的方式是在 LLaMA 上进行,因为你可以在本地(on-premise)或其他一些开源平台上运行它。从哲学上讲,我认为最重要的因素,想要拥有开源平台的最重要原因是,在很短的时间内,我们与数位世界的每一次互动都将由 AI 系统介导。我现在戴著 Ray-Ban Meta 智能眼镜,我可以通过它们与 Meta AI 对话,问它任何问题。

Yann LeCun: 我们不相信人们会想要单一的助手,而且这些助手将来自美国西海岸或中国的少数几家公司。我们需要极其多样化的助手。它们需要能够说世界上所有的语言,理解世界上所有的文化、所有的价值体系以及所有的兴趣中心。它们需要有不同的偏见、政治观点等等。我们需要多样化的助手,原因与我们需要多样化的媒体相同。否则,我们都会从相同的来源获得相同的资讯,这对民主或其他任何事情都不利。

我们需要一个任何人都可以用来构建那些多样化助手的平台。目前,这只能通过开源平台来完成。我认为这在未来会更加重要,因为如果我们想让基础模型能够说世界上所有的语言等等,没有任何一个实体能够独自完成这项工作。谁会去收集世界上所有语言的所有数据,然后把它交给 OpenAI、Meta、Google 或 Anthropic?没有人。

他们想保留这些数据。世界上的各个地区会希望将他们的数据贡献给一个全球基础模型,但实际上并不想交出这些数据。他们可能会为训练一个全球模型做出贡献。我认为这就是未来的模式。基础模型将是开源的,并以分布式的方式进行训练,世界各地的不同数据中心可以访问不同的数据子集,基本上是训练一个共识模型。这使得开源平台完全不可避免,而专有平台,我认为将会消失。

Bill Dally: 这对于语言和事物的多样性以及应用来说都很有意义。一家特定的公司可以下载 LLaMA,然后在他们不愿意上传的专有数据上进行微调。

Yann LeCun: 这就是现在正在发生的事情。大多数 AI 新创公司的商业模式都是围绕这个建立的。他们为垂直应用构建专门的系统。

Bill Dally: 在 Jensen(黄仁勋) 的主题演讲中,他举了一个很好的例子,使用生成式 LLM 来做婚礼策划,决定谁将坐在桌子旁。这是一个很好的例子,说明了在训练上投入精力与在推理上投入精力之间的权衡。

一种情况是,你可以拥有一个非常强大的模型,你在训练上花费了大量的资源,或者你可以构建一个不那么强大的模型,但运行它很多次,以便它可以推理并完成任务。你认为在构建强大模型时,训练时间和推理或测试时间之间的权衡是什么?最佳点在哪里?

Yann LeCun: 首先,我认为 Jensen 绝对是对的,你最终会从一个能够推理的系统中获得更多力量。

但我不同意目前具有推理能力的 LLM 所采用的推理方式是正确的方式。它有效,但不是正确的方式。当我们推理时,当我们思考时,我们是在某种与语言无关的抽象心智状态中进行的。你不想在 token 空间中踢来踢去;你想在你的潜在空间中推理,而不是在 token 空间中。

如果我告诉你想像一个立方体漂浮在你面前,然后将该立方体绕垂直轴旋转 90 度,你可以在脑海中做到这一点,这与语言无关。一只猫可以做到这一点,我们无法通过语言向猫说明这个问题,但猫在计划跳上家具的轨迹时会做比这复杂得多的事情。它们做的事情比那复杂得多,而且与语言无关。它肯定不是在 token 空间中完成的,那将是一系列动作。它是在一个抽象的心智空间中完成的。这就是未来几年的挑战:找出允许这种类型推理的新架构。这就是我过去几年一直在研究的。

Bill Dally: 我们是否应该期待一种新的模型,让我们能够在这个抽象空间中进行推理?

Yann LeCun: 它被称为世界模型(JEPA)。我和我的同事们在过去几年里发表了一系列关于这个问题的论文,可以说是朝这个方向迈出的第一步。JEPA 代表联合嵌入预测架构(joint embedding predictive architecture)

这些是学习抽象表示的世界模型,并且能够操纵这些表示,或许还能进行推理并产生一系列行动以达到特定目标。我认为这就是未来。大约三年前,我写了一篇关于这个问题的长篇论文,解释了这可能是如何运作的。

Bill Dally: 要运行这些模型,你需要很棒的硬体。在过去十年中,GPU 的能力在 AI 模型的训练和推理方面都提高了 5 到 10,000 倍,从 Kepler 到 Blackwell。我们今天看到还有更多即将到来。横向扩展(Scale-out)和纵向扩展(scale-up)提供了额外的能力。在你看来,未来会发生什么?你期望什么样的东西能让我们构建你的 JPA 模型和其他更强大的模型?

Yann LeCun: 嗯,继续推出吧,因为我们需要所有我们能得到的计算能力。这种在抽象空间中的推理在运行时将会非常耗费计算资源,这与我们都非常熟悉的东西有关。

心理学家谈论系统 1 和系统 2。系统 1 是你可以不假思索就能完成的任务。它们已经成为第二天性,你可以在不太思考的情况下完成它们。例如,如果你是一个经验丰富的司机,即使没有驾驶辅助,你也可以开车,并且可以在与人交谈的同时开车。但是如果你是第一次开车或刚开几个小时,你必须真正专注于你正在做的事情。你在规划各种灾难场景等等。那是系统 2。你正在调动你整个世界模型来弄清楚将会发生什么,然后规划行动,以便好的事情发生。

Yann LeCun: 然而,当你熟悉一项任务时,你可以只使用系统 1,一种反应式的系统,让你无需规划即可完成任务。首先,这种推理是系统 2,而自动的、潜意识的、反应式的策略是系统 1。

当前的系统正试图慢慢向系统 2 迈进,但最终,我认为我们需要一个不同的架构来实现系统 2。如果你想要一个能够理解物理世界的系统,我不认为它会是一个生成式架构。物理世界比语言难理解得多。我们认为语言是人类智力能力的缩影,但事实上,语言很简单,因为它是离散的。因为它是一种通讯机制,需要是离散的才能抗噪音。否则,你现在就无法理解我说的话。所以,出于这个原因,它很简单。但真实世界要复杂得多。

Yann LeCun: 这是你过去可能听我说过的话:当前的 LLM 通常使用大约 30 兆个 token 进行训练。Token 通常约为 3 个字节,所以大约是 0.9 到 10^14 字节,假设是 10^14 字节。我们任何一个人读完这些需要超过 40 万年,因为这是网际网路上所有可用文本的总和。

但现在,心理学家告诉我们,一个 4 岁的孩子总共醒著的时间是 16,000 小时,我们每秒大约有 2MB 的数据通过视神经进入视觉皮层,大约每秒 2MB。将这个乘以 16,000 小时再乘以 3600,大约是 10^14 字节,这是四年内通过视觉获得的数据量。你眼睛看到的数据量相当于需要你花 40 万年才能读完的文本量。

这告诉你,我们永远无法仅仅通过文本训练达到 AGI,不管你指的是什么。这根本不可能发生。

Bill Dally: 回到硬体,脉冲神经系统(spiking systems)方面有很多进展,倡导者和研究生物系统类比的人认为,神经形态硬体(neuromorphic hardware)有一席之地。你认为神经形态硬体在 AI 处理方面是否有可以补充或取代 GPU 的地方?

Yann LeCun: 短期内不会。嗯,好吧,我得告诉你一个关于这个的故事。当我 1988 年开始在贝尔实验室工作时,我所在的团队实际上专注于用于神经网路的类比硬体。他们建造了好几代完全类比的神经网路,然后是混合类比数位,然后到 90 年代中期完全是数位。

那时候人们对神经网路有点失去兴趣了,所以就没有意义了。像这样奇特的底层原理的问题在于,当前的数位半导体处于如此深的局部最小值,以至于替代技术需要一段时间,以及大量的投资,才能赶上。甚至在原理层面上,也不清楚它是否有任何优势。

Yann LeCun: 像类比或脉冲神经元或脉冲神经网路这样的东西可能有一些内在的优势,但它们使得硬体复用变得非常困难。我们目前使用的每一块硬体都太大、太快,从某种意义上说,所以你必须基本上重复使用同一块硬体来计算你模型的不同部分。

如果你使用类比硬体,你就不能使用多路复用(multiplexing)。你的虚拟神经网路中的每个神经元都必须有一个物理神经元。这意味著你无法在单个晶片上容纳一个像样大小的神经网路。你必须使用多晶片,一旦你能做到这一点,它将会非常快,但效率不高,因为你需要进行跨晶片通讯,而且记忆体变得复杂。最终,你需要进行数位通讯,因为这是实现抗噪音效率的唯一途径。

Yann LeCun: 事实上,大脑提供了一个有趣的资讯。大多数大脑,或者说大多数动物的大脑,是通过脉冲进行通讯的。脉冲是二进制讯号,所以它是数位的,不是类比的。神经元层面的计算可能是类比的,但神经元之间的通讯实际上是数位的,除了非常小的动物。例如,秀丽隐杆线虫(C. elegans),一种 1 毫米长的蠕虫,有 302 个神经元。它们不发出脉冲,因为它们不需要远距离通讯,所以在那个尺度上它们可以使用类比通讯。

这告诉你,即使我们想使用像类比计算这样的奇特技术,我们也必须以某种方式使用数位通讯。至少对于记忆体来说是这样。目前还不清楚,而且我多次进行过这种计算。我对此的了解可能远不如你,但我认为短期内不会发生。

Bill Dally: 可能在边缘计算(edge computation)的某些角落,这是有意义的。例如,如果你想要一个超便宜的微控制器,为你的吸尘器或割草机运行感知系统,也许计算是有意义的。如果你能把整个东西放在一个单晶片上,并使用像相变记忆体或类似的东西来存储权重,我知道有些人正在认真地构建这些东西。这些就是人们所说的 PIM(存内处理器)或类比和数位处理器以及记忆体技术。你认为它们有作用吗?它们有前途吗?

Yann LeCun: 当然。我的一些同事对此非常感兴趣,因为他们想为那些智能眼镜制造后继产品。你想要的是一些视觉处理能够一直进行。目前,由于功耗的原因,这是不可能的。仅仅一个像图像感测器这样的感测器,在这样的眼镜中不能一直开著;几分钟内电池就会耗尽。

一个潜在的解决方案是在感测器上直接进行处理,这样你就不必把数据移出晶片,而这正是耗费能量的地方。移动数据是耗费能量的,而不是计算本身。这方面有很多工作正在进行,但我们还没有达到那一步。我认为这是一个有前途的方向。事实上,生物学已经解决了这个问题。视网膜大约有 6000 万个光感受器,在我们的视网膜前面,有四层神经元——透明的神经元——处理讯号,将其压缩到 100 万根视神经纤维,传输到我们的视觉皮层。有压缩、特征提取和各种各样的东西,以便从视觉系统中获取最有用的资讯。

Bill Dally: 其他新兴技术呢?你认为量子(quantum)、超导逻辑(superconducting logic)或地平线上的其他任何东西会给我们在 AI 处理能力方面带来巨大的进步吗?

Yann LeCun: 超导,也许吧。我对此了解不够,无法真正判断。光学(Optical)一直非常令人失望。我记得在 1980 年代,我对关于神经网路光学实现的演讲感到非常惊讶,但它们从未成功。技术在发展,所以也许情况会改变。

对于量子,我对量子计算持极度怀疑态度。我认为我能看到的量子计算唯一的中期应用是模拟量子系统,比如量子化学之类的。对于其他任何事情,我都极度怀疑。

Bill Dally: 你谈到构建可以通过观察学习的 AI,就像幼崽一样。你认为这对硬体提出了什么样的要求?你认为我们需要如何发展硬体来实现这一点?你能给我们多少?

Yann LeCun: 这是一个你愿意买多少的问题。正如我们今天听到的,你买得越多,省得越多。这不会便宜。例如,影片。让我告诉你一个我的一些同事直到大约一年前进行的实验。有一种用于自我监督学习的技术,使用重建来学习图像表示。该项目被称为 MAE,即遮罩自编码器(Masked Autoencoder)。

它基本上是一个自编码器,一个去噪自编码器,非常像使用的那种。你拿一张图片,通过移除其中的一些部分——实际上是很大一块——来损坏它,然后训练一个巨大的神经网路来重建像素级别或 token 级别的完整图像。然后你使用内部表示作为下游任务的输入,比如物体识别或其他什么,进行监督训练。

Yann LeCun: 它效果还行,但你必须烧开一个小池塘来冷却那些液冷 GPU 集群才能做到这一点。它的效果远不如那些联合嵌入架构。你可能听说过 DINO、DINO V2、JAPA 等等。这些是联合嵌入架构,它们往往效果更好,而且训练成本实际上更低。

在联合嵌入中,你基本上有两个潜在空间,对应两个输入类别。与其将所有东西转换成一种 token,不如取完整图像和损坏或转换后的版本,都通过编码器运行,然后尝试连接这些嵌入。你从部分可见或损坏图像的表示中训练完整图像的表示。这样效果更好,成本也更低。

Yann LeCun: 好了,所以团队说:“这对图像似乎效果还行,让我们试试用在影片上。” 所以现在你必须对影片进行 token 化,基本上是将影片转换成 16×16 的补丁(patch),即使对于短影片来说,这也是大量的补丁。然后,你训练一个巨大的神经网路来重建影片中缺失的补丁,也许是预测未来的影片。这需要烧开一个小湖,而不仅仅是一个小池塘,而且基本上是失败的。那个项目被停止了。

Yann LeCun: 我们现在的替代方案是一个名为 VJA 的项目,我们即将推出第二版。它是那些联合嵌入预测架构之一。所以,它对影片进行预测,但是在表示层面进行,而且似乎效果非常好。我们有一个这样的例子。第一个版本是在非常短的影片上训练的,只有 16 帧,它被训练来从部分遮罩的影片版本中预测完整影片的表示。

那个系统显然能够告诉你某个特定的影片在物理上是否可能,至少在受限的情况下是这样。它给你一个二进制输出:“这是可行的”,“这不可行”,或者也许比这更简单。你测量系统产生的预测误差。你在影片上使用那些 16 帧的滑动窗口,看看你是否能预测接下来的几帧。你测量预测误差,当影片中发生非常奇怪的事情时——比如一个物体消失了、改变了形状、自发出现或者不遵守物理定律——它会将其标记为异常。

Bill Dally: 这些是自然影片,然后你在发生了非常奇怪的事情的合成影片上进行测试。

Yann LeCun: 如果你在发生了非常奇怪的事情的影片上训练它,那就会变成常态,它就不会检测到那些是奇怪的。所以你不能那样做。这有点像婴儿学习直觉物理学的方式。一个没有支撑的物体会掉落,基本上是重力的影响,婴儿大约在九个月大的时候学会这个。

如果你给一个五六个月大的婴儿看一个物体似乎漂浮在空中的场景,他们不会感到惊讶。但到了九或十个月大,他们会睁大眼睛看著它,你实际上可以测量到这一点。心理学家有测量注意力的方法,这意味著婴儿的内部世界模型受到了侵犯。婴儿看到了她认为不可能的事情,这与她的预期不符。所以,她必须看著它来纠正她的内部模型,并说:“也许我应该了解一下这个。”

Bill Dally: 你谈到了在这个联合嵌入空间中进行推理和规划。我们需要什么才能达到那一步?在模型方面和硬体方面的瓶颈是什么?

Yann LeCun: 很大程度上只是让它运作起来。我们需要一个好的配方。在人们想出一个好的配方来训练即使是简单的卷积网路之前,这是非常困难的。早在 2000 年代末,Geoff Hinton 告诉所有人,用反向传播训练深度网路非常困难。Yann LeCun 可以用 ConvNets 做到,但他是世界上唯一能做到的人,这在当时是真的,但不完全准确。

事实证明,这并不那么困难,但有很多技巧你必须弄清楚——工程技巧、直觉技巧、使用哪种非线性函数、ResNet 的想法,这是过去 10 年所有科学领域中被引用次数最多的论文。这是一个非常简单的想法:你只需要让连接跳过每一层,所以默认情况下,深度神经网路中的一层基本上被混淆为恒等函数,而神经网路所做的是对那个非常简单想法的偏离。这使我们能够避免在反向传播时梯度消失,并训练具有 100 层或更多层的神经网路。

Yann LeCun: 在人们想出包含所有这些残差连接、Adam 优化器和正规化的完整配方之前,没有什么真正有效。我们刚刚发表了一篇论文,表明在 transformer 中你不需要正规化,以及类似的事情。在你拥有这个完整的配方和所有技巧之前,没有什么是有效的。

对于 NLP 和自然语言处理系统来说也是如此。在 2010 年代中期,有基于去噪自编码器的系统,如 BERT,你取一段文本,将其损坏,然后训练一个大型神经网路来恢复缺失的单词。最终,这被 GPT 风格的架构所取代,你只需在整个系统上进行训练。你将其作为自编码器进行训练,但不需要损坏输入,因为架构是因果的(causal)。事实证明,这种方法非常成功且可扩展。

Yann LeCun: 我们必须为那些 JAPA 架构想出一个好的配方,使其能够扩展到同样的程度。这就是缺失的部分。

Bill Dally: 嗯,我们前面有红灯在闪烁。在我们休会之前,你有什么最后的想法想留给观众吗?

Yann LeCun: 是的,我想强调我之前提出的观点。AI 的进步以及朝向人类水平 AI、先进机器智能或 AGI,无论你想怎么称呼它的进程,将需要每个人的贡献。它不会来自某个秘密进行研发的单一实体。那是不会发生的。它不会是一个事件;它将是沿途许多连续的进步。

人类不会在这发生的第一个小时内被杀死,因为它不会是一个事件。它将需要来自世界各地的贡献。它将必须是开放的研究,并基于开源平台。如果它们需要大量训练,我们将需要更便宜的硬体。你(辉达)需要降低你的价格。[笑]

Bill Dally: 你得跟 Jensen 谈谈这个。

Yann LeCun: 我们将拥有一个高度多样化的 AI 助手群的未来,它们将在我们的日常生活中帮助我们,通过我们的智能眼镜或其他智能设备一直陪伴著我们,我们将成为它们的老板。它们将为我们工作。这就像我们所有人都将成为经理。那是个可怕的未来。

Bill Dally: 嗯,就此打住,我想感谢你带来了这场真正激发智力的对话,我希望我们还有机会再这样做一次。

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论