模型进展慢缘于数据中心建设慢、训练O1算力比GPT4高百倍
近期,OpenAI前首席研究官Bob McGrew与 Unsupervised Learning频道进行了一场信息密度极高、干货十足的深度对话,非常建议读全文。
Bob McGrew在 OpenAI 担任了六年半的首席科学家,于2023年离职。
在这次访谈中,他深入探讨了 AI 的现状与未来,涵盖了预训练模型的进展、多模态 AI 的突破、机器人技术的未来、AI 研究的组织和文化,以及 AI 对社会的影响等重要议题。
McGrew预言,未来几年AI领域将迎来巨变。算力竞赛将进一步升温,视频生成模型和机器人技术将迎来爆发式增长,同时多模态 AI 将深刻改变我们的生活。
McGrew指出,虽然GPT-5距离发布尚需时日,但AI发展并非停滞不前。OpenAI 正专注于“测试时计算”技术,它可以在无需建设新数据中心的情况下实现算力增长。这意味着 OpenAI 有望在不大幅增加成本的情况下,持续提升 AI 模型的性能,为投资者带来持续的信心。
McGrew还预测,视频生成模型将在未来两年内彻底改变电影制作方式。他认为,完全由 AI 生成的、足以获奖的电影将很快出现。这对于影视行业来说无疑是颠覆性的变革,也为相关领域的投资者带来了巨大的想象空间。
此外,McGrew认为机器人技术将在五年后迎来广泛应用。零售、仓库等工作环境将率先迎来“机器人革命”。这也意味着机器人产业链上的企业将迎来前所未有的发展机遇。
面对AI浪潮,McGrew提醒我们关注AI人才的培养。他认为,数学、编程和写作能力将是未来人才的核心竞争力,相关教育领域的投资也将获得丰厚回报。
01 要点如下
GPT-5 何时到来?测试时计算将带来重大突破
许多人认为自 GPT-4 发布以来,大型语言模型的进展似乎停滞了,但实际上内部人士的看法完全不同。开发像 GPT 这样的大型语言模型需要大量的算力,这依赖于新数据中心的建设,这是一个缓慢的多年的过程。
从 GPT-4 到 GPT-5 将需要 100 倍的算力提升,这需要时间。在 GPT-5 正式发布之前,我们可能会先看到算力提升 10 倍的过渡版本。
目前 OpenAI 的重点在于“测试时计算”,即在模型生成答案的过程中投入更多算力,以获得更长、更连贯的思考链。例如,OpenAI 将 GPT-4 扩展到 0,1 模型,就实现了 100 倍的算力增长。
“测试时计算”不需要建设新的数据中心,因此在算法改进方面还有很大空间。未来几年,“测试时计算”将是 AI 领域最令人兴奋的进展之一。
多模态 AI 的突破:Sora 如何引领视频生成革命?
与其他模态(如图像)不同,视频是一个扩展的事件序列,需要一个完整的用户界面来考虑故事如何随着时间的推移而展开。此外,视频模型的训练和运行成本都非常高。
Sora 是第一个高质量的视频生成模型,它通过故事板功能解决了视频生成中的一些挑战。故事板功能允许用户在不同时间点放置检查点,以指导视频的生成。
未来视频模型的质量会更好,生成时间更长,成本更低。就像 LLM 一样,你将能够看到非常美丽、逼真的视频,而且它们几乎不花任何成本。
预计两年内,我们将看到完全由 AI 生成的、足以获奖的电影。这些电影的吸引力将在于导演如何利用视频模型来实现他们的创意愿景,并在媒介中做一些他们无法拍摄的事情。
机器人技术的未来:五年后,我们将与机器人在日常生活中互动
机器人技术将在五年后看到广泛的应用,尽管会有一些限制。 基础模型的出现是机器人技术领域的一大突破,它使机器人能够快速启动并在重要方面进行泛化。
与模拟环境相比,在现实世界中训练机器人具有优势。模拟器擅长模拟刚体,但在现实世界中,许多物体都是柔软的,例如布料或纸板,模拟器并不擅长处理这些。
对于任何想要真正通用的机器人来说,在现实世界中进行训练是必不可少的。
预计五年后,我们会在日常生活中以一种今天感觉奇怪的方式与机器人互动。机器人将在零售、仓库等工作环境中得到广泛应用。
OpenAI 的文化:创业精神与合作精神的融合
OpenAI 的文化类似于创业公司,强调合作和共同目标。 他们有一个关于正确方向的共同意见,并给予研究人员很大的自由去探索他们感兴趣的领域。
OpenAI 的文化鼓励合作,并确保人们一起工作,以构建一个产品,而不是发表许多论文。 这与学术界的文化形成鲜明对比,学术界更注重个人荣誉和竞争。
关于AGI
许多人担心 AI 会导致大规模失业,但实际上 AI 能够自动化的只是单个任务。 大多数工作都包含一些无法自动化的任务, 即使是编程也是如此。
AI 的进步将继续,它将令人兴奋,并且不会放缓,但它会发生变化。 我们正在从一个智能可能是社会关键稀缺因素的世界,过渡到一个智能无处不在且免费的世界。
当智能不再稀缺时,代理权将成为稀缺的生产要素。 代理权是指提出正确问题和追求正确项目的能力。 我们需要思考如何发展这种代理权,以便我们能够与 AI 合作。
未来将是连续的,AI 的进步将逐步改变我们的生活。 我们应该关注那些需要无限耐心的领域, 例如仔细检查支出或进行比较购物,这些领域 AI 可以做得更好。
如何培养孩子适应 AI 时代?
尽管 AI 正在迅速发展,但我们不应该改变孩子的教育方式。 我们仍然应该教他们数学、编程和写作,因为这些技能可以帮助他们以结构化的方式思考问题。
未来是不可预测的,AI 的实际运作方式将是神秘的,并随着时间的推移向我们展示。 我们应该鼓励孩子们尝试那些挑战他们能力极限的事情,并培养他们的适应能力。
02 访谈全文
主持人Jacob:Bob McGrew 在 OpenAI 担任首席研究官六年半。他最近在几个月前离职,我们有幸能在“无监督学习”播客上成为他首次亮相的播客之一。因此,我们有机会向他询问关于人工智能未来的一切。我们讨论了模型是否已经触及瓶颈,还讨论了机器人模型、视频模型、计算机使用模型,以及 Bob 预见的未来时间线和能力。我们谈到了 OpenAI 独特的文化以及是什么使其研究如此有效,以及一些关键的决策点和经历这些决策的感受。我们探讨了为什么 AGI 可能感觉和今天没什么不同,Bob 还分享了他离开 OpenAI 的原因以及下一步的计划。我认为大家会非常喜欢这一期节目。话不多说,下面是 Bob。Bob,非常感谢你来参加播客。谢谢邀请,我很期待这次对话。真的很高兴你能来。我知道我们会谈论很多不同的话题。我想我们不妨从一个我觉得现在大家最关心的问题开始,也就是关于模型能力是否已经触及瓶颈的激烈辩论。我们很想听听你对此的看法,以及你觉得预训练方面还有多少潜力可挖。
鲍勃·麦克格鲁:好的,我觉得这可能是外界观察者和大型实验室内部人员看法分歧最大的地方。我认为,如果从外界来看,很多人最初开始关注人工智能是因为 ChatGPT。然后过了六个月,GPT-4 就出现了。感觉一切都在快速加速,并且正在取得进展。然而,GPT-4 是一年半前发布的,而且大家都知道它在此之前就已经训练好了。那么,现在发生了什么?为什么没有新的东西出现,对吧?
内部的看法截然不同。在外面,人们想知道,我们是不是遇到了数据瓶颈?到底发生了什么?但你必须记住,要取得预训练的进展,特别是,需要大幅增加计算量。从 GPT-2 到 GPT-3,或者从 GPT-3 到 GPT-4,有效的计算量增加了 100 倍。这就是这种增量所代表的意义。你可以通过增加浮点运算次数、增加芯片、扩大数据中心和改进算法来实现这一点。算法改进可以带来一些收益——50%、2倍或 3倍就已经很了不起了。但从根本上说,你必须等待新的数据中心建成。
不缺正在建设的新数据中心。你只要看看新闻就能发现,像 Meta、X 和其他前沿实验室也在建立新的数据中心,即使这些新闻并不总是登上头条。但从根本上说,这是一个非常缓慢的、需要数年时间的过程。事实上,在你看到完整的代际过渡,比如从 GPT-4 到 GPT-5 之前,你将会看到一些只有 10 倍提升的东西。人们常常忘记,我们是从 GPT-3 到 GPT-3.5 再到 GPT-4 的。
现在有趣的是,预训练正在进行中。我认为我们必须等待,看看下一代模型何时发布。如果你看看像 O1 这样的东西,我们已经能够利用强化学习取得进展。通过各种指标来看,O1 代表着比 GPT-4 高 100 倍的计算量。有些人可能没有意识到这一点,因为决定将其命名为 O1 而不是 GPT-5。然而,实际上,这是一个新一代的模型。
当下一代,假设的 GPT-4.5 被训练出来时,有趣的问题是,这种预训练的进展如何与强化学习过程相比较?我认为,我们只能拭目以待,看看会发布什么消息。
主持人Jordan: 这就引出了一个问题,考虑到进入 2025 年的多年过程,你认为明年人工智能的进展会像去年一样多吗,还是你认为事情会开始放缓?
鲍勃·麦克格鲁:嗯,我认为会有进展。我认为这会是不同的进展。一件事是,当你进入任何下一代时,你总是会遇到在前一代中没有看到的问题。因此,即使数据中心已经建好,人们也需要时间来解决问题并完成模型的训练。
我们用来训练 O1 的强化学习过程,也就是 OpenAI 用来训练 O1 的过程,创建了一个更长、更连贯的思维链,有效地将更多的计算量融入到答案中。所以,你知道,如果一个模型需要几秒钟才能生成答案,而另一个模型需要,比如说,几个小时才能生成答案,那么如果你能真正利用它,那就是 10000 倍的计算量,对吧?
老实说,我们从大约 2020 年就开始思考如何使用测试时间计算。最后,我认为这实际上是如何做到这一点的真正答案,即如何在不浪费大量计算资源的情况下做到这一点。这样做的好处是它不需要新的数据中心。在这里,有很多改进的空间,因为这是一种刚刚开始的新技术,并且有很多算法增强的机会。
从理论上讲,没有理由说用于使 O1 从几秒钟,比如 GPT-4 可以在几秒钟内完成的事情,到 O1 花费 30 秒、1 分钟或几分钟来思考的相同基本原理和想法不能扩展到几个小时甚至几天。就像从 GPT-3 到 GPT-4 一样,没有基础的新技术;两者都以大致相同的方式进行训练,但扩展是非常困难的。
所以这实际上是问题的核心:你真的能进行扩展吗?我认为这将是我们将会看到的进步类型,并且它会是最令人兴奋的。
主持人Jacob:是的,在 2025 年。考虑到对测试时间计算的关注以及当前使用的 O1,我认为思考人们实际上将如何使用这些模型真的很有趣,对吧?我认为你最近发了一条推文,我觉得很有意思,内容是关于你需要这些新的产品形态(form factor)来解锁某些模型的功能。所以也许可以稍微展开一下。例如,你有没有看到任何你觉得在使用这些模型时很有趣的早期产品形态?
鲍勃·麦克格鲁:嗯,是的。为了解释这个问题,聊天机器人已经出现一段时间了。今天人们与聊天机器人的大多数互动,GPT-4 级别的模型都能很好地完成这些任务。你知道,如果你问 ChatGPT,谁是第四位罗马皇帝?或者我如何加热印度香米?我们的大多数日常对话都能很好地处理。
当我们考虑发布 O1 预览版时,有很多关于人们是否会使用它以及他们是否会找到用它来做什么的问题。我认为这些问题是正确的。这关系到理解需要用这个模型做什么才能真正从中获得价值。编程是这方面的一个很好的用例,因为它提出了一个结构化的问题,你试图在很长一段时间内取得进展,并且它显著地利用了推理能力。
另一个例子是如果你正在撰写政策简报。在这种情况下,你需要撰写一份需要有意义且具有凝聚力的长篇文档。事实是,虽然有很多程序员,但大多数非程序员的人并没有每天都需要解决这样的任务。然而,回到这里潜在的突破,重要的是要有一个连贯的思维链和一个结构化的方法来解决问题。
这个过程不仅仅包括思考问题;它还可以包括采取行动和制定行动计划。对于像 O1 这样的模型,我最兴奋的事情——我相信很快会有其他实验室推出类似的模型——是使用它们来实现长期行动,本质上是充当代理。虽然我认为“代理”这个术语被过度使用了,并且没有清楚地传达我们试图实现的目标,但在我的生活中,我有很多任务希望模型能为我预订东西、为我购物,并以涉及与世界其他部分互动的方式来解决问题。
我认为这是我们真正需要解决的产品形态:理解它是什么以及我们如何有效地部署它。就目前而言,我认为还没有人弄清楚这一点。
主持人Jacob: 这太有趣了。我的意思是,这完全说得通。我觉得每个人,你知道的,都会对这些智能体能做什么以及它们能为人们和企业解决什么问题产生无限遐想。那么,今天实现这一切的最大障碍是什么呢?显然,你们已经看到了早期的一些模型,比如 Anthropic 发布的计算机使用模型,而且,我确信其他实验室也在研究这个。但是,当你思考是什么阻碍我们达到目标时,有哪些难题仍然需要解决?
鲍勃·麦克格鲁: 是的,有很多问题。我认为最直接的问题是可靠性。所以,你知道的,如果我要求做某事,先抛开动作不谈,对吧?如果我要求智能体代表我做某事,即使只是思考或为我编写一些代码,而我需要离开五分钟或一个小时让它工作,如果它偏离了任务并犯了错误,等我回来时它什么都没做,那我只是白白浪费了一个小时。这可是个大问题。
现在再加上这个智能体将要在现实世界中执行动作。也许它在为我买东西。也许它在提交一个公关稿。也许它在代表我发送便条、电子邮件、Slack 消息。如果它做得不好,就会有后果。我至少会感到尴尬,甚至可能会损失一些钱。因此,可靠性就变得比过去更加重要。
我认为在考虑可靠性时,有一个经验法则,即从 90% 的可靠性提高到 99% 的可靠性,计算量可能会增加一个数量级。这是 10 倍的提升。要从 99% 的可靠性提高到 99.9% 的可靠性,则需要再增加一个数量级的提升。因此,每增加一个“9”,都要求模型性能有巨大的飞跃。这 10 倍的改进是显著的,代表了一两年时间的工作量。
所以我认为这是我们首先要面临的问题。我认为第二个有趣的问题是,到目前为止,我们所谈论的一切都是针对消费者的,对吧?你没有嵌入到企业中。但是,当你在谈论智能体在执行任务时,对于我们很多人来说,那将是我们在工作中做的事情,是嵌入在企业中的事情。我认为这会带来一系列其他的考虑因素。
主持人Jordan:这很有趣。我们今天在企业中看到,许多咨询公司实际上做得很好,因为目前向企业部署这些技术需要很多手把手的指导。你认为这种手把手指导以及企业对帮助的需求会持续一段时间吗?还是你认为它会变得更加易于使用,企业将来可以非常容易地部署这些大型语言模型?
鲍勃·麦克格鲁:是的,我认为这是一个非常有趣的问题。而且,我的意思是,即使是开始构建,那么在企业中部署大型语言模型的问题是什么呢?好吧,如果它要为你自动化一个任务或者做你的工作,它可能需要上下文。因为在消费者领域,没有太多上下文。好吧,你喜欢红色,很好。没什么意思。
主持人Jacob:感谢你用红色作为例子(自己的播客叫RedPoint)。
鲍勃·麦克格鲁:但是,你知道,在企业中,你知道,你的同事是谁?你正在从事什么项目?你的代码库是什么?你知道,人们尝试过什么?人们喜欢和不喜欢什么?所有这些信息都在企业中以一种环境的方式存在。它在你的 Slack 中。它在你的文档中。你知道,也许它在你的 Figma 或其他什么地方。那么你如何获得访问权限呢?
好吧,你需要自己构建一些一次性的东西。我认为肯定有一种方法是人们构建这些连接器的库,然后你就可以进来做到这一点。这与我们在 Palantir 所做的工作非常相似,Palantir 解决的根本问题是集成企业中的数据。我认为这也是为什么像 Palantir 的人工智能平台 AIP 如此有趣的原因之一。所以我认为这是第一条路径,你有点像在构建这些东西的库。可以基于此构建整个平台。
另一个是进行计算机使用(Computer Use)的机会。所以现在,你不再需要这种非常具体且可能定制的方式来做,你现在拥有一个可以用来处理所有事情的工具。Anthropic 推出了这个;这真的很有趣,我们在 Anthropic 的人在 2020 年离开 OpenAI 之前就已经在讨论这些计算机使用的智能体了,Google DeepMind 也发表了关于这方面的论文。每个实验室都考虑过这个问题,并致力于解决这个问题。
计算机使用的智能体与这些程序化 API 集成不同之处在于,现在,由于你控制的是鼠标和键盘,你现在采取的行动涉及更多步骤。你可能需要 10 倍甚至 100 倍于使用这些程序化集成所需的令牌数量。
所以现在,我们又回到了什么?你需要一个具有非常长且连贯的思维链的模型,能够在很长一段时间内始终如一地决问题,这正是 O1 所解决的那类问题。我相信还有其他方法可以解决这个问题。但我认为这将是我们未来几年将会看到的一个突破。
主持人Jacob:明年。你认为最终会如何发展?因为我想一方面,显然,可以在任何上下文中使用计算机的通用模型似乎很有吸引力。我想,要达到 99.999% 的可靠性可能很困难。而且,你知道,在不同的点上可能会有很多步骤出错。你知道,关于这如何运作的另一种观点是,我确信,如果以某种方式开放底层应用程序 API,这些问题中的一些可能会被简化,对吧?或者其他方法,或者你可以为使用 Salesforce 或我不知道的某些特定工具提供特定的模型。如果你可以访问底层体验,那么集成最终将成为一个巨大的优势。这样你就可以在瞬间完成事情,而不是坐在那里看着计算机在屏幕上做事。
鲍勃·麦克格鲁:是的,嗯,我的意思是,我认为你肯定会看到这些方法的混合使用,其中一些使用这些集成,而另一些,你知道,计算机使用成为一种备用方案,如果你没有定制的东西可以使用。然后也许你会看看人们使用哪些东西,如果可行,你会提出更详细的集成。
我认为关于你会看到 Salesforce 专用的计算机使用(Computer Use)智能体的问题,从技术上讲,这对我来说没有太大的意义,因为我认为你从根本上利用的是数据。有人出去收集了大量关于如何使用 Salesforce 的数据集。
你可以把这些数据扔进——与 Anthropic、OpenAI 和 Google 分享这些数据集对 Salesforce 有利。他们训练自己的模型。我认为每个应用程序提供商都会希望这是公开的,并且是每个基础模型的一部分。所以我不认为,你知道,对我来说,这似乎没有理由以这种方式拥有专门的模型。
主持人Jacob: 不,这确实是一个很有说服力的观点,因为我觉得,当你在一个竞争激烈的领域,而你的竞争对手正在公开他们的数据,并且他们的产品变得更容易使用时,你肯定也希望你的产品是这样的。
鲍勃·麦克格鲁: 是的,对我来说有点神秘,为什么还没出现那种人们把数据塞进大型语言模型的生态系统。这实际上就相当于谷歌的SEO。
主持人Jacob: 这真是个很有趣的观点。你认为我们离计算机使用的广泛应用还有多远?
鲍勃·麦克格鲁: 嗯,我的意思是,我认为对于这些事情有一个很好的经验法则,那就是当你看到一个演示,它超级有吸引力,但还不太好用。用起来会很痛苦。然后,你知道,给它一年时间,它就会好十倍。而且,这种改进是呈对数线性增长的。所以好十倍,你知道,只是一个级别的改进。但一个级别的改进已经相当了不起。你会开始看到它被用于有限的使用场景。然后再给它第二年。到那时,它会出奇地有效,但你不能每次都依赖它。我们现在用聊天机器人就是这样,你仍然需要担心它们会产生幻觉。那么,采用的问题实际上取决于你要求的可靠性水平。任何可以容忍错误的领域都会比那些不能容忍错误的领域更快地实现自动化。
主持人Jacob: 所以我想回到乔丹最初的问题,基本上,现在你需要大量的辅助才能集成到正确的数据中,并定义定制的防护措施和工作流程,这是完全有道理的。那么,在“嘿,很棒的计算机使用模型,企业准备签约”之间,会存在什么样的中间层呢?这个中间层会是什么样的?
鲍勃·麦克格鲁: 伙计,我认为应该有初创公司来定义它。你知道,我认为我们还不完全知道答案。我认为,当你拥有像计算机使用这样的一般工具时,你会看到一个有趣的现象,它解决的问题在难度上是分形的,它可以解决很多问题。但随后你会看到一个真正重要的问题,而你无法完全解决它。然后你会说,好的,现在我们要针对这个做一些非常具体的,也许我们会为此采用一种程序化的方法。所以我认为我们会在一段时间内看到各种方法的混合。
主持人Jordan: 我很好奇,你显然一直在研究方面工作,并负责一些真正尖端的研究。我们稍微谈到了测试时计算。你对其他哪些领域特别感兴趣?
鲍勃·麦克格鲁: 嗯,我认为我们已经谈过了预训练。我们已经谈过了测试时计算。另一个真正令人兴奋的事情是多模态。多模态的重要日子。是的,今天发布了Sora。实际上,这在某种程度上是这个漫长历程的顶点。大型语言模型,我们假设是2018年发明的。很明显,你可以应用Transformer和一些相同的技术来适应其他模态。所以你包含了视觉,有了图像输出、音频输入和音频输出。
首先,这些东西一开始是作为类似DALLE或Whisper的辅助模型。最终,它们被集成到主模型中。长期以来一直抵制这种做法的模态是视频。我认为Sora是第一个进行演示的;其他公司,如Runway,以及一些其他的模型也相继出现。现在Sora本身已经发布了。我认为视频与其他模态相比,有两个真正有趣且不同的地方。
当你创建图像时,你可能真的只想通过一个提示来创建一个图像。也许你尝试几次。如果你是专业的平面设计师,你可能会编辑这个图像中的一些细节。但说实话,我们都不是。这里的很多用途是,你需要一些幻灯片吗?你是否想要一张图片来搭配你的推文或演示文稿?这是一个非常直接的过程。
然而,对于视频来说,哇。我的意思是,这是一系列扩展的事件。它不是一个提示。所以现在你实际上需要一个完整的用户界面。你需要考虑如何使这个故事随着时间的推移而展开。我认为这就是我们在Sora发布中看到的事情之一。Sora在这方面花费了更多的时间思考;产品团队在这方面投入了比其他一些平台更多的精力。
你还需要考虑的另一件事是,视频的成本非常高。训练这些模型非常昂贵,运行这些模型的成本也非常高。所以,虽然看到Sora质量的视频很有趣——而且我认为Sora的质量确实更好——但你必须稍微注意一下才能看到它的质量更好,至少如果你只看一个短暂的片段的话。
现在,任何拥有Plus账户的人都可以使用Sora。OpenAI发布了每月200美元的Pro账户,其中包括无限制的Sora慢速生成。当你拥有这种水平的质量和分发时,两个难题已经解决了。这将是其他竞争对手难以企及的高门槛。
主持人Jacob:视频模型在未来几年的发展会是什么样的?我的意思是,显然在大型语言模型领域,我们已经看到了巨大的进步,感觉去年的模型现在便宜了十倍,而且速度快得多。你认为视频方面也会有类似的改进吗?
鲍勃·麦克格鲁: 实际上,我认为类比非常直接。所以如果我考虑一下今天的视频模型和两年后的视频模型之间的差异,首先是质量会更好。现在的瞬时质量已经非常好了。你可以看到反射。如果你分享一些东西,所有难以解决的难题,你可以指出,哦,看,那里做了反射。有一些烟雾。你知道,困难的是扩展的、连贯的生成。
所以SOAR产品团队拥有一个故事板功能,允许你在不同的时间点,比如每五秒或每十秒设置检查点,以帮助为生成提供指导。你知道,从根本上说,如果你想从几秒钟的视频变成一个小时的视频,这是一个非常困难的问题。我认为这是你将在下一代模型中看到的东西。
另一方面,另一个类比是,我实际上认为它会非常像大型语言模型,如果你想要一个GPT-3质量的token,它比GPT-3刚出现时便宜100倍。Sora的情况也会如此,你将能够看到这些非常漂亮、逼真的视频,而且它们的成本几乎为零。
主持人Jacob: 我觉得梦想是有一部由人工智能生成的完整电影,赢得一些奖项之类的,你知道,用一个无耻的播客问题来问,你认为我们什么时候会有这样的电影?
鲍勃·麦克格鲁:我只能猜一下。哦,天哪。是的。说实话,赢得一个奖项某种程度上来说门槛太低了,对吧?我想有很多颁奖典礼。真的,这是一部你真正想看的电影吗?是的。我觉得我们会在两年后看到它,但它实际上会比我刚才说的更没那么令人印象深刻,因为你想看它的原因不是因为视频本身,而是因为有一位导演拥有创意愿景,并使用视频模型来实现他的创意愿景。我认为他们这样做是因为他们可以在这种媒介中做一些他们无法拍摄的东西。我们可以想象一下。我们这里没有人是导演,但我们都可以想象很多可能性。我们不是平面设计师,也不是导演,但,是的,未来会是这样。
主持人Jordan:没错。是的,我们这里有一些非常特定的技能。是的,我们看到很多公司涌现出来,试图成为人工智能领域的皮克斯。我们总是会问这个问题,什么时候这才是真正可行的?所以听起来比我们至少预想的要快得多。
鲍勃·麦克格鲁:这是我的猜测。一旦事情进展到可以演示的阶段,之后的进展会非常快。在此之前,进展非常缓慢,或者至少它是不可见的。
主持人Jordan:我想从视频转向机器人,你一开始加入 OpenAI 是为了研究很多机器人方面的东西。我们很想了解你对这个领域的看法,以及我们今天的处境,以及你认为它将走向何方。
鲍勃·麦克格鲁:这确实是一个非常私人的问题。当我离开 Palantir 时,我的一个想法是,机器人将成为深度学习变得真实的领域,而不仅仅是某人网站上的一个按钮。所以,我在 Palantir 和 OpenAI 之间花了一年的时间深入了解机器人技术,用深度学习编写了一些关于视觉的早期代码。这是一个非常具有挑战性的领域。当时,我以为可能还要五年;那是2015年,而那是完全错误的。但是,我认为现在是对的。我相信机器人技术将在五年后得到广泛应用,尽管会有一些限制。因此,我认为现在是创办一家机器人公司的好时机。
一个相当明显的观点是,基础模型在快速启动和运行机器人方面取得了巨大突破,使其能够在重要方面进行泛化。这有几个不同的方面。其中比较明显的是,利用视觉并将视觉转化为行动计划的能力,这是基础模型带来的。稍微不那么明显,也许更有趣的方面是整个生态系统已经发展起来了。现在我已经离开了 OpenAI,我花了一些时间和创始人在一起,我和一些机器人创始人聊过。一位机器人创始人告诉我,他们实际上已经设置了让机器人能够对话。这真的很酷而且容易得多;你可以告诉机器人做什么,它会理解大意。它使用一些专门的模型来执行操作。以前,写出你想要的东西很麻烦,你必须坐在电脑前,而不是看着机器人。现在你只需要和它说话就行了。
我认为我们仍然不清楚结果的一个主要区别在于,你是在模拟中学习还是在现实世界中学习。我们在机器人领域这两年的主要贡献是展示了你可以在模拟器中训练,并使其推广到现实世界。使用模拟器有很多原因;例如,在生产系统或现实世界中运行是很麻烦的。你可以进行免费测试等等。但是,模拟器擅长模拟刚体。如果你正在用坚硬的物体进行抓取和放置的任务,那就太好了。但是,世界上的很多东西都是软绵绵的物体。你必须处理布料,或者,当考虑仓库时,要处理纸板。不幸的是,模拟器在处理这些场景方面做得不是特别好。因此,对于任何想要真正通用的东西,我们现在唯一的方法就是使用现实世界的演示。正如你从最近出现的一些工作中所看到的,这实际上可以产生有希望的结果。
主持人Jacob:效果非常好。然后,我想,显然这在某种程度上是不可知的,比如,你知道的,当人们在机器人技术中发现缩放定律,以及人们可能需要多少远程操作数据时,但是你觉得我们离它很近了吗?或者,我的意思是,显然,你知道,在2015年,你认为还有五年。你认为我们离人们所说的机器人技术像 ChatGPT 那样的时刻还有多远,人们会说,哦,那真的很棒,那看起来很不一样而且有效。
鲍勃·麦克格鲁:关于预测,尤其是关于机器人技术的预测,你真的要考虑这个领域。所以我对机器人技术的大规模消费者采用持相当悲观的态度,因为在家里有一个机器人是很可怕的。机器手臂是致命的。它们可能会杀死你,更重要的是,它们会杀死你的孩子。而且,你知道,你可以使用不同种类的机器手臂,它们没有这些缺点,但它们有其他缺点。家是一个非常不受约束的地方。
但我确实认为,在各种形式的零售或其他工作环境中,我认为五年后我们会看到这种情况。如果你去亚马逊的仓库,你甚至可以看到这种情况;他们已经拥有解决了他们移动问题的机器人。你知道,他们正在研究抓取和放置。我认为你会在仓库环境中看到大量机器人推出。
然后,你知道,它将在一段时间内以领域为单位逐步推进。我不会预测它何时进入家庭,但我认为你会看到它被广泛应用。我认为在五年后,我们会以一种今天会感觉奇怪的方式在日常生活中与它们互动。
主持人Jacob:我的意思是,显然已经有一些独立的机器人公司。在某种程度上,显然机器人技术利用了基础,你知道,LLM 的进步。我很好奇,比如,你知道,这一切是否会融合?显然有些公司只做视频模型。有些公司专注于生物、材料科学。当你考虑它的长期发展方向时,你知道,是否会有一个庞大的模型涵盖所有这些?
鲍勃·麦克格鲁:在最前沿的模型规模上,我认为你应该继续期望这些公司推出一个模型。它将在他们所拥有的每种形式的数据的每个维度上做到最好。这是一个重要的警告。
专业化真正给你带来的是性价比。在过去的一年里,你已经看到最前沿的实验室在拥有大量智能的小模型方面做得更好,这些模型可以以非常低的成本完成类似聊天机器人的用例。
如果你是一家公司,在这一点上,一个非常常见的模式是,你弄清楚你希望人工智能为你做什么,然后你使用你喜欢的最前沿的模型来运行它。然后,你生成一个庞大的数据库,并微调一些更小的模型来执行该操作。你知道,这是一个非常常见的做法;OpenAI 提供这项服务,我相信这在每个平台上都是一个常见的模式。
你可以说,你知道,这非常非常便宜。现在,如果你像这样训练了一个聊天机器人,你的客户服务聊天机器人是这样训练的,如果有人偏离了脚本,它就不会像你原来使用前沿模型那样好。但这没关系;这是人们愿意接受的性价比。
主持人Jacob: 有一件我觉得很有趣的事情,我们之前聊天的时候,你提到了一个关于人工智能进展的宏观观点,基本上是在说,在2018年,我们曾预计,到了2024年,我们会拥有各种模型能力,你会从第一性原理出发认为,这些东西已经彻底改变了。就像世界相对于2018年几乎面目全非。虽然你们确实对更广阔的世界产生了巨大的影响,但我还不能说人工智能的普及已经完全改变了整个世界运作的方式。你认为为什么会这样?
鲍勃·麦克格鲁: 嗯,我只是想稍微重述一下,我觉得,虽然听起来很奇怪,但关于人工智能的正确心态应该是深深的悲观。比如,为什么进展如此缓慢?为什么,你知道,有人说人工智能导致了GDP增长了0.1%。但这并不是因为使用人工智能带来的生产力提升,而是因为建立训练人工智能所需的数据中心所产生的资本支出。所以,为什么人工智能在生产力统计数据中并不明显?就像人们在20世纪90年代谈论互联网时所说的那样。
我认为这有几个原因。首先,2018年的那种观点认为,一旦你可以和它对话,它就可以编写代码,那么所有人都会立即实现自动化。这和工程师被要求编写一个功能时的想法是一样的。你可能会想,“哦,是的,我可以在几个星期内搞定。”但是当你开始编写代码时,你就会意识到,“哦,实际上,这个功能比我想象的要复杂得多。” 如果你是一个优秀的工程师,你可能会估计两周,但实际上项目可能需要两个月。如果是一个糟糕的工程师,他们可能会发现这个功能根本就写不出来。
我认为当我们真正深入研究人类如何完成工作时,就发生了这种情况。是的,你可能会在电话里和他们交谈,但这并不意味着他们所做的只是和你交谈。其中涉及到真正的工作。从根本上说,人工智能可以自动化的只是一项任务。然而,一项工作是由许多任务组成的。当你仔细研究真实的工作时,你会发现,对于大多数工作来说,有些任务是无法自动化的。
即使你看看编程,例如,样板代码首先被优化,而那些更棘手的部分,比如确定你到底想做什么,则是最后才被解决的。所以我认为,随着我们继续推广人工智能,我们将发现它在自动化人类工作的全部范围方面存在越来越多的复杂性和局限性。
主持人Jordan:那么考虑到这一点,就进展而言,你认为今天有哪些领域被低估了,应该比现在得到更多的关注?
鲍勃·麦克格鲁:嗯,好的。这里有一个答案,我真正感兴趣的初创公司是那些人们利用人工智能来解决一些非常枯燥的问题的公司。
想象一下,你经营一家公司,你可以雇佣所有你想要的聪明人去做一些超级枯燥的事情,比如检查你所有的支出,并确保你进行了适当的比价。比如,如果你的采购部门都是像埃隆·马斯克那样的人,他们真的非常仔细地控制支出,那么你可能会省下很多钱。
没有人这样做,因为,你知道,那些真正能省钱的人,他们会觉得无聊。他们会讨厌这份工作,对吧?但是人工智能是无限耐心的。
它不必无限聪明。而且,你知道,我认为在任何地方,如果你在经营你的业务,你可以从那些无限耐心的人所做的事情中获得价值,那么这就是人工智能应该自动化的东西。
主持人Jacob:这很有趣,因为我一直认为咨询师是让聪明人去解决枯燥问题或在枯燥行业工作的套利方式。而显然,有了尖端的人工智能模型,你就可以让一个智商很高的人去解决你永远不可能让一个聪明人去做的问题。
鲍勃·麦克格鲁:是的,我的意思是,我第一次听说有人做了生产力研究,结果表明人工智能确实带来了20%到50%的提升。我就想,哇,太棒了。然后我就发现,哦,是咨询师。嗯,你知道,人工智能非常擅长“扯淡”,而咨询师的工作就是“扯淡”。所以也许我们不应该感到惊讶,生产力的提升首先出现在这里。
主持人Jacob:是的,我认为在表现较差的后一半人中提升幅度也是最大的,对吧?
鲍勃·麦克格鲁:没错。嗯,实际上,我认为这有点令人充满希望。因为如果你看看表现较差的后一半人,你知道,他们拥有人类拥有的、难以自动化的技能,这是这个事情充满希望的版本。他们知道他们在做什么,但他们不知道如何编写代码来实现它。然后模型出现了,它说,哦,我知道如何编写代码来实现它,但我不知道我应该做什么。所以现在这些表现较差的人实际上可以在他们的工作中得到真正的提升。所以我觉得这非常令人充满希望。
主持人Jordan:我想,就表现而言,你曾经并且正在与世界上一些最优秀的研究人员合作。你认为是什么让一个人工智能研究人员成为最优秀的?
鲍勃·麦克格鲁:有许多不同类型的研究人员做着不同的事情。如果你想到像亚历克·拉德福德这样的人,他发明了GPT系列和CLIP,你会发现他基本上发明了大型语言模型(LLM),然后继续进行各种形式的多模态研究。亚历克是一个喜欢在深夜的奇怪时间独自工作的人。相比之下,其他像伊利亚·苏茨克维和雅各布·皮乔基这样的杰出人物,他们分别是OpenAI的第一任和第二任首席科学家,他们有伟大的想法和愿景。他们帮助其他人解决挑战,并在为公司制定整体路线图方面发挥着关键作用。
最优秀的科学家们都有一个共同的关键特征,那就是一定的毅力。我永远记得看着阿迪亚·拉梅什,他发明了DALL-E,努力解决生成一张不在训练集中的图像的问题,以证明神经网络具有创造力。DALL-E的最初想法是看看它是否能创造一张粉红色熊猫在冰上滑冰的图片,阿迪亚确信这张图片不存在于训练数据中。他为此工作了18个月,也许是两年,试图实现这个目标。
我记得大约一年后,伊利亚过来给我看了一张照片,说:“你看,这是最新一代的。它真的开始起作用了。” 我看到的是一片模糊,顶部隐约可见粉红色,底部是白色——只是像素开始聚集在一起。我当时还看不出什么,但阿迪亚坚持不懈。这种坚韧是每一个成功的科研人员在解决基础问题时必须具备的。他们必须把这看作是他们的“最后一战”,并且决心为此坚持数年,如有必要的话。
主持人Jacob:为了使其发挥作用。你从组建这样一个由这样一群人组成的研究机构中学到了什么?
鲍勃·麦克格鲁:嗯,有趣的是,我能想到的最好的类比实际上来自 Palantir 的 Alex Carp,他总是说工程师是艺术家。这很有道理。当你和一位真正优秀的工程师交谈时,他们只想创造。他们心中有某种东西。代码是他们将心中的雕塑变成现实的方式。
在 Palantir,你知道,你必须让他们修复bug,但每次你这样做,他们艺术家的那一面都会感到悲伤。你必须有一个流程来让人们协同工作,但他们艺术家的那一面会感到悲伤。事实是,工程师是艺术家,一个 10 倍工程师是 10 倍的艺术家,而研究员是任何工程师的 100 倍艺术家。
要建立一个拥有研究人员的组织,需要考虑的事情要多得多。有一种工程管理方式,你会说如果每个人都是可互换的零件,并且你有一个允许他们协同工作的流程,那就太好了。然而,与研究人员合作是非常需要密切关注的,因为最关键的是你不能扼杀他们的艺术性。
正是他们头脑中对愿景的热情,使他们愿意承受所有将愿景变为现实的挑战。
主持人Jordan:你很幸运曾在 Palantir 和 OpenAI 工作过,而且有很多文章都在讨论 Palantir 的文化非常特别。当你想起 OpenAI 时,我相信未来也会有很多关于其文化的文章。你认为这些文章会怎么说?
鲍勃·麦克格鲁:是的。我的意思是,我认为其中一点是像我们刚才谈到的那样,与研究人员合作。关于 OpenAI 另一件疯狂的事情是它经历了多少次转型,或者我更喜欢把它看作是多次重建。所以当我加入 OpenAI 时,它是一个非营利组织。公司的愿景是通过撰写论文来构建 AGI。我们知道这是错误的;感觉不太对劲。早期的很多人,Sam、Greg 和我,都是创业人士,而这条通往 AGI 的道路感觉不对。
几年后,公司从非营利组织转型为营利组织。这在公司内部引起了很大的争议,部分原因是,我们知道在某个时候我们将不得不与产品互动。我们必须考虑如何赚钱。与微软的合作成了另一个重建时刻,这也引起了很大争议。我的意思是,也许赚钱是一回事,但是把它给微软,给大型科技公司,哇,太糟糕了。
此外,同样重要的是,我们决定说,好吧,我们不仅要与微软合作,我们还要使用 API 构建自己的产品。最后,通过 ChatGPT 将消费者服务添加到企业服务中。这些都是初创公司会经历的决定性的转型。在 OpenAI,感觉好像每 18 个月或每两年,我们都在从根本上改变公司的宗旨和在那里工作的人们的身份。
我们从撰写论文是你的工作的概念,转变为构建一个世界上每个人都可以使用的模型的想法。真正疯狂的是,如果你在 2017 年问我们正确的使命是什么,那不会是通过撰写论文来实现 AGI;相反,那会是我们想构建一个每个人都可以使用的模型。但是我们不知道如何实现这一目标,所以我们只能探索并一路找出所有这些事情。
主持人Jacob:你认为是什么让你们在进行这些重大转变时如此成功?
鲍勃·麦克格鲁:嗯,我的意思是,首先是必要性。这些都不是随意选择的,对吧?你有一个非营利组织,你花光了钱,也许你需要找到一种筹集资金的方式;也许为了筹集资金,你必须成为一家营利性公司。你与微软的合作,也许他们没有看到你正在创建的模型的价值,所以你需要构建一个 API,因为它可能真的有效。然后你可以向他们展示,人们实际上想要这些模型。
ChatGPT,我认为这是我们在 GPT-3 之后真正相信的,通过正确的进步,正确的形式不仅仅是人们必须通过中介才能与模型对话的 API,而是该模型将是你可以直接与之交谈的东西。所以这是我认为非常刻意的一件事。但众所周知,它的发生方式是一个意外。我们正在研究它。我们实际上已经训练了 GPT-4,并且我们希望在模型足够好,以至于我们每天都使用它时发布。
我们在 11 月都看了 ChatGPT,我们想,它通过了门槛了吗?不完全是。领导这个团队的联合创始人之一 John Schulman 说,听着,我真的只想发布它。我想获得一些外部经验。我记得当时在想,如果有一千人使用它,那将是成功。你知道,我们对成功的标准相当低。我们做出了一个决定,没有把它放在等待列表之后。
然后,你知道,世界再次迫使我们出手,突然之间,世界上每个人都想使用它。当你发布它时,最初的几天是什么样的?哦,我的天啊,那是非常紧张的。起初,人们有些不相信这真的会发生。有一些焦虑。我们迅速尝试找出如何获得 GPU。所以我们暂时把一些研究计算资源转移到了那里。
然后就出现了这个问题,它什么时候会停止?这种情况会继续下去还是会成为一种时尚?因为我们几乎在 DALL-E 上也经历过类似的事情。DALL-E 2 模型曾在互联网上引起轰动,然后就消失了。所以人们担心 ChatGPT 实际上也会消失。这是我非常坚信它不会消失的地方,它实际上会比 API 更重要。
主持人Jacob:我的意思是,多么有趣的经历啊。我想其中一件很酷的事情是,你离尖端 AI 研究非常近。我很好奇,在过去的一年中,你在 AI 领域改变了什么想法?
鲍勃·麦克格鲁:有趣的是,我不认为我改变了什么想法。在 GPT-3 之后,进入 2020 年、2021 年,如果你身处其中,那么未来四五年需要发生的事情,很多都感觉是理所当然的。我们将拥有这些模型。我们将使模型变得更大,它们将成为多模态的。即使在 2021 年,我们也在谈论如何需要在语言模型上使用 RL,并尝试找出如何使其工作。而且,2021 年和 2024 年之间的真正区别不是说需要发生什么,而是我们能够让它发生这个事实。而且,你知道,我们,整个领域,都能够让它发生。但在某种意义上,我们现在的处境也感觉有点命中注定。
主持人Jacob:我猜想,展望未来,当你考虑扩展预训练和扩展测试时计算时,感觉它也像是命中注定要仅凭这两者就达到 AGI 吗?或者,你是如何看待这个问题的?
鲍勃·麦克格鲁: 我很难理解AGI(通用人工智能)的概念。而且,我认为,如果说有什么的话,我对AGI有一个很深的批判,那就是不存在一个单一的时刻,实际上,这些问题是分形的。而且,我们将看到越来越多的事物被自动化。但不知怎么的,我们——我不知道。我有一种感觉,它会变得非常平庸,不知何故,我们都会开着自动驾驶汽车去办公室,在那里指挥着人工智能大军。然后我们会觉得,哦,这有点无聊。感觉仍然像在办公室,我的老板仍然是个白痴。这大概就是我们AGI的未来。我们迫不及待地等待下午五点下班之类的。
更严肃地说,我一直觉得,而且我认为这在OpenAI内部以及其他前沿实验室也是一种普遍的观点,即解决推理是扩展到人类水平智能所需的最后一个基本挑战。你需要解决预训练,你需要解决故障模态,你需要解决推理。此时,剩下的挑战就是扩展。但这非常重要。
扩展非常困难。实际上,根本没有多少基础性的想法。几乎所有的工作都是在如何将它们扩展到接受越来越大的计算量。这是一个系统问题。这是一个硬件问题。这是一个优化问题。这是一个数据问题。这是一个预训练问题。所有的问题实际上都只是关于扩展。所以,是的,我认为在某种程度上,它已经是注定的了。这里的工作是扩展它,但这很难。大量的工作。
主持人Jacob: 显然,我认为人们在谈论这些模型扩展其能力的社会影响。我认为我们仍然处于这种讨论的早期阶段,可能有很多不同的对话需要进行。但您对哪些方面特别感兴趣和充满热情,您认为我们应该谈论哪些方面?
鲍勃·麦克格鲁: 是的。我认为最有趣的是,我们正在从一个智能可能是社会中最稀缺资源的时代,过渡到一个智能将无处不在且免费的时代。那么,稀缺的生产要素又是什么呢?而且,我认为我们不知道。我猜是能动性。也就是说,你可以去完成事情。你需要提出什么正确的问题?你需要追求哪些正确的项目?我认为这些类型的问题对于人工智能来说很难为我们解决。我认为这些将是人类需要弄清楚的核心问题。而且,并非每个人都擅长这一点。所以,我认为我们需要思考的是,我们如何发展那种让我们能够与之合作的能动性。
主持人Jordan: 您认为这是现在,还是未来?
鲍勃·麦克格鲁: 我认为它会感觉非常连续。这是一条指数曲线。而指数曲线的特点是,它们没有记忆。你总是感觉,你总是在以相同的速度、相同的节奏前进。
主持人Jacob: 这些模型最终不会也弄清楚,我的意思是,如果你考虑一下弄清楚要做什么或项目目标,你刚刚提到了几次?例如,你可以想象,在未来最基本的层次上,对模型说,嘿,建立一家好公司,或者创作一件有趣的艺术作品,或者制作一部电影,等等。随着这些模型变得更强大,这种能动性,我想,也许可以谈谈这一点。
鲍勃·麦克格鲁: 是的,我的意思是,你能否直接要求人工智能解决所有问题?好吧,我认为你可以,而且你会得到一些结果。但我们以Sora为例。如果你在制作一个视频,你给它一个非常模糊的提示,它会完全为你创建一个视频。也许它会是一个非常酷的视频。也许它会比你能想到的最酷的视频还要好。但它可能不是你想要的视频。
因此,你也可以与它互动,你给它一个非常详细的提示,你说,我对我想看到的视频做了这些具体的选择。这让你能够创建让你自己或你的观众满意的视频。
我认为这种张力将持续存在,无论人工智能多么先进,因为你如何填充空白将决定最终产品的很多内容。
主持人Jacob: 您今天是如何使用最先进的O1模型的?
鲍勃·麦克格鲁: 我理解模型,并与之交互的首选方法是,我花了很多时间教我八岁的儿子学习编程。他喜欢问问题,所以我总是在想如何将他今天感兴趣的事情与我想教给他的课程联系起来。
例如,有一天他说,“爸爸,什么是网络爬虫?它是如何工作的?”这给了我一个机会,我说,好吧,我可以用一个简短的程序来教他网络是如何工作的吗?我尝试使用一个O1模型,努力创建一个足够简短的程序,并且不引入太多我还没有教过他的新概念。
目标是教他关于网络的知识,这是我希望他理解的核心概念,同时确保内容对于一个八岁的孩子来说是易于理解的。这花了一些时间来调整程序,但我相信学习过程的一部分是实验,测试不同的想法是其中一个重要的方面。
主持人Jordan: 我想在测试方面,当您从研究测试的角度考虑时,当新模型出现时,您通常会进行哪些核心评估,并且您最依赖哪些评估?
鲍勃·麦克格鲁: 好吧,我的意思是,这里首先要指出的是,它随着每一代模型而变化。你知道,当我们开发O1模型时,要看的正确指标是GPQA,它代表谷歌证明问题解答。然而,当我们准备发布时,它不再是一个非常有趣的指标,因为我们已经从一开始几乎什么都没做到,到它完全饱和。最后剩下的几个问题通常是措辞不当或不太有趣的问题。因此,你选择的指标很大程度上取决于你在研究中试图做的工作,我认为这是一个普遍的经验。
然而,在过去几年中一直有用的事情是编程。编程是一项结构化的任务,包括我自己和其他研究人员在内的许多人都可以理解,这非常重要。它可以从完成一行代码扩展到编写整个网站。我们还没有达到编程被完全解决的程度,我认为我们还有很长的路要走。我相信,在我们可以真正完成一个真正的软件工程师的工作之前,还有几个数量级的差距。
主持人Jacob:你早期的职业生涯中有一件事很明显,你当时正在攻读计算机科学博士学位,而且我记得至少有一部分专注于博弈论。显然,我认为使用这些模型来探索博弈论中的课题有很多有趣的含义。我想问的是,一般来说,你认为人工智能将如何改变社会科学研究、政策制定以及其他相关领域?如果你今天用这些模型的力量重新审视你之前的工作,你会尝试做些什么?
鲍勃·麦克格鲁:首先,我其实对学术界非常失望。我认为它有一套糟糕的激励机制。在某些方面,我把OpenAI的组织设计成学术界的镜像,创造一个协作可以蓬勃发展的地方。
商业中一个有趣的方面是,很多产品管理的工作都类似于实验社会科学。你有一个想法,你想在人类身上测试一下。你希望在采用良好方法的同时,看看它是如何工作的。A/B测试就是一个很好的例子;当你这样做时,你实际上是在进行一种社会科学。
这是我特别兴奋的事情之一:如果你在进行A/B测试,为什么不把你现在与用户的所有互动都拿来,用这些数据微调一个模型,然后你就突然有了一个模拟用户,它的反应方式与你的实际用户一致?这意味着你可以在不投入生产的情况下进行A/B测试。也许之后,你可以对其中一个模拟用户进行深入访谈,了解他们的想法。
这在今天可行吗?我不知道。我还没有尝试过,但明天也许就行了。我认为这是一个很好的普遍原则:每当你发现自己想让别人为你做某事时,考虑一下是否可以要求人工智能来做。而且,人工智能可能可以处理数百个任务,而人类可能只能完成一个任务,而且还很费劲。
主持人Jordan:是的,我让雅各布为我做了很多任务,所以。
主持人Jacob:是的,你应该停止那样做。你应该开始问我的模型。感谢你交付了它。你帮我节省了很多时间。你提到,我想,你设计了学术界现有的激励机制,并设计了与此形成对比的OpenAI组织。能多谈谈这方面吗?
鲍勃·麦克格鲁:是的,是的。我的意思是,回想一下2017、2018、2019年。当时,人工智能研究实验室还不是一个大产业。它们只是研究实验室。很多参与其中的人来自学术界。如果你看看学术界的结构,就会发现它有一套激励机制,对于其最初的设计来说是足够好的。然而,人们非常关注功劳——到底是谁做了这个?论文上的人名按照什么顺序排列?这对于具有学术背景的人来说非常重要。
也许你不想与他人合作,因为它会冲淡你对结果的贡献。如果有两个人一起解决问题,这通常更像是竞争,而不是一个把工作速度提高一倍的机会。在这种背景下,我认为DeepMind考虑建立一个模仿学术界但又在公司框架内运作的实验室,这样我就可以指导人们,并只专注于深度学习。
另一方面,我认为Brain最初的目标是聚集一些学者,以一种非常学术的方式进行探索性研究。我不会强加方向,而是会在外部安排产品经理,以便他们可能会抓住这些伟大的想法并将其转化为产品。与此同时,我们是一群创业人士,以及一些杰出的研究人员,包括像伊利亚这样的人。我们的观点是,研究实验室应该像一家初创公司一样运作。
我们认为,在明确前进方向的同时,给予人们很多自由非常重要,特别是那些杰出的研究人员——其中一些人我们当时甚至没有意识到他们很出色。我们的目标是让他们找到他们愿意“为之奋斗”的“山头”,以创造他们渴望创造的卓越工作。我们强调合作,确保人们为了一个统一的目标而共同努力,而不是仅仅专注于发表大量的论文。
主持人Jacob:我喜欢这个说法。我想你早先已经回顾了OpenAI历史上一些最著名的决定,从非营利组织到转型,与微软的合作,发布ChatGPT的API。有没有哪个也许不是那么有名,但你认为是关键的决策点?或者说,你认为哪个决策是很难做出的,或者哪个决策真正改变了组织的走向?
鲍勃·麦克格鲁:我认为我之前没有谈到的一个决定,但当时也颇具争议,那就是决定加倍投入语言建模,并使其真正成为OpenAI的中心焦点。这个决定很复杂,原因有很多。这样的改变涉及到重组和调整结构,人们必须改变他们的工作。
再次强调,我们最初的文化鼓励尝试各种不同的方法,看看哪些方法奏效。我们第一个重要的重大努力是共同努力玩Dota 2游戏,这延续了人工智能解决越来越难的游戏的伟大传统。你从国际象棋到围棋,然后到Dota 2和星际争霸,这在某种程度上感觉没那么酷。然而,我可以向你保证,从数学上讲,这些游戏真的比围棋和国际象棋更难,即使它们没那么优雅。
Dota 2项目取得了巨大成功,它教会了我们很多东西。从那次经验中,我们得出了这样一个信念:你可以通过扩大规模来解决问题,并有一套用于此目的的技术工具。因此,通过决定关闭更多探索性项目,例如机器人团队和游戏团队,并真正将重点重新放在语言模型和通用生成模型上,包括多模态工作,我相信这是一个非常关键的选择,尽管当时非常痛苦。
主持人Jacob:我早先注意到一件事,你显然提到,你在用你八岁的孩子测试这些模型。而且,我想在你做父母的这段时间里,显然八年前的世界与现在大不相同,这在很大程度上归功于你在人工智能领域推动的进步。我想知道,无论是为了你的生活,还是你养育孩子的方式,你是否基于你对这些模型的力量将在多快的时间内显现在这个世界上而更新的信念,从而改变了什么?
鲍勃·麦克格鲁:是的,我认为事实是我并没有改变什么。而且我认为这可能是我的一个失败之处,对吧?比如,谁比我更适合去搞清楚孩子们应该学习什么呢?然而,我认为我几乎还在尝试教他们和八年前一样的东西。
当ChatGPT可以为他编码时,我为什么要教我八岁的儿子编码呢?我认为这是一个谜。但是,在某种意义上,未来是注定的,但实际的运作方式的轮廓,我认为将是非常神秘的,并且会随着时间的推移向我们揭示。
因此,我认为尝试那些刚好在你能力边界上的事情的古老真理非常重要。你要努力学习数学,努力学习编码,写作,学习写好文章,学习广泛阅读。我认为这些将培养孩子们和坦率地说,成年人需要的技能,无论人工智能最终会做什么。
因为从根本上说,这与编码无关。这与数学无关。而是关于你学习如何以结构化的方式思考问题。
主持人Jordan:好的,这一切都太棒了。我相信我们可以和您再聊上几个小时。但我们喜欢用一些快速问答来结束对话。第一个问题是,在当今的AI领域,什么是被过度炒作的,什么是被低估的?
鲍勃·麦克格鲁:哇,好的。嗯,对于什么是过度炒作的,一个简单的答案是,我认为是新的架构。市面上有很多新的架构。它们看起来很有趣,但往往在规模化时会崩溃。所以,如果有一个在规模化时不会崩溃的架构,那它就不会被过度炒作。在那之前,它们都是被过度炒作的。至于被低估的,我认为是01。我觉得它被炒作得很厉害,但它是否被恰如其分地炒作了呢?没有。我认为它被低估了。
主持人Jacob:我知道我们的听众都会很好奇,所以我会问,但您能否分享一些关于您在这个时候离开OpenAI的原因?
鲍勃·麦克格鲁:嗯,事实是,我在那里工作了八年,我真的觉得我完成了当初我来这里时想要完成的大部分事情。而且,我宣布辞职的时间是在O1预览版发布之后,这并非巧合。你知道,我们开发了一个特定的项目,一个研究项目,再次强调,是预训练,多模态推理。这些问题都得到了解决。坦率地说,这是一份艰苦的工作。当我觉得我已经完成了我需要做的事情时,是时候把它交给下一代对这份工作充满热情并致力于解决剩余问题的人了。我认为他们面临的问题非常令人兴奋。
你对未来有什么打算吗?我离开Palantir后,在加入OpenAI之前花了两年时间。我开始筹划一家机器人公司,并且尝试了很多事情。我亲自动手制造东西,并与很多人交谈。坦率地说,我犯了很多错误,但没有哪个错误是真正重要的。在这个过程中,我学到了很多,并形成了自己关于什么对世界重要以及技术进步的本质是什么的理论。
所有这些经历,我遇到的人,以及我想出的想法都帮助我加入了OpenAI。事实证明,这比我离开Palantir后的前六个月里所能选择的任何事情都要好得多。所以,我不着急。我将继续与人会面并弄清楚事情。我真的很享受思考和学习新事物的过程。
主持人Jacob:既然您现在有更多的时间了,有没有什么您特别想深入研究的领域,或者是一些您一直想花更多