「从现在开始,基础模型可能在后台运行,让其他模型能够完成它们自己无法完成的壮举——就像一个老隐士从秘密山洞中传递智慧。」
最近几个月,从各路媒体、AI 社区到广大网民都在关注 OpenAI 下一代大模型「GPT-5」的进展。
我们都知道 OpenAI 在研究新模型,新模型可能遭遇了困难无法按计划推出,但如果有人说 GPT-5 已经在某个地方塑造世界了,你会怎么想?
假设如下:OpenAI 已经构建了 GPT-5,但将其应用在了内部,因为这样做投资回报远高于将其发布给数百万 ChatGPT 用户。此外,他们获得的投资回报不是金钱。如你所见,这个想法很简单,难就难在如何将那些细枝末节的线索联系起来。最近,技术分析师 Alberto Romero 深入探讨了这个思路。
首先澄清一下:这并不是 100% 可靠的猜测。证据是公开的,但没有泄密或内幕传言证实该想法是对的。作者没有获得独家信息 —— 如果有,也无论如何都会签署保密协议。不过,至少从逻辑上讲,这个猜想看起来很有说服力。
让我们看看这篇文章是怎么说的。
原文地址:https://www.thealgorithmicbridge.com/p/this-rumor-about-gpt-5-changes-everything
一、Opus 3.5 的神秘消失
在介绍 GPT-5 之前,我们必须先去拜访它的远亲,同样失踪的 Anthropic 的 Claude Opus 3.5。
如您所知,海外三大人工智能实验室 OpenAI、Google DeepMind 和 Anthropic 提供了一系列覆盖各价位段、延迟与性能范围的大模型服务。OpenAI 提供了 GPT-4o、GPT-4o mini 以及 o1 和 o1-mini 等;Google DeepMind 提供 Gemini Ultra、Pro 和 Flash;而 Anthropic 有 Claude Opus、Sonnet 和 Haiku。
他们的目标很明确:迎合尽可能多的客户。有些人优先考虑顶级性能,而另一些人则寻求负担得起、足够好的解决方案,至此一切都很好。
但 2024 年 10 月发生了一件奇怪的事情。每个人都期待 Anthropic 宣布推出 Claude Opus 3.5 以回应 GPT-4o(于 2024 年 5 月推出)。然而到 10 月 22 日,他们发布了 Claude Sonnet 3.5 的更新版本(人们开始称之为 Sonnet 3.6)。Opus 3.5 却不见了,似乎 Anthropic 没有了 GPT-4o 的直接竞争对手。到这里研究进度似乎出现了问题。以下是人们所说的内容以及 Opus 3.5 实际发生的事情:
10 月 28 日,有传言称 Sonnet 3.6 是…… 备受期待的 Opus 3.5 训练失败的中间检查点。r/ClaudeAI subreddit 上出现了一篇文章称 Claude 3.5 Opus 已被废弃,并附有指向 Anthropic 模型页面的链接。截至今天,该页面没有提及 Opus 3.5。有人猜测,删除 Opus 3.5 是为了在即将到来的融资轮之前保持投资者的信任而采取的战略举措。
11 月 11 日,Anthropic 首席执行官 Dario Amodei 在 Lex Fridman 播客上否认他们已经放弃 Opus 3.5,从而消除了谣言:「没有给出确切的日期,但据我们所知,计划仍然是推出 Claude 3.5 Opus。」态度谨慎,但是确认。
11 月 13 日,彭博社的报道证实了之前的传言:「经过训练后,Anthropic 发现 3.5 Opus 在评估中的表现优于旧版本,但考虑到模型的大小以及构建和运行的成本,其优势并没有达到应有的程度。」Dario 似乎没有给出日期,因为尽管 Opus 3.5 的训练运行没有失败,但其结果却不尽如人意。请注意,重点是相对于性能的成本,而不仅仅是性能。
12 月 11 日,半导体专家 Dylan Patel 和他的 Semianalysis 团队给出了最后的情节转折,提出了一个将所有数据点编织成一个连贯故事的解释:「Anthropic 完成了对 Claude 3.5 Opus 的训练,它表现良好,并且能够适当扩展…… 但 Anthropic 并没有发布它。这是因为 Anthropic 没有公开发布,而是使用 Claude 3.5 Opus 来生成合成数据并进行奖励建模,从而与用户数据一起显著改进了 Claude 3.5 Sonnet。」
简而言之,Anthropic 确实训练了 Claude Opus 3.5 大模型。他们放弃了这个名字,因为它还不够好。Dario 相信不同的训练尝试可以改善结果,因此避免给出发布日期。彭博社证实结果比现有模型更好,但不足以证明推理成本是合理的。Dylan 和他的团队发现了神秘的 Sonnet 3.6 和失踪的 Opus 3.5 之间的联系:后者正在内部用于生成合成数据以提高前者的性能。
二、更好的模型变得更小,更便宜?
使用强大、昂贵的模型生成数据来提升略弱但更便宜的模型性能的过程被称为蒸馏。这是一种常见做法。这种技术允许 AI 实验室将他们的小型模型提升到仅靠额外预训练无法达到的水平。
蒸馏有多种方法,但我们不会深入讨论。你需要记住的是,作为「教师」的强大模型将「学生」模型从 [小、便宜、快速]+ 弱变成 [小、便宜、快速]+ 强大。蒸馏将强大模型变成金矿。Dylan 解释了为什么 Anthropic 对 Opus 3.5-Sonnet 3.6 这对模型这样做是有意义的:
推理成本(新 Sonnet 与旧 Sonnet 相比)没有显著变化,但模型性能提升了。为什么要发布 3.5 Opus 呢?从成本角度来看,相比发布经过 3.5 Opus 进一步后训练的 3.5 Sonnet,这样做在经济上是不合理的。
我们又回到了成本问题:蒸馏能在保持推理费用低廉的同时提升性能。这立即解决了彭博社报道的主要问题。Anthropic 选择不发布 Opus 3.5 不仅仅是因为性能不佳,而是因为它在内部更有价值。(Dylan 说这就是为什么开源社区能这么快赶上 GPT-4—— 他们直接从 OpenAI 的金矿中获取黄金。)
最惊人的发现是,Sonnet 3.6 不仅仅是好 —— 它达到了 SOTA 水平,比 GPT-4o 更好。由于从 Opus 3.5 蒸馏(可能还有其他原因,五个月在 AI 时间里很长),Anthropic 的中端模型超越了 OpenAI 的旗舰产品。突然间,高成本作为高性能的代理指标被证明是错误的。
「bigger is better」怎么了?OpenAI 的 CEO Sam Altman 警告说这个时代结束了。一旦顶级实验室变得神秘,小心翼翼地保护他们珍贵的知识,他们就停止分享数字。参数数量不再是可靠的衡量标准,我们明智地将注意力转向基准性能。OpenAI 最后一次正式披露的模型大小是 2020 年的 GPT-3,拥有 1750 亿参数。到 2023 年 6 月,有传闻称 GPT-4 是一个专家混合模型,总计约 1.8 万亿参数。Semianalysis 后来在详细评估中证实了这一点,得出 GPT-4 有 1.76 万亿参数的结论。这是 2023 年 7 月的事。
直到 2024 年 12 月,那是在一年半后,EpochAI(一个专注于 AI 未来影响的组织)的研究员 Ege Erdil 在文章《Frontier language models have become much smaller》中估计,领先的 AI 模型(包括 GPT-4o 和 Sonnet 3.6)比 GPT-4 小得多(尽管两者在基准测试中都优于 GPT-4):
以下是韩语翻译结果:……GPT-4o 和 Claude 3.5 Sonnet 等当前的前沿模型的参数量可能比 GPT-4 小一个数量级:4o 大约有 2000 亿参数,3.5 Sonnet 大约有 4000 亿参数…… 考虑到我得出这个数字的粗略方式,这些估计值可能有 2 倍的误差。
알고랜드(ALGO)와 후오비 토큰(HT), 옵티미즘(OP), 컴파운드(COMP), 알위브(AR), 온톨로지(ONT), Ronin(RON), 온톨로지가스(ONG), 제미니(Gemini), 트론(TRON)이 블록, 초당 거래 수(TPS), 리스크, 태그, 대량, 융자로 번역되었습니다.
以下是韩语翻译: 不用说,两家公司都不希望合作关系破裂。OpenAI 设定了这个条款,但会做任何必要的事情来避免遵守它。其中一种方式是推迟发布可能被标记为 <알고랜드(ALGO)> 的系统。「但 <알고랜드(ALGO)>-5 肯定不是 <알고랜드(ALGO)>,」你会说。而我会说这里有第二个事实,几乎没有人知道:OpenAI 和微软对 <알고랜드(ALGO)> 有一个秘密定义:<알고랜드(ALGO)>是一个「可以产生至少 1000 亿美元利润的 <알고랜드(ALGO)> 系统。」这个定义虽然在科学目的上无关紧要,但在法律术语上构建了他们的合作关系。 如果 OpenAI 假设性地以「还没有准备好」为借口扣留 <알고랜드(ALGO)>-5,除了控制成本和防止公众反弹外,他们还能多做一件事:他们会回避宣布它是否达到了被归类为 <알고랜드(ALGO)> 的门槛。虽然 1000 亿美元的利润是一个非凡的数字,但没有什么能阻止雄心勃勃的客户在此基础上创造更多的利润。另一方面,让我们说清楚:如果 OpenAI 预测 <알고랜드(ALGO)>-5 每年能带来 1000 亿美元的经常性收入,他们不会介意触发 <알고랜드(ALGO)> 条款并与微软分道扬镳。 对于 OpenAI 不发布 <알고랜드(ALGO)>-5 的大多数公众反应都基于这样的假设:他们不这样做是因为它不够好。即使这是真的,也没有怀疑者停下来想一想 OpenAI 可能有比他们从外部获得的更好的内部用例。创建一个优秀的模型与创建一个可以廉价地服务于 3 亿人的优秀模型之间存在巨大差异。如果你做不到,你就不做。但同样,如果你不需要,你也不做。他们之前给我们访问他们最好的模型是因为他们需要我们的数据。现在不那么需要了。他们也不追逐我们的钱。想要钱的是微软,而不是他们。他们想要 <알고랜드(ALGO)>,然后是 <알고랜드(ALGO)>。他们想要一个遗产。 文章接近尾声了。我相信我已经列出了足够的论据来建立一个坚实的案例:OpenAI 很可能在内部拥有正在运行的 <알고랜드(ALGO)>-5,就像 Anthropic 拥有 <옵티미즘(OP)> 3.5 一样。OpenAI 永远不会发布 <알고랜드(ALGO)>-5 也是有可能的。公众现在将性能与 <컴파운드(COMP)>1/<알위브(AR)>3 进行对比,而不仅仅是 <온톨로지(ONT)>-4 或 <온톨로지가스(ONG)> 3.6。随着 OpenAI 探索测试时 scaling law,<알고랜드(ALGO)>-5 需要跨越的门槛不断提高。他们如何能发布一个真正超越 <컴파운드(COMP)>1、<알위브(AR)>3 和即将到来的 <옵티미즘(OP)> 系列模型的 <알고랜드(ALGO)>-5 呢,特别是考虑到他们生产这些模型的速度?此外,他们不再需要我们的钱或数据了。 训练新的基础模型 ——<알고랜드(ALGO)>-5、<알고랜드(ALGO)>-6 及以后的模型 —— 对 OpenAI 内部来说永远有意义,但不一定作为产品。这可能结束了。现在对他们来说唯一重要的目标是继续为下一代模型生成更好的数据。从现在开始,基础模型可能在后台运行,让其他模型能够完成它们自己无法完成的壮举——就像一个老隐士从秘密山洞中传递智慧,只是这个山洞是一个巨大的数据中心。而无论我们能否见到他,我们都将经历他的智慧带来的后果。 即使 <알고랜드(ALGO)>-5 最终发布,这个事实突然显得几乎无关紧要。如果 OpenAI 和 Anthropic 确实启动了递归自我改进行动(尽管仍然有人类参与其中),那么他们公开给我们什么并不重要。他们将越走越远 —— 就像宇宙膨胀得如此之快,以至于远处星系的光再也无法到达我们这里。 也许这就是 OpenAI 如何在短短三个月内从 <컴파운드(COMP)>1 跳到 <알위브(AR)>3 的原因,以及他们将如何跳到 <옵티미즘(OP)>4 和 <옵티미즘(OP)>5。这可能也是为什么他们最近在社交媒体上如此兴奋。因为他们已经实施了一种新的改进后的运作模式。 你真的认为接近 <알고랜드(ALGO)> 意味着你能随时使用越来越强大的 <알고랜드(ALGO)> 吗?他们会发布每一个进展让我们使用?当然,你不会相信这个。当他们说他们的模型会让他们远远领先于任何人以至于无法追赶时,他们是认真的。每一代新模型都是逃逸速度的引擎。从平流层开始,他们已经在向我们挥手告别。 他们是否会回来还有待观察。


