第 108 封信:什么是法学硕士(LLM)学位,它是如何运作的?

本文为机器翻译
展示原文

看来大家最近都很喜欢人工智慧相关的内容,所以我们会继续更新。话虽如此,最近市场行情一路走高,所以我们得尽快再关注一下加密货币,看看哪些值得关注。

但今天,我们先来了解LLM的基本原理。我注意到,大多数每天使用ChatGPT或Claude的人根本不知道它们是如何运作的。

当然,这无可厚非。你不需要了解引擎的工作原理才能开车。但我认为,对引擎内部运作机制有基本的了解能让你成为更好的使用者。它能帮助你理解为什么人工智慧在某些方面表现出色,而在其他方面则表现不佳;它能帮助你提出更好的问题;它还能让你更不容易对输出结果过度信任或信任不足。

这篇文章写得有点长了,下面我们将讨论以下内容:

  1. 什么是法学硕士(LLM)?

  2. 法学硕士是如何「学习」的?

  3. 等等,所以这是自动补全功能?

  4. 什么是令牌?

  5. 参数方面呢?

  6. LLM 究竟是如何产生反应的?

  7. 这些模型究竟「知道」什么?

  8. 训练和微调有什么不同?

  9. 为什么有些模型比其他模型更好?

  10. 模型尺寸:为什么有些可以在笔记型电脑上运行,而有些则需要资料中心?

  11. 了解这些对你有什么帮助?

如果您有兴趣进一步提升您的 AI 学习之旅,那么请查看我与几位朋友共同创办的新公司: AI 的 Stoa

我们制作视讯课程,并每周举办直播研讨会和电话会议,向您展示将人工智慧融入日常工作流程的实用方法。

我们目前处于早期体验阶段,提供折扣价格,请点击这里了解详情: https://www.skool.com/thestoaofai


什么是法学硕士(LLM)?

LLM 代表大型语言模型。 ChatGPT、Claude、 Gemini以及所有其他 AI 聊天机器人都是基于这个模型构建的。

  • 语言。这些模型与语言打交道。输入文本,输出文字。你输入单词,它们产生单字回传。 (是的,它们现在也能处理图像、音讯和程式码,但其本质是语言机器,「语言」一词可以用来指称这些语言学习模型产生的任何输入/输出。)

  • 模型。在人工智慧领域,模型是指经过资料训练以识别模式的程式。如果你给一个从未见过猫的人看一百万张不同品种猫的照片,最终他就能很好地区分它们。 LLM 的概念也是如此。

  • 规模庞大。这些模型规模非常庞大。它们基于海量资料进行训练。我们说的是整个互联网的很大一部分。书籍、文章、维基百科、论坛、程式码库、学术论文。数十亿,甚至数万亿个单字。

将它们组合在一起,你就得到了:一个已经阅读了大量人类文本并从中学习语言模式的程式。

法学硕士是如何「学习」的?

「训练」过程的核心学习原理其实非常简单。你取一个句子,隐藏最后一个词,然后让模型预测接下来是什么。

“猫坐在___上”

模型进行猜测。如果猜错了,你就稍微调整一下模型,让它下次猜得更好。然后,你重复这个过程数十亿次,处理数十亿个句子。

随著时间的推移,模​​型能够越来越准确地预测下一个词。然后是下一个字。再下一个字。直到它能够产生听起来像是人写的整段整页的内容。

这是该过程的简化版本(专业术语是“下一个词元预测”),但它抓住了核心思想。 LLM 的本质是预测机器。它们根据之前接收到的所有资讯来预测接下来应该出现什么文字。

等等,所以这是自动补全功能?

某种程度上来说是这样。这种比较经常被提及,也有一定的道理。

手机的自动补全功能会根据简单的模式预测下一个单字。语言学习模型(LLM)也能做到这一点,但它拥有大量的数据、更强大的运算能力,以及对情境更深刻的理解。

尺度上的差异造就了性质上的差异。你手机的自动补全功能可能会在「in」之后提示「the」。而一位法学硕士(LLM)会为你撰写一篇关于量子物理的条理清晰、论证严谨的2000字论文,并且格式规范。两者都在预测下一个字。但前者预测得如此深刻、如此精妙,以至于最终呈现出来的内容看起来和读起来都像是真正理解了某个概念。

它是否真正理解问题,是目前人工智慧领域争论的焦点之一。我认为我们无需在此一一解答。从实际应用的角度来看,重要的是输出结果有用,而且往往非常出色。

什么是令牌?

代币是LLM(生命周期模型)的计量单位,也算是LLM的货币。使用Anthropic或OpenAI的前沿模型时,通常需要按使用的代币数量付费。

大多数人没有意识到一点:模型其实根本看不到你的文字,它看到的只是数字。

当你输入讯息时,首先发生的是你的文字被编码成标记,每个标记都被分配一个编号。 「hello」这个字可能变成标记15339。 「the」这个字可能变成标记1820。 「cryptocurrency」这个字可能被拆分成两个标记:「crypto」(54219)和「currency」(26072)。

这些数字是模型运作的基础。模型内部的每一次计算,包括模式匹配和预测,都是基于数字进行的数学运算。模型透过神经网路处理这些数字,并输出…更多的数字。这些输出的数字随后会被解码,最终呈现在你萤幕上的文字。

编码→数学运算→解码。这就是整个循环。

将文字转换为数字的过程称为编码。将输出的数字转换回文字的过程称为解码。您永远不会看到这些数字,模型也永远不会看到这些文字。在您和模型之间有一个转换层(称为分词器),负责来回进行编码和解码。

那么在「数学」部分发生了什么事呢?每个词元编号都会转换成向量,这是一个包含数百甚至数千个数字的长列表,代表了该词元的含义和上下文。 「river bank」(河岸)中的「bank」和「bank account」(银行帐户)中的「bank」所对应的向量就不同,因为周围的词元会影响它们的表示。

然后,模型会将这些向量逐层计算,不断调整和组合,并将每个词元与其他所有词元进行比较,以确定它们之间的关系和上下文(这就是你可能听说过的「注意力机制」)。经过数十层这样的计算后,最终输出是每个可能的下一个词元的机率分布。模型会选择一个机率分布,解码回文本,瞧!萤幕上就出现了一个单字。

这也是为什么语言学习模型(LLM)在诸如统计单字字母数或进行算术运算之类的事情上有时会表现异常的原因。模型并不把“strawberry”这个词识别为草莓,而是把它看作一个或两个标记数字。它没有单个字母的概念,因为这些字母在模型接触它们之前就已经被编码掉了。

一个词元大约是单字的四分之三,或大约四个字元。像“the”或“and”这样的常见短词算一个词元。较长或不常用的单字会被拆分成多个词元。

这对你很重要,因为LLM(逻辑学习模型)一次能处理的词元数量是有限的。这被称为上下文视窗。你可以把它想像成模型的工作记忆。

如果一个模型拥有 20 万个词元上下文窗口,那么它一次大约可以记住 15 万个单字。现在有些模型甚至能做到更高。 Claude Opus 4.6、Claude Sonnet 4.6 和Gemini都支援 100 万个词元上下文视窗。这大约是 75 万个单词,相当于 10 到 15 部完整的小说。 Meta 公司的 Llama 4 Scout 更是支援高达 1000 万个词元上下文。与几年前相比,这些数字令人震惊。

但要记住的是,更大的上下文视窗并不一定更好,也并非本质上就更好。

随著上下文视窗中元素数量的不断增加,模型的响应品质往往会下降。研究人员称之为「上下文腐烂」。模型无法平等地关注上下文中的所有资讯。它往往更关注开头和结尾附近的内容,而对中间部分的内容较少关注。 2023 年的一篇研究论文发现,当相关资讯被隐藏在冗长的上下文中间时,模型在寻找和利用这些资讯方面的表现会显著下降。

这意味著,给模型更多上下文资讯并非总是更好。如果你把 50 万个松散相关的文档词元(token)一股脑地塞进上下文窗口,而你的实际问题恰好与中间某个细节有关,那么你得到的答案可能不如只提供 1 万个最相关的词元。高品质的上下文资讯比大量的上下文资讯更重要。这听起来有点违反直觉,但事实就是如此。

就像所有人工智慧相关的领域一样,这些模型在这方面也不断进步。 Claude 在长上下文基准测试中名列前茅,而且每一代模型在短上下文和长上下文效能之间的差距都在缩小。

参数方面呢?

这是另一个你经常听到的庞大数字。许多模型都标榜拥有数十亿甚至数千亿个参数;有些模型甚至拥有数万亿个参数。但参数究竟是什么呢?

参数是模型的内部设定。可以把它们想像成一个个小旋钮,在训练过程中,每次模型做出预测并获得预测结果正确与否的回馈时,这些旋钮都会微调。

更具体地说,参数是决定上一节提到的向量在通过模型时如何转换的数值。它们控制著诸如以下方面:这个词应该对那个词给予多少关注?这个概念应该如何与那个概念关联?哪些模式是重要的,哪些模式是噪音?

神经网路中神经元之间的每个连接都有一个参数(权重),用于控制该连接的强度。一个拥有70亿个参数的模型有70亿个这样的连结。一个拥有万亿个参数的模型则有万亿个这样的连结。每一个参数都是经过数兆个训练样本的逐步调整而来的。

参数越多的模型可调整的参数就越多,这意味著它能够学习到更微妙、更复杂的模式。小型模型可能只会学习到「猫坐在垫子上」是一种常见模式。大型模型不仅能学习到这一点,还能学习到段落的情感倾向会随著「然而」一词的使用而改变,或者礼貌的提问方式与直截了当的提问方式相比,往往会得到不同的答案。模型越大,它就能捕捉到越多这样的微妙关系。

通常来说,参数越多,模型就越智能,但这并非唯一因素。训练资料的品质、架构选择和微调也同样重要,我们稍后会详细讨论。但在其他条件相同的情况下,参数越多,模型学习复杂问题的能力就越强。

权衡之处在于资源。每个参数都会占用记忆体。运行模型意味著将所有这些参数载入到 RAM(或 GPU 记忆体)中,并对生成的每个 token 进行计算。这就是为什么更大的模型需要更昂贵的硬体、运行成本更高、产生 token 的速度更慢的原因。

对于这类事情,你其实不需要记住确切的数字,也不需要了解事情的精确运作原理。

结论是:参数 = 模型学习复杂度的能力。

LLM 究竟是如何产生反应的?

当你向 Claude 或 ChatGPT 输入讯息时,大致会发生以下情况:

  1. 您的讯息将被转换为令牌(数字)。

  2. 该模型透过其神经网路(数十亿个参数)处理这些数字。

  3. 它预测下一个最有可能出现的标记(数字)。

  4. 该数字被加到序列中,模型预测下一个数字。

  5. 重复上述步骤,一次处理一个令牌,直到回应完成。

这就是为什么你会看到人工智慧回应时,文字是逐字逐句显示的。它是即时产生回应的,一次产生一个部分。它不会先写出完整的答案再显示出来,而是边生成边思考。

这也是为什么同样的提示有时会给出不同的答案。选择过程中内建了一定程度的随机性(称为“温度”)。模型并非总是选择最有可能的下一个词元。有时它会选择第二或第三可能的选项,这使得反应的方向略有不同。

大多数模型都允许您调整此设置,并要求模型使用更多非常规的响应。如果您正在进行创意写作或其他需要跳脱固有思维模式的工作,这将非常有用。而对于任何需要事实和精确性的任务,低温模型往往表现较佳。

这些模型究竟「知道」什么?

逻辑学习模型(LLM)没有一个用来找出事实的资料库。当你向它们提问时,它们不会翻阅文件柜。相反,知识就蕴含在它们的参数模式中。模型学习到某些事实倾向于出现在特定的情境中,并在情境需要时重现这些事实。

这就是为什么语言学习模式有时会编造内容。人工智慧界称之为「幻觉」。模型并没有说谎。它只是产生了一些看似最有可能的对话延续内容,而有时最有可能的内容并非事实。它是在进行预测,而不是回忆。

这是理解语言学习模型(LLM)最重要的一点。它们的目标是产生听起来自然流畅的文本,而不是内容正确的文本。这两者很多时候会重叠,但并非总是如此。

经验法则:事实越晦涩或越具体,模型出错或编造结果的可能性就越大。如果询问的是训练资料中频繁出现的、有据可查的主题,那么模型相当可靠。如果询问的是小众主题、近期事件或具体数字,则需要验证输出结果。

训练和微调有什么不同?

训练是模型读取所有文字并学习模式的初始过程。这既耗时又昂贵。仅计算成本,训练一个前沿模型就需要数亿美元(这个阶段有时被称为预训练,因为它发生在任何进一步改进之前)。

预训练的结果称为基础模型。基础模型很智能,对语言了解颇多,但与它们对话却很别扭。如果你问一个基础模型一个问题,它可能会像在写维基百科文章一样继续你的文本,或者生成一些随机的论坛帖子,或者以你意想不到的方式完成你的句子。它不知道自己应该提供帮助。它是一个文字预测机器,但并非像我们习惯使用的聊天助手(例如 chatGPTETC)那样的对话式助手。

微调是将基础模型转化为实用工具的关键。它是第二轮训练,使用规模更小、经过更精心挑选的资料集进行。在这一阶段,模型学习如何遵循指示、回答问题、进行对话,以及表现得像个合格的聊天机器人。

有几种不同类型的微调值得了解:

预训练和微调之间的成本差异巨大。从头开始预训练 GPT-5 或 Claude 模型需要花费数亿美元。而使用自己的资料微调开源模型,成本则从几美元到几千美元不等,取决于模型的大小和使用的资料量。

这就是开源模型如此重要的原因之一。你可以使用像 Llama 或 Mistral 这样的免费基础模型,根据你的特定资料进行微调,最终得到一个能够理解你的领域、运行在你自己的硬体上且每次查询都免费的客制化模型。这对于处理大量资料且不想将其传送到第三方 API 的企业来说意义重大。

为什么有些模型比其他模型更好?

我们之前已经稍微提到过这一点,但为了更详细地强调和扩展几个因素,这里再补充一些内容:

模型尺寸:为什么有些模型可以在笔记型电脑上运行,而有些则需要资料中心

正如我们之前提到的,并非所有模型的大小都相同。参数数量差异巨大,这直接决定了运行它们所需的硬体配置。

粗略的经验法则是:每十亿个参数大约需要 0.5 到 1 GB 的记忆体(取决于精度/量化程度)。一个 70 亿参数的模型需要大约 4 到 8 GB 的记忆体。一个 700 亿参数的模型需要大约 40 GB 的记忆体。 OpenAI、Anthropic 和 Google 的前缘模型拥有数千亿到超过万亿个参数,它们需要耗资数百万美元的大型专用 GPU 丛集。

这就是为什么有些模型可以在本机上运行,而另一些模型只能透过云端 API 存取。使用 GPT-5 或 Claude 需要按代币付费,因为运行它们所需的基础设施非常庞大。但你可以在一台配置不错的笔记型电脑上免费下载并执行 Llama 8B 或 Mistral 7B。

还有一种称为混合专家模型(MoE)的技术,该技术允许模型拥有庞大的参数总数,但每个标记只激活其中的一部分。例如,DeepSeek V3 总共有 6,710 亿个参数,但每个标记只使用 370 亿个。 GLM-5.1 总共有 7440 亿个参数,但每个标记只启动 400 亿个。这使得大型模型能够在比预期更小的硬体上运行。

最小模型和最大模型之间的品质差距确实存在,但这种差距也在缩小。如今,即使与最前沿的模型相比,在你的笔记型电脑上运行一个精心挑选的 140 亿参数模型也能很好地完成日常和简单的任务(尽管速度可能较慢)。

这种差距在复杂的多步骤推理、长篇创意写作以及需要大量世界知识的任务中最为明显。但对于撰写电子邮件、总结文件或回答问题等日常任务,本地模型的表现却出奇地好。

当然,并非所有本地模型都一样。 GLM5.1 是一款出乎意料的好模型,它可以在 Mac Studio 上运行。虽然 Mac Studio 的价格仍然很高(5000-10000 美元以上),但与建造耗资数百万美元的大型资料中心相比,简直是小巫见大巫。

了解这些对你有什么帮助?

我的意思是,希望你也能像我一样,觉得这些东西超有趣!知识是有价值的,了解事物运作原理也很有价值,即使你使用它们时并不一定需要知道这些原则。

这些工具的部分价值来自于您在使用这些工具时可能做出的一些改变。

当你了解模型是基于模式预测下一个词元时,你就能明白为什么提供更多上下文资讯能带来更好的输出。你就能明白为什么提示语要具体明确。你就能明白为什么它有时会自信地给予错误的讯息。

当你了解上下文视窗时,你就会明白为什么长时间的对话有时会偏离主题。

当你了解温度和随机性之后,就能明白为什么重新产生反应有时会得到更好(或更差)的结果。这是机率空间中的一条不同路径。而且,知道可以根据任务调整温度设置,就能让你以更符合自身需求的方式运用这些工具。

你也会开始明白这些工具是什么,不是什么。它们不是搜寻引擎(尽管它们现在内建了搜寻功能)。它们不是资料库。它们不是预言机。它们是极其精密的模式匹配机器,基于人类大部分书面知识进行训练(然后透过额外的、精心整理的人类回馈进行进一步训练/微调)。

这使它们变得有用。

这也使得它们在某些特定、可预测的方面容易犯错。

了解这些内容应该能让你成为更好的用户,并让你对未来的提示操作更有信心。


免责声明:本简讯内容构成投资建议。本人并非财务顾问,以上仅代表个人观点与想法。在交易或投资任何加密货币相关产品之前,您务必咨询专业/持牌财务顾问。文中部分连结可能为推荐连结。

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
74
收藏
14
评论