第 108 封信:什麼是法學碩士(LLM)學位,它是如何運作的?

本文為機器翻譯
展示原文

看來大家最近都很喜歡人工智慧相關的內容,所以我們會繼續更新。話雖如此,最近市場行情一路走高,所以我們得盡快再關註一下加密貨幣,看看哪些值得關注。

但今天,我們先來了解LLM的基本原理。我注意到,大多數每天使用ChatGPT或Claude的人根本不知道它們是如何運作的。

當然,這無可厚非。你不需要了解引擎的工作原理才能開車。但我認為,對引擎內部運作機制有基本的了解能讓你成為更好的使用者。它能幫助你理解為什麼人工智慧在某些方面表現出色,而在其他方面則表現不佳;它能幫助你提出更好的問題;它還能讓你更不容易對輸出結果過度信任或信任不足。

這篇文章寫得有點長了,下面我們將討論以下內容:

  1. 什麼是法學碩士(LLM)?

  2. 法學碩士是如何「學習」的?

  3. 等等,所以這是自動補全功能?

  4. 什麼是令牌?

  5. 參數方面呢?

  6. LLM 究竟是如何產生反應的?

  7. 這些模型究竟「知道」什麼?

  8. 訓練和微調有什麼不同?

  9. 為什麼有些模型比其他模型更好?

  10. 模型尺寸:為什麼有些可以在筆記型電腦上運行,而有些則需要資料中心?

  11. 了解這些對你有什麼幫助?

如果您有興趣進一步提升您的 AI 學習之旅,那麼請查看我與幾位朋友共同創辦的新公司: AI 的 Stoa

我們製作視訊課程,並每週舉辦直播研討會和電話會議,向您展示將人工智慧融入日常工作流程的實用方法。

我們目前處於早期體驗階段,提供折扣價格,請點擊這裡了解詳情: https://www.skool.com/thestoaofai


什麼是法學碩士(LLM)?

LLM 代表大型語言模型。 ChatGPT、Claude、 Gemini以及所有其他 AI 聊天機器人都是基於這個模型構建的。

  • 語言。這些模型與語言打交道。輸入文本,輸出文字。你輸入單詞,它們產生單字回傳。 (是的,它們現在也能處理圖像、音訊和程式碼,但其本質是語言機器,「語言」一詞可以用來指稱這些語言學習模型產生的任何輸入/輸出。)

  • 模型。在人工智慧領域,模型是指經過資料訓練以識別模式的程式。如果你給一個從未見過貓的人看一百萬張不同品種貓的照片,最終他就能很好地區分它們。 LLM 的概念也是如此。

  • 規模龐大。這些模型規模非常龐大。它們基於海量資料進行訓練。我們說的是整個互聯網的很大一部分。書籍、文章、維基百科、論壇、程式碼庫、學術論文。數十億,甚至數萬億個單字。

將它們組合在一起,你就得到了:一個已經閱讀了大量人類文本並從中學習語言模式的程式。

法學碩士是如何「學習」的?

「訓練」過程的核心學習原理其實非常簡單。你取一個句子,隱藏最後一個詞,然後讓模型預測接下來是什麼。

“貓坐在___上”

模型進行猜測。如果猜錯了,你就稍微調整一下模型,讓它下次猜得更好。然後,你重複這個過程數十億次,處理數十億個句子。

隨著時間的推移,模​​型能夠越來越準確地預測下一個詞。然後是下一個字。再下一個字。直到它能夠產生聽起來像是人寫的整段整頁的內容。

這是該過程的簡化版本(專業術語是“下一個詞元預測”),但它抓住了核心思想。 LLM 的本質是預測機器。它們根據之前接收到的所有資訊來預測接下來應該出現什麼文字。

等等,所以這是自動補全功能?

某種程度上來說是這樣。這種比較經常被提及,也有一定的道理。

手機的自動補全功能會根據簡單的模式預測下一個單字。語言學習模型(LLM)也能做到這一點,但它擁有大量的數據、更強大的運算能力,以及對情境更深刻的理解。

尺度上的差異造就了性質上的差異。你手機的自動補全功能可能會在「in」之後提示「the」。而一位法學碩士(LLM)會為你撰寫一篇關於量子物理的條理清晰、論證嚴謹的2000字論文,並且格式規範。兩者都在預測下一個字。但前者預測得如此深刻、如此精妙,以至於最終呈現出來的內容看起來和讀起來都像是真正理解了某個概念。

它是否真正理解問題,是目前人工智慧領域爭論的焦點之一。我認為我們無需在此一一解答。從實際應用的角度來看,重要的是輸出結果有用,而且往往非常出色。

什麼是令牌?

代幣是LLM(生命週期模型)的計量單位,也算是LLM的貨幣。使用Anthropic或OpenAI的前沿模型時,通常需要按使用的代幣數量付費。

大多數人沒有意識到一點:模型其實根本看不到你的文字,它看到的只是數字。

當你輸入訊息時,首先發生的是你的文字被編碼成標記,每個標記都被分配一個編號。 「hello」這個字可能變成標記15339。 「the」這個字可能變成標記1820。 「cryptocurrency」這個字可能被拆分成兩個標記:「crypto」(54219)和「currency」(26072)。

這些數字是模型運作的基礎。模型內部的每一次計算,包括模式匹配和預測,都是基於數字進行的數學運算。模型透過神經網路處理這些數字,並輸出…更多的數字。這些輸出的數字隨後會被解碼,最終呈現在你螢幕上的文字。

編碼→數學運算→解碼。這就是整個循環。

將文字轉換為數字的過程稱為編碼。將輸出的數字轉換回文字的過程稱為解碼。您永遠不會看到這些數字,模型也永遠不會看到這些文字。在您和模型之間有一個轉換層(稱為分詞器),負責來回進行編碼和解碼。

那麼在「數學」部分發生了什麼事呢?每個詞元編號都會轉換成向量,這是一個包含數百甚至數千個數字的長列表,代表了該詞元的含義和上下文。 「river bank」(河岸)中的「bank」和「bank account」(銀行帳戶)中的「bank」所對應的向量就不同,因為周圍的詞元會影響它們的表示。

然後,模型會將這些向量逐層計算,不斷調整和組合,並將每個詞元與其他所有詞元進行比較,以確定它們之間的關係和上下文(這就是你可能聽說過的「注意力機制」)。經過數十層這樣的計算後,最終輸出是每個可能的下一個詞元的機率分佈。模型會選擇一個機率分佈,解碼回文本,瞧!螢幕上就出現了一個單字。

這也是為什麼語言學習模型(LLM)在諸如統計單字字母數或進行算術運算之類的事情上有時會表現異常的原因。模型並不把“strawberry”這個詞識別為草莓,而是把它看作一個或兩個標記數字。它沒有單個字母的概念,因為這些字母在模型接觸它們之前就已經被編碼掉了。

一個詞元大約是單字的四分之三,或大約四個字元。像“the”或“and”這樣的常見短詞算一個詞元。較長或不常用的單字會被拆分成多個詞元。

這對你很重要,因為LLM(邏輯學習模型)一次能處理的詞元數量是有限的。這被稱為上下文視窗。你可以把它想像成模型的工作記憶。

如果一個模型擁有 20 萬個詞元上下文窗口,那麼它一次大約可以記住 15 萬個單字。現在有些模型甚至能做到更高。 Claude Opus 4.6、Claude Sonnet 4.6 和Gemini都支援 100 萬個詞元上下文視窗。這大約是 75 萬個單詞,相當於 10 到 15 部完整的小說。 Meta 公司的 Llama 4 Scout 更是支援高達 1000 萬個詞元上下文。與幾年前相比,這些數字令人震驚。

但要記住的是,更大的上下文視窗並不一定更好,也並非本質上就更好。

隨著上下文視窗中元素數量的不斷增加,模型的響應品質往往會下降。研究人員稱之為「上下文腐爛」。模型無法平等地關注上下文中的所有資訊。它往往更關注開頭和結尾附近的內容,而對中間部分的內容較少關注。 2023 年的一篇研究論文發現,當相關資訊被隱藏在冗長的上下文中間時,模型在尋找和利用這些資訊方面的表現會顯著下降。

這意味著,給模型更多上下文資訊並非總是更好。如果你把 50 萬個鬆散相關的文檔詞元(token)一股腦地塞進上下文窗口,而你的實際問題恰好與中間某個細節有關,那麼你得到的答案可能不如只提供 1 萬個最相關的詞元。高品質的上下文資訊比大量的上下文資訊更重要。這聽起來有點違反直覺,但事實就是如此。

就像所有人工智慧相關的領域一樣,這些模型在這方面也不斷進步。 Claude 在長上下文基準測試中名列前茅,而且每一代模型在短上下文和長上下文效能之間的差距都在縮小。

參數方面呢?

這是另一個你經常聽到的龐大數字。許多模型都標榜擁有數十億甚至數千億個參數;有些模型甚至擁有數萬億個參數。但參數究竟是什麼呢?

參數是模型的內部設定。可以把它們想像成一個個小旋鈕,在訓練過程中,每次模型做出預測並獲得預測結果正確與否的回饋時,這些旋鈕都會微調。

更具體地說,參數是決定上一節提到的向量在通過模型時如何轉換的數值。它們控制著諸如以下方面:這個詞應該對那個詞給予多少關注?這個概念應該如何與那個概念關聯?哪些模式是重要的,哪些模式是噪音?

神經網路中神經元之間的每個連接都有一個參數(權重),用於控制該連接的強度。一個擁有70億個參數的模型有70億個這樣的連結。一個擁有萬億個參數的模型則有萬億個這樣的連結。每一個參數都是經過數兆個訓練樣本的逐步調整而來的。

參數越多的模型可調整的參數就越多,這意味著它能夠學習到更微妙、更複雜的模式。小型模型可能只會學習到「貓坐在墊子上」是一種常見模式。大型模型不僅能學習到這一點,還能學習到段落的情感傾向會隨著「然而」一詞的使用而改變,或者禮貌的提問方式與直截了當的提問方式相比,往往會得到不同的答案。模型越大,它就能捕捉到越多這樣的微妙關係。

通常來說,參數越多,模型就越智能,但這並非唯一因素。訓練資料的品質、架構選擇和微調也同樣重要,我們稍後會詳細討論。但在其他條件相同的情況下,參數越多,模型學習複雜問題的能力就越強。

權衡之處在於資源。每個參數都會佔用記憶體。運行模型意味著將所有這些參數載入到 RAM(或 GPU 記憶體)中,並對生成的每個 token 進行計算。這就是為什麼更大的模型需要更昂貴的硬體、運行成本更高、產生 token 的速度更慢的原因。

對於這類事情,你其實不需要記住確切的數字,也不需要了解事情的精確運作原理。

結論是:參數 = 模型學習複雜度的能力。

LLM 究竟是如何產生反應的?

當你向 Claude 或 ChatGPT 輸入訊息時,大致會發生以下情況:

  1. 您的訊息將被轉換為令牌(數字)。

  2. 該模型透過其神經網路(數十億個參數)處理這些數字。

  3. 它預測下一個最有可能出現的標記(數字)。

  4. 該數字被加到序列中,模型預測下一個數字。

  5. 重複上述步驟,一次處理一個令牌,直到回應完成。

這就是為什麼你會看到人工智慧回應時,文字是逐字逐句顯示的。它是即時產生回應的,一次產生一個部分。它不會先寫出完整的答案再顯示出來,而是邊生成邊思考。

這也是為什麼同樣的提示有時會給出不同的答案。選擇過程中內建了一定程度的隨機性(稱為“溫度”)。模型並非總是選擇最有可能的下一個詞元。有時它會選擇第二或第三可能的選項,這使得反應的方向略有不同。

大多數模型都允許您調整此設置,並要求模型使用更多非常規的響應。如果您正在進行創意寫作或其他需要跳脫固有思維模式的工作,這將非常有用。而對於任何需要事實和精確性的任務,低溫模型往往表現較佳。

這些模型究竟「知道」什麼?

邏輯學習模型(LLM)沒有一個用來找出事實的資料庫。當你向它們提問時,它們不會翻閱文件櫃。相反,知識就蘊含在它們的參數模式中。模型學習到某些事實傾向於出現在特定的情境中,並在情境需要時重現這些事實。

這就是為什麼語言學習模式有時會編造內容。人工智慧界稱之為「幻覺」。模型並沒有說謊。它只是產生了一些看似最有可能的對話延續內容,而有時最有可能的內容並非事實。它是在進行預測,而不是回憶。

這是理解語言學習模型(LLM)最重要的一點。它們的目標是產生聽起來自然流暢的文本,而不是內容正確的文本。這兩者很多時候會重疊,但並非總是如此。

經驗法則:事實越晦澀或越具體,模型出錯或編造結果的可能性就越大。如果詢問的是訓練資料中頻繁出現的、有據可查的主題,那麼模型相當可靠。如果詢問的是小眾主題、近期事件或具體數字,則需要驗證輸出結果。

訓練和微調有什麼不同?

訓練是模型讀取所有文字並學習模式的初始過程。這既耗時又昂貴。僅計算成本,訓練一個前沿模型就需要數億美元(這個階段有時被稱為預訓練,因為它發生在任何進一步改進之前)。

預訓練的結果稱為基礎模型。基礎模型很智能,對語言了解頗多,但與它們對話卻很彆扭。如果你問一個基礎模型一個問題,它可能會像在寫維基百科文章一樣繼續你的文本,或者生成一些隨機的論壇帖子,或者以你意想不到的方式完成你的句子。它不知道自己應該提供幫助。它是一個文字預測機器,但並非像我們習慣使用的聊天助手(例如 chatGPTETC)那樣的對話式助手。

微調是將基礎模型轉化為實用工具的關鍵。它是第二輪訓練,使用規模更小、經過更精心挑選的資料集進行。在這一階段,模型學習如何遵循指示、回答問題、進行對話,以及表現得像個合格的聊天機器人。

有幾種不同類型的微調值得了解:

預訓練和微調之間的成本差異巨大。從頭開始預訓練 GPT-5 或 Claude 模型需要花費數億美元。而使用自己的資料微調開源模型,成本則從幾美元到幾千美元不等,取決於模型的大小和使用的資料量。

這就是開源模型如此重要的原因之一。你可以使用像 Llama 或 Mistral 這樣的免費基礎模型,根據你的特定資料進行微調,最終得到一個能夠理解你的領域、運行在你自己的硬體上且每次查詢都免費的客製化模型。這對於處理大量資料且不想將其傳送到第三方 API 的企業來說意義重大。

為什麼有些模型比其他模型更好?

我們之前已經稍微提到過這一點,但為了更詳細地強調和擴展幾個因素,這裡再補充一些內容:

模型尺寸:為什麼有些模型可以在筆記型電腦上運行,而有些則需要資料中心

正如我們之前提到的,並非所有模型的大小都相同。參數數量差異巨大,這直接決定了運行它們所需的硬體配置。

粗略的經驗法則是:每十億個參數大約需要 0.5 到 1 GB 的記憶體(取決於精度/量化程度)。一個 70 億參數的模型需要大約 4 到 8 GB 的記憶體。一個 700 億參數的模型需要大約 40 GB 的記憶體。 OpenAI、Anthropic 和 Google 的前緣模型擁有數千億到超過萬億個參數,它們需要耗資數百萬美元的大型專用 GPU 叢集。

這就是為什麼有些模型可以在本機上運行,而另一些模型只能透過雲端 API 存取。使用 GPT-5 或 Claude 需要按代幣付費,因為運行它們所需的基礎設施非常龐大。但你可以在一台配置不錯的筆記型電腦上免費下載並執行 Llama 8B 或 Mistral 7B。

還有一種稱為混合專家模型(MoE)的技術,該技術允許模型擁有龐大的參數總數,但每個標記只激活其中的一部分。例如,DeepSeek V3 總共有 6,710 億個參數,但每個標記只使用 370 億個。 GLM-5.1 總共有 7440 億個參數,但每個標記只啟動 400 億個。這使得大型模型能夠在比預期更小的硬體上運行。

最小模型和最大模型之間的品質差距確實存在,但這種差距也在縮小。如今,即使與最前沿的模型相比,在你的筆記型電腦上運行一個精心挑選的 140 億參數模型也能很好地完成日常和簡單的任務(儘管速度可能較慢)。

這種差距在複雜的多步驟推理、長篇創意寫作以及需要大量世界知識的任務中最為明顯。但對於撰寫電子郵件、總結文件或回答問題等日常任務,本地模型的表現卻出奇地好。

當然,並非所有本地模型都一樣。 GLM5.1 是一款出乎意料的好模型,它可以在 Mac Studio 上運行。雖然 Mac Studio 的價格仍然很高(5000-10000 美元以上),但與建造耗資數百萬美元的大型資料中心相比,簡直是小巫見大巫。

了解這些對你有什麼幫助?

我的意思是,希望你也能像我一樣,覺得這些東西超有趣!知識是有價值的,了解事物運作原理也很有價值,即使你使用它們時並不一定需要知道這些原則。

這些工具的部分價值來自於您在使用這些工具時可能做出的一些改變。

當你了解模型是基於模式預測下一個詞元時,你就能明白為什麼提供更多上下文資訊能帶來更好的輸出。你就能明白為什麼提示語要具體明確。你就能明白為什麼它有時會自信地給予錯誤的訊息。

當你了解上下文視窗時,你就會明白為什麼長時間的對話有時會偏離主題。

當你了解溫度和隨機性之後,就能明白為什麼重新產生反應有時會得到更好(或更差)的結果。這是機率空間中的一條不同路徑。而且,知道可以根據任務調整溫度設置,就能讓你以更符合自身需求的方式運用這些工具。

你也會開始明白這些工具是什麼,不是什麼。它們不是搜尋引擎(儘管它們現在內建了搜尋功能)。它們不是資料庫。它們不是預言機。它們是極其精密的模式匹配機器,基於人類大部分書面知識進行訓練(然後透過額外的、精心整理的人類回饋進行進一步訓練/微調)。

這使它們變得有用。

這也使得它們在某些特定、可預測的方面容易犯錯。

了解這些內容應該能讓你成為更好的用戶,並讓你對未來的提示操作更有信心。


免責聲明:本簡訊內容構成投資建議。本人並非財務顧問,以上僅代表個人觀點與想法。在交易或投資任何加密貨幣相關產品之前,您務必諮詢專業/持牌財務顧問。文中部分連結可能為推薦連結。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
74
收藏
14
評論