數學並不能定義世界

04-23

本文為機器翻譯

展示原文

數學模型通常被視為中立的工具。它們被描繪成嚴謹、客觀、精確，並且不受人類主觀因素的影響。在管理、金融、公共政策以及如今的人工智能領域，數學經常被援引為一種消除歧義、用事實取代主觀意見的語言。但這種說法具有誤導性。數學能夠以驚人的精確度將世界觀形式化。它能夠使決策前後一致、可擴展且站得住腳。但它無法自行決定世界的意義所在、什麼才是最重要的、哪些權衡取捨是可以接受的，或者什麼才算好的結果。這些決定在方程式寫出之前就已經做出了。因此，世界建模並非通往更高智能的途徑，而是通往對某種特定世界觀、選擇和價值判斷方式的編碼——通往判斷本身的形式化，無論這種判斷是人為的、算法介導的還是算法本身的。它提醒我們數學的起點。世界模型絕非簡單的發現或近似，而是設計出來的。它源於先前對目的、相關性、價值和可接受犧牲的判斷。為了更清楚地理解這一點，不妨拋開抽象概念，通過一個具體案例來分析。假設一家銀行擁有足夠的資金，可以批准五分之三的小企業貸款。申請人如下：乍一看，這似乎是一個簡單的分析問題。申請人可以被評分，最優秀的人可以被選中，銀行可以用數據來證明其選擇。但這種情況並不存在所謂的正確數學模型。存在許多可能的模型，每個模型在數學上都自洽，每個模型內部邏輯都合理，每個模型都基於相同的數據，但每個模型所模擬的世界卻截然不同。改變的不是算術，而是其中編碼的價值體系。假設銀行的主要目標是實現預期利潤最大化。它構建了一個評分系統，該系統根據信用度、收入穩定性和業務潛力進行加權，具體如下：盈利評分 = 0.45（信用）+ 0.35（收入穩定性）+ 0.20（商業潛力）為了簡化計算，我們將信用評分標準化為 0-10 分制：A = 7.8，B = 7.2，C = 6.8，D = 6.4，E = 6.1。這項決定看似客觀，但其客觀性遠比表面看起來要狹隘。公式本身就暗示著什麼才是最重要的。為什麼信用評分佔總分的45%？為什麼商業潛力只佔20%？為什麼社區財富被排除在外，而以往的財務業績卻被賦予了優先地位？答案很簡單：因為機構認定財務回報才是最高目標。看似中立的數學運算，實際上已經構建了一種道德秩序。現在假設該機構採取了一種更具創業精神的理念。它不再獎勵當前的穩定性，而是決定獎勵未來的發展潛力。它修改了評分公式：增長評分 = 0.20（信用）+ 0.20（收入穩定性）+ 0.60（商業潛力）。新的評分如下：A = 0.20(7.8) + 0.20(9) + 0.60(6) = 6.96；B = 0.20(7.2) + 0.20(7) + 0.60(8) = 7.64；C = 0.20(6.8) + 0.20(6) + 0.60(9) = 7.96；D = 0.20(6.4) + 0.20(5) + 0.60(8) = 7.08； E = 0.20(6.1) + 0.20(4) + 0.60(7) = 6.22。現在銀行批准了 C、B 和 D。申請人 A 在之前的模型中表現最為出色，但最終被拒絕。數據本身沒有任何變化，數學推導的嚴謹性也絲毫未減。唯一的區別在於，模型現在針對不同的問題給出了不同的答案。它不再問“誰看起來最安全？”，而是問“誰最有能力創造未來？” 這種轉變反映出一種信念，即潛在能力比既有優勢更重要。這是另一種截然不同的世界觀。最後，假設銀行現在意識到，傳統的指標——信用記錄、收入穩定性、地理位置——往往反映的是累積的社會特權，而非個人能力。它認為，公平的決策過程不應僅僅預測安全性，還應糾正結構性排斥。它構建了以下評分：公平評分 = 0.30（商業潛力）+ 0.20（收入穩定性）+ 0.15（信用）+ 0.35（社會脆弱性）。結果如下：A = 0.30(6) + 0.20(9) + 0.15(7.8) + 0.35(1) = 5.12；B = 0.30(8) + 0.20(7) + 0.15(7.2) + 0.35(3) = 5.93； C = 0.30(9) + 0.20(6) + 0.15(6.8) + 0.35(6) = 7.02; D = 0.30(8) + 0.20(5) + 0.15(6.4) + 0.35(8) = 7.16; E = 0.30(7) + 0.20(4) + 0.15(6.1) + 0.35(9) = 6.97。這次銀行批准了D、C和E方案。按照傳統的金融邏輯，E是最不具吸引力的候選方案。但在以權益為導向的模式下，E卻變得可融資。數學並未失效。恰恰相反，數學的運作完全符合預期。它將制度承諾轉化為決策規則。這裡的承諾在於，公平並非模型之外的因素；它是模型試圖實現的目標之一。這並沒有降低模型的數學性。它明確地揭示了所有模型都暗含的本質：一種關於什麼才值得重視的理論，一種關於何種世界才是重要事物的理論。使用相同的人員、相同的變量和相同的正式紀律，我們得到了五種不同的理性結果：銀行 1 批准 A、B、C；銀行 2 批准 C、B、D；銀行 3 批准 D、C、E。這並非數學的失敗，而是數學在不同規範框架下的恰當運用。數學本身並不告訴我們世界是什麼，它只是告訴我們，當我們決定了世界中哪些因素至關重要之後，世界會呈現出怎樣的面貌。在每個階段都會涉及到這個決定：要解決什麼問題，什麼結果值得優化，哪些變量是相關的，每個變量的權重是多少，哪些權衡是可以接受的，不平等是噪音還是道德信號，未來應該根據過去的模式來判斷還是用其他方式來想象等等。這些並非數學決策，而是人類決策。數學只是將這些決策付諸實踐。事實上，我在撰寫本文時也做出了類似的決定：將數據“標準化”——將640分的信用評分轉換為6.4分——是一種隱蔽的控制行為。通過選擇線性尺度而非曲線，我們決定了每個信用點的價值相同。我們人為地設定了“底線”。這樣做，我們可能在數學上抹殺了邊緣群體的掙扎，或者誇大了頂端群體的卓越成就。這種偏差不僅體現在我們賦予數字的權重上，更體現在我們在應用權重之前對數字形狀的設定上。認為人工智能模型是中立的這種想法並非無害。它使公司和機構得以將判斷偽裝成必然性，將優先事項包裝成事實，將權衡取捨偽裝成技術需要，並將責任從決策者轉移到系統，彷彿方程式本身就能決定一切。當算法系統被用於分配信貸、對求職者進行排名、預測風險、分配資源或過濾信息時，人們很容易將數學形式化視為道德上的絕對正確。然而，事實往往恰恰相反：模型的數學複雜程度越高，其設計中蘊含的世界觀就越容易被技術複雜性的權威所掩蓋，尤其當決定哪些因素重要、哪些因素被忽略以及哪些因素被優化的底層建模選擇不再可見時。這種不透明性至少存在於三個層面：結構層面、認知層面和制度層面。隨著模型變得越來越複雜，塑造模型的規範性選擇不再體現在一個清晰可見的公式中，而是分散在眾多技術組件中。在簡單的模型中，通常可以直接識別變量、權重、閾值和目標函數。而在更復雜的系統中，這些選擇則分佈在數據收集、特徵選擇、代理構建、架構設計、目標函數、超參數、過濾規則和後處理機制等各個環節。這造成了結構上的不透明性。結果是，該模型的視角並未消失，只是變得更加難以捉摸。真正重要的因素依然在被決定，但這些決定如今被層層嵌套的設計之中，難以進行整體審視。第二層不透明性源於觀察者對模型內部邏輯瞭解的侷限性。即使人工智能系統表現良好，我們也可能不清楚它為何會得出特定的輸出結果，哪些變量真正起決定性作用，相關性是如何被利用的，或者人工智能系統學會了優先考慮哪些權衡取捨。這一點至關重要，因為不透明性不僅僅是保密問題，也是理解問題。一個模型在技術層面可能完全可用，但在概念層面仍然難以理解。這就是認知上的不透明性。我們或許能夠看到代碼，卻無法重構其背後的推理過程，從而使其中蘊含的判斷變得可以理解或質疑。第三層源於模型部署的社會環境。大多數受模型影響的人並非模型的設計者，無法對其進行審核，甚至往往不知道模型基於哪些假設。實際上，相關建模選擇的訪問權限通常在機構、供應商、監管機構、技術團隊和最終用戶之間分佈不均。這意味著，模型的權威性往往被接受，但卻缺乏對其背後價值選擇的清晰認知。看似中立的技術輸出，實際上可能反映了組織優先事項、監管限制、商業動機或歷史偏見，而這些對決策者而言卻是隱蔽的。這就是制度不透明性的體現。人們普遍認為，數學通過剝離主觀性來揭示現實。但在實踐中，數學往往發揮著更為重要的作用：它穩定了我們想要構建的世界的某種特定詮釋，並使其可行。因此，對於人工智能模型而言，最重要的問題不僅是“它準確嗎？”，更是“它對什麼準確？”。不僅是“它預測得好嗎？”，更是“它服務於什麼目標？”。不僅是“它是否優化？”，更是“它是根據誰的價值觀進行優化的？” 這些並非技術工作完成後才需要補充的次要問題，而是以誠信為本的技術工作的前提。數學之所以強大，恰恰在於它能賦予人類判斷以形式、一致性和力量。但這同時也意味著我們需要保持謙遜。當我們忘記模型是由選擇構建而成時，我們便會將自身的設計誤認為中立。而這才是關鍵所在：數學並非定義世界，而是我們用數學來定義世界。正因如此，人工智能的完整性比人工智能本身更為重要。人工完整性之所以重要，是因為它試圖恢復被遺忘的辨別力層面，而隨著我們對塑造的事物與事物本身之間的不一致性習以為常，這種辨別力層面已經變得難以獲得。如果沒有人工完整性，人工智能正在強化這樣一種趨勢：將局部目標變成完全的算法系統，將偶然假設變成無形的規範。它提醒我們，挑戰不僅在於構建更強大的 AI 系統，還在於確保它們擴展的邏輯能夠加深我們的辨別力，從而讓我們能夠看到並承認我們已經習以為常的中立性差距，並保持我們所居住的世界的完整性。