数学并不能定义世界

04-23

本文为机器翻译

展示原文

数学模型通常被视为中立的工具。它们被描绘成严谨、客观、精确，并且不受人类主观因素的影响。在管理、金融、公共政策以及如今的人工智能领域，数学经常被援引为一种消除歧义、用事实取代主观意见的语言。但这种说法具有误导性。数学能够以惊人的精确度将世界观形式化。它能够使决策前后一致、可扩展且站得住脚。但它无法自行决定世界的意义所在、什么才是最重要的、哪些权衡取舍是可以接受的，或者什么才算好的结果。这些决定在方程式写出之前就已经做出了。因此，世界建模并非通往更高智能的途径，而是通往对某种特定世界观、选择和价值判断方式的编码——通往判断本身的形式化，无论这种判断是人为的、算法介导的还是算法本身的。它提醒我们数学的起点。世界模型绝非简单的发现或近似，而是设计出来的。它源于先前对目的、相关性、价值和可接受牺牲的判断。为了更清楚地理解这一点，不妨抛开抽象概念，通过一个具体案例来分析。假设一家银行拥有足够的资金，可以批准五分之三的小企业贷款。申请人如下：乍一看，这似乎是一个简单的分析问题。申请人可以被评分，最优秀的人可以被选中，银行可以用数据来证明其选择。但这种情况并不存在所谓的正确数学模型。存在许多可能的模型，每个模型在数学上都自洽，每个模型内部逻辑都合理，每个模型都基于相同的数据，但每个模型所模拟的世界却截然不同。改变的不是算术，而是其中编码的价值体系。假设银行的主要目标是实现预期利润最大化。它构建了一个评分系统，该系统根据信用度、收入稳定性和业务潜力进行加权，具体如下：盈利评分 = 0.45（信用）+ 0.35（收入稳定性）+ 0.20（商业潜力）为了简化计算，我们将信用评分标准化为 0-10 分制：A = 7.8，B = 7.2，C = 6.8，D = 6.4，E = 6.1。这项决定看似客观，但其客观性远比表面看起来要狭隘。公式本身就暗示着什么才是最重要的。为什么信用评分占总分的45%？为什么商业潜力只占20%？为什么社区财富被排除在外，而以往的财务业绩却被赋予了优先地位？答案很简单：因为机构认定财务回报才是最高目标。看似中立的数学运算，实际上已经构建了一种道德秩序。现在假设该机构采取了一种更具创业精神的理念。它不再奖励当前的稳定性，而是决定奖励未来的发展潜力。它修改了评分公式：增长评分 = 0.20（信用）+ 0.20（收入稳定性）+ 0.60（商业潜力）。新的评分如下：A = 0.20(7.8) + 0.20(9) + 0.60(6) = 6.96；B = 0.20(7.2) + 0.20(7) + 0.60(8) = 7.64；C = 0.20(6.8) + 0.20(6) + 0.60(9) = 7.96；D = 0.20(6.4) + 0.20(5) + 0.60(8) = 7.08； E = 0.20(6.1) + 0.20(4) + 0.60(7) = 6.22。现在银行批准了 C、B 和 D。申请人 A 在之前的模型中表现最为出色，但最终被拒绝。数据本身没有任何变化，数学推导的严谨性也丝毫未减。唯一的区别在于，模型现在针对不同的问题给出了不同的答案。它不再问“谁看起来最安全？”，而是问“谁最有能力创造未来？” 这种转变反映出一种信念，即潜在能力比既有优势更重要。这是另一种截然不同的世界观。最后，假设银行现在意识到，传统的指标——信用记录、收入稳定性、地理位置——往往反映的是累积的社会特权，而非个人能力。它认为，公平的决策过程不应仅仅预测安全性，还应纠正结构性排斥。它构建了以下评分：公平评分 = 0.30（商业潜力）+ 0.20（收入稳定性）+ 0.15（信用）+ 0.35（社会脆弱性）。结果如下：A = 0.30(6) + 0.20(9) + 0.15(7.8) + 0.35(1) = 5.12；B = 0.30(8) + 0.20(7) + 0.15(7.2) + 0.35(3) = 5.93； C = 0.30(9) + 0.20(6) + 0.15(6.8) + 0.35(6) = 7.02; D = 0.30(8) + 0.20(5) + 0.15(6.4) + 0.35(8) = 7.16; E = 0.30(7) + 0.20(4) + 0.15(6.1) + 0.35(9) = 6.97。这次银行批准了D、C和E方案。按照传统的金融逻辑，E是最不具吸引力的候选方案。但在以权益为导向的模式下，E却变得可融资。数学并未失效。恰恰相反，数学的运作完全符合预期。它将制度承诺转化为决策规则。这里的承诺在于，公平并非模型之外的因素；它是模型试图实现的目标之一。这并没有降低模型的数学性。它明确地揭示了所有模型都暗含的本质：一种关于什么才值得重视的理论，一种关于何种世界才是重要事物的理论。使用相同的人员、相同的变量和相同的正式纪律，我们得到了五种不同的理性结果：银行 1 批准 A、B、C；银行 2 批准 C、B、D；银行 3 批准 D、C、E。这并非数学的失败，而是数学在不同规范框架下的恰当运用。数学本身并不告诉我们世界是什么，它只是告诉我们，当我们决定了世界中哪些因素至关重要之后，世界会呈现出怎样的面貌。在每个阶段都会涉及到这个决定：要解决什么问题，什么结果值得优化，哪些变量是相关的，每个变量的权重是多少，哪些权衡是可以接受的，不平等是噪音还是道德信号，未来应该根据过去的模式来判断还是用其他方式来想象等等。这些并非数学决策，而是人类决策。数学只是将这些决策付诸实践。事实上，我在撰写本文时也做出了类似的决定：将数据“标准化”——将640分的信用评分转换为6.4分——是一种隐蔽的控制行为。通过选择线性尺度而非曲线，我们决定了每个信用点的价值相同。我们人为地设定了“底线”。这样做，我们可能在数学上抹杀了边缘群体的挣扎，或者夸大了顶端群体的卓越成就。这种偏差不仅体现在我们赋予数字的权重上，更体现在我们在应用权重之前对数字形状的设定上。认为人工智能模型是中立的这种想法并非无害。它使公司和机构得以将判断伪装成必然性，将优先事项包装成事实，将权衡取舍伪装成技术需要，并将责任从决策者转移到系统，仿佛方程式本身就能决定一切。当算法系统被用于分配信贷、对求职者进行排名、预测风险、分配资源或过滤信息时，人们很容易将数学形式化视为道德上的绝对正确。然而，事实往往恰恰相反：模型的数学复杂程度越高，其设计中蕴含的世界观就越容易被技术复杂性的权威所掩盖，尤其当决定哪些因素重要、哪些因素被忽略以及哪些因素被优化的底层建模选择不再可见时。这种不透明性至少存在于三个层面：结构层面、认知层面和制度层面。随着模型变得越来越复杂，塑造模型的规范性选择不再体现在一个清晰可见的公式中，而是分散在众多技术组件中。在简单的模型中，通常可以直接识别变量、权重、阈值和目标函数。而在更复杂的系统中，这些选择则分布在数据收集、特征选择、代理构建、架构设计、目标函数、超参数、过滤规则和后处理机制等各个环节。这造成了结构上的不透明性。结果是，该模型的视角并未消失，只是变得更加难以捉摸。真正重要的因素依然在被决定，但这些决定如今被层层嵌套的设计之中，难以进行整体审视。第二层不透明性源于观察者对模型内部逻辑了解的局限性。即使人工智能系统表现良好，我们也可能不清楚它为何会得出特定的输出结果，哪些变量真正起决定性作用，相关性是如何被利用的，或者人工智能系统学会了优先考虑哪些权衡取舍。这一点至关重要，因为不透明性不仅仅是保密问题，也是理解问题。一个模型在技术层面可能完全可用，但在概念层面仍然难以理解。这就是认知上的不透明性。我们或许能够看到代码，却无法重构其背后的推理过程，从而使其中蕴含的判断变得可以理解或质疑。第三层源于模型部署的社会环境。大多数受模型影响的人并非模型的设计者，无法对其进行审核，甚至往往不知道模型基于哪些假设。实际上，相关建模选择的访问权限通常在机构、供应商、监管机构、技术团队和最终用户之间分布不均。这意味着，模型的权威性往往被接受，但却缺乏对其背后价值选择的清晰认知。看似中立的技术输出，实际上可能反映了组织优先事项、监管限制、商业动机或历史偏见，而这些对决策者而言却是隐蔽的。这就是制度不透明性的体现。人们普遍认为，数学通过剥离主观性来揭示现实。但在实践中，数学往往发挥着更为重要的作用：它稳定了我们想要构建的世界的某种特定诠释，并使其可行。因此，对于人工智能模型而言，最重要的问题不仅是“它准确吗？”，更是“它对什么准确？”。不仅是“它预测得好吗？”，更是“它服务于什么目标？”。不仅是“它是否优化？”，更是“它是根据谁的价值观进行优化的？” 这些并非技术工作完成后才需要补充的次要问题，而是以诚信为本的技术工作的前提。数学之所以强大，恰恰在于它能赋予人类判断以形式、一致性和力量。但这同时也意味着我们需要保持谦逊。当我们忘记模型是由选择构建而成时，我们便会将自身的设计误认为中立。而这才是关键所在：数学并非定义世界，而是我们用数学来定义世界。正因如此，人工智能的完整性比人工智能本身更为重要。人工完整性之所以重要，是因为它试图恢复被遗忘的辨别力层面，而随着我们对塑造的事物与事物本身之间的不一致性习以为常，这种辨别力层面已经变得难以获得。如果没有人工完整性，人工智能正在强化这样一种趋势：将局部目标变成完全的算法系统，将偶然假设变成无形的规范。它提醒我们，挑战不仅在于构建更强大的 AI 系统，还在于确保它们扩展的逻辑能够加深我们的辨别力，从而让我们能够看到并承认我们已经习以为常的中立性差距，并保持我们所居住的世界的完整性。