小模型也能发现 Claude Mythos 侦测的资安漏洞？AISLE：护城河在系统，不在模型

本文目录

Anthropic 本周发布尚未公开的模型 Claude Mythos Preview，并同步启动 Project Glasswing 玻璃翼计划，由亚马逊、苹果、微软、CrowdStrike、思科等 12 家科技公司组成，使用该模型进行防御性资安研究。

因为 Mythos 据称自主找出每个主要作业系统与浏览器中的数千个零日漏洞（zero-day vulnerability，指尚未公开修补、连厂商都可能不知道的安全缺陷），暗示一个由 AI 主导资安防御的新纪元即将开启。

然而不到一周，由前 DeepMind 与 Anthropic 研究员 Stanislav Fort 共同创办的资安新创 AISLE，在公司技术部落格发表了一份系统性报告。

核心结论直接：在 Mythos 的旗舰展示任务中，一个 active 引数仅 3.6B、每百万 token 花费 0.11 美元的开源小模型，达成了相同的漏洞侦测结果。

Mythos 展示了什么，小模型又复现了什么？

AISLE 设计了三组测试，分别对应不同难度与性质的资安任务。

第一组是 OWASP（开放 Web 应用安全专案）伪阳性测试。

翻译过来就是，一段 Java SQL 查询程式码看起来像 SQL Injection（资料库注入攻击），但实际上逻辑安全。正确答案是非漏洞。

测试结果呈现近乎逆向的 scaling（规模缩放）效应：小型开源模型 GPT-OSS-20b（3.6B active 引数，$0.11/M tokens）正确追踪了程式逻辑，判定无害。

相反地，Claude Sonnet 4.5、所有 GPT-4.1/5.4 系列（o3 与 pro 除外）、Anthropic 全系列至 Opus 4.5，均自信地误判为高危漏洞。只有极少数顶端模型 — o3、OpenAI-pro、Sonnet 4.6、Opus 4.6 答对。

第二组是 FreeBSD NFS 漏洞，即 Mythos 旗舰发布中特别展示的 CVE-2026-4747，一个 17 年历史、未授权远端程式码执行漏洞。

结果：8/8 个受测模型全部成功侦测，包括那个 3.6B active 引数的小模型。所有模型均正确识别出 stack buffer overflow（堆叠缓冲区溢位）、计算剩余空间，并将其评为 Critical RCE。

AISLE 的结论是：此类侦测能力已「商品化」。

第三组是 OpenBSD SACK 漏洞（27 年历史），需要真正的数学推理：追踪有号整数溢位（signed integer overflow）的多步骤逻辑链。

难度显著提升，模型表现分化。GPT-OSS-120b（5.1B active 引数）完整复现了漏洞利用链，AISLE 评为 A+；Kimi K2 开源版本得 A-；而 Qwen3 32B 则给出「程式码很健壮」的错误结论，评 F。

即便在这个更困难的任务上，一个成本极低的开源模型仍然达成了旗舰系统的同等展示。

为什么更大的模型，不等于更安全的系统

这份报告的真正论点不是「小模型够用」，而是 AI 资安能力的结构远比外界想像复杂。

AISLE 将资安 AI 管线拆解为五个独立子任务：

广谱扫描（broad scanning）
漏洞侦测（vulnerability detection）
分流验证（triage and validation）
修补生成（patch generation）
漏洞利用构建（exploit construction）

每个子任务的 scaling 性质不同，所需的模型能力也不同。Mythos 的公告将这五个层次整合呈现为一个完整系统，但实际上它们的模型需求差异极大，某些子任务在 3.6B 引数下已完全饱和，某些则需要复杂推理能力。

这呼应了 2023 年哈佛商学院研究者 Dell’Acqua 与 Mollick 等人提出的「Jagged Frontier」（参差不齐边界）概念：AI 能力的边界不是一条平滑曲线，而是凹凸不平的锯齿状，在某些任务上远超人类，在相邻任务上却意外脆弱。

该研究显示，使用者若在能力边界内部署 AI，生产力提升约 40%；若贸然延伸至边界外，表现反而下降 19%。

AISLE 在这个框架下提出了更具操作性的推论：「一千个够用的侦探无处不搜，比一个天才侦探猜测在哪里找，能发现更多漏洞。」

大量部署低成本模型进行广谱扫描，在总体效益上可能优于谨慎排程单一高成本模型。AISLE 表示自 2025 年中旬起已在真实目标上执行漏洞发现系统：在 OpenSSL 中找到 15 个 CVE（其中单次安全版本包含 12 个，CVSS 9.8 Critical），curl 中 5 个，跨超过 30 个专案共计逾 180 个外部验证 CVE。

护城河在哪里、不在哪里

这份分析对 Anthropic 而言既非全面批评，也非单纯背书。

AISLE 明确表示，Mythos 的意义在于证明「AI 资安」这个类别是真实的，它不只是演示实验室里的概念，而是可以在真实目标上运作的系统。Anthropic 正在做的，是最大化「每 token 的智慧密度」，这在需要深度推理的任务上仍有难以替代的价值。

但 AISLE 同时点出了一个对整个产业而言更根本的问题：护城河在系统，不在模型本身。

在资安领域，AISLE 认为嵌入深度专业知识的架构设计，例如：如何分解任务、如何在子任务间排程不同成本的模型、如何在生产环境中维持维护者信任，才是真正的差异化来源。

一个能在 OpenSSL 里找出 CVSS 9.8 漏洞的系统，与一个在受控展示中侦测到已知模式漏洞的系统，需要的不只是更强的模型，而是完全不同的工程逻辑。

总的来说，AISLE 的报告发现：更廉价、更开放的模型已能复现其部分核心展示。真正的问题或许不是谁的模型最强，而是谁先把这五个子任务的架构在生产环境中跑通。

来源

免责声明：以上内容仅为作者观点，不代表Followin的任何立场，不构成与Followin相关的任何投资建议。

喜欢