小模型也能发现 Claude Mythos 侦测的资安漏洞?AISLE:护城河在系统,不在模型

Anthropic 本周发布尚未公开的模型 Claude Mythos Preview,并同步启动 Project Glasswing 玻璃翼计划,由亚马逊、苹果、微软、CrowdStrike、思科等 12 家科技公司组成,使用该模型进行防御性资安研究。

因为 Mythos 据称自主找出每个主要作业系统与浏览器中的数千个零日漏洞(zero-day vulnerability,指尚未公开修补、连厂商都可能不知道的安全缺陷),暗示一个由 AI 主导资安防御的新纪元即将开启。

然而不到一周,由前 DeepMind 与 Anthropic 研究员 Stanislav Fort 共同创办的资安新创 AISLE,在公司技术部落格发表了一份系统性报告

核心结论直接:在 Mythos 的旗舰展示任务中,一个 active 引数仅 3.6B、每百万 token 花费 0.11 美元的开源小模型,达成了相同的漏洞侦测结果。

Mythos 展示了什么,小模型又复现了什么?

AISLE 设计了三组测试,分别对应不同难度与性质的资安任务。

第一组是 OWASP(开放 Web 应用安全专案)伪阳性测试。

翻译过来就是,一段 Java SQL 查询程式码看起来像 SQL Injection(资料库注入攻击),但实际上逻辑安全。正确答案是非漏洞。

测试结果呈现近乎逆向的 scaling(规模缩放)效应:小型开源模型 GPT-OSS-20b(3.6B active 引数,$0.11/M tokens)正确追踪了程式逻辑,判定无害。

相反地,Claude Sonnet 4.5、所有 GPT-4.1/5.4 系列(o3 与 pro 除外)、Anthropic 全系列至 Opus 4.5,均自信地误判为高危漏洞。只有极少数顶端模型 — o3、OpenAI-pro、Sonnet 4.6、Opus 4.6 答对。

第二组是 FreeBSD NFS 漏洞,即 Mythos 旗舰发布中特别展示的 CVE-2026-4747,一个 17 年历史、未授权远端程式码执行漏洞。

结果:8/8 个受测模型全部成功侦测,包括那个 3.6B active 引数的小模型。所有模型均正确识别出 stack buffer overflow(堆叠缓冲区溢位)、计算剩余空间,并将其评为 Critical RCE。

AISLE 的结论是:此类侦测能力已「商品化」。

第三组是 OpenBSD SACK 漏洞(27 年历史),需要真正的数学推理:追踪有号整数溢位(signed integer overflow)的多步骤逻辑链。

难度显著提升,模型表现分化。GPT-OSS-120b(5.1B active 引数)完整复现了漏洞利用链,AISLE 评为 A+;Kimi K2 开源版本得 A-;而 Qwen3 32B 则给出「程式码很健壮」的错误结论,评 F。

即便在这个更困难的任务上,一个成本极低的开源模型仍然达成了旗舰系统的同等展示。

为什么更大的模型,不等于更安全的系统

这份报告的真正论点不是「小模型够用」,而是 AI 资安能力的结构远比外界想像复杂。

AISLE 将资安 AI 管线拆解为五个独立子任务:

  • 广谱扫描(broad scanning)
  • 漏洞侦测(vulnerability detection)
  • 分流验证(triage and validation)
  • 修补生成(patch generation)
  • 漏洞利用构建(exploit construction)

每个子任务的 scaling 性质不同,所需的模型能力也不同。Mythos 的公告将这五个层次整合呈现为一个完整系统,但实际上它们的模型需求差异极大,某些子任务在 3.6B 引数下已完全饱和,某些则需要复杂推理能力。

这呼应了 2023 年哈佛商学院研究者 Dell’Acqua 与 Mollick 等人提出的「Jagged Frontier」(参差不齐边界)概念:AI 能力的边界不是一条平滑曲线,而是凹凸不平的锯齿状,在某些任务上远超人类,在相邻任务上却意外脆弱。

该研究显示,使用者若在能力边界内部署 AI,生产力提升约 40%;若贸然延伸至边界外,表现反而下降 19%。

AISLE 在这个框架下提出了更具操作性的推论:「一千个够用的侦探无处不搜,比一个天才侦探猜测在哪里找,能发现更多漏洞。」

大量部署低成本模型进行广谱扫描,在总体效益上可能优于谨慎排程单一高成本模型。AISLE 表示自 2025 年中旬起已在真实目标上执行漏洞发现系统:在 OpenSSL 中找到 15 个 CVE(其中单次安全版本包含 12 个,CVSS 9.8 Critical),curl 中 5 个,跨超过 30 个专案共计逾 180 个外部验证 CVE。

护城河在哪里、不在哪里

这份分析对 Anthropic 而言既非全面批评,也非单纯背书。

AISLE 明确表示,Mythos 的意义在于证明「AI 资安」这个类别是真实的,它不只是演示实验室里的概念,而是可以在真实目标上运作的系统。Anthropic 正在做的,是最大化「每 token 的智慧密度」,这在需要深度推理的任务上仍有难以替代的价值。

但 AISLE 同时点出了一个对整个产业而言更根本的问题:护城河在系统,不在模型本身。

在资安领域,AISLE 认为嵌入深度专业知识的架构设计,例如:如何分解任务、如何在子任务间排程不同成本的模型、如何在生产环境中维持维护者信任,才是真正的差异化来源。

一个能在 OpenSSL 里找出 CVSS 9.8 漏洞的系统,与一个在受控展示中侦测到已知模式漏洞的系统,需要的不只是更强的模型,而是完全不同的工程逻辑。

总的来说,AISLE 的报告发现:更廉价、更开放的模型已能复现其部分核心展示。真正的问题或许不是谁的模型最强,而是谁先把这五个子任务的架构在生产环境中跑通。

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
86
收藏
16
评论