打造 AI 通用推论层！vLLM 开源专案如何成为全球推论引擎的野心计划？

01-23

本文为机器翻译

展示原文

随著 AI 模型的快速演进，如何高效推论（Inference）这些大型模型，成为业界绕不开的关键课题。来自 UC Berkeley 的开源专案 vLLM 不仅正面迎战这个技术挑战，更逐步建立起自己的社群与生态系，甚至催生出专注于推论基础建设的新创公司 Inferact。本文将带你深入 vLLM 的起源、技术突破、开源社群发展，以及 Inferact 如何想要打造「AI 推论的通用引擎」。

从学术实验到 GitHub 明星专案：vLLM 的诞生

vLLM 最初源于 UC Berkeley 的一项博士班研究计划，旨在解决大型语言模型（LLM）推论效率低落的问题。当时，Meta 开源了 OPT 模型，vLLM 的早期贡献者之一的 Woosuk Kwon 则试图优化该模型的 Demo 服务，进而发现这背后是一个尚未解决的推论系统难题。「我们以为只要几周就能完成，结果却开启了一条全新的研究与开发之路。」Kwon 回忆表示。

由下而上的挑战：为什么 LLM 推论与传统 ML 不同？

vLLM 针对的是自回归式（auto-regressive）语言模型，其推论过程动态、非同步、无法批次化处理，与传统影像或语音模型大不相同。这类模型的输入长度可从一句话到数百页文档不等，GPU 记忆体使用需精准调配，而计算步骤（token-level scheduling）与记忆体管理（KV cache handling）也变得格外复杂。

vLLM 的一项重要技术突破就是「Page Attention」，这个设计帮助系统更有效地管理记忆体，应对多样化的请求与长序列输出。

不只是写程式：从校园走向开源社群的关键时刻

vLLM 团队于 2023 年在矽谷举办第一次开源 meetup，原以为只会有十几人参加，结果报名人数远超预期、挤爆会场，成为社群发展的转捩点。

此后，vLLM 社群成长迅速，如今已有超过 50 位常态贡献者，并累积 2,000 多名 GitHub 贡献者，是当今成长最快的开源专案之一，获得 Meta、Red Hat、NVIDIA、AMD、AWS、Google 等多方支持。

多方势力同场竞技：打造「AI 的作业系统」

vLLM 的成功关键之一在于，它为模型开发者、晶片厂商与应用开发者建立了一个共通平台，不必彼此对接，只需对接 vLLM 一套，就能实现模型与硬体的最大兼容性。

这也意味著，vLLM 正试图打造一种「AI 的作业系统」：让所有模型、所有硬体都能跑在同一个通用推论引擎上。

推论越来越难？规模、硬体与代理智能的三重压力

如今的推论挑战不断升级，包括：

模型规模暴增：从最初的百亿参数到今日的兆级模型，如 Kim K2，推论所需的运算资源也水涨船高。
模型与硬体多样性：Transformer 架构虽然一致，但内部细节越来越分歧，如 sparse attention、linear attention 等变种层出不穷。
代理系统（Agents）兴起：模型不再只是回答一轮，而是参与连续对话、呼叫外部工具、执行 Python 脚本等，推论层需长时间维持状态、处理非同步输入，进一步拉高技术门槛。

进入实战：vLLM 被大规模部署的案例

vLLM 不只是学术玩具，它已在 Amazon、LinkedIn、Character AI 等大型平台中上线。例如 Amazon 的智能助理「Rufus」就由 vLLM 驱动，成为购物搜寻背后的推论引擎。

甚至有工程师在 vLLM 的一项功能还在开发阶段就直接部署至数百张 GPU 上，可见其在社群中的信任度之高。

vLLM 背后的公司：Inferact 的角色与愿景

为了推动 vLLM 的进一步发展，核心开发者们创办了 Inferact，并获得多方投资支持。与一般商业公司不同，Inferact 将开源视为首要任务，创办人之一 Simon Mo 表示：「我们的公司存在，是为了让 vLLM 成为全球的标准推论引擎。」Inferact 的商业模式围绕在维护与扩展 vLLM 生态系，同时提供企业级部署与支持，形成商业与开源的双轨并行。

Inferact 正积极招募拥有 ML 基础建设经验的工程师，特别是擅长大型模型推论、分散式系统与硬体加速领域的人才。对于追求技术挑战与深度系统优化的开发者而言，这是一个参与下一代 AI 基础建设的机会。

团队期望打造的是类似 OS 或资料库那样的「抽象层」，让 AI 模型能无缝运行于多样化硬体与应用场景中。

这篇文章打造 AI 通用推论层！vLLM 开源专案如何成为全球推论引擎的野心计划？最早出现于链新闻 ABMedia。

来源

免责声明：以上内容仅为作者观点，不代表Followin的任何立场，不构成与Followin相关的任何投资建议。

喜欢