
随著 AI 模型的快速演进,如何高效推论(Inference)这些大型模型,成为业界绕不开的关键课题。来自 UC Berkeley 的开源专案 vLLM 不仅正面迎战这个技术挑战,更逐步建立起自己的社群与生态系,甚至催生出专注于推论基础建设的新创公司 Inferact。本文将带你深入 vLLM 的起源、技术突破、开源社群发展,以及 Inferact 如何想要打造「AI 推论的通用引擎」。
从学术实验到 GitHub 明星专案:vLLM 的诞生
vLLM 最初源于 UC Berkeley 的一项博士班研究计划,旨在解决大型语言模型(LLM)推论效率低落的问题。当时,Meta 开源了 OPT 模型,vLLM 的早期贡献者之一的 Woosuk Kwon 则试图优化该模型的 Demo 服务,进而发现这背后是一个尚未解决的推论系统难题。「我们以为只要几周就能完成,结果却开启了一条全新的研究与开发之路。」Kwon 回忆表示。
由下而上的挑战:为什么 LLM 推论与传统 ML 不同?
vLLM 针对的是自回归式(auto-regressive)语言模型,其推论过程动态、非同步、无法批次化处理,与传统影像或语音模型大不相同。这类模型的输入长度可从一句话到数百页文档不等,GPU 记忆体使用需精准调配,而计算步骤(token-level scheduling)与记忆体管理(KV cache handling)也变得格外复杂。
vLLM 的一项重要技术突破就是「Page Attention」,这个设计帮助系统更有效地管理记忆体,应对多样化的请求与长序列输出。
不只是写程式:从校园走向开源社群的关键时刻
vLLM 团队于 2023 年在矽谷举办第一次开源 meetup,原以为只会有十几人参加,结果报名人数远超预期、挤爆会场,成为社群发展的转捩点。
此后,vLLM 社群成长迅速,如今已有超过 50 位常态贡献者,并累积 2,000 多名 GitHub 贡献者,是当今成长最快的开源专案之一,获得 Meta、Red Hat、NVIDIA、AMD、AWS、Google 等多方支持。
多方势力同场竞技:打造「AI 的作业系统」
vLLM 的成功关键之一在于,它为模型开发者、晶片厂商与应用开发者建立了一个共通平台,不必彼此对接,只需对接 vLLM 一套,就能实现模型与硬体的最大兼容性。
这也意味著,vLLM 正试图打造一种「AI 的作业系统」:让所有模型、所有硬体都能跑在同一个通用推论引擎上。
推论越来越难?规模、硬体与代理智能的三重压力
如今的推论挑战不断升级,包括:
-
模型规模暴增:从最初的百亿参数到今日的兆级模型,如 Kim K2,推论所需的运算资源也水涨船高。
-
模型与硬体多样性:Transformer 架构虽然一致,但内部细节越来越分歧,如 sparse attention、linear attention 等变种层出不穷。
-
代理系统(Agents)兴起:模型不再只是回答一轮,而是参与连续对话、呼叫外部工具、执行 Python 脚本等,推论层需长时间维持状态、处理非同步输入,进一步拉高技术门槛。
进入实战:vLLM 被大规模部署的案例
vLLM 不只是学术玩具,它已在 Amazon、LinkedIn、Character AI 等大型平台中上线。例如 Amazon 的智能助理「Rufus」就由 vLLM 驱动,成为购物搜寻背后的推论引擎。
甚至有工程师在 vLLM 的一项功能还在开发阶段就直接部署至数百张 GPU 上,可见其在社群中的信任度之高。
vLLM 背后的公司:Inferact 的角色与愿景
为了推动 vLLM 的进一步发展,核心开发者们创办了 Inferact,并获得多方投资支持。与一般商业公司不同,Inferact 将开源视为首要任务,创办人之一 Simon Mo 表示:「我们的公司存在,是为了让 vLLM 成为全球的标准推论引擎。」Inferact 的商业模式围绕在维护与扩展 vLLM 生态系,同时提供企业级部署与支持,形成商业与开源的双轨并行。
Inferact 正积极招募拥有 ML 基础建设经验的工程师,特别是擅长大型模型推论、分散式系统与硬体加速领域的人才。对于追求技术挑战与深度系统优化的开发者而言,这是一个参与下一代 AI 基础建设的机会。
团队期望打造的是类似 OS 或资料库那样的「抽象层」,让 AI 模型能无缝运行于多样化硬体与应用场景中。
这篇文章 打造 AI 通用推论层!vLLM 开源专案如何成为全球推论引擎的野心计划? 最早出现于 链新闻 ABMedia。






