
인공지능 모델의 급속한 발전과 함께, 이러한 대규모 모델을 효율적으로 추론하는 방법은 업계에서 반드시 해결해야 할 중요한 과제가 되었습니다. UC 버클리의 오픈소스 프로젝트 vLLM은 이러한 기술적 과제를 직접적으로 해결할 뿐만 아니라, 자체적인 커뮤니티 와 생태계를 구축해 왔으며, 추론 인프라에 집중하는 스타트업인 Inferact의 탄생까지 이끌었습니다. 이 글에서는 vLLM의 기원, 기술적 혁신, 오픈소스 커뮤니티 의 발전 과정, 그리고 Inferact가 추구하는 "범용 인공지능 추론 엔진"에 대해 자세히 살펴보겠습니다.
학술적 실험에서 깃허브 스타 프로젝트로: vLLM의 탄생
vLLM은 대규모 언어 모델(LLM)의 추론 비효율성을 해결하기 위한 UC 버클리 박사 연구 프로젝트에서 시작되었습니다. 당시 Meta는 OPT 모델을 오픈소스로 공개했고, vLLM 초기 기여자 중 한 명인 권우석은 해당 데모 서비스를 최적화하려다 미해결된 추론 시스템 문제를 발견했습니다. 권우석은 "몇 주면 끝날 거라고 생각했는데, 연구 개발에 완전히 새로운 길을 열어주었다"고 회상했습니다.
상향식 과제: LLM 추론은 기존 머신러닝과 어떻게 다른가?
vLLM은 자기회귀 언어 모델을 대상으로 하며, 이러한 모델은 추론 과정이 동적이고 비동기적이며 일괄 처리가 불가능하여 기존의 이미지 또는 음성 모델과는 매우 다릅니다. 이러한 모델의 입력 길이는 단일 문장에서 수백 페이지 분량의 문서에 이르기까지 다양하므로 GPU 메모리를 정밀하게 할당해야 하며, 토큰 수준의 스케줄링과 키-값 캐시 처리가 매우 복잡합니다.
vLLM의 핵심 기술적 혁신 중 하나는 "페이지 어텐션"이라는 설계로, 시스템이 메모리를 더욱 효율적으로 관리하고 다양한 요청과 긴 출력 시퀀스를 처리하는 데 도움을 줍니다.
단순한 프로그래밍 그 이상: 캠퍼스에서 오픈소스 커뮤니티 로의 전환에 있어 중요한 순간
2023년, vLLM 팀은 실리콘 밸리에서 첫 오픈 소스 밋업을 개최했습니다. 처음에는 12명 정도만 참석할 것으로 예상했지만, 등록자 수는 예상을 훨씬 뛰어넘어 행사장은 만석이 되었고, 이는 커뮤니티 발전의 전환점이 되었습니다.
그 이후로 vLLM 커뮤니티 빠르게 성장하여 현재 50명 이상의 정기 기여자와 2,000명 이상의 GitHub 기여자를 자랑하며, Meta, Red Hat, NVIDIA, AMD, AWS, Google 등 여러 기업의 지원을 받으며 오늘날 가장 빠르게 성장하는 오픈 소스 프로젝트 중 하나가 되었습니다.
다양한 세력이 동일한 무대에서 경쟁하며 "인공지능 기반 운영 체제"를 만들어가고 있습니다.
vLLM의 성공 비결 중 하나는 모델 개발자, 칩 제조업체, 애플리케이션 개발자를 위한 공통 플랫폼을 구축했다는 점입니다. 이들은 서로 직접 인터페이스할 필요 없이, vLLM을 통해서만 인터페이스하여 모델과 하드웨어 간의 최대 호환성을 확보할 수 있습니다.
이는 vLLM이 모든 모델과 모든 하드웨어가 동일한 범용 추론 엔진에서 실행될 수 있도록 하는 "AI 운영 체제"를 만들려고 한다는 것을 의미합니다.
추론이 점점 더 어려워지고 있는 걸까요? 규모, 하드웨어, 에이전트 지능이라는 세 가지 압박 때문입니다.
추론의 어려움은 끊임없이 증가하고 있으며, 그 예로는 다음과 같은 것들이 있습니다.
모델의 규모가 폭발적으로 증가했습니다. 초기 수백억 개의 매개변수에서 오늘날 Kim K2와 같은 수조 개 수준의 모델에 이르기까지, 추론에 필요한 컴퓨팅 자원 또한 그에 따라 증가했습니다.
모델 및 하드웨어 다양성: 트랜스포머 아키텍처는 일관성을 유지하고 있지만, 내부 세부 사항은 희소 어텐션, 선형 어텐션 등 다양한 변형이 잇따라 등장하면서 점점 더 다양해지고 있습니다.
에이전트 시스템의 등장: 모델은 더 이상 단순히 한 번의 질문에만 답하는 것이 아니라, 지속적인 대화에 참여하고, 외부 도구를 호출하고, 파이썬 스크립트를 실행하는 등의 작업을 수행합니다. 추론 계층은 장시간 상태를 유지하고 비동기 입력을 처리해야 하므로 기술적 진입 장벽이 더욱 높아집니다.
실제 적용 사례: 대규모 vLLM 구축 사례 연구
vLLM은 단순한 학술적 도구가 아닙니다. 이미 아마존, 링크드인, 캐릭터 AI와 같은 주요 플랫폼에 배포되어 사용되고 있습니다. 예를 들어, 아마존의 지능형 비서 "루퍼스"는 vLLM을 기반으로 쇼핑 검색의 추론 엔진 역할을 합니다.
심지어 엔지니어들이 vLLM 기능을 개발 중인 상태에서 수백 개의 GPU에 직접 배포한 사례도 있었는데, 이는 해당 기능이 커뮤니티 내에서 얼마나 높은 신뢰를 받고 있는지를 보여줍니다.
vLLM을 개발한 회사: 인터랙트의 역할과 비전
vLLM을 더욱 발전시키기 위해 핵심 개발자들은 Inferact를 설립하고 여러 곳에서 투자를 유치했습니다. 일반적인 상업 회사와 달리 Inferact는 오픈소스를 우선시합니다. 설립자 중 한 명인 사이먼 모는 "우리 회사의 목표는 vLLM을 세계 표준 추론 엔진으로 만드는 것입니다."라고 밝혔습니다. Inferact의 비즈니스 모델은 vLLM 생태계를 유지 및 확장하는 동시에 엔터프라이즈급 배포 및 지원을 제공하여 상용 개발과 오픈소스 개발을 병행하는 이중 전략을 추구합니다.
Inferact는 머신러닝 인프라, 특히 대규모 모델 추론, 분산 시스템 및 하드웨어 가속 분야에 경험이 있는 엔지니어를 적극적으로 모집하고 있습니다. 이는 기술적 도전과 심층적인 시스템 최적화를 추구하는 개발자에게 차세대 AI 인프라 구축에 참여할 수 있는 좋은 기회입니다.
이 팀은 운영 체제나 데이터베이스와 유사한 "추상화 계층"을 만들어 AI 모델이 다양한 하드웨어 및 애플리케이션 시나리오에서 원활하게 실행될 수 있도록 하는 것을 목표로 합니다.
이 기사, "범용 AI 추론 레이어 구축! vLLM 오픈 소스 프로젝트는 어떻게 글로벌 추론 엔진이 되려 하는가?"는 ChainNews ABMedia 에 처음 게재되었습니다.





