NVIDIA는 AI 공장 내에서 추론 모델을 가속화하고 확장하기 위해 설계된 오픈 소스 추론 소프트웨어인 Dynamo를 출시했습니다.
GPU 풀에 걸쳐 AI 추론 요청을 효율적으로 관리하고 조정하는 것은 AI 공장이 비용 효율적으로 운영되고 토큰 수익을 극대화할 수 있도록 하는 중요한 과제입니다.
AI 추론이 점점 더 널리 퍼짐에 따라 각 AI 모델은 매번 프롬프트로 수만 개의 토큰을 생성할 것으로 예상됩니다. 따라서 추론 성능을 높이면서도 비용을 줄이는 것이 서비스 제공업체의 성장과 수익 기회를 높이는 데 매우 중요합니다.
새로운 세대의 AI 추론 소프트웨어
NVIDIA Triton Inference Server를 계승하는 NVIDIA Dynamo는 추론 AI 모델을 배포하는 AI 공장의 토큰 수익 창출을 극대화하기 위해 특별히 설계된 새로운 세대의 AI 추론 소프트웨어입니다.
Dynamo는 수천 개의 GPU에 걸쳐 추론 통신을 조율하고 가속화합니다. 대규모 언어 모델(LLM)의 처리 및 생성 단계를 별도의 GPU에 분리하는 분리된 서빙 기술을 사용합니다. 이 접근 방식을 통해 각 단계를 독립적으로 최적화하여 특정 계산 요구 사항을 충족하고 GPU 리소스의 최대 활용을 보장할 수 있습니다.
"전 세계 산업은 AI 모델을 훈련시켜 다양한 방식으로 사고하고 배우게 하고 있으며, 이를 통해 시간이 지남에 따라 더 정교해지고 있습니다." NVIDIA의 설립자이자 CEO인 Jensen Huang은 말했습니다. "맞춤형 추론 AI의 미래를 실현하기 위해 NVIDIA Dynamo는 이러한 모델을 대규모로 제공하여 AI 공장의 비용 절감과 효율성을 높입니다."
동일한 수의 GPU를 사용할 때 Dynamo는 NVIDIA의 현재 Hopper 플랫폼에서 Llama 모델을 제공하는 AI 공장의 성능과 수익을 두 배로 높일 수 있는 것으로 입증되었습니다. 또한 GB200 NVL72 랙의 대규모 클러스터에서 DeepSeek-R1 모델을 실행할 때 NVIDIA Dynamo의 지능형 추론 최적화를 통해 GPU당 생성되는 토큰 수를 30배 이상 높일 수 있었습니다.
추론 성능 향상을 달성하기 위해 NVIDIA Dynamo에는 처리량을 높이고 운영 비용을 줄이기 위한 여러 가지 핵심 기능이 포함되어 있습니다.
Dynamo는 변동하는 요청 볼륨과 유형에 맞춰 실시간으로 GPU를 동적으로 추가, 제거 및 재할당할 수 있습니다. 또한 대규모 클러스터 내에서 응답 계산을 최소화하고 쿼리를 효율적으로 라우팅하는 데 가장 적합한 특정 GPU를 식별할 수 있습니다. Dynamo는 추론 데이터를 더 저렴한 메모리 및 스토리지 장치로 오프로드하고 필요할 때 신속하게 검색할 수 있어 전체 추론 비용을 최소화할 수 있습니다.
NVIDIA Dynamo는 PyTorch, SGLang, NVIDIA TensorRT-LLM, vLLM 등 인기 있는 프레임워크와의 광범위한 호환성을 제공하는 완전한 오픈 소스 프로젝트로 출시됩니다. 이러한 개방형 접근 방식은 기업, 스타트업 및 연구자가 분산된 추론 인프라에서 AI 모델을 제공하기 위한 새로운 방법을 개발하고 최적화할 수 있도록 지원합니다.
NVIDIA는 Dynamo가 AWS, Cohere, CoreWeave, Dell, Fireworks, Google Cloud, Lambda, Meta, Microsoft Azure, Nebius, NetApp, OCI, Perplexity, Together AI, VAST 등 주요 클라우드 제공업체와 AI 혁신기업에 걸쳐 AI 추론 채택을 가속화할 것으로 기대하고 있습니다.
NVIDIA Dynamo: 추론 및 에이전트 AI 강화
NVIDIA Dynamo의 핵심 혁신은 잠재적으로 수천 개의 GPU에 걸쳐 이전 요청 처리 시 메모리에 보유한 지식(KV 캐시)을 매핑할 수 있는 기능입니다.
그런 다음 소프트웨어는 새로운 추론 요청을 가장 잘 일치하는 지식을 보유한 GPU로 지능적으로 라우팅하여 비용이 많이 드는 재계산을 방지하고 다른 GPU가 새로운 요청을 더 효율적으로 처리할 수 있도록 합니다. 이 스마트 라우팅 메커니즘은 효율성을 크게 높이고 지연 시간을 줄입니다.
"매달 수억 건의 요청을 처리하기 위해 우리는 NVIDIA GPU와 추론 소프트웨어에 의존하여 우리 비즈니스와 사용자가 요구하는 성능, 안정성 및 확장성을 제공합니다." Perplexity AI의 CTO인 Denis Yarats는 말했습니다. "우리는 향상된 분산 서빙 기능을 통해 Dynamo를 활용하여 추론 서빙 효율성을 더욱 높이고 새로운 AI 추론 모델의 컴퓨팅 요구 사항을 충족할 수 있기를 기대합니다."
AI 플랫폼 Cohere는 이미 NVIDIA Dynamo를 활용하여 Command 시리즈 모델 내의 에이전트 AI 기능을 강화할 계획입니다.
"고급 AI 모델을 확장하려면 정교한 다중 GPU 스케줄링, seamless 조정 및 메모리와 스토리지에 걸쳐 추론 컨텍스트를 원활하게 전송하는 저지연 통신 라이브러리가 필요합니다." Cohere의 엔지니어링 SVP Saurabh Baji는 설명했습니다. "NVIDIA Dynamo를 통해 우리는 기업 고객에게 프리미어 사용자 경험을 제공할 수 있을 것으로 기대합니다."
분리된 서빙 지원
NVIDIA Dynamo 추론 플랫폼에는 분리된 서빙에 대한 강력한 지원 기능도 포함되어 있습니다. 이 고급 기술은 LLM의 다양한 계산 단계(사용자 쿼리 이해 및 가장 적절한 응답 생성 등의 중요한 단계)를 인프라 내 다른 GPU에 할당합니다.
분리된 서빙은 새로운 NVIDIA Llama Nemotron 모델 제품군과 같은 추론 모델에 특히 적합합니다. 이러한 모델은 향상된 문맥 이해와 응답 생성을 위한 고급 추론 기술을 사용합니다. 각 단계를 독립적으로 미세 조정하고 리소싱할 수 있어 전체 처리량이 향상되고 사용자에게 더 빠른 응답 시간을 제공할 수 있습니다.
AI 가속 클라우드 분야의 주요 플레이어인 Together AI도 자사의 독점 Together Inference Engine을 NVIDIA Dynamo와 통합할 계획입니다. 이 통합을 통해 다중 GPU 노드에 걸쳐 추론 워크로드를 원활하게 확장할 수 있습니다. 또한 Together AI가 모델 파이프라인의 다양한 단계에서 발생할 수 있는 트래픽 병목 현상을 동적으로 해결할 수 있습니다.
"추론 모델을 비용 효율적으로 확장하려면 분리된 서빙과 컨텍스트 인식 라우팅과 같은 새로운 고급 추론 기술이 필요합니다." Together AI의 CTO Ce Zhang은 말했습니다. "NVIDIA Dynamo의 개방성과 모듈성을 통해 우리는 구성 요소를 우리의 엔진에 seamlessly 플러그인하여 더 많은 요청을 처리하고 리소스 활용을 최적화할 수 있습니다. 우리는 이 플랫폼의 혁신적인 기능을 활용하여 오픈 소스 추론 모델을 사용자에게 비용 효율적으로 제공할 수 있기를 기대합니다."
NVIDIA Dynamo의 4가지 핵심 혁신
NVIDIA는 추론 서빙 비용을 줄이고 전반적인 사용자 경험을 향상시키는 데 기여하는 Dynamo의 4가지 핵심 혁신을 강조했습니다:
- GPU 플래너: 변동하는 사용자 수요에 따라 GPU를 동적으로 추가하고 제거하는 정교한 계획 엔진. 이를 통해 최적의 리소스 할당이 보장되어 GPU 용량의 과다 또는 과소 공급을 방지할 수 있습니다.
- 스마트 라우터: 대규모 GPU 풀에 걸쳐 추론 요청을 지시하는 지능형 LLM 인식 라우터. 주요 기능은 반복 또는 중복 요청의 비용이 많이 드는 GPU 재계산을 최소화하여 새로운 수신 요청을 더 효율적으로 처리할 수 있는 GPU 리소스를 확보하는 것입니다.
- 저지연 통신 라이브러리: 최신 GPU-GPU 통신을 지원하도록 설계된 추론 최적화 라이브러리. 이기종 장치 간 데이터 교환의 복잡성을 추상화하여 데이터 전송 속도를 크게 높입니다.
- 메모리 관리자: 추론 데이터를 더 저렴한 메모리 및 스토리지 장치로 오프로드하고 다시 로드하는 지능형 엔진. 이 프로세스는 사용자 경험에 부정적인 영향을 미치지 않도록 설계되었습니다.
NVIDIA Dynamo는 NIM 마이크로서비스 내에서 제공되며 향후 회사의 AI Enterprise 소프트웨어 플랫폼 릴리스에서 지원될 것입니다.
참고: LG EXAONE Deep은 수학, 과학 및 코딩에 능통한 인물






