NVIDIA推出了Dynamo,这是一款旨在加速和扩展AI工厂内推理模型的开源推理软件。
有效管理和协调一组GPU上的AI推理请求是一项关键任务,以确保AI工厂能够以最佳成本效益运营,并最大化代币收益的产生。
随着AI推理变得越来越普遍,每个AI模型预计都将在每个提示中生成数万个代币,从而代表其"思考"过程。因此,在提高推理性能的同时降低成本对于加速增长和提高服务提供商的收益机会至关重要。
新一代AI推理软件
NVIDIA Dynamo是NVIDIA Triton Inference Server的继任者,代表了一个新的AI推理软件时代,专门设计用于最大化部署推理AI模型的AI工厂的代币收益。
Dynamo协调和加速跨数千个GPU的推理通信。它采用了分离式服务技术,将大型语言模型(LLM)的处理和生成阶段分别分配到不同的GPU上。这种方法允许每个阶段独立优化,满足其特定的计算需求,并确保GPU资源得到最大利用。
"全球各行各业都在训练AI模型,让它们以不同的方式思考和学习,使它们随时间变得更加复杂,"NVIDIA创始人兼CEO Jensen Huang表示。"为了实现定制推理AI的未来,NVIDIA Dynamo有助于大规模服务这些模型,在AI工厂中实现成本节约和效率提升。"
使用相同数量的GPU,Dynamo已经展示了能够将在NVIDIA当前的Hopper平台上为Llama模型提供服务的AI工厂的性能和收益提高一倍。此外,在大型GB200 NVL72机架集群上运行DeepSeek-R1模型时,NVIDIA Dynamo的智能推理优化已经显示可将每个GPU生成的代币数量提高超过30倍。
为了实现这些推理性能的改善,NVIDIA Dynamo集成了几个关键功能,旨在提高吞吐量并降低运营成本。
Dynamo可以动态添加、删除和重新分配GPU,以适应不断波动的请求量和类型。该软件还可以确定大型集群中最适合最小化响应计算并高效路由查询的特定GPU。Dynamo还可以将推理数据卸载到更加经济高效的内存和存储设备,并在需要时快速检索,从而最大限度地降低总体推理成本。
NVIDIA Dynamo作为一个完全开源的项目发布,与PyTorch、SGLang、NVIDIA TensorRT-LLM和vLLM等流行框架具有广泛兼容性。这种开放方法支持企业、初创公司和研究人员开发和优化在分散式推理基础设施上服务AI模型的新方法。
NVIDIA预计Dynamo将加速AI推理在广泛组织中的采用,包括主要云提供商和AI创新者,如AWS、Cohere、CoreWeave、Dell、Fireworks、Google Cloud、Lambda、Meta、Microsoft Azure、Nebius、NetApp、OCI、Perplexity、Together AI和VAST。
NVIDIA Dynamo:推动推理和主动式AI
NVIDIA Dynamo的一个关键创新在于它能够将推理系统在服务先前请求时保留在内存中的知识(即KV缓存)映射到数千个GPU上。
该软件然后会将新的推理请求智能地路由到拥有最佳知识匹配的GPU,有效地避免了昂贵的重复计算,并释放其他GPU来处理新的传入请求。这种智能路由机制显著提高了效率并降低了延迟。
"为了每月处理数亿次请求,我们依赖NVIDIA GPU和推理软件来提供我们的业务和用户所需的性能、可靠性和规模,"Perplexity AI的CTO Denis Yarats说。"我们期待利用Dynamo的增强分布式服务功能,来推动更多的推理服务效率,并满足新AI推理模型的计算需求。"
AI平台Cohere已经计划利用NVIDIA Dynamo来增强其Command系列模型中的主动式AI功能。
"扩展先进的AI模型需要复杂的多GPU调度、无缝协调和低延迟通信库,以无缝地在内存和存储器之间传输推理上下文,"Cohere工程高级副总裁Saurabh Baji解释道。"我们期望NVIDIA Dynamo将帮助我们为企业客户提供卓越的用户体验。"
支持分离式服务
NVIDIA Dynamo推理平台还具有对分离式服务的强大支持。这种先进的技术将LLM的不同计算阶段(包括理解用户查询和生成最合适响应的关键步骤)分配给基础设施中的不同GPU。
分离式服务特别适合于推理模型,如新的NVIDIA Llama Nemotron模型系列,它采用先进的推理技术来提高上下文理解和响应生成。通过允许每个阶段独立微调和配置资源,分离式服务可以提高整体吞吐量,并为用户提供更快的响应时间。
Together AI是AI加速云领域的一个重要参与者,也计划将其专有的Together Inference Engine与NVIDIA Dynamo集成。这种集成旨在实现推理工作负载在多个GPU节点上的无缝扩展。此外,它还将允许Together AI动态解决模型管道各个阶段可能出现的流量瓶颈。
"以合理的成本扩展推理模型需要新的先进推理技术,包括分离式服务和基于上下文的路由,"Together AI的CTO Ce Zhang表示。"NVIDIA Dynamo的开放性和模块化将允许我们无缝地将其组件插入我们的引擎,以提供更多请求,同时优化资源利用,最大化我们的加速计算投资。我们很兴奋能够利用该平台的突破性功能,以合理的成本将开源推理模型带给我们的用户。"
NVIDIA Dynamo的四大创新
NVIDIA强调了Dynamo中的四大创新,这些创新有助于降低推理服务成本并提升整体用户体验:
- GPU规划器:一个复杂的规划引擎,根据不断波动的用户需求动态添加和删除GPU。这可确保最佳资源分配,防止GPU容量过度配置或不足。
- 智能路由器:一个智能的、了解LLM的路由器,可将推理请求定向到大型GPU集群。其主要功能是最小化重复或重叠请求的昂贵GPU重复计算,从而释放宝贵的GPU资源,更有效地处理新的传入请求。
- 低延迟通信库:一个针对推理进行优化的库,旨在支持最先进的GPU到GPU通信。它抽象了跨异构设备进行数据交换的复杂性,大幅加快了数据传输速度。
- 内存管理器:一个智能引擎,管理将推理数据卸载到成本较低的内存和存储设备,以及从中重新加载的过程。这一过程旨在无缝进行,确保不会对用户体验产生负面影响。
NVIDIA Dynamo将在NIM微服务中提供,并将在该公司未来版本的AI Enterprise软件平台中得到支持。
另请参见:LG EXAONE Deep是数学、科学和编程高手

想从行业领导者那里了解更多关于AI和大数据的信息吗?查看在阿姆斯特丹、加州和伦敦举办的AI & Big Data Expo。这个全面的活动与其他领先的活动如Intelligent Automation Conference、BlockX、Digital Transformation Week和Cyber Security & Cloud Expo同时举办。
在这里探索由TechForge提供的其他即将到来的企业技术活动和网络研讨会events。
本文最初发表于AI News。






