NVIDIA推出了Dynamo,這是一款旨在加速和擴充套件AI工廠內推理模型的開源推理軟體。
有效管理和協調一組GPU上的AI推理請求是一項關鍵任務,以確保AI工廠能夠以最佳成本效益運營,並最大化代幣收益的產生。
隨著AI推理變得越來越普遍,每個AI模型預計都將在每個提示中生成數萬個代幣,從而代表其"思考"過程。因此,在提高推理效能的同時降低成本對於加速增長和提高服務提供商的收益機會至關重要。
新一代AI推理軟體
NVIDIA Dynamo是NVIDIA Triton Inference Server的繼任者,代表了一個新的AI推理軟體時代,專門設計用於最大化部署推理AI模型的AI工廠的代幣收益。
Dynamo協調和加速跨數千個GPU的推理通訊。它採用了分離式服務技術,將大型語言模型(LLM)的處理和生成階段分別分配到不同的GPU上。這種方法允許每個階段獨立最佳化,滿足其特定的計算需求,並確保GPU資源得到最大利用。
"全球各行各業都在訓練AI模型,讓它們以不同的方式思考和學習,使它們隨時間變得更加複雜,"NVIDIA創始人兼CEO Jensen Huang表示。"為了實現定製推理AI的未來,NVIDIA Dynamo有助於大規模服務這些模型,在AI工廠中實現成本節約和效率提升。"
使用相同數量的GPU,Dynamo已經展示了能夠將在NVIDIA當前的Hopper平臺上為Llama模型提供服務的AI工廠的效能和收益提高一倍。此外,在大型GB200 NVL72機架叢集上執行DeepSeek-R1模型時,NVIDIA Dynamo的智慧推理最佳化已經顯示可將每個GPU生成的代幣數量提高超過30倍。
為了實現這些推理效能的改善,NVIDIA Dynamo集成了幾個關鍵功能,旨在提高吞吐量並降低運營成本。
Dynamo可以動態新增、刪除和重新分配GPU,以適應不斷波動的請求量和型別。該軟體還可以確定大型叢集中最適合最小化響應計算並高效路由查詢的特定GPU。Dynamo還可以將推理資料解除安裝到更加經濟高效的記憶體和儲存裝置,並在需要時快速檢索,從而最大限度地降低總體推理成本。
NVIDIA Dynamo作為一個完全開源的專案釋出,與PyTorch、SGLang、NVIDIA TensorRT-LLM和vLLM等流行框架具有廣泛相容性。這種開放方法支援企業、初創公司和研究人員開發和最佳化在分散式推理基礎設施上服務AI模型的新方法。
NVIDIA預計Dynamo將加速AI推理在廣泛組織中的採用,包括主要雲提供商和AI創新者,如AWS、Cohere、CoreWeave、Dell、Fireworks、Google Cloud、Lambda、Meta、Microsoft Azure、Nebius、NetApp、OCI、Perplexity、Together AI和VAST。
NVIDIA Dynamo:推動推理和主動式AI
NVIDIA Dynamo的一個關鍵創新在於它能夠將推理系統在服務先前請求時保留在記憶體中的知識(即KV快取)對映到數千個GPU上。
該軟體然後會將新的推理請求智慧地路由到擁有最佳知識匹配的GPU,有效地避免了昂貴的重複計算,並釋放其他GPU來處理新的傳入請求。這種智慧路由機制顯著提高了效率並降低了延遲。
"為了每月處理數億次請求,我們依賴NVIDIA GPU和推理軟體來提供我們的業務和使用者所需的效能、可靠性和規模,"Perplexity AI的CTO Denis Yarats說。"我們期待利用Dynamo的增強分散式服務功能,來推動更多的推理服務效率,並滿足新AI推理模型的計算需求。"
AI平臺Cohere已經計劃利用NVIDIA Dynamo來增強其Command系列模型中的主動式AI功能。
"擴充套件先進的AI模型需要複雜的多GPU排程、無縫協調和低延遲通訊庫,以無縫地在記憶體和儲存器之間傳輸推理上下文,"Cohere工程高階副總裁Saurabh Baji解釋道。"我們期望NVIDIA Dynamo將幫助我們為企業客戶提供卓越的使用者體驗。"
支援分離式服務
NVIDIA Dynamo推理平臺還具有對分離式服務的強大支援。這種先進的技術將LLM的不同計算階段(包括理解使用者查詢和生成最合適響應的關鍵步驟)分配給基礎設施中的不同GPU。
分離式服務特別適合於推理模型,如新的NVIDIA Llama Nemotron模型系列,它採用先進的推理技術來提高上下文理解和響應生成。透過允許每個階段獨立微調和配置資源,分離式服務可以提高整體吞吐量,併為使用者提供更快的響應時間。
Together AI是AI加速雲領域的一個重要參與者,也計劃將其專有的Together Inference Engine與NVIDIA Dynamo整合。這種整合旨在實現推理工作負載在多個GPU節點上的無縫擴充套件。此外,它還將允許Together AI動態解決模型管道各個階段可能出現的流量瓶頸。
"以合理的成本擴充套件推理模型需要新的先進推理技術,包括分離式服務和基於上下文的路由,"Together AI的CTO Ce Zhang表示。"NVIDIA Dynamo的開放性和模組化將允許我們無縫地將其元件插入我們的引擎,以提供更多請求,同時最佳化資源利用,最大化我們的加速計算投資。我們很興奮能夠利用該平臺的突破性功能,以合理的成本將開源推理模型帶給我們的使用者。"
NVIDIA Dynamo的四大創新
NVIDIA強調了Dynamo中的四大創新,這些創新有助於降低推理服務成本並提升整體使用者體驗:
- GPU規劃器:一個複雜的規劃引擎,根據不斷波動的使用者需求動態新增和刪除GPU。這可確保最佳資源分配,防止GPU容量過度配置或不足。
- 智慧路由器:一個智慧的、瞭解LLM的路由器,可將推理請求定向到大型GPU叢集。其主要功能是最小化重複或重疊請求的昂貴GPU重複計算,從而釋放寶貴的GPU資源,更有效地處理新的傳入請求。
- 低延遲通訊庫:一個針對推理進行最佳化的庫,旨在支援最先進的GPU到GPU通訊。它抽象了跨異構裝置進行資料交換的複雜性,大幅加快了資料傳輸速度。
- 記憶體管理器:一個智慧引擎,管理將推理資料解除安裝到成本較低的記憶體和儲存裝置,以及從中重新載入的過程。這一過程旨在無縫進行,確保不會對使用者體驗產生負面影響。
NVIDIA Dynamo將在NIM微服務中提供,並將在該公司未來版本的AI Enterprise軟體平臺中得到支援。
另請參見:LG EXAONE Deep是數學、科學和程式設計高手

想從行業領導者那裡瞭解更多關於AI和大資料的資訊嗎?檢視在阿姆斯特丹、加州和倫敦舉辦的AI & Big Data Expo。這個全面的活動與其他領先的活動如Intelligent Automation Conference、BlockX、Digital Transformation Week和Cyber Security & Cloud Expo同時舉辦。
在這裡探索由TechForge提供的其他即將到來的企業技術活動和網路研討會events。
本文最初發表於AI News。






