NVIDIA Dynamo: Mở rộng quy mô suy luận AI với hiệu quả mã nguồn mở

avatar
AI News
03-20
Bài viết này được dịch máy
Xem bản gốc

NVIDIA đã ra mắt Dynamo, một phần mềm suy luận mã nguồn mở được thiết kế để tăng tốc và mở rộng các mô hình suy luận trong các nhà máy AI.

Quản lý và phối hợp hiệu quả các yêu cầu suy luận AI trên một đội GPU là một nỗ lực quan trọng để đảm bảo rằng các nhà máy AI có thể hoạt động với hiệu quả chi phí tối ưu và tối đa hóa việc tạo ra doanh thu token.

Khi suy luận AI trở nên phổ biến hơn, mỗi mô hình AI dự kiến sẽ tạo ra hàng chục nghìn token với mỗi lời nhắc, thực chất là đại diện cho quá trình "suy nghĩ" của nó. Do đó, cải thiện hiệu suất suy luận đồng thời giảm chi phí của nó là rất quan trọng để thúc đẩy tăng trưởng và tăng cơ hội doanh thu cho các nhà cung cấp dịch vụ.

Một thế hệ mới của phần mềm suy luận AI

NVIDIA Dynamo, kế thừa NVIDIA Triton Inference Server, đại diện cho một thế hệ mới của phần mềm suy luận AI được thiết kế đặc biệt để tối đa hóa việc tạo ra doanh thu token cho các nhà máy AI triển khai các mô hình suy luận.

Dynamo điều phối và tăng tốc giao tiếp suy luận trên hàng nghìn GPU tiềm năng. Nó sử dụng phục vụ phân tách, một kỹ thuật tách các giai đoạn xử lý và tạo ra của các mô hình ngôn ngữ lớn (LLM) thành các GPU riêng biệt. Cách tiếp cận này cho phép mỗi giai đoạn được tối ưu hóa độc lập, đáp ứng nhu cầu tính toán cụ thể của nó và đảm bảo mức sử dụng tối đa tài nguyên GPU.

"Các ngành công nghiệp trên toàn thế giới đang huấn luyện các mô hình AI để suy nghĩ và học hỏi theo những cách khác nhau, khiến chúng trở nên tinh vi hơn theo thời gian," Jensen Huang, nhà sáng lập và CEO của NVIDIA, cho biết. "Để cho phép một tương lai của AI suy luận tùy chỉnh, NVIDIA Dynamo giúp phục vụ các mô hình này theo quy mô, mang lại tiết kiệm chi phí và hiệu quả trên toàn bộ các nhà máy AI."

Sử dụng cùng số lượng GPU, Dynamo đã chứng minh khả năng tăng gấp đôi hiệu suất và doanh thu của các nhà máy AI phục vụ các mô hình Llama trên nền tảng Hopper hiện tại của NVIDIA. Hơn nữa, khi chạy mô hình DeepSeek-R1 trên một cụm lớn các giá NVL72 GB200, các tối ưu hóa suy luận thông minh của NVIDIA Dynamo đã cho thấy tăng số lượng token được tạo ra hơn 30 lần trên mỗi GPU.

Để đạt được những cải thiện này trong hiệu suất suy luận, NVIDIA Dynamo kết hợp nhiều tính năng chính được thiết kế để tăng xuất lượng và giảm chi phí hoạt động.

Dynamo có thể động态thêm, xóa và phân bổ lại GPU theo thời gian thực để thích ứng với các thay đổi về khối lượng và loại yêu cầu. Phần mềm cũng có thể xác định các GPU cụ thể trong các cụm lớn phù hợp nhất để giảm thiểu tính toán phản hồi và định tuyến truy vấn hiệu quả. Dynamo cũng có thể chuyển dữ liệu suy luận sang các thiết bị bộ nhớ và lưu trữ rẻ hơn trong khi lấy lại nó nhanh chóng khi cần, qua đó giảm thiểu tổng chi phí suy luận.

NVIDIA Dynamo được phát hành như một dự án mã nguồn mở hoàn toàn, cung cấp khả năng tương thích rộng rãi với các framework phổ biến như PyTorch, SGLang, NVIDIA TensorRT-LLM và vLLM. Cách tiếp cận mở này hỗ trợ các doanh nghiệp, công ty khởi nghiệp và nhà nghiên cứu trong việc phát triển và tối ưu hóa các phương pháp mới để phục vụ các mô hình AI trên các cơ sở hạ tầng suy luận phân tách.

NVIDIA kỳ vọng Dynamo sẽ thúc đẩy việc áp dụng suy luận AI trên một loạt các tổ chức, bao gồm các nhà cung cấp dịch vụ đám mây lớn và các nhà sáng tạo AI như AWS, Cohere, CoreWeave, Dell, Fireworks, Google Cloud, Lambda, Meta, Microsoft Azure, Nebius, NetApp, OCI, Perplexity, Together AI và VAST.

NVIDIA Dynamo: Tăng cường suy luận và AI tự chủ

Một sáng kiến chính của NVIDIA Dynamo nằm ở khả năng ánh xạ kiến thức mà các hệ thống suy luận nắm giữ trong bộ nhớ từ việc phục vụ các yêu cầu trước đó, được gọi là bộ nhớ cache KV, trên hàng nghìn GPU tiềm năng.

Sau đó, phần mềm định tuyến một cách thông minh các yêu cầu suy luận mới đến các GPU có sự phù hợp kiến thức tốt nhất, hiệu quả tránh được các tính toán lại tốn kém và giải phóng các GPU khác để xử lý các yêu cầu đến mới hiệu quả hơn. Cơ chế định tuyến thông minh này tăng cường đáng kể hiệu quả và giảm độ trễ.

"Để xử lý hàng trăm triệu yêu cầu mỗi tháng, chúng tôi dựa vào GPU và phần mềm suy luận của NVIDIA để cung cấp hiệu suất, độ tin cậy và quy mô mà doanh nghiệp và người dùng của chúng tôi yêu cầu," Denis Yarats, CTO của Perplexity AI, cho biết.

"Chúng tôi mong muốn tận dụng Dynamo, với các khả năng phục vụ phân tán nâng cao của nó, để thúc đẩy hiệu quả phục vụ suy luận và đáp ứng nhu cầu tính toán của các mô hình suy luận AI mới."

Nền tảng AI Cohere đang lên kế hoạch sử dụng NVIDIA Dynamo để tăng cường các khả năng AI tự chủ trong chuỗi mô hình Command của mình.

"Mở rộng các mô hình AI nâng cao yêu cầu lập lịch GPU đa nhiệm tinh vi, phối hợp liền mạch và các thư viện giao tiếp độ trễ thấp chuyển ngữ cảnh suy luận một cách liền mạch qua bộ nhớ và lưu trữ," Saurabh Baji, Phó Chủ tịch Kỹ thuật tại Cohere, giải thích.

"Chúng tôi kỳ vọng NVIDIA Dynamo sẽ giúp chúng tôi cung cấp một trải nghiệm người dùng hàng đầu cho khách hàng doanh nghiệp của mình."

Hỗ trợ phục vụ phân tách

Nền tảng suy luận NVIDIA Dynamo cũng có tính năng hỗ trợ mạnh mẽ cho phục vụ phân tách. Kỹ thuật tiên tiến này gán các giai đoạn tính toán khác nhau của LLM - bao gồm các bước quan trọng là hiểu yêu cầu của người dùng và sau đó tạo ra phản hồi phù hợp nhất - cho các GPU khác nhau trong cơ sở hạ tầng.

Phục vụ phân tách đặc biệt phù hợp với các mô hình suy luận, chẳng hạn như dòng mô hình NVIDIA Llama Nemotron mới, sử dụng các kỹ thuật suy luận nâng cao để cải thiện hiểu biết ngữ cảnh và tạo phản hồi. Bằng cách cho phép mỗi giai đoạn được tinh chỉnh và cung cấp tài nguyên độc lập, phục vụ phân tách cải thiện tổng thể xuất lượng và cung cấp thời gian phản hồi nhanh hơn cho người dùng.

Together AI, một nhân tố nổi bật trong không gian Đám mây Tăng tốc AI, cũng đang tìm cách tích hợp Động cơ Suy luận Together riêng của mình với NVIDIA Dynamo. Sự tích hợp này nhằm mục đích cho phép mở rộng liền mạch các tải công việc suy luận trên nhiều nút GPU. Hơn nữa, nó sẽ cho phép Together AI giải quyết động các điểm nghẽn lưu lượng có thể phát sinh ở các giai đoạn khác nhau của đường ống mô hình.

"Mở rộng các mô hình suy luận một cách hiệu quả về chi phí yêu cầu các kỹ thuật suy luận nâng cao mới, bao gồm phục vụ phân tách và định tuyến dựa trên ngữ cảnh," Ce Zhang, CTO của Together AI, khẳng định.

"Tính mở và tính mô-đun của NVIDIA Dynamo sẽ cho phép chúng tôi tích hợp các thành phần của nó một cách liền mạch vào động cơ của chúng tôi để phục vụ nhiều yêu cầu hơn đồng thời tối ưu hóa việc sử dụng tài nguyên - tối đa hóa khoản đầu tư tính toán được tăng tốc của chúng tôi. Chúng tôi rất phấn khích được tận dụng các khả năng đột phá của nền tảng này để mang các mô hình suy luận nguồn mở đến người dùng của chúng tôi một cách hiệu quả về chi phí."

Bốn sáng kiến chính của NVIDIA Dynamo

NVIDIA đã nhấn mạnh bốn sáng kiến chính trong Dynamo góp phần giảm chi phí phục vụ suy luận và nâng cao trải nghiệm người dùng tổng thể:

  • Trình lập kế hoạch GPU: Một động cơ lập kế hoạch tinh vi động thêm và xóa GPU dựa trên nhu cầu người dùng biến động. Điều này đảm bảo phân bổ tài nguyên tối ưu, ngăn ngừa cả việc cung cấp quá nhiều và thiếu hụt năng lực GPU.
  • Bộ định tuyến thông minh: Một bộ định tuyến thông minh, nhận thức LLM định hướng các yêu cầu suy luận trên các đội GPU lớn. Chức năng chính của nó là giảm thiểu các tính toán GPU lại tốn kém đối với các yêu cầu lặp lại hoặc chồng chéo, qua đó giải phóng các tài nguyên GPU quý báu để xử lý các yêu cầu đến mới hiệu quả hơn.
  • Thư viện giao tiếp độ trễ thấp: Một thư viện được tối ưu hóa cho suy luận được thiết kế để hỗ trợ giao tiếp GPU-to-GPU tiên tiến nhất. Nó trừu tượng hóa các phức tạp của trao đổi dữ liệu trên các thiết bị không đồng nhất, t

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
2
Thêm vào Yêu thích
Bình luận