
Vào ngày 15 tháng 12, NVIDIA đã ra mắt sê-ri mô hình AI mã nguồn mở Nemotron 3 , nhắm đến nhu cầu triển khai thực tiễn của AI dựa trên tác nhân. Trong đó, Nemotron 3 Nano, mô hình đầu tiên có sẵn ngay lập tức, được định vị là một nhân vật chủ chốt về "hiệu quả tính toán cao và chi phí suy luận thấp", nhắm đến lượng lớn của các doanh nghiệp và nhà phát triển trong các hệ thống AI đa tác nhân. NVIDIA tuyên bố rằng Nemotron 3 Nano là một mô hình cốt lõi được thiết kế để giải quyết "chi phí, hiệu quả và mở rộng".
Đối với AI dựa trên proxy, chi phí và hiệu quả là những yếu tố then chốt; Nvidia nhắm đến Nano như điểm khởi đầu của mình.
Nvidia chỉ ra rằng các doanh nghiệp thường phải đối mặt với ba vấn đề chính khi triển khai hệ thống AI đa tác nhân:
Chi phí liên lạc giữa các tác nhân tăng nhanh chóng.
Nhiệm vụ kéo dài dễ bị lệch ngữ cảnh.
Chi phí suy luận quá cao nên không thể triển khai trên quy mô lớn.
Trong bối cảnh đó, Nemotron 3 Nano được định vị là "mô hình chính để xử lý nhiệm vụ tần số cao, được xác định rõ ràng", chịu trách nhiệm cho lượng lớn các tác vụ lặp đi lặp lại như gỡ lỗi phần mềm, tóm tắt nội dung, truy xuất thông tin và các quy trình trợ lý AI, để toàn bộ hệ thống không cần phải sử dụng các mô hình lớn, tiên tiến cho mỗi nhiệm vụ.
(Lưu ý: Hiện tượng lệch ngữ cảnh có nghĩa là nhiệm vụ càng kéo dài, trí tuệ nhân tạo càng dễ lạc đề, hiểu sai các điểm chính, hoặc thậm chí tự mâu thuẫn.)
Thông số kỹ thuật của Nemotron 3 Nano đã được tiết lộ: 30 tỷ tham số, nhưng chỉ có 3 tỷ tham số sẽ được sử dụng.
Về mặt kiến trúc kỹ thuật, Nemotron 3 Nano áp dụng kiến trúc chuyên gia lai:
Tổng số tham số: khoảng 30 tỷ.
Số tham số kích hoạt cho nhiệm vụ lần : tối đa 3 tỷ.
Mục tiêu thiết kế: Giảm đáng kể gánh nặng tính toán của quá trình suy luận trong khi vẫn duy trì độ chính xác.
Nvidia giải thích rằng thiết kế này cho phép mô hình "thực hiện được lượng lớn với bộ xử lý nhỏ", khiến nó đặc biệt phù hợp cho nhiệm vụ được gọi lặp đi lặp lại trong các hệ thống đa tác nhân.
So sánh hiệu suất với Nemotron 2: Năng suất cao gấp 4 lần, chi phí sản xuất giảm 60%.
So với thế hệ trước Nemotron 2 Nano , NVIDIA cho biết kiến trúc mới mang lại những cải tiến đáng kể:
Tốc độ xử lý từ khóa có thể tăng lên đến 4 lần.
Việc tạo ra các đơn vị từ vựng suy luận có thể giảm tới 60%.
Tổng chi phí suy luận giảm đáng kể.
Điều này khiến Nemotron 3 Nano trở thành mẫu card đồ họa mở tiết kiệm chi phí tính toán nhất trong dòng sản phẩm hiện tại của NVIDIA.
Hàng triệu cửa sổ ngữ cảnh từ vựng giúp tăng cường tính ổn định của nhiệm vụ xử lý dài hạn.
Nemotron 3 Nano có cửa sổ ngữ cảnh với 1 triệu token, cho phép nó ghi nhớ nhiều thông tin bối cảnh hơn trong một quy trình làm việc duy nhất. Nvidia chỉ ra rằng thiết kế này giúp:
Kết nối các quy trình dài và nhiệm vụ nhiều bước.
Giảm thiểu rủi ro AI Agent mất ngữ cảnh trong quá trình hoạt động lâu dài.
Nâng cao độ chính xác của nhiệm vụ truy xuất và tóm tắt thông tin.
Đây là nền tảng quan trọng để cải thiện tính ổn định trong các trợ lý AI cấp doanh nghiệp và các quy trình tự động hóa.
Các đánh giá từ bên thứ ba khẳng định: đây là một trong những mô hình cởi mở và hiệu quả nhất trong cùng loại.
Đánh giá từ tổ chức chuyên về đánh giá hiệu năng AI độc lập Artificial Analysis cho thấy Nemotron 3 Nano là một trong những mô hình "mở" nhất trong số các mô hình có kích thước tương tự, và nó dẫn đầu về hiệu quả và độ chính xác.
Nvidia cũng nhấn mạnh rằng tính mở là triết lý thiết kế cốt lõi của sê-ri Nemotron, cho phép các nhà phát triển tinh chỉnh và tùy chỉnh nó theo nhu cầu riêng của họ.
Có thể sử dụng ngay từ hôm nay, ưu tiên hàng đầu dành cho việc hỗ trợ hệ sinh thái phát triển và triển khai.
Về mặt ứng dụng thực tế, Nemotron 3 Nano đã được ra mắt:
Nền tảng mô hình: Hugging Face
Các dịch vụ suy luận: Baseten, Deepinfra, Fireworks, FriendliAI, OpenRouter, Together AI
Các công cụ được hỗ trợ: LM Studio, llama.cpp, SGLang, vLLM
Trong khi đó, Nemotron 3 Nano cũng có sẵn dưới dạng dịch vụ vi mô NVIDIA NIM, có thể được triển khai trên bất kỳ cơ sở hạ tầng tăng tốc NVIDIA nào, cho phép các doanh nghiệp mở rộng quy mô ứng dụng của họ trong khi vẫn duy trì quyền riêng tư và kiểm soát.
(Lưu ý: NVIDIA NIM)
Điều này cung cấp cho các doanh nghiệp dịch vụ mô hình AI sẵn sàng sử dụng. Các doanh nghiệp chỉ cần gọi API để sử dụng mô hình mà không cần phải tự xử lý các vấn đề hiệu năng cơ bản.
Với việc các nền tảng đám mây và doanh nghiệp dần được triển khai, Nano đóng vai trò là lớp nền tảng cốt lõi cho trí tuệ nhân tạo dựa trên tác nhân.
Nvidia tuyên bố rằng Nemotron 3 Nano sẽ đóng vai trò là "mô hình lớp nền tảng" trong kiến trúc trí tuệ nhân tạo dựa trên tác nhân dành cho doanh nghiệp:
AWS: Sắp có mặt trên Amazon Bedrock
Các nền tảng khác: Google Cloud, Coreweave, Microsoft Foundry, Nebius, Nscale, Yotta (đang lên kế hoạch)
Các nền tảng AI dành cho doanh nghiệp: Couchbase, DataRobot, H2O.ai, JFrog, Lambda, UiPath
Bằng cách để Nano xử lý lượng lớn nhiệm vụ suy luận cơ bản, các công ty có thể giao phó nhiệm vụ phức tạp hơn cho các mô hình lớn hơn trong cùng một quy trình làm việc để tối ưu hóa "nền kinh tế từ vựng" tổng thể.
Bài viết này, "Mô hình AI mã nguồn mở mở Nemotron 3 mới từ NVIDIA, hỗ trợ các ứng dụng AI dựa trên tác nhân thông qua tích hợp phần cứng và phần mềm," lần đầu tiên xuất hiện trên ABMedia, ABMedia .





