
辉达 (NVIDIA) 于 12/15 推出开源 AI 模型系列 Nemotron 3,锁定代理型 AI 的实际部署需求。其中,Nemotron 3 Nano 作为首款即日起开放使用的模型,被定位为「高运算效率、低推论成本」的关键角色,瞄准企业与开发者在多代理 AI 系统中的大量基础工作负载。辉达表示,Nemotron 3 Nano 正是为解决「成本、效率与可扩展性」而设计的核心模型。
代理型 AI 成本与效率成关键,辉达锁定 Nano 切入
辉达指出,企业在导入多代理 AI 系统时,普遍面临三大问题:
-
代理之间的通讯成本快速上升。
-
长流程任务容易出现情境漂移 (Context Drift)。
-
推论成本过高,难以大规模部署。
在这样的背景下,Nemotron 3 Nano 被定位为「处理高频、明确任务的主力模型」,负责软体除错、内容摘要、资讯检索、AI 助理流程等大量、重复性高的工作,让整体系统不必每个任务都动用大型前沿模型。
(注:情境漂移 Context Drift,任务拉得越长,AI 越容易跑题、误解重点,甚至自相矛盾。)
Nemotron 3 Nano 规格公开:300 亿参数,但只启用 30 亿
在技术架构上,Nemotron 3 Nano 采用混合式混合专家架构:
-
总参数量:约 300 亿。
-
单次任务启用参数:最多 30 亿。
-
设计目标:在维持准确度的同时,大幅降低推论计算量。
辉达说明,这种设计让模型能「用小脑袋,做大量事情」,特别适合在多代理系统中反复被呼叫的任务。
效能对比 Nemotron 2:吞吐量最高 4 倍、生成成本降 60%
相较上一代 Nemotron 2 Nano,辉达表示,新架构带来明显改善:
-
词元吞吐量最高提升 4 倍。
-
推理词元生成量最高降低 60%。
-
整体推论成本明显下降。
这也让 Nemotron 3 Nano 成为目前辉达定位中「最具运算成本效率」的开放模型。
百万词元情境窗口,强化长流程任务稳定度
Nemotron 3 Nano 具备 100 万词元 (1M token) 的情境窗口,可在单一工作流程中记住更多背景资讯。辉达指出这项设计有助于:
-
串接长流程、多步骤任务。
-
降低 AI 代理在长时间运作下遗失上下文的风险。
-
提升资讯检索与摘要任务的准确度。
对于企业级 AI 助理与自动化流程来说,这是提升稳定性的重要基础。
第三方评测肯定:同级模型中最开放且高效之一
独立 AI 基准测试机构 Artificial Analysis 评估指出,Nemotron 3 Nano 在同等规模模型中,属于「最开放」的模型之一,在效率与准确度表现上具领先水准。
辉达也强调开放性是 Nemotron 系列的核心设计理念,让开发者能依自身需求进行微调与客制化。
即日起开放使用,优先支援开发与部署生态
在实际使用层面,Nemotron 3 Nano 已率先上线:
-
模型平台:Hugging Face
-
推论服务:Baseten、Deepinfra、Fireworks、FriendliAI、OpenRouter、Together AI
-
工具支援:LM Studio、llama.cpp、SGLang、vLLM
同时,Nemotron 3 Nano 也以 NVIDIA NIM 微服务形式提供,可部署在任何辉达的加速基础设施上,让企业在兼顾隐私与控制权的前提下进行大规模应用。
(注:NVIDIA NIM
为企业打造的 AI 模型即用型服务封装,企业只需要透过 API 呼叫,就能用模型,不必自己处理底层效能问题。)
云端与企业平台陆续到位,Nano 为代理型 AI 核心基础层
辉达表示,Nemotron 3 Nano 将成为企业代理型 AI 架构中的「基础层模型」:
-
AWS:即将于 Amazon Bedrock 提供
-
其他平台:Google Cloud、Coreweave、Microsoft Foundry、Nebius、Nscale、Yotta (规划中)
-
企业 AIv 平台:Couchbase、DataRobot、H2O.ai、JFrog、Lambda、UiPath
透过 Nano 承担大量基础推论任务,企业可在同一工作流程中,将高难度任务再交由更大型模型处理,以最佳化整体「词元经济」。
(美晶片投资专家:Google TPU 暂居上风,但 NVIDIA GPU 更具长期优势)
这篇文章 辉达开源 AI 模型 Nemotron 3 新登场,软硬体整合支援代理型 AI 应用 最早出现于 链新闻 ABMedia。




