NVIDIA의 오픈소스 AI 모델인 Nemotron 3가 하드웨어와 소프트웨어를 통합하여 에이전트 기반 AI 애플리케이션을 지원합니다.

이 기사는 기계로 번역되었습니다
원문 표시

NVIDIA는 12월 15일, 에이전트 기반 AI의 실질적인 배포 요구 사항을 충족하는 오픈 소스 AI 모델인 Nemotron 3 시리즈를 출시했습니다. 그중에서도 즉시 사용 가능한 첫 번째 모델인 Nemotron 3 Nano는 "높은 연산 효율성과 낮은 추론 비용"을 핵심으로 내세워 기업 및 개발자의 대량 워크로드를 처리하는 멀티 에이전트 AI 시스템을 대상으로 합니다. NVIDIA는 Nemotron 3 Nano가 "비용, 효율성 및 확장성" 문제를 해결하도록 설계된 핵심 모델이라고 밝혔습니다.

프록시 기반 AI의 경우 비용과 효율성이 핵심 요소이며, 엔비디아는 나노를 진입점으로 삼고 있습니다.

엔비디아는 기업들이 멀티 에이전트 AI 시스템을 구현할 때 일반적으로 세 가지 주요 문제에 직면한다고 지적합니다.

  • 에이전트 간 통신 비용이 급격히 상승.

  • 장시간 소요되는 작업은 컨텍스트가 흐려지기 쉽습니다.

  • 추론 비용이 너무 높아 대규모로 배포하기 어렵습니다.

이러한 배경에서 네모트론 3 나노는 소프트웨어 디버깅, 콘텐츠 요약, 정보 검색, AI 비서 프로세스와 같은 반복적인 작업을 대량 처리하는 "고빈도, 명확하게 정의된 작업 처리를 위한 핵심 모델"로 자리매김하여 전체 시스템이 모든 작업에 대형 최첨단 모델을 사용할 필요가 없도록 합니다.

(참고: 맥락 이탈이란 작업 기간이 길어질수록 AI가 주제에서 벗어나거나 핵심 내용을 오해하거나 심지어 스스로 모순되는 주장을 할 가능성이 높아지는 것을 의미합니다.)

네모트론 3 나노의 사양이 공개되었습니다. 300억 개의 매개변수가 있지만, 그중 30억 개만 사용될 예정입니다.

기술적 아키텍처 측면에서 Nemotron 3 Nano는 하이브리드 전문가 아키텍처를 채택합니다.

  • 총 매개변수 개수: 약 300억 개.

  • 단일 작업 활성화 매개변수: 최대 30억 개.

  • 설계 목표: 정확도를 유지하면서 추론에 필요한 계산량을 크게 줄이는 것.

엔비디아는 이러한 설계 덕분에 모델이 "작은 두뇌로 대량 처리할 수 있다"고 설명하며, 따라서 다중 에이전트 시스템에서 반복적으로 호출되는 작업에 특히 적합하다고 덧붙였습니다.

네모트론 2와의 성능 비교: 처리량은 최대 4배, 생산 비용은 60% 절감됩니다.

NVIDIA는 새로운 아키텍처가 이전 세대인 Nemotron 2 Nano 에 비해 상당한 개선점을 가져왔다고 밝혔습니다.

  • 단어 토큰 처리량을 최대 4배까지 늘릴 수 있습니다.

  • 추론 어휘 단위 생성량을 최대 60%까지 줄일 수 있습니다.

  • 추론에 드는 전체 비용이 크게 감소했습니다.

이로써 네모트론 3 나노는 현재 NVIDIA의 제품 라인업에서 연산 비용 효율이 가장 높은 오픈 소스 모델이 되었습니다.

수백만 개의 어휘적 맥락 창이 장시간 소요되는 작업의 안정성을 향상시킵니다.

Nemotron 3 Nano는 100만 개의 토큰을 저장할 수 있는 컨텍스트 창을 갖추고 있어 단일 워크플로에서 더 많은 배경 정보를 기억할 수 있습니다. Nvidia는 이러한 설계가 다음과 같은 이점을 제공한다고 설명합니다.

  • 복잡한 프로세스와 여러 단계를 거치는 작업을 연결합니다.

  • 장기간 작동 중 AI 에이전트가 맥락을 잃을 리스크 줄입니다.

  • 정보 검색 및 요약 작업의 정확도를 향상시킵니다.

이는 기업 수준의 AI 비서 및 자동화 프로세스의 안정성을 향상시키는 데 있어 매우 중요한 기반입니다.

제3자 평가에 따르면, 이 모델은 동급에서 가장 개방적이고 효율적인 모델 중 하나입니다.

독립적인 AI 벤치마킹 기관인 Artificial Analysis의 평가에 따르면 Nemotron 3 Nano는 비슷한 크기의 모델 중 가장 "개방적인" 모델 중 하나이며 효율성과 정확도 면에서 선두를 달리고 있습니다.

엔비디아는 또한 개방성이 네모트론 시리즈의 핵심 설계 철학이며, 이를 통해 개발자들이 필요에 따라 세부 조정 및 맞춤 설정이 가능하다고 강조합니다.

오늘부터 사용 가능하며, 개발 및 배포 생태계 지원에 우선순위가 주어집니다.

실제 사용 측면에서 네모트론 3 나노는 이미 출시되었습니다.

  • 모델 플랫폼: 허깅 페이스

  • 추론 서비스: Baseten, Deepinfra, Fireworks, FriendliAI, OpenRouter, Together AI

  • 지원 도구: LM Studio, llama.cpp, SGLang, vLLM

한편, 네모트론 3 나노는 NVIDIA NIM 마이크로서비스로도 제공되어 모든 NVIDIA 가속 인프라에 배포할 수 있으므로 기업은 개인 정보 보호 및 제어를 유지하면서 애플리케이션을 확장할 수 있습니다.

(참고: NVIDIA NIM) ™ 이를 통해 기업은 바로 사용할 수 있는 AI 모델 서비스를 제공받을 수 있습니다. 기업은 API를 호출하기만 하면 되므로, 성능 관련 문제를 직접 처리할 필요가 없습니다.

클라우드 및 엔터프라이즈 플랫폼이 점차 구축됨에 따라 Nano는 에이전트 기반 AI의 핵심 기반 계층 역할을 합니다.

엔비디아는 네모트론 3 나노가 기업용 에이전트 기반 AI 아키텍처에서 "기초 계층 모델" 역할을 할 것이라고 밝혔습니다.

  • AWS: 아마존 베드락에 곧 출시 예정

  • 기타 플랫폼: Google Cloud, Coreweave, Microsoft Foundry, Nebius, Nscale, Yotta(예정)

  • 기업용 AI 플랫폼: Couchbase, DataRobot, H2O.ai, JFrog, Lambda, UiPath

나노(Nano)가 대량 기본적인 추론 작업을 처리하도록 함으로써, 기업은 동일한 워크플로 내에서 더 복잡한 작업을 더 큰 모델에 위임하여 전반적인 "어휘 경제성"을 최적화할 수 있습니다.

(미국 반도체 투자 전문가: 현재는 구글의 TPU가 우위를 점하고 있지만, 장기적으로는 NVIDIA GPU가 더 큰 이점을 갖고 있다.)

"NVIDIA의 새로운 오픈 소스 AI 모델인 Nemotron 3, 하드웨어 및 소프트웨어 통합을 통해 에이전트 기반 AI 애플리케이션 지원"이라는 제목의 이 기사는 뉴스 플랫폼 체인인 ABMedia 에 처음 게재되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트