엔비디아의 4B 미니어처 모델은 GPT-5 Pro보다 가격이 1/36에 불과해 성능이 뛰어납니다.

이 기사는 기계로 번역되었습니다
원문 표시

엔비디아의 소규모 모델이 계속해서 승리하고 있습니다.

ARC-AGI 2의 최신 결과에 따르면 4B 소형 모델인 NVARC가 오픈 차트에서 27.64% 의 점유율로 1위를 차지했으며, GPT-5 Pro의 18.3%를 넘어섰습니다.

게다가 작업당 비용은 20센트에 불과해 GPT-5 Pro의 단일 작업 비용(7달러 이상)의 약 1/36에 불과합니다.

공식 분석에 따르면, NVARC의 승리의 하이라이트는 사전 학습을 위해 대규모 일반 데이터 세트에 의존하지 않는 제로 사전 학습 딥 러닝 방식 에 있습니다. 이를 통해 도메인 편향 및 사전 학습된 모델의 데이터 종속성과 같은 문제를 피할 수 있습니다.

ARC-AGI 2는 공개된 훈련 데이터와의 중복을 제거한 훨씬 더 어려운 테스트로, 주로 테스트 모델이 훈련 데이터 외에 새로운 기술을 효율적으로 습득할 수 있는지 확인하기 위한 것입니다.

결과가 발표된 후 공식팀은 기술 분석을 위해 NVARC팀의 장프랑수아 퓨제와 이반 소로킨을 인터뷰했습니다.

"비용 대비 효과의 왕"이 어떻게 "만들어졌는지" 직접 확인해 보세요.

매개변수에 의존하지 않는 재료 적재

엔비디아의 전략은 복잡한 추론을 오프라인 합성 데이터 파이프라인으로 옮기고 평가 시점에 빠르게 실행할 수 있는 더 작은 모델을 훈련하는 것입니다.

간단히 말해서, 대규모로 고품질 데이터를 합성하고 , 기존 모델을 최적화하고, 값비싼 계산 작업을 오프라인으로 옮기는 것을 포함합니다.

Kaggle 경연대회는 컴퓨팅 리소스에 대한 제한이 매우 엄격하기 때문에, 팀은 복잡한 단계별 추론 및 코드 생성을 수행하는 데 슈퍼컴퓨팅 해시레이트 필요한 대규모 LMM을 직접 사용할 수 없다는 것을 깨달았습니다.

그래서 그들은 접근 방식을 바꾸어 가장 비용이 많이 드는 계산 작업을 오프라인으로 옮기기로 결정했습니다. 예를 들어, GPT-OSS-120B를 사용하여 대규모로 고품질 합성 퍼즐을 제작했습니다.

연구팀은 H-ARC와 BARC 데이터세트에서 기존 ARC 퍼즐 데이터를 수집한 다음, 간단한 퍼즐을 혼합하여 더 복잡한 새로운 퍼즐을 생성했습니다.

데이터 품질을 보장하기 위해 그들은 복잡한 추론 파이프라인을 여러 단계로 나누어 각 단계를 독립적으로 검증할 수 있도록 했습니다.

이런 방식으로 그들은 각 샘플이 최대 7개의 입력/출력 쌍을 갖는 320만 개 이상의 증강 샘플을 포함하는 합성 데이터 세트를 구축했습니다.

하사비스가 스케일링 법칙의 중요성을 강조한 것은 사실이지만, 합성 데이터의 스케일링은 왜 중요하지 않은 것일까요?

본론으로 돌아가서, NVARC의 핵심 추론 모듈 ARCHitects 방법의 개선된 버전을 기반으로 하며, 소매개변수 모델 Qwen3-4B 를 사용하고 대화형 템플릿을 통해 퍼즐 이해를 단순화합니다.

훈련 중에는 NeMo RL 프레임 와 Megatron 백엔드를 사용하여 감독 미세 조정이 수행됩니다.

그러나 모델이 우수한 결과를 달성할 수 있도록 하는 핵심 단계는 테스트 시간 미세 조정 (TTFT)입니다.

"각 과제가 완전히 새로운 규칙"이라는 ARC-AGI-2의 특징에 대응하여 NVARC는 LoRA 미세 조정 기술을 도입하여 각 문제에 맞게 미세 조정함으로써 모델이 문제를 풀기 전에 빠르게 적응할 수 있도록 했습니다.

ARCHitects 방법의 개선점은 디코딩 단계에서 DFS 알고리즘의 일괄 처리 최적화에 있으며, 이를 통해 비결정적 결과의 문제를 해결한다는 것입니다.

동시에, 데이터 증강 작업을 평가하기 위한 8개의 후보 솔루션이 통합되었고, 최종 점수는 공개 리더보드에서 27.64%를 기록했습니다.

대회 후반부에는 "less is more" TRM 방식을 적용하고 Qwen3-4B와 통합하여 점수를 보완하려고 시도했습니다. 어느 정도 개선은 있었지만, 여러 가지 제약으로 인해 크게 최적화되지는 못했습니다.

그럼 질문은 이렇습니다. 어떤 사람들은 이런 방식으로 훈련된 이렇게 작은 모델은 단지 문제 해결 기계일 뿐이라고 말할 수도 있고, 완전히 활용된 초대형 모델과 어떻게 비교할 수 있겠습니까?

하지만 더 주목할 점은 모델 자체가 아니라, 혁신을 이룬 방법입니다.

특정 도메인 작업에서는 목표 최적화를 거친 소형 모델도 성능 면에서 뒤떨어지지 않습니다. 또한, 비용, 속도, 적응성, 도메인 집중 측면에서 장점을 갖추고 있어 이미 여러 시나리오에서 두각을 나타내고 있습니다.

올바른 장소에 올바른 방법을 사용하면 더 큰 가치를 얻을 수 있습니다.

이 네티즌의 말을 빌리자면, 이 모델은 아마도 더 "민첩하게" 설계되어야 할 것입니다.

논문 링크: https://drive.google.com/file/d/1vkEluaaJTzaZiJL69TkZovJUkPSDH5Xc/view

참조 링크:

[1]https://developer.nvidia.com/blog/nvidia-kaggle-grandmasters-win-artificial-general-intelligence-competition/

[2]https://arcprize.org/blog/arc-prize-2025-결과-분석

[3]https://www.kaggle.com/competitions/arc-prize-2025/writeups/nvarc

본 기사는 WeChat 공개 계정 "Quantum Bit" 에서 발췌하였으며, 저자는 Wen Le이고, 36Kr의 허가를 받아 게시되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트