[소개] DreamPRM은 캘리포니아 대학교 샌디에이고 캠퍼스 연구팀이 개발하였으며, 권위 있는 수학적 추론 평가 목록인 MMMU에서 1위를 차지했습니다.
최근 몇 년 동안 대규모 언어 모델(LLM)은 추론 능력 측면에서 상당한 진전을 이루었습니다. 프로세스 보상 모델(PRM) 의 도입으로 모델은 추론 과정의 중간 단계에서 지도 학습을 통해 합리적인 문제 해결 경로를 더욱 강력하게 선택할 수 있게 되었습니다.
이러한 방법은 텍스트 추론 작업에서 좋은 결과를 얻었지만 다중 모드 시나리오로 확장할 때 여전히 두 가지 눈에 띄는 과제에 직면합니다.
- 분포 변화 : 다중 모드 입력 공간은 매우 크고, 훈련 및 추론 분포는 종종 상당히 다릅니다.
- 불균일한 데이터 품질 : 대규모 학습 세트에는 필연적으로 노이즈가 많거나 품질이 낮은 샘플이 포함되어 있어 효과적인 감독 신호가 감소합니다.
따라서 다중 모드 추론에서 고품질 샘플을 효과적으로 활용하고 노이즈 샘플의 부정적 영향을 억제하는 방법은 시급히 해결해야 할 문제가 되었습니다.
이 문제를 해결하기 위해 연구진은 데이터 샘플의 가중치(인스턴스 가중치)를 학습 가능한 매개변수로 사용하여 학습에서 데이터 샘플의 영향을 동적으로 변경하는 2계층 최적화 프레임 사용하는 새로운 학습 프레임 를 설계했습니다.
논문 주소: https://arxiv.org/abs/2509.05542
코드 주소: https://github.com/coder-qicao/DreamPRM-1.5
MMMU 리더보드
이 논문의 첫 번째 저자는 박사과정생인 치 카오이고, 교신저자는 해당 학교의 부교수인 펭타오 셰입니다.
DreamPRM에서 DreamPRM-1.5로, "도메인 가중치"에서 "샘플 가중치"로
이전에 연구자들은 도메인 재가중치를 통해 서로 다른 데이터 하위 집합 간에 가중치를 분산하여 학습 결과를 개선하는 DreamPRM 프레임 제안했습니다.
이를 기반으로 DreamPRM-1.5는 단일 교육 샘플 에 대한 가중치 세분성을 더욱 세분화합니다.
- 고품질 샘플은 더 큰 가중치를 받습니다.
- 품질이 낮거나 노이즈가 많은 샘플은 가중치가 낮아집니다.
이 인스턴스 수준의 재가중치 전략을 통해 모델은 각 데이터의 잠재적 가치를 완전히 탐색할 수 있습니다.
두 가지 방법: 인스턴스 테이블 및 인스턴스 넷
DreamPRM1.5의 두 가지 모델 아키텍처
"샘플 수준 가중치"를 달성하기 위해 연구자들은 두 가지 보완적인 방식을 설계했습니다.
인스턴스 테이블
각 훈련 샘플에 독립적인 가중치 매개변수를 부여합니다.
높은 유연성으로 특히 소규모 데이터 세트에 적합합니다.
단점은 매개변수의 수가 샘플의 수에 연결되어 있고, 데이터가 클 경우 이를 뒷받침하기 어렵다는 점입니다.
인스턴스 넷
데이터를 테이블에 직접 저장하는 대신, 작은 MLP 네트워크를 사용하여 각 데이터 항목의 가중치를 예측합니다.
매개변수의 개수는 고정되어 있으며 데이터 크기에 의해 제한되지 않습니다.
대규모 훈련과 강력한 일반화 능력에 더 적합합니다.
이는 공부 노트를 작성하는 두 가지 방법과 같습니다. Instance Table은 각 질문에 대한 코멘트를 작성하는 것과 같고, Instance Net은 "답변에 따라 질문을 채점하는" 일련의 규칙을 요약하는 것과 같습니다.
방법의 핵심: 이중 수준 최적화
DreamPRM-1.5의 훈련 과정은 2계층 최적화 프레임 채택합니다.
하위 레이어 최적화: 샘플 가중치를 사용하여 PRM 업데이트:
상위 수준 최적화: 메타데이터 데이터 세트에 대한 추론 성능을 평가하고 피드백을 기반으로 샘플 가중치를 동적으로 업데이트합니다.
이러한 설계는 가중치 학습이 정적인 설정이 아니라 추론 효과에 의해 주도되고 동적으로 조정되도록 보장하여 복잡한 작업에서 모델의 적응성을 향상시킵니다.
추론 과정을 위한 생성적 보상 모델, 점수 매기기 메커니즘
DreamPRM-1.5에서 연구진은 추론 과정의 각 단계에 점수를 매기기 위해 생성적 보상 모델을 사용했습니다. 핵심 아이디어는 다음과 같습니다.
- 채점 방법 : 모델은 각 단계에서 "+" 또는 "-"를 출력하여 해당 단계의 추론이 합리적인지 여부를 나타냅니다.
- 점수 매기기 메커니즘 : 소프트맥스를 통해 "+"의 확률을 계산하고 이를 이 단계의 신뢰도로 사용합니다.
- 집계 전략 : 추론 체인 전체의 단계 점수를 집계(평균)하고 표준 답변과 비교하여 샘플 가중치 업데이트를 안내합니다.
이 디자인의 장점은 추론 체인의 합리성을 단계별로 평가할 뿐만 아니라, 재가중치와 같은 보다 세분화된 신호를 제공한다는 것입니다.
실험 설계 및 구현 세부 사항
모델 기반 : InternVL3-1B는 PRM의 기본 모델로 사용되었으며, 추론 단계에서는 GPT-5-mini를 기반으로 테스트되었습니다.
학습 데이터 : VisualPRM-400k에서 Instance Table과 Instance Net을 각각 학습하기 위한 다양한 크기(12k, 100k)의 샘플 데이터
메타 데이터 세트: MMMU-Pro의 표준 분할을 사용하여(검증 세트와의 중복을 피하기 위해 테스트 세트 데이터만 사용) 가중치 업데이트를 위한 메타 세트로 후보 추론 체인을 생성합니다.
훈련 과정 :
콜드 스타트: 먼저, 모델이 안정적으로 "+/-"태그 출력할 수 있도록 감독 미세 조정(20k 샘플)을 수행합니다.
2계층 최적화: AdamW 최적화 프로그램과 코사인 학습률 스케줄링을 사용하여 이를 기반으로 100,000단계의 반복을 수행합니다.
컴퓨팅 리소스 : 단일 NVIDIA A100 카드, 약 72시간 만에 학습 완료
MMMU 벤치마크에 대한 실험 결과
연구자들은 MMMU(Massive Multi-discipline Multimodal Understanding) 벤치마크를 통해 자신들의 방법을 체계적으로 평가했습니다.
이 벤치마크는 30개 학문 분야와 183개 하위 분야를 포괄하며, 문제 유형에는 차트, 지도, 화학 구조와 같은 다중 모드 입력이 포함됩니다. 현재 제공되는 추론 시험 중 가장 어려운 시험 중 하나입니다.
주요 결과
GPT-5-mini w/ 생각(기준선): 80.0%
DreamPRM-1.5(인스턴스 테이블): 84.6%(+4.6)
DreamPRM-1.5(인스턴스 넷): 83.6%(+3.6)
비교 분석
선택 없음 : 가중치를 재지정하지 않고 동일한 데이터를 사용하여 얻은 결과는 79.1%에 불과하며, 이는 인스턴스 가중치의 중요성을 검증합니다.
VisualPRM : 400k 데이터 세트를 모두 사용했음에도 불구하고 80.5%에 그쳐 데이터 크기가 품질 차이를 완전히 메울 수 없음을 보여줍니다.
자체 일관성 : 기존 테스트 시간 확장 방법은 81.4%로 DreamPRM-1.5보다 여전히 낮습니다.
전반적으로 DreamPRM-1.5는 GPT-5-mini를 기반으로 한 여러 강력한 기준선을 크게 능가할 뿐만 아니라 정확도 면에서 GPT-5 (84.2%) 및 Gemini 2.5 Pro Deep-Think (84.0%)와 같은 최고 폐쇄형 소스 모델보다 뛰어납니다.
결론 및 전망
DreamPRM-1.5는 다중 모드 추론 학습에 인스턴스 수준의 가중치 재지정 기능을 도입하여 2계층 최적화를 통해 샘플 가중치를 동적으로 조정하고, 모델이 고품질 데이터를 더 잘 인식하고 활용할 수 있도록 합니다.
주요 기여는 다음과 같습니다.
- 도메인 수준에서만 가중치를 부여하는 한계를 극복하고 인스턴스 수준 재가중치 프레임 제안합니다.
- 소규모 및 대규모 교육 시나리오에 모두 대응할 수 있도록 Instance Table과 Instance Net 이라는 두 가지 상호 보완적인 구현을 설계했습니다.
- MMMU 벤치마크 에서 새로운 SOTA 결과를 달성하여 여러 개의 폐쇄형 소스 대형 모델을 능가했습니다.
이 결과는 데이터 품질의 정교한 활용이 향후 추론 모델 연구에서 주목할 만한 중요한 측면임을 시사합니다.
더욱 스마트한 표본 가중치 부여 및 프로세스 점수 매기기 방법이 다중 모드 추론의 추가 개발을 촉진하는 주요 방향이 될 것으로 예상됩니다.
참고문헌:
https://arxiv.org/abs/2505.20241v2
본 기사는 LRST가 편집하고 36Kr이 허가를 받아 게시한 위챗 공개 계정 "신지위안" 의 기사입니다.