DeepSeek에서 새로운 논문을 발표했고 Altman은 즉시 다음과 같이 덧붙였습니다. GPT-5는 몇 달 남았습니다.

avatar
36氪
04-07
이 기사는 기계로 번역되었습니다
원문 표시

꽤 흥미롭네요.

이제 막 DeepSeek가 추론 시 스케일링 법칙에 관한 논문을 발표했는데, 이로 인해 모두가 R2가 곧 출시될 것인지 궁금해하고 있습니다.

그런데 말이죠... 오트만은 "변화"에 대한 메시지를 보냈습니다:

계획 변경: 몇 주 후에 o3와 o4-mini를 먼저 출시할 수 있습니다.

모두가 기대하는 GPT-5에 대해 오트만은 다음과 같이 말했습니다:

몇 달 후에 출시되며, 초기 예상보다 더 좋은 성능을 보일 것입니다.

그 이유에 대해 오트만은 설명을 했습니다.

대략적으로 모든 내용을 순조롭게 통합하는 것이 그들이 생각했던 것보다 훨씬 어렵다는 것이며, 예상되는 수요를 충분히 지원할 수 있는 능력을 확보하기를 희망한다는 것입니다.

말하자면, 이제는 DeepSeek에서 조금이라도 움직임이 있으면 OpenAI도 바로 대응해야 하는 상황입니다.

DeepSeek 새 논문

이 작은 에피소드 후에, 우리는 다시 DeepSeek의 새 논문에 초점을 맞추겠습니다.

이 논문의 제목은 Inference-Time Scaling for Generalist Reward Modeling으로, DeepSeek와 칭화대학교가 공동으로 제안했습니다.

이 연구의 핵심 하이라이트는 SPCT 방법(Self-Principled Critique Tuning)을 제안한 것입니다.

온라인 강화 학습(RL)을 통해 원칙과 비평을 최적화하여 추론 시 확장을 실현하는 최초의 방법입니다.

이 연구를 수행한 이유는 이전에 보상 모델(Reward Model, RM)을 사용하여 대규모 언어 모델에 대한 보상 신호를 생성했기 때문입니다.

하지만 기존 RM은 일반 영역에서 제한된 성능을 보였으며, 특히 복잡하고 다양한 작업에 직면했을 때 그러했습니다.

따라서 두 가지 핵심 도전 과제가 등장했습니다.

하나는 범용 RM이 유연성(단일 응답, 다중 응답 점수 지원)과 정확성(도메인 간 고품질 보상)을 필요로 한다는 것입니다.

다른 하나는 기존 RM(스칼라 RM, 반스칼라 RM)이 추론 시 확장성이 낮아 계산 리소스를 늘려도 성능이 크게 향상되지 않는다는 것입니다.

이 문제를 해결하기 위해 DeepSeek와 칭화대학교 팀은 SPCT를 제안했습니다.

전체적으로 이 연구는 주로 세 가지 핵심 기술 포인트를 포함합니다.

먼저 생성적 보상 모델(GRM)입니다.

포인트별 생성 보상 모델(Pointwise GRM)을 채택하여 단일 스칼라 값이 아닌 텍스트 형식의 보상(예: 비평)을 생성하고, 유연한 입력(단일 응답, 다중 응답)과 추론 시 확장을 지원합니다.

여기서 C는 생성된 비평이며, fextract는 그로부터 점수를 추출합니다.

다음으로 핵심인 SPCT입니다.

온라인 강화 학습(RL)을 통해 GRM을 훈련시켜 고품질의 원칙과 비평을 동적으로 생성할 수 있도록 하여 보상 품질을 향상시킵니다.

전체적으로 SPCT는 두 단계 프로세스입니다:

  • 거부 미세 조정(Rejective Fine-Tuning)

: 콜드 스타트 단계로, 샘플링 및 거부 전략을 통해 초기 데이터를 생성합니다.

  • 규칙 기반 온라인 RL

: 규칙화된 보상 함수를 사용하여 원칙과 비평의 생성을 최적화하고, 모델이 최상의 응답을 구분하도록 장려합니다.

이를 바탕으로 세 번째 기술 포인트인 추론 시 확장 기술이 있습니다.

먼저 다중 샘플링을 통해 다양한 원칙과 비평을 생성하고, 투표로 최종 보상을 집계하여 보상 공간을 확장합니다.

그런 다음 보조 모델을 훈련시켜 저품질 샘플을 필터링하여 확장 효과를 더욱 향상시킵니다.

위의 방법을 기반으로 팀은 결과를 테스트했습니다.

Reward Bench, PPE, RMB 등의 벤치마크에서 DeepSeek-GRM-27B는 기준선 방법(LLM-as-a-Judge, 스칼라 RM 등)보다 뚜렷하게 우수했으며, 추론 시 확장(32회 샘플링)을 통해 성능이 더욱 향상되었습니다(예: Reward Bench 정확도가 86.0%에서 90.4%로 상승).

요약하자면, 이 연구는 범용 RM에서 추론 시 확장의 유효성을 입증했으며, 훈련 시 확장을 능가하는 성능을 보였습니다.

One More Thing

오트만은 "변화" 메시지 외에도 자신과 관련된 두 권의 책이 곧 출간될 것이라고 언급했습니다:

  • 한 권은 Keach Hagey가 쓴 오트만에 관한 책
  • 다른 한 권은 Ashlee Vance가 쓴 OpenAI에 관한 책

논문 주소:

https://arxiv.org/abs/2504.02495

참고 링크:

[1]https://x.com/sama/status/1908167621624856998

[2]https://techcrunch.com/2025/04/04/openai-says-itll-release-o3-after-all-delays-gpt-5/

[3]https://x.com/sama/status/1908163013192069460

본 기사는 위챗 공식 계정 "량자위치"(ID: QbitAI)에서 작성되었으며, 작성자는 진레이, 36커에서 허가를 받아 게재되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
1
즐겨찾기에 추가
코멘트