텐센트 과학기술 《AI 미래 지북》 특약 작가: 하오 보양
불과 한 달 만에 DeepSeek가 또 한 번 전 세계 AI 계를 뒤흔들었습니다.
지난해 12월 DeepSeek가 출시한 DeepSeek-V3는 전 세계 AI 분야에 큰 파문을 일으켰습니다. 극히 낮은 훈련 비용으로 GPT-4o와 Claude Sonnet 3.5와 같은 최고 모델의 성능을 달성하여 업계를 놀라게 했습니다. 텐센트 과학기술은 이 모델을 깊이 있게 분해하여 가장 간단하고 직접적인 방법으로 저비용과 고효율을 동시에 달성할 수 있는 기술 배경을 해석했습니다.
이번에 출시된 새로운 모델 DeepSeek-R1은 비용이 낮을 뿐만 아니라 기술적으로도 크게 향상되었으며, 오픈 소스 모델이기도 합니다.
이 새로운 모델은 기존의 높은 가성비 장점을 계승했으며, 단 1/10의 비용으로 GPT-o1 수준의 성능을 달성했습니다.
따라서 많은 업계 관계자들이 "DeepSeek가 OpenAI를 이을 것"이라고 외치고 있으며, 더 많은 사람들이 그 훈련 방법의 돌파구에 주목하고 있습니다.
예를 들어 전 Meta AI 직원이자 유명한 AI 논문 트위터 작가인 Elvis는 이번 DeepSeek-R1 논문이 진정한 보물이라고 강조했는데, 그 이유는 대규모 언어 모델의 추론 능력을 향상시키는 다양한 방법을 탐구했고 그 중 더 명확한 창발 특성을 발견했기 때문입니다.

또 다른 AI 계 유명인사인 Yuchen Jin은 DeepSeek-R1 논문에서 제안한 모델이 순수 RL 방법을 활용하여 자율적으로 학습하고 반성적 추론을 하는 발견이 매우 중요하다고 생각합니다.
엔비디아 GEAR Lab 프로젝트 책임자인 Jim Fan도 트위터에서 DeepSeek-R1이 하드코딩된 규칙으로 계산된 실제 보상을 사용하여 RL에 취약한 학습 보상 모델을 피했다고 언급했습니다. 이를 통해 모델에 자기 반성과 탐색 행동이 창발되었습니다.

그렇다면 그들이 언급한 순수 RL 방법으로 모델을 훈련한다는 것은 무엇을 의미하는 것일까요? 모델에서 나타난 "아하 순간"이 어떻게 AI의 창발 능력을 증명할 수 있을까요? 우리가 더 알고 싶은 것은 DeepSeek-R1의 이러한 중요한 혁신이 AI 분야의 미래 발전에 어떤 의미를 가지는지입니다.
가장 단순한 레시피로 순수한 강화 학습으로 돌아가기
o1이 출시된 이후 추론 강화가 업계의 가장 큰 관심사가 되었습니다.
일반적으로 모델은 추론 능력을 향상시키기 위해 고정된 훈련 방법을 사용합니다.
그러나 DeepSeek 팀은 R1 훈련 과정에서 직접 세 가지 완전히 다른 기술 경로를 실험했습니다: 직접 강화 학습 훈련(R1-Zero), 다단계 점진적 훈련(R1) 및 모델 증류. 이 모두 성공했습니다. 다단계 점진적 훈련 방법과 모델 증류에는 많은 혁신적인 요소가 포함되어 있어 업계에 중요한 영향을 미치고 있습니다.
가장 흥분되는 것은 직접 강화 학습 경로입니다. 왜냐하면 DeepSeek-R1은 이 방법의 효과를 입증한 첫 번째 모델이기 때문입니다.
먼저 AI 추론 능력 훈련의 전통적인 방법을 살펴보겠습니다: 일반적으로 SFT(감독 미세 조정)에 많은 사고 연쇄(COT) 예제를 추가하고, 사례와 복잡한 프로세스 보상 모델(PRM)과 같은 복잡한 신경망 보상 모델을 사용하여 모델이 사고 연쇄를 학습하도록 합니다.
심지어 몬테카를로 트리 검색(MCTS)을 추가하여 모델이 여러 가능성 중에서 최선의 것을 검색하도록 합니다.

(전통적인 모델 훈련 경로)
그러나 DeepSeek-R1 Zero는 이전에 없었던 "순수" 강화 학습 경로를 선택했습니다. 사고 연쇄 템플릿(Chain of Thought)과 감독 미세 조정(SFT)을 완전히 배제하고 단순한 보상 및 처벌 신호만으로 모델 행동을 최적화했습니다.
이는 천재 어린이에게 어떤 예제나 지침도 없이 계속 시도하고 피드백을 받으면서 문제 해결을 학습하게 하는 것과 같습니다.
DeepSeek-R1 Zero에는 단 두 가지 보상 규칙만 있습니다:
1. 정확성 보상: 정확성 보상은 모델 응답의 정확성을 평가합니다. 맞으면 점수를 얻고, 틀리면 점수를 잃습니다. 평가 방법도 매우 간단합니다: 예를 들어 수학 문제와 같이 확정적인 결과가 있는 경우, 모델은 지정된 형식(예: <answer>와 </answer> 사이)으로 최종 답변을 제공해야 합니다. 프로그래밍 문제의 경우 컴파일러가 사전 정의된 테스트 케이스에 따라 피드백을 생성할 수 있습니다.
2. 형식 보상: 형식 보상은 모델이 자신의 사고 과정을 <think>와 </think> 태그 사이에 배치하도록 강제합니다. 그렇지 않으면 점수를 잃고, 그렇게 하면 점수를 얻습니다.
모델의 자연스러운 진화 과정을 정확히 관찰하기 위해 DeepSeek는 의도적으로 시스템 프롬프트를 이러한 구조 형식으로만 제한했으며, 반성적 추론을 수행하거나 특정 문제 해결 전략을 일반화하도록 강제하지 않았습니다.

(R1 Zero의 시스템 프롬프트)
이렇게 간단한 규칙으로 GRPO(Group Relative Policy Optimization) 규칙 아래에서 AI가 자체 샘플링과 비교를 통해 자기 향상을 하도록 했습니다.
GRPO 방식은 비교적 간단합니다. 그룹 내 샘플의 상대적 비교를 통해 정책 경사를 계산하여 훈련의 불안정성을 줄이고 학습 효율을 높입니다.
쉽게 말하면 선생님이 문제를 내면 모델이 동시에 여러 번 답변하고, 위의 보상 및 처벌 규칙에 따라 점수를 매기며, 높은 점수를 얻고 낮은 점수를 피하려는 논리로 모델을 업데이트하는 것입니다.
이 과정은 대략 다음과 같습니다:
문제 입력 → 모델이 여러 답변 생성 → 규칙 시스템이 점수 매김 → GRPO가 상대적 이점 계산 → 모델 업데이트.
이러한 직접 훈련 방법은 몇 가지 두드러진 장점을 가져왔습니다. 첫째, 훈련 효율이 향상되어 전체 과정을 더 짧은 시간 내에 완료할 수 있습니다. 둘째, 계산 자원 요구가 크게 감소했습니다. SFT와 복잡한 보상 모델이 필요 없기 때문입니다.
가장 중요한 것은 이 방법이 모델에게 진정으로 사고하는 법을 가르쳤다는 것입니다. 그리고 그것은 "깨달음"의 방식으로 학습되었습니다.
자신만의 언어로 "깨달음" 속에서 학습하기
우리는 어떻게 이런 매우 "원시적"인 방법으로 모델이 진정으로 "사고"를 배웠다고 볼 수 있을까요?
논문에는 주목할 만한 사례가 기록되어 있습니다: 복잡한 수학 표현식 √a - √(a + x) = x를 처리할 때 모델이 갑자기 멈추고 "잠깐, 잠깐. 이건 표시해야 할 아하 순간이야"라고 말했습니다. 그리고 나서 전체 문제 해결 과정을 다시 검토했습니다. 이런 사람과 유사한 깨달음의 행동은 완전히 자발적으로 발생한 것이지 사전에 설정된 것이 아닙니다.
이런 깨달음은 종종 모델의 사고 능력이 도약하는 순간입니다.
DeepSeek의 연구에 따르면 모델의 진보는 균일하게 점진적이지 않습니다. 강화 학습 과정에서 응답 길이가 갑자기 크게 증가하는데, 이러한 "점프 지점"은 종종 문제 해결 전략의 질적 변화와 함께 나타납니다. 이러한 패턴은 장기 사고 후 인간의 갑작스러운 깨달음과 유사하며, 어떤 깊층적 인지적 돌파구를 암시합니다.

이러한 깨달음과 동반된 능력 향상으로 인해 R1-Zero는 수학계에서 명성 높은 AIME 대회에서 초기 15.6% 정확도에서 71.0%까지 상승했습니다. 모델이 동일한 문제를 여러 번 시도할 때는 정확도가 86.7%에 달했습니다. 이는 단순히 문제를 보고 해결하는 것이 아닙니다 - AIME 문제는 깊이 있는 수학적 직관력과 창의적
또 다른 모델은 이러한 방법을 통해 추론의 또 다른 핵심 증거를 배웠는데, 그것은 모델의 응답 길이가 문제의 복잡도에 따라 자연스럽게 조절된다는 것이다. 이러한 자기 적응적 행동은 단순히 템플릿을 적용하는 것이 아니라 문제의 난이도를 실제로 이해하고 그에 따라 더 많은 "사고 시간"을 투자한다는 것을 보여준다. 단순한 덧셈과 복잡한 적분 문제에 대해 인간이 자연스럽게 사고 시간을 조절하는 것처럼, R1-Zero도 유사한 지혜를 보여주었다.
가장 설득력 있는 것은 아마도 모델이 보여준 전이 학습 능력일 것이다. 완전히 다른 프로그래밍 대회 플랫폼인 Codeforces에서 R1-Zero는 96.3% 이상의 인간 참가자 수준에 도달했다. 이러한 cross-domain 성능은 모델이 특정 분야의 문제 해결 기술을 암기하는 것이 아니라 어떤 보편적인 추론 능력을 습득했음을 보여준다.
이는 영리하지만 말이 어눌한 천재이다
R1-Zero가 놀라운 추론 능력을 보여주었음에도 불구하고, 연구자들은 곧 심각한 문제를 발견했다: 그의 사고 과정은 종종 인간이 이해하기 어려웠다.
논문은 순수 강화 학습으로 훈련된 이 모델에 "가독성 저하"와 "언어 혼합"의 문제가 있다고 솔직히 인정했다.
이 현상은 사실 쉽게 이해할 수 있다: R1-Zero는 보상 신호만으로 행동을 최적화했을 뿐, 어떤 인간의 "표준 답변"도 참고하지 않았다. 마치 천재 아이가 자신만의 독특한 문제 해결 방법을 개발했지만, 다른 사람에게 설명할 때는 말이 어눌한 것과 같다. 문제 해결 과정에서 여러 언어를 동시에 사용하거나 특별한 표현 방식을 개발했을 수 있어, 그의 추론 과정을 추적하고 이해하기 어렵게 만들었다.
이 문제를 해결하기 위해 연구팀은 개선된 버전인 DeepSeek-R1을 개발했다. 더 전통적인 "cold-start data"와 다단계 훈련 프로세스를 도입함으로써, R1은 강력한 추론 능력을 유지하면서도 인간이 이해할 수 있는 방식으로 사고 과정을 표현하는 법을 배웠다. 마치 그 천재 아이에게 의사소통 코치를 붙여 자신의 생각을 명확히 표현하는 방법을 가르친 것과 같다.
이러한 개선 후, DeepSeek-R1은 OpenAI의 o1과 동등하거나 때로는 더 나은 성능을 보여주었다. MATH 벤치마크에서 R1은 77.5%의 정확도를 달성했는데, 이는 o1의 77.3%와 유사한 수준이다. 더 도전적인 AIME 2024에서는 R1이 71.3%의 정확도로 o1의 71.0%를 능가했다. 코드 분야에서도 R1은 Codeforces 평가에서 2441점을 기록하며 96.3% 이상의 인간 참가자를 능가했다.

그러나 DeepSeek-R1 Zero의 잠재력은 더 크다. AIME 2024 테스트에서 다수결 투표 메커니즘을 사용할 때 86.7%의 정확도를 달성했는데, 이는 OpenAI의 o1-0912를 능가하는 성과이다. 이러한 "여러 번 시도하면 더 정확해진다"는 특성은 R1-Zero가 단순히 문제 해결 패턴을 암기한 것이 아니라 어떤 기본적인 추론 프레임워크를 습득했음을 시사한다. 논문 데이터에 따르면 MATH-500에서 AIME, GSM8K까지 모델이 안정적인 cross-domain 성능을 보였는데, 특히 창의적 사고가 필요한 복잡한 문제에서 두드러졌다. 이러한 광범위한 성능은 R1-Zero가 실제로 어떤 기본적인 추론 능력을 개발했을 수 있음을 암시한다.
따라서 말이 어눌하더라도 DeepSeek-R1 Zero가 진정한 의미의 추론 "천재"일 수 있다.
순수 강화 학습, 아마도 AGI로 가는 예상치 못한 지름길
DeepSeek-R1의 출시가 업계의 관심을 순수 강화 학습 방법에 집중시킨 이유는, 이것이 AI 진화의 새로운 경로를 열었다고 말할 수 있기 때문이다.
R1-Zero는 완전히 강화 학습을 통해 훈련된 AI 모델로, 놀라운 일반 추론 능력을 보여주었다. 수학 대회에서 뛰어난 성과를 거둔 것뿐만 아니라,
더 중요한 것은 R1-Zero가 단순히 사고를 모방하는 것이 아니라 어떤 형태의 추론 능력을 실제로 발전시켰다는 점이다.
이 발견은 우리의 기계 학습에 대한 인식을 바꿀 수 있다: 전통적인 AI 훈련 방법은 근본적인 오류를 반복해 왔을지 모르며, 우리가 AI 모델이 인간의 사고 방식을 모방하도록 너무 집중해 왔다는 것을 시사한다. 업계는 감독 학습의 AI 발전에서의 역할을 재고해야 할 것이다. 순수 강화 학습을 통해 AI 시스템은 사전 설정된 해결책 프레임워크에 제한되지 않고 더 원초적인 문제 해결 능력을 발전시킬 수 있는 것 같다.
R1-Zero의 출력 가독성이 명확한 단점이지만, 이 "단점"은 오히려 그의 사고 방식의 독특성을 입증할 수 있다. 마치 천재 아이가 자신만의 문제 해결 방법을 발명했지만 일반적인 언어로 설명하기 어려운 것과 같다. 이는 진정한 범용 인공 지능에는 인간과는 완전히 다른 인지 방식이 필요할 수 있음을 시사한다.
이것이 진정한 강화 학습이다. 유명한 교육학자 피아제의 이론처럼, 진정한 이해는 수동적인 수용이 아니라 능동적인 구축에서 비롯된다.





