지둥시의 4월 13일 보도에 따르면, OpenAI 역사상 가장 비싼 모델인 GPT-4.5가 출시된 지 한 달 남짓 만에 OpenAI의 공동 창립자이자 CEO인 샘 알트먼은 GPT-4.5의 핵심 기술 인력 3명과 45분간 중요한 대화를 나누며, 심각한 개발 지연 , 컴퓨팅 클러스터의 잦은 실패 , 예측할 수 없는 개선 경로 등 모델에 대한 알려지지 않은 많은 세부 사항을 처음으로 공개했습니다.
GPT-4.5 프로젝트는 2년 전에 시작되었습니다. 이는 수백 명의 사람들의 협업을 거친 지금까지 OpenAI의 가장 포괄적인 계획입니다. 알트만은 OpenAI가 이 프로젝트에 거의 "모든 인력을 투입"했다고 말했습니다.
연구 개발 과정에서 OpenAI 팀은 많은 " 재앙적인 문제 "에 직면했습니다. 10만 장의 카드 클러스터는 인프라의 숨겨진 낮은 확률과 뿌리 깊은 실패를 드러냈습니다. 적시성과 성능의 균형을 맞추기 위해 OpenAI의 시스템 팀은 " 수리와 교육을 동시에 " 해야 했습니다. 그 중에는 클러스터가 자주 오류를 보고하게 만드는 작은 숨겨진 버그가 있었는데, 이는 학습 진행률 표시줄이 약 40%에 도달할 때까지 발견되지 않았습니다.
하지만 이를 통해 OpenAI는 더욱 강력한 기술 스택을 구축할 수 있었습니다. 이제는 5~10명만으로 GPT-4 수준의 대규모 모델을 복제할 수 있게 되었습니다. GPT-4에서 GPT-4.5로의 성능 향상은 약 10배로, " 정량화하기 어렵지만 전반적으로 향상된 지능 "을 달성해 OpenAI 직원들을 놀라게 했습니다.
OpenAI 팀은 성능을 10배, 심지어 100배까지 향상시키려면 해시레이트 더 이상 병목 현상이 아니라는 것을 깨달았습니다. 핵심은 데이터 효율성에 있습니다 . 즉, 동일한 양의 데이터에서 더 많은 지식을 학습하기 위해 더 많은 해시레이트 활용할 수 있는 방법을 개발하는 것입니다.
동시에 시스템은 단일 클러스터에서 다중 클러스터 아키텍처로 전환되고 있습니다. 향후 훈련에는 1,000만 개의 GPU 규모로 협력 학습이 포함될 수 있으며, 이에 대한 내결함성도 더욱 개선되어야 합니다.
대화 중에 OpenAI 직원들은 데이터의 롱테일 효과와 스케일링 법칙 간의 관계, 머신러닝(ML) 과 시스템 팀의 심층적 공동 설계 모델의 장점, 비지도 학습의 본질, "어떤 이상 현상도 놓치지 않는" 문제 해결 문화에 대해서도 공유하면서 GPT-4.5 개발 과정에서 OpenAI가 생각한 것과 얻은 것을 온전히 보여주었습니다.
Altman 외에도 이 대화에 참여한 OpenAI 직원 3명은 Alex Paino(GPT-4.5의 사전 학습 머신러닝(ML) 알고리즘 책임자), Amin Tootoonchian(OpenAI 최고 시스템 설계자), Daniel Selsam(데이터 효율성 및 알고리즘 연구)입니다.
다음은 Altman과 OpenAI GPT-4.5 팀 간의 대화 영상을 전부 편집한 것입니다(가독성을 높이기 위해 Zhidongxi는 원래 의도를 위반하지 않는 범위 내에서 특정 내용을 추가, 삭제 및 수정했습니다).
01.
GPT-4.5는 2년 전에 출시되었습니다.
프로젝트가 예상보다 훨씬 더 오래 걸렸습니다
샘 알트먼: 이렇게 큰 모델(GPT-4.5)을 만드는 데는 무엇이 필요합니까?
알렉스 파이노: 저희는 이 프로젝트를 약 2년 전에 시작했습니다. 당시 OpenAI는 새로운 대규모 컴퓨팅 클러스터를 출시하려고 했고, 저희 팀은 이 기회를 포착하고 모델에 포함해야 할 기능을 결정하기 위해 많은 작업을 수행했으며, 리스크 줄이기 위한 대량 운영 테스트를 수행했습니다.
우리는 시스템에서 머신러닝(ML) 에 이르기까지 전체 기술 스택을 포함하는 장기 계획을 가지고 있습니다. 리스크 줄이고 훈련을 준비하는 것은 장기적인 실행 과정이며, 훈련 자체도 매우 큰 프로젝트입니다.
아민 투툰치안: 이 프로세스는 머신러닝(ML) 팀과 시스템 팀 간의 긴밀한 협업이 처음부터 필요하다고 생각합니다. 어떤 모델을 훈련시키고 싶은지 파악하고 훈련을 시작할 때까지요.
우리는 머신러닝(ML) 과 시스템 모두에서 예측을 수행하여 기대와 현실 사이의 차이를 최소화하려고 노력했습니다. 하지만 빠른 속도로 작업하고 최신 컴퓨팅 리소스를 사용해야 하기 때문에 모델 학습을 미리 완벽하게 계획하는 것이 어려워졌습니다 .
우리는 항상 많은 답이 없는 의문점을 안고 훈련을 시작하며, 훈련을 하면서 어려움을 극복하고 발전하려고 노력합니다. 가장 중요한 해결책은 컴퓨팅 리소스를 더 추가하는 것입니다.
마지막 단계는 실행으로, 훈련 과정을 완료하기 위해 장기간에 걸쳐 많은 사람의 대량 에너지와 동기를 필요로 합니다.
샘 알트먼: 우리의 기대와 현실 사이에 얼마나 큰 차이가 있다고 생각하시나요?
아민 투툰치안: 시스템 측면에서 볼 때, 처음에는 예상한 상태와는 거리가 먼 경우가 많습니다 . 우리는 항상 선택에 직면합니다. 출시를 연기하고 문제가 해결될 때까지 기다릴 것인가, 아니면 일찍 출시하고 그 과정에서 문제를 해결할 것인가. 이는 항상 과정을 부당하게 지연시키는 것을 피하기 위한 균형입니다.
하지만 예상치 못한 문제는 거의 항상 발생하며, 우리가 해야 할 일은 이러한 노드를 최대한 잘 처리하고, 알려지지 않은 요소를 처리하고, 모델 학습을 위한 계획을 세우는 것입니다.
알렉스 파이노: 이 프로젝트에서 저희의 목표는 GPT-4.5를 만드는 것입니다. 즉, GPT-4보다 10배 더 똑똑하다는 뜻입니다. 이것은 우리가 약 2년 전에 세운 첫 번째 목표였습니다.
이 과정에서 많은 일들이 일어났고, 우리는 기대했던 대로 더 잘할 수 있을지 고민했습니다. 매우 복잡한 과정이었지만, 결국 우리는 효과적인 컴퓨팅을 적용한 측면에서 GPT-4보다 10배 더 스마트하다고 생각하는 모델을 만들어냈습니다.
아민 투툰치안: 실행 측면에서 GPT-4.5 프로젝트는 처음 예상했던 것보다 훨씬 짧은 시간이 걸렸습니다.
02.
이제 GPT-4 수준 모델을 훈련합니다.
완료에 필요한 인원은 5~10명뿐입니다.
샘 알트먼: 클러스터가 카드 수를 10,000개에서 100,000개로 늘렸을 때 왜 이렇게 많은 문제에 직면하게 되었나요?
아민 투툰치안: 시스템 개발자가 충분히 통찰력이 있다면 대부분의 문제는 작은 규모에서도 관찰할 수 있다고 생각합니다.
일부 문제는 대규모 훈련에서만 나타나는 것이 아니라 본질적으로 흔한 것이지만 규모가 커지면 치명적인 문제가 됩니다 . 특히 팀에서 문제가 이 정도로 악화될 것이라고 예상하지 못하는 경우 더욱 그렇습니다.
샘 알트먼: 재앙적인 결과를 초래한 일에는 어떤 것들이 있나요?
아민 투툰치안: 인프라 문제는 잘 알려져 있다고 생각합니다. 고장률, 고장 유형, 고장 총량 등 모두 매우 높습니다. 10만 장의 카드 클러스터는 대규모 샘플 풀이므로 해시레이트 제공자가 관찰하지 못한 문제도 발견했습니다.
네트워크는 문제의 일부이며, 단일 가속기 에도 문제가 있을 수 있습니다. 하지만 이런 시스템의 장점은 원하는 결과를 얻으려면 거의 모든 구성 요소가 의도한 대로 작동해야 한다는 것입니다. 우리의 임무는 이 문제를 최소화하는 것입니다.
샘 알트먼: 클러스터 크기의 한계에서 작업하는 건 정말 어렵지만, 최첨단 기술이 아닌 작업을 하는 게 훨씬 쉬워졌다는 점도 깨달았습니다. GPT-4.5를 훈련하는 데는 수백 명의 사람이 필요했고, OpenAI의 직원 거의 전원이 참여했습니다.
하지만 오늘 OpenAI에서 최소한의 팀을 뽑아 우리가 아는 모든 것과 모든 시스템 작동 방식을 사용하여 GPT-4를 처음부터 다시 훈련시킨다면, 몇 명이 필요할까요?
알렉스 파이노: 지금 당장 GPT-4 수준의 모델을 만들려면 5~10명 정도가 필요할 것 같아요. GPT-4.5를 완성하는 과정에서 기술 스택이 크게 개선되었습니다.
사실, GPT-4.5를 훈련할 때도 비슷한 일을 했습니다. 즉, GPT-4 수준 모델인 GPT-4o를 훈련하고, GPT-4.5 연구 프로젝트에서 사용했던 콘텐츠 대부분을 사용하여 재훈련했습니다. 그 훈련을 실시하는 데 동원된 사람은 훨씬 적었습니다.
03.
대규모 모델에서 획기적인 발전을 이루는 데는 데이터 효율성이 핵심입니다.
새로운 세대의 하드웨어는 많은 과제를 안고 있습니다.
샘 알트먼: 댄, 당신의 관점에서는 어때요? 대형 모델을 훈련하는 것이 어려운 이유는 무엇입니까?
다니엘 셀삼: 새로운 것을 하는 건 어려운 일이라고 생각해요. 다른 사람이 뭔가를 했다는 걸 알아내는 것만으로도 훨씬 쉬워진다고 생각해요. 왜냐하면 처음에 무언가를 하겠다는 확신을 갖는 게 가장 어렵기 때문이죠. 저는 무언가가 가능하다는 것을 아는 것만으로도 일을 훨씬 쉽게 만들어주는 매우 강력한 치트 코드라고 생각합니다.
알렉스 파이노: 저희는 GPT 사전 학습 실행을 이전보다 10배 빠르게 확장하고 있으며, 반드시 예상치 못한 흥미로운 새로운 사실을 항상 발견하고 있습니다.
샘 알트먼: 사전 훈련 규모를 10배 또는 100배로 늘리려면 무엇이 필요할까요?
다니엘 셀삼(Daniel Selsam): 데이터 효율성. 트랜스포머 아키텍처(GPT라고도 함)는 데이터 활용에 매우 효율적입니다. 정보를 잘 흡수하고 압축하며 일반화를 이룰 수 있습니다. 가장 큰 특징은 컴퓨팅 리소스를 사용하여 효율적으로 정보를 흡수하는 능력입니다.
그러나 데이터에서 얻을 수 있는 통찰력의 깊이는 제한적입니다. 컴퓨팅 능력은 빠르게 성장하지만 데이터는 상대적으로 느리게 성장하는 경우, 데이터는 이 표준 모델의 병목 현상이 됩니다. 이를 위해서는 알고리즘 혁신과 더 많은 해시레이트 활용해 동일한 양의 데이터에서 더 많은 것을 배울 수 있는 방법의 개발이 필요합니다.
샘 알트먼: 확장을 계속하기 위해 무엇이 더 필요하다고 생각하시나요?
아민 투툰치안: 제 답변은 시스템에 관한 것입니다. 저는 GPT-4.5에 필요한 엄청난 양의 작업은 본질적으로 모델 사양의 불가피한 결과라고 생각합니다. GPT-4와 정확히 동일한 기술 아키텍처를 사용하여 GPT-4.5를 훈련시킬 수는 없습니다.
상태 관리 측면에서 필요한 컴퓨팅 리소스가 단일 클러스터의 수용 용량을 초과했기 때문에 다중 클러스터 학습 아키텍처로 전환해야 했습니다. 이를 달성하기 위해 우리는 짧은 시간 안에 여러 가지 업무 흐름을 통합해야 했습니다.
이를 통해 단계적 혁신을 달성하는 데 도움이 되었지만, 성능 개선의 차원을 한 단계 높이려면 아직 알려졌지만 일시적으로 보류된 여러 가지 기술적 문제를 해결해야 합니다 . 이러한 문제는 피할 수 없습니다. 완벽한 시스템의 개발 주기를 계속 연장하는 것은 바로 이러한 기술적 균형을 통해서이며, 우리는 항상 최적의 구현 계획을 추구하면서 전략적 선택을 합니다.
시스템 자체가 궁극적인 목표가 아니며, 실제 출력 값이 핵심 고려 사항이라는 점은 분명합니다. 다음 10배의 성능 향상을 위해서는 장애 허용 능력의 획기적인 발전이 중요하다고 생각합니다. 운영상의 불안감을 크게 줄이기 위해서는 작업 부하와 긴밀하게 조정되는 장애 허용 메커니즘을 구축해야 합니다. 현재의 초대형 시스템은 운영과 유지관리 측면에서 이전 시스템과 근본적으로 다릅니다.
샘 알트먼: GPT-4.5 학습에서 실패의 몇 퍼센트가 특정 구성 요소로 인한 것인지 아십니까?
아민 투툰치안: 구체적인 수치는 말씀드릴 수 없지만, 일반적으로 새로운 세대의 하드웨어를 배포하는 초기 단계에서는 시스템 운영 과정에서 완전히 인식되지 않은 많은 기술적 과제에 직면하게 됩니다. 우리는 문제를 완전히 이해하지 못한 채 프로젝트를 계속 진행하기로 결정했고, 이로 인해 초기 단계에서 실패율이 높아졌습니다.
하지만 경험에 따르면 근본 원인을 파악하고 해결하면 실패율을 크게 줄일 수 있습니다. 이러한 현상은 본질적으로 인프라에 대한 우리의 이해가 심화되는 과정을 반영합니다. 일부에서는 이를 인프라 정리 또는 인프라의 근본적인 문제에 대한 이해라고 부릅니다.
실행의 초기 단계는 거의 항상 매우 고통스럽고 , 프로젝트가 진행되면서 새로운 실패 모드를 계속 발견하고 해결하지만 결국 실패율은 감소하고 가동 시간은 증가합니다.
이는 본질적으로 우선순위 균형의 문제입니다. 인프라 수명 주기의 초기 단계에서는 실패 리스크 정확하게 예측하기 어려운 경우가 많습니다. 그리고 궁극적인 이상 국가(원래는 "도시 단지"라고 불렸는데, 이상적인 도시 국가 디자인)에 대한 지나친 추구는 초기 단계에서 시스템의 가용성을 극도로 저하시킬 수 있습니다.
04.
컴퓨팅 리소스는 더 이상 주요 병목 현상이 아닙니다.
알고리즘은 아직 이론적 상한에 도달하지 못했습니다.
샘 알트먼: 추론 모델이 미래 기술 스택의 핵심 구성 요소이기는 하지만, 지금은 기존의 사전 학습된 모델의 경계에 집중하겠습니다. 무제한의 GPU 해시레이트, 무제한의 네트워크 대역폭, 무제한의 전기 공급이 있다 하더라도 현재의 기술적 병목 현상에는 여전히 제한이 따릅니다. 여기에는 시스템 안정성 문제, 내결함성 있는 학습 방법의 부족, 기존 데이터 세트의 한계가 포함됩니다.
각 주요 GPT 버전 번호가 100배의 개선을 이룬다는 진화 법칙에 따르면, 현재의 기술적 경계를 기준으로 사전 학습된 모델의 개발은 어느 수준에 도달할 수 있을까요? 특히 GPT 시리즈 모델의 경우, 기존 지식 시스템을 기반으로 이론적으로 어떤 종류의 모델을 훈련할 수 있습니까? GPT-5.5를 만들 수 있나요?
알렉스 파이노: 머신러닝(ML) 과 알고리즘 개발 관점에서 볼 때, 우리는 아직 명확한 이론적 한계에 도달하지 못했습니다. 사실, 우리는 이제 막 데이터 효율성이 높은 알고리즘과 기존 데이터 리소스를 보다 효과적으로 활용하는 방법을 탐구하기 시작했습니다. 이러한 상황은 매우 흥미롭습니다. GPT-4와 같은 모델조차도 여전히 제한된 컴퓨팅 리소스 조건에서 개발되고 있으며, 이는 대부분의 이전 연구의 방향을 결정하기도 합니다.
하지만 지금은 상황이 완전히 달라졌습니다. GPT-4.5 이후로 계산보다는 데이터가 특정 핵심 차원에서 주요 제약 조건이 되고 있습니다 . 이런 변화로 인해 연구에 대한 흥미가 줄어들었습니다.
샘 알트먼: 하지만 이건 세상이 아직 완전히 깨닫지 못한 놀라운 발전입니다. 우리가 구축할 수 있는 최고의 모델에서는 컴퓨팅 리소스가 더 이상 주요 병목 현상이 되지 않습니다. 이런 변화는 중요합니다. 결국 우리는 너무 오랫동안 컴퓨팅에 제약을 받는 환경에서 살아왔기 때문입니다.
05.
모델의 전반적인 성능 향상은 예측 가능합니다.
지능 향상의 길은 예측하기 어렵다
샘 알트먼: GPT-4.5를 훈련하는 동안 우리가 얻은 가장 흥미로운 머신러닝(ML) 교훈은 무엇입니까? 공유하고 싶은 내용을 말씀해 주세요.
아민 투툰치안: 일반적으로 가장 생각을 자극하는 상황은 우리의 기대에서 벗어나는 상황입니다. 특히 실제 성과가 예상 곡선에서 벗어나는 이유를 이해하려고 할 때 더욱 그렇습니다.
알렉스 파이노: 우리에게 가장 놀라운 사실 중 하나는 머신러닝(ML) 요소의 확장성에 엄청난 차이가 있다는 것입니다. 일부 부분은 확장성이 좋고, 일부 부분은 확장성이 좋지 않습니다. 이건 우리가 실제 훈련 과정을 통해서만 확실히 깨달은 사실입니다. 이 경험은 우리에게 많은 영감을 주었습니다.
Daniel Selsam: GPT 패러다임의 핵심 특징은 두 가지라고 생각합니다. 첫째, 테스트 손실(모델이 보이지 않는 테스트 데이터에서 얼마나 잘 수행되는지를 측정하는 기준)을 정확하게 예측할 수 있습니다 . 둘째, 규모가 확장됨에 따라 모델 성능이 예측 가능하게 향상됩니다 . 더욱 놀라운 점은 테스트 손실이 줄어들면 정량화하기 어렵지만 그래도 놀라운 신비로운 방식으로 전반적인 지능이 향상된다는 것입니다.
샘 알트먼: 당신은 이에 대해 절대적으로 낙관적입니까? 당신은 이러한 관점 에 전적으로 동의하시나요?
다니엘 셀삼: 제가 말씀드리고 싶은 것은 GPT-4.5 테스트에서 특히 흥미로운 현상을 발견했다는 것입니다. 다시 테스트해 본 결과, 모델이 보여준 정교한 역량이 모든 사람의 기대를 훌쩍 뛰어넘었습니다.
우리는 미리 정의하기 어려운 방식으로 더욱 스마트해질 것이라고 확신하며, 실제 배포 후에는 사용자 만족도에서 이러한 미묘한 개선 사항을 확인할 수 있습니다. 더 강력한 상식적 보유량, 더 정확한 문맥 이해 능력, 더 정교한 의미적 파악 - 이것이 추가적인 테스트 손실이 가져온 마법입니다. 제 생각에, 스케일링 법칙은 이 차원에서 완벽하게 검증되었습니다.
06.
머신러닝(ML) 시스템 팀과 긴밀히 협력합니다.
"자신의 집 앞 눈을 쓸지 않는다"
샘 알트먼: 훈련 중에 가장 긍정적이었던 순간은 언제였나요? 당신이 가장 좋아하는 추억은 무엇입니까? 분명 많은 고통이 있었지만, 그 고통이 조금은 덜어졌기를 바랍니다.
알렉스 파이노: 저도 그런 순간이 있었습니다. 우리는 훈련 중에 많은 머신러닝(ML) 작업을 했고, 런타임 중에 변경한 사항 중 일부는 예상보다 훨씬 좋은 영향을 미쳤고, 우리에게는 매우 흥미로운 시간이었습니다.
아민 투툰치안: 저는 훈련을 하는 동시에 인프라도 구축하고 있습니다. 우리는 이 성과 절벽을 극복할 수 있다고 굳게 믿고 있으며, 계획도 있고 모든 사람이 이를 실행하고 있지만, 시간이 오래 걸릴 것입니다. 정말 힘든 일이에요. 제가 생각했던 것보다 훨씬 더 힘들죠. 제 예측은 틀렸고 이 문제를 해결하는 데 얼마나 오랜 시간이 걸릴지 과소평가했습니다.
저는 팀이 마침내 그 핵심 문제들을 극복하고 상당한 성과 개선을 이룬 순간을 아직도 기억합니다. 팀 전체의 에너지 변화를 뚜렷하게 느낄 수 있습니다. 모두가 갑자기 에너지로 가득 차고 새로운 동기를 가지고 최종 목표를 향해 달려갑니다.
가장 놀라운 점은 상태 추적기에 표시된 예상 완료 시간이 처음 2년에서 최종적으로 명확한 시간 노드에 고정될 때까지 지속적으로 단축되었다는 것입니다. 이런 눈에 띄는 진전은 팀 사기를 엄청나게 높여줍니다. 저는 그것이 아름다운 점이라고 생각해요.
머신러닝(ML) 의 작업은 결코 멈추지 않는다는 점을 강조하고 싶습니다. 머신러닝(ML) 공동 설계 프로세스는 훈련이 시작된 후에도 계속됩니다. 머신러닝(ML) 팀은 한때 "후속 조치"로 태그 문제에 대해 적극적으로 후속 조치를 취했을 뿐만 아니라, 실제로 교육 시간을 개선하는 개선 사항도 지속적으로 제공했습니다.
이는 우리 팀 정신을 완벽하게 반영합니다. 모든 사람이 자신의 일을 돌봐야 하는 업무의 경계가 없고 , 오히려 진정으로 원활한 협업이 이루어지고 있으며, 이러한 응집력이 우리의 가장 큰 장점입니다.
07.
GPT-4.5 사전 학습은 가장 철저한 계획입니다.
어떠한 비정상도 절대 놓아주지 마세요
다니엘 셀삼: 이 훈련 자체의 어려움과 예측의 정확성에 관해 많은 논의가 있었습니다. 하지만 사실 이 모든 것은 매우 신중한 계획에 기반을 두고 있습니다. 이에 대해 더 자세히 설명해 주실 수 있나요?
알렉스 파이노: 이건 확실히 지금까지 우리가 세운 계획 중 가장 정교한 계획이에요. 제가 말씀드렸듯이, 우리는 공식 교육이 시작되기 1년 전부터 이 프로젝트를 준비하기 시작했습니다. 이 기간 동안 우리는 여러 차례 대규모 리스크 관리 테스트를 실시했습니다.
우리는 모든 개선 사항을 단계적으로 도입하는 데 특별한 주의를 기울입니다. 즉, GPT-4와 유사한 성숙한 아키텍처로 이해할 수 있는 높은 머신러닝(ML) 의 기본 구성부터 시작하여 빌딩 블록처럼 새로운 기능을 쌓습니다.
핵심은 다양한 규모에서 각 개선 사항의 확장성을 엄격하게 검증하는 것입니다. 성능이 향상되는 것을 확인할 뿐만 아니라, 모델이 확장됨에 따라 이러한 개선 사항이 효과적인지 확인하기 위해서입니다. 많은 개선사항은 작은 규모로 테스트할 때는 효과적이지만, 대규모로 적용하면 실패합니다.
따라서 우리는 프로세스 전반에 걸쳐 매우 경계를 늦추지 않았고 확장 법률 방법론을 지속적으로 반복하고 개선했습니다. 이러한 리스크 관리 관행을 통해 우리는 대량 귀중한 경험을 축적했으며, 이는 앞으로도 GPT 시리즈 모델 개발을 위한 지침이 될 것입니다.
아민 투툰치안: 저는 특히나 흥미로웠던 순간을 하나 기억하는데, 정말 그리워요. 아시다시피, 우리가 훈련 작업을 시작할 때마다 필연적으로 다양한 버그에 직면하게 됩니다. 이건 흔한 일이죠. 하지만 중요한 것은 진전이 방해받지 않도록 하는 것입니다. 현재 진행 상황이 실제로 올바른 방향으로 가고 있는지, 그리고 이러한 버그가 훈련의 상태에 치명적인 영향을 미칠지 여부를 항상 확인해야 합니다.
처음에는 심각한 결함이 있다는 것을 확신했지만, 완벽한 모니터링 시스템을 구축함으로써 문제의 근본 원인을 정확하게 파악할 수 있었습니다. 하드웨어 오류일까요? 어떤 유형의 하드웨어 오류인가요? 데이터가 손상되었나요? 아니면 머신러닝(ML) 모델 자체의 버그일까요? 아니면 코드에 경쟁 조건이 있는 걸까요?
당시의 상황은 매우 다양한 증상을 보이는 여러 토론 포럼이 동시에 열려 있었다는 것입니다. 일련의 버그 수정 후에도 우리는 교착 상태에 빠졌습니다. 해결되지 않은 문제가 여러 개 쌓여 있었고, 모두가 고심하고 있었습니다. 이것들이 서로 다른 버그로 인한 것일까요? 아니면 직장에 버그가 있는 걸까?
나중에 우리는 여론조사를 실시하여 팀원들에게 가장 가능성 있는 근본 원인에 투표해 달라고 요청했습니다. 결국 가장 선호되지 않는 옵션이 실제로 진실을 드러냈습니다. PyTorch 상류의 torch.sum 함수, 즉 간단한 합산 연산에 문제가 있었던 것입니다.
이 버그는 특히 흥미롭습니다. 우리는 주로 Triton 커널을 사용하고 일부 중요하지 않은 에지 시나리오에서만 토치 작업으로 대체한다는 것을 아는 것이 중요합니다. 특정 코드 경로로 인해 발생하는 torch.sum 함수 버그는 데이터 분포의 특성으로 인해 가끔 불법적인 메모리 접근을 발생시킵니다. 즉, 메모리 오프셋을 계산하는 데 실수를 합니다.
가장 극적인 점은 엔지니어가 마침내 문제를 찾아내고 수정안을 제출했을 때, 다양한 증상을 보였던 모든 오류가 사라졌다는 것입니다. 모두가 흥분해서 슬랙 채널 이름을 '다중 버그 이론'에서 '단일 버그 이론'으로 바꾸었고, 그 장면은 특히 즐거웠습니다.
이 버그는 얼마나 오랫동안 숨어 있었나요? 이 기능은 훈련 초기 단계부터 존재했지만 진행률 막대의 약 40%가 지나서야 발견되었습니다. 발견 과정도 극적이었습니다. 복잡한 커널 호출 시퀀스가 있었고, 두 번째 호출에서 불법적인 메모리 접근이 발생했습니다.
이런 종류의 충돌 빈도는 극히 낮고(수백 또는 수천 개의 훈련 단계에 한 번만 발생) 가끔 발생하는 실패로 쉽게 무시할 수 있지만, 저희 팀의 원칙은 ' 어떤 비정상적 현상도 절대 놓치지 않는다 '는 것입니다. 이 이야기에서 가장 멋진 부분은 쉽게 포기하지 않는 끈기입니다.
08.
우리는 아직 이상적인 시스템에서 멀어져 있습니다
샘 알트먼: GPT-4.5 사전 학습이 시작된 후에는 또 무엇을 해야 하나요?
알렉스 파이노: 우리 모두는 손실 곡선을 정기적으로 살펴봐야 합니다. 또한, 훈련이 시작되기 전에 완료되지 않은 공동 설계를 개선하기 위해 시스템을 지속적으로 최적화해야 합니다. 우리는 예상치 못한 비정상적인 추세가 없는지 확인하기 위해 훈련 과정 동안 다양한 통계적 지표를 면밀히 모니터링합니다. 동시에 머신러닝(ML) 의 관점에서 가능한 개선 솔루션을 탐색합니다. 사전 학습이 시작된 후에는 데이터 수준의 작업이 일시적으로 줄어들지만, 처리해야 할 작업이 여전히 대량 남아 있습니다.
아민 투툰치안: 저는 머신러닝(ML) 정확성 판단에 크게 의존한다고 생각합니다. 사전 훈련이 시작된 후, 대량 노이즈 신호 대면 우리는 마치 점쟁이가 찻잎을 해석하는 것과 같습니다. 우리는 시스템이 건강한지 판단해야 합니다. 이것이 우리의 책임입니다.
샘 알트먼: 시스템 수준에서 모델을 훈련하는 능력을 제한하는 요소는 무엇일까요? 칩인가, 프로세서인가, 메모리인가, 네트워크인가, 아니면 전력인가?
아민 투툰치안: 이 시스템의 장점은 공동 설계를 할 때 작업 부하를 구축하는 인프라에 맞춰 조절할 수 있다는 것입니다. 네트워크가 병목 현상이라는 점, 메모리 대역폭이 병목 현상이라는 점 등에 대한 일반적인 합의는 없습니다. 동일한 사양의 모델이라 하더라도 리소스 요구 사항을 변경하고, 더 균형 잡힌 시스템을 만들 수 있지만, 메모리 대역폭이 더 많은 것이 항상 유익합니다. 이 질문에는 무조건적으로 대답하기 어렵습니다.
GPT-4.5를 설계할 때, 인간의 지시를 통해서만 생성될 수 있는 특정 속성이 시스템에 필요할 수 있습니다. 따라서 모델 아키텍처와 아키텍처 요소를 형성하는 데 있어 공동 설계가 중요하며, 이는 시스템과 머신러닝(ML) 측면을 연결하는 데 중요합니다. 만약 시스템에 우리가 원하지 않는 속성이 있다면. 제가 이상적으로 생각하는 것은 모든 것이 분리되어 서로에게 최대한의 공간을 제공하는 것입니다.
때로는 모든 것이 서로 얽혀서 인프라 요구 사항을 충족해야 할 때가 있는데, 그게 당연한 일이죠. 우리에게는 균형 잡힌 시스템과 균형 잡힌 의사소통이 필요한 경우가 많습니다. 그리고 우리가 가진 가장 좋은 중재는 바로 이 협력적 디자인입니다.
샘 알트먼: 우리는 이 이상적인 시스템 목표에 얼마나 가까워졌나요?
아민 투툰치안: 우리는 아직 그 목표에 도달하기까지 멀었습니다. 시스템을 구축하는 과정은 항상 이렇습니다. 사물이 어떻게 작동해야 하는지에 대한 이상적인 관점 으로 시작한 다음, 기존 리소스를 사용하여 그 차이점을 조정합니다.
이론을 세우기 위해 하는 것이 아니라, 우리가 원하는 것이 어떤 것인지 논의하고, 그것을 실현하고, 그 이상에 최대한 가깝게 접근하기 위해 하는 것이라고 생각합니다. 이것은 아마도 시스템 분야에서 가장 흥미로운 부분일 것입니다. 과거에는 사람들이 이것이 우아한 시스템 설계라고 말했겠지만, 궁극적으로 이것이 올바른 선택이었는지 아니면 잘못된 선택이었는지는 역사가 말해줄 것입니다.
샘 알트먼: 다음의 대규모 학습 실행 전에 머신러닝(ML) 문제 하나에 대한 답을 얻을 수 있다면 무엇을 얻고 싶으신가요?
알렉스 파이노: 제한된 데이터와 특정 도메인에서 어떤 알고리즘을 사용해야 할지 알고 싶습니다. 이는 광범위한 질문이지만 실제로 가장 중요한 질문입니다.
샘 알트먼: 앞으로 1,000만 개 이상의 GPU에서 동시에 사전 학습이 가능해질까요?
알렉스 파이노: 그럴 것 같지만, 전통적인 사전 훈련 모델이 아닐 수도 있습니다. 그 형태는 기존 기술과 완전히 다를 수 있지만, 여전히 비지도 학습의 핵심은 유지할 것입니다.
아민 투툰치안: 저는 반동기식 모드를 선호합니다. 물리 법칙의 한계로 인해 완전한 동기화는 현실적이지 않습니다.
다니엘 셀삼: 저는 탈중앙화 될 가능성이 더 높다고 생각합니다. 학습하고 작업을 수행하는 AI 시스템에는 1,000만 개의 GPU가 함께 작동할 것이지만, 뇌의 다양한 부분과 마찬가지로 반드시 서로 통신하지는 않을 것입니다 .
09.
알고리즘 개선은 누적 효과를 낳습니다.
데이터 효율성 향상
샘 알트먼: 현재 최첨단 알고리즘과 인간 데이터 효율성의 차이점은 무엇입니까? 앞으로 따라잡을 수 있는 희망이 있나요?
다니엘 셀삼: 둘을 직접 비교하는 것은 어렵습니다. 언어 학습의 격차는 확실히 크며, 핵심은 인간의 시각 신경이 받는 정보의 양을 어떻게 정의하느냐에 있습니다. 저는 일반적으로 알고리즘은 인간보다 데이터 효율성이 훨씬 떨어진다고 생각합니다.
수십 년 동안 딥 러닝은 해시레이트 효율성에 초점을 맞춰 왔습니다. 데이터와 해시레이트 의 성장 외에도 정말 놀라운 것은 알고리즘 개선의 누적 효과입니다. 알고리즘 성능이 10% 또는 20% 향상되면 데이터 효율성에 상당한 효과가 나타납니다. 지금까지 데이터 효율성을 중심으로 한 이런 움직임은 없었습니다. 데이터가 순환되지 않고 컴퓨팅 파워가 제한되어 있다면 의미가 없기 때문입니다.
이제 우리는 데이터 효율성의 성과를 축적하기 시작할 AI 연구의 새로운 단계에 접어들고 있습니다. 지금 당장 우리가 극복할 수 없는 장애물에 부딪힐 것이라고 예측하는 것은 어리석은 일이라고 생각합니다. 인간의 뇌는 확실히 알고리즘 개선과는 다르게 작동하며, 이 점에 있어서 우리는 신중할 필요가 있습니다. 하지만 저는 알고리즘의 미래 개발에 대해서는 낙관적인 태도를 유지해야 한다고 생각합니다.
샘 알트먼: 대규모 사전 학습과 모델의 강력한 학습 및 추론 기능 사이에 상관관계가 있습니까?
알렉스 파이노: 우리가 관찰한 바에 따르면, 더 나은 사전 학습과 비지도 학습은 모델의 전반적인 지능을 향상시키고 일반화에 많은 도움을 주는 경향이 있습니다. 이는 추론 능력과 함께 나타나는데, 추론 능력은 지능을 향상시키는 데 약간 느릴 수 있습니다. 저는 그 둘이 상호 보완적이라고 생각해요.
샘 알트먼: 사전 학습은 많은 일을 할 수 있을 만큼 일반적인 것 같지만, 모델을 학습하면 특정한 종류의 일에만 능숙해지는 것 같은데요, 맞나요?
알렉스 파이노: 흥미로운 말씀입니다. 하지만 이를 훈련하는 데 사용된 데이터를 살펴보면 놀랄 일이 아닙니다. 사전 학습 데이터 세트의 범위는 매우 크고, 우리는 폭넓고 다양성을 추구합니다. 그리고 모델 강화 학습과 이를 통해 좋은 보상 신호와 좋은 훈련 환경을 얻을 수 있는 깔끔한 방법을 제공하는 측면에서 데이터 세트의 폭을 균형 있게 조절하는 것이 어렵다고 생각합니다.
다니엘 셀삼: 동의합니다. 하지만 사전 학습은 본질적으로 서로 다른 것들 사이의 연관성을 발견하기 위해 데이터를 압축하는 것이라는 또 다른 요인이 있다고 생각합니다. 비유에 관한 것이고, 좀 더 추상적입니다. 추론은 특정 문제에 대해 신중하게 생각하는 것을 필요로 하는 기술이며, 이를 통해 다양한 유형의 문제에 대한 해결책을 찾을 수 있습니다. 하지만 사전 학습 중에 데이터가 여러 도메인에 걸쳐 압축되면 더 추상적인 수준의 지식을 학습할 수 있습니다.
10.
지능의 본질은 압축입니다.
데이터의 롱테일 효과는 스케일링 법칙을 유효하게 유지합니다.
샘 알트먼: 비지도 학습이 효과적인 이유는 무엇인가요?
다니엘 셀삼: 핵심은 압축입니다. 지능의 이상적인 형태는 솔로모노프 귀납법이다. 일반적으로 머신러닝(ML) 모든 가능성을 고려하지만, 더 간단한 프로그램부터 시작하는 경향이 있습니다.
현재 사전 학습의 핵심은 압축 과정으로, 지금까지 인간이 생성한 모든 데이터를 설명하는 가장 간단한 프로그램을 찾아 근사적인 표현을 얻는 것입니다.
Sam Altman: 다음 토큰 예측은 압축을 달성하는 데 어떻게 도움이 될 수 있나요?
다니엘 셀삼: 통계에는 역설이 있습니다. 딥 네트워크는 압축 불가능해 보이는데 일반화는 가능한 이유는 무엇일까요? 일반적으로 대량 데이터와 몇 개의 작은 모델이 있는 경우 해당 모델은 학습을 시작하기 전에 압축되어야 합니다.
사전 학습에서는 데이터와 모델의 규모가 매우 큽니다. 어떤 사람들은 이런 종류의 훈련이 단지 암기와 보간 학습일 뿐이라고 생각합니다. 사실, 그들은 압축에 대한 또 다른 이해 관점, 즉 사전 압축을 무시합니다. 그것은 압축기와 같습니다. 데이터 무게가 크더라도 바이너리는 이 정보를 저장할 필요가 없습니다. 다음 토큰 예측의 결과는 유용한 정보를 빠르게 검색하고 압축 효율성을 개선하는 데 사용될 수 있습니다.
샘 알트먼: GPT-4.5를 훈련하는 과정에는 대량 인력, 시간, 비용이 소모되었습니다. 이는 실제로 스케일링 법칙을 검증하기 위한 실험으로 볼 수 있으며, 그 결과는 스케일링 법칙이 효과적이며 장기간 지속될 것이라는 것을 증명했습니다. 왜 스케일링 법칙을 우주의 법칙이라고 부를 수 있을까요?
다니엘 셀삼: 압축률이 높을수록 지능이 더욱 강력해지는데, 이는 매우 심오한 철학적 의미를 갖습니다. 더 큰 모델을 훈련하는 데 시간이 오래 걸릴수록 압축률이 증가하는 이유는 무엇입니까? 여기에는 많은 이론이 포함되어 있는데, 제가 좋아하는 이론 중 하나는 희소 표현입니다.
실제로 핵심 개념은 거듭제곱 법칙 분포를 따릅니다. 예를 들어, 100번째로 중요한 개념은 100개 문서마다 단 한 번만 나타날 수 있는데, 이는 명백한 롱테일 효과를 보여줍니다. 이러한 분산적 특성은 모든 핵심 개념을 효과적으로 포착하기 위해 대규모 데이터와 해시레이트 필요하며, 또한 스케일링 법칙의 장기적 효과를 결정합니다.
편집자 | 판켄
본 기사는 위챗 공개 계정 "스마트 씽스"(ID: zhidxcom) 에서 발췌하였으며, 저자는 천쥔다 천지양이고, 36Kr.의 출판 허가를 받았습니다.


