2017년 여름, 구글 브레인의 평범한 사무실에서 여덟 명의 젊은이들이 논문의 마지막 글자인 "관심이 전부다(Attention Is All You Need)"를 타이핑했습니다. 당시에는 이 논문이 이후 수년간 수조 달러 규모의 AI 혁명을 불러일으킬 것이라고는 아무도 예상하지 못했습니다. 루카스 카이저의 말처럼, " 우리에게는 그저 평범한 하루였을 뿐입니다. "
이 여덟 명의 저자는 이후 구글을 떠나 실리콘 밸리 역사상 가장 전설적인 "트랜스포머 8인"이 되었습니다.
거의 10년이 지난 지금, OpenAI의 선임 과학자가 된 루카스는 매일 Cursor를 사용하여 연구를 진행하고 있습니다. 흥미롭게도 그가 AI에게 처음으로 요청한 것은 15년 전 소스 코드를 분실하여 실행할 수 없었던 자신의 학술 논문을 이틀에 걸쳐 완벽하게 재현해 달라는 것이었습니다.
세계 최대 규모의 "통계 기계" 설계에 직접 참여했던 인물은 자신의 책상에서 솔직하게 이렇게 말했다. " 우리는 아직 '학습' 자체의 진정한 신비를 완전히 파악하지 못했습니다. "
루카스의 관점에서 오늘날 업계는 이상하고 맹목적인 광풍에 빠져 있습니다. 대형 모델은 극도로 비효율적인 학습자와 같습니다. 기본적인 개념을 수동적으로 "이해"하기 전에 인터넷 전체에서 수조 개의 단어를 흡수하고 모든 잘못된 패턴을 샅샅이 뒤져야 합니다. 이는 인간의 학습 방식과 상반될 뿐만 아니라 현재의 확장 법칙이 비효율의 빙산에 부딪히는 원인이 되고 있습니다.
작년에 루카스가 CSDN의 수석 부사장인 리젠중과 이야기를 나눴을 때, 그는 "추론 모델은 현재 RNN의 아주 초기 단계에 불과하다"고 지적하며 해당 아이디어에 대해 냉담한 반응을 보였습니다. 1년 후, 대규모 모델 사전 학습의 빠른 발전 속도가 크게 둔화되고 업계가 에이전트 배포 및 엔지니어링 탐색에 완전히 초점을 맞추면서, 그의 "냉정한 사고"가 옳았음이 정확히 입증되고 있습니다.
이 대화의 핵심 내용을 간략하게 정리해 드리겠습니다.
대규모 언어 모델은 실제로 개념을 학습할 수 있지만, 다른 모든 가능성을 다 고려한 후에만 가능합니다. 일반화는 가능하지만, 우리가 완전히 이해할 수 없는 독특하고 "이질적인" 사고방식을 사용합니다.
현재 모델은 막다른 길로 점점 더 깊이 들어가고 있는지 여부를 정확하게 감지할 수 없습니다.
점점 더 많은 사람들이 이러한 시스템을 일상 업무에 통합함에 따라, 우리는 몇 주 또는 몇 달에 걸친 방대한 양의 실제 인간 워크플로 데이터를 축적하게 될 것입니다. 이러한 복잡한 워크플로에 강화 학습을 적용하면 예상치 못한 놀라운 결과를 얻을 수 있을 것입니다.
인공지능 산업은 때때로 기술적 쓰나미를 경험합니다. 따라서 '오늘'의 번영을 맹목적으로 추구하기보다는 '내일'을 대표하는 트렌드에 코인 해야 합니다 .
연구실의 안전한 울타리를 벗어나 그래픽 카드를 구매하는 데 필요한 천문학적인 금액과 그 부족 현상을 목격하게 되면, 냉혹한 현실에 직면하게 될지도 모릅니다.
오픈AI의 핵심 강점이 ChatGPT의 경이로운 성공에 가려지는 동안, 앤스로픽은 매우 현명한 전략적 선택을 했습니다. 바로 모든 자원을 "코드"라는 전장에 집중하여 거대 기업들의 사각지대에 견고한 해자를 구축하는 것이었습니다.
우리의 직감은 그것이 더 똑똑해야 한다고 말해줍니다.
진행자: "일반화"보다 더 좋은 시작 주제는 없을 것 같습니다. 현재 업계 전체의 핵심 주제라고 해도 과언이 아니죠. 작년 11월, 추론만으로 일반화를 달성할 수 있는지, 아니면 완전히 새로운 접근 방식을 찾아야 하는지에 대한 핵심 질문을 언급하셨던 것을 들었습니다. 벌써 반년이 지났는데, 빠르게 발전하는 AI 업계에서는 마치 몇 년처럼 느껴지는 시간입니다. 그동안 이 문제에 대한 당신의 견해는 어떻게 바뀌었습니까?
루카시 : 현재의 트랜스포머를 보면 추론과 에이전트를 결합하고 시스템 셸과 다양한 도구에 접근할 수 있도록 해주는데, 그 기능은 정말 놀랍습니다. 2년 전, 아니 트랜스포머가 탄생하기 전과 비교하면 우리가 이룬 발전은 그야말로 경이롭습니다. 누군가 "다음 토큰 예측"이라는 단순한 모델에 사고 연쇄, 강화 학습, 그리고 도구를 더하는 것만으로 이렇게 강력한 기능을 발휘할 수 있다고 말했더라면 저는 절대 믿지 않았을 겁니다. 저는 개인적으로 매일 몇 시간씩 커서와 소통하는데, 그 성능은 정말 탁월합니다. 업무 관련 문제를 커서와 논의하면, 커서는 완벽하게 이해할 뿐만 아니라 문제를 직접 해결하는 데 도움을 줍니다. 정말 놀랍습니다.
하지만 한편으로는 인공지능이 여전히 인간과는 상당히 다르며, 우리가 기대하는 한계에 미치지 못하는 것 같다는 느낌을 지울 수 없습니다. 직관적으로 우리는 인공지능이 더 똑똑하고, 적은 데이터로도 일반화할 수 있으며, 사고의 도약이 더 크고, 최소한의 정보로 새로운 개념을 습득할 수 있어야 한다고 생각합니다.
최근에 이런 비유를 든 적이 있습니다. 누군가 미국인들은 항상 모든 잘못된 선택지를 다 써본 후에야 옳은 일을 한다고 농담처럼 말했죠. 대규모 언어 모델도 이와 비슷합니다. 개념을 학습할 수는 있지만, 다른 모든 가능성을 다 살펴본 후에야 가능합니다. 수조 개의 토큰을 입력하여 모든 명백한 패턴을 탐색하게 해야 합니다. 이러한 명백한 패턴으로 더 이상 새로운 것을 설명할 수 없을 때 비로소 모델은 수동적으로 그 이면에 숨겨진 논리를 이해하려고 시도합니다. 하지만 이것은 결코 인간의 학습 방식이 아닙니다. 인간은 개념을 숙달하는 데 아주 적은 데이터만 필요하며, 때로는 완벽하지는 않더라도 아무것도 없는 상태에서 개념을 만들어내기도 합니다. 따라서 우리는 항상 이 이면에는 훨씬 높은 일반화 효율성을 달성하고 더 근본적이고 장기적인 이해를 가능하게 하는 다른 메커니즘이 숨겨져 있을 것이라고 생각합니다.
하지만 이는 현재로서는 단지 직관일 뿐입니다. 우리가 이 누락된 메커니즘을 찾아내려고 할 때마다 그것은 사라지는 듯하거나, 더 정확히 말하면 트랜스포머가 재빨리 따라잡는 것처럼 보입니다. 그동안 두 가지 경로 모두 성장해 왔습니다. 트랜스포머는 점점 더 강력해졌지만, 대안을 요구하는 목소리 또한 더욱 단호해졌습니다.
현재 많은 연구소에서 "트랜스포머 이후 시대"를 위한 새로운 아키텍처를 연구하고 있으며, 이미 흥미로운 연구 결과를 몇 가지 내놓았습니다. 실제로 업계에는 흥미로운 변화들이 일어나고 있습니다. 누가 최종적으로 승리할지는 현재로서는 알 수 없습니다. 양측 모두 매우 타당한 주장을 펼치고 있으며, 이러한 협상 과정은 매우 흥미로울 것입니다.
진행자: 청중들에게 매우 매력적인 주제일 것 같습니다. 최근 NeurIPS 강연에서도 "뭔가 이상한 기운"에 대해 언급하셨는데요, 마치 어떤 계기로 신생 연구소(네오랩)와 연구자들이 주류 기업들이 장악한 아키텍처에 대한 대안을 탐구하기 위해 조용히 연구소를 설립하고 있는 듯한 느낌이 듭니다. 이러한 미묘한 느낌은 어디에서 비롯되는 것일까요? 초기 실험적 성과에서 비롯된 것일까요, 아니면 단순히 연구자들의 본능적인 직관에서 오는 것일까요? 청중들이 이해하기 쉽도록 좀 더 구체적으로 설명해 주시겠습니까?
루카시 : 제 생각엔 대부분 직감에 의한 것 같아요. 그리고 샌프란시스코의 여러 파티나 일상적인 대화 속에서 이런 분위기가 자주 조성되기 때문에 항상 경계해야 합니다. 어느 정도는 스스로 강화되는 경향이 있죠. 하지만 그 안에는 아주 근본적인 무언가가 있다고 생각합니다. 사실 얀 르쿤도 오래전에 비슷한 관점 밝혔었죠.
우리의 모델은 "신경망"이라고 불리며 인간의 뇌를 모방하도록 설계되었지만, 완전히 모방하는 것은 아닙니다. 유사점이 있더라도 근본적인 차이점이 존재합니다. 인간이 학습하고 행동하는 방식을 관찰해 보면, 기존 모델보다 훨씬 적은 데이터로 훨씬 복잡한 일들을 해낼 수 있다는 것을 알 수 있습니다. 일종의 "학습 기계"인 인간은 현재 모델에는 없는 어떤 핵심적인 능력을 가지고 있는 듯합니다. 따라서, 단순히 일시적인 정서 분위기가 아니라, 근본적으로 아직 발견되지 않은 과학적 원리가 작용하고 있을 것입니다.
물론, 반대 의견도 분명합니다. 이러한 모델은 학습 과정에서 수조 개의 토큰을 소비하는데, 인간은 평생 동안 그만큼의 데이터를 접하지 않습니다. 따라서 , 우리는 실제로 이러한 모델을 "소규모 데이터 학습"에 최적화한 것이 아닙니다. 만약 동일한 해시레이트 가지고 있지만 데이터에 제약이 있다면, 트랜스포머 모델을 미세 조정하여 훨씬 더 나은 성능을 달성할 수 있을 것입니다. 이 시점에서 누군가는 "왜 그렇게까지 해야 할까?"라고 의문을 제기할 수도 있습니다. 데이터는 이미 충분히 많고, 데이터 산업은 거대한 규모로 성장했습니다. 하지만 인간과 동일한 양의 데이터로 학습을 시도한다고 하더라도(인간은 엄청난 양의 시각적 정보를 받아들이고, 현실 세계에서 움직이고 행동합니다), 데이터의 차원은 일반 텍스트와 완전히 다르기 때문에 단순한 비교가 어렵습니다. 이것이 바로 현재로서는 명확한 과학적 결론을 내리기 어려운 이유입니다.
하지만 이런 직감이 여전히 남아 있습니다. 머신러닝(ML) 분야에는 아직 탐구되지 않은 엄청나게 가치 있는 영역들이 존재합니다. 흥미로운 점은 이 빠진 부분을 찾게 되면 기존 기술들이 혁신적인 도약을 이룰 수 있다는 것입니다. 물론 그렇지 않을 수도 있습니다. 방대한 데이터 앞에서는 그 격차가 미미할지도 모릅니다. 누가 알겠습니까? 하지만 연구자로서 저는 이 분야에 분명히 매료되었고, 많은 동료들도 저와 같은 생각을 하고 있다고 믿습니다.
트랜스포머의 매력은 부인할 수 없습니다. 그들의 추론 능력은 최첨단 수학 연구 문제까지 해결할 수 있습니다. 최근 인공지능이 수학 분야에서 이룬 획기적인 성과에 대해 들어보셨을 겁니다. 저 또한 학창 시절 수학 연구를 했던 경험이 있어 이러한 발전은 그저 놀라울 따름입니다. 이렇게 짧은 시간 안에 컴퓨터가 마치 학자처럼 높은 수준의 수학적 토론을 저와 나눌 수 있을 거라고는 상상도 못 했습니다. 하지만 실제로 그렇게 해냈고, 정말 놀라운 일입니다.
하지만 머신러닝(ML) 연구자로서 다시 생각해 보니, 우리는 '학습'이라는 현상 자체의 신비를 완전히 이해하지 못한 것 같습니다. 모델이 학습한다는 것은 부인할 수 없는 사실이지만, 학습에 필요한 방대한 데이터 양과 해시레이트 고려하면 궁극적인 진리에 도달하기까지는 아직 갈 길이 멀어 보입니다. 이것은 단순한 직감일까요, 아니면 순간적인 분위기일까요? 어떤 면에서는 현실에 가깝다고 할 수 있지만, 시간이 지나야 알 수 있을 것입니다.
진행자 : 이 미스터리를 탐구하는 연구의 가치는 부인할 수 없습니다. 하지만 어떤 사람들은 정반대의 의견을 제시할 수도 있습니다. 모델이 인간과 다르면 어쩌라는 겁니까? 우리가 방대한 양의 데이터를 보유하고 있고 이 방법이 효과적이기 때문에 충분하다는 것입니다. 물론 신약 개발과 같이 데이터 부족에 직면한 분야도 있습니다. 이러한 분야에서는 제한된 데이터를 활용하여 효율적으로 학습하는 것이 매우 중요합니다. 하지만 현실 세계의 많은 핵심 과제들은 이처럼 심각한 데이터 병목 현상과는 무관합니다.
때때로 이 두 그룹이 서로 동떨어진 이야기를 하는 것 같다는 생각이 듭니다. 주류 연구소 사람들이 양리쿤의 관점 비웃는 것도 이해할 만합니다. 어쨌든 현재 인공지능 분야에 막대한 자금이 쏟아지고 있는 상황에서, 데이터에 구애받지 않는 문제들이 놀라운 속도로 해결되고 있는 것은 사실이니까요.
루카시 : 하지만 머지않아 남아있는 모든 병목 현상은 데이터 제약 문제로 진화할 것입니다. 아니, 오히려 이러한 추세는 이미 뚜렷하게 나타나고 있습니다. 특히 물리적 세계에서 만족스러운 결과를 얻으려면 이 문제를 어느 정도 해결해야 합니다. 텍스트나 인터넷의 가상 세계와 달리 물리적 세계는 데이터를 무한히 확장할 수 없기 때문에 특정 로봇 하드웨어로 학습을 마친 후에는 데이터 확장의 효율성이 크게 떨어집니다. 물리적 세계는 엄청난 도전 과제입니다. 물론 현재 사람들은 비용 효율적인 대안인 시뮬레이션 데이터나 1인칭 시점 비디오 데이터를 활용하려고 노력하고 있습니다.
저는 웨이모의 열렬한 팬입니다. 누군가 "약속했던 자율주행차는 어디 있나요?"라고 물을 때마다, 저는 항상 "저는 매일 자율주행차를 타고 다니는데, 바로 여기 있잖아요!"라고 농담을 하곤 합니다. 그런데 최근 웨이모가 특정 공사 구간에서 주행이 불가능하다는 이유로 고속도로 주행 기능을 취소했습니다. 웨이모는 이 공사 구간 문제를 몇 년째 해결하지 못하고 있는 것 같습니다. 시뮬레이션 시스템에서 수백만 마일을 주행하고 실제 도로 환경에서도 상당한 주행 경험을 축적했을 텐데도, "도심 공사 구간"에서 얻은 경험을 "고속도로 공사 구간"에 매끄럽게 적용하지 못하는 건 말이 안 됩니다.
문제의 구체적인 내용은 모르겠지만, 운전면허를 따는 십대 청소년이나 일반인이 이런 혼란을 겪을 리는 없습니다. 우리 인간은 많은 결점을 가지고 있지만, 도심 공사 구역에서는 운전을 잘하면서 고속도로 공사 구역에서는 길을 잃는 일은 결코 없을 겁니다. 공사 구역은 공사 구역일 뿐, 기본 원칙은 같습니다.
진행자: 이러한 문제점들 중 일부는 트랜스포머 내부 개선을 통해 해결될 수 있다고 생각하십니까? 향후 몇 년 안에 이 질문에 대한 더 명확한 답을 제시해 줄 것이라고 기대하는 바는 무엇입니까?
루카시 : 머신러닝(ML) 연구에서 가장 흥미로운 점은 그 범위가 엄청나게 넓다는 것입니다. 아키텍처, 데이터, 손실 함수, 최적화 과정 등을 언제 조정해야 할지 미리 예측할 수 없죠. 각 접근 방식에는 나름의 논리가 있고, 궁극적으로는 다양한 측면에서 조정이 필요할 수도 있습니다. 트랜스포머는 분명 훌륭한 모델이지만, 그 위대함은 "다음 단어 예측"이라는 손실 함수와 뗄래야 뗄 수 없는 관계에 있습니다. 강화 학습(RL)과 결합할 수도 있지만, 논리적 연결 고리가 있어야만 가능합니다. 이러한 기술적 요소들은 서로 매끄럽게 결합될 때 비로소 그 진가를 발휘합니다.
미래에 혁신적인 새로운 길이 등장한다면 각 단계를 재평가해야 할 수도 있습니다. 하지만 트랜스포머의 핵심 구성 요소 중 일부는 계속 유지될 가능성도 있습니다. 예를 들어, 주의 집중 메커니즘은 다른 새로운 메커니즘의 도움을 받겠지만, 여전히 중요한 역할을 할 것으로 보입니다.
저의 머신러닝(ML) 여정은 순환 신경망 (RNN)으로 시작되었기에, '순환'이라는 개념은 항상 제게 특별한 의미를 지니고 있습니다. 저는 순환의 논리적 아름다움에 매료되어 있습니다. 어떻게 보면, 추론 능력의 발전은 순환 메커니즘을 다시금 주목받게 했습니다. 대규모 모델은 새로운 토큰이 생성될 때마다 동일한 가중치 세트를 반복적으로 사용하기 때문입니다. 하지만 실제 응용 분야에서 이러한 강화 학습 접근 방식은 희소 손실 함수와 함께 엄청난 연산량을 처리하고 궁극적으로 성공을 거둘 수 있습니다. 정말 놀라운 일입니다.
다른 방식으로 반복 메커니즘을 도입하려고 시도할 때마다 항상 마지막 단계에서 실패하는 것 같습니다. 하지만 이는 오래된 질문을 다시 떠올리게 합니다. 과연 우리는 이러한 시도에 얼마나 많은 노력을 기울였을까요? 여러분이나 여러분의 청중은 TRM이나 HRM과 같은 반복 모델에 대해 잘 모를 수도 있습니다. 이러한 모델들은 극히 작은 크기에도 불구하고 스도쿠나 ARC-AGI와 같은 매우 까다로운 벤치마크에서 놀라운 성능을 보여주었습니다. 현재는 초기 테스트 단계에 있지만, 그 성능은 정말 인상적입니다. 저는 많은 최첨단 " 트랜스포머 이후 아키텍처 "들이 대규모 언어 모델에 이러한 반복 메커니즘을 통합하려고 시도하고 있다고 생각합니다. 이는 객관적으로 매우 흥미로운 현상입니다.
순수 트랜스포머 아키텍처는 이러한 종류의 논리적 문제를 처리할 때 이상적인 성능을 보이지는 않지만, 루프 메커니즘을 도입하거나 아키텍처를 약간 수정하거나 손실 함수를 미묘하게 변경하면 성능이 크게 향상될 수 있습니다. 아주 작은 규모에서도 놀라운 성능 향상을 이룰 수 있습니다. 이러한 접근 방식이 궁극적으로 언어 수준으로 일반화되어 우리가 항상 꿈꿔왔던 기능을 제공할 수 있을까요? 이는 기대할 만한 일입니다. 다행히 현재 여러 연구소에서 이 방향으로 연구를 진행하고 있습니다.
게다가 올해는 지능형 에이전트가 폭발적으로 증가했습니다. 제게 있어 이는 20년간의 머신러닝(ML) 연구 경력에서 경험한 가장 큰 업무 방식의 변화일 것입니다.
이는 일주일 근무일을 하루로 줄이는 것과 같습니다.
진행자: 인공지능이 업무 효율성을 얼마나 향상시켰는지 수치화해 보신 적이 있는지 궁금합니다.
루카시 : 사실 이 부분에 대해서는 비교적 정확한 정량적 지표를 제시할 수 있습니다. 최근에 제가 항상 관심을 가졌던 몇몇 오래된 논문들을 개인용 컴퓨터에서 재현해 보려고 시도했는데, 그중에는 제가 직접 썼지만 소스 코드가 사라진 논문들도 몇 편 포함되어 있었습니다. 예전에 그중 적어도 하나는 수동으로 재현해 보려고 했었는데, 코드를 실행하는 데만도 3주 정도 걸릴 거라고 예상했었죠. 하지만 Cursor 덕분에 단 이틀 만에 완료할 수 있었습니다.
이는 일주일치 작업을 하루 만에 끝내는 것과 같은 효과로, 효율성이 5~10배 향상되었습니다. 당시 조금 더 열심히 노력했더라면 더 빠른 속도로 진행할 수 있었을지도 모르지만, 이러한 변화는 제 연구 리듬을 완전히 바꿔놓았고, 아무런 거리낌 없이 새로운 아이디어를 시도할 수 있게 해주었습니다. 이전에는 코드를 직접 작성할 때는 한 번에 한 가지에만 집중할 수밖에 없었지만, 이제는 세 가지 실험을 동시에 독립적으로 실행할 수 있게 되었습니다. 속도 향상뿐 아니라 멀티스레드 병렬 처리까지 가능해진 것입니다.
실제 운영 환경이 아닌 개인 프로젝트를 진행할 때는 코드 한 줄 한 줄을 꼼꼼히 검토하는 작업을 거의 하지 않습니다. 한 친구가 이 때문에 제 사고력이 무뎌진 건 아닌지 물어본 적이 있는데, 곰곰이 생각해 보니 오히려 정반대였습니다. 모든 클래스 이름이나 사소한 함수 하나하나까지 신경 쓸 필요는 없어졌지만, 에이전트가 언제든 잘못된 방향으로 나아갈 수 있다는 사실은 잘 알고 있습니다. 예를 들어, 한 번은 평가 실행 중에 보조 손실 함수를 만나더니, 전혀 관련 없는, 완전히 잘못된 보조 손실 함수를 멋대로 추가한 적도 있었습니다.
그러므로 당신의 두뇌는 시스템이 정확히 무엇을 하고 있는지 완벽하고 절대적으로 제어해야 합니다. 손실 함수는 무엇인가? 기본 아키텍처는 무엇인가? 이러한 것들을 알아야 합니다. 다만 클래스 이름이나 함수의 세부적인 철자 같은 세부 사항은 신경 쓸 필요가 없습니다. 에이전트가 당신의 생각을 정확하게 구현할 수 있도록 해주는 신뢰감은 놀랍습니다. 대부분의 경우, 실행 결과를 확인해 보면 완벽하게 구현되었음을 알 수 있습니다.
머신러닝(ML) 로직 자체, 즉 손실 함수 설계 방법이나 배치 크기 조정 방법 등에 고도로 집중해야 하기 때문에, 오히려 예전에 모든 것을 직접 처리했을 때보다 연구 프로젝트의 근본적인 측면을 더 잘 이해하고 있다고 생각합니다. 과거에는 아이디어를 구현할 때, 코드가 실제로 실행되기 전에 수많은 사소한 디버깅 작업에 에너지를 쏟아야 했고, 그 후에야 전체적인 관점으로 돌아가야 했습니다. 이 과정에서 종종 기발한 아이디어를 놓치곤 했습니다.
이제 여러분은 완전히 몰입 상태에 빠졌습니다. 머신러닝(ML) 의 핵심에서 출발하여 어떤 일이 일어나야 하는지 생각하고 , 에이전트에 지침을 전달하고, 그 결과를 검증하기만 하면 모든 것이 자연스럽게 제자리를 찾습니다. 이는 시간을 절약할 뿐만 아니라 연구 자체를 엄청난 즐거움으로 바꿔줍니다. 저는 이것이 최근 연구자들 사이에서 유행하는 일종의 가벼운 집착일지도 모른다고 생각합니다. 우리는 멈출 수가 없습니다.
진행자: OpenAI는 올해 11월까지 AI를 연구 보조원(인턴) 수준으로 끌어올리는 것을 목표로 한다고 공개적으로 밝혔습니다. 저는 연구에 Cursor를 많이 활용하는 학자인데, 이 목표 달성에 얼마나 근접했다고 생각하시나요? 이 중요한 이정표에 대한 여러분의 생각은 어떠신가요?
루카시 : 성능은 확실히 인턴이 만든 것과 매우 비슷하지만, 출력 결과를 계속 주의 깊게 살펴봐야 합니다. 앞서 말씀드렸듯이, 단순히 논리적으로 타당해 보인다는 이유로 요청하지도 않은 손실 함수를 임의로 추가할 수도 있습니다. 실제 인턴들이 그렇게 할지는 모르겠지만, 아주 창의적인 인턴이라면 모를까.
가끔씩 "혼란도를 줄이기 위해 모델을 개선한다"와 같은 거시적인 목표를 설정하고 하룻밤 동안 자동으로 실행시켜 보려고 합니다. 하지만 이런 방식은 전혀 효과가 없습니다. 연구 가치와는 무관한 사소하고 중요하지 않은 수정만 시작할 뿐입니다. 따라서 아직 독립적인 연구자 수준에는 한참 못 미칩니다.
진행자: 이 방향으로 획기적인 발전을 이루기 위한 현실적인 방법은 무엇일까요?
루카시 : 이로써 우리의 처음 논의로 돌아가게 되었습니다. 사실, 트랜스포머가 발명되기 훨씬 전부터 저는 머신러닝(ML) 에서 "긴 컨텍스트"와 "메모리 메커니즘"을 연구하는 데 전념해 왔습니다. 이후, 우리는 긴 컨텍스트를 트랜스포머 시대에 도입하여 토큰 길이가 수백만 개에 달하는 것을 달성했는데, 이는 어텐션 메커니즘 프레임 내에서 매우 인상적인 규모입니다.
하지만 지능형 에이전트 시대인 오늘날에는 grep이나 ripgrep 같은 도구가 긴 컨텍스트를 처리하는 데 진정한 해결책이라는 것을 알게 되었습니다. 방대한 양의 콘텐츠를 파일에 저장하고, 에이전트가 grep을 사용하여 정보를 검색할 수 있도록 하고, 인덱스 파일을 구축하도록 하고, 마치 작은 라이브러리처럼 작동하게 하면 됩니다.
연구자로서 5년 전 누군가 긴 문맥을 처리하는 이런 방법을 제시했다면, 저는 코웃음을 쳤을 겁니다. 그저 임시방편일 뿐이라고 생각했을 테니까요. 하지만 머신러닝(ML) 분야에서는 Dropout처럼 처음에는 임시방편처럼 보였던 훌륭한 발명품들이 많습니다. 기술을 그 기원으로 판단해서는 안 됩니다. 진정으로 효과적이라면 적극적으로 활용해야 합니다. 그리고 이 방법은 실제로 놀라울 정도로 효과적임이 입증되었습니다.
압축 메커니즘과 같은 약간의 강화 학습(RL)만 추가하면 됩니다. 제가 웹 버전의 Claude 대신 Cursor를 확고하게 선택한 가장 큰 이유는 Cursor의 뛰어난 컨텍스트 압축 기능 때문입니다.
이 도구는 핵심 정보를 추출하는 데 탁월하기 때문에 대화를 오랫동안 이어갈 수 있습니다. 어떻게 이런 성능을 발휘할까요? 특별한 비결이 있는 것은 아닙니다. 개발팀이 영리한 단서를 설계하고 강화 학습 기법을 적용했기 때문입니다. 몇 년 전 누군가 긴 문맥을 처리하는 궁극적인 해결책이 강화 학습을 통해 도구 사용법, 파일 검색 방법, 그리고 문맥을 유지하면서 간결하게 내용을 추출하는 방법을 학습시키는 것이라고 말했다면, 저는 그저 임시방편일 뿐 과학적인 근거가 없다고 생각했을 것입니다. 하지만 우리는 해결책을 겉모습의 화려함으로 판단하지 않습니다. 오직 효과성만을 볼 뿐이며, 이 도구는 실제로 매우 효과적입니다.
따라서, 과연 독립적인 연구자로 진화할 수 있을지에 대해서는 비관적인 견해가 지배적입니다. 거시적인 개념을 이해하고 장기적인 목표 지향성을 갖춘 완전히 새로운 "트랜스포머 이후" 아키텍처가 개발되지 않는 한 불가능하다고 보는 시각입니다. 이는 일리가 있는 주장입니다. 현재로서는 기존 접근 방식이 많은 문제를 해결할 수 있는 것처럼 보입니다.
일각에서는 커서와 한 달 동안 지속적으로 대화를 나눈 후에는 커서가 이러한 대화를 검토하고, 메타 패턴을 식별하고, 저장한 다음, 이를 어떻게 활용할지 고려하도록 유도할 수 있다고 주장합니다. 아마도 수천 명의 사람들로부터 유사한 상호작용 데이터를 수집하고 이를 기반으로 강화 학습을 훈련시킨다면, AI는 진정한 학자처럼 행동하기 시작할 것입니다. 어느 정도는 인간 학자들이 그런 방식으로 학습합니다. 선배들의 연구를 관찰하고, 반복적인 실험을 수행하며, 가장 효과적인 방법론들을 정리하는 것입니다.
진행자: 왜 이 방법이 지금 작동하지 않는 거죠? 분명 누군가는 이미 시도해 봤을 텐데요.
루카시 : 아직 이 방향으로 충분한 노력을 기울이는 사람이 없는 것 같아요. 몇몇 사람들이 아이디어를 제시해서 어느 정도 효과는 있었지만, 그게 전부죠. 제 생각에 진정한 "커서 시대"는 작년 크리스마스쯤부터 시작된 것 같아요. 물론 그 전에도 커서는 있었고, 우리도 사용했고, 클로드도 있었지만, 모두가 크리스마스 때 진정한 변화를 느꼈죠.
이는 단순한 모델 업그레이드 이상의 의미를 지니는 것으로 보입니다. 전체 하네스 를 세심하게 개선하고 일련의 사후 학습 과정을 거치는 작업입니다. 그리고 이 작업은 불과 6개월 정도밖에 진행되지 않았습니다. 샌프란시스코의 AI 업계 관계자들을 벗어나 보면, 많은 사람들이 이러한 변화를 완전히 이해하지 못하고 있으며, 심지어 이 변화에 크게 의존하는 우리 같은 사람들이 지나치게 열광한다고 생각할 수도 있습니다.
이 시스템은 최근에야 비로소 진정한 잠재력을 발휘하기 시작했습니다. 이론적으로조차 이러한 도약을 완전히 설명하기는 어렵습니다. 비록 그 기간 동안 더욱 강력한 기본 모델들이 등장하긴 했지만, 사전 학습된 파라미터의 엄청난 증가 때문만은 아니었습니다. 과거 RNN에서 Transformer로 전환했을 때는 그 변화를 기본 아키텍처의 완전한 개편 덕분이라고 단정짓기 쉬웠습니다. 하지만 이제는 추론 능력의 중요성은 부인할 수 없지만, 작년 크리스마스 무렵에 일어난 변화는 여전히 다소 수수께끼로 남아 있습니다. 프레임 업그레이드, 학습 후 최적화, 그리고 시기적절하게 등장한 새로운 사전 학습 모델 등 여러 요인이 복합적으로 작용하여 이러한 놀라운 도약을 가져왔기 때문에, 단 하나의 원인으로 설명하기는 어렵습니다.
이 시스템은 다양한 상호 영향을 미치며, 우리는 시스템의 모든 측면을 끊임없이 최적화하고 있습니다. 하지만 그 효과가 매우 뛰어나고 중요하기 때문에, 치열한 시장 경쟁 속에서 모두가 다양한 응용 분야에 걸쳐 시스템을 상용화하고 홍보하기 위해 시간과의 싸움을 벌이고 있습니다. 그 결과, "메타 수준"에서의 심층적인 이론적 분석을 위한 시간이 부족해졌습니다. 일부 탐색은 시작되었지만, 메타 수준에서의 연구는 패턴을 포착하는 데 일주일을 할애한 다음 이를 구현하려고 시도하는 데 수주간의 시스템 반복 작업을 필요로 합니다.
기존 강화 학습 메커니즘에서는 솔루션의 각 반복마다 대규모 배포 테스트가 필요합니다. 테스트 주기가 몇 주씩 걸린다면, 단일 세션 학습에 소요되는 시간은 몇 달로 늘어나게 되는데, 이는 엔지니어링 실무에서 전혀 현실적이지 않습니다.
이는 인간의 학습 및 연구 방법이 머신러닝(ML) 에 심오한 통찰력을 제공할 수 있다는 관점 를 완벽하게 보여줍니다. 인간은 하나의 연구 프로젝트에 수년간 몰두하며, 그 기간 동안 시행착오를 거의 거치지 않습니다. 어떤 수학자들은 하나의 문제를 해결하는 데 20년을 투자하여 최고의 업적을 이루기도 합니다. 그들에게는 20년씩 연구하며 반복적으로 학습하고 실험할 수 있는 시간이 200년이나 되는 것은 아니지만, 그럼에도 불구하고 그들은 해냅니다. 그 비결은 무엇일까요? 이는 의심할 여지 없이 매우 흥미로운 주제이며, 현재 인공지능 개발과 밀접한 관련이 있습니다. 우리는 아직 이 미스터리를 풀지 못했습니다. 하지만 점점 더 많은 사람들이 이러한 시스템을 일상 업무에 통합함에 따라, 우리는 수주 또는 수개월에 걸친 방대한 양의 실제 인간 작업 흐름 데이터를 축적하게 될 것입니다. 누군가 이러한 복잡한 작업 흐름에 강화 학습을 적용한다면, 예상치 못한 놀라운 결과를 가져올 수도 있습니다.
진행자 : 매우 통찰력 있는 지적입니다. 과거에는 사전 학습 규모를 확장하거나 1세대 추론 모델을 개발할 때 최적화 경로가 매우 명확하고 논리적이었습니다. 해시레이트 어느 부분에 집중해야 할지 정확히 알고 있었죠. 하지만 작년 크리스마스 무렵 Cursor와 Claude의 급격한 발전은 다소 불가사의하게 느껴졌습니다. 이러한 변화의 정확한 원인을 파악하지 못한다면 시스템의 핵심 기능을 지속적으로 개선하기 위해 어떤 방향으로 노력을 집중해야 할지 판단하기 어려울 것입니다.
루카시 : 맞아요, 확실히 좀 당황스럽죠. 제가 구체적인 비법을 모른다고 해서 업계 사람들이 다 아는 건 아니잖아요. 아마 동료들 중에는 이 기술이 진짜 혁신이라고 확신하는 사람들도 있겠지만, 적어도 지금으로서는 모두가 동의하는 건 아니라고 생각해요. 기술적 역량은 사실 오랫동안 조용히 축적되어 왔지만, 그 변화 이후에는 허황된 꿈처럼 여겨졌던 많은 아이디어들이 하룻밤 사이에 현실이 되었죠. 이는 강화 학습 분야에서 이루어진 현명한 규모 확장의 분명한 이점이라고 할 수 있어요.
취향은 구체적인 언어를 사용하여 정의하고 분석하기 어렵습니다.
진행자: 현재 많은 관심을 받고 있는 질문이 있습니다. 코드나 수학처럼 검증이 확실한 분야에서는 이미 혁명적인 변화가 일어났습니다. 하지만 강화 학습에 관해서는 두 가지 핵심적인 질문이 남아 있습니다. 첫째, 검증 불가능한 주관적인 영역에서 강화 학습이 어디까지 적용될 수 있을까요? 둘째, 대규모의 독점 데이터에 의존하지 않고 완전히 새로운 영역에서 효율적인 일반화를 달성할 수 있을까요? 당신의 생각으로는, 검증 불가능한 영역에서 이러한 핵심적인 과제를 어떻게 극복해야 할까요? 코드와 수학을 넘어, 다음으로 획기적인 발전이 일어날 분야는 무엇이라고 생각하십니까?
루카시 : 사실, 저희는 "검증 불가능"했던 영역에서 상당한 진전을 이루었습니다. 법률 분야의 하비(Harvey)나 일부 의료 분야 애플리케이션을 예로 들 수 있습니다. 이러한 작업들은 절대적으로 엄격한 검증 기준은 없지만, 상호 참조 가능한 검증 단계가 대량 포함되어 있습니다. 이러한 분야의 결과는 매우 고무적입니다. 또한, GPQA와 같은 벤치마크 테스트에서도 이러한 포괄적인 역량을 어느 정도 평가하고 있습니다. 업계 내부적으로도 이러한 영역으로 확장하려는 강력한 동기가 있습니다.
사실, 단순히 "검증 불가능"이라고만 표현하는 것은 완전히 객관적이지 않을 수 있습니다. 물론 수학은 코드나 순수 수학처럼 명확한 규칙을 갖고 있지는 않지만, 사람들이 수학의 소위 "검증 가능성"을 과장해왔다고 생각합니다.
프로그래밍 경진대회와 같은 맥락에서 코드는 검증하기가 매우 쉽습니다. 하지만 복잡한 시스템의 프런트엔드 상호작용으로 들어가면, 명확한 기준만으로 정의하기가 어려워집니다. 수학에서도 진정한 학문적 증명은 절대적으로 순수하거나 자동으로 쉽게 검증 가능한 경우는 드뭅니다. 물론 Lean과 같은 형식적 도구를 사용할 수는 있지만, 대규모 언어 모델에서 생성된 대부분의 수학적 유도는 엄격한 형식화 과정을 거치지 않았기 때문에 절대적으로 검증할 수 없습니다. 검증 가능성은 쉬움에서 어려움으로 갈수록 점차 낮아지는 스펙트럼과 같습니다.
저는 예전에 영어 시를 폴란드어로 번역하는 개인 프로젝트를 한 적이 있는데, 언뜻 보기에는 매우 주관적인 예술 분야처럼 들립니다. 하지만 이러한 대형 모델들을 검토자로 활용해 보면, 실제로 아주 미묘한 부분까지 포착해낼 수 있다는 것을 알게 됩니다. 모델들은 운율, 리듬, 심지어 문화적 적합성까지 꼼꼼하게 검토합니다. 과거 인간의 검토 방식을 참고해 보면, 주관적인 예술도 어느 정도 정량화하고 검증할 수 있다는 것을 알 수 있습니다.
하지만 이 시 번역 프로젝트를 통해 또 다른 진실을 깨달았습니다. 모든 객관적 기준(운율, 문자적 의미, 운율)을 완벽하게 충족하더라도 시 전체가 영혼이 없고 '취향'이 부족하다고 느껴진다는 것입니다. 이는 취향이라는 것이 구체적인 언어로 정의하고 분석하기 어렵기 때문입니다. 만약 취향을 쉽게 표현할 수 있었다면 이미 정형화된 방식으로 검증되었을 것입니다. 그러나 취향을 명확하게 표현할 수 없다고 해서 우리가 그것을 인지하지 못하는 것은 아닙니다. 시를 읽을 때, 뇌 속의 어떤 직감이 무언가 부족하다는, 즉 어떤 불꽃이 빠져 있다는 것을 끈질기게 일깨워줍니다.
어느 정도는, 현재의 강화 학습 패러다임 때문에 우리가 스스로 만든 함정에 기꺼이 빠져든 것이기도 합니다. 이 패러다임의 작동 원리는 매우 간단합니다. 무엇이 좋고 무엇이 나쁜지 판단해 줄 심사위원만 있다면, 모델은 반복적으로 학습하며 특정 방향으로 더욱 강해질 수 있다는 것입니다. 이것이 현재 대규모 모델의 성장 메커니즘입니다. 제가 "이 문장은 번역이 잘못된 것 같아요"라고 불평할 때마다 누군가는 "그럼 좋은 취향이 무엇인지 가르치면 되잖아요"라고 말합니다. 그리고 대량 수정을 거치면 모델은 결국 그 특정 단점을 보완할 수 있게 됩니다. 이미지 생성과 마찬가지로 "아름다움"과 "추함"을 정의하기는 어렵지만, 학습 과정에서 수천 명의 사람들이 미적으로 더 만족스러운 이미지를 지속적으로 클릭하게 함으로써 시스템이 생성한 작품의 전반적인 미적 품질을 크게 향상시킬 수 있습니다.
그러므로 검증 가능한 경계는 매우 모호하고 유연합니다. 인간의 선호도를 수집함으로써 희소하지만 매우 가치 있는 데이터 신호를 얻을 수 있습니다. 왜 저는 어떤 글이 미적으로 부족하다고 느낄까요? 이는 분명히 제 삶의 경험, 축적된 지식, 그리고 세상을 인식하는 방식에서 비롯됩니다. 그렇다면 왜 모델은 이런 종류의 영감을 만들어낼 수 없을까요? 두 가지 가능성이 있습니다. 첫째, 모델이 충분히 깊이 있는 경험을 하지 못했기 때문이고, 둘째, 이러한 경험을 처리하는 논리적 메커니즘에 결함이 있기 때문입니다. 저는 두 가지 이유 모두 관련되어 있다고 생각합니다. 하지만 기존의 기본 처리 논리가 존재하더라도, 예를 들어 수천 명의 사람들로부터 주관적인 피드백을 수집하는 것처럼 더 풍부한 실제 인간 경험을 입력해 준다면 모델의 미적 감각은 극적으로 향상될 것입니다.
취약점은 끊임없이 패치하면 해결할 수 있습니다. 하지만 취약점을 패치하기 위해 그 모든 수고를 들이지 않아도 된다면 얼마나 좋을까요? 하나의 취약점을 패치하고 나면 더 이상 문제가 되지 않고, 또 다른 숨겨진 취약점이 드러나 새로운 병목 현상을 일으킵니다. 우리는 마치 끝없는 악순환에 갇힌 듯합니다. 인간의 두뇌처럼 핵심적인 학습 메커니즘을 갖추고 있다면, 처음부터 규칙의 모든 허점을 일일이 패치할 필요가 없어진다면 얼마나 완벽할까요?
진행자: 그렇다면 기존의 기본 아키텍처 하에서는 사람들이 집중하는 특정 산업 문제를 궁극적으로 해결할 수 있다는 뜻인가요? 하지만 말씀하신 것처럼, 이를 위해서는 신중하게 선별된 방대한 양의 독점 데이터가 필요할 수 있고, 전체적인 과정은 미래의 더욱 정교한 학습 메커니즘에 비해 자연스럽지 못할 것 같습니다. 현재의 강화 학습 방법으로는 극복할 수 없는 특정 유형의 문제나 영역이 실제로 존재한다고 생각하시나요?
루카시 : 현재로서는 극복할 수 없는 장애물은 없어 보이지만, 상업적 및 경제적 비용을 고려해야 합니다. 기존 기술 경로로는 특정 영역에서 매우 뛰어난 성능을 보여주는 모델을 만들려면 먼저 규모가 방대하고 비용이 엄청나게 많이 드는 최고 수준의 비공개 소스 기반 모델이 필요합니다. 게다가, 이는 대개 비공개 소스의 상아탑과 같아서 핵심 가중치에 접근할 수 없습니다.
OpenAI는 제가 매우 좋아하는 강화 학습 미세 조정 API를 제공하고 있으며, 다른 주요 기업들도 이를 따라하고 있지만, 이러한 불완전한 제어 모델에는 여전히 한계가 있습니다. API 기반 미세 조정을 사용하더라도 데이터 정제 및 해시레이트 에 드는 엄청난 비용 때문에 과정은 여전히 매우 어렵습니다. 이는 대개 풍부한 자원을 보유한 기업, 장기 계약, 그리고 많은 전문 인력을 필요로 합니다. 문제 자체가 상당한 상업적 가치를 지닌다면 이러한 접근 방식은 분명히 가치가 있겠지만, 모델과 대화만 하면 모델이 스스로 문제를 완벽하게 해결해주는 시나리오가 훨씬 더 바람직하지 않을까요?
진행자: 현재의 기본 모델은 전반적인, 근본적인 역량 면에서 비약적인 발전을 보여주고 있습니까? 다음과 같은 시나리오를 상상해 봅시다. 코드를 작성하는 것부터 시작해서 수학을 정복하고, 마지막으로 이 메커니즘을 법과 의학에 적용하여 하나씩 획기적인 성과를 달성한다고 가정해 보겠습니다. 당장 영역 간 일반화에 집중하지 않더라도 말입니다. 이상적으로는, 사전 훈련 단계와 유사하게 다양한 영역에 걸쳐 강화 학습을 탐색하는 과정을 거치면, 대규모 모델이 강화 학습 차원에서 영역 간 일반화 능력을 자연스럽게 개발할 것으로 기대할 수 있을까요?
루카시 : 맞습니다. 이러한 자발적 일반화의 징후가 이미 나타나고 있습니다. 예를 들어, 일반적으로 표준 강화 학습 파이프라인에 포함되지 않는 법률 분야에서 Harvey와 같은 수직적 애플리케이션 개발자들과 이야기를 나눠보면, 특정 이해는 자발적으로 나타나거나, 최상위 수준에서 아주 약한 지침만 있어도 시스템이 개념을 즉시 파악하고 통합한다는 것을 알게 됩니다. 일반화는 분명히 존재하지만, 그 경계는 우리가 예상했던 것보다 좁은 것 같습니다. 때로는 수학의 두 하위 분야 사이에서도 매끄럽게 일반화되지 못하는 경우도 있습니다.
예를 들어, 국제수학올림피아드(IMO)에서 기하학 문제는 오랫동안 모델들에게 있어 넘기 힘든 난관이었습니다. 모델들은 다른 분야의 매우 어려운 문제들을 쉽게 해결했지만, 기하학 문제에 직면했을 때는 늘 "공간적 추론 능력이 부족해."라며 한숨을 쉬곤 했습니다. 그러나 더 많은 기하학 문제를 접하면서 모델들은 문제를 쉽게 풀기 시작했습니다. 완전히 새로운 물리적 또는 공간적 데이터를 접한 것이 아니라, 기하학적 유도 과정을 더 많이 연습했기 때문입니다.
이 모델의 일반화 곡선은 특이한 "톱니" 모양을 보입니다. 한 영역에서는 상당한 진전을 이루었을지 모르지만, 도달할 수 있을 것 같은 다른 영역에서는 내부 사고 과정이 우리의 이해와 완벽하게 일치하지 않기 때문에 완전히 정체됩니다. 일반화는 하고 있지만, 우리가 완전히 이해할 수 없는 독특하고 "이질적인" 사고방식을 사용하고 있으며, 이는 일반적인 인간의 일반화 원칙과 다소 상충됩니다. 훈련 데이터가 계속 축적됨에 따라 모델이 커버할 수 있는 사각지대가 줄어들 수도 있습니다. 하지만 많은 의사결정자들이 대면 시스템을 경계하고 중요한 책임을 맡기기를 주저하는 이유도 충분히 이해합니다. 치명적인 사각지대가 어디에 숨어 있을지 미리 예측할 수 없고, 오류를 끊임없이 경계해야 하기 때문입니다.
머신러닝(ML) 연구자로서 저는 이러한 시스템을 사용할 때 항상 경계심을 늦추지 않고 신중해야 합니다. 사소한 실수라도 잘못된 방향으로 이끌 수 있기 때문입니다. 학문적 연구 관점에서 이러한 엄격한 훈련은 분명 우리의 역량을 날카롭게 유지시켜 주지만, 실질적인 기술적 관점에서는 엄청난 도전 과제이기도 합니다. 우리 모두는 이러한 시스템이 여전히 날카로운 모서리로 가득 차 있기보다는 더욱 부드럽고 균형 잡힌 형태로 발전하기를 바랍니다.
하드웨어 아키텍처가 과학 연구 아이디어를 따라가지 못하는 병목 현상이 빠르게 해소되고 있습니다.
진행자: 방금 반복적인 모델 개발 기능을 활용하는 응용 중심 기업에 대해 말씀하셨습니다. 현재 업계는 중요한 선택에 직면해 있습니다. 응용 중심 기업으로서 최고 수준의 연구소와 긴밀한 협력을 구축하여 평가 시스템과 업계 통찰력을 공유할 것인지, 아니면 자체 데이터를 신중하게 보호하고 이를 기반으로 모델을 구축하여 대기업에 핵심 자산을 빼앗기지 않을 것인지 결정해야 합니다. 핵심 기반 모델에 의존하는 현재의 응용 분야 생태계에 대한 당신의 생각을 듣고 싶습니다.
루카시 : 사전 학습된 기반 모델이 크고 강력할수록 소위 "날카로운 모서리"가 더 부드러워집니다. 결과적으로 애플리케이션 개발이 훨씬 원활해집니다. 강화 학습을 하든 대규모 모델을 미세 조정하든, 강력한 기반 모델은 후속 작업을 훨씬 효율적으로 만들어 줍니다. 이 원칙의 지속적인 타당성은 정말 놀랍습니다.
1~2년 전만 해도 업계에서는 " 대형 모델은 끝났고, 소형 모델(SLM)이 미래다 "라는 분위기가 지배적이었습니다. 실제로 Gemma 시리즈처럼 파라미터 수가 몇 바이트(B)에 불과한 매우 뛰어난 소형 모델들이 등장했습니다. GPT-3 시대에는 파라미터 수가 1억 개 미만이면 안정적인 제로샷 학습이 불가능하다고 여겨졌지만, 이제는 30억 개의 파라미터를 가진 모델조차도 놀라운 업무 성능을 보여주고 있습니다. 이는 분명 고무적인 일이지만, 극도로 복잡한 근본적인 문제를 해결하고 특정 데이터 및 방대한 컨텍스트에 원활하게 통합될 수 있는 모델을 원한다면 진정한 의미의 초대형 슈퍼모델을 대체할 수 있는 것은 없습니다. 물론 초대형 슈퍼모델의 학습 및 추론 비용은 매우 높고, 배포 장벽 또한 높아 많은 사람들이 도입을 망설이게 합니다.
진행자: 첨단 분야에 종사하지 않는 일반 대중에게는 차세대 하드웨어가 알고리즘을 얼마나 자유롭게 만들었는지 쉽게 인지하기 어렵습니다. 예를 들어, NVIDIA의 블랙웰 칩 출시로 모델 성능이 비약적으로 향상되었습니다. 이것이 강력한 신형 하드웨어 덕분에 이전에는 불가능했던 연산 능력이 가능해진 것인지, 아니면 단순히 시기적인 우연의 일치인지 구분하기는 어렵습니다. 하드웨어 컴퓨팅 성능이 향상될 때마다 기본 아키텍처 또한 자연스럽게 더욱 강력해질 것이라고 생각하십니까?
루카시 : 하드웨어 성능 향상은 본질적으로 초당 부동 소수점 연산 처리량(FLOPs)과 메모리 접근 대역폭이라는 두 가지 측면에서 나타납니다. 막대한 해시레이트 유휴 상태로 낭비되는 것을 막으려면 충분히 빠른 메모리 전송 효율이 필수적입니다. 이는 매우 직접적이고 확실한 성능 지표입니다.
최근 제 개인 컴퓨터에 5090 그래픽 카드를 설치했습니다. 그 성능은 정말 놀랍습니다. 5090 한 장으로 약 200 테라플롭스의 해시레이트 제공할 수 있습니다(특정 혼합 정밀도 레벨에서는 400 테라플롭스까지 도달할 수 있지만, 일부 레벨은 비활성화되어 있습니다). 비교를 위해 말씀드리자면, 저희가 Transformer 논문을 작성할 당시 사용했던 GPU는 카드 한 장의 해시레이트 겨우 9 테라플롭스였고, 전체 시스템에는 8개의 카드가 사용되었습니다. 전체 시스템 오버헤드를 고려하면 서버의 총 해시레이트 약 70~80 테라플롭스에 불과했습니다.
지금은 제 책상 아래에 있는 평범한 소형 타워형 컴퓨터에 장착된 그래픽 카드 하나가 당시 고성능 서버 다섯 대에 해당하는 해시레이트 갖추고 있습니다. 즉, 그래픽 카드 하나만으로 서재나 부엌에서 트랜스포머 논문에 나온 모든 실험을 실행할 수 있다는 뜻입니다. 그리고 이 모든 것이 10년도 채 안 되어 이루어졌습니다. 이는 과학 기술 역사상 기적과도 같은 일입니다. 오늘날 우리는 BF16 정밀도로 계산을 수행하지만, 특히 하이브리드 전문가 모델(MoE)이 도입된 이후로는 추론 단계에 더 많은 정보를 담을 수 있게 되어 실제로는 더 낮은 정밀도로도 계산이 가능해졌습니다.
이러한 모델을 실행하는 데 필요한 하드웨어 요구 사항이 크게 낮아짐에 따라 학술 연구의 범위가 넓어졌습니다. 이제 대규모의 고속 그래픽 카드를 활용하여 슈퍼모델을 학습시킬 수 있습니다. NVIDIA의 GPU와 Google의 TPU는 모두 매우 빠른 반복 속도를 유지하고 있으며 병렬 처리 측면에서 지속적으로 개선되고 있습니다.
하지만 저는 이것이 연구자들의 창의력을 얼마나 크게 발휘하게 하는지가 훨씬 더 흥미롭다고 생각합니다. 제가 처음 구글에 합류했을 때, 과학계에서는 인간 두뇌 전체를 시뮬레이션하는 데 필요한 FLOPs(퍼펙트 연산 능력)가 얼마나 될지를 두고 열띤 논쟁이 벌어지고 있었습니다. 수십 년간의 계산 끝에 1~100페타플롭스라는 결과가 나왔죠. 당시에는 하드웨어 발전이 수십 년은 걸릴 거라고 생각했습니다. 하지만 이제는 GPU 하나만 구입하거나 클라우드에서 몇 대의 서버를 임대하는 것만으로도 그 수준에 쉽게 도달할 수 있습니다. 이론적으로는 예전에는 수백만 달러가 들었지만 이제는 단 몇백 달러나 몇 천 달러만으로도 인간 두뇌가 하루 만에 처리하는 1년 치 데이터 양을 처리할 수 있게 된 것입니다.
인간 두뇌의 학습 메커니즘에 대한 새로운 아이디어가 떠오른다면, 단 며칠 만에 수년간의 학습 과정을 시뮬레이션하고 실행할 수 있습니다. 제 생각에 이러한 방식의 혁신은 단순히 거대한 모델을 구축하는 것보다 훨씬 더 큰 변화를 가져올 것입니다. 구현상의 모든 장애물을 제거하는 데 도움이 될 수 있기 때문입니다. 과거 RNN을 연구할 당시, PyTorch 환경에서 RNN이 직렬 방식으로 작동하고 실행 속도가 매우 느리다는 점 때문에 제약이 많았습니다. CUDA 커널을 직접 작성하여 속도 문제를 해결할 수는 있었지만, CUDA 커널 작성의 진입 장벽은 엄청나게 높았습니다. 하지만 이제는 에이전트가 CUDA 커널을 작성하고, 상대적으로 느린 단위 테스트를 통해 오류를 수정하는 과정을 거치면서, 한때 넘을 수 없었던 연구 장벽을 순조로운 과정으로 바꿀 수 있습니다. 현재의 커널 작성 기술은 완벽하지는 않지만, 이미 충분한 가능성을 입증했습니다. 머지않아 더욱 발전된 모델들도 이러한 기능을 수행할 수 있게 될 것입니다. "하드웨어 성능을 극대화"하라는 단 하나의 명령만 입력하면 완벽한 저수준 코드를 제공해 줄 것입니다.
"하드웨어 아키텍처가 연구 아이디어를 따라가지 못하는" 병목 현상은 빠르게 사라지고 있습니다. 하드웨어 아키텍처는 여전히 병렬 방식이지만, 지능형 에이전트가 지속적으로 사용자 맞춤형 커널을 작성해 주기 때문에 탐구할 수 있는 영역은 이제 훨씬 넓어졌습니다.
진행자: 업계에서는 최고 수준의 연구소들이 보유한 슈퍼컴퓨팅 해시레이트 없이는 개인이나 일반 기관이 심도 있고 실질적으로 의미 있는 학술 연구를 수행하기 어렵다는 인식이 널리 퍼져 있습니다. 기본적인 탐색은 물론 가능하겠지만, 궁극적인 진실은 대규모 해시레이트 환경에서 검증되어야 하는데, 이는 일반인에게는 접근하기 어려운 플랫폼이라는 것입니다. 학계, 아마추어 연구자, 그리고 소규모 스타트업에 대한 당신의 지속적인 낙관론은 정말 고무적입니다. 이러한 대중화된 과학 연구가 앞으로도 계속될 수 있다고 생각하십니까?
루카시 : 그날 기분에 따라 다릅니다. 낙관적인 날에는 이 생각을 굳게 믿습니다. 과학의 역사는 아름다운 아이디어가 순수 연구에서 비롯되는 경우가 많다는 것을 수없이 보여주었고, 미래의 탐구를 중단할 이유가 없습니다. 하지만 동시에 현재 우리가 보유한 주류 기술들은 엄청난 잠재력을 보여주고 있으며, 이를 포기하고 더 이상 탐구하지 않는 것은 큰 실수일 것입니다. 다행히 현재 산업계의 연구 환경은 매우 다양합니다.
연구실로 옮기기 전에는 학계에 깊이 관여했습니다. 상아탑에서 연구하는 것의 가장 매력적인 점은 창의력을 마음껏 발휘하고 생각을 자유롭게 펼칠 수 있다는 것입니다. 규모 면에서 대기업과 정면으로 경쟁할 수는 없지만, 상대적으로 작은 규모(오늘날의 '작은 규모'는 예전과는 매우 다릅니다)에서도 최첨단적이고 독창적인 연구를 수행할 수 있습니다. 기존 프레임 에서 완전히 벗어난, 영감을 불러일으키고 미적으로도 만족스러운 아이디어를 시도해 봐야 합니다. 그것이 바로 연구의 진정한 즐거움입니다.
물론 모든 아이디어가 결실을 맺는 것은 아닙니다. 어떤 방법들은 소규모에서는 놀라운 성능을 보이지만, 매개변수 규모가 커지면 빠르게 성능이 저하되기도 합니다. 하지만 일반적인 8개 GPU 서버를 보유하고 있다면, 연구의 출발점은 이미 5년 전과 비교하면 훨씬 앞서 있는 셈입니다. 5년 전에는 MNIST 같은 간단한 데이터셋에서 미세 조정만 가능했지만, 이제는 단일 물리적 노드에서도 단순한 수정 작업이 아닌 심층적인 분석이 가능해졌습니다.
개인적으로 저는 여가 시간에 안드레이 카르파티의 nanoGPT를 자주 사용합니다. nanoGPT 는 GPT-2 수준의 모델로, 단일 그래픽 카드 환경에서도 몇 시간 만에 실행할 수 있습니다. 현재 하드웨어는 상당히 비싸지만, 차세대 GPU가 출시됨에 따라 구형 카드들도 점차 보편화될 것입니다. 독립적인 실험의 가능성은 무궁무진하며, 모든 방법이 슈퍼컴퓨팅 해시레이트 으로 구현되는 것은 아니더라도 이러한 탐구 과정에서 얻는 지적 자극과 즐거움은 비할 데가 없습니다.
진행자: 최종 결정을 내리기 전에, 또 다른 최첨단 분야인 멀티모달 모델에 대해 질문드리고 싶습니다. 이전 팟캐스트에서 멀티모달 모델 분야에서 아직 진정한 혁신을 이루지 못했다고 말씀하셨는데, 여전히 같은 관점 인가요? 현재 멀티모달 분야의 발전 상황에 대해 어떻게 생각하시는지 말씀해 주시겠습니까?
루카시 : 사람들이 분명히 획기적인 발전을 이루고 있습니다. 아마도 해결책은 JEPA(Joint Embedded Prediction Architecture)와 유사한 방향을 가리킬 것입니다. 현재 트랜스포머나 확산 모델에서 사용하는 멀티모달 학습 방식은 결국 모든 픽셀을 개별적으로 예측하는 매우 비효율적인 방식으로 귀결됩니다.
하지만 인간에게 초점을 맞춰보면, 우리의 뇌는 끊임없이 엄청난 양의 정보를 흡수하고 처리합니다. 뉴런의 반응 속도는 상대적으로 느려서 수백 밀리초가 걸리기도 하지만, 우리의 감각은 사방에서 24시간 내내 이러한 방대한 데이터를 받아들입니다. 우리는 대규모 모델처럼 모든 픽셀을 자기회귀적으로 예측할 필요 없이도 이 거대한 데이터 흐름으로부터 성공적으로 학습합니다. 인간의 상호작용적 학습 메커니즘은 고도로 병렬적이며 엄청나게 방대한 규모로 전개됩니다. 개인적으로 저는 기존 모델들이 이러한 핵심 원리를 제대로 파악하지 못했다고 생각합니다. 이를 위해서는 근본적인 아키텍처에 대한 연구에서 새로운 돌파구가 필요할지도 모릅니다.
업계에서는 멀티스트림 트랜스포머와 같은 새로운 아이디어들이 등장하고 있습니다. 표준 트랜스포머는 앞서 언급한 토큰들에 대해 어텐션 계산을 수행합니다. 하지만 여러 개의 병렬 정보 스트림을 동기적으로 작동하도록 설계할 수도 있습니다. 이는 비교적 간단하고 작은 아키텍처 개선에 불과하지만, 엄청난 잠재력을 지니고 있습니다.
Cursor를 사용할 때, 실수로 무언가를 잊어버리면 음성으로 알려줘야 하고, 그러면 Cursor가 터미널에서 Bash 명령어를 실행할 때까지 기다려야 합니다. 이 과정에만 3분이 걸립니다. Cursor는 제 입력을 기다려 방향을 보정해야 하는데, 이러한 반자동 방식은 실시간 양방향 상호작용이라고 하기 어렵습니다. 저희는 이러한 문제를 해결하기 위해 여러 가지 임시방편적인 방법을 도입했지만, 이상적인 세상에서는 모든 것이 항상 협력적으로 작동해야 합니다. 인간의 시각, 청각, 표정은 양방향으로 통합되어 있으며, 저희 모델도 이와 같은 실시간 처리 능력을 갖춰야 합니다. 주요 연구소들이 이러한 측면에 집중하기 시작하면, 이상적인 세상은 현실이 될 가능성이 높습니다.
하지만 현재로서는 '멀티모달' 기술 개발에는 힘쓰고 있지만, 근본적인 '병렬 흡수'를 지원할 수 있는 혁신적인 아키텍처 업그레이드가 부족한 상황입니다. 기존 작동 방식으로는 트랜스포머가 고해상도 이미지를 초당 밀리초 단위로 처리하는 것이 쉽지 않습니다. 입력 단계에서 이미지를 작은 조각들로 분할한 후 비효율적으로 순차적 으로 이어 붙여야 하기 때문입니다. 이러한 방식은 어색하게 느껴집니다. 이미지를 작은 조각으로 나누는 것은 바람직하지 않습니다. 감각 정보는 마치 폭포수처럼 막힘없이 흘러들어와 전체를 즉시 소화해야 합니다. 아직 이 분야에서 근본적인 돌파구를 마련하지는 못했지만, 많은 동료들이 이 방향으로 부지런히 연구하고 있는 것을 보니 기쁩니다.
미래를 내다보는 트렌드에 항상 코인 해야 합니다.
진행자: 오픈AI에서의 재직 기간과 개인적인 여정에 대해 이야기 나누고 싶습니다. 그 시절은 정말 다사다난했고, 회사는 끊임없이 주목을 받았으니까요. 재임 기간 동안 어떤 어렵지만 중요한 결정들이 궁극적으로 회사의 정체성을 재정립하고 확립하는 데 기여했나요?
루카시 : 저는 회사 초기 의사 결정에는 관여하지 않았지만, 재직 기간 동안 회사 전체가 중대한 선택에 직면했습니다. 바로 '추론'에 모든 역량을 집중하는 완전한 혁신을 이룰 것인지에 대한 결정이었습니다. 당시 경영진과 모든 연구 개발 직원들은 큰 용기를 보여주며 어떤 대가를 치르더라도 이 길을 가기로 결정했고, '추론'을 '사전 학습'과 동등한 전략적 중요도로 격상시키고, 진정한 추론 코어를 갖춘 차세대 모델을 개발하여 시장에 출시하는 데 전념했습니다.
개발 초기 단계에서 논리적 추론에 초점을 맞춘 이 모델들은 일상 대화에서 다소 비인간적인 모습을 보였고, 생생한 인간적 특성을 불어넣는 데 어려움을 겪었습니다. 반응 속도 또한 상당히 느렸는데, 이는 오늘날까지도 해결되지 않은 병목 현상입니다. 많은 이들이 "정말 이 길을 가야만 하는가? 사용자들은 평범하고 유창한 대화 모델을 더 선호하지 않을까?"라는 의문을 품기 시작했습니다. 하지만 OpenAI는 중요한 시점에서 최고 수준의 결정을 내리는 데 탁월한 능력을 발휘하며, 이 험난한 길을 굳건히 헤쳐나가는 과정에서 효율적인 관리 메커니즘을 개발해냈습니다.
당시 우리는 완전히 다른 두 가지 제품 라인을 동시에 운영하고 있었는데, 이를 하나로 통합하는 것은 매우 어려운 프로젝트였습니다. 모든 관련 기술이 빠르게 발전하고 있었기 때문에 통합을 완료하는 데 오랜 시간이 걸렸습니다. 매우 어려운 결정이었지만, 만약 우리가 모든 것을 걸고 앞으로 나아가지 않았다면 오늘날 우리가 누리는 강력한 기능들은 결코 존재하지 않았을지도 모릅니다. 심지어 오늘날 업계를 선도하는 기업들조차도 강화 학습의 정밀한 정렬 품질 측면에서 따라잡기 위해 엄청난 압박을 받고 있는데, 이는 "흔들림 없는 집중"이 가져다주는 절대적인 경쟁 우위를 완벽하게 보여주는 사례입니다.
그 이후로 OpenAI를 비롯한 업계 최고의 연구소들은 Anthropic과 마찬가지로 기하급수적인 성장을 경험했습니다. 저는 오랫동안 구글에서 일했기에, 거대 기업이 수많은 자산과 번거로운 보고 체계 속에서 이처럼 과감한 도전을 하는 것이 얼마나 어려운 일인지 잘 알고 있습니다. OpenAI를 비롯한 신흥 연구소들이 이러한 비전통적인 정신을 계속 이어가기를 진심으로 바랍니다. 기존 기술들은 의심할 여지 없이 훌륭하고 우리의 영향력을 확장하는 데 여전히 도움이 되지만, 언젠가 "트랜스포머 이후 시대"에 진정한 과학적 희망이 나타난다면, 이러한 거대 연구소들은 미래를 받아들이고 살아남기 위해 과감한 희생을 감수할 용기를 가질까요, 아니면 점점 더 보수적이고 주저하게 될까요?
우리가 '추론' 단계에 착수했을 때, 희미한 희망의 불씨만 보았을 뿐이었습니다. 연구 결과를 검증할 방대한 양의 종합적인 데이터가 부족했고, 모두가 흔들림 없는 확신을 가지고 최선을 다했을 뿐입니다. 이제 압도적인 우위를 가진 차세대 범용 아키텍처가 아직 등장하지 않았지만, 만약 그런 아키텍처가 모습을 드러낸다면, 이 열정을 다시 불태우기 위해 완전히 새로운 연구소가 필요할까요? 아니면 기존의 선두 기업들이 이 미지의 리스크 감수하며 계속 나아갈 것으로 기대할 수 있을까요? 적어도 저는 OpenAI가 여전히 위험을 감수하는 결정을 내릴 수 있는 능력을 가지고 있다고 믿습니다.
진행자: 바로 그런 이유로 지금 업계에 "네오랩(Neolabs)"이라고 불리는 새로운 기업들이 많이 등장하고 있습니다. 제리 트워렉이 독립을 선택했을 때 말했듯이, 전통적인 대기업의 굴레에서 벗어남으로써 그들은 자신들이 믿는 올바른 방향에 더욱 집중하고 확고한 의지를 가질 수 있게 되었습니다.
루카시 : 물론 그것도 일리가 있죠. 하지만 주요 연구소의 보호막을 벗어나 그래픽 카드를 구매하는 데 필요한 천문학적인 금액과 그 부족 현상을 직접 마주하게 되면 냉혹한 현실에 직면하게 될 겁니다. 물론 그래픽 카드의 해시레이트 과학 연구의 전부를 대변하는 것은 아닙니다. 소규모의 헌신적인 연구팀과 대규모의 종합적인 슈퍼랩이 만들어내는 다양하고 균형 잡힌 생태계는 전체 산업에 매우 건강한 환경을 제공합니다.
인공지능의 중심지인 샌프란시스코에서는 치열한 경쟁과 변화의 물결에 휩싸이게 될 것입니다. 현재의 기술적 우위는 아직 완전히 활용되지 않았기 때문입니다. 수많은 정교한 알고리즘들이 구현을 기다리고 있고, 데이터 엔지니어링은 업그레이드가 필요하며, 더 많은 매개변수를 가진 모델들은 학습되어야 하고, 끊임없이 새로운 아이디어들이 쏟아져 나오고 있습니다. 이러한 기술들은 아직 성숙 단계에 이르지 못했지만, 다양한 세력들이 막대한 자금과 전문성을 투입하여 쉴 새 없이 발전을 추진하고 있습니다.
하지만 샌프란시스코를 벗어나면 많은 외부인들이 인공지능이 작년에 정점에 도달해서 더 이상 발전하지 못할 것이라고 생각한다는 것을 알게 될 것입니다. 이는 분명히 큰 오판입니다. 개인적으로 저는 현재의 지능형 코드 에이전트들이 기술적 종말이나 다름없다고 생각합니다. 저는 이것들을 인공 일반 지능(AGI)의 프로토타입이라고 부르고 싶습니다. 물론 AGI에 대한 정의는 사람마다 다를 수 있습니다. 머지않은 미래에 우리는 튜링 테스트와 작별 인사를 나누듯 AGI라는 용어 자체를 점차 잊어버릴지도 모릅니다. 이제 인공지능이 튜링 테스트를 통과했는지에 대해 진지하게 논쟁하는 학자는 거의 없습니다. 기술이 이미 그 관문을 쉽게 넘어섰기 때문입니다. 우리가 매일 코딩에 사용하는 시스템들은 의심할 여지 없이 놀라운 지능을 보여주었고, 그 자체로 획기적인 도약입니다.
진행자: 현재 AI 코드 생성 분야의 경쟁은 매우 치열합니다. 이러한 코드 생성 제품의 성공과 실패를 결정짓는 핵심 요소는 무엇이며, 차별화 전략은 무엇이라고 생각하십니까? Cursor나 Claude와 같은 도구의 미래 발전 방향에 대한 전망은 어떠신가요? 저는 이 코드 생성 시장이 여러 주요 업체가 경쟁할 수 있을 만큼 충분히 크다고 생각합니다.
루카시 : 더 근본적인 문제는 이러한 도구들이 다른 업무 영역으로 얼마나 원활하게 전환될 수 있느냐에 있습니다. 코드는 우리 기술자들에게 매우 중요하지만, 그 기본 논리는 수많은 산업 분야에 적용될 수 있습니다. 제가 기술 분야 외의 친구들에게 Cursor를 강력히 추천할 때마다, GitHub 저장소 연결을 요구하는데, 이는 사전 경험이 없는 많은 일반 사용자들에게 부담으로 작용합니다. 학습 곡선이 지속적으로 낮아지고 있기는 하지만, "코드 개발"이라는 특정 분야에만 국한되어 있기 때문에 재무 감사 에도 강력한 도구로 활용될 수 있다는 사실을 아는 사람이 거의 없습니다. 몇 단어만 입력하면 되는 ChatGPT와 비교했을 때, Cursor는 특히 Claude의 심층적인 개발 인터페이스를 사용할 때 적응 기간이 필요합니다.
가장 중요한 쟁점은 이러한 극도의 효율성을 다른 일반 산업에 어떻게 적용할 수 있느냐는 것입니다. 앤트로픽은 클로드를 이 임무에 투입하여, 이러한 매우 견고한 핵심 역량을 보다 접근하기 쉽고 활용 가능한 형태로 탈바꿈시키려 노력하고 있습니다.
진행자 : 이러한 융합적 역량은 분명히 존재합니다. 머신러닝(ML) 전문가로서 저는 모델들이 매우 복잡한 엑셀 데이터와 다양한 오피스 작업을 손쉽게 처리하는 모습을 자주 접합니다. 하지만 솔직히 말해서, 모델을 진정으로 숙달하고 이끌어 나가려면 여전히 일정 수준의 전문 지식이 필요합니다. 물론 이러한 기술은 학습을 통해 습득할 수 있지만, 대부분의 직장인들은 매일 매우 바쁘기 때문에 충분한 시간을 내어 이를 깊이 있게 공부하기 어렵습니다. 따라서 우리는 제품 사용의 장벽을 최소화해야 합니다. 또한 데이터 보안과 시스템 안정성이라는 근본적인 문제를 고려할 때, 감독 없이 무분별하게 운영되도록 내버려 둘 수는 없습니다. 신뢰를 구축하는 데에는 오랜 시간과 노력이 필요합니다.
문제는 어떻게 하면 대중이 이러한 소중한 신뢰를 구축하는 데 필요한 초기 시간과 노력을 투자하도록 설득할 수 있느냐는 것입니다. 돌이켜보면, 앤트로픽이 핵심 분야인 코드 분야에서 앞서나가고 상당한 성공을 거둘 수 있었던 이유는 무엇이라고 생각하십니까?
루카시 : 앤트로픽은 당시 매우 현명한 전략적 선택을 했습니다. 바로 모든 자원을 "코드"라는 전장에 집중한 것이죠. 한편, 오픈AI의 핵심 강점은 ChatGPT의 엄청난 성공에 가려져 있었습니다.
일상적인 대화형 채팅은 분명 무한한 잠재력을 지니고 있지만, 앤트로픽이 이러한 결정을 내린 핵심 이유는 절대적인 우위를 확보하고 견고한 해자를 구축할 수 있는 특정 영역을 찾는 데 있습니다. 이는 순전히 전략적 선택이자 최고 경영진의 현명한 판단입니다. AI 산업은 끊임없이 기술적 쓰나미를 경험합니다. '오늘'의 번영에 맹목적으로 매달리기보다는 '내일'을 대표하는 트렌드에 코인 해야 합니다. ChatGPT는 2025년에 놀라운 기술이었지만, 2026년에는 대중의 수용 장벽이 상당히 높아질 것이고, 2027년에는 또 다른 파괴적인 변화를 목격하게 될 것입니다.
변화의 속도는 누구도 예상하지 못했던 것보다 훨씬 빨랐습니다. 작고 간과되기 쉬운 틈새시장을 상대로 끈질기고 집중적인 공세를 펼치면 놀라울 정도로 풍부한 기술적 성과를 거둘 수 있습니다. OpenAI가 코딩을 소홀히 했다는 뜻은 아닙니다. 우리는 항상 이 분야에 깊이 관여해 왔기 때문에 나중에 빠르게 따라잡을 수 있었던 것입니다. 하지만 당시에는 코딩이 회사의 절대적인 핵심 역량은 아니었습니다. 비교적 소규모의 스타트업 팀이 단기간에 폭발적인 사용자 증가를 경험했을 때, 전체 엔지니어링 아키텍처의 붕괴를 막으려면 효율적인 운영과 절대적인 집중력을 유지하는 방법밖에 없습니다.
진행자: 방금 고전적인 게임 하나를 언급하셨는데요. 한편으로는 현재 기회에서 최대한의 이익을 짜내야 하고, 다른 한편으로는 새로운 미지의 영역이 나타났을 때 신속하게 자원을 확보하여 대규모 투자를 할 수 있도록 열린 자세를 유지해야 한다는 것입니다. OpenAI는 최근 잘 알려진 자원 통합 시기를 거쳤습니다. 코드 개발과 생산성 도구 제작에 많은 노력을 기울이는 한편, Sora와 같은 비교적 탐색적인 영역에 대한 전략을 선제적으로 조정하고 속도를 늦추는 모습을 보였습니다. "현재 업무 철저히 다듬는 것"과 "미래에 큰 변화를 가져올 수 있는 작은 불씨를 키우는 것" 사이의 내재된 긴장감을 어떻게 능숙하게 균형 있게 유지할 수 있을까요?
루카시 : 모든 것은 팀의 근본적인 DNA, 조직 규모, 재정 자원, 그리고 전략적 비전에 달려 있습니다. 예를 들어, 구글은 방대하고 다방면에 걸친 연구 시스템을 유지하기 위해 노력합니다. 이는 종종 비판의 대상이 되기도 하는데, 외부에서는 구글이 트랜스포머와 같은 수많은 혁신적인 기술을 개발했지만, 이를 상용화하는 데 있어 가장 현명한 접근 방식을 취하지 못했다고 지적합니다. 그러나 이처럼 매우 탄탄한 학문적 기반은 구글에게 상당한 비대칭적 이점을 제공합니다. 외부 기업이 특정 분야의 병목 현상을 해결하더라도, 구글은 막대한 연구 역량을 바탕으로 신속하게 격차를 좁히고 따라잡을 수 있기 때문입니다.
진행자 : 그들이 정말 완전히 따라잡았다고 생각하시나요? 외부에서는 여전히 그들이 한발 뒤처져 있다는 이야기 대량 나오고 있는데요.
루카시 : 일반적인 채팅 대화 측면에서 보면, 두 도구가 서로를 따라잡았거나 심지어 능가했다고 생각합니다. 유일한 약점이라면… 혹시 최신 버전의 제미니를 직접 사용해 보셨는지 모르겠네요. 저는 구글 I/O 이후에 사용해 봤는데 , 커서를 사용하는 건지 제미니 자체를 대면 건지 구별하기 어려울 정도로 놀라웠습니다. 당시 트위터에서도 농담과 칭찬이 뒤섞인 관련 이야기가 많이 나왔었죠. 정말 대단한 일이었습니다.
한편, 최근 새로 출시된 제미니 3.5 플래시 메모리에서 제가 매일 사용하는 코딩 프로젝트 몇 가지를 실행해 보았는데, 성능이 다소 떨어지는 것을 확인했습니다. 작년 크리스마스 때 경험했던 성능 격차를 완전히 해소하지는 못한 것 같습니다. 제 개인적인 고사양 작업에는 여전히 다소 부족하지만, 곧 질적인 변화가 있을 것으로 기대합니다.
광범위하고 다각적인 연구 접근 방식을 선택하면 의도치 않게 훌륭한 안전망을 구축하게 되어 미래 경쟁에서 뒤처지지 않게 됩니다. 하지만 그 대가로 앤트로픽의 코드 생성 성공 사례처럼 특정 신흥 분야에서 절대적인 '선발 주자 이점'을 확보하기는 어려울 수 있습니다. 작지만 헌신적이고 대담한 연구실들이 이러한 획기적인 발견을 이끌어내고, 고립되고 알려지지 않은 가능성을 견고한 기술적 길로 전환하는 모습을 보는 것은 정말 고무적입니다. 과학 발전은 바로 이런 방향으로 나아가야 합니다.
한때 OpenAI는 "위험 감수"라는 열정적이고 순수한 문화를 자랑했지만, 이제는 거대 기업으로 성장했습니다. 수억 명의 사용자의 일상적인 생산성을 지원하거나, 구글 검색처럼 수십억 명의 검색 쿼리를 처리하는 모델을 운영하는 경우, 시스템의 어떤 혼란이나 균형 상실도 심각한 결과를 초래할 수 있습니다. 물론 속도는 최대한 중요하지만, 급속한 발전 과정에서 기반 시설 전체가 파괴된다면 그 비용은 헤아릴 수 없을 것입니다. 따라서 이러한 선도 기업들이 빠르게 발전하는 동안에도 기반 인프라에 대한 경외심과 안정성을 유지하는 것이 전체 생태계에 가장 이로운 방향일 수 있습니다.
용기를 내어 마음속에 있는 가장 기발한 아이디어를 시험해 보세요.
진행자: 많은 사람들이 오픈소스와 클로즈드소스 대규모 모델 간의 격차에 대해 고민하고 있습니다. 우리는 서로 완전히 상반되는 두 가지 힘이 작용하는 것을 느끼는 것 같습니다. 한편으로는 모델 정제의 진입 장벽이 점점 낮아지고 있으며, 많은 개발자들이 클로즈드소스 모델의 강력한 결과물을 활용하여 오픈소스 모델을 개선하고 있습니다. 다른 한편으로는 가장 발전되고 방대한 슈퍼 모델은 운영 비용이 너무 높아 거대 기업조차도 직접 서비스를 제공할 수 없고, 내부적으로 대규모 모델에 대한 여러 정제 작업을 수행해야만 합니다.
당신의 직감으로는, 향후 몇 년 안에 오픈 소스와 클로즈드 소스 간의 기술적 격차가 해소될까요, 아니면 점점 더 극복하기 어려운 장벽으로 남을까요?
루카시 : 일반화하기는 어렵습니다. 현재로서는 모델 크기가 성능의 상한선을 결정하는 중요한 요소입니다. 물론 기능을 간소화하여 모델을 소형화할 수는 있지만, 간소화된 버전은 극한의 작업에서 기본 모델과 동일한 성능을 발휘하는 경우는 드뭅니다. 예를 들어, 가볍고 가성비가 좋다고 광고하는 플래시 버전과 기존의 프로 또는 소넷 버전 사이에는 성능 차이가 확연히 느껴집니다. 이러한 제품들은 종종 여러 제약을 감수하고 만든 간소화된 제품인 반면, 고급 사용자들은 제약 없는 최고급 버전을 기다려야 하는 경우가 많습니다. 같은 모델 제품군 내에서도 "미니" 시리즈를 사용해야 했던 적은 거의 기억나지 않습니다. 저렴하고 사용하기는 쉽지만, 일상적인 개발 과정에서 결국에는 아주 기본적인 오류가 발생하여 문제 해결과 디버깅에 많은 시간을 허비하게 되고, 결국에는 항상 가장 크고 비싼 플래그십 버전으로 돌아가게 됩니다.
클로즈드 소스 모델에서 배우고 그 안에 담긴 지혜를 추출하는 것은 분명히 가능합니다. 주요 클로즈드 소스 연구소들은 본능적으로 이러한 직접적인 추출을 꺼리지만, 그렇다고 해서 클로즈드 소스 모델을 완전히 없애버리지는 않을 것입니다. 만약 오픈 소스 모델이 미래에 붕괴되어 크게 뒤처지게 된다면, 이는 전체 산업에 재앙이 될 것입니다. 하지만 현재 오픈 소스 생태계를 전폭적으로 지원하는 강력한 상업 그룹과 개발자 단체들이 충분히 존재하기 때문에 이러한 최악의 시나리오는 발생할 가능성이 낮다고 생각합니다. 또한 전 세계 여러 국가의 우려도 이해합니다. 한 국가의 지방 자치 서비스나 핵심 병원 관리 시스템이 바다 건너 상업 회사의 클로즈드 소스 인터페이스에 크게 의존하게 된다면, 그 회사가 갑자기 도산하거나 접근을 제한할 경우 상상할 수 없는 결과를 초래할 것입니다. 이러한 이유로 "주권 모델"에 대한 강력한 요구가 생겨났습니다.
이러한 주권 모델들이 절대적인 권력 면에서 다소 뒤처지더라도, 일상적인 관리 작업 대면 최고 수준의 컴퓨팅 성능을 활용할 필요가 없습니다. 따라서 번성하는 오픈 소스 생태계의 근본적인 원동력은 장기적인 관점에 있습니다. 한편, 사용자들이 가장 배타적인 "황금 특권"에 기꺼이 비용을 지불하도록 유도하는 클로즈드 소스 연구소들은 끊임없이 선두 자리를 지켜나갈 것입니다. 이러한 상호 견제와 균형, 그리고 선순환 상승 의 흥미로운 역동성은 앞으로 오랫동안 업계의 주요 테마가 될 것입니다. 물론, 인공지능의 미래를 예측하는 것은 언제나 리스크 부담이 큰 일입니다.
진행자: 정말 통찰력 있는 말씀입니다. 지난 한 해 동안 인공지능 분야의 어떤 측면이 당신의 관점을 완전히 바꿔놓았나요?
루카시 : 솔직히 말해서, 이렇게 짧은 시간 안에 인간 비서에 필적하는 강력한 코드 생성 기능을 개발할 수 있을 거라고는 상상도 못 했습니다. 제 기존의 편견이 완전히 뒤집혔죠. 예전에는 업무에서 AI 비서를 거의 사용하지 않았습니다. 사람들이 ChatGPT 사용법을 물어보면 며칠에 한 번씩 간단한 질문만 하면 된다고 대답하곤 했습니다.
매일 컴퓨터 앞에 앉아 시간을 보내게 될 줄은 상상도 못 했습니다. 하지만 이제 컴퓨터는 제 뗄래야 뗄 수 없는 업무 파트너가 되었죠. 전통적인 코드 편집기를 완전히 버리게 될 줄도 몰랐습니다. 이제는 직접 코드를 입력하는 일이 거의 없습니다. 오히려 화면 뒤에 앉아 조수들에게 코드 수정을 지시하는 사령관 같은 역할을 하고 있죠. 제 연구 방식에 있어서 완전히 새로운 전환점입니다.
진행자: 지난 몇 년간 이러한 대규모 모델 개발에 깊이 관여해 오셨는데, 안전과 소위 "실존 리스크"에 대한 우려가 해마다 증가했습니까, 아니면 감소했습니까?
루카시 : 제 핵심 입장은 항상 상당히 확고했습니다. 저는 근거 없는 불안감에 사로잡혀 살 필요도 없고, 맹목적인 낙관에 빠질 권리도 없다고 굳게 믿습니다. 현재의 프로그래밍 개발 수준을 고려할 때, 우리가 진정으로 집중해야 할 것은 이미 우리 앞에 닥친 매우 현실적이고 시급한 보안 위협입니다. 예를 들어, 악의적인 공격자가 시스템을 이용하여 해킹 공격을 감행하거나 중요 기반 시설에 심각한 피해를 입힐 가능성 같은 것입니다.
저는 이것이야말로 우리가 시급히 함께 해결해야 할 진정한 핵심 과제라고 여전히 믿습니다. 그렇다고 해서 "존립의 리스크"을 무시할 수 있다는 뜻은 아닙니다. 오히려 수많은 전문가들이 이 문제를 연구하고 과학기술 발전을 위한 견고한 토대를 구축하기 위해 노력하고 있습니다.




