GPT-5는 언제 도착하나요? 멀티모달 AI는 세상을 어떻게 변화시키나요? OpenAI의 전 최고 연구 책임자인 Bob McGrew와의 인터뷰

12-19

이 기사는 기계로 번역되었습니다

원문 표시

모델의 느린 진행은 데이터 센터의 느린 구축으로 인해 발생하며 훈련 O1 해시레이트 GPT4보다 수백 배 더 높습니다.

최근 OpenAI의 최고 연구 책임자였던 Bob McGrew는 정보가 매우 풍부하고 유용한 정보로 가득 찬 Unsupervised Learning 채널과 심도 있는 대화를 나누었습니다. 전문을 읽어 보시기 바랍니다 .

Bob McGrew는 6년 반 동안 OpenAI에서 수석 과학자로 근무했으며 2023년에 회사를 떠났습니다.

이번 인터뷰에서 그는 사전 훈련된 모델의 발전, 멀티모달 AI의 혁신, 로봇 공학의 미래, AI 연구의 조직과 문화, AI가 미치는 영향 등을 다루면서 AI의 현재 상태와 미래에 대해 심도 있게 논의합니다. 사회에 관한 중요한 문제.

McGrew는 AI 분야가 앞으로 몇 년 안에 엄청난 변화를 겪을 것이라고 예측합니다. 해시레이트 경쟁은 더욱 뜨거워지고, 비디오 생성 모델과 로봇 공학은 폭발적인 성장을 보게 될 것이며, 다중 모드 AI는 우리의 삶을 근본적으로 변화시킬 것입니다.

McGrew는 GPT-5가 출시되려면 시간이 좀 걸리겠지만 AI 개발은 정체되지 않는다고 지적했습니다. OpenAI는 새로운 데이터 센터를 구축하지 않고도 해시레이트 높일 수 있는 '테스트 타임 컴퓨팅' 기술에 중점을 두고 있습니다. 이는 OpenAI가 비용을 크게 늘리지 않고도 AI 모델의 성능을 지속적으로 향상시켜 투자자들에게 지속적인 신뢰를 가져다 줄 것으로 기대된다는 것을 의미합니다.

McGrew는 또한 비디오 생성 모델이 향후 2년 내에 영화 제작에 혁명을 일으킬 것이라고 예측합니다. 그는 전적으로 AI가 제작한 수상작 영화가 곧 등장할 것이라고 믿습니다. 이는 의심할 여지 없이 영화와 TV 산업에 있어서 파괴적인 변화이며, 관련 분야의 투자자들에게 상상의 여지를 크게 열어줍니다.

또한 McGrew는 로봇 공학이 5년 안에 널리 사용될 것이라고 믿습니다. 소매점, 창고 등 업무 환경은 '로봇 혁명'을 가장 먼저 안내할 것이다. 이는 또한 온체인 기업이 전례 없는 개발 기회를 제공하게 될 것임을 의미합니다.

AI 물결 대면 McGrew는 AI 인재 양성에 주의를 기울일 것을 상기시킨다. 그는 수학, 프로그래밍, 글쓰기 능력이 미래 인재의 핵심 경쟁력이 될 것이며, 관련 교육 분야에 대한 투자도 넉넉한 수익을 얻을 것이라고 믿는다.

01 주요 내용은 다음과 같습니다

GPT-5는 언제 도착하나요? 테스트 중 컴퓨팅은 획기적인 발전을 가져올 것입니다.

많은 사람들은 GPT-4 출시 이후 대규모 언어 모델의 발전이 정체된 것 같다고 생각하지만, 실제로 내부인사 견해는 완전히 다릅니다. GPT와 같은 대규모 언어 모델을 개발하려면 새로운 데이터 센터 건설에 의존하는 대량 해시레이트 필요하며 이는 수년에 걸친 느린 프로세스입니다.

GPT-4에서 GPT-5로 전환하려면 해시레이트 100배 증가해야 하며 여기에는 시간이 걸립니다. GPT-5가 공식적으로 출시되기 전에 먼저 해시레이트 10배 향상된 전환 버전을 볼 수 있습니다.

현재 OpenAI의 초점은 "테스트 시 컴퓨팅"에 있습니다. 즉, 더 길고 일관된 사고 체인을 얻기 위해 모델에 의해 답변을 생성하는 과정에 더 많은 해시레이트 투자하는 것입니다. 예를 들어 OpenAI는 GPT-4를 0,1 모델로 확장하여 해시레이트 100배 향상시켰습니다.

"테스트 중 컴퓨팅"에는 새로운 데이터 센터 구축이 필요하지 않으므로 알고리즘 개선의 여지가 여전히 많습니다. 테스트 시 컴퓨팅은 향후 AI 분야에서 가장 흥미로운 발전 중 하나가 될 것입니다.

멀티모달 AI 혁신: Sora는 어떻게 비디오 세대 혁명을 이끌까요?

이미지와 같은 다른 형식과 달리 비디오는 시간이 지남에 따라 스토리가 어떻게 전개되는지 고려하기 위해 완전한 사용자 인터페이스가 필요한 확장된 이벤트 시퀀스입니다. 또한 비디오 모델은 훈련하고 실행하는 데 비용이 매우 많이 듭니다.

Sora는 스토리보드 기능을 통해 비디오 생성의 일부 문제를 해결하는 최초의 고품질 비디오 생성 모델입니다. 스토리보드 기능을 사용하면 사용자가 다양한 시점에 체크포인트를 배치하여 비디오 생성을 안내할 수 있습니다.

앞으로 비디오 모델은 더 나은 품질, 더 긴 생성 시간, 더 낮은 비용을 갖게 될 것입니다. LLM과 마찬가지로 믿을 수 없을 정도로 아름답고 사실적인 비디오를 볼 수 있으며 비용도 거의 들지 않습니다.

2년 안에 우리는 전적으로 AI로 제작된 수상작 영화를 보게 될 것으로 예상됩니다. 이 영화의 매력은 감독이 비디오 모델을 사용하여 창의적인 비전을 실현하고 촬영할 수 없었던 매체에서 작업을 수행하는 방법입니다.

로봇공학의 미래: 5년 안에 우리는 일상생활에서 로봇과 상호작용하게 될 것입니다.

비록 몇 가지 제한이 있기는 하지만 로봇 공학은 5년 안에 널리 사용될 것입니다. 기본 모델의 출현은 로봇 공학의 주요 혁신으로, 로봇이 빠르게 시작하고 중요한 방식으로 일반화할 수 있게 해줍니다.

실제 세계에서 로봇을 훈련시키는 것은 시뮬레이션 환경에 비해 장점이 있습니다. 시뮬레이터는 강체를 시뮬레이션하는 데 능숙하지만 현실 세계에서는 천이나 판지와 같은 부드러운 물체가 많으며 시뮬레이터는 이러한 물체를 잘 처리하지 못합니다.

진정한 다재다능함을 원하는 로봇의 경우 실제 세계에서의 훈련이 필수적입니다.

5년 안에 우리는 오늘날 이상하게 느껴지는 방식으로 일상생활에서 로봇과 상호작용하게 될 것으로 예상됩니다. 로봇은 소매점, 창고 및 기타 작업 환경에서 널리 사용될 것입니다.

OpenAI 문화: 기업가 정신과 협업의 융합

OpenAI의 문화는 협업과 목표 공유를 강조하는 스타트업 문화와 유사합니다. 그들은 올바른 방향에 대해 공통된 의견을 갖고 있으며 연구자들이 관심 있는 분야를 탐구할 수 있는 많은 자유를 제공합니다.

OpenAI의 문화는 협업을 장려하고 많은 논문을 출판하는 대신 사람들이 함께 협력하여 제품을 만들도록 보장합니다. 이는 개인의 명예와 경쟁을 중시하는 학계 문화와 극명한 대조를 이룬다.

AGI 소개

많은 사람들이 AI가 대량 실업으로 이어질 것이라고 걱정하지만 실제로 AI는 단일 작업만 자동화할 수 있습니다. 대부분의 작업에는 프로그래밍을 하더라도 자동화할 수 없는 일부 작업이 포함되어 있습니다.

AI의 발전은 계속될 것이고 흥미진진할 것이며 속도가 느려지지는 않겠지만 변화는 있을 것입니다. 우리는 지능이 사회에서 매우 부족한 요소인 세상에서 지능이 어디에나 있고 자유로운 세상으로 전환하고 있습니다.

지능이 더 이상 부족하지 않게 되면 선택의지는 생산의 희소요소가 될 것입니다. 에이전시는 올바른 질문을 하고 올바른 프로젝트를 추진하는 능력입니다. AI와 함께 일할 수 있도록 이 에이전시를 어떻게 발전시킬 것인지 고민해야 합니다.

미래는 계속될 것이며, AI의 발전은 점차 우리의 삶을 변화시킬 것입니다. 지출 재확인이나 비교 쇼핑 등 무한한 인내가 필요한 영역에 AI가 더 잘 할 수 있는 영역에 집중해야 합니다.

아이들이 AI 시대에 적응할 수 있도록 교육하는 방법은 무엇입니까?

AI가 빠르게 발전하고 있지만 우리 아이들의 교육 방식을 바꿔서는 안 됩니다. 우리는 여전히 수학, 프로그래밍, 글쓰기를 가르쳐야 합니다. 이러한 기술은 구조화된 방식으로 문제를 생각하는 데 도움이 되기 때문입니다.

미래는 예측할 수 없으며 AI가 실제로 어떻게 작동하는지 시간이 지남에 따라 신비롭게 밝혀질 것입니다. 우리는 아이들이 자신의 능력의 한계에 도전하고 회복력을 키우는 일을 시도하도록 격려해야 합니다.

02 인터뷰 전문

진행자 Jacob: Bob McGrew는 6년 반 동안 OpenAI에서 최고 연구 책임자로 근무했습니다. 그는 최근 몇 달 전에 자리를 떠났고 우리는 운이 좋게도 여기 비지도 학습 팟캐스트에서 그의 데뷔 팟캐스트 중 하나에 그를 초대할 수 있었습니다. 그래서 우리는 그에게 인공지능의 미래에 대해 모두 물어볼 기회를 가졌습니다. 우리는 모델이 병목 현상에 부딪혔는지 여부, 로봇 모델, 비디오 모델, 컴퓨터 사용 모델, 그리고 Bob이 구상한 미래 타임라인과 기능에 대해 논의했습니다. 우리는 OpenAI의 독특한 문화와 연구를 효과적으로 만드는 이유는 물론 몇 가지 주요 결정 사항과 이를 통과하는 과정에 대해 이야기했습니다. 우리는 AGI가 오늘날과 같은 느낌을 받을 수 있는 이유에 대해 논의하고 Bob이 OpenAI를 떠난 이유와 다음 단계를 공유합니다. 사람들이 이 에피소드를 정말 좋아할 것 같아요. 더 이상 고민하지 말고 여기 Bob이 있습니다. 밥님, 팟캐스트에 참여해주셔서 정말 감사합니다. 초대해 주셔서 감사드리며 이 대화를 기대합니다. 당신이 올 수 있어서 정말 기뻐요. 나는 우리가 매우 다양한 주제에 대해 이야기할 것이라는 것을 알고 있습니다. 지금 당장 모두가 가장 우려하고 있는 문제, 즉 모델 기능이 병목 현상에 도달했는지 여부에 대한 열띤 논쟁부터 시작하는 것이 좋을 것 같습니다. 이에 대한 귀하의 생각과 사전 훈련에 얼마나 많은 잠재력이 남아 있다고 생각하는지 듣고 싶습니다.

밥 맥그루: 글쎄요, 제 생각에는 이것이 아마도 외부 관찰자와 대규모 연구실 내부 사람들 사이에 가장 큰 차이가 존재하는 지점일 것입니다. 외부에서 보면 처음에는 ChatGPT 때문에 많은 사람들이 인공지능에 관심을 가지게 된 것 같아요. 그리고 6개월 후 GPT-4가 등장했습니다. 모든 것이 빠르게 가속화되고 진전이 이루어지고 있는 것처럼 느껴집니다. 하지만 GPT-4는 1년 반 전에 출시되었고, 그 전에도 훈련이 되었다는 것은 모두가 알고 있는 사실입니다. 이제 어떻게 되나요? 왜 새로운 건 나오지 않죠?

내부에서 보는 모습은 많이 다릅니다. 사람들은 데이터 병목 현상이 발생하고 있는지 궁금해하고 있습니다. 무슨 일이에요? 하지만 특히 사전 훈련을 통해 진전을 이루려면 계산 노력이 엄청나게 증가해야 한다는 점을 기억해야 합니다. GPT-2에서 GPT-3으로, 또는 GPT-3에서 GPT-4로, 유효 계산량이 100배 증가합니다. 이것이 바로 이 증분을 나타내는 것입니다. 부동 소수점 연산 수를 늘리고, 칩을 추가하고, 데이터 센터를 확장하고, 알고리즘을 개선하면 이를 수행할 수 있습니다. 알고리즘 개선으로 약간의 이득을 얻을 수 있습니다. 50%, 2배 또는 3배가 좋을 것입니다. 하지만 기본적으로 새로운 데이터센터가 구축될 때까지 기다려야 합니다.

새로운 데이터 센터가 건설되는 데에는 부족함이 없습니다. 항상 헤드라인을 장식하지는 않더라도 Meta, X 등과 같은 최첨단 연구소가 새로운 데이터 센터를 구축하고 있다는 사실을 보려면 뉴스만 보면 됩니다. 그러나 근본적으로 이는 수년이 걸리는 매우 느린 과정입니다. 실제로 GPT-4에서 GPT-5로의 완전한 세대 전환이 나타날 때까지 10배만 개선되는 것을 보게 될 것입니다. 사람들은 우리가 GPT-3에서 GPT-3.5, GPT-4로 바뀌었다는 사실을 종종 잊어버립니다.

이제 흥미로운 점은 사전 훈련이 진행되고 있다는 것입니다. 다음 모델이 언제 출시될지는 지켜봐야 할 것 같습니다. O1과 같은 것을 보면 강화 학습을 사용하여 진전을 이룰 수 있었습니다. 다양한 지표에 따르면 O1은 GPT-4보다 100배 더 많은 계산 노력을 나타냅니다. GPT-5 대신 O1로 명명하기로 결정했기 때문에 일부 사람들은 이를 깨닫지 못할 수도 있습니다. 그러나 실제로 이것은 차세대 모델입니다.

차세대 가상 GPT-4.5가 훈련될 때 흥미로운 질문은 이 사전 훈련 진행 상황이 강화 학습 프로세스와 어떻게 비교되는지입니다. 어떤 소식이 나올지 지켜봐야 할 것 같습니다.

Jordan, 진행자: 2025년까지 수년간의 과정을 고려할 때 내년에도 인공 지능이 작년만큼 많이 발전할 것이라고 생각하시나요, 아니면 상황이 둔화되기 시작할 것이라고 생각하시나요?

밥 맥그루: 글쎄요, 진전이 있을 것 같아요. 나는 그것이 다른 진행이 될 것이라고 생각합니다. 한 가지 점은 다음 세대로 넘어가면 항상 이전 세대에서는 볼 수 없었던 문제에 직면하게 된다는 것입니다. 따라서 데이터센터가 구축되더라도 사람들이 문제를 해결하고 모델 훈련을 완료하는 데에는 시간이 걸릴 것입니다.

우리가 O1을 훈련하는 데 사용한 강화 학습 프로세스는 OpenAI가 O1을 훈련하는 데 사용한 것과 동일한 프로세스로 더 길고 일관된 사고 체인을 만들어 더 많은 계산을 답변에 효과적으로 통합했습니다. 따라서 한 모델이 답변을 생성하는 데 몇 초가 걸리고 다른 모델이 답변을 생성하는 데 몇 시간이 걸린다면 실제로 이를 활용할 수 있다면 계산 노력이 10,000배가 됩니다. 그렇죠?

솔직히 말해서 저희는 2020년쯤부터 테스트 시간 계산을 어떻게 활용할까 고민을 해왔습니다. 결국 이것이 어떻게 하면 좋을지, 즉 컴퓨팅 자원을 대량 낭비하지 않고 어떻게 하면 되는지에 대한 실제 답은 이것이라고 생각합니다. 이것의 이점은 새로운 데이터 센터가 필요하지 않다는 것입니다. 여기서는 이제 막 시작한 신기술이기 때문에 개선의 여지가 많고, 알고리즘을 개선할 수 있는 기회도 많습니다.

이론적으로 O1을 GPT-4가 몇 초 안에 할 수 있는 일에서 O1이 생각하는 데 30초 또는 1분 또는 몇 분이 걸리는 일로 바꾸는 데 사용된 것과 동일한 기본 원칙과 아이디어가 있다고 말할 이유가 없습니다. 몇 시간 또는 며칠로 연장할 수 없습니다. GPT-3에서 GPT-4로 가는 것과 마찬가지로 기본 신기술은 없습니다. 둘 다 거의 동일한 방식으로 훈련되지만 확장은 매우 어렵습니다.

이것이 바로 질문의 핵심입니다. 실제로 확장할 수 있습니까? 나는 이것이 우리가 보게 될 발전의 유형이 될 것이며 가장 흥미로운 일이 될 것이라고 생각합니다.

호스트 Jacob: 네, 2025년에요. 테스트 시간 계산과 O1의 현재 사용에 초점을 맞춘다면 사람들이 실제로 이러한 모델을 어떻게 사용할지 생각해 보는 것이 정말 흥미로울 것 같습니다. 최근에 특정 모델의 기능을 잠금 해제하려면 이러한 새로운 폼 팩터가 필요하다는 흥미로운 내용을 트윗하신 것 같습니다. 그래서 아마도 그것을 조금 확장할 수도 있습니다. 예를 들어, 이러한 모델을 사용하여 흥미를 느낀 초기 제품 폼 팩터를 본 적이 있습니까?

밥 맥그루: 음, 그렇죠. 이 문제를 설명하기 위해 챗봇이 한동안 등장했습니다. 오늘날 사람들이 챗봇과 나누는 대부분의 상호 작용에 대해 GPT-4 수준 모델은 이러한 작업을 잘 수행합니다. ChatGPT에 물어보면 로마 제4대 황제가 누구였나요? 아니면 바스마티 쌀을 어떻게 데우나요? 일상 대화의 대부분은 잘 처리됩니다.

우리가 O1의 프리뷰를 공개하려고 생각했을 때 사람들이 그것을 사용할 것인지, 그것과 관련된 것을 찾을 것인지에 대한 많은 질문이 있었습니다. 나는 이것이 올바른 질문이라고 생각합니다. 모델에서 실제로 가치를 얻으려면 모델로 무엇을 해야 하는지 이해하는 것이 중요합니다. 프로그래밍은 장기간에 걸쳐 진행을 시도하는 구조화된 문제를 제기하고 추론 기술을 크게 활용하기 때문에 이에 대한 좋은 사용 사례입니다.

또 다른 예는 정책 개요를 작성하는 경우입니다. 이 경우 의미 있고 응집력이 있는 긴 문서를 작성해야 합니다. 사실 프로그래머는 많지만 대부분의 비프로그래머가 그러한 작업을 매일 해결할 필요는 없습니다. 그러나 여기서 잠재적인 돌파구로 돌아가서 문제 해결에 대한 일관된 사고 체인과 구조화된 접근 방식을 갖는 것이 중요합니다.

이 프로세스에는 문제에 대해 생각하는 것 이상이 포함되며, 조치를 취하고 실행 계획을 개발하는 것도 포함될 수 있습니다. O1과 같은 모델에 대해 제가 가장 기대하는 점은(그리고 곧 다른 실험실에서도 유사한 모델이 나올 것이라고 확신합니다) 이를 사용하여 본질적으로 프록시 역할을 하는 장기적인 조치를 달성한다는 것입니다. "에이전시"라는 용어가 남용되어 우리가 달성하려는 목표를 명확하게 전달하지 못한다고 생각하지만, 내 인생에는 모델이 나를 위해 무언가를 예약하고, 쇼핑하고, 쇼핑을 해주기를 원하는 많은 작업이 있습니다. 문제를 해결하기 위해 전 세계와 상호 작용하는 방법이 포함된 방식으로요.

저는 이것이 바로 제품 형태를 다루어야 하는 부분이라고 생각합니다. 그것이 무엇인지, 그리고 어떻게 효과적으로 배포할 수 있는지를 이해하는 것입니다. 현재로서는 아직 누구도 이것을 알아낸 사람이 없다고 생각합니다.

진행자 Jacob: 정말 흥미롭네요. 내 말은, 그것은 완전히 의미가 있습니다. 제 생각에는 모든 사람이 이러한 에이전트가 무엇을 할 수 있는지, 사람과 기업을 위해 어떤 문제를 해결할 수 있는지에 대해 많은 상상력을 가질 것이라고 생각합니다. 그렇다면 오늘날 이를 실현하는 데 가장 큰 장애물은 무엇입니까? 분명히 Anthropic이 발표한 컴퓨터 사용 모델과 같은 초기 모델 중 일부를 보셨을 것입니다. 다른 연구실에서도 이에 대해 작업하고 있다고 확신합니다. 하지만 우리의 목표 달성을 방해하는 요인이 무엇인지 생각해 보면 여전히 해결해야 할 과제는 무엇입니까?

밥 맥그루: 네, 질문이 많아요. 가장 시급한 문제는 신뢰성이라고 생각합니다. 그러니까, 내가 뭔가를 해달라고 요구한다면 그 행동은 제쳐두자구요, 그렇죠? 단지 나를 위해 생각하거나 코드를 작성하기 위한 것일지라도 에이전트에게 나를 대신하여 작업을 수행하도록 요청하고 작업을 수행하기 위해 5분 또는 1시간 동안 자리를 비워야 하는 경우, 작업이 중단되어 실수로, 내가 돌아올 때쯤에는 어떻게 될까요? 둘 중 하나도 하지 않으면 그냥 한 시간을 낭비한 셈이 됩니다. 이것은 큰 문제입니다.

이제 이 에이전트가 실제 세계에서 작업을 수행할 것이라는 사실을 여기에 추가하세요. 어쩌면 나를 위해 뭔가를 사주는 것일 수도 있습니다. 아마도 PR 릴리스를 제출하는 것일 수도 있습니다. 어쩌면 나를 대신해 메모, 이메일, Slack 메시지를 보내는 것일 수도 있습니다. 제대로 이루어지지 않으면 그에 따른 결과가 따르게 됩니다. 나는 적어도 부끄러워할 것이고 아마도 돈을 잃을 수도 있을 것입니다. 따라서 신뢰성이 그 어느 때보다 중요해졌습니다.

신뢰성에 대해 생각할 때 경험에 근거한 법칙이 있다고 생각합니다. 즉, 90% 신뢰성에서 99% 신뢰성으로 올라가면 계산 노력이 아마도 몇 배나 증가할 것입니다. 이는 10배 향상된 것입니다. 99% 신뢰도에서 99.9% 신뢰도로 향상하려면 또 다른 규모의 개선이 필요합니다. 따라서 "9"가 추가될 때마다 모델 성능이 크게 향상되어야 합니다. 이 10배의 개선은 매우 중요하며 1~2년의 노력을 의미합니다.

그래서 저는 그것이 우리가 직면해야 할 첫 번째 질문이라고 생각합니다. 두 번째 흥미로운 질문은 지금까지 우리가 이야기한 모든 것이 소비자를 위한 것이었습니다. 그렇죠? 당신은 기업에 소속되어 있지 않습니다. 그러나 작업을 수행하는 상담원에 대해 이야기할 때 우리 중 많은 사람들에게 그것은 직장에서 하는 일, 즉 기업에 내장된 일이 될 것입니다. 나는 그것이 다른 많은 고려 사항을 가져온다고 생각합니다.

호스트 조던: 흥미롭네요. 오늘날 기업에서 우리가 보고 있는 것은 현재 이러한 기술을 기업에 배포하는 데 많은 인력이 필요하기 때문에 많은 컨설팅 회사가 실제로 좋은 일을 하고 있다는 것입니다. 이런 실무적인 지도와 기업의 도움이 필요한 상황이 한동안 계속될 것이라고 생각하시나요? 아니면 앞으로 기업이 이러한 대규모 언어 모델을 매우 쉽게 배포할 수 있어 사용이 더 쉬워질 것이라고 생각하십니까?

밥 맥그루: 네, 정말 흥미로운 질문인 것 같아요. 그리고 구축을 시작하더라도 기업에 대규모 언어 모델을 배포하는 데 문제가 무엇입니까? 글쎄, 그것이 당신을 위해 작업을 자동화하거나 당신의 일을 수행하려면 아마도 컨텍스트가 필요할 것입니다. 왜냐하면 소비자 공간에는 맥락이 많지 않기 때문입니다. 알았어, 너는 빨간색을 좋아하는구나. 흥미롭지 않습니다.

진행자 Jacob: 빨간색을 예로 들어주셔서 감사합니다(팟캐스트 이름은 RedPoint입니다).

Bob McGrew: 하지만 사업 분야에서 당신의 동료는 누구입니까? 어떤 프로젝트를 진행하고 있나요? 당신의 코드 베이스는 무엇입니까? 사람들은 무엇을 시도했습니까? 사람들은 무엇을 좋아하고 싫어합니까? 이 모든 정보는 기업 내의 환경으로 존재합니다. Slack에 있습니다. 귀하의 문서에 있습니다. 어쩌면 Figma 같은 곳에 있을 수도 있습니다. 그렇다면 어떻게 접근할 수 있나요?

글쎄, 당신은 일회성 무언가를 스스로 만들어야합니다. 나는 사람들이 이러한 커넥터의 라이브러리를 구축할 수 있는 방법이 분명히 있다고 생각하며, 그런 다음 들어와서 그렇게 할 수 있습니다. 이는 Palantir가 해결하는 근본적인 문제가 기업 전체의 데이터를 통합하는 Palantir에서 하는 일과 매우 유사합니다. 이것이 Palantir의 AIP와 같은 인공지능 플랫폼이 흥미로운 이유 중 하나라고 생각합니다. 그래서 저는 이것이 첫 번째 길이라고 생각합니다. 여러분은 이러한 것들을 위한 라이브러리를 구축하는 것입니다. 이를 기반으로 전체 플랫폼을 구축할 수 있습니다.

또 다른 것은 컴퓨터를 사용할 수 있는 기회입니다. 이제 매우 구체적이고 잠재적으로 사용자 정의된 방식으로 작업을 수행하는 대신 모든 작업에 사용할 수 있는 하나의 도구를 갖게 되었습니다. Anthropic이 이를 발표했습니다. 정말 흥미롭습니다. Anthropic에서는 2020년에 OpenAI를 떠나기 전에 이러한 컴퓨터가 사용하는 에이전트에 대해 이미 이야기하고 있었고 Google DeepMind는 이에 대한 논문을 발표했습니다. 모든 연구실에서는 이 문제에 대해 생각해 왔고 이를 해결하기 위해 노력하고 있습니다.

에이전트를 사용하는 컴퓨터와 이러한 프로그래밍 방식 API 통합의 차이점은 마우스와 키보드를 제어하기 때문에 이제 수행하는 작업에 더 많은 단계가 포함된다는 것입니다. 이러한 프로그래밍 방식 통합을 사용하는 데 필요한 토큰 수가 10배 또는 심지어 100배 필요할 수도 있습니다.

이제 우리는 무엇으로 돌아가나요? 오랜 기간에 걸쳐 일관되게 문제를 해결할 수 있는 매우 길고 일관된 사고 체인을 갖춘 모델이 필요하며, 이것이 바로 O1이 해결하는 문제입니다. 이 문제를 해결하는 다른 방법이 있다고 확신합니다. 하지만 저는 이것이 앞으로 몇 년 안에 우리가 보게 될 획기적인 발전이 될 것이라고 생각합니다.

진행자 Jacob: 내년에요. 결국 어떻게 될 것이라고 생각하시나요? 왜냐하면 한편으로는 어떤 맥락에서든 사용할 수 있는 보편적인 모델이 매력적이라고 생각하기 때문입니다. 99.999%의 신뢰도를 달성하는 것은 어려울 수도 있다고 생각합니다. 그리고 다양한 지점에서 잘못될 수 있는 단계가 많이 있습니다. 이것이 어떻게 작동하는지에 대한 또 다른 관점 기본 응용 프로그램 API가 어떤 방식으로든 열리면 이러한 문제 중 일부가 단순화될 수 있다고 확신한다는 것입니다. 아니면 다른 방법으로 Salesforce를 사용하기 위한 특정 모델이나 제가 모르는 특정 도구를 제공할 수도 있습니다. 기본 경험에 액세스할 수 있다면 통합은 결국 큰 이점이 됩니다. 이렇게 하면 컴퓨터가 화면에서 작업을 수행하는 것을 가만히 앉아 지켜보는 대신 순식간에 작업을 완료할 수 있습니다.

Bob McGrew: 예, 내 말은, 이러한 접근 방식이 혼합되어 있음을 분명히 보게 될 것이라고 생각합니다. 그 중 일부는 이러한 통합을 사용하고 일부는 컴퓨터 사용이 대안이 되며 다음과 같은 경우에 사용할 수 있습니다. 관습이 없어요. 그러면 사람들이 무엇을 사용하는지 확인하고 그것이 효과가 있다면 더 자세한 통합을 생각해 낼 수 있을 것입니다.

기술적으로 말하면 Salesforce 관련 컴퓨터 사용 에이전트를 보시는 측면에서 볼 때 귀하가 근본적으로 데이터를 활용하고 있다고 생각하기 때문에 이는 제게는 별로 이해가 되지 않는 것 같습니다. 누군가 나가서 Salesforce 사용 방법에 대한 대량 데이터 세트를 수집했습니다.

이 데이터를 넣을 수 있습니다. Salesforce가 이러한 데이터 세트를 Anthropic, OpenAI 및 Google과 공유하는 것이 도움이 될 것입니다. 그들은 자신의 모델을 훈련합니다. 나는 모든 애플리케이션 제공자가 이것이 공개되고 모든 기본 모델의 일부가 되기를 원할 것이라고 생각합니다. 그래서 저는 이런 방식으로 전용 모델을 가질 이유가 없다고 생각합니다.

진행자 Jacob: 아니요. 경쟁이 매우 치열하고 경쟁업체가 데이터를 노출하고 해당 제품의 사용이 더 쉬워지고 있을 때 귀하는 분명히 귀하의 제품이 이와 같기를 원하기 때문에 이는 정말 매력적인 관점 입니다.

Bob McGrew: 네, 대규모 언어 모델에 데이터를 채우는 사람들의 생태계가 왜 없는지 저에게는 약간 미스터리입니다. 이는 실제로 Google의 SEO와 동일합니다.

진행자 Jacob: 정말 흥미로운 관점 네요. 컴퓨터 사용이 널리 확산되는 시대는 얼마나 멀다고 생각하시나요?

Bob McGrew: 음, 내 말은, 이런 것들에 대한 좋은 경험 법칙이 있다고 생각합니다. 즉, 데모를 볼 때 매우 매력적이지만 아직은 그다지 유용하지 않다는 것입니다. 사용하는 것이 고통스러울 것입니다. 그리고 1년만 투자하면 10배는 좋아질 것입니다. 더욱이, 이러한 개선은 대수적으로 선형적으로 증가합니다. 그러니까 10배는 더 나아졌죠. 단지 한 단계만 개선된 것뿐입니다. 그러나 개선 수준은 매우 놀랍습니다. 제한된 사용 사례에서 사용되는 것을 보게 될 것입니다. 그런 다음 2년을 주세요. 그때까지는 놀라울 정도로 잘 작동하지만 매번 의지할 수는 없습니다. 이것이 바로 우리가 챗봇으로 하는 일입니다. 여전히 환각에 대해 걱정해야 합니다. 글쎄, 채택 문제는 실제로 필요한 신뢰성 수준에 따라 달라집니다. 오류를 허용할 수 있는 모든 필드는 그렇지 않은 필드보다 더 빠르게 자동화됩니다.

진행자 Jacob: Jordan의 원래 질문으로 돌아가고 싶습니다. 기본적으로 현재 올바른 데이터에 통합하고 맞춤형 보호 장치 및 워크플로를 정의하려면 대량 지원이 필요합니다. 이는 전적으로 타당합니다. 그렇다면 "훌륭한 컴퓨터 사용 모델이군요. 회사는 이제 사인온할 준비가 되었습니다." 사이에는 어떤 종류의 중간 계층이 존재할까요? 이 중간층은 어떤 모습일까요?

Bob McGrew: 내 생각엔 스타트업이 이를 정의해야 한다고 생각해요. 아시다시피, 우리는 아직 이에 대한 답을 잘 모르는 것 같습니다. 컴퓨터 사용과 같은 일반적인 도구를 사용할 때 볼 수 있는 흥미로운 현상은 그것이 해결하는 문제가 프랙탈적이며 많은 문제를 해결할 수 있다는 것입니다. 그런데 정말 중요한 문제가 보이면 그 문제를 제대로 해결할 수 없습니다. 그러면 여러분은 이렇게 말합니다. 이제 우리는 이에 대해 매우 구체적인 조치를 취할 것이며 아마도 이에 대해 프로그래밍 방식으로 접근할 것입니다. 그래서 우리는 일정 기간 동안 다양한 접근법을 보게 될 것이라고 생각합니다.

진행자 조던: 궁금합니다. 당신은 확실히 연구 분야에서 일해왔고 정말 최첨단 연구를 담당하고 계시네요. 우리는 테스트 시간 계산에 대해 조금 이야기했습니다. 그 밖에 특별히 관심이 있는 분야는 무엇인가요?

Bob McGrew: 음, 사전 훈련에 대해 이야기한 것 같습니다. 우리는 이미 테스트 시간 계산에 대해 이야기했습니다. 또 다른 정말 흥미로운 점은 다중 양식입니다. 다중 양식을 위한 중요한 날입니다. 네, 오늘 소라가 출시되었습니다. 사실, 이것이 이 긴 여정의 정점에 해당합니다. 대규모 언어 모델은 2018년에 발명되었다고 가정합니다. 분명히 Transformers와 동일한 기술 중 일부를 적용하여 다른 양식에 적용할 수 있습니다. 따라서 비전이 포함되어 있고 이미지 출력, 오디오 입력 및 오디오 출력이 있습니다.

우선 이런 것들은 DALLE나 Whisper 같은 보조모델로 시작됐어요. 마지막으로 기본 모델에 통합됩니다. 이러한 접근 방식에 오랫동안 저항해 온 양식 중 하나는 비디오입니다. 저는 Sora가 이를 가장 먼저 시연했다고 생각합니다. Runway와 같은 다른 회사와 몇몇 다른 모델이 뒤따랐습니다. 이제 Sora 자체가 출시되었습니다. 저는 다른 형식에 비해 비디오에는 정말 흥미롭고 다른 두 가지 점이 있다고 생각합니다.

이미지를 생성할 때 실제로는 프롬프트에서 이미지를 생성하고 싶을 수도 있습니다. 어쩌면 몇 번 시도해 볼 수도 있습니다. 전문 그래픽 디자이너라면 이 이미지의 일부 세부정보를 편집할 수 있습니다. 하지만 솔직히 우리 중 누구도 그렇지 않습니다. 여기에는 많은 용도가 있습니다. 슬라이드가 필요합니까? 트윗이나 프레젠테이션에 사용할 이미지를 원하시나요? 이는 매우 간단한 과정입니다.

하지만 영상을 보면 와우. 내 말은, 그것은 확장된 일련의 사건이라는 것입니다. 프롬프트가 아닙니다. 이제 실제로 완전한 사용자 인터페이스가 필요합니다. 시간이 지나면서 어떻게 스토리를 전개할지 고민해야 합니다. 나는 이것이 Sora 릴리스에서 우리가 보게 될 것 중 하나라고 생각합니다. Sora는 이에 대해 생각하는 데 더 많은 시간을 보냅니다. 제품 팀은 다른 플랫폼보다 이에 더 많은 노력을 기울입니다.

고려해야 할 또 다른 사항은 비디오가 매우 비싸다는 것입니다. 이러한 모델을 훈련하는 데는 비용이 많이 들고, 이러한 모델을 실행하는 데에도 비용이 많이 듭니다. 그래서 소라 수준의 영상을 보는 것도 재미있지만(제 생각엔 소라의 화질이 정말 더 낫다고 생각합니다) 최소한 짧은 영상만 시청한다면 좀 더 주의를 기울여 더 좋은 품질인지 확인해야 합니다.

이제 Plus 계정이 있는 사람이라면 누구나 Sora를 사용할 수 있습니다. OpenAI는 무제한 Sora 느린 생성을 포함하는 월 $200 Pro 계정을 출시했습니다. 이 수준의 품질과 유통이 이루어지면 두 가지 어려운 문제가 해결됩니다. 이는 다른 경쟁업체가 따라잡기 어려운 높은 기준점이 될 것입니다.

진행자 Jacob: 향후 몇 년 동안 비디오 모델의 개발은 어떤 모습일까요? 내 말은, 분명히 대규모 언어 모델 공간에서 우리는 엄청난 발전을 보았습니다. 작년 모델이 이제 10배 더 저렴하고 훨씬 더 빠른 것처럼 느껴집니다. 비디오에도 비슷한 개선이 있을 것이라고 생각하시나요?

Bob McGrew: 사실 제 생각에는 그 비유가 매우 간단하다고 생각합니다. 그래서 지금의 영상 모델과 2년 후의 영상 모델의 차이를 생각해보면 우선 품질이 좋아질 것 같아요. 이제 순간적인 품질이 매우 좋습니다. 반사를 볼 수 있습니다. 해결하기 어려운 모든 퍼즐을 공유하면 '아, 거기에 반영이 완료되었습니다'라고 지적할 수 있습니다. 연기가 좀 나네요. 아시다시피, 어려운 것은 확장, 일관성 있는 생성입니다.

따라서 SOAR 제품 팀에는 빌드 안내에 도움이 되도록 5초마다 또는 10초마다 등 다양한 지점에 체크포인트를 설정할 수 있는 스토리보드 기능이 있습니다. 기본적으로 몇 초 분량의 동영상을 한 시간 분량의 동영상으로 바꾸고 싶다면 이는 매우 어려운 문제입니다. 나는 이것이 차세대 모델에서 볼 수 있는 것이라고 생각합니다.

반면에 또 다른 비유는 실제로 대규모 언어 모델과 매우 유사할 것이라고 생각합니다. GPT-3 품질 토큰을 원한다면 GPT-3가 처음 나왔을 때보다 100배 저렴합니다. 놀라울 정도로 아름답고 사실적인 비디오를 볼 수 있는 Sora에서도 마찬가지이며, 비용도 거의 들지 않습니다.

진행자 Jacob: 제 생각에는 인공지능이 제작한 장편 영화를 내는 것, 상을 받는 것, 뻔뻔한 팟캐스트 질문을 사용하는 것, 그런 영화를 언제쯤 만들 수 있다고 생각하시나요? 이것?

밥 맥그루: 추측만 할 수 있어요. 맙소사. 예. 솔직히 말해서 상을 받기 위한 기준이 너무 낮죠? 시상식이 많은 것 같아요. 정말, 이 영화가 정말 보고 싶은 영화인가요? 예. 2년 뒤에나 볼 것 같은 느낌이 들지만, 사실 방금 말한 것보다는 덜 인상적일 겁니다. 왜냐하면 보고 싶은 이유는 영상 자체 때문이 아니라, 그런 감독님이 계셨기 때문입니다. 창의적인 비전을 실현하고 비디오 모형을 사용하여 창의적인 비전을 실현했습니다. 나는 그들이 사진을 찍을 수 없는 일을 이 매체로 할 수 있기 때문에 그렇게 한다고 생각합니다. 우리는 그것을 상상할 수 있습니다. 여기 있는 우리 중 누구도 감독은 아니지만 우리 모두는 가능성을 상상할 수 있습니다. 우리는 그래픽 디자이너도 아니고 감독도 아니지만 그렇습니다. 그게 미래입니다.

진행자 조던: 그렇군요. 예, 여기에는 매우 구체적인 기술이 있습니다. 예, 우리는 AI의 Pixar가 되려고 노력하는 많은 회사를 보고 있습니다. 우리는 항상 이것이 실제로 실현 가능한 때가 언제인지 질문합니다. 그래서 적어도 우리가 예상했던 것보다 훨씬 빨리 이루어질 것 같습니다.

밥 맥그루: 그건 내 추측이에요. 일단 시연할 수 있는 단계에 이르면 일이 매우 빠르게 진행됩니다. 그 전에는 진행이 매우 느렸거나 적어도 눈에 보이지 않았습니다.

진행자 조던: 저는 비디오에서 로봇으로 전환하고 싶습니다. OpenAI에 처음 오셨을 때 로봇공학을 많이 공부하셨는데요. 우리는 현장에 대한 귀하의 생각과 현재 우리가 어디에 있는지, 그리고 앞으로 어디로 갈 것이라고 생각하는지 듣고 싶습니다.

밥 맥그루: 이것은 참으로 매우 개인적인 질문입니다. 내가 Palantir를 떠났을 때 내 생각 중 하나는 봇이 누군가의 웹 사이트에 있는 버튼이 아니라 딥 러닝이 현실화되는 영역이 될 것이라는 생각이었습니다. 그래서 저는 Palantir와 OpenAI 사이에서 로봇 공학에 대해 더 많이 배우고 딥 러닝을 사용하여 비전에 대한 초기 코드를 작성하는 데 1년을 보냈습니다. 이것은 매우 어려운 영역입니다. 당시 저는 앞으로 5년이 더 걸릴 것이라고 생각했는데, 그게 2015년이었는데, 그건 완전히 틀렸습니다. 하지만, 지금이 적절한 때라고 생각합니다. 나는 비록 몇 가지 제한이 있기는 하지만 로봇 공학이 5년 안에 널리 사용될 것이라고 믿습니다. 그래서 지금이 로봇 회사를 시작하기에 좋은 시기라고 생각합니다.

매우 분명한 관점 은 기본 모델이 로봇을 신속하게 가동하고 실행하는 데 큰 혁신을 이루어 중요한 방식으로 일반화할 수 있다는 것입니다. 여기에는 몇 가지 다른 측면이 있습니다. 더 분명한 것은 비전을 사용하고 비전을 기본 모델이 제공하는 실행 계획으로 변환하는 능력입니다. 약간 덜 명확하고 아마도 더 흥미로운 측면은 전체 생태계가 발전했다는 것입니다. 이제 저는 OpenAI를 떠났고 창립자들과 시간을 보냈으며 일부 봇 창립자들과 이야기를 나누었습니다. 한 봇 창립자는 실제로 대화를 할 수 있도록 봇을 설정했다고 말했습니다. 이것은 정말 멋지고 훨씬 쉽습니다. 로봇에게 무엇을 해야 할지 지시하면 로봇이 이해할 것입니다. 일부 특수 모델을 사용하여 작업을 수행합니다. 이전에는 원하는 것을 쓰는 것이 번거롭고 로봇을 보는 대신 컴퓨터 앞에 앉아야 했습니다. 이제 얘기만 하면 됩니다.

우리가 아직 이해하지 못하는 결과의 주요 차이점 중 하나는 시뮬레이션에서 학습하는지 아니면 실제 세계에서 학습하는지 여부라고 생각합니다. 지난 2년 동안 로봇공학 분야에서 우리가 기여한 주요 성과는 시뮬레이터에서 훈련하고 이를 현실 세계에 일반화할 수 있다는 점을 보여준 것입니다. 에뮬레이터를 사용하는 데에는 여러 가지 이유가 있습니다. 예를 들어 프로덕션 시스템이나 실제 환경에서 실행하는 것은 번거롭습니다. 무료 테스트 등을 받을 수 있습니다. 그러나 시뮬레이터는 강체를 시뮬레이션하는 데 능숙합니다. 단단한 물체를 선택하여 배치하는 작업을 수행하는 경우 유용합니다. 그러나 세상의 많은 것들은 부드러운 물체입니다. 직물을 다루어야 하고, 창고를 고려한다면 판지도 다루어야 합니다. 불행하게도 에뮬레이터는 이러한 시나리오를 특별히 효과적으로 처리하지 못합니다. 따라서 진정으로 보편적이기를 원하는 모든 일에 대해 지금 당장 할 수 있는 유일한 방법은 실제 데모를 사용하는 것입니다. 최근에 등장한 일부 연구에서 볼 수 있듯이 이는 실제로 유망한 결과를 낳을 수 있습니다.

진행자 Jacob: 효과가 매우 좋습니다. 그리고 내 생각에 이것은 분명히 다소 불가지론적이라고 생각합니다. 예를 들어 사람들이 로봇 공학의 확장 법칙과 사람들이 원격으로 작동하는 데 필요한 데이터의 양을 발견하면 우리가 그것에 꽤 가깝다고 느낄 수 있습니다. 닫다? 아니면, 분명히 2015년에는 5년 후라고 생각하셨을 겁니다. 사람들이 로봇 공학이 ChatGPT와 같다고 말하고 사람들이 아, 그거 정말 멋지고, 모양도 다르고 작동한다고 말하는 순간이 얼마나 가까이 왔다고 생각하시나요?

Bob McGrew: 예측, 특히 로봇 공학에 대한 예측에 관해서는 이 영역에 대해 정말로 생각해야 합니다. 그래서 저는 로봇 공학의 대량 소비자 채택에 대해 매우 비관적입니다. 왜냐하면 집에 로봇을 두는 것이 무섭기 때문입니다. 로봇 팔은 치명적이다. 그들은 당신을 죽일 수 있고, 더 중요한 것은 당신의 아이들을 죽일 수도 있다는 것입니다. 그리고 아시다시피 이러한 단점은 없지만 다른 단점이 있는 다양한 종류의 로봇 팔을 사용할 수 있습니다. 집은 매우 자유로운 곳입니다.

하지만 다양한 형태의 소매점이나 기타 작업 환경에서는 5년 안에 이를 보게 될 것이라고 생각합니다. Amazon 창고에 가면 이런 일이 일어나는 것을 볼 수 있습니다. 이미 이동성 문제를 해결하는 로봇이 있습니다. 아시다시피 그들은 물건을 집는 작업을 하고 있습니다. 창고 환경에서 대량 로봇이 출시되는 것을 보게 될 것입니다.

그런 다음 일정 기간 동안 부문별로 도메인별로 단계적으로 도입될 것입니다. 언제 집에 들어갈지 예측할 수는 없지만 널리 사용되는 것을 보게 될 것이라고 생각합니다. 5년 안에 우리는 오늘날 이상하게 느껴지는 방식으로 일상생활에서 그들과 상호작용하게 될 것이라고 생각합니다.

Jacob: 내 말은, 분명히 이미 몇몇 독립 로봇 회사가 있다는 것입니다. 어느 정도 로봇 공학은 LLM의 근본적인 발전을 활용합니다. 궁금해요. 이 모든 것이 합쳐질까요? 분명히 일부 회사는 비디오 모델만 수행합니다. 일부 회사는 생물학, 재료 과학에 중점을 둡니다. 장기적인 방향을 생각해보면 이 모든 것을 포괄하는 하나의 거대한 모델이 있을까요?

Bob McGrew: 최첨단 모델 규모에서는 이들 회사가 모델을 출시할 것이라고 계속 기대해야 한다고 생각합니다. 보유하고 있는 모든 형태의 데이터의 모든 차원에서 최고가 될 것입니다. 이것은 중요한 경고입니다.

전문화가 실제로 당신에게 가져다주는 것은 비용 효율성입니다. 지난 한 해 동안 최첨단 연구실에서 매우 저렴한 비용으로 챗봇과 같은 사용 사례를 수행할 수 있는 대량 지능을 갖춘 소형 모델을 만드는 데 더 능숙해졌습니다.

당신이 회사라면 이 시점에서 가장 일반적인 패턴은 AI가 당신을 위해 무엇을 해주기를 원하는지 파악한 다음, 당신이 좋아하는 가장 최첨단 모델을 사용하여 AI를 실행하는 것입니다. 그런 다음 거대한 데이터베이스를 생성하고 이를 수행하기 위해 일부 작은 모델을 미세 조정합니다. 아시다시피 이는 매우 일반적인 관행입니다. OpenAI는 이 서비스를 제공하며 이것이 모든 플랫폼에서 공통적인 패턴이라고 생각합니다.

매우 저렴하다고 말할 수 있습니다. 이제 이렇게 챗봇을 훈련시키면 고객 서비스 챗봇도 이렇게 훈련됩니다. 누군가 스크립트에서 벗어나면 최첨단 모델을 사용했을 때만큼 좋지 않을 것입니다. 그러나 그것은 중요하지 않습니다. 사람들이 기꺼이 받아들이는 가격 대비 성능 비율입니다.

진행자 Jacob: 제가 매우 흥미롭게 생각하는 점 중 하나는 이전에 대화를 나눌 때 인공 지능의 발전에 대한 거시적인 관점 언급하셨다는 것입니다. 기본적으로 2018년에는 2024년까지 다양한 모델 역량이 있을 것으로 예상했다고 말씀하셨습니다. , 그리고 당신은 이러한 것들이 완전히 바뀌었다는 것을 첫 번째 원칙에서 생각할 것입니다. 2018년부터는 세상이 거의 알아볼 수 없게 된 것 같습니다. 당신은 확실히 더 넓은 세상에 큰 영향을 미쳤지만, AI의 확산이 세상이 운영되는 방식을 완전히 바꾸었다고 아직 말할 수는 없습니다. 왜 이런 일이 발생한다고 생각합니까?

밥 맥그루: 글쎄요, 조금 다시 말씀드리고 싶습니다. 이상하게 들리겠지만 인공 지능에 대한 올바른 사고 방식은 매우 비관적인 것입니다. 예를 들어, 진행이 왜 그렇게 느린 걸까요? 왜 인공지능이 GDP를 0.1% 증가시켰다고 말하는 사람들도 있습니다. 그러나 이는 AI를 사용하여 얻을 수 있는 생산성 향상 때문이 아니라 AI 교육에 필요한 데이터 센터를 구축하는 데 발생하는 자본 지출 때문입니다. 그렇다면 생산성 통계에서 AI가 분명하지 않은 이유는 무엇입니까? 1990년대 사람들이 인터넷을 이야기할 때 했던 말과 같습니다.

여기에는 몇 가지 이유가 있다고 생각합니다. 첫째, 일단 대화하고 코드를 작성할 수 있게 되면 모든 사람이 즉시 자동화될 것이라는 2018년 관점 있습니다. 이는 엔지니어가 기능 작성을 요청받았을 때 하는 것과 같은 생각입니다. "아, 그래, 몇 주만 지나면 할 수 있겠지"라고 생각할 수도 있겠지만, 코드를 작성하기 시작하면 "아, 사실 이 기능은 생각보다 복잡하다. "더.."라는 생각이 들 수도 있습니다. 훌륭한 엔지니어라면 2주라고 예상할 수 있지만 실제로는 프로젝트에 2개월이 걸릴 수도 있습니다. 그들이 나쁜 엔지니어라면 기능을 전혀 작성할 수 없다는 것을 알게 될 수도 있습니다.

인간이 일을 어떻게 처리하는지 자세히 파고들면 그런 일이 일어나는 것 같아요. 예, 전화로 그들과 대화할 수 있습니다. 하지만 그렇다고 해서 그들이 당신과 대화만 한다는 뜻은 아닙니다. 실제 작업이 포함되어 있습니다. 기본적으로 AI는 단 하나의 작업만 자동화할 수 있습니다. 그러나 작업은 많은 작업으로 구성됩니다. 실제 작업을 자세히 살펴보면 대부분의 작업에는 자동화할 수 없는 작업이 있다는 것을 알 수 있습니다.

예를 들어 프로그래밍을 보더라도 상용구 코드가 먼저 최적화되고, 정확히 무엇을 하고 싶은지 파악하는 등 더 까다로운 부분은 마지막에 해결됩니다. 따라서 우리가 AI를 계속 출시할수록 AI가 인간 작업의 전체 범위를 자동화하는 데 점점 더 복잡하고 한계가 있다는 것을 알게 될 것입니다.

조던: 그렇다면 발전 측면에서 현재 과소평가되어 있지만 지금보다 더 많은 관심을 받아야 할 분야는 무엇이라고 생각하시나요?

밥 맥그루: 글쎄요. 제가 정말 관심을 갖는 스타트업은 사람들이 인공 지능을 사용하여 매우 지루한 문제를 해결하는 스타트업입니다.

당신이 모든 비용을 계산하고 가격을 적절하게 비교하는지 확인하는 것과 같은 매우 지루한 일을 하고 싶은 똑똑한 사람들을 모두 고용할 수 있는 회사를 운영한다고 상상해 보십시오. 예를 들어, 조달 부서가 Elon Musk와 같이 지출을 매우 신중하게 통제하는 사람들로 가득 차 있다면 잠재적으로 많은 돈을 절약할 수 있습니다.

실제로 돈을 절약할 수 있는 사람들은 지루해지기 때문에 아무도 그렇게 하지 않습니다. 그 사람들은 이 일을 싫어할 거예요, 그렇죠? 하지만 인공지능은 한없이 인내심을 갖고 있다.

무한히 똑똑할 필요는 없습니다. 그리고 아시다시피, 어디에서나 업무 운영하고 있고 무한한 인내심을 가진 사람들이 하는 일에서 가치를 얻을 수 있다면 그것은 AI가 자동화해야 하는 일이라고 생각합니다.

Jacob: 저는 항상 컨설턴트를 똑똑한 사람들이 지루한 문제를 해결하거나 지루한 산업에서 일하도록 하는 차익거래자로 생각했기 때문에 흥미롭습니다. 그리고 분명히 최첨단 인공 지능 모델을 사용하면 똑똑한 사람에게는 절대 요구하지 않을 문제를 매우 높은 IQ를 가진 사람에게 해결하도록 요청할 수 있습니다.

밥 맥그루: 네, 제 말은, AI가 실제로 20~50%의 개선을 가져왔다는 것을 보여주는 생산성 연구를 누군가가 한다는 이야기를 들어본 것은 이번이 처음이라는 것입니다. 나는 '와, 정말 멋지다'라고 생각했어요. 그러다가 아, 상담사구나 하는 걸 알게 됐어요. 글쎄요, 인공 지능은 "헛소리"에 아주 능숙하고 컨설턴트의 임무는 "헛소리"하는 것입니다. 따라서 생산성 향상이 여기서 먼저 나타난다는 사실에 놀라서는 안 됩니다.

진행자 Jacob: 네, 실적이 저조한 하위 절반의 개선 효과도 가장 큰 것 같아요. 그렇죠?

밥 맥그루: 맞습니다. 글쎄요, 사실은 좀 희망적인 것 같아요. 인구의 하위 절반을 보면 인간이 가지고 있는 자동화하기 어려운 기술을 가지고 있기 때문에 이것이 희망적인 버전입니다. 그들은 자신이 무엇을 하고 있는지 알고 있지만 이를 구현하기 위해 코드를 작성하는 방법을 모릅니다. 그런 다음 모델이 나타나서 이렇게 말합니다. '아, 코드를 작성하는 방법은 알지만 무엇을 해야 할지 모르겠습니다. 따라서 이제 이러한 성과가 저조한 사람들은 실제로 자신의 직업에서 실질적인 향상을 얻을 수 있습니다. 그래서 나는 그것이 매우 희망적이라고 생각합니다.

진행자 조던: 성과 측면에서 볼 때, 귀하는 세계 최고의 연구원들과 함께 일해왔고 지금도 함께 일하고 있다고 생각합니다. AI 연구자가 가장 좋은 이유는 무엇이라고 생각하시나요?

Bob McGrew: 다양한 일을 하는 다양한 유형의 연구자들이 있습니다. GPT 제품군과 CLIP을 발명한 Alec Radford와 같은 사람을 생각해 보면 그가 기본적으로 LLM(대형 언어 모델)을 발명한 후 계속해서 다양한 형태의 다중 모드 연구를 수행했다는 것을 알 수 있습니다. 알렉은 밤의 이상한 시간에 혼자 일하는 것을 좋아하는 남자입니다. 대조적으로, OpenAI의 첫 번째 및 두 번째 수석 과학자인 Ilya Sutskvi와 Jacob Picjoki와 같은 다른 유명 인사들은 훌륭한 아이디어와 비전을 가지고 있었습니다. 그들은 다른 사람들이 문제를 해결하도록 돕고 회사의 전반적인 로드맵을 개발하는 데 핵심적인 역할을 합니다.

최고의 과학자들은 모두 한 가지 핵심 특성을 갖고 있습니다. 바로 어느 정도의 인내심입니다. 나는 DALL-E를 발명한 Aditya Ramesh가 신경망이 창의적일 수 있음을 증명하기 위해 훈련 세트에 없는 이미지를 생성하는 문제와 씨름하는 모습을 항상 기억할 것입니다. DALL-E의 원래 아이디어는 얼음 위에서 스케이트를 타는 핑크 팬더의 이미지를 생성할 수 있는지 확인하는 것이었지만 Aditya는 이러한 이미지가 훈련 데이터에 존재하지 않는다고 확신했습니다. 그는 그것을 실현하기 위해 18개월, 어쩌면 2년 동안 작업했습니다.

1년 정도 후에 Ilya가 와서 나에게 사진을 보여주며 "보세요, 이게 최신 세대예요. 정말 작동하기 시작했어요." 내가 본 것은 흐릿하고 윗부분만 핑크색, 흰색으로 보였어요. 하단 - 픽셀이 서로 뭉치기 시작했습니다. 나는 아직 아무것도 볼 수 없었지만 Aditya는 계속했습니다. 이런 끈기는 성공적인 연구자라면 누구나 근본적인 문제를 해결할 때 갖춰야 할 것입니다. 그들은 이것을 그들의 "최후의 입장"으로 보고 필요하다면 수년 동안 이를 버티기로 결심해야 합니다.

진행자 Jacob: 제대로 작동하게 하려면요. 그런 사람들과 연구단체를 만들면서 무엇을 배웠나요?

Bob McGrew: 글쎄요, 흥미롭게도 제가 생각할 수 있는 가장 좋은 비유는 항상 엔지니어는 예술가라고 말하는 Palantir의 Alex Carp에게서 나왔습니다. 이것은 의미가 있습니다. 정말 훌륭한 엔지니어와 이야기를 나눠보면 그들은 단지 창조를 원할 뿐입니다. 그들의 마음속에는 뭔가가 있습니다. 코드는 마음속에 있는 조각품에 생명을 불어넣는 방법입니다.

Palantir에서는 버그를 수정하도록 놔둬야 하는데 그렇게 할 때마다 아티스트 측에서는 안타까워합니다. 사람들이 함께 작업을 하기 위해서는 과정이 있어야 하는데, 아티스트 입장에서는 안타까워요. 사실 엔지니어는 예술가이고, 10배 엔지니어는 예술가 10배, 연구원은 모든 엔지니어의 100배 예술가입니다.

연구자와 함께 조직을 구축하려면 고려해야 할 사항이 훨씬 더 많습니다. 모든 사람이 상호 교환 가능한 부분이고 함께 일할 수 있는 프로세스가 있다면 좋을 것이라고 말하는 엔지니어링 관리 방법이 있습니다. 하지만 연구자와 함께 일하려면 그들의 예술성을 억누르지 않는 것이 중요하기 때문에 세심한 주의가 필요합니다.

그 비전을 현실로 바꾸는 모든 도전을 기꺼이 받아들이게 만드는 것은 그들의 마음속에 있는 비전에 대한 열정입니다.

진행자 조던: 당신이 Palantir와 OpenAI에서 일한 것은 행운입니다. Palantir의 매우 특별한 문화를 논의하는 많은 기사가 있습니다. OpenAI에 대해 생각해보면 앞으로 그 문화에 관해 많은 글이 나올 것이라고 확신합니다. 이 기사들이 뭐라고 말할 것이라고 생각하시나요?

밥 맥그루: 네. 내 말은, 우리가 방금 이야기한 것처럼 연구원들과 협력하는 것 중 하나라고 생각합니다. OpenAI의 또 다른 놀라운 점은 얼마나 많은 변환을 거쳤는지입니다. 또는 저는 이를 여러 번 다시 빌드하는 것으로 생각하는 것을 선호합니다. 그래서 제가 OpenAI에 합류했을 때는 비영리 단체였습니다. 회사의 비전은 논문 작성을 통해 AGI를 구축하는 것입니다. 우리는 그것이 옳지 않다는 것을 알았습니다. Sam, Greg, 그리고 저는 초창기의 많은 사람들이 기업가였으며 AGI로 가는 이 길은 옳지 않다고 느꼈습니다.

몇 년 후 회사는 비영리 조직에서 영리 조직으로 전환되었습니다. 이는 회사 내에서 많은 논란을 불러일으켰는데, 부분적으로는 우리가 어느 시점에서 제품과 상호 작용해야 한다는 것을 알았기 때문입니다. 우리는 돈을 버는 방법에 대해 생각해야 합니다. Microsoft와의 파트너십은 또 다른 재건의 순간이 되었으며, 이 순간 역시 매우 논란이 되었습니다. 내 말은, 아마도 돈을 버는 것이 하나의 일일지도 모르지만 그것을 Microsoft, 거대 기술 회사에 주는 것, 와, 그거 끔찍해요.

또한 마찬가지로 중요한 점은 우리가 Microsoft와 협력할 뿐만 아니라 API를 사용하여 자체 제품을 구축하기로 결정했다는 것입니다. 마지막으로 ChatGPT를 통해 엔터프라이즈 서비스에 소비자 서비스를 추가합니다. 이것이 스타트업이 겪게 될 결정적인 변화이다. OpenAI에서는 18개월마다 또는 2년마다 회사의 목적과 그곳에서 일하는 사람들의 정체성을 근본적으로 바꾸는 것처럼 느껴집니다.

우리는 논문을 작성하는 것이 자신의 일이라는 개념에서 전 세계 모든 사람이 사용할 수 있는 모델을 구축한다는 아이디어로 전환했습니다. 정말 말도 안되는 일은 2017년에 우리에게 올바른 임무가 무엇인지 묻는다면 AGI를 구현하기 위한 논문을 작성하는 것이 아니라 모든 사람이 사용할 수 있는 모델을 구축하고 싶다는 것입니다. 하지만 우리는 그것을 달성하는 방법을 모르기 때문에 그 과정에서 이러한 모든 것을 탐색하고 파악해야 합니다.

진행자 Jacob: 이러한 중요한 변화를 성공적으로 이룰 수 있었던 이유가 무엇이라고 생각하시나요?

밥 맥그루: 글쎄요, 우선 필요성이 필요하다는 거죠. 이 중 무작위로 선택된 것은 하나도 없습니다. 그렇죠? 비영리 단체인데 자금이 부족할 경우 자금을 조달할 방법을 찾아야 할 수도 있습니다. 자금을 조달하려면 영리 기업이 되어야 할 수도 있습니다. 여러분이 Microsoft와 협력하고 있는데 그들이 여러분이 만들고 있는 모델의 가치를 보지 못할 수도 있으므로 실제로 작동할 수 있으므로 API를 구축해야 합니다. 그러면 사람들이 실제로 이러한 모델을 원한다는 것을 보여줄 수 있습니다.

ChatGPT, 저는 이것이 GPT-3 이후 우리가 정말로 믿는 것이라고 생각합니다. 올바른 발전을 통해 올바른 형식은 사람들이 모델과 대화하기 위해 중개자를 거쳐야 하는 API가 아니라 모델이 될 것입니다. 무언가와 직접적으로 대화할 수 있습니다. 그래서 그것은 매우 의도적이라고 생각하는 것 중 하나입니다. 그러나 우리 모두 알고 있듯이, 그 일이 일어난 방식은 사고였습니다. 우리는 그것을 위해 노력하고 있습니다. 우리는 실제로 GPT-4를 교육했으며 모델이 매일 사용할 수 있을 만큼 좋아지면 출시할 수 있기를 바랍니다.

우리 모두는 11월에 ChatGPT를 보고 '기준을 통과했나요?'라고 생각했습니다. 정확히는 아닙니다. 팀을 이끌었던 공동 창립자 중 한 명인 John Schulman은 이렇게 말했습니다. “저는 정말 이것을 배송하고 싶습니다. 저는 외부 경험을 좀 얻고 싶었어요. 천명이 사용하면 성공할 거라고 생각했던 기억이 납니다. 아시다시피, 우리의 성공 기준은 꽤 낮습니다. 우리는 그것을 대기자 명단에 올리지 않기로 결정했습니다.

그러다가 세상이 다시 우리 손을 강요하게 되고, 갑자기 세상의 모든 사람들이 그것을 사용하고 싶어하게 됩니다. 처음 출시했을 때 처음 며칠은 어땠나요? 맙소사, 꽤 강렬했어요. 처음에는 이런 일이 실제로 일어날 것이라는 사실에 약간의 불신이있었습니다. 약간의 불안감이 있습니다. 우리는 GPU를 구하는 방법을 빠르게 알아내려고 노력했습니다. 그래서 우리는 연구 컴퓨팅 리소스 중 일부를 일시적으로 그곳으로 옮겼습니다.

그리고 언제 멈출 것인가?라는 질문이 생깁니다. 이것이 계속될 것인가, 아니면 유행이 될 것인가? DALL-E에서도 비슷한 일을 거의 경험했기 때문입니다. DALL-E 2 모델이 인터넷에서 화제를 모은 뒤 사라졌습니다. 그래서 사람들은 실제로 ChatGPT도 사라질까 봐 걱정하고 있습니다. 저는 이것이 사라지지 않을 것이며 실제로 API보다 더 중요해질 것이라고 확신합니다.

호스트 Jacob: 정말 흥미로운 경험이군요. 멋진 점 중 하나는 최첨단 AI 연구에 매우 가깝다는 것입니다. 지난 1년간 AI 분야에 대한 생각이 어떻게 바뀌었나요?

Bob McGrew: 재미있는 점은 제가 마음을 바꾸지 않았다고 생각합니다. GPT-3가 끝나고 2020년, 2021년에 들어서면 그 안에 있다면 앞으로 4~5년 안에 일어날 일들이 많이 당연하게 느껴진다. 우리는 이러한 모델을 갖게 될 것입니다. 우리는 모델을 더 크게 만들고 다중 모드로 만들 예정입니다. 2021년에도 우리는 언어 모델에서 RL을 어떻게 사용해야 하는지에 대해 이야기하고 이를 작동시키는 방법을 찾으려고 노력하고 있습니다. 그리고 2021년과 2024년의 실제 차이점은 무엇이 일어나야 하는가가 아니라 우리가 그것을 실현할 수 있다는 사실입니다. 그리고 아시다시피 우리 현장에서는 이를 실현할 수 있습니다. 그러나 어떤 의미에서 우리의 현재 상황은 약간 운명적으로 느껴지기도 합니다.

진행자 Jacob: 앞으로 사전 학습 확장과 테스트 시간 계산 확장에 대해 생각할 때 이 두 가지만으로도 AGI에 도달할 수 있을 것 같은 느낌이 드나요? 아니면 이 문제를 어떻게 보시나요?

Bob McGrew: 저는 AGI(Artificial General Intelligence)의 개념을 이해하는 데 어려움을 겪고 있습니다. 그리고 AGI에 대한 나의 깊은 비판 중 하나는 시간이 단 한 순간도 없으며 실제로 이러한 문제는 프랙탈적이라는 것입니다. 그리고 우리는 점점 더 많은 것들이 자동화되는 것을 보게 될 것입니다. 하지만 어쩐지 우리는 - 모르겠어요. 나는 그것이 너무 평범해져 어떻게든 우리 모두가 자율주행차를 타고 사무실로 가고 그곳에서 인공지능 군대를 지휘하게 될 것이라고 생각합니다. 그러면 우리는 '아, 이거 좀 지루하다'라고 생각하게 됩니다. 아직도 내가 사무실에 있고 상사가 여전히 바보인 것 같은 느낌이 듭니다. 이것이 아마도 우리 AGI의 미래일 것입니다. 우리는 오후 5시 정도에 퇴근하는 것을 기다릴 수 없었습니다.

더 진지하게,

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트