양리쿤: AGI를 달성하기 위해 LLM에만 의존하는 것은 말도 안 됩니다. AI의 미래에는 JEPA 세계 모델이 필요하다(GTC 컨퍼런스 1만 단어 인터뷰)

이 기사는 기계로 번역되었습니다
원문 표시

대규모 언어 모델(LLM)이 전 세계적으로 AI 도입을 가속화하는 시기에 , 합성곱 신경망의 아버지로 알려져 있고 현재 Meta의 수석 AI 과학자인 얀 르쿤은 최근 LLM에 대한 관심이 줄어들었다는 놀라운 발언을 했으며, 심지어 LLM이 개발에 있어 병목 현상에 도달했다고 생각한다고 밝혔습니다.

이는 인공지능 커뮤니티 에서 광범위한 논의를 불러일으켰습니다.

지난달 엔비디아 수석 과학자 빌 달리와 심도 있는 대화를 나누면서 르쿤은 AI의 미래 개발 방향에 대한 자신만의 독특한 통찰력을 자세히 설명하면서, 차세대 AI 혁명을 이끄는 열쇠인 물리적 세계에 대한 이해, 지속적 메모리, 추론 및 계획 기능, 오픈 소스 생태학의 중요성을 강조했습니다. 다음은 주요 내용을 요약한 것입니다.


빌 달리: 얀, 지난 1년 동안 AI 분야에서 많은 흥미로운 일들이 일어났습니다. 당신의 생각에, 지난 한 해 동안 가장 흥미로운 일은 무엇이었나요?

얀 르쿤: 셀 수 없을 만큼 많지만, 여러분 중 일부가 놀랄 만한 사실을 하나 말씀드리겠습니다. 저는 더 이상 대규모 언어 모델(LLM)에 관심이 없습니다.

LLM은 스펙트럼의 꼬리 끝에 있는 셈이고, 업계의 제품 담당자들이 맡아서 한계를 뛰어넘어 더 많은 데이터와 컴퓨팅 성능을 확보하고 합성 데이터를 생성하려고 노력합니다. 흥미로운 질문이 있는 네 가지 영역이 있다고 생각합니다.

기계가 물리적 세계를 이해하는 방법, 지속적인 메모리를 갖는 방법, 그리고 마지막 두 가지인 추론하고 계획을 세우는 방법에 대해 이야기하는 사람은 많지 않습니다.

물론 LLM에서 추론을 구현하려는 노력이 있지만, 제 생각에는 이것은 추론을 보는 매우 단순화된 방식입니다. 이보다 더 나은 방법이 있을 것 같아요. 그래서 저는 기술 커뮤니티 의 많은 사람들이 5년 후까지는 기대하지 않을 것들에 대해 기대하고 있습니다. 하지만 지금은 별로 흥미롭지 않은 것 같아요. 잘 알려지지 않은 학술 논문들이니까요.

세계 모델과 물리적 세계에 대한 이해

빌 데일리: 하지만 물리적 세계에 대한 LLM 추론, 지속적인 기억과 계획이 아니라면 무엇입니까? 기본 모델은 무엇일까요?

얀 르쿤: 많은 사람들이 세계 모델을 개발하고 있네요. 세계 모델이란 무엇인가?

우리 모두는 머릿속에 세상의 모형을 가지고 있습니다. 이것이 바로 우리가 생각을 조작할 수 있게 해주는 것입니다. 우리는 현재의 세계를 보여주는 모델을 가지고 있습니다. 아시다시피, 이 병을 위에서 밀면 넘어질 가능성이 크지만, 아래에서 밀면 미끄러질 겁니다. 너무 세게 누르면 터질 수도 있어요.

Yann LeCun 인터뷰 스크린샷

우리는 생후 몇 달 동안 물리적 세계에 대한 모델을 습득하고, 이를 통해 현실 세계에 대처할 수 있습니다. 현실 세계를 다루는 것은 언어를 다루는 것보다 훨씬 더 어렵습니다. 우리에게는 현재 우리가 다루고 있는 것과는 완전히 다른 실제 시스템을 실제로 처리할 수 있는 시스템 아키텍처가 필요합니다. LLM은 토큰을 예측하지만 토큰은 무엇이든 될 수 있습니다. 자율주행차 모델은 센서에서 얻은 토큰을 사용하고, 토큰을 생성하여 차량을 운전합니다. 어떤 의미에서는 물리적 세계에 대한 추론이며, 적어도 운전하기 안전한 곳과 기둥에 부딪히지 않을 곳에 대한 추론입니다.

빌 데일리: 토큰이 물리적 세계를 표현하는 적절한 방법이 아닌 이유는 무엇입니까?

얀 르쿤: 토큰은 별개입니다. 토큰에 대해 이야기할 때는 일반적으로 유한한 가능성의 집합을 의미합니다. 일반적인 LLM에서는 가능한 토큰의 수가 약 100,000개입니다. 토큰을 예측하도록 시스템을 훈련하면, 텍스트 시퀀스에서 정확히 다음 토큰을 예측하도록 시스템을 훈련할 수 없습니다.

사전에 있는 모든 가능한 토큰에 대한 확률 분포를 생성할 수 있습니다. 이는 0과 1 사이의 숫자 100,000개를 합하면 1이 되는 긴 벡터입니다. 우리는 그 방법을 알고 있지만, 영화나 자연스럽게 고차원이고 연속적인 데이터로는 그 방법을 모릅니다. 픽셀 수준에서 영화를 예측하도록 시스템을 훈련시켜 세상을 이해하거나 세상에 대한 정신 모델을 구축하려는 시도는 대부분 실패로 끝났습니다.

이미지를 잘 표현하도록 학습하는 신경망과 같은 시스템을 훈련하더라도, 손상되거나 변형된 버전에서 이미지를 재구성하여 작동하는 모든 기술은 실패했습니다. 이러한 아키텍처는 어느 정도 작동하지만, 본질적으로 픽셀 수준에서 재구성을 시도하지 않는 조인트 임베딩이라고 부르는 대체 아키텍처만큼 잘 작동하지는 않습니다. 그들은 여러분이 훈련하고 있는 이미지, 영화 또는 자연 신호의 추상적인 표현을 학습하여 그 추상적인 표현 공간에서 예측을 내릴 수 있도록 합니다.

얀 르쿤: 제가 자주 사용하는 예는 이 방의 영상을 찍고, 카메라를 움직여서 여기서 멈춘 다음, 시스템에 나머지 영상이 어떻게 보일지 예측해 달라고 요청하는 것입니다. 그러면 시스템은 이 방이 방이고, 사람들이 앉아 있다고 예측할 수 있습니다. 그것은 여러분 각자의 모습을 예측할 수 없습니다. 이는 영화의 초기 클립에서는 전혀 예측할 수 없는 내용입니다.

세상에는 예측할 수 없는 일들이 많습니다. 픽셀 수준에서 예측을 하도록 시스템을 훈련시키면 시스템은 스스로 만들어낼 수 없는 세부 사항을 파악하려고 모든 리소스를 소모하게 됩니다. 이는 완전한 자원 낭비입니다. 저는 20년 동안 이 문제에 대해 연구해 왔지만, 자기 감독 학습을 사용하여 영화를 예측하는 시스템을 훈련하려고 시도했을 때마다 효과가 없었습니다. 이는 프레젠테이션 수준에서만 효과적입니다. 즉, 이러한 아키텍처는 생성적이지 않습니다.

빌 데일리: 기본적으로 트랜스포머에는 이런 기능이 없다고 말씀하시는 건가요? 하지만 사람들은 비전 트랜스포머를 가지고 있고 매우 좋은 결과를 얻었습니다.

얀 르쿤: 제가 말하고자 한 것은 그게 아니었습니다. 그런 용도로는 변압기를 사용할 수 있거든요. 이런 구조에는 변압기를 넣을 수 있습니다. 제가 말하는 아키텍처의 이름은 조인트 임베딩 예측 아키텍처입니다. 그러니까 필름이나 이미지 또는 무엇이든 그것을 인코더에 통과시켜 표현을 얻고, 그 텍스트나 필름 또는 이미지의 변환된 버전의 후속 부분을 역시 인코더에 통과시킨 다음, 입력 공간이 아닌 그 표현 공간에서 예측을 시도해 보는 겁니다.

빈칸을 채우는 동일한 훈련 방법을 사용할 수 있지만, 원래 표현 대신 잠재 공간에서 이를 수행합니다.

얀 르쿤: 문제는 조심하지 않고 영리한 기술을 사용하지 않으면 시스템이 망가진다는 것입니다. 이는 입력을 완전히 무시하고 입력에 대한 많은 정보를 포함하지 않는 상수 표현만 생성합니다. 5~6년 전까지만 해도 이런 일이 일어나는 것을 막을 수 있는 기술이 없었습니다.

이제 이것을 에이전트 시스템이나 추론하고 계획할 수 있는 시스템에 사용하려면 예측기가 필요합니다. 인공지능은 영상을 관찰할 때 세상의 상태, 즉 현재 세상의 상태에 대한 어떤 아이디어를 갖고 있으며, 내가 상상하는 행동을 취할 수도 있다고 가정하고 세상의 다음 상태가 어떨지 예측해야 합니다.

따라서 세상의 상태와 당신이 상상하는 행동을 감안하여 세상의 다음 상태를 예측할 수 있는 예측자가 필요합니다. 그런 시스템이 있다면 특정 결과를 달성하기 위한 일련의 행동을 계획할 수 있습니다. 이것이 바로 우리 모두가 계획하고 추론하는 방식입니다. 우리는 토큰 공간에서 이런 일을 하지 않습니다.

얀 르쿤: 아주 간단한 예를 들어보겠습니다. 소위 에이전트 기반 추론 시스템은 많이 있는데, 이 시스템의 작동 방식은 다양한 토큰을 무작위로 생성하고, 대량 대량 의 토큰 시퀀스를 생성한 다음, 생성된 모든 시퀀스 중에서 최상의 토큰을 선택하려는 두 번째 신경망이 있다는 것입니다. 이는 프로그램을 쓰는 방법을 모르는 채 프로그램을 쓰는 것과 같습니다.

무작위로 프로그램을 작성한 다음 모든 프로그램을 테스트하고 실제로 올바른 답을 제공하는 프로그램 하나만 유지하는 것은 전혀 희망이 없습니다.

빌 데일리: 사실, 슈퍼 최적화에 대한 몇몇 논문에서는 바로 그런 방법을 제안하고 있습니다.

얀 르쿤: 짧은 프로그램의 경우 가능하지만, 길이가 기하급수적으로 늘어나면 얼마 지나지 않아 완전히 불가능해집니다.

저자는 내 이해를 덧붙여 말했습니다. 간단히 말해서, 현재 LLM 모델은 확률 게임을 하여 많은 수의 텍스트 선택지에서 가능한 가장 좋은 답을 선택합니다. 그러나 얀 르쿤은 현실 세계에는 변수가 너무 많고 너무 복잡하다고 생각하며, 모델의 다음 단계는 스스로 미래를 예측하는 것이라고 말했습니다. 마치 어린아이가 공을 놓으면 땅에 떨어지고, 불에 가까이 가면 뜨거워진다는 것을 삶 속에서 배우는 것과 같습니다. 아이는 이러한 원리를 이해하지 못하더라도 삶의 경험을 통해 예측 능력을 얻을 수 있습니다.

AGI/AMI의 전망과 과제

빌 달리: 많은 사람들이 AGI, 혹은 AMI라고 부르는 것이 올 것이라고 말합니다. 어떻게 생각하나요? 언제쯤 나올 것 같나요? 그리고 그 이유는 무엇인가요? 격차는 어디에 있는가?

얀 르쿤: 저는 AGI라는 용어를 좋아하지 않습니다. 사람들이 이 용어를 인간 수준의 지능을 갖춘 시스템을 지칭하는 데 사용하는데, 안타깝게도 인간 지능은 엄청나게 전문화되어 있습니다. 그러므로 그것을 일반적이라고 부르는 것은 잘못된 명칭입니다. 저는 AMI라는 표현을 더 선호하는데, 이는 고급 머신 인텔리전스를 의미합니다.

단지 어휘의 문제일 뿐이고, 제가 설명한 개념, 즉 세상의 추상적인 정신 모델을 학습하고 이를 추론과 계획에 사용할 수 있는 시스템은 3~5년 안에 적어도 소규모로나마 작동하는 방법을 잘 파악할 수 있을 것이라고 생각합니다. 그러면 인간 수준의 AI에 도달할 때까지 규모를 확장해야 할 것입니다.

얀 르쿤: 중요한 건 이겁니다. AI 역사를 통틀어 여러 세대의 AI 연구자들이 새로운 패러다임을 발견하고 이것이 바로 그것이라고 주장해 왔다는 겁니다. 10년 안에 우리는 인간 수준의 지능을 갖게 될 것이다. 우리는 모든 분야에서 인간보다 더 똑똑한 기계를 갖게 될 것입니다. 이런 일이 70년 동안 이어져 왔고, 대략 10년마다 이런 물결이 발생합니다.

현재의 흐름도 틀렸습니다. 익명을 유지하겠다는 어떤 사람의 말을 빌리자면, LLM을 확장하거나 수천 개의 토큰 시퀀스를 생성하여 좋은 시퀀스를 선택하는 것만으로 인간 수준의 지능을 달성할 수 있고, 몇 년 안에 데이터 센터에 천재들로 구성된 국가를 만들 수 있다는 생각은 말도 안 됩니다. 완전히 말도 안 되는 소리예요.

물론, 많은 응용 분야에서 가까운 미래의 시스템은 박사 수준이 될 것입니다. 하지만 전반적인 지능 측면에서 보면 아직은 가깝지도 않습니다. 하지만 제가 아주 먼 미래에 일어날 일이라고 말씀드렸듯이, 그것은 10년 후에 일어날 수도 있습니다.

빌 데일리: 그리 멀지 않은 미래죠. AI는 인간의 삶을 개선하고 더 편리하게 만들기 위해 다양한 방식으로 적용되어 왔습니다. 어떤 AI 응용 분야가 가장 매력적이고 유리하다고 생각하시나요?

얀 르쿤: 저는 AI가 과학과 의학에 미치는 영향이 우리가 현재 상상하는 것보다 훨씬 클 가능성이 높다고 생각합니다. 하지만 AI의 영향은 이미 상당히 크죠. 단백질 접힘이나 약물 설계와 같은 연구뿐만 아니라, 생명의 메커니즘을 이해하는 데에도 중요합니다. 그리고 단기적인 결과도 많이 있습니다. 미국에서는 의료 영상 촬영에 AI가 자주 활용됩니다. 유방조영술이라면 이미 딥러닝 시스템을 통해 종양을 감지하는 사전 검사가 실시되었을 가능성이 높습니다. MRI 기계를 사용하게 되면 MRI 기계에서 보내는 시간이 약 4배나 줄어듭니다. 훨씬 적은 데이터로 고해상도 MRI 이미지를 복구할 수 있기 때문입니다. 그래서 단기적인 결과가 많이 발생합니다.

Yann LeCun: 물론입니다. 저희의 모든 자동차에는 최소한 운전자 보조 시스템이나 자동 비상 제동 시스템이 장착되어 있습니다. NVIDIA는 이 분야의 주요 공급업체 중 하나입니다. 이러한 규정은 유럽에서 수년간 의무화되어 왔습니다. 이런 것들로 인해 충돌이 40%나 줄었습니다. 그들은 생명을 구합니다. 이건 엄청난 규모의 응용 프로그램입니다.

분명히 이것은 생성적 AI가 아닙니다. 이것이 인식이고 이제 자동차에 대한 어느 정도의 제어입니다. LLM은 현재 존재하거나 앞으로 수 년 내에 존재할 산업 및 서비스 분야와 같은 분야에서 많은 응용 분야를 가지고 있지만, 그 한계점도 고려해야 합니다. 원하는 수준의 정확성과 안정성을 달성하는 시스템을 구축하고 구현하는 것은 대부분의 사람들이 상상하는 것보다 훨씬 더 어렵습니다. 자율 주행의 경우도 마찬가지입니다. 레벨 5 자율주행에 도달하는 시점은 점점 멀어지고 있습니다. 나는 그럴 것이라고 생각한다. AI가 실패하는 경우는 기본 기술이나 화려한 데모가 아니라, 실제로 배포하고 적용하고 기존 시스템과 통합할 만큼 안정적으로 만드는 과정에서입니다.

그래서 예상보다 어렵고, 비용도 많이 들고, 시간도 더 많이 걸립니다.

빌 데일리: 물론이죠. 자율주행차처럼 항상 정확해야 하는 애플리케이션의 경우, 정확하지 않으면 누군가가 다치거나 죽을 수도 있기 때문에 정확도 수준은 거의 완벽해야 합니다. 하지만 대부분의 경우 제대로 활용하면 매우 유익할 수 있는 응용 프로그램이 많이 있습니다. 의사가 두 번째 검진을 하는 의료 분야나, 특히 오락 및 교육 분야에서도 좋은 점이 해악보다 크고, 잘못해서 생기는 결과가 재앙이 되지 않기를 바랄 뿐입니다.

얀 르쿤: 물론이죠. 대부분의 시스템에서 가장 유용한 시스템은 사람들을 더 생산적이고 창의적으로 만드는 시스템입니다. 예를 들어, 코딩을 도와주는 코딩 도우미가 있습니다. 이는 의학, 예술, 텍스트 생성에 모두 해당됩니다. AI는 사람을 대체하지 않습니다. 그들에게 강력한 도구를 제공하는 셈이죠.

글쎄요, 언젠가는 대체될지도 모르지만 사람들이 그것을 받아들일 것 같지는 않아요. 초지능을 포함한 미래의 AI 시스템과 우리의 관계는 우리가 그들의 상사가 될 것이라는 것입니다. 우리는 우리를 위해 일하는 매우 지능적인 가상 인간 집단을 갖게 될 것입니다. 여러분은 모르겠지만, 저는 저보다 똑똑한 사람들과 함께 일하는 것을 좋아합니다. 세상에서 가장 좋은 일이에요.

빌 데일리: 반대로, AI가 여러 면에서 인류에게 이로움을 줄 수 있는 반면, 어두운 면도 있습니다. 사람들이 AI를 이용해 딥페이크와 가짜 뉴스를 만들 수도 있고, 제대로 사용하지 않으면 정서적 고통을 유발할 수도 있습니다. AI 사용에 대해 가장 큰 우려 사항은 무엇입니까? 이런 우려를 어떻게 완화할 수 있을까?

Yann LeCun: Meta가 매우 잘 알고 있는 것 중 하나는 AI를 적대적 공격에 대한 대응책으로 사용하는 것입니다. 그 공격이 AI에서 오는지 아닌지는 중요하지 않습니다. 놀라운 점 중 하나는 LLM과 다양한 딥페이크가 수년 동안 사용 가능했음에도 불구하고 이러한 유형의 공격을 탐지하고 제거하는 업무를 담당하는 동료들이 소셜 네트워크에 게시되는 생성된 콘텐츠가 크게 증가한 것을 보지 못했다는 점입니다. 적어도 악의적인 방식으로는 그렇지 않습니다. 일반적으로 합성으로 태그 됩니다. 따라서 우리는 3~4년 전에 사람들이 경고했던 것과 같은 재앙적인 시나리오를 모두 보고 있지 않습니다. 이들은 이것이 정보와 통신 시스템을 파괴할 것이라고 말했습니다.

얀 르쿤: 재밌는 이야기를 하나 해드릴게요. 2022년 가을, 저의 소규모 팀인 Meta의 동료들은 전체 과학 문헌을 바탕으로 교육된 LLM을 작성했습니다. 그들은 손에 넣을 수 있는 모든 기술 문서를 수집했습니다. 이름은 갈락티카(Galactica)이고, 갈락티카의 훈련 방법, 오픈 소스 코드, 그리고 직접 사용해 볼 수 있는 데모 시스템을 설명하는 긴 논문을 공개했습니다.

이 사건은 트위터에서 엄청난 비난을 받았습니다. 사람들은 "아, 이건 끔찍해. 우리를 죽일 거야. 과학 소통 시스템을 파괴할 거야. 이제 누구라도 깨진 유리를 먹는 것의 이점 같은 과학 논문처럼 들리는 글을 쓸 수 있겠지."라고 말했습니다. 부정적인 여론의 물결이 너무 거세서 저희 불쌍한 동료 5명은 밤에 잠을 잘 수 없었습니다. 그들은 데모를 삭제하고 오픈 소스 코드와 논문을 남겨두었지만, 우리의 결론은 세상이 이 기술을 받아들일 준비가 되어 있지 않고 아무도 관심을 두지 않는다는 것이었습니다.

얀 르쿤: 3주 후에 ChatGPT가 등장했습니다. 마치 메시아의 재림과도 같았습니다. 우리는 서로를 바라보며 "방금 무슨 일이 일어난 거지?"라고 물었습니다. 우리는 갈락티카에 대한 반응을 감안할 때 대중이 이에 열광하는 이유를 이해할 수 없습니다.

빌 데일리: 많은 부분이 인식의 문제입니다. GPT는 학술 논문을 쓰거나 과학 연구를 하는 것이 아닙니다. 좀 더 일반적으로 이야기하려고 노력하면서, 무엇이든 물어보고 이야기할 수 있는 주제입니다. 어떤 면에서는 더 많은 사람에게 더 유용하거나, 유용성에 더 가깝습니다.

얀 르쿤: 확실히 위험은 존재하고 다양한 오용 사례도 있습니다. 하지만 학대에 대한 해독제는 더 나은 AI입니다. 제가 이전에도 말했듯이 신뢰할 수 없는 시스템이 있습니다. 이 문제에 대한 해결책은 상식, 추론 능력, 답이 맞는지 확인하는 능력, 그리고 자신의 답의 신뢰성을 평가하는 능력을 갖춘 더 나은 AI 시스템인데, 현재는 그렇지 않습니다. 하지만 솔직히 말해서 저는 그런 재앙적인 시나리오를 믿지 않습니다. 사람들은 적응할 것이다. 저는 AI가 전반적으로 좋다고 생각하지만, 나쁜 면도 섞여 있다고 생각합니다.

오픈 소스의 중요성과 미래

빌 데일리: 대서양 양쪽에 집을 가지고 계신 분이라 매우 세계적인 관점을 가지고 계시네요. 미래의 AI 혁신은 어디에서 나올 것이라고 생각하시나요?

얀 르쿤: 그것은 어디에서나 올 수 있습니다. 똑똑한 사람들은 어디에나 있습니다. 좋은 아이디어를 독점하는 사람은 없습니다. 어떤 사람들은 엄청난 우월감을 가지고 있어서 누구와도 상의하지 않고도 좋은 아이디어를 모두 생각해 낼 수 있다고 생각합니다. 과학자로서의 제 경험에 따르면, 이런 경우는 그렇지 않습니다.

좋은 아이디어는 많은 사람들 간의 상호작용과 아이디어 교환을 통해 나옵니다. 지난 10년 동안 코드 전달 역시 중요해졌습니다. 이것이 제가 오픈 소스 AI 플랫폼을 강력히 지지하는 이유 중 하나이고, Meta가 어느 정도 이 철학을 채택한 이유입니다. 우리는 좋은 아이디어에 대한 독점권을 가지고 있다고 생각하지만, 실제로는 그렇지 않습니다. DeepSeek에 대한 최근 이야기는 좋은 아이디어는 어디에서나 나올 수 있다는 것을 잘 보여줍니다.

얀 르쿤: 중국에는 훌륭한 과학자들이 많습니다. 많은 사람이 알아야 할 이야기는, 지난 10년 동안 모든 과학 분야에서 가장 많이 인용된 논문이 무엇인지 스스로에게 묻는 것입니다. 그 논문은 정확히 10년 전인 2015년에 출판되었습니다. 이는 ResNet 또는 잔여 네트워크라고 불리는 특정 신경망 아키텍처에 대한 내용으로, 베이징에 있는 Microsoft Research Asia에서 나왔으며 중국 과학자 그룹이 제안했습니다.

주요 저자는 허카이밍입니다. 1년 후, 그는 캘리포니아에 있는 Meta의 FAIR 연구실에 합류하여 약 8년간 근무한 후 최근 매사추세츠 공과대학(MIT)으로 옮겼습니다. 이는 전 세계에 훌륭한 과학자들이 많이 있고, 아이디어는 어디에서나 나올 수 있다는 것을 말해줍니다. 하지만 이러한 아이디어를 실제로 실행하려면 대규모 인프라와 대량 컴퓨팅 리소스가 필요하며, 필요한 리소스를 구매할 수 있도록 친구와 동료에게 많은 돈을 주어야 합니다. 개방적인 지적 커뮤니티 있으면 발전이 더 빨리 일어날 수 있습니다. 누군가가 절반은 좋은 아이디어를 내놓고, 다른 사람은 절반은 좋은 아이디어를 내놓기 때문입니다. 그들이 서로 소통한다면, 일이 일어날 것입니다. 만약 그들이 모두 너무 폐쇄적이고 고립되어 있다면, 발전은 일어나지 않을 것입니다.

얀 르쿤: 또 다른 중요한 점은 혁신적인 아이디어가 나오도록 하기 위해서는 NVIDIA의 수석 과학자로서 사람들이 실제로 혁신하도록 해야 한다는 것입니다. 3개월이나 6개월마다 뭔가를 내놓도록 강요하는 것이 아니라요. 이는 기본적으로 DeepSeek와 LLaMA의 경우입니다.

덜 알려진 이야기는 2022년 FAIR에 여러 LLM 프로그램이 있다는 것입니다. 하나는 대량 리소스와 리더십 지원을 받는 프로그램이고, 다른 하나는 어떤 이유에서인지 필요해서 스스로 LLM을 만들기로 결정한 파리의 12명으로 구성된 소규모 "해적" 프로젝트였습니다. 그 프로젝트는 LLaMA가 되었고, 여러분이 들어본 적도 없는 그 대규모 프로젝트는 중단되었습니다.

그러니 모든 지원을 받지 못하더라도 여전히 훌륭한 아이디어를 생각해 낼 수 있습니다. 당신이 어느 정도 경영진과 단절되어 혼자 일하도록 한다면, 정해진 일정에 따라 혁신을 요구받을 때보다 더 나은 아이디어가 떠오를 가능성이 높습니다. 12명이 LLaMA를 개발한 후 이를 플랫폼으로 선택하기로 결정했습니다. 이를 기반으로 팀이 구성되어 LLaMA 2를 개발했고, 이는 결국 오픈 소스로 공개되어 업계에 작은 혁명을 일으켰습니다. 어제 기준으로 LLaMA는 10억 회 이상 다운로드되었습니다. 저는 이게 정말 놀랍다고 생각해요. 여러분 중 많은 분들이 그럴 거라고 생각하지만, 그 사람들은 모두 누구일까요? 뭐, 여러분은 그들이 NVIDIA 하드웨어를 사서 그걸 구동해야 했기 때문에 알고 있어야 합니다. 이렇게 많은 GPU를 판매해 주셔서 (엔비디아) 감사드립니다.

빌 데일리: 오픈 소스에 대해 더 자세히 이야기해 보죠. 저는 LLaMA가 이 점에서 정말 혁신적이라고 생각합니다. 최첨단 LLM이고, 사람들이 직접 다운로드하여 실행할 수 있도록 가중치가 공개되어 있기 때문입니다. 이렇게 하는 데에는 어떤 장단점이 있나요? 이 회사는 모델을 개발하고, 모델을 훈련시키고, 모델을 미세 조정하는 데 엄청난 돈을 투자한 다음 이를 무료로 제공했습니다. 이렇게 하면 어떤 이점이 있나요? 단점은 무엇인가요?

얀 르쿤: 글쎄요, 단점도 있다고 생각해요. 서비스를 통해 직접 수익을 올리는 것을 목표로 하는 회사라면, 그것이 회사의 유일한 업무 이라면 모든 비밀을 공개하는 것이 이익이 되지 않을 수 있습니다. 하지만 Meta나 Google과 같이 수익이 다른 소스에서 발생하는 회사라면(Meta의 경우 광고, Google의 경우 다양한 소스) 단기간에 얼마나 많은 수익을 창출할 수 있는지가 중요한 것이 아니라, 만들고자 하는 제품에 필요한 기능을 구축하고 세계에서 가장 똑똑한 사람들을 참여시킬 수 있는지 여부가 중요합니다.

Meta의 경우, 다른 회사가 LLaMA를 다른 목적으로 사용하더라도 손해는 없을 것입니다. 왜냐하면 그들은 LLaMA를 기반으로 구축할 수 있는 소셜 네트워크가 없기 때문입니다. 이 방식은 구글에 더 큰 위협이 됩니다. 검색 엔진을 구축하는 데 사용할 수 있기 때문입니다. 아마도 구글이 이 접근 방식을 적극적으로 취하지 않는 이유도 여기에 있을 것입니다.

Yann LeCun: PyTorch와 LLaMA를 통해 우리가 본 또 다른 영향은 새로운 스타트업의 전체 생태계가 시작되었다는 것입니다. 현재 대규모 산업에서 이러한 현상이 나타나고 있습니다. 사람들은 때로는 독점 API를 사용하여 AI 시스템의 프로토타입을 만들지만, 배포할 때가 되면 가장 비용 효율적인 방법은 LLaMA에서 실행하는 것입니다. 온프레미스나 다른 오픈 소스 플랫폼에서 실행할 수 있기 때문입니다. 철학적으로 볼 때, 오픈 소스 플랫폼을 원하는 가장 중요한 이유는 아주 짧은 기간 안에 디지털 세계와의 모든 상호작용이 AI 시스템을 통해 이루어지게 될 것이기 때문이라고 생각합니다. 저는 지금 Ray-Ban Meta 스마트 안경을 쓰고 있는데, 안경을 통해 Meta AI와 대화하고 질문을 할 수 있습니다.

얀 르쿤: 사람들이 단 한 명의 비서만 원할 것이라고는 생각하지 않습니다. 그리고 그 비서들은 미국 서부 해안이나 중국에 있는 소수의 회사에서 나올 것이라고도 생각하지 않습니다. 우리에게는 매우 다양한 보조 인력이 필요합니다. 그들은 전 세계의 모든 언어를 구사하고, 전 세계의 모든 문화, 모든 가치 체계, 모든 관심 지역을 이해할 수 있어야 합니다. 그들은 다양한 편견, 정치적 관점 등을 가져야 합니다. 다양한 미디어가 필요한 것과 같은 이유로 다양한 조수가 필요합니다. 그렇지 않으면, 우리는 모두 같은 출처에서 같은 정보를 얻게 될 것이고, 이는 민주주의나 그 밖의 어떤 것에도 좋지 않을 것입니다.

다양한 조수를 구축하는 데 누구나 사용할 수 있는 플랫폼이 필요합니다. 현재 이 작업은 오픈 소스 플랫폼을 통해서만 가능합니다. 저는 이것이 미래에 훨씬 더 중요해질 것이라고 생각합니다. 왜냐하면 우리가 전 세계의 모든 언어를 말할 수 있는 기본 모델을 갖고 싶다면, 어떤 단일 기관도 혼자서 그것을 할 수 없기 때문입니다. 전 세계 모든 언어로 된 데이터를 모두 수집하여 OpenAI, Meta, Google 또는 Anthropic에 제공할 사람은 누구입니까? 아무도.

그들은 그 데이터를 보관하고 싶어합니다. 세계의 개별 지역에서는 글로벌 기반 모델에 자신의 데이터를 기여하고 싶어하지만, 실제로 데이터를 넘겨주고 싶어하지는 않습니다. 그들은 글로벌 모델의 훈련에 기여할 수 있습니다. 저는 이것이 미래의 모델이라고 생각합니다. 기본 모델은 오픈 소스이며 분산 방식으로 학습되며, 전 세계의 다양한 데이터 센터에서 서로 다른 데이터 하위 집합에 접근하여 본질적으로 합의 모델을 학습하게 됩니다. 이로 인해 오픈소스 플랫폼은 완전히 불가피해지고, 독점 플랫폼은 사라질 것이라고 생각합니다.

빌 데일리: 언어와 사물의 다양성, 그리고 응용 프로그램을 고려하면 맞는 말이에요. 특정 회사는 LLaMA를 다운로드한 다음 업로드하고 싶지 않은 독점 데이터에 맞춰 미세 조정할 수 있습니다.

얀 르쿤: 이게 지금 일어나고 있는 일이에요. 대부분 AI 스타트업의 비즈니스 모델은 이를 중심으로 구축됩니다. 그들은 수직적 응용 프로그램을 위한 특수 시스템을 구축합니다.

빌 데일리: 젠슨의 기조연설에서 그는 생성적 LLM을 사용하여 결혼식 계획을 세우고 누가 테이블에 앉을지 결정하는 훌륭한 사례를 보여주었습니다. 이는 학습에 노력을 투자하는 것과 추론에 노력을 투자하는 것 사이의 균형을 잘 보여주는 예입니다.

한 가지 시나리오는 대량 리소스를 학습에 투자하여 매우 강력한 모델을 구축할 수도 있고, 덜 강력한 모델을 구축하지만 추론하고 작업을 완료할 수 있도록 여러 번 실행할 수도 있습니다. 강력한 모델을 구축할 때 학습 시간과 추론 또는 테스트 시간 간의 균형은 무엇이라고 생각하십니까? 가장 좋은 지점은 어디일까?

얀 르쿤: 우선, 저는 젠슨이 궁극적으로 추론할 수 있는 시스템에서 더 많은 힘을 얻을 수 있다고 생각합니다.

하지만 저는 추론 능력을 갖춘 LLM이 사용하는 현재 추론 방식이 옳다고 생각하지 않습니다. 이 방법은 효과가 있지만 올바른 방법은 아닙니다. 우리가 추론하고 생각할 때, 우리는 언어와는 아무런 상관이 없는 추상적인 정신 상태에서 그렇게 합니다. 토큰 공간에서 돌아다니고 싶지는 않을 겁니다. 당신은 토큰 공간이 아닌 잠재 공간에서 추론하고 싶어합니다.

만약 제가 여러분에게 육면체 하나를 여러분 앞에 떠 있는 것을 상상하고, 그 육면체를 수직축을 중심으로 90도 회전시키라고 한다면, 언어와 관계없이 여러분은 마음속으로 그렇게 할 수 있습니다. 고양이는 이런 행동을 할 수 있고, 우리는 고양이에게 이것을 말로 설명할 수 없습니다. 하지만 고양이는 가구 위로 뛰어오르기 위한 궤적을 계획할 때 이보다 훨씬 더 복잡한 행동을 합니다. 그들은 그보다 훨씬 더 복잡한 일을 하며 언어에 구애받지 않습니다. 그것은 토큰 공간에서는 확실히 이루어지지 않습니다. 토큰 공간에서는 일련의 동작이 이루어지기 때문입니다. 이는 추상적인 정신 공간에서 이루어집니다. 앞으로 몇 년 동안의 과제는 이런 유형의 추론을 허용하는 새로운 아키텍처를 찾아내는 것입니다. 지난 몇 년간 제가 연구해온 내용은 ​​다음과 같습니다.

빌 달리: 이 추상적인 공간에서 추론할 수 있는 새로운 종류의 모델을 기대해야 할까요?

얀 르쿤: JEPA 세계 모델이라고 합니다. 저와 동료들은 지난 몇 년 동안 이 문제에 관해 일련의 논문을 발표했는데, 이는 이 방향으로 나아가는 첫 걸음이라고 할 수 있습니다. JEPA는 조인트 임베딩 예측 아키텍처를 의미합니다.

이는 추상적 표현을 학습하고 그 표현을 조작할 수 있는 세계 모델로, 아마도 추론하고 특정 목표를 달성하기 위한 일련의 행동을 생성할 수 있습니다. 저는 이것이 미래라고 생각합니다. 약 3년 전, 저는 이 문제에 관해 긴 논문을 썼는데, 그 논문에서 이것이 어떻게 작동하는지 설명했습니다.

빌 데일리: 이러한 모델을 실행하려면 뛰어난 하드웨어가 필요합니다. 지난 10년 동안 케플러에서 블랙웰에 이르기까지 AI 모델의 훈련과 추론을 위한 GPU 성능은 5,000배에서 10,000배까지 증가했습니다. 오늘은 더 많은 사람들이 오는 것을 보았습니다. 확장 및 축소는 추가적인 기능을 제공합니다. 당신의 생각으로는 미래에는 무슨 일이 일어날 것 같나요? JPA 모델과 다른 더욱 강력한 모델을 구축하기 위해 우리가 어떤 종류의 것을 기대하시나요?

얀 르쿤: 글쎄요, 계속해서 발전시켜야 합니다. 우리에게는 가능한 모든 컴퓨팅 능력이 필요하거든요. 추상 공간에서 이런 종류의 추론은 런타임에 엄청난 계산 비용이 들며, 우리 모두가 잘 알고 있는 것과 관련이 있습니다.

심리학자들은 시스템 1과 시스템 2에 대해 이야기합니다. 시스템 1은 생각하지 않고 수행하는 작업입니다. 이런 일은 이제 몸에 익어서 별다른 생각 없이도 할 수 있습니다. 예를 들어, 운전자 경험이 풍부한 사람이라면 운전 보조 없이도 운전할 수 있고, 누군가와 대화하면서 운전할 수도 있습니다. 하지만 처음 운전을 하거나 운전을 시작한 지 몇 시간밖에 안 되었다면 운전에 정말 집중해야 합니다. 여러분은 다양한 재난 시나리오에 대한 계획을 세우고 있습니다. 이것이 시스템 2입니다. 세상 전체 모델을 동원하여 무슨 일이 일어날지 파악한 다음, 좋은 일이 일어나도록 행동을 계획합니다.

얀 르쿤: 하지만 이미 작업에 익숙해진 경우에는 계획 없이도 작업을 완료할 수 있는 반응형 시스템인 시스템 1만 사용할 수 있습니다. 첫째, 이런 종류의 추론은 시스템 2이고, 자동적이고 잠재의식적이며 반응적인 전략은 시스템 1입니다.

현재 시스템은 서서히 시스템 2로 이동하려고 하고 있지만, 궁극적으로 시스템 2를 구현하기 위해서는 다른 아키텍처가 필요하다고 생각합니다. 물리적 세계를 이해할 수 있는 시스템을 원한다면 생성 아키텍처는 적합하지 않다고 생각합니다. 물리적 세계는 언어보다 이해하기가 훨씬 더 어렵습니다. 우리는 언어를 인간의 지적 능력의 전형으로 생각하지만, 사실 언어는 분리되어 있기 때문에 단순합니다. 이는 통신 수단이므로 소음에 강하도록 분리되어 있어야 합니다. 그렇지 않으면 지금 제가 하는 말을 이해할 수 없을 겁니다. 그러니까, 그 이유는 간단하죠. 하지만 현실 세계는 훨씬 더 복잡합니다.

Yann LeCun: 예전에 제가 한 말을 들어보셨을 겁니다. 현재 LLM은 일반적으로 교육에 약 30조 개의 토큰을 사용합니다. 토큰은 일반적으로 약 3바이트이므로 10^14바이트라고 가정하면 약 0.9~10^14바이트가 됩니다. 인터넷에 있는 텍스트가 모두 40만 년이기 때문에, 우리 중 누구라도 이 모든 글을 다 읽으려면 40만 년 이상이 걸릴 겁니다.

하지만 심리학자들은 4살짜리 아이가 총 16,000시간 동안 깨어 있고, 매초 약 2MB의 데이터가 시신경을 통해 시각 피질로 전송된다고 말합니다. 이는 초당 약 2MB입니다. 이를 16,000시간으로 곱하고, 다시 3,600을 곱하면 약 10^14바이트가 되는데, 이는 4년 동안 시각을 통해 수집한 데이터의 양과 같습니다. 우리 눈이 보는 데이터의 양은 우리가 40만 년 동안 읽어야 할 텍스트 양과 같습니다.

이는 텍스트 학습만으로는 AGI(무슨 뜻인지는 모르겠지만)를 달성할 수 없다는 것을 말해줍니다. 이런 일은 일어날 수 없습니다.

빌 데일리: 하드웨어로 돌아가서, 스파이킹 시스템에는 많은 발전이 있었고, 생물학적 시스템과의 유추를 연구하는 사람들과 옹호자들은 신경모사 하드웨어에 적합한 곳이 있다고 생각합니다. 신경형 하드웨어가 AI 처리에서 GPU를 보완하거나 대체할 수 있다고 생각하시나요?

얀 르쿤: 단기적으로는 그렇지 않습니다. 음, 글쎄요, 이에 대한 이야기를 하나 해드릴게요. 제가 1988년에 벨 연구소에 입사했을 때, 제 그룹은 실제로 신경망을 위한 아날로그 하드웨어에 집중하고 있었습니다. 그들은 완전히 아날로그 방식, 하이브리드 아날로그-디지털 방식, 그리고 1990년대 중반까지 완전히 디지털 방식의 여러 세대의 신경망을 구축했습니다.

그 당시 사람들은 신경망에 대한 관심을 잃어가고 있었기 때문에 의미가 없었습니다. 이와 같은 복잡한 기본 원리의 문제점은 현재 디지털 반도체가 너무나 심각한 국소적 최소값에 있기 때문에 대체 기술이 따라잡으려면 시간과 대량 투자가 필요하다는 것입니다. 원칙적으로도 이점이 있는지는 확실하지 않습니다.

얀 르쿤: 아날로그나 스파이크 뉴런, 스파이크 신경망과 같은 것은 본질적으로 장점이 있을 수 있지만, 하드웨어 재사용을 매우 어렵게 만듭니다. 현재 우리가 사용하는 모든 하드웨어는 어떤 의미에서 너무 크고 너무 빠르기 때문에 기본적으로 동일한 하드웨어를 재사용하여 모델의 다른 부분을 계산해야 합니다.

아날로그 하드웨어를 사용하면 멀티플렉싱을 사용할 수 없습니다. 가상 신경망의 각 뉴런에는 물리적 뉴런이 있어야 합니다. 즉, 하나의 칩에 적당한 크기의 신경망을 넣을 수 없다는 뜻입니다. 여러 개의 칩을 사용해야 하며, 그렇게 되면 속도는 매우 빠르지만 칩 간의 통신이 필요하고 메모리가 복잡해지기 때문에 효율적이지 않습니다. 궁극적으로, 소음에 맞서 효율성을 달성할 수 있는 유일한 방법이기 때문에 디지털 방식으로 소통하는 것이 필요합니다.

얀 르쿤: 사실 뇌는 흥미로운 정보를 제공합니다. 대부분의 뇌, 혹은 대부분 동물의 뇌는 충동을 통해 의사소통을 합니다. 펄스는 이진 신호이므로 아날로그가 아니라 디지털입니다. 뉴런 수준의 계산은 아날로그일 수 있지만, 뉴런 간의 통신은 실제로 디지털입니다. 아주 작은 동물을 제외하면 말입니다. 예를 들어, 길이가 1mm인 벌레인 C. elegans에는 302개의 뉴런이 있습니다. 그들은 장거리 통신이 필요하지 않기 때문에 펄스를 보내지 않으며, 따라서 그 규모에서는 아날로그 통신을 사용할 수 있습니다.

이는 아날로그 컴퓨팅과 같은 고급 기술을 사용하더라도 어떻게든 디지털 통신을 사용해야 한다는 것을 말해줍니다. 적어도 기억의 경우는 그렇습니다. 명확하지 않은데, 저는 이 계산을 여러 번 했습니다. 저는 이 문제에 대해 당신만큼 잘 알지는 못하지만, 가까운 시일 내에 일어날 일은 아니라고 생각합니다.

빌 데일리: 어쩌면 엣지 컴퓨팅의 어떤 부분에서는 의미가 있을 수도 있겠습니다. 예를 들어, 진공 청소기나 잔디 깎는 기계의 인식 시스템을 구동할 매우 저렴한 마이크로컨트롤러가 필요하다면 컴퓨팅이 적합할 수도 있습니다. 모든 것을 하나의 칩에 넣고 위상 변화 메모리 같은 걸 사용해서 무게를 저장할 수 있다면, 이런 걸 만드는 데 진지하게 노력하는 사람들이 있을 거라고 압니다. 이것이 PIM(Processor-in-Memory) 또는 아날로그와 디지털 프로세서 및 메모리 기술이라고 불리는 것입니다. 효과가 있다고 생각하시나요? 그들에게 미래가 있을까요?

얀 르쿤: 물론이죠. 제 동료 중 일부는 이 제품에 큰 관심을 갖고 있는데, 그 이유는 스마트 안경의 후속 제품을 만들고 싶어하기 때문입니다. 당신이 원하는 것은 시각적 처리가 항상 진행되도록 하는 것입니다. 현재로서는 전력 소모로 인해 불가능합니다. 이런 안경에서는 이미지 센서와 같은 센서 하나만 항상 켜둘 수는 없습니다. 배터리는 몇 분 안에 소진될 겁니다.

한 가지 잠재적인 해결책은 센서에서 직접 처리하여 에너지를 소모하는 칩 외부로 데이터를 옮길 필요가 없도록 하는 것입니다. 에너지를 소모하는 것은 계산 자체가 아니라 데이터 이동입니다. 이 분야에서는 많은 작업이 진행 중이지만, 아직은 거기까지 이르지 못했습니다. 저는 이것이 유망한 방향이라고 생각합니다. 사실 생물학은 이미 이 문제를 해결했습니다. 망막에는 약 6,000만 개의 광수용체가 있으며, 망막 앞에는 4개의 층으로 된 투명한 뉴런이 있는데, 이 뉴런이 신호를 처리하여 100만 개의 시신경 섬유로 압축한 후 시각 피질로 전달합니다. 비전 시스템에서 가장 유용한 정보를 얻기 위해 압축, 기능 클레임 등 다양한 방법이 사용됩니다.

빌 데일리: 다른 새로운 기술은 어떤가요? 양자 기술, 초전도 논리 기술, 또는 앞으로 등장할 다른 기술이 AI 처리 능력을 크게 발전시킬 것이라고 생각하시나요?

얀 르쿤: 초전도성일 수도 있겠네요. 저는 그것에 대해 제대로 판단할 만큼 알지 못합니다. 광학은 매우 실망스러웠습니다. 저는 1980년대에 신경망의 광학적 구현에 대한 논의에 매우 놀랐던 걸 기억합니다. 하지만 그 논의는 결코 성공하지 못했습니다. 기술은 계속 발전하고 있으니, 어쩌면 바뀔 수도 있겠죠.

양자와 관련해서, 저는 양자 컴퓨팅에 대해 매우 회의적입니다. 제가 볼 때 양자 컴퓨팅의 유일한 중기적 응용 분야는 양자 화학이나 그에 비슷한 것, 즉 양자 시스템을 시뮬레이션하는 것 같습니다. 다른 모든 것에 대해서는 나는 극도로 회의적이다.

빌 데일리: 아기가 관찰을 통해 학습하는 것처럼, 관찰을 통해 학습할 수 있는 AI를 만드는 것에 대해 말씀하셨는데요. 이것이 하드웨어에 어떤 종류의 요구를 한다고 생각하시나요? 이를 실현하기 위해서는 어떤 하드웨어를 개발해야 한다고 생각하시나요? 우리에게 얼마나 주실 수 있나요?

얀 르쿤: 문제는 얼마나 많이 사고 싶어하는가입니다. 오늘 들었듯이, 더 많이 구매할수록 더 많이 절약할 수 있습니다. 이건 싸지 않을 거야. 예를 들어 영화. 약 1년 전까지 제 동료 중 일부가 진행했던 실험에 대해 말씀드리겠습니다. 재구성을 사용하여 이미지 표현을 학습하는 자기 감독 학습 기술이 있습니다. 이 프로젝트의 이름은 MAE인데, Masked Autoencoder의 약자입니다.

기본적으로 자동 인코더, 잡음 제거 자동 인코더로, 사용된 것과 매우 유사합니다. 이미지를 촬영하고, 실제론 큰 덩어리의 일부를 제거하여 손상시킨 다음, 거대한 신경망을 훈련시켜 픽셀 수준이나 토큰 수준에서 전체 이미지를 재구성합니다. 그런 다음 내부 표현을 객체 인식 등의 다운스트림 작업에 대한 입력으로 사용하여 지도 학습을 실시합니다.

Yann LeCun: 잘 작동하지만, 액체 냉각 GPU 클러스터를 식히려면 작은 연못을 끓여야 합니다. 이는 조인트 임베딩 아키텍처보다 훨씬 효과적이지 않습니다. 여러분은 DINO, DINO V2, JAPA 등에 대해 들어보셨을 것입니다. 이것들은 공동 임베딩 아키텍처이며, 더 잘 작동하는 경향이 있으며 실제로 훈련 비용도 저렴합니다.

조인트 임베딩에서는 기본적으로 두 개의 입력 범주에 해당하는 두 개의 잠재 공간이 있습니다. 모든 것을 하나의 토큰으로 변환하는 대신 전체 이미지와 손상되거나 변형된 버전을 가져와서 둘 다 인코더를 통해 실행한 다음 임베딩을 연결해 볼 수 있습니다. 부분적으로 보이거나 손상된 이미지의 표현을 통해 완전한 이미지의 표현을 훈련합니다. 이렇게 하면 더 나은 결과를 얻을 수 있고 비용도 절감됩니다.

얀 르쿤: 그래서 팀에서 "이미지에는 잘 작동하는 것 같으니 영화에도 시도해 보자"고 했습니다. 이제 영화를 토큰화해야 하는데, 기본적으로 영화를 16×16 패치로 변환하는 작업입니다. 짧은 영화라도 패치가 대량. 그런 다음 영화에서 누락된 패치를 재구성하여 미래의 영화를 예측하는 데 사용할 수 있는 거대한 신경망을 훈련합니다. 이렇게 하려면 작은 연못이 아니라 작은 호수를 끓여야 하므로 사실상 실패할 것입니다. 해당 프로젝트는 중단되었습니다.

얀 르쿤: 현재 우리가 추진하고 있는 대안은 VJA라는 프로젝트이고, 두 번째 버전을 출시하려고 합니다. 이는 공동 임베딩 예측 아키텍처 중 하나입니다. 즉, 영화에 대한 예측을 하지만 표현 수준에서 이루어지며 매우 잘 작동하는 것 같습니다. 이에 대한 예가 있습니다. 첫 번째 버전은 16개 프레임에 불과한 매우 짧은 클립을 통해 학습되었으며, 클립의 부분적으로 마스크된 버전에서 전체 클립의 표현을 예측하도록 학습되었습니다.

그 시스템은 적어도 제한된 상황에서 특정 영화가 물리적으로 가능한지 여부를 알려줄 수 있는 듯합니다. 이진법 출력이 나옵니다. "이건 작동해", "이건 작동하지 않아", 아니면 이보다 더 간단할 수도 있죠. 시스템이 만든 예측 오류를 측정합니다. 영화에서 16프레임 슬라이딩 윈도우를 사용하여 다음 몇 프레임을 예측해 보세요. 예측 오차를 측정하면 영화에서 정말 이상한 일이 일어날 때(예: 물체가 사라지거나, 모양이 바뀌거나, 자연스럽게 나타나거나, 물리 법칙을 따르지 않는 경우) 이를 이상 현상으로 태그.

빌 달리: 이건 자연 필름인데, 합성 필름에서 테스트하면 매우 이상한 일이 일어납니다.

얀 르쿤: 매우 이상한 일이 일어나는 영화로 학습시키면 그게 표준이 되어서 그런 영화는 이상하다고 감지하지 못하게 됩니다. 그러니 그럴 수 없죠. 아기가 직관적인 물리학을 배우는 방식과 비슷해요. 지지되지 않는 물체는 본질적으로 중력의 힘으로 인해 떨어지게 되는데, 아기는 약 9개월이 되면 이 사실을 배우게 됩니다.

5~6개월 된 아기에게 물체가 공중에 떠 있는 것처럼 보이는 장면을 보여 주면 아기는 놀라지 않을 것입니다. 하지만 9~10개월이 되면 눈을 크게 뜨고 그것을 볼 수 있게 되고, 실제로 측정할 수 있게 됩니다. 심리학자들은 주의력을 측정하는 방법을 가지고 있는데, 이는 아기의 세상에 대한 내부 모델이 훼손된다는 것을 의미합니다. 아기는 불가능하다고 생각했던 것을 보았고, 그것은 그녀의 기대와 맞지 않았습니다. 그래서 그녀는 자신의 내부 모델을 바로잡기 위해 그것을 살펴봐야 하고, "아마도 이것에 대해 배워야 할 것 같아."라고 말해야 합니다.

빌 데일리: 이 공동 임베딩 공간에서 추론과 계획을 수행하는 것에 대해 말씀하셨는데요. 거기까지 가려면 무엇이 필요한가요? 모델과 하드웨어 측면에서 병목 현상은 무엇입니까?

얀 르쿤: 대부분은 그저 작동하도록 만드는 것이었습니다. 좋은 요리법이 필요해요. 사람들이 간단한 합성 신경망을 훈련하는 좋은 방법을 생각해내기 전까지는 매우 어려웠습니다. 2000년대 후반에 제프 힌튼은 역전파 알고리즘을 사용하여 딥 네트워크를 훈련하는 것은 매우 어렵다고 모든 사람에게 말했습니다. 얀 르쿤은 ConvNets를 이용해 이를 해낼 수 있었지만, 당시에는 그가 유일하게 이를 해낼 수 있는 사람이었지만 전적으로 정확하지는 않았습니다.

그렇게 어렵지는 않지만, 알아내야 할 요령이 많습니다. 엔지니어링 요령, 직관적 요령, 어떤 비선형 함수를 사용할 것인가, 지난 10년 동안 과학계에서 가장 많이 인용된 논문인 ResNet의 아이디어 등이 있습니다. 매우 간단한 아이디어입니다. 모든 계층을 건너뛰어 연결을 생성하기만 하면 되므로 기본적으로 딥 신경망의 계층은 항등 함수로 혼동되며, 신경망이 하는 일은 이 매우 간단한 아이디어에서 벗어난 것입니다. 이를 통해 역전파 과정에서 기울기 소멸을 방지하고 100개 이상의 층으로 신경망을 훈련할 수 있습니다.

얀 르쿤: 사람들이 잔여 연결, 아담 최적화, 정규화를 모두 포함한 완전한 레시피를 생각해내기 전까지는 아무것도 제대로 작동하지 않았습니다. 우리는 방금 변압기에서는 정규화가 필요 없다는 것을 보여주는 논문을 발표했습니다. 이 완벽한 공식과 모든 팁을 갖추기 전까지는 아무것도 효과가 없습니다.

이는 NLP와 자연어 처리 시스템에도 해당됩니다. 2010년대 중반에는 BERT와 같이 잡음 제거 자동 인코더를 기반으로 하는 시스템이 있었습니다. 이 시스템에서는 텍스트 조각을 가져와 손상시킨 다음 대규모 신경망을 훈련하여 누락된 단어를 복구합니다. 결국, 이는 전체 시스템에서 학습이 가능한 GPT 스타일 아키텍처로 대체되었습니다. 자동 인코더로 학습하지만 아키텍처가 인과적이기 때문에 입력을 손상시킬 필요가 없습니다. 이러한 접근 방식은 매우 성공적이고 확장성이 뛰어난 것으로 입증되었습니다.

Yann LeCun: 우리는 JAPA 아키텍처가 동일한 수준으로 확장될 수 있도록 좋은 방법을 고안해야 했습니다. 바로 그것이 빠진 부분이에요.

빌 데일리: 글쎄요, 우리 앞에는 깜빡이는 빨간불이 켜져 있어요. 이제 마무리하기 전에 청중 여러분께 전하고 싶은 마지막 말씀이 있으신가요?

얀 르쿤: 네, 제가 앞서 언급한 관점 강조하고 싶습니다. AI의 발전과 인간 수준의 AI, 고급 기계 지능, AGI(어떻게 부르든)로 가는 여정에는 모든 사람의 기여가 필요합니다. 그것은 비밀리에 연구 개발을 하는 어떤 단일 기관에서 나오지는 않을 것입니다. 그런 일은 일어나지 않을 거예요. 그것은 한 번의 이벤트가 아닙니다. 그 과정에서 끊임없이 많은 발전이 있을 것입니다.

이 일이 일어난 지 한 시간 만에 인간이 죽는 일은 없을 겁니다. 왜냐하면 그것은 사건이 아니기 때문입니다. 전 세계의 기여가 필요할 것입니다. 이는 개방적인 연구여야 하며 오픈 소스 플랫폼을 기반으로 해야 합니다. 그들에게 대량 훈련이 필요하다면, 우리는 더 저렴한 하드웨어가 필요할 것입니다. 당신(엔비디아)은 가격을 낮춰야 합니다. [웃다]

빌 데일리: 젠슨과 이 문제에 대해 이야기해 보세요.

얀 르쿤: 우리는 일상생활에 도움을 주고, 스마트 안경이나 다른 스마트 기기를 통해 항상 우리와 함께하는 매우 다양한 AI 조수들이 있는 미래를 맞이하게 될 것입니다. 그리고 우리는 그들의 상사가 될 것입니다. 그들은 우리를 위해 일할 것입니다. 마치 우리 모두가 관리자가 되는 것과 같습니다. 무서운 미래네요.

빌 데일리: 음, 여기서 멈추고, 정말 지적으로 자극적인 대화를 이끌어 주셔서 감사드리고, 이런 대화를 다시 나눌 기회가 있었으면 좋겠습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트