허카이밍의 첫 번째 언어 모델: 1억 5백만 개의 매개변수를 사용하며, 기존의 GPT 자기회귀 방식을 피했습니다.

36氪

이 기사는 기계로 번역되었습니다

원문 표시

허카이밍은 언어 모델링 분야에도 뛰어들었다.

하지만 이번에 그가 이끄는 팀은 ChatGPT에 익숙한 자기회귀 패러다임인 "다음 토큰 예측" 방식을 사용하지 않았습니다.

대신, 지난 몇 년 동안 이미지 분야에서 엄청난 인기를 얻었고 이제 텍스트 생성에도 점점 더 많이 채택되고 있는 새로운 접근 방식인 확산 언어 모델(DLM)이 있습니다.

카이밍 허(Kaiming He) 연구팀은 최근 논문에서 ELF(Embedded Language Flows)라는 새로운 연속 확산 언어 모델을 공개했습니다.

토큰 수준 확산에 여전히 의존하는 많은 언어 모델과 달리, ELF는 최종 단계에서 표현을 다시 토큰으로 이산화할 때까지 전체 생성 프로세스를 연속적인 임베딩 공간에 유지합니다.

이러한 설계를 통해 ELF는 단 1억 500만 개의 파라미터, 450억 개의 학습 토큰, 그리고 32번의 샘플링 단계만을 사용하여 여러 주류 확산 언어 모델보다 뛰어난 성능을 보였습니다.

가장 직관적인 지표는 OpenWebText에서 생성 오류율(perplexity)을 24로 줄였다는 점입니다.

생성 오류율에 대한 간략한 설명은 다음과 같습니다. 기본적으로 강력한 언어 모델이 생성된 결과를 "검사"하여 텍스트가 실제 사람이 쓴 언어와 얼마나 유사한지 확인하는 과정입니다.

값이 낮을수록 생성된 데이터의 품질이 높아지고, 모델의 출력은 인공지능적인 느낌이 줄어들고 더욱 자연스러워집니다.

주류 확산 언어 모델과 비교했을 때, ELF는 약 10배 적은 훈련 토큰과 더 적은 샘플링 단계를 필요로 함에도 불구하고 더 낮은 생성 오류율을 달성했습니다.

과거 오랫동안 확산형 언어 모델(DLM)의 발전은 거의 전적으로 이산형 DLM 측면에서 이루어졌다고 할 수 있습니다.

ELF는 연속 메서드가 실행될 뿐만 아니라 제대로 작동한다는 것을 처음으로 입증했습니다.

ELF는 정확히 무엇을 했나요?

ELF를 이해하려면 먼저 확산 언어 모델이 실제로 무엇을 하는지 이해해야 합니다.

확산 언어 모델에는 크게 두 가지 기술적 접근 방식이 있습니다. 하나는 MDLM과 Duo로 대표되는 이산적 접근 방식 으로, 토큰 공간에서 직접 확산을 수행하며 각 단계에서 이산 확률 변수를 처리합니다.

두 번째 범주에는 Diffusion-LM, CDCD 및 DiffuSeq와 같은 연속적인 방법이 포함되는데, 이러한 방법들은 토큰을 연속적인 임베딩으로 매핑하고 연속적인 공간에서 노이즈를 제거합니다.

이전 연구에서는 MDLM, LLaDA, Dream 7B와 같은 이산적 접근 방식이 지배적이었다는 점이 밝혀졌습니다. 그 이유는 간단합니다. 언어 자체가 이산적이기 때문입니다.

이처럼 상식적인 이해에 대해 카이밍의 팀은 정반대의 평가를 내놓았습니다.

문제는 "언어는 반드시 불연속적이어야 한다"는 것이 아니라, 이전 연구자들이 연속적인 경로를 고려하지 않았다는 점일지도 모릅니다.

Diffusion-LM과 같은 방법은 임베딩 공간의 노이즈를 제거하는 동시에 각 단계에서 토큰 수준의 교차 엔트로피를 계산하여 연속적인 궤적을 어휘에 연결합니다.

이후 LD4LG와 Cosmos는 잠재 확산 방식을 채택하여 노이즈 제거 프로세스를 연속적으로 만들었지만, 잠재 데이터를 토큰으로 다시 디코딩하기 위해 별도의 디코더를 학습해야 했으며, 이는 추가 모듈 추가하는 것과 같습니다.

이를 바탕으로 ELF는 모든 노이즈 제거 작업을 연속 임베딩 공간에 남겨두고, 토큰은 최종 단계인 t=1에서만 반환됩니다.

구체적으로, 학습 과정에서 ELF의 이산 토큰은 먼저 연속 임베딩으로 인코딩된 다음 노이즈가 추가되어 z_t가 생성됩니다. 모델은 이를 깨끗한 임베딩으로 복원하거나(MSE) 토큰을 직접 예측하는(CE) 역할을 수행합니다.

추론 과정에서 모델은 가우시안 노이즈 z_0에서 시작하여 마지막 단계까지 공간에서 지속적으로 노이즈를 제거한 다음, 디코딩 모드로 전환하여 임베딩을 토큰에 다시 넣습니다.

ELF는 처음으로 이전에는 반복적인 정렬이 필요하다고 여겨졌던 "연속적 표현"과 "이산적 출력" 문제를 완전히 분리했습니다.

중간 단계의 잡음 제거는 전적으로 연속 공간에서 처리되며, 최종 언어 생성은 이산화의 마지막 단계에서 이루어집니다.

매 단계마다 어휘에 엄격하게 맞추거나 추가 디코더를 학습시킬 필요 없이, 전체 생성 과정이 처음으로 이러한 목표를 진정으로 달성했습니다.

연속은 연속이고, 이산은 이산입니다.

이것이 바로 ELF가 더 적은 샘플링 단계와 더 적은 학습 토큰으로 다양한 확산 언어 모델보다 뛰어난 성능을 발휘할 수 있는 핵심적인 이유입니다.

ELF는 "먼저 확산시킨 다음 디코딩하는" 방식이 아닙니다.

ELF는 구체적인 구현 과정에서 다음과 같은 세 가지 문제를 해결합니다.

토큰을 연속형으로 만들려면 어떻게 해야 할까요? 연속형 토큰에서 노이즈를 제거하려면 어떻게 해야 할까요? 그리고 마지막으로 다시 토큰으로 변환하려면 어떻게 해야 할까요?

토큰을 연속 임베딩으로 변환합니다.

언어에 연속 확산법을 적용하려면 먼저 이산적인 토큰을 연속적인 표현으로 변환해야 합니다.

논문에서 ELF는 먼저 이를 토큰 시퀀스로 분할한 다음 연속적인 임베딩 공간으로 매핑합니다. 실제로 이 매핑을 수행하는 방법에는 여러 가지 옵션이 있습니다.

기본적으로 ELF는 T5 사전 학습된 인코더를 사용하여 양방향 문맥 임베딩을 생성합니다. 이 논문에서는 공동 학습 임베딩 및 무작위 임베딩과 같은 다양한 방식도 테스트합니다.

이 인코더는 학습 단계에서만 사용되며 추론 과정에서 추가 모듈 생성하지 않는다는 점에 유의해야 합니다.

연속적인 임베딩 공간에서 흐름 매칭을 수행합니다.

연속 표현을 얻은 후, ELF는 임베딩 공간에서 흐름 매칭을 수행합니다.

간단히 말해, 플로우 매칭은 노이즈에서 실제 데이터로 이어지는 연속적인 흐름 경로를 정의합니다.

t=0 시점에서는 가우시안 노이즈입니다.

t=1 시점에서 임베딩은 깨끗합니다.

모든 중간 상태는 두 상태의 선형 보간이며, 이것이 논문에서 정류된 흐름입니다.

기존의 유동 매칭 방식에서는 네트워크가 일반적으로 "속도장" v를 직접 예측합니다.

하지만 ELF는 그렇게 하지 않았습니다. 대신, 6개월 전 Kaiming 팀이 "기본으로 돌아가기: 노이즈 제거 생성 모델이 노이즈를 제거하도록 하라"에서 제안한 접근 방식을 채택했습니다.

깨끗한 임베딩 x를 직접 예측합니다. 이것이 바로 x-예측입니다 .

훈련 목표는 예측된 임베딩과 실제 임베딩 간의 평균 제곱 오차(MSE)를 최소화하는 것입니다.

논문에서는 x-예측을 사용한 이유로 두 가지를 제시했습니다.

첫째, 768차원 또는 그 이상의 고차원 토큰 임베딩과 같은 고차원 표현에서 더 안정적입니다. 둘째, 최종 단계의 목표인 "깨끗한 토큰 예측"과 자연스럽게 부합합니다.

논문에서는 이론적으로 속도 v를 먼저 예측한 다음 이를 x로 변환하는 것이 가능하지만, 이렇게 하면 노이즈 제거와 디코딩 간의 가중치 분담을 설정하기 어려워진다고 구체적으로 언급합니다.

실험 결과, 가중치를 공유하게 되면 v-예측 성능이 크게 저하되는 것으로 나타났습니다.

연속 임베딩에서 이산 토큰으로

생성된 언어는 최종적으로 개별 토큰을 출력합니다.

따라서 ELF는 마지막 시간 단계(t = 1) 에서만 연속 임베딩을 토큰 공간에 다시 넣으면 됩니다.

하지만 다른 많은 잠재 확산 방법과는 달리, ELF는 이 단계에서 추가적인 디코더를 학습시키지 않습니다. 대신, 최종 단계를 연속형에서 이산형으로의 디코딩 과정으로 처리합니다.

즉, 앞서 언급한 디코더와 노이즈 제거기는 사실상 동일한 네트워크입니다.

최종 학습 단계가 지나치게 단순해지는 것을 방지하기 위해 (이론적으로 t→1 시점에는 입력이 이미 깨끗한 임베딩에 매우 가깝기 때문에), ELF는 최종 단계에 토큰 수준의 변형 단계를 추가하여 변형된 입력을 구성합니다.

이후 동일한 네트워크는 깨끗한 임베딩을 출력하고, 이 임베딩은 학습 가능한 언임베딩 행렬 W를 통해 토큰 로짓으로 투영됩니다.

학습 목표는 표준 토큰 수준 교차 엔트로피 손실입니다. 전체 네트워크는 동일한 매개변수 세트를 공유하며, 추가적으로 이진 모드 토큰(잡음 제거 모드/디코딩 모드)을 입력으로 받습니다.

추론 과정에서 ELF는 가우시안 노이즈로 시작하여 마지막 단계 t = 1까지 공간에서 지속적으로 노이즈를 제거한 다음 디코딩 모드로 전환하여 argmax를 통해 최종 토큰을 출력합니다.

이미지 생성에서 가장 일반적으로 사용되는 기술 중 하나인 CFG(분류기 없는 안내)가 ELF에도 통합되었다는 점을 언급할 가치가 있습니다.

ELF는 자체 조건화를 조건 신호로 사용하고, 학습 시간 CFG(추론 오버헤드 없이 하나의 순방향 추론으로 두 번의 추론을 시뮬레이션)를 적용하여 이미지 측의 솔루션을 직접 이식합니다.

실험적 비교

실험 부문에서 ELF는 지난 2년간 제기되어 온 질문에 본질적으로 답을 내놓았습니다.

연속 확산 언어 모델이 정말로 승리할 수 있을까요? 답은 간단합니다. 승리할 수 있을 뿐만 아니라, 처음으로 품질, 속도, 학습 비용이라는 세 가지 측면에서 동시에 승리합니다.

서두에서 언급했듯이, OpenWebText 생성 작업에서 증류 과정을 거치지 않으면 ELF는 32단계의 샘플링만으로 생성의 복잡성을 24로 줄입니다.

이전에는 주류 이산 확산 모델이 이 수준에 도달하기 위해 1024단계가 필요한 경우가 많았습니다.

더욱 놀라운 것은 ELF가 단 45바이트의 학습 토큰만을 사용하여 이러한 결과를 달성했다는 점입니다.

한편, 같은 수준의 경쟁사들은 일반적으로 5천억 이상의 결과를 달성합니다. 즉, 샘플링 단계 수는 10분의 1 수준이고, 훈련 데이터도 10분의 1 수준인데도 더 나은 결과를 얻는다는 것입니다.

또한 ELF는 많은 확산 모델이 가장 뒤처지기 쉬운 조건부 생성 작업에서도 훌륭한 성능을 보여주었습니다.

WMT14 기계 번역이든 XSum 텍스트 요약이든, ELF는 기존 확산 언어 모델보다 일관되게 우수한 성능을 보이며, 많은 자기회귀 기반 모델보다도 뛰어난 성능을 보여줍니다.

이 논문은 다소 절제된 결론으로 마무리됩니다. ELF는 생성 품질, 샘플링 효율성 및 훈련 비용 사이에서 훌륭한 균형을 이룬다는 것입니다.

쉽게 말해, "지속적인 공격" 전략이 성공할 수 없는 것은 아닙니다. 다만 과거에 그 지속성을 꾸준히 유지하지 못했을 뿐입니다.

저자 소개

마지막으로 이 글의 저자를 소개하겠습니다.

이 논문의 제1 저자 두 명은 공통된 기여를 했으며, 그들의 등재 순서는 동전 던지기로 결정되었습니다.

후 케야는 이 논문의 제1 저자 중 한 명입니다. 그녀는 MIT 전기전자공학과(EECS) 박사 과정 1년차 학생이며, MIT에서 카이밍 교수의 지도를 받은 첫 번째 박사 과정 학생 중 한 명입니다. 현재 그녀는 카이밍 교수 와 제이콥 안드레아스 교수의 공동 지도를 받고 있습니다.

△

그녀는 상하이 자오퉁 대학교 ACM 과정을 졸업하고 학사 학위를 받았습니다. 현재 그녀의 연구 관심사는 주로 언어와 비전의 교차점에 있으며, 데이터 효율성이 높고 일반화 능력이 뛰어난 지능형 에이전트를 구축하는 데 전념하고 있습니다.

카이밍 MIT 홈페이지에서 후 케야가 성적을 받은 학생 중 가장 먼저 등재되어 있어, 그녀가 해당 그룹에서 가장 고학년 학생이라고 볼 수 있다는 점을 언급할 가치가 있습니다.

제2 제1 저자인 린루 추( Linlu Qiu ) 역시 MIT 박사 과정 학생이며, 윤 김(Yoon Kim) 교수의 지도를 받고 있습니다.

△

그녀는 홍콩대학교에서 학사 학위를, 조지아 공과대학교에서 석사 학위를 받았습니다. 또한 구글에서 AI 레지던트로 근무했습니다.

흥미롭게도, 이번이 그녀와 카이밍의 첫 번째 협업은 아닙니다. 최근 그녀와 카이밍의 팀은 "ARC는 비전 문제다!"라는 논문으로 CVPR 2026에서 수상했으며, ARC 추론 문제를 비전 문제로 재정의했습니다.

또 다른 저자인 한홍 자오는 MIT 학부생입니다. 그는 중국 인민대학교 부속 고등학교를 졸업했으며 국제물리올림피아드(IPhO)에서 금메달을 수상했습니다.

△

또 다른 작가인 루이양은 마치 "영재 육성 프로그램" 출신 같은 느낌을 주는 이력을 가지고 있다.

△

그는 칭화대학교 야오 클래스 2학년생으로, 현재 MIT 컴퓨터 과학 및 인공지능 연구소(CSAIL)에서 허카이밍 교수의 지도 아래 인턴으로 근무하고 있습니다. 그의 주요 연구 분야는 컴퓨터 비전과 심층 생성 모델입니다.

그는 고등학교 시절 물리 경시대회 참가자였으며, 2022년 제39회 전국 중고등학생 물리 올림피아드(CPhO)에서 장쑤성 학생 중 1위, 전국 9위를 기록하며 금메달을 수상했습니다.

앞서 그는 Kaiming과 함께 "양방향 정규화 흐름: 데이터에서 노이즈로, 그리고 다시 데이터로"라는 제목의 논문을 공동 저술했습니다.

또 다른 핵심 저자인 리톈훙 은 카이밍 연구실의 박사후 연구원입니다.

△

그는 칭화대학교 야오학부에서 학사 학위를, MIT에서 박사 학위를 받았습니다. 그는 6개월 전에 발표된 논문 "기본으로 돌아가기: 생성 모델의 노이즈 제거 기능을 활용하자"의 제1저자입니다.

또한, 이 논문의 다른 저자로는 언어 모델링을 전문으로 하는 MIT EECS의 윤 김 과 제이콥 안드레아스 교수, 그리고 카이밍 허 본인이 포함되어 있습니다.

참고 링크 [1] https://arxiv.org/pdf/2605.10938

이 글은 위챗 공식 계정 "Quantum Bit" 의 글이며, 작성자는 henry이고, 36Kr의 허가를 받아 게시되었습니다.

섹터:

세이(SEI) 생태계

스마트 컨트랙트

상호호완성

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트