GPT-4o 이미지 생성을 위한 "핵연료"가 발견되었습니다. 1만 단어의 기사가 잠재적 변수를 분해했습니다. 네티즌: AI가 다른 차원을 그리는 것으로 밝혀졌습니다.

05-06

이 기사는 기계로 번역되었습니다

원문 표시

지난달, GPT-4o의 이미지 생성 기능이 인기를 얻으면서 지브리 스타일로 대표되는 폭넓은 논의가 촉발되었고, 생성적 AI에 대한 열풍이 다시 한번 인터넷을 휩쓸었습니다.

이러한 흐름의 이면에는 생성 모델의 핵심 동력인 잠재 공간이 이미지와 비디오 창작에 무한한 상상력을 불어넣었습니다.

유명 연구자인 안드레이 카르파티는 최근 Google DeepMind 연구 과학자인 샌더 딜먼의 블로그 게시물을 전달했는데, 이 게시물에서는 생성 모델(예: 이미지, 오디오, 비디오 생성 모델)이 잠재 공간을 활용하여 생성 효율성과 품질을 개선할 수 있는 방법을 설명했습니다.

블로그 링크: https://sander.ai/2025/04/15/latents.html

샌더 딜먼은 2015년 DeepMind에 합류한 이후 WaveNet, AlphaGo, Imagen 3, Veo 등 딥 러닝, 생성 모델, 표현 학습을 다루는 여러 프로젝트에 참여했습니다.

이 글에서 그는 잠재 변수를 "데이터의 본질"에 비유했습니다. 즉, 복잡한 정보를 압축하여 이미지, 음성 등을 생성하는 것입니다. 그는 또한 변형 자동 인코더(VAE), 생성적 적대 신경망(GAN), 확산 모델을 심층적으로 비교하여 잠재 변수가 이러한 모델이 현실적인 콘텐츠를 생성하는 데 어떻게 도움이 되는지 보여줍니다.

예를 들어, Dielman이 개발에 참여한 WaveNet은 잠재 변수를 사용하여 고품질 음성 합성을 성공적으로 구현했으며 다양한 Google 제품에 널리 사용되었습니다. 그는 또한 VQ-VAE를 예로 들어 이산 잠재 공간이 어떻게 이미지 생성의 효율성을 향상시킬 수 있는지 설명했습니다.

이 글은 이론적 심도와 직관적 통찰력을 결합한 것으로, 생성 모델을 심도 있게 연구하고 싶어하는 독자에게 적합합니다.

공식

잠재 공간에서 생성 모델을 훈련하는 것은 일반적으로 두 단계로 나뉩니다.

1. 입력 신호를 사용하여 자동 인코더를 학습합니다. 오토인코더는 인코더와 디코더라는 두 개의 하위 네트워크로 구성된 신경망입니다. 인코더는 입력 신호를 해당 잠재 표현으로 매핑(인코딩)하고, 디코더는 잠재 표현을 다시 입력 도메인으로 매핑(디코딩)합니다.

2. 잠재 표현에 대한 생성 모델을 훈련합니다. 이 단계에서는 1단계 인코더를 사용하여 학습 데이터의 잠재 표현을 클레임 다음, 이러한 잠재 표현에 대해 생성 모델을 직접 학습하는 과정이 포함됩니다. 현재 주류를 이루는 생성 모델은 대개 자기회귀 모델이나 확산 모델입니다.

자동 인코더가 첫 번째 단계에서 학습되면 두 번째 단계에서 매개변수는 변경되지 않습니다. 즉, 학습 과정의 두 번째 단계의 기울기가 인코더로 역전파되지 않습니다. 즉, 두 번째 단계에서는 인코더 매개변수가 동결 됩니다.

자동 인코더의 디코더 부분은 두 번째 학습 단계에서는 작동하지 않지만 생성 모델에서 샘플링할 때는 필요합니다. 이는 잠재 공간에서 출력을 생성하기 때문입니다. 디코더를 사용하면 생성된 잠재 벡터를 원래 입력 공간으로 다시 매핑할 수 있습니다.

아래는 이 2단계 교육 방식을 설명하는 다이어그램입니다. 해당 단계에서 매개변수가 학습된 네트워크는 "∇" 기호로 표시되어 있습니다. 이는 거의 항상 그래디언트 기반 학습 방법을 사용하여 수행됩니다. 동결 매개변수가 있는 그물은 눈송이 기호로 표시됩니다.

잠재 생성 모델을 위한 훈련 방법: 2단계 훈련.

두 가지 학습 단계에는 여러 가지 손실 함수가 관련되어 있으며, 그림에서 빨간색으로 강조 표시되어 있습니다.

인코더와 디코더가 입력 표현을 잠재 벡터로 변환하고 높은 충실도로 다시 변환할 수 있도록 하기 위해 여러 개의 손실 함수를 사용하여 재구성(디코더 출력)과 입력 간의 관계를 제한합니다. 일반적으로 여기에는 단순 회귀 손실, 지각적 손실, 적대적 손실이 포함됩니다.

잠재 벡터의 용량을 제한하기 위해, 항상 그런 것은 아니지만 추가적인 손실 함수가 학습 중에 잠재 벡터에 직접 적용되는 경우가 많습니다. 잠재 표현이 자동 인코더 네트워크에서 병목 현상을 형성하기 때문에 이를 병목 현상 손실이라고 부릅니다.

두 번째 단계에서는 생성 모델이 첫 번째 단계에서 사용된 손실 함수와는 별개인 자체 손실 함수를 사용하여 학습됩니다. 일반적으로 이는 음의 로그 우도 손실(자기 회귀 모델의 경우) 또는 확산 손실입니다.

재구성 기반 손실 함수를 더 자세히 살펴보면 다음과 같습니다.

회귀 손실: 때로는 입력 공간(예: 픽셀 공간)의 평균 절대 오차(MAE)로 측정하지만, 보다 일반적으로는 평균 제곱 오차(MSE)로 측정합니다.

지각 손실: 다양한 형태로 나타나지만 일반적으로 다른 동결 사전 훈련된 신경망을 활용하여 지각적 특징을 클레임. 이 손실 함수는 재구성과 입력 간의 이러한 특징이 일치하도록 하여 대부분 회귀 손실에서 무시되는 고주파 콘텐츠를 더 잘 보존합니다. 이미지 처리에는 LPIPS가 인기 있는 선택입니다.

적대적 손실: 생성적 적대 신경망(GAN)의 접근 방식과 유사하게 자동 인코더와 함께 학습된 판별자 신경망을 사용합니다. 판별기 네트워크는 실제 입력 신호와 재구성된 신호를 구별하는 역할을 하는 반면, 자동 인코더는 판별기 네트워크를 속여 실수를 발생시키려고 노력합니다. 목표는 입력 신호에서 더욱 벗어나더라도 출력의 현실성을 개선하는 것입니다. 훈련 초기에는 훈련 중 불안정성을 피하기 위해 적대적 손실을 일시적으로 비활성화하는 경우가 많습니다.

아래는 훈련의 첫 번째 단계를 보여주는 보다 자세한 다이어그램이며, 이 과정에서 일반적으로 역할을 하는 다른 네트워크를 명확하게 보여줍니다.

첫 번째 교육 단계에 대한 다이어그램의 더 자세한 버전은 다음과 같습니다. 참여하는 모든 네트워크를 보여줍니다.

이러한 일반적인 접근 방식은 오디오와 비디오와 같은 응용 프로그램에서 종종 차이가 있다는 것은 말할 필요도 없지만, 대부분의 현대적 실제 응용 프로그램에서 공통적인 주요 요소를 요약하려고 노력했습니다.

우리가 여기에 온 이유

오늘날 두 가지 주요 생성 모델링 패러다임인 자기회귀 모델과 확산 모델은 원래 픽셀과 파형이라는 "원시" 디지털 지각 신호에 적용되었습니다. 예를 들어, PixelRNN과 PixelCNN은 픽셀 단위로 이미지를 생성하는 반면, WaveNet과 SampleRNN은 샘플 단위로 오디오 파형을 생성합니다. 확산 모델 측면에서 이 모델링 패러다임을 도입하고 확립한 초기 연구에서는 픽셀을 통해 이미지를 생성했고, WaveGrad 및 DiffWave와 같은 초기 연구에서는 파형을 생성하여 소리를 생성했습니다.

그러나 사람들은 곧 이 전략이 확장성 측면에서 상당한 어려움을 겪는다는 것을 깨달았습니다. 주된 이유는 다음과 같이 요약할 수 있습니다. 인지되는 신호의 대부분은 감지할 수 없는 잡음으로 구성되어 있습니다. 다시 말해, 주어진 신호에 담긴 총 정보량 중에서 실제로 우리의 지각에 영향을 미치는 것은 극히 일부에 불과합니다. 그러므로 생성 모델이 그 용량을 효율적으로 활용하고 정보의 작은 부분을 모델링하는 데 집중할 수 있도록 하는 것이 매우 중요합니다. 이를 통해 지각적 품질을 희생하지 않고도 더 작고, 빠르고, 저렴한 생성 모델을 사용할 수 있습니다.

잠재 자기회귀 모델

획기적인 VQ-VAE 논문이 발표되면서 이미지 자기회귀 모델은 엄청난 도약을 이루었습니다. 본 논문에서는 자동 인코더에 벡터 양자화 병목 계층을 삽입하여 신경망을 사용하여 이산 표현을 학습하는 실용적인 전략을 제안합니다. 이미지의 이산적인 잠재 표현을 학습하기 위해 여러 다운샘플링 단계를 갖춘 합성 인코더는 입력 이미지보다 4배 낮은 해상도(높이와 너비의 1/4, 즉 공간적 위치가 16배 적음)를 갖는 벡터의 공간 그리드를 생성한 후 병목 계층을 통해 양자화합니다.

이제 픽셀 단위로 이미지를 생성하는 대신 PixelCNN과 같은 모델을 사용하여 한 번에 하나의 잠재 벡터를 생성할 수 있습니다. 이를 통해 필요한 자기회귀 샘플링 단계의 수가 크게 줄어들 뿐만 아니라, 더 중요한 점은 픽셀 공간이 아닌 잠재 공간에서 우도 손실을 측정함으로써 감지할 수 없는 노이즈에 모델 용량을 낭비하지 않아도 된다는 것입니다. 이는 지각적으로 관련성이 있는 신호 내용에 더 초점을 맞춘 사실상 다른 손실 함수입니다. 왜냐하면 지각적으로 관련성이 없는 신호 내용의 대부분은 잠재 벡터에 존재하지 않기 때문입니다(자세한 내용은 대표성에 대한 제 블로그 게시물을 참조하세요). 이 논문에서는 ImageNet으로 학습된 모델로부터 생성된 128×128 이미지를 보여주었는데, 당시에는 GAN으로만 달성할 수 있는 해상도였습니다.

성공에 있어서 이산화가 매우 중요했는데, 당시 자기회귀 모델은 이산 입력으로 더 나은 성과를 거두었기 때문입니다. 하지만 더 중요한 점은 잠재 표현의 공간적 구조 덕분에 기존 픽셀 기반 모델을 매우 쉽게 적용할 수 있다는 것입니다. 이전에는 변형 자동 인코더(VAE)가 일반적으로 전체 이미지를 단일 잠재 벡터로 압축하여 위상 구조가 없는 표현을 생성했습니다. 현대 잠재 표현의 그리드 구조는 "원래" 입력 표현의 그리드 구조를 반영하며, 생성 모델의 네트워크 아키텍처는 효율성을 위해 이 구조를 활용합니다(예: 합성곱, 순환 또는 주의 계층을 통해).

VQ-VAE 2는 해상도를 256×256으로 더욱 높이고, 스케일을 확대하고 계층적 구조로 구성된 다중 레벨 잠재 그리드를 사용하여 이미지 품질을 크게 개선했습니다. 이후 VQGAN은 GAN의 적대적 학습 메커니즘과 VQ-VAE 아키텍처를 결합했습니다. 이를 통해 해상도 감소 요인이 4배에서 16배로 늘어나(픽셀 입력과 비교했을 때 공간 위치가 256배 적음) 선명하고 사실적인 재구성 이미지가 생성됩니다. 여기서 적대적 손실은 중요한 역할을 하며, 원래 입력 신호를 정확하게 따르지 못하더라도 현실적인 디코더 출력 생성을 촉진합니다.

VQGAN은 지난 5년간 지각 신호의 생성 모델링 분야에서 우리가 빠르게 발전하는 데 핵심적인 역할을 했습니다. 그 영향력은 과장할 수 없습니다. 심지어 GAN이 2024년 NeurIPS 컨퍼런스에서 "시간의 테스트 상"을 수상한 주된 이유가 바로 그것이라고 말하고 싶습니다. VQGAN 논문이 제공한 "지원" 덕분에 GAN은 미디어 생성의 기본 작업을 위한 확산 모델로 거의 완전히 대체된 후에도 관련성을 유지할 수 있었습니다.

이전 섹션에서 언급한 방법 중 많은 부분이 이 논문에서 고안되었다는 점을 언급할 가치가 있습니다. 오늘날 반복 생성기는 일반적으로 자기회귀적이지 않습니다(Parti, xAI의 최근 Aurora 모델, OpenAI의 GPT-4o는 주목할 만한 예외입니다). 양자화 병목 현상은 대체되었지만 그 외의 모든 것은 여전히 존재합니다. 특히 단순 회귀 손실, 지각적 손실, 적대적 손실의 조합은 겉보기에 복잡해 보임에도 불구하고 지속되어 왔습니다. 빠르게 발전하는 머신러닝(ML) 분야에서 이런 종류의 지속성은 극히 드뭅니다. 아마도 거의 변하지 않은 Transformer 아키텍처와 Adam 옵티마이저만이 이에 필적할 것입니다!

(이산적 표현이 대규모 애플리케이션에서 잠재 자기회귀 모델을 유용하게 만드는 데 중요한 반면, 연속 공간에서의 자기회귀 모델도 최근에 좋은 결과를 얻었다는 점을 지적하고 싶습니다.)

잠재적 확산

2010년대 후반에 잠재 자기회귀 모델이 주목을 받고, 2020년대 초반에 확산 모델이 획기적인 발전을 이루면서, 이 두 가지 접근 방식의 장점을 결합하는 것이 자연스럽게 다음 단계로 떠올랐습니다. 많은 아이디어가 떠오르듯이, 우리는 2021년 하반기에 arXiv에 이 주제를 탐구하는 일련의 논문을 게시하는 것을 보았습니다. 이 중 가장 잘 알려진 것은 Rombach 등이 작성한 "잠재 확산 모델을 이용한 고해상도 이미지 합성"으로, 기존 VQGAN 연구 결과를 활용하여 자기회귀 변환기를 UNet 기반 확산 모델로 대체했고, 이를 통해 안정 확산 모델의 기초를 형성했습니다. 규모가 작거나 이미지가 아닌 데이터를 대상으로 하긴 하지만 다른 관련 작업에서도 비슷한 탐색이 수행되었습니다.

이런 접근 방식이 주류가 되기까지는 시간이 좀 걸렸습니다. 초기 상업용 이미지 처리 모델은 소위 해상도 카스케이드를 사용했습니다. 즉, 기본 확산 모델이 픽셀 공간에서 저해상도 이미지를 직접 생성하고 하나 이상의 업샘플링 확산 모델이 저해상도 입력을 기반으로 고해상도 출력을 생성합니다. 대표적인 예로는 DALL-E 2와 Imagen 2가 있습니다. 안정 확산 모델이 등장한 후 대부분은 잠재 공간 기반 방법(DALL-E 3와 Imagen 3 포함)으로 전환했습니다.

자기회귀 모델과 확산 모델 사이의 주요 차이점은 학습에 사용되는 손실 함수입니다. 자기회귀 모델은 우도를 최대화하는 것으로 구성되어 있어 훈련하기가 비교적 간단합니다(다른 접근 방식도 시도되었지만요). 확산 모델은 더 복잡한데, 손실 함수가 모든 노이즈 레벨에 대한 기대값이고, 이러한 노이즈 레벨의 상대적 가중치가 모델의 학습 내용에 상당한 영향을 미칩니다. 이는 일반적인 확산 손실을 지각적 손실 함수로 해석하는 기초를 제공하며, 지각적으로 더 두드러지는 신호 내용에 더 큰 강조점을 둡니다.

언뜻 보기에 이는 2단계 접근 방식이 중복되는 것처럼 보입니다. 확산 손실 함수와 비슷한 방식으로 작동하여 지각적으로 무관한 신호 내용을 걸러내고 모델 용량 낭비를 피하기 때문입니다. 하지만 실제로 두 메커니즘은 다음과 같은 이유로 매우 상호 보완적입니다.

특히 시각적 영역에서는 지각이 작은 규모와 큰 규모에서 작동하는 방식에 근본적인 차이가 있는 것으로 보입니다. 예를 들어, 모델링 텍스처와 세부적인 사항은 별도로 처리해야 하며, 이런 경우 적대적 방법이 더 적합할 수 있습니다. 이에 대해서는 아래에서 더 자세히 설명하겠습니다.

대규모의 강력한 확산 모델을 훈련하는 것은 계산 집약적이며, 더 컴팩트한 잠재 공간을 사용하면 복잡한 입력 표현을 처리하지 않아도 되므로 메모리 요구 사항을 줄이고 훈련 및 샘플링 속도를 높이는 데 도움이 됩니다.

실제로 잠재 표현과 확산 사전 지식을 함께 학습하는 엔드투엔드 접근 방식을 시도한 초기 작업이 있었지만 인기를 얻지는 못했습니다. 다단계 학습에서 시퀀스 종속성을 피하는 것이 실용적인 관점에서 바람직하지만, 인지적, 계산적 이점 때문에 그럴 만한 가치가 있습니다.

왜 두 단계가 필요한가요?

앞서 언급했듯이, 지각 신호의 생성 모델이 그 용량을 효율적으로 활용할 수 있도록 하는 것이 중요합니다. 이를 통해 모델이 비용 효율성이 높아집니다. 이것이 바로 우리의 2단계 접근 방식이 달성하는 핵심입니다. 신호 내용 중 지각적으로 관련 있는 부분에 초점을 맞춘 보다 컴팩트한 표현을 클레임 하고 원래 표현 대신 이 표현을 모델링함으로써, 비교적 작은 생성 모델이 실제 크기보다 훨씬 더 뛰어난 성능을 발휘하도록 할 수 있습니다.

대부분의 지각 신호에 담긴 정보가 실제로는 지각적으로 중요하지 않다는 발견은 새로운 것이 아닙니다. 이는 손실 압축의 핵심 아이디어이기도 한데, 손실 압축을 사용하면 이러한 신호를 더 저렴하게 저장하고 전송할 수 있습니다. JPEG와 MP3와 같은 압축 알고리즘은 신호의 중복성과 인간이 고주파수보다 저주파수에 더 민감하다는 사실을 활용하여 인지된 신호를 더 적은 비트로 표현합니다. (청각 마스킹과 같은 다른 지각 효과도 있지만, 비균일한 주파수 감도가 가장 중요합니다.)

그렇다면 왜 우리는 이러한 손실 압축 기술을 기반으로 생성 모델을 구축하지 않을까요? 이는 나쁜 생각이 아니며, 일부 연구에서는 이러한 알고리즘이나 일부 구성 요소를 이러한 목적으로 사용합니다. 하지만 우리는 자연스럽게 머신러닝(ML) 통해 문제를 해결하여 이러한 "손으로 설계한" 알고리즘보다 성능이 더 좋은지 확인하려는 경향이 있습니다.

이는 단순히 머신러닝(ML) 연구자들의 오만함이 아닙니다. 기존의 압축 표현 대신 학습된 잠재 표현을 사용하는 데는 실제로 아주 좋은 이유가 있습니다. 압축 설정과 달리, 더 작은 것이 더 좋고 크기만이 중요한 요소인 반면, 생성 모델링의 목표는 추가적인 제약을 부과합니다. 일부 표현은 다른 표현보다 모델링하기가 더 쉽습니다. 가장 중요한 점은 표현에서 어느 정도 구조가 보존된다는 것입니다. 생성 모델에 적절한 귀납적 편향을 부여함으로써 이를 활용할 수 있습니다. 이러한 요구 사항은 재구성 품질과 잠재 표현의 모델링 가능성 간에 균형을 이루게 되는데, 이에 대해서는 다음 섹션에서 살펴보겠습니다.

잠재 표상의 효과에 대한 또 다른 중요한 이유는 우리의 지각이 규모에 따라 다르게 작용한다는 사실을 이용한다는 것입니다. 오디오 영역에서 이는 명백합니다. 진폭의 빠른 변화는 음높이를 인지하게 하는 반면, 더 거친 시간 척도(예: 드럼 비트)의 변화는 개별적으로 식별할 수 있습니다. 덜 알려진 사실은 이 현상이 시각적 인식에서도 중요한 역할을 한다는 것입니다. 색상과 강도의 빠른 국지적 변동은 질감으로 인식됩니다. 저는 트위터에서 이 내용을 설명하려고 노력했고, 그 설명을 여기에 다시 표현해 보겠습니다.

이를 생각해 볼 수 있는 한 가지 방법은 질감 대 구조, 혹은 사람들이 때때로 물건 대 사물이라고 부르는 것입니다.

들판 속의 개 이미지에서 풀의 질감(물질)은 높은 엔트로피를 가지고 있지만, 우리는 이 질감의 인스턴스 간의 차이를 인식하는 데 능숙하지 않고, 단지 셀 수 없이 많은 "풀"로 인식합니다. 우리는 들판을 보고 있는지 확인하기 위해 풀잎 하나하나를 볼 필요는 없습니다.

이 텍스처 구현에 있어서 약간의 차이는 이미지를 서로 직접 쌓아 올리지 않는 한 일반적으로 눈에 띄지 않습니다. 적대적 자동 인코더를 실험하는 것은 재미있습니다. 원본 이미지와 재구성된 이미지를 나란히 비교하면 종종 정확히 똑같아 보입니다. 하지만 두 이미지를 겹쳐서 바꿔보면, 특히 질감이 풍부한 영역에서 이미지 간의 차이점을 종종 볼 수 있습니다.

그러나 개의 눈과 같은 물리적 대상(만질 수 있는 것)의 경우는 상황이 다릅니다. 비슷한 정도의 차이는 즉시 눈에 띕니다. 좋은 잠재 표현은 질감을 추상화하지만 구조는 보존하려고 노력합니다. 이를 통해 재구성된 잔디 질감이 원본과 다르게 표현되더라도 재구성의 충실도에는 큰 영향을 미치지 않습니다. 이를 통해 자동 인코더는 많은 패턴(즉, 동일한 텍스처의 다른 표현)을 버리고 잠재 공간에서 해당 텍스처의 존재를 더 간결하게 표현할 수 있습니다.

이를 통해 잠재 공간에서의 생성 모델링이 더 쉬워질 것입니다. 이제 텍스처와 관련된 모든 복잡한 변형을 포착하지 않고도 텍스처의 존재 또는 부재를 모델링할 수 있기 때문입니다.

들판 속의 개 사진. 이미지의 윗부분은 엔트로피가 낮습니다. 하늘을 구성하는 픽셀은 이웃 픽셀을 통해 쉽게 예측할 수 있습니다. 아래쪽 절반은 엔트로피 값이 높습니다. 풀의 질감 때문에 근처 픽셀을 예측하기 어렵습니다.

2단계 접근 방식이 상당한 효율성 향상을 제공하기 때문에, 적어도 당장은 이 방식이 가져오는 추가적인 복잡성을 감수할 의향이 있는 듯합니다. 이러한 효율성 향상은 학습을 더 빠르고 저렴하게 만들 뿐만 아니라, 더 중요한 것은 샘플링 속도도 크게 향상시킨다는 점입니다. 단일 샘플을 생성하려면 모델을 여러 번 통과해야 하므로 반복적 개선을 수행하는 생성 모델에 있어 이러한 상당한 비용 절감은 매우 환영할 만한 일입니다.

재구성 품질과 모델링 가능성 간의 균형

손실 압축과 잠재 표현 학습의 차이점을 심도 있게 살펴보는 것은 가치가 있습니다. 머신러닝(ML) 두 가지 모두에 사용될 수 있지만, 오늘날 널리 사용되는 손실 압축 알고리즘의 대부분은 머신러닝(ML) 사용하지 않습니다. 이러한 알고리즘은 종종 속도-왜곡 이론을 기반으로 하는데, 이는 신호를 얼마나 압축할 수 있는지(속도)와 압축 해제된 신호가 원래 신호에서 얼마나 벗어나는 것을 허용하는지(왜곡) 간의 관계를 공식화하고 정량화합니다.

잠재 표현 학습의 경우, 모델링 가능성 또는 학습 가능성이라는 개념을 도입하여 이러한 상충 관계를 확장할 수 있습니다. 이는 생성 모델이 이러한 표현 분포를 포착하는 것이 얼마나 어려운지를 설명합니다. 이는 3가지 방식의 비율-왜곡 모델링 가능성 상충으로 이어지며, 이는 Tschannen 등이 논의한 비율-왜곡 유용성 상충과 밀접한 관련이 있습니다. 표현 학습의 맥락에서. (머신러닝(ML) 의 맥락에서 이러한 상충 관계를 확장한 또 다른 인기 있는 개념은 속도-왜곡 지각 상충 관계입니다. 이는 재구성 충실도와 지각 품질을 명확하게 구분합니다. 과도한 복잡성을 피하기 위해 여기서는 이러한 구분을 하지 않고, 대신 왜곡을 입력 공간이 아닌 지각 공간에서 측정되는 양으로 보겠습니다.)

이것이 왜 상충관계인지는 즉시 알 수 없습니다. 왜 모델링 가능성이 왜곡과 충돌할까요? 이를 이해하려면 손실 압축 알고리즘의 작동 방식을 생각해 보세요. 손실 압축 알고리즘은 알려진 신호 구조를 활용하여 중복성을 줄입니다. 이 과정에서 이 구조는 일반적으로 압축 표현에서 제거되는데, 압축 해제 알고리즘이 이를 재구성할 수 있기 때문입니다. 그러나 입력 신호의 구조는 현대 생성 모델에서도 폭넓게 활용됩니다. 예를 들어, 변환이나 주파수 스펙트럼의 특정 특성과 같은 신호 속성을 활용하는 구조적 귀납적 편향의 형태로 활용됩니다.

입력 신호에서 거의 모든 중복을 효율적으로 제거할 수 있는 마법 같은 알고리즘이 있다면, 생성 모델이 압축 신호에 남아 있는 구조화되지 않은 변동성을 포착하기가 매우 어려워질 것입니다. 우리의 목표가 단지 압축이라면 이는 아무런 문제가 없지만, 생성 모델링을 하는 경우에는 문제가 없습니다. 그러므로 우리는 균형을 찾아야 합니다. 좋은 잠재 표현 학습 알고리즘은 일부 중복을 감지하고 제거하지만, 동시에 일부 신호 구조를 보존하여 생성 모델이 활용할 수 있는 무언가를 남겨야 합니다.

이 맥락에서 나쁜 예로는 엔트로피 코딩이 있습니다. 엔트로피 코딩은 실제로는 손실 없는 압축 방법이지만 많은 손실 방식(JPEG/PNG의 허프만 코딩이나 H.265의 산술 코딩 등)의 최종 단계로도 사용됩니다. 엔트로피 코딩 알고리즘은 자주 발생하는 패턴에 더 짧은 표현을 할당하여 중복을 줄입니다. 이렇게 하면 정보는 제거되지 않지만 구조는 파괴됩니다. 따라서 입력 신호의 작은 변화가 해당 압축 신호의 더 큰 변화로 이어질 수 있으며, 이로 인해 엔트로피로 코딩된 시퀀스의 모델링이 훨씬 더 어려워집니다.

이와 대조적으로 잠재 표현은 신호 구조를 대량 보존하는 경향이 있습니다. 다음 그림은 일부 이미지에 대한 안정 확산 잠복 표현을 시각화한 것입니다(EQ-VAE 논문에서 가져옴). 동물은 잠재적 표현을 시각적으로 조사하면 쉽게 식별할 수 있습니다. 기본적으로 왜곡된 색상이 들어간 노이즈가 많고 해상도가 낮은 이미지처럼 보입니다. 이것이 제가 이미지 잠재 표현을 일반 픽셀이 포착하지 못하는 추가 정보를 포착하는 "고급 픽셀"로 생각하는 이유입니다. 하지만 대부분은 여전히 픽셀처럼 동작합니다.

EQ-VAE 논문에서 가져온 여러 이미지에서 클레임 안정 확산 잠재 표현의 시각화입니다. 잠재 공간의 처음 세 가지 주요 구성 요소는 각각 색상 채널에 해당합니다. 잠재적 표현을 시각적으로 검사한 결과, 이미지 속 동물은 대부분 여전히 인식할 수 있었으며, 이는 인코더가 원래 신호의 구조를 대량 유지했다는 것을 시사합니다.

이러한 잠재적 표현은 상당히 낮은 수준이라고 할 수 있습니다. 기존의 변형 자동 인코더(VAE)는 전체 이미지를 특징 벡터로 압축하여 일반적으로 의미적으로 조작할 수 있는 고수준 표현을 생성하는 반면, 생성적 이미지 모델링을 위한 최신 잠재 표현은 실제로 픽셀 수준에 더 가깝습니다. 이들은 더 높은 용량을 가지고 있으며 입력의 그리드 구조를 상속받습니다(다만 해상도는 낮습니다). 그리드의 각 잠재 벡터는 텍스처와 같은 일부 저수준 이미지 특징을 추상화할 수 있지만, 이미지 콘텐츠의 의미를 포착하지는 못합니다. 이것이 대부분의 자동 인코더가 텍스트 설명과 같은 추가적인 조건화 신호를 사용하지 않는 이유입니다. 이러한 신호는 주로 고수준 구조를 제한하기 때문입니다(물론 예외는 있습니다).

제어 가능성

그리드 구조에서 잠재 공간의 용량을 제어하는 두 가지 주요 설계 매개변수는 다운샘플링 요소와 표현 채널 수입니다. 잠재 표현이 이산적이라면 코드북 크기도 중요합니다. 왜냐하면 코드북 크기는 잠재 표현이 포함할 수 있는 정보 비트 수에 엄격한 제한을 부과하기 때문입니다. (이 외에도 정규화 전략도 중요한 역할을 하지만, 다음 섹션에서는 그 영향에 대해 논의하겠습니다.)

예를 들어, 인코더는 256×256 픽셀 이미지를 입력으로 받아 8개 채널을 갖는 32×32 연속 잠재 벡터 그리드를 생성할 수 있습니다. 이는 스트라이드 합성곱 스택이나 패치 크기가 8인 Visual Transformer(ViT)를 사용하여 달성할 수 있습니다. 다운샘플링 요소는 너비와 높이 모두의 차원을 줄이므로 픽셀보다 잠재 벡터가 64배 적습니다. 그러나 각 잠재 벡터는 8개의 구성 요소를 갖는 반면 각 픽셀은 3개(RGB)만 갖습니다.

일반적으로 잠재 표현의 텐서 구성 요소(즉, 부동 소수점 숫자) 수는 원본 이미지를 나타내는 텐서보다 적습니다. 혼란을 피하기 위해 이 숫자를 텐서 크기 감소 인자(TSR)라고 부르고 싶습니다. 이는 공간적 또는 시간적 다운샘플링 인자와 관련이 있습니다.

본문에 설명된 입력 차원과 잠재 차원을 보여주는 다이어그램입니다.

인코더 다운샘플링 계수를 2배로 늘리면 잠재 그리드의 크기가 16×16이 되고, 그러면 동일한 TSR(전체 공간 중복성)을 유지하기 위해 채널 수를 4배 늘려 32채널로 늘릴 수 있습니다. 주어진 TSR에 대해, 재구성 품질 측면에서 거의 동등한 성능을 보이는 여러 가지 구성이 있는 경우가 많습니다. 특히 시간적, 공간적 다운샘플링 요소를 별도로 제어할 수 있는 비디오의 경우가 그렇습니다. 그러나 TSR을 변경하는 경우(채널 수를 변경하지 않고 다운샘플링 요소를 변경하거나 그 반대로 하는 경우), 이는 재구성 품질과 모델링 가능성에 심각한 영향을 미치는 경우가 많습니다.

순전히 수학적 관점에서 보면 이는 놀라운 일입니다. 잠재 변수가 실수 값이라면 그리드의 크기와 채널의 수는 중요하지 않습니다. 왜냐하면 단일 숫자의 정보 용량은 이미 무한하기 때문입니다(이는 터퍼의 자기 참조 공식에서 깔끔하게 입증됩니다). 물론 잠재 표현의 단일 구성 요소가 전달할 수 있는 정보의 양을 제한하는 실질적인 제약이 있습니다.

우리는 실수를 표현하기 위해 부동 소수점 숫자를 사용하며, 부동 소수점 숫자의 정밀도는 제한적입니다.

많은 공식에서 인코더는 일정량의 노이즈를 추가하는데, 이로 인해 효과적인 정확도가 더욱 제한됩니다.

신경망은 입력에 대한 매우 비선형적인 함수를 학습하는 데 적합하지 않습니다.

첫 번째 이유는 명확합니다. 숫자가 32비트(단정밀도)로 표현되면 최대 32비트의 정보만 전달할 수 있기 때문입니다. 잡음을 추가하면 일부 하위 숫자가 잡음에 의해 가려지기 때문에 사용 가능한 비트 수가 더욱 줄어듭니다.

마지막 제한은 더 엄격하지만 현재로서는 잘 이해되지 않습니다. 신경망의 목적이 비선형 함수를 학습하는 것이 아닌가요? 이는 사실이지만, 신경망은 본질적으로 비교적 간단한 기능을 학습하는 경향이 있습니다. 이는 학습된 함수가 보이지 않는 데이터로 일반화될 확률이 높아지므로 일반적으로 단점보다는 장점입니다. 하지만 대량 정보를 몇 개의 숫자에 압축해 넣으려면 높은 수준의 비선형성이 필요할 것입니다. 신경망이 보다 복잡한 비선형 함수(예: 푸리에 특징)를 학습하도록 돕는 방법은 있지만, 우리의 시나리오에서는 고도로 비선형적인 매핑이 실제로 모델링 가능성에 부정적인 영향을 미칩니다. 신호 구조를 가리기 때문에 이는 좋은 해결책이 아닙니다. 더 많은 구성 요소를 사용한 표현은 더 나은 균형을 제공합니다.

동일한 원리가 이산적 잠재 표현에도 적용됩니다. 이산화는 표현의 정보 내용에 엄격한 상한을 두지만, 이 용량을 효율적으로 활용할 수 있는지 여부는 주로 인코더의 표현력과 실제로 양자화 전략이 얼마나 효과적인지에 달려 있습니다(즉, 서로 다른 코드워드를 가능한 한 균등하게 사용하여 코드북 활용도를 높일 수 있는지 여부). 가장 일반적으로 사용되는 것은 여전히 VQ-VAE의 원래 VQ 병목 현상이지만, "회전 트릭"을 통해 더 나은 기울기 추정치를 제공하는 최근의 개선 사항은 코드북 활용도와 종단 간 성능 측면에서 유망해 보입니다. 명시적으로 학습된 코드북을 사용하지 않는 일부 대체 방식도 점차 주목을 받고 있는데, 여기에는 유한 스칼라 양자화(FSQ), 검색 없는 양자화(LFQ), 이진 구면 양자화(BSQ)가 있습니다.

요약하자면, 올바른 TSR(전체 공간 중복성)을 선택하는 것이 중요합니다. 잠재 표현이 클수록 재구성 품질이 좋아지지만(높은 비율, 낮은 왜곡) 모델링에 부정적인 영향을 미칠 수 있습니다. 표현이 클수록 모델링해야 할 정보의 양도 많아지므로 생성 모델의 용량도 커야 합니다. 실제로 이러한 균형은 종종 경험적으로 조정됩니다. 현재 모델링에 대한 안정적이고 계산 비용이 저렴한 프록시가 없기 때문에 이는 비용이 많이 드는 과정이 될 수 있습니다. 따라서 의미 있는 결과를 얻으려면 충분히 큰 생성 모델을 반복적으로 학습해야 합니다.

한센-에스트루흐 등 최근 잠재 공간 용량과 이에 영향을 미치는 다양한 요인에 대한 광범위한 탐색을 수행했습니다(주요 결과는 본문에 명확하게 강조되어 있습니다). 더 높은 해상도(예: LTX-Video에서 32배, GAIA-2에서 44배, DCAE에서 64배)에서 이미지와 비디오를 생성할 때 TSR을 유지하기 위해 공간 다운샘플링 요소를 늘리고 그에 따라 채널 수를 늘리는 추세가 있습니다.

잠재적인 공간을 정리하고 형성하기

지금까지 우리는 잠재적 표현의 용량, 즉 얼마나 많은 비트의 정보를 포함해야 하는지에 대해 논의했습니다. 원래 입력 신호의 어떤 정보 비트를 잠재 표현으로 보존해야 하는지, 그리고 이 정보를 어떻게 표현할 것인지를 정확하게 제어하는 것도 중요합니다. 저는 전자를 잠재 공간을 빗질하는 것, 후자를 잠재 공간을 형성하는 것이라고 부릅니다. 미묘하지만 중요한 구분이죠. 잠재 표현의 용량을 형성, 구성, 제어하기 위해 많은 정규화 전략이 설계되었습니다. 저는 연속적인 경우에 초점을 맞추겠지만, 이러한 고려 사항의 대부분은 불연속적인 잠재 표현에도 마찬가지로 적용됩니다.

VQGAN과 KL은 잠재 변수를 정규화했습니다.

롬바흐 등 연속 잠재 공간에 대해 두 가지 정규화 전략을 제안했습니다.

원래의 VQGAN 설계 개념에 따라, 우리는 디코더의 일부로 양자화 단계를 재해석하여(인코더가 아닌) 연속적인 잠재 표현(즉, VQ 정규화, VQ-reg)을 얻습니다.

VQGAN에서 양자화 연산을 완전히 제거하고 대신 표준 변분 자동 인코더(VAE)와 같은 KL 발산 페널티 항(즉, KL 정규화, KL-reg)을 도입합니다.

VQGAN에 최소한의 변경만 가해 확산 모델에 맞춰 연속적인 잠재 변수를 생성한다는 아이디어는 독창적입니다. 이러한 구조는 자기회귀 모델에서 좋은 성능을 발휘하며, 학습 과정에서 양자화 단계는 잠재 변수가 너무 많은 정보를 담고 있는 것을 방지하는 일종의 "안전 밸브" 역할도 합니다.

그러나 앞서 논의한 대로, 이러한 메커니즘은 대부분의 경우 실제로 필요하지 않을 수 있습니다. 인코더의 표현력이 생성 모델 성능의 병목 현상이 되는 경우가 많기 때문입니다.

이와 대조적으로 KL 정규화 자체는 기존 VAE 아키텍처의 핵심 구성 요소입니다. 즉, ELBO(Evidence Lower Bound)를 구성하는 두 가지 손실 중 하나입니다. ELBO는 데이터 우도의 하한값으로, 간접적이지만 수치적으로 표본의 로그 우도를 최대화하는 데 사용됩니다. 이러한 정규화는 잠재 변수가 사전 설정된 사전 분포(일반적으로 가우스 분포)를 따르도록 합니다.

하지만 중요한 점은 ELBO가 KL 항 앞에 스케일 매개변수가 도입되지 않았을 때만 우도의 진정한 하한이라는 것입니다. 그러나 실제 적용에서는 학습 안정성과 재구성 품질을 위해 KL 정규화 항은 거의 항상 상당히 확장되며(보통 몇 배 정도) 이로 인해 변분 추론의 원래 맥락과의 연결이 거의 끊어집니다.

이러한 조정의 이유도 매우 직접적입니다. 즉, 스케일이 지정되지 않은 KL 항은 지나치게 제한적인 효과를 가져서 잠재 공간의 용량을 크게 압축하고 이미지 재구성의 품질에 심각한 영향을 미칩니다. 공학적 타당성을 고려하기 위해 업계의 일반적인 관행은 총 손실 함수에서 가중치를 크게 줄이는 것입니다.

(그런데: KL 가중치를 추가하는 것은 재구성 성능보다는 의미적 해석 가능성 또는 잠재 변수 분리 품질에 더 초점을 맞춘 일부 작업(예: β-VAE)에서도 효과적이고 일반적인 전략입니다.)

다음은 분명히 주관적인 관점 이지만, 저는 KL 용어의 효과에 대한 현재 논의에는 여전히 상당한 "신비화"가 있다고 생각합니다. 예를 들어, KL 항은 잠재 변수가 가우스 분포를 따르도록 유도하는 것으로 널리 알려져 있습니다. 그러나 실제 응용 프로그램에서 사용되는 스케일링 요소에서는 이 효과가 너무 약해서 거의 무시할 수 있습니다. "실제" VAE에서도 집계 사후 분포가 표준 가우시안 모양을 갖는 경우는 드뭅니다.

따라서 제 생각에는 "VAE"의 "V"(즉, "변형")는 오늘날 실질적으로 그 의미를 거의 잃었습니다. 그 존재는 오히려 역사적 유산일 뿐입니다. 그 대신, 우리는 이러한 유형의 모델을 "KL-정규화 자동 인코더"라고 부르는 게 좋을 겁니다. 이는 현재 주류 실무에 개념적으로 더 적합합니다.

이러한 설정에서 KL 항의 주요 기능은 잠재 변수 분포에서 이상치를 억제하고 해당 수치적 척도를 어느 정도 제한하는 것입니다. 다시 말해, KL 항은 종종 잠재 변수의 용량을 제한하는 메커니즘으로 설명되지만, 실제로는 잠재 변수의 모양에 대한 약한 제한에 불과하며, 이 제한은 생각보다 훨씬 약합니다.

재구성 손실 조정

재구성 손실의 "3가지 세트"(회귀 손실, 지각 손실, 적대적 손실)는 의심할 여지 없이 재구성된 신호의 품질을 극대화하는 데 중요한 역할을 합니다.

그러나 이러한 손실 항목이 잠재 변수에 어떤 영향을 미치는지, 특히 "큐레이션"(즉, 잠재 변수가 어떤 정보를 인코딩하는 법을 배우는지)에서의 역할에 어떤 영향을 미치는지 더 자세히 연구해 볼 가치가 있습니다. 3장(왜 두 단계인가?)에서 논의한 대로, 비전 영역에서 좋은 잠재 공간은 어느 정도까지 텍스처의 추상화를 달성해야 합니다. 이러한 손실이 이러한 목표 달성에 어떻게 도움이 되었나요?

교훈적인 사고 실험은 우리가 지각적 손실과 적대적 손실을 제거하고 회귀 손실만 유지한다고 가정하는 것입니다. 이는 기존 변분 자동 인코더(VAE)에서 수행한 것과 같습니다. 이 설정은 일반적으로 흐릿한 재구성 결과를 초래합니다. 회귀 손실은 특정 유형의 신호 콘텐츠를 선호하지 않도록 설계되었으므로 이미지 작업에서는 저주파 정보에 더 집중하는 경향이 있는데, 이는 이 정보가 이미지에서 더 큰 비중을 차지하기 때문입니다.

자연스러운 이미지에서 서로 다른 공간 주파수의 에너지는 일반적으로 주파수의 제곱에 반비례합니다. 즉, 주파수가 높을수록 에너지는 낮아집니다(이 현상에 대한 그래픽 분석은 이전 블로그 게시물을 참조하세요). 고주파 성분이 전체 신호 에너지에서 차지하는 비중이 매우 작기 때문에 회귀 손실을 사용하면 모델은 고주파 부분보다는 저주파 성분을 정확하게 예측하는 경향이 있습니다.

그러나 인간의 인식 관점에서 볼 때, 고주파 정보의 주관적 중요도는 신호 에너지에서 차지하는 비율보다 훨씬 높아서 잘 알려진 "흐릿한" 재구성 결과가 발생합니다.

VQGAN 논문의 이미지입니다. 회귀 손실만으로 훈련된 DALL-E VAE와 비교하면 지각적 손실과 적대적 손실의 영향이 상당히 크다는 것을 알 수 있습니다.

텍스처는 주로 이러한 고주파 성분으로 구성되어 있고 회귀 손실은 이러한 고주파 정보를 거의 무시하기 때문에, 최종적으로 얻은 잠재 공간은 텍스처를 추상화하는 데 실패할 뿐만 아니라 텍스처와 관련된 정보를 직접 지워버립니다. 지각적 품질의 관점에서 볼 때, 이것은 잠재 공간 구조가 좋지 않습니다. 이는 또한 지각적 손실과 적대적 손실의 중요성을 직접적으로 보여줍니다. 이는 특정 질감 정보가 잠재 변수에 인코딩될 수 있도록 보장합니다.

회귀 손실은 위에서 언급한 바람직하지 않은 속성을 가지고 있으며 이를 보상하기 위해 다른 손실 항목이 필요한 경우가 많으므로, 회귀 손실을 완전히 포기할 수 있을까요? 결국 이 접근 방식은 실행 가능하지 않은 것으로 드러났습니다. 지각적 손실과 적대적 손실의 최적화 과정은 더 복잡하고 병적인 국소 최적 솔루션에 빠지기 쉽습니다(결국 이러한 손실은 일반적으로 사전 훈련된 신경망을 기반으로 구축됩니다). 학습 과정에서 회귀 손실은 "규제화자" 역할을 하여 최적화 과정에 대한 제약 조건과 지침을 지속적으로 제공하여 모델이 잘못된 매개변수 공간에 빠지지 않도록 방지합니다.

재건 손실의 다양한 형태를 활용하려는 전략이 많이 있습니다. 다음은 이 방향의 다양성을 보여주는 문헌에서 발췌한 몇 가지 예입니다.

위에 언급된 DCAE46 모델은 L2 회귀 손실(평균 제곱 오차, MSE)이 L1 손실(평균 절대 오차, MAE)로 대체된 것을 제외하면 원래 VQGAN 공식과 크게 다르지 않은 전반적인 접근 방식을 가지고 있습니다. 여전히 LPIPS 지각 손실(학습된 지각 이미지 패치 유사성)과 PatchGAN49 판별기를 유지합니다. 이 방법의 차이점은 다단계 학습을 사용하고 마지막 단계에서만 적대적 손실을 허용한다는 것입니다.

ViT-VQGAN50 모델은 L2 손실과 로짓-라플라스 손실51이라는 두 가지 회귀 손실을 결합하고 StyleGAN52 판별자와 LPIPS 지각 손실을 사용합니다.

LTX-Video44 모델은 이산 웨이블릿 변환(DWT)을 기반으로 한 "비디오 인식 손실"을 도입하고 재구성 GAN이라는 고유한 적대적 손실 전략을 제안합니다.

고전적인 요리가 사람마다 취향이 다른 것처럼, 모든 연구자는 이 "레시피" 문제에 대한 자신만의 해결책을 가지고 있습니다!

표현 학습 대 재구성

우리가 이전에 탐구했던 많은 디자인 선택은 재구성의 질에 영향을 미칠 뿐만 아니라, 학습된 잠재 공간의 속성에도 큰 영향을 미칩니다. 이 중에서 재구성 손실은 실제로 두 가지 작업을 수행합니다. 디코더 출력의 높은 품질을 보장할 뿐만 아니라 잠재 공간 형성에 중요한 역할을 합니다. 이는 다음과 같은 의문을 제기합니다. 지금처럼 한 번에 두 마리의 새를 잡는 것이 정말 적절한 일일까요? 제 생각에는 답은 '아니요'입니다.

한편으로는 생성 모델링을 위한 훌륭하고 간결한 표현을 학습하는 것과, 다른 한편으로는 이 표현을 원래의 입력 공간으로 디코딩하는 것은 실제로 완전히 다른 두 가지 작업입니다. 최신 자동 인코더는 두 가지 작업을 동시에 수행할 것으로 기대되는 경우가 많습니다.

실용적인 관점에서 보면 이 방법이 꽤 효과적이며 의심할 여지 없이 프로세스를 단순화합니다(결국, 자동 인코더 학습은 이미 전체 시스템에서 학습의 첫 번째 단계이고, 가능한 한 추가적인 복잡성을 피하고자 하지만 자동 인코더를 여러 단계로 학습시키는 경우가 전례가 없지는 않습니다). 그러나 이러한 접근 방식은 실제로 두 가지 작업을 혼동하게 만들며, 한 가지 작업에 적합한 디자인이 다른 작업에는 적합하지 않을 수도 있습니다.

특히 디코더가 자기회귀 아키텍처를 채택하는 경우 작업 병합 문제가 심각해지므로, 인코더에 학습 신호를 제공하기 위해 독립적인 비자기회귀 보조 디코더를 사용하는 것을 제안합니다.

주요 디코더는 잠재 표현에 전혀 영향을 미치지 않습니다. 왜냐하면 학습 중에 디코더의 기울기가 인코더로 역전파되지 않기 때문입니다. 이를 통해 보조 디코더가 잠재 공간을 형성하는 작업을 수행하는 동안 재구성 품질을 최적화하는 데 집중할 수 있습니다. 전체 자동 인코더의 구성 요소는 여전히 공동으로 학습할 수 있으므로 추가된 학습 복잡성은 매우 제한적입니다. 보조 디코더는 학습 비용을 증가시키지만, 학습이 완료된 후에는 버릴 수 있습니다.

두 개의 디코더가 있는 이 자동 인코더 구조에서, 주 디코더는 재구성에만 사용되고 그 그래디언트는 인코더로 다시 전달되지 않습니다(일반적으로 이를 나타내기 위해 점선을 사용함). 반면 보조 디코더는 잠재 공간을 구축하는 데 집중합니다. 다양한 아키텍처를 채택하거나, 다양한 손실 함수를 최적화할 수도 있고, 둘 다를 수행할 수도 있습니다.

해당 논문에서 픽셀 공간을 처리하기 위해 자기회귀 디코더를 사용한다는 아이디어는 더 이상 적용되지 않지만(시대에 뒤떨어진 것으로 볼 수 있음), 저는 표현 학습을 재구성 작업에서 분리하는 이 전략이 오늘날에도 여전히 매우 관련성이 있다고 믿습니다.

보조 디코더는 다른 손실을 최적화하거나 주 디코더와 다른 아키텍처를 채택하는 경우(또는 둘 다) 표현 학습을 위한 더 효과적인 훈련 신호를 제공할 수 있으며, 이는 더 나은 생성 모델링 결과로 이어질 수 있습니다.

최근 Zhu et al.도 같은 결론을 내렸습니다. (논문의 섹션 2.1 참조) 이들은 K-평균을 사용하여 DINOv2에서 클레임 특징을 이산화하고 별도로 훈련된 디코더와 결합했습니다. 자기 감독 학습을 통해 얻은 표현을 생성 모델링에 재사용한다는 아이디어는 오디오 모델링 분야에서 오랫동안 일반적이었습니다. 아마도 오디오 분야 연구자들이 보코더를 훈련하여 미리 정의된 중간 표현(예: 멜 스펙트로그램)을 다시 파형 신호로 변환하는 데 익숙하기 때문일 것입니다.

정규화를 통한 모델 성능 개선

잠재 변수의 용량을 형성, 구성 및 제한하면 모델링 가능성에 영향을 미칩니다.

용량 한계는 잠재 변수의 정보량을 결정합니다. 용량이 클수록 생성 모델은 포함된 모든 정보를 완벽하게 포착하기 위해 더욱 강력해야 합니다.

효율적인 모델링을 위해서는 형성이 중요합니다. 동일한 정보가 다양한 방법으로 표현될 수 있는데, 그 중 어떤 방법은 다른 방법보다 모델링하기가 더 쉽습니다. 정확한 모델링(특히 확산 모델)을 위해서는 확장과 표준화가 중요하지만, 고차 통계와 상관 구조도 마찬가지로 중요합니다.

그루밍은 모델화에 영향을 미치는데, 어떤 유형의 정보는 다른 유형의 정보보다 모델링하기가 쉽기 때문입니다. 잠재 변수가 입력 신호에서 예측할 수 없는 노이즈 정보를 인코딩하는 경우 예측 가능성도 감소합니다.

다음은 이것이 Stable Diffusion XL VAE에 어떤 영향을 미치는지 보여주는 흥미로운 트윗입니다.

이미지 출처: https://x.com/rgilman33/status/1911712029443862938

여기서 저는 Xu 등이 제안한 V-정보와 이를 연결하고 싶습니다. V-정보는 상호 정보의 개념을 확장하여 계산적 제약을 고려합니다. 다시 말해, 정보의 유용성은 관찰자가 정보를 식별하는 것이 얼마나 계산적으로 어려운지에 따라 달라지며, 우리는 이를 정량화해 볼 수 있습니다. 정보를 클레임 위해 강력한 신경망이 필요한 경우, 입력의 V-정보 양은 간단한 선형 프로브를 사용하는 경우보다 적습니다. 비트 단위의 정보의 절대량이 같더라도 마찬가지입니다.

생성 모델이 잠재 표현을 이해하는 데 필요한 계산적 요구 사항을 최소화하기 위해 잠재 표현의 V-정보 양을 최대화하는 것이 바람직합니다. Tschannen 등이 설명한 비율-왜곡-효용 간의 상충 관계 제가 앞서 언급한 것도 같은 결론을 뒷받침합니다.

앞서 언급했듯이, KL 페널티는 많은 사람들이 생각하는 것만큼 잠재 공간을 가우시안화하거나 매끄럽게 만드는 데 큰 역할을 하지 못할 수도 있습니다. 그렇다면 잠재 모델을 모델링하기 쉽게 만들려면 어떻게 해야 할까요?

생성적 사전 확률 사용: 자동 인코더와 함께 (가벼운) 잠재 생성 모델을 공동으로 훈련하고, LARP 또는 CRT처럼 생성적 손실을 인코더로 역전파하여 잠재 모델을 쉽게 모델링할 수 있도록 합니다. 이를 위해서는 손실 가중치를 신중하게 조정해야 합니다. 생성 손실과 재구성 손실은 서로 상충되기 때문입니다. 잠재 모델이 아무런 정보도 인코딩하지 않을 때 이 두 가지를 모델링하는 것이 가장 쉽습니다!

감독을 위해 사전 훈련된 표현을 사용합니다. 잠재 모델은 VA-VAE, MAETok 또는 GigaTok에서와 같이 기존의 고품질 표현(예: DINOv2 기능)에 대한 예측을 하도록 권장됩니다.

동등성을 장려합니다. 입력의 특정 변환(예: 크기 조정, 회전)을 통해 유사하게 변환된 해당 잠재 표현을 생성합니다(예: AuraEquiVAE, EQ-VAE, AF-VAE). 4부에서 사용한 EQ-VAE 논문의 다이어그램은 이러한 제약이 잠재 공간의 공간적 매끄러움에 얼마나 큰 영향을 미치는지 보여줍니다. 스코로호도프 등 잠재 공간의 스펙트럼 분석을 기반으로 동일한 결론에 도달했습니다. 등가 정규화는 잠재 스펙트럼을 픽셀 공간 입력의 스펙트럼과 더 유사하게 만들어 모델링 가능성을 향상시킵니다.

이는 가능한 정규화 전략의 일부에 불과하며, 모두 잠재 벡터의 V-정보를 어떤 식으로든 증가시키려고 시도합니다.

아래로 퍼뜨리다

잠재 표현을 학습하기 위한 자동 인코더의 한 종류인 확산 디코더를 갖춘 자동 인코더에 대한 추가 연구가 필요합니다. 보다 일반적인 디코더 아키텍처는 단일 순방향 패스에서 픽셀 값을 직접 출력하고 적대적 학습을 활용하는 피드포워드 네트워크를 사용하는 반면, 점점 더 인기를 얻고 있는 대안은 잠재 디코딩 작업에 확산을 사용하고 잠재 표현의 분포를 모델링하는 것입니다. 이는 재구성 품질뿐만 아니라 학습된 표현 유형에도 영향을 미칩니다.

SWYCC, ϵ-VAE 및 DiTo는 다양한 관점에서 이 접근 방식을 탐구하는 최근의 연구입니다.

확산 디코더를 사용하여 학습한 잠재 특징은 계층적 생성 모델링에 대한 보다 원칙적이고 이론적으로 근거 있는 접근 방식을 제공합니다.

MSE 손실만을 사용하여 훈련할 수 있는데, 이는 프로세스를 단순화하고 견고성을 향상시킵니다(결국 적대적 손실은 조정하기가 매우 까다롭습니다).

반복적 개선의 원칙을 디코딩에 적용하면 출력 품질을 개선할 수 있습니다.

저는 이러한 관점 반박할 수 없지만 확산 디코더의 중요한 약점, 즉 계산 비용과 디코더 지연에 미치는 영향에 대해 지적하고 싶습니다. 오늘날 상업적으로 배포되는 대부분의 확산 모델이 잠재 모델인 주요 이유는 컴팩트한 잠재 표현을 통해 입력 공간에서 반복적인 정제 과정을 피할 수 있기 때문이라고 생각합니다. 반복적인 정제 과정은 느리고 비용이 많이 듭니다. 잠재 공간에서 반복적 샘플링 과정을 수행한 다음 마지막에 입력 공간으로 단일 전방 전파를 수행하는 것이 훨씬 빠릅니다. 이를 염두에 두면, 디코딩 작업에서 입력 공간의 반복적 개선을 다시 도입하는 것은 2단계 접근 방식의 목적을 크게 훼손하는 것으로 보입니다. 우리가 이런 대가를 치르려고 한다면, 단일 단계 발전 모델을 확장하기 위해 몇 가지 간단한 확산 방법을 선택하는 게 좋을 것입니다.

하지만 잠깐만요. 확산 증류 방법을 여러 개 사용하면 필요한 단계 수를 줄일 수 있지 않을까요? 이러한 설정에서 이러한 방법은 매우 풍부한 조건화 신호(즉, 잠재 표현)로 인해 단일 단계 샘플링 체계에서도 효과적인 것으로 나타났습니다. 조건화가 강할수록 고품질 증류 결과를 얻는 데 필요한 단계가 줄어듭니다.

DALL-E 3의 일관된 디코더는 이에 대한 좋은 예입니다. 그들은 안정적인 확산 잠복 공간을 재사용하고 새로운 확산 기반 디코더를 훈련시켰으며, 이는 일관된 증류를 통해 단 두 개의 샘플링 단계로 줄었습니다. 지연 시간 측면에서는 원래의 적대적 디코더보다 비용이 더 많이 들지만, 출력의 시각적 충실도는 크게 향상되었습니다.

DALL-E 3의 안정적인 확산 잠복 공간을 기반으로 하는 일관된 디코더는 시각적 충실도를 크게 향상시키지만, 그 대가로 대기 시간이 길어집니다.

Music2Latent는 음악 오디오의 스펙트로그램 표현을 기반으로 작동하는 이러한 접근 방식의 또 다른 예입니다. 일관된 디코더를 탑재한 자동 인코더는 종단 간 학습을 거쳤으며(사전 학습된 인코더를 재사용하는 DALL-E 3의 자동 인코더와 달리), 단일 단계로 고충실도 출력을 생성할 수 있습니다. 이는 디코딩 프로세스에도 적대적 디코더와 마찬가지로 단 한 번의 순방향 패스만 필요하다는 것을 의미합니다.

FlowMo는 패턴 탐색 행동을 장려하기 위해 사후 학습 단계를 사용하는 확산 디코더를 갖춘 자동 인코더입니다. 앞서 언급했듯이 잠재적 표현을 디코딩하는 작업의 경우, 모달리티를 없애고 다양성보다는 현실주의에 초점을 맞추는 것이 실제로 바람직한데, 이는 모델 용량이 덜 필요하고 지각적 품질에 부정적인 영향을 미치지 않기 때문입니다. 적대적 손실은 모달리티 손실을 유발하는 경향이 있지만 확산 기반 손실은 그렇지 않습니다. 이 2단계 학습 전략을 사용하면 확산 디코더가 이러한 동작을 모방할 수 있습니다. 하지만 여전히 대량 의 샘플링 단계가 필요하므로 일반적인 적대적 디코더보다 계산 비용이 훨씬 더 많이 듭니다.

Diff-AE 및 DiffuseVAE와 같은 확산 자동 인코더에 대한 일부 초기 연구는 위상 구조가 없는 기존 VAE와 유사한 고수준 의미 표현을 학습하는 데 더 중점을 두고 제어 가능성과 분리에 초점을 맞춥니다. DisCo-Diff는 두 모델의 중간 어딘가에 위치하며, 자기회귀 사전 확률을 통해 모델링할 수 있는 일련의 이산적 잠재 표현으로 확산 모델을 보강합니다.

적대적 학습의 필요성을 제거하면 확실히 일이 간소화되므로, 이와 관련하여 확산 자동 인코더는 흥미로운(그리고 최근에는 꽤 인기를 얻고 있는) 연구 분야입니다. 하지만 지연 시간 측면에서 적대적 디코더와 경쟁하는 것은 어려워 보이므로 아직은 포기할 준비가 되지 않았다고 생각합니다. 적대적 학습이 필요하지 않지만 시각적 품질과 지연 시간 측면에서 현재의 적대적 디코더와 비슷한 업데이트된 방식을 기대하고 있습니다!

그리드가 모든 것을 지배한다

지각 양식의 디지털 표현은 기본 물리적 신호를 균일하게 샘플링(및 양자화)한 버전이기 때문에 종종 격자 구조를 채택합니다. 이미지는 픽셀로 이루어진 2차원 격자를 생성하고, 비디오는 3차원 격자를 생성하며, 오디오 신호는 1차원 격자(즉, 시퀀스)를 생성합니다. 균일 샘플링은 인접한 그리드 위치 사이에 고정된 양자(즉, 거리 또는 시간)가 있다는 것을 의미합니다.

통계적으로 보면, 지각 신호는 시간과 공간에서 거의 고정되는 경향이 있습니다. 균일한 샘플링과 결합하면 풍부한 토폴로지 구조가 생성되는데, 이를 이용하여 신경망 아키텍처를 설계하여 이를 처리합니다. 즉, 합성곱, 재귀, 주의 메커니즘을 통해 달성되는 불변성 및 동치성과 같은 속성을 활용하기 위해 광범위한 가중치 공유를 사용합니다.

의심할 여지 없이, 그리드 구조를 활용하는 것은 우리가 이렇게 강력한 머신러닝(ML) 모델을 구축할 수 있는 주요 이유 중 하나입니다. 따라서 잠재 공간을 설계할 때 이 구조를 보존하는 것이 좋습니다. 우리의 가장 강력한 신경망 설계는 원래 디지털 신호를 직접 처리하도록 만들어졌기 때문에 구조적으로 이에 의존합니다. 동일한 구조를 가지고 있다면 잠재 표현을 처리하는 능력이 더 좋아질 것입니다.

그리드 구조는 생성적 잠재 공간을 학습하는 자동 인코더에도 상당한 이점을 제공합니다. 즉, 정지성으로 인해 로컬 신호 구조만 학습하면 되고, 입력 신호의 더 작은 부분 또는 조각에 대해서만 학습할 수 있습니다. 올바른 구조적 제약(인코더와 디코더의 각 위치에 대한 수용 영역을 제한)을 적용하면 훈련받은 것보다 더 큰 그리드로 즉시 일반화할 수 있게 됩니다. 이를 통해 1단계 교육 비용을 크게 줄일 수 있는 잠재력이 있습니다.

하지만 상황이 항상 밝은 것은 아닙니다. 우리는 지각 신호가 매우 중복적이라는 점을 논의했지만, 안타깝게도 이 중복성은 균등하게 분포되지 않았습니다. 신호의 일부에는 지각적으로 중요한 세부 정보가 대량 포함되어 있는 반면, 다른 부분에는 정보가 거의 포함되지 않습니다. 이전에 사용했던 들판 속 개 이미지에서 개 머리를 중심으로 한 100×100픽셀 패치를 고려해 보세요. 그리고 이를 푸른 하늘만 포함된 이미지 오른쪽 상단 모서리의 100×100픽셀 패치와 비

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트