중국의 9달러짜리 AI 비디오 도구 Kling 2.1에 오디오 기능이 추가되었습니다. 구글의 250달러짜리 Veo 3를 이길 수 있을까요?

avatar
Decrypt
06-17
이 기사는 기계로 번역되었습니다
원문 표시

중국 숏 영상 플랫폼 Kuaishou는 AI 기반 영상 제작 도구인 Kling 2.1에 오디오 생성 기능을 추가하여 사용자가 발자국 소리, 비, 주변 소음 등의 동기화된 사운드 효과가 있는 클립을 제작할 수 있게 되었습니다.

지난주에 조용히 출시된 이 기능은 Kling의 이미지-비디오 모드에서 사용할 수 있는데, 이는 사용자가 정지 이미지를 업로드하면 플랫폼이 인공 지능이 생성한 동작과 오디오를 사용하여 이미지를 애니메이션으로 만들어줍니다.

타이밍이 좋아서 클링은 출시 첫날부터 오디오 기능을 통합한 구글의 Veo 3와 경쟁하게 됐습니다.

X의 초기 사용자들은 Kling의 매끄러운 오디오-비주얼 동기화를 칭찬했으며, 제작자 로베르토 닉슨은 이를 생성적 비디오 콘텐츠를 제작하는 데 "시장에서 가장 유용한 모델 중 하나"라고 불렀습니다.

이 기능은 초기 출시 기간 동안 무료로 제공되며, Kling 웹사이트와 모바일 앱을 통해 이용할 수 있습니다.

Kling 2.1은 회사에서 "3D 시공간적 주의 메커니즘"이라고 설명하는 기술을 활용해 최대 1080p 해상도의 5~10초 분량의 클립을 생성합니다.

현재 이 오디오 도구는 효과음만 생성하고 대사나 음악은 제공하지 않습니다. 텍스트가 포함되면 동남아시아 언어 오디오와 유사한 음조가 강조되어 전혀 알아들을 수 없습니다. 하지만 이것만으로는 구글을 생성적 비디오의 명실상부한 제왕으로 인정하기에 충분하지 않습니다.

우리는 Kling 2.1의 새로운 오디오 기능을 Google의 Veo 3와 비교 테스트하여 신생 제품이 어떤 성능을 보이는지 살펴보았습니다.

두 플랫폼 간의 가격 차이는 엄청납니다.

Kling 2.1의 오디오 기능은 표준 버전에서만 호환되며, 상위 버전인 Master 버전에서는 사용할 수 없습니다. 하지만 현재 속도 기준으로는 Veo 3로 제작한 영상 하나당 Kling에서 20개 이상의 영상을 제작할 수 있습니다.

예를 들어, Freepik의 크레딧 시스템을 사용하면 Google Veo 3의 한 세대는 현재 4,000 크레딧(정상 가격은 비디오당 8,000 크레딧)에 판매되고 있는 반면, Kling 2.1은 비디오당 300 크레딧입니다.

Google 모델은 월 250달러의 Ultra 구독을 통해서만 운영됩니다. Kling은 공식 사이트 에서 이용 가능하며, 일부 무료 세대를 제공하고 월 9달러 정도의 구독료부터 시작합니다.

현재 Google의 프로모션 가격을 적용하더라도 Veo 3는 Kling보다 10배 더 비쌉니다.

영상 제작에는 시행착오가 많고 실패율이 높아 인내심 있는 사용자조차 좌절하는 경우가 많다는 것을 아는 크리에이터에게 클링의 경제학은 실험을 가능하게 합니다.

Kling의 프리미엄 플랜은 1080p 해상도를 제공하여 비용 이점을 유지하면서도 전반적인 비디오 품질을 향상시킵니다.

하지만 가격만큼의 가치를 제공합니다. Veo 3는 정교한 사운드 생성 기능을 제공하여 음성을 정확하게 합성하고 복잡한 오디오 요소를 시각적 장면에 맞춰 매칭합니다.

공간적 오디오와 맥락적 사운드에 대한 이해는 클링의 제품보다 훨씬 뛰어났습니다.

Kling 2.1은 경쟁할 수 없지만, 공평하게 말하자면 다른 것을 목표로 했습니다. 바로 주변 소리와 배경 효과입니다. 대화도 음악도 없습니다. 그러니 바이러스성 AI 거리 인터뷰는 이제 잊어버리세요. 오디오를 생성하려고 하면 횡설수설하는 말투가 나옵니다.

하지만 분위기 있는 오디오가 필요한 장면이나 비디오에서는 그 결과가 만족스럽습니다.

기존의 무음 영상에 효과를 추가할 수 있는 이 플랫폼의 새로운 기능은 Veo 3에서는 따라올 수 없었던 우위를 제공합니다.

사용자는 완성된 비디오를 업로드하고 적절한 사운드스케이프를 추가하여 편집할 수 있는데, 이는 Google 모델에서는 지원하지 않는 워크플로입니다. 이상하게도 Veo는 비디오를 만들 수는 있지만 편집은 할 수 없습니다.

Kling은 소리가 없는 영상에 소리를 넣는 기능 외에도 립싱크 기능도 제공합니다.

사용자는 사진과 연설 또는 대화를 따로 업로드할 수 있으며, 모델은 업로드된 오디오에 따라 피사체가 서로 대화하는 것처럼 자연스럽게 상호 작용하는 비디오를 만듭니다.

20:1 세대 비율 덕분에 크리에이터는 Kling에서 다양한 오디오 접근 방식을 실험할 수 있는 반면, Veo 3 사용자는 더 적은 시도로 사운드 디자인을 완성해야 합니다.

취미로 하는 사람이나 생성적 비디오를 배우는 사람들에게 클링의 접근 방식은 시행착오를 거치는 데 더 많은 여지를 제공합니다.

하지만 정밀한 오디오-비주얼 동기화와 대화가 필요한 전문 크리에이터라면 Veo 3의 정교한 사운드 엔진이 그만한 가치가 있다는 걸 알게 될 겁니다.

비디오 품질 테스트 결과 예상치 못한 결과가 나타났습니다. 거대한 거미에게서 도망치는 여성의 테스트 장면에서 Kling 2.1의 표준 버전은 Veo 3와 자체 마스터 버전보다 성능이 뛰어났습니다.

표준 모델은 장면의 역학을 정확하게 표현하여 유동적인 움직임과 적절한 방향의 움직임을 보여주었습니다. Veo 3는 불가사의하게도 거미에게서 멀어지는 대신 거미를 향해 달려가는 여성을 생성했습니다.

마스터 에디션은 일반적으로 더 선명하고 깨끗한 영상을 제공하지만, 표준 버전은 더 뛰어난 장면 이해력과 더 유연한 움직임을 보여주었습니다.

이는 이상하게 보입니다. 해상도가 높을수록 항상 더 나은 결과를 얻어야 하지만, 어쩌면 이 문제가 기술적 문제이거나 단순히 세대의 불운 때문일 수도 있습니다.

그럼에도 불구하고, 1080p 세대를 갖춘 Kling 2.1 표준은 이 부분에서 Google Veo 3와 견줄 만한 훌륭한 모델입니다.

플랫폼의 제약으로 인해 각 도구의 워크플로우는 서로 다릅니다. Kling 2.1의 오디오 기능은 이미지-비디오 변환 기능만 지원하며, 텍스트-비디오 변환 기능은 지원하지 않습니다. 텍스트-비디오 변환 기능은 오디오 지원이 없는 마스터 에디션에서만 지원됩니다. 이상하게 들리겠지만, 어쨌든 그렇습니다.

가장 좋은 해결책은 Kuaishou의 이미지 생성기인 Kolors를 사용하여 시작 프레임을 만든 후 오디오가 동기화된 비디오로 변환하는 것입니다. Kolors는 매우 사실적인 이미지를 생성하여 비디오 생성의 훌륭한 시작점으로 활용할 수 있습니다.

하지만 Reve, MidJourney, Recraft, 플럭스(Flux), 심지어 ChatGPT 등의 모델을 사용하면 더 쉽게 프롬프트를 표시할 수 있습니다.

Veo 3는 정반대의 접근 방식을 취하여 이미지-비디오 옵션 없이 텍스트-비디오 생성만 제공했습니다.

이로 인해 사용자는 시작 시각적 요소를 제어할 방법 없이 전적으로 신속한 엔지니어링에 의존해야 합니다.

Google의 결정은 이전 Veo 2가 별도의 Flow 플랫폼을 통해 이미지-비디오 변환을 실제로 지원했다는 점을 감안할 때 특히 이상해 보입니다.

시각적 제어가 부족하다는 것은 사용자가 원하는 시작 프레임이 텍스트 프롬프트에 따라 생성되기를 바라며 맹목적으로 비디오를 생성해야 한다는 것을 의미합니다.

콘텐츠 관리는 상반된 철학을 드러냈습니다. Veo 3는 공격적인 키워드 필터링과 사후 생성 검사를 통해 Google 정책을 위반하는 콘텐츠를 차단합니다.

이 시스템은 생성 전에 잠재적으로 문제가 될 수 있는 메시지를 표시하고, 완료된 비디오의 정책 위반 사항을 분석합니다.

클링은 Veo가 완전히 블록 콘텐츠도 허용하면서 더 자유로운 제한을 적용합니다.

하지만 이 모델의 훈련 데이터에서는 당연히 노골적인 내용이 배제되었습니다. 즉, 이 모델은 해부학적 세부 정보가 없는 인물과 유혈이 없는 폭력적인 인물을 생성합니다.

따라서 사용자는 안전 경계를 유지하면서 키워드 필터를 우회하는 특정 유형의 콘텐츠를 생성할 수 있습니다.

두 플랫폼 모두 최신 검열로 인해 영상이 차단되면 크레딧을 환불해 주지만, 클링의 더 가벼운 접근 방식은 제한 내에서 더 많은 창의적 자유를 허용합니다.

베오 3가 여전히 왕일지 몰라도, 클링 2.1은 확실히 군주제를 전복하려는 사명을 가진 포퓰리스트에 가깝습니다.

250달러짜리 구독 서비스와 비교했을 때 9달러짜리 도구라는 점을 고려하면 오디오 기능은 꽤나 혁신적입니다.

분위기 있는 사운드가 효과적이고, 비는 비처럼 들리고, 발소리는 대부분 움직임과 일치하며, Veo 사용자가 신중하게 단일 샷을 만드는 동안 20번의 시도를 할 수 있습니다.

완성된 비디오에 사운드를 추가하는 이 개조 기능은 Google에서 제공하지 않는 기능으로, 소리가 없는 클립을 복구하는 데 정말 유용합니다.

말하는 게 주 목표라면 상황이 완전히 달라질 겁니다. 클링의 횡설수설로는 아무도 속일 수 없죠.

이런 종류의 특정 요구 사항에는 Google Veo 3가 당연하고 유일한 선택입니다. 왕은 (거의) 죽었습니다. 클링 만세!

Josh Quittner와 Sebastian Sinclair 가 편집함

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트