유토파이의 PAI를 테스트해봤습니다. 현재 최고의 장편 AI 비디오 생성기일까요?

03-16

이 기사는 기계로 번역되었습니다

원문 표시

대부분의 AI 비디오 도구는 하이라이트 영상 제작에 최적화되어 있습니다. Sora , Kling , Luma, Runway 등은 모두 시선을 사로잡는 5초짜리 클립이나 소셜 미디어에서 인상적인 시각적 실험을 위한 최적의 도구입니다.

그들이 거의 해결하지 못하는 부분은 전문 스토리텔러에게 실제로 중요한 부분입니다. 즉, 장면 간 일관성, 편집본 전반에 걸친 캐릭터 정체성, 그리고 사소한 오류가 있을 때마다 처음부터 다시 시작할 필요가 없는 세밀한 창작 제어 능력입니다.

유토파이 스튜디오는 PAI를 통해 바로 이러한 격차를 해소하고자 합니다. 구글 리서치, 메타 슈퍼인텔리전스, 아마존 AGI, 어도비 파이어플라이 출신의 전문가들로 구성된 유토파이 팀은 장편 영화 제작에 특화된 PAI를 개발했습니다. 최대 16개의 장면을 하나의 스토리 흐름으로 구성하고, 최대 1분 길이의 영상을 최대 4K 해상도로 출력할 수 있습니다.

또한, 저작권으로 보호되는 지적 재산, 저작권이 있는 캐릭터, 그리고 실제 유명인의 초상권을 이용한 생성을 차단하는 내장된 저작권 보호 기능이 포함되어 있습니다. 이는 우발적인 저작권 침해를 감당할 수 없는 스튜디오와 전문가들을 위한 기능입니다.

PAI는 이달 초에 일반에 공개되었습니다. 저희는 현장에 들어가 워크플로의 모든 단계를 직접 경험했고, 그 과정에서 몇 가지 어려움을 겪었습니다. 전체적인 모습을 아래에서 확인해 보세요.

메인 화면은 ChatGPT 또는 일반적인 챗봇 인터페이스와 유사합니다. 거기에서 캐릭터, 스토리보드, 비디오, 편집기, 기록의 다섯 가지 탭을 탐색할 수 있습니다.

하지만 이것에 속지 마세요. PAI는 Sora나 Veo처럼 단순히 입력을 기다리는 도구가 아닙니다. PAI는 자연어 처리 레이어가 얹힌 구조화된 프로덕션 파이프라인이며, 이러한 차이점은 기업의 수익이 걸린 문제에서는 매우 중요합니다.

이는 전체 제품군에서 가장 강력한 기능이며, 현재 사용 가능한 모든 AI 비디오 도구 중에서 가장 인상적인 캐릭터 생성 시스템일 것입니다.

사용자는 모델이 스스로 캐릭터를 생성하도록 하거나, 참조 이미지를 제공하여 작업에 활용할 수 있습니다. 이 기술은 딥페이크 도구처럼 실제 인물의 얼굴을 이식하는 방식이 아니라, 참조 이미지와 매우 유사한 완전히 새로운 모델을 생성합니다. 이는 직접적인 얼굴 교체에 따르는 법적, 윤리적 문제를 방지합니다. 모든 결과물에는 SynthID 워터마크가 포함됩니다.

대부분의 AI 생성 캐릭터는 피부가 밀랍처럼 매끄럽게 표현되어 금방 부자연스러워 보입니다. 하지만 PAI로 생성된 캐릭터는 그렇지 않거나, 적어도 그 정도는 아닙니다. 피부 질감은 물론 얼굴에 비치는 빛의 표현도 사실적이며, 디테일도 뛰어납니다. 이러한 결과가 자체 개발 모델 덕분인지, 아니면 특별히 정교한 생성 워크플로 덕분인지는 알 수 없지만, 결과는 분명합니다.

캐릭터 편집은 자연어를 통해 이루어집니다. 예를 들어, 아내의 외모를 참고하여 캐릭터를 생성했는데, 결과물이 너무 마른 것 같아서 모델에게 참고 사진과 더 잘 어울리도록 신체 비율을 조정해달라고 요청했습니다. 모델은 제가 무슨 말을 하는지 정확히 이해하고 수정해 주었습니다.

한 가지 일관된 단점은 속도가 느리다는 것입니다. 기본적인 문자 이미지 생성조차 한 번 실행하는 데 몇 분씩 걸립니다.

스토리보드를 자동 모드로 실행하여 모델이 모든 작업을 자동으로 처리하도록 할 수도 있지만, 스토리보드는 그런 용도로 만들어진 것이 아닙니다.

PAI는 상세한 입력에 보상을 제공합니다. 각 장면에서 등장인물의 행동, 대사, 스토리 전개 방식 등 구체적인 정보를 제공할수록 모델의 성능이 향상됩니다. 이러한 구체적인 정보를 입력하면 AI를 활용하여 세부 사항을 확장하고 약 12개의 키프레임을 생성합니다. 각 키프레임에는 장면 이미지와 해당 순간에 발생하는 상황(등장인물의 행동, 대화, 시각적 구성)에 대한 설명이 포함됩니다.

최종 작업을 진행하기 전에 각 키프레임을 개별적으로 편집할 수 있습니다. 매우 세밀한 제어가 가능합니다. 만족스러운 편집이 완료되면 모델에 다음 단계로 진행하도록 지시하고, 렌더링 전에 최종 확인을 요청합니다. 이러한 렌더링 전 검토 과정은 매우 효율적인 설계입니다. 신중한 결정을 내리도록 유도하고, 비용이 많이 드는 문제로 발전하기 전에 문제를 발견할 수 있도록 도와줍니다.

하지만 아무리 작은 수정이라도 시간이 걸리고 크레딧이 소모됩니다. 신중하게 진행하세요.

제대로 작동할 경우, 1분 분량의 영상을 렌더링하는 데 약 30분이 소요됩니다. 하지만 결과물의 품질은 그 기다림을 충분히 보상해 줍니다. 카메라 앵글은 자연스럽게 바뀌고 설정된 키프레임을 잘 따르며, 조명도 자연스럽고, 등장인물들은 대부분의 AI 영상에서 느껴지는 공허하고 생기 없는 느낌이 전혀 없습니다. 음성은 장면 전환 후에도 적절한 억양과 톤을 유지하며 일관성 있게 전달됩니다.

카메라가 다른 장면을 보여준 후 다시 캐릭터에 초점을 맞출 때, 캐릭터는 이전 모습 그대로 돌아옵니다. 배경은 영상 내내 안정적으로 유지되며, 왜곡이나 아티팩트가 발생하더라도 경미한 수준입니다. 한 가지 단점은 영상 내 텍스트를 제대로 처리하지 못한다는 것입니다. 기본적인 텍스트 요소는 생성할 수 있지만, 화면에 정확한 타이포그래피가 필요한 작업에는 적합하지 않습니다.

다음은 모델이 모든 것을 자동으로 처리하여 생성한 결과물의 예시입니다.

이제 더 어려운 부분입니다. 테스트 시퀀스 중 하나가 세 번 연속으로 실패했습니다. 첫 번째 시도는 약 45분이 걸렸고, 마치 전체 비디오가 생성된 것처럼 크레딧을 소모했으며, 결과는 아무것도 생성되지 않았습니다. 챗봇에게 아무것도 생성되지 않았다고 알려주자, 챗봇은 오류를 인정하고 다시 시작했습니다.

한 시간 후에도 아무것도 나오지 않았습니다. 세 번째 시도했지만 결과는 마찬가지였습니다. 세 번의 시도, 상당한 크레딧 손실, 그리고 촬영된 영상은 단 한 개도 없었습니다. 결국 포기했을 때는 크레딧이 거의 바닥나서 다른 곳으로 이동해야 했습니다.

실제 돈을 지불하고 정해진 기한 내에 작업을 완료해야 하는 상황에서 이는 결코 사소한 버그가 아닙니다. 인터페이스는 오류가 발생할 수 있음을 인정하지만, 직접 경험하는 것은 전혀 다른 문제입니다. 특히 영상 제작 과정에서 크레딧이 소모된 경우, 영상을 다운로드하려면 잔액이 남아 있어야 한다는 점을 고려하면 더욱 그렇습니다.

모든 항목을 자동 선택한 첫 번째 테스트에서 제가 사용자 오류를 범했습니다. 어떤 캐릭터가 어떤 사진을 사용해야 하는지 지정하지 않고 두 장의 참조 사진을 입력했는데, 모델이 반대로 적용했습니다. 즉, 남성 캐릭터(저)는 여성 참조 사진(제 아내)을 기반으로 생성되었고, 그 반대의 경우도 마찬가지였습니다.

여성으로서의 제 모습이 담긴 그 충격적인 이미지는 잊어버리세요. 결과적으로 이 영상은 제가 제작한 AI 장편 영상 중 가장 일관성 있게 렌더링된 작품이 되었습니다. 잘못된 레퍼런스를 사용했음에도 불구하고, 모델은 장면마다 시각적, 분위기적 연속성을 유지했습니다. 이는 기본 아키텍처의 우수성을 보여주는 증거입니다.

두 경험에서 얻은 교훈은 같습니다. 일반적인 AI 비디오 도구는 모든 것을 자동으로 판단해주기 때문에 사용자는 크게 신경 쓸 필요가 없지만, 도구가 내린 결정은 그대로 받아들여야 합니다. 반면 PAI는 사용자에게 제어권을 부여합니다. 그리고 그 제어권에는 사용자가 입력하는 내용에 대한 완전한 책임이 따릅니다.

영상 제작이 완료되면 편집기 탭에서 자연어로 모든 수정 작업을 지시할 수 있습니다. 장면에 요소를 삽입하거나 삭제하고, 색상을 변경하고, 조명을 조정하고, 대사를 바꾸거나, 립싱크를 업데이트하면 모델이 그에 따라 다시 렌더링됩니다. 마치 로봇이 사용자의 요청을 진정으로 이해하는 것처럼 보입니다.

이것은 단순한 후처리 필터가 아닙니다. 장면 수준에서 반복적으로 AI를 적용하여 수정하는 기능입니다. 편집 의도를 설명하고 그에 따라 수정된 영상을 받아볼 수 있다는 것은 감독과 작품 사이의 창작 관계를 완전히 바꿔놓습니다. PAI의 다른 어떤 기능보다도 이 기능이야말로 가까운 미래에 AI 기반 영상 편집이 나아갈 방향을 보여주는 대표적인 사례입니다.

예를 들어, 첫 번째 영상을 본 후, 저는 모델에게 적절한 참고 자료를 사용하여 성별 오인 오류를 수정해 달라고 요청했습니다.

처리가 완료되면 다음과 같이 변경됩니다.

이것에 대해:

기록 탭에는 프롬프트, 편집, 렌더링 시도 등 모든 상호 작용에 대한 전체 타임라인이 기록됩니다.

개인 창작자에게는 유용한 맥락을 제공합니다. 팀의 경우, 여러 사용자가 동료가 모델을 어떻게 구성했는지 확인하고, 무엇이 효과적이었고 무엇이 효과적이지 않았는지 이해하며, 공유된 창작 기록을 바탕으로 작업을 이어갈 수 있는 진정한 협업 플랫폼이 될 수 있습니다.

PAI 가격은 10,000 크레딧에 100달러입니다. 저희 테스트 결과, 2,000 크레딧으로 총 4분 분량의 영상 4개(1개는 완성, 3개는 미완성)를 제작할 수 있었습니다. 영상당 두 명의 캐릭터를 생성하고 렌더링 전 여러 번 수정 작업을 거쳤으며, 풍부하고 상세한 가이드라인을 바탕으로 스토리보드를 개발하고 렌더링 후 편집을 약 두 차례 진행했습니다.

전반적으로 PAI는 AI 비디오 작업을 진지하게 생각하는 사람들을 위해 만들어진 전문가용 도구처럼 느껴집니다. 속도가 느리고, 경험 부족에는 관대하지 않으며, 솔직히 말해서 제대로 된 튜토리얼이 필요합니다. 또한 예산을 순식간에 소진시킬 수도 있습니다. 인터페이스는 완벽하지 않고, 준비 없이 시작하면 시스템에 큰 어려움을 겪을 수 있습니다.

첫 번째 테스트 세션에서는 프로그램의 작동 방식을 파악하는 데 시간을 할애했고, 두 번째 테스트에서는 매우 놀랍고 만족스러운 결과를 얻었습니다. 이는 일반적으로 얼굴 바꾸기 기술, 여러 차례의 시행착오, 그리고 후반 작업 편집을 거쳐야 얻을 수 있는 결과였습니다.

연속성, 지적 재산권 보호, 그리고 영화 같은 영상미를 절대 타협할 수 없는 요소로 여기는 전문 영상 제작자에게 PAI는 현재 최고의 장편 AI 영상 제작 시스템입니다. 안정성 문제를 해결한다면, 적어도 지금으로서는 다른 어떤 시스템도 PAI에 비할 수 없을 것입니다.

섹터:

DePIN

디파이

생성형 AI

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트