Google, AI에 더욱 집중: Veo 3, Imagen 4, 제미니(Gemini) Diffusion으로 창의적 경계 확장

avatar
Decrypt
05-22
이 기사는 기계로 번역되었습니다
원문 표시

Google I/O 2025는 결코 미묘함에 관한 것이 아니었습니다. 올해 Google은 점진주의를 버리고, 검색, 비디오, 그리고 디지털 창의성의 지도를 새롭게 그리는 것을 목표로 하는 일련의 생성적 AI 업그레이드를 선보였습니다.

핵심: Google의 차세대 모델 제품군인 제미니(Gemini) 이제 검색 결과부터 비디오 합성 및 고해상도 이미지 생성까지 모든 것을 구동하며, AI가 얼마나 빨리, 얼마나 자연스럽게 생성할 수 있는지에 따라 정의되는 경쟁에서 새로운 영역을 확보하고 있습니다.

가장 눈길을 끄는 것은 구글 최초의 AI 비디오 생성기인 Veo 3 입니다. 이 기능은 영상뿐만 아니라 주변 소음, 효과음, 심지어 대사까지 영상과 직접 동기화되는 완벽한 사운드트랙을 생성합니다. 텍스트와 이미지 프롬프트가 입력되면 완벽하게 제작된 4K 비디오가 출력됩니다.

이는 오디오와 비주얼을 동시에 생성할 수 있는 최초의 대규모 비디오 모델입니다. 이러한 추세는 출시되지 않은 모델인 Showrunner Alpha 에서 시작되었지만 Veo3는 단순한 2D 만화 애니메이션을 넘어 다양한 스타일을 생성하여 훨씬 더 다양한 기능을 제공합니다.

"오디오와 비디오 생성이 결합된 새로운 창작 시대로 접어들고 있습니다."라고 구글 랩스 부사장 조쉬 우드워드는 출시 행사에서 말했습니다. 이는 클링, 훈위안, 루마, 완, 그리고 오픈AI의 소라와 같은 기존 비디오 생성 분야의 선두 주자들이 Veo를 여러 도구가 아닌 올인원 솔루션으로 포지셔닝하는 데 직접적인 도전과제입니다.

Veo3와 더불어 Google의 최신 이미지 생성 모델인 Imagen 4는 향상된 사진적 사실성, 2K 해상도, 그리고 아마도 가장 중요한 점은 실제로 간판, 제품 및 디지털 모형에 적용되는 텍스트 렌더링 기능을 제공합니다.

이전 AI 이미지 모델에서 생성된 횡설수설적인 텍스트로 인해 어려움을 겪었던 사람이라면 Imagen 4는 상당한 개선을 의미합니다.

이러한 도구들은 단독으로 존재하지 않습니다. 전문가 사용자를 위한 새로운 구독 기능인 Flow AI는 Veo, Imagen, Gemini의 언어 기능을 통합된 영상 제작 및 장면 편집 환경으로 결합합니다. 하지만 이러한 통합에는 비용이 발생합니다. 전체 툴킷을 사용하려면 프로모션 기간 동안 월 125달러를 지불해야 하며, 이후 250달러의 정가가 부과될 때까지 사용할 수 있습니다.

생성적 AI는 콘텐츠 제작자만을 위한 것이 아닙니다. 제미니(Gemini) 2.5는 이제 구글의 재설계된 검색 엔진의 중추를 형성합니다. 구글은 이 검색 엔진을 단순한 링크(Chainlink) 애그리게이터에서 복잡한 쿼리를 처리하고 여러 출처에서 수집된 종합적인 답변을 제공하는 역동적인 대화형 인터페이스로 발전시키고자 합니다.

Google 제미니(Gemini) 사용자가 다른 사이트를 클릭하지 않고도 질의에 대한 포괄적인 답변을 제공하려고 시도하는 AI 개요는 현재 검색 페이지 상단에 표시되어 있으며, Google은 월간 사용자가 15억 명이 넘었다고 보고했습니다.

또 다른 흥미로운 개발 사례는 Inception Labs가 몇 달 전 개발한 기술로 개발된 "제미니(Gemini) Diffusion"입니다. 최근까지 AI 업계에서는 자기회귀 기술이 텍스트 생성에 가장 효과적인 반면, 확산 기술은 이미지 생성에 더 효과적이라는 데 대체로 동의해 왔습니다.

자기회귀 모델은 이전 세대를 모두 읽은 후 새로운 토큰을 생성하여 가장 적합한 다음 토큰을 결정합니다. 프롬프트와 이전 출력을 지속적으로 검토하여 일관된 텍스트 응답을 작성하는 데 이상적입니다.

확산 기술은 다르게 작동합니다. 모든 맥락을 무작위 정보로 채우고 각 단계마다 출력을 정제(확산)하여 최종 결과물이 프롬프트와 일치하도록 만듭니다. 이는 고정된 캔버스와 미학을 가진 이미지에 적합합니다.

OpenAI는 이미지 모델에 자기회귀 생성을 처음으로 성공적으로 적용했으며, 이제 구글은 텍스트에 확산 생성을 적용한 최초의 주요 기업이 되었습니다. 즉, 이 모델은 무의미한 것부터 시작하여 매 반복마다 전체 출력을 개선하여 정확도를 유지하면서 초당 수천 개의 토큰을 생성합니다. 컨텍스트의 경우, 세계에서 가장 빠른 추론 제공업체 중 하나인 Groq(xAI의 Grok이 아님)는 초당 약 275개의 토큰을 생성하며, OpenAI나 Anthropic과 같은 기존 제공업체는 이러한 속도에 근접하지도 못합니다.

하지만 이 모델은 아직 대중에 공개되지 않았습니다. 관심 있는 사용자는 대기자 명단에 가입 해야 합니다. 하지만 조기 채택자들은 이 모델의 속도와 정확성을 보여주는 인상적인 결과를 공유했습니다.

우리는 Google의 새로운 AI 기능 중 몇 가지를 직접 사용해 보았는데, 기능에 따라 결과는 엇갈렸습니다.

Deep Research는 특히 강력하며, ChatGPT의 대안보다 훨씬 뛰어납니다. 이 포괄적인 조사 에이전트는 수백 개의 출처를 평가하고 오류를 최소화하여 신뢰할 수 있는 정보를 제공합니다.

OpenAI의 연구 에이전트보다 우위를 점하는 것은 인포그래픽을 생성하는 기능입니다. 완전한 연구 텍스트를 작성한 후, 해당 정보를 시각적으로 매력적인 슬라이드로 압축할 수 있습니다. 이 모델에 구글의 최신 발표에 대한 모든 정보를 입력했더니, 차트, 도표, 그래프, 마인드맵을 통해 정확한 정보를 제시했습니다.

Veo 3는 제미니(Gemini) Ultra 사용자만 사용할 수 있지만, Freepik이나 Fal.ai와 같은 일부 타사 제공업체는 이미 API를 통해 액세스를 제공하고 있습니다. Flow는 Ultra 플랜을 구매하지 않으면 체험할 수 없습니다.

Flow는 Veo의 모델을 핵심으로 하는 직관적인 비디오 편집기로, 사용자가 간단한 텍스트 프롬프트를 사용하여 AI 장면을 편집, 잘라내기, 확장 및 수정할 수 있도록 해줍니다.

하지만 Veo2도 약간의 관심을 받아 Pro 사용자의 작업이 더욱 편리해졌습니다. 이제 Veo2를 사용할 수 있는 세대는 훨씬 빨라졌습니다. 약 30초 만에 8초 분량의 동영상을 제작할 수 있었습니다. Veo2는 소리가 없고 현재 텍스트-비디오 변환만 지원하지만(이미지-비디오 변환 기능은 곧 출시 예정), 사용자의 프롬프트를 이해하고 심지어 일관된 텍스트까지 생성해 주었습니다.

Veo2는 이미 생성형 비디오 업계의 품질 벤치마크로 널리 알려진 Kling 2.0과 비슷한 성능을 보여줍니다. Veo3가 탑재된 차세대 버전은 더욱 사실적이고 일관성이 뛰어나며, 배경 사운드가 훌륭하고 생생한 대사와 음성을 제공합니다.

Imagen의 경우, 구글이 제미니(Gemini) 챗봇 인터페이스에 버전 4를 도입했는지, 아니면 버전 3을 여전히 사용하고 있는지 언뜻 보기에는 판단하기 어렵지만, 사용자는 Whisk를 통해 이를 확인할 수 있습니다. 초기 테스트 결과, Imagen 4는 별도의 명시가 없는 한 사실성을 우선시하며, 이전 버전보다 향상된 즉각적인 반응과 뛰어난 시각적 효과를 제공합니다.

보통 같은 장면에 어울리지 않는 다양한 요소들을 담은 이미지를 만들었습니다. "유리로 된 피부를 가진 여성이 수천 개의 반짝이와 영롱한 조각들로 둘러싸인 바로크 양식의 방에 네온으로 ' 디크립트(Decrypt)'라는 단어가 적힌, 사실적인 사진"이라는 주제를 제시했습니다.

Imagen 3과 Imagen 4 모두 개념과 요소를 이해했지만, Imagen 3은 사실적인 스타일을 제대로 구현하지 못했습니다. Imagen 4는 이를 쉽게 구현했습니다. 전반적으로 Imagen 4는 SOTA 이미지 생성기와 비슷한 수준이며, 특히 구현이 얼마나 쉬운지 고려하면 더욱 그렇습니다.

오디오 개요 기능도 개선되어, 이제 제미니(Gemini) 에서 20분 이상의 전체 토론을 쉽게 제공할 수 있습니다. 사용자가 NotebookLM으로 전환해야 하는 번거로움이 없어졌습니다. 이를 통해 제미니(Gemini) 인터페이스는 더욱 완벽해졌으며, 이전에는 사용자가 다양한 서비스를 이용하기 위해 여러 사이트를 오가야 했던 단편화가 해소되었습니다.

품질은 NotebookLM 과 비슷하지만, 평균적으로 출력 시간이 약간 더 깁니다. 하지만 핵심은 모델이 더 좋아졌다는 것이 아니라, 이제 Gemini의 챗봇 UI에 내장되었다는 것입니다.

구글은 수익 창출 전략을 숨기지 않았습니다. 월 250달러짜리 " 울트라 " 플랜은 가장 강력한 모델, Flow AI 도구, 30테라바이트 저장공간에 대한 우선 접근 권한을 제공하며, 영화 제작자, 전문 크리에이터, 그리고 기업을 겨냥한 것입니다. 20달러짜리 "AI 프로" 플랜은 구글의 기존 Veo2 모델과 더불어 더 넓은 사용자층을 위한 이미지 및 생산성 기능을 제공합니다. 간단한 제미니(Gemini) Live 및 이미지 생성과 같은 기본적인 생성 도구는 여전히 무료이지만, 토큰 제한 및 월 10건의 연구만 허용하는 등의 제약이 있습니다.

이러한 단계적 접근 방식은 더 광범위한 AI 시장 추세를 반영합니다. 무료 혜택을 통해 대중화를 유도한 후, 놓칠 수 없는 유용한 기능을 통해 전문가들을 확보하는 것입니다. 구글은 진정한 활동(과 수익)은 단순한 메시지 전달이나 밈(meme) 생성이 아닌, 고급 창작 작업과 자동화된 기업 워크플로에 있다고 생각합니다.

Andrew Hayward 가 편집함

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트