AI가 원클릭으로 '흑인 신화' 생성, Tencent가 게임 비디오 모델 GameGen-O 출시, 업계 관계자: ChatGPT 게임 스튜디오의 순간

avatar
36氪
09-14
이 기사는 기계로 번역되었습니다
원문 표시

무엇? 어쩌면 이 대형 모델이 곧 "검은 신화: 오공"과 같은 3A 걸작을 탄생시킬 수 있지 않을까요? !

데모를 시청해 보세요. "Journey to the West"가 테이블 위에 있습니다.

BGM과 짝을 이루어 내부적인 풍미(도제)가 있습니까?

이것은 Tencent가 최근 출시한 GameGen-O 입니다. 오픈 월드 비디오 게임을 생성하도록 특별히 설계된 Transformer 모델입니다.

간단히 말해서, 이 모델은 다양한 게임 엔진 기능을 시뮬레이션하고 게임 캐릭터, 동적 환경, 복잡한 액션 등을 생성할 수 있습니다.

물론 대화형 제어 도 지원되며 사용자는 텍스트, 작동 신호 및 비디오 프롬프트를 통해 게임 콘텐츠를 제어할 수 있습니다.

이 소식이 알려지자마자 𝕏(이전 트위터)는 스와이프 모드로 돌입했고 네티즌들은 줄을 서서 비명을 지르기 시작했습니다.

게임 스튜디오 Azra Games의 공동 창업자이자 CTO는 다음과 같이 직설적으로 말했습니다.

GameGen-O는 게임 스튜디오를 위한 ChatGPT 순간이 될 것입니다.

"Game Studio에는 ChatGPT 순간이 있습니다."

구체적으로 이 프로젝트는 홍콩 과학 기술 대학 및 중국 과학 기술 대학과 협력하여 Tencent Photon Studio(한때 Peace Elite를 만들었음)에 의해 시작되었습니다.

그들이 원하는 것은 일부 게임 개발 링크를 대체하기 위해 AI 모델을 사용하는 것이라고 추측됩니다. 예를 들어 현재 발표된 게임 캐릭터 생성, 게임 환경 생성, 액션 생성, 이벤트 생성 및 다양한 인터랙티브 제어 등이 있습니다.

아래에서 하나씩 미리 살펴보시죠~

이제 GameGen-O를 사용하여 서부 카우보이, 우주 비행사, 마술사, 경비원 등 다양한 캐릭터를 클릭 한 번으로 직접 생성할 수 있습니다.

자금 부족으로 인해 실제 촬영에 어려움을 겪고 있지만 플랜B도 있습니다!

팀원들에게 멋진 동작을 보여주고 다양한 개인적인 관점에서 쉽게 동작을 생성할 수 있습니다.

게임의 필수 부분 - 플레이어에게 때때로 수억의 난이도를 제공하고 쓰나미, 토네이도 및 화재 이벤트가 여기(총독)에 배치됩니다.

동시에 GameGen-O는 스타일, 환경, 장면에 국한되지 않는 개방형 도메인 생성도 지원합니다.

마지막으로 텍스트, 작동 신호 및 비디오 프롬프트(왼쪽, 오른쪽, 새벽 방향)를 사용하여 상호 작용을 달성할 수 있습니다.

좋은 여러분, 게임 개발이 얼마나 비싼지 모두가 알고 있습니다. 이제 일반 플레이어도 GameGen-O를 사용하여 게임을 만들 수 있습니다.

한 AI 건축가 네티즌은 이렇게 주장하기도 했습니다.

GPT-4o로 데이터 라벨링

이 모델을 개발하기 위해 팀은 주로 두 가지 작업을 수행했다고 보고했습니다.

독점 데이터 세트 OGameData를 구축하고 GPT-4o를 사용하여 데이터에 주석을 추가합니다.

두 단계 의 훈련 과정을 거칩니다.

구체적으로 팀은 먼저 데이터 세트 구축 파이프라인을 제안했습니다.

팀은 인터넷에서 32,000개의 원본 비디오를 수집했습니다. 이 비디오는 롤플레잉, 1인칭 슈팅 게임, 레이싱, 액션 퍼즐 게임 등을 포함하여 몇 분에서 몇 시간까지 길이에 이르는 수백 개의 오픈 월드 게임에서 수집되었습니다.

그런 다음 전문가가 이러한 동영상을 식별하고 필터링하여 약 15,000개의 사용 가능한 동영상을 만들었습니다.

다음 단계에서는 필터링된 비디오를 장면 감지 기술을 사용하여 세그먼트 로 자르고, 이러한 비디오 세그먼트는 미학, 광학 흐름 및 의미 콘텐츠를 기반으로 엄격하게 정렬 및 필터링 됩니다.

그 다음에는 720p에서 4k까지 해상도 범위에서 4,000시간이 넘는 고품질 비디오 영상에 GPT-4o를 사용하여 세심한 주석을 달았습니다.

대화형 제어를 달성하기 위해 팀은 주석이 달린 데이터세트에서 최고 품질의 세그먼트를 선택하고 분리된 라벨링을 수행했습니다.

이 라벨은 조각의 콘텐츠 상태 변화를 설명하도록 설계되어 모델 학습을 위한 데이터 세트가 더욱 세부적이고 대화형이 되도록 보장합니다.

GPT-4o와 협력하는 이러한 형태의 인간 전문가에 대해 일부 네티즌은 다음과 같이 믿습니다.

이것은 재귀적인 자기 개선 의 한 형태입니다. (인간 전문가는 주석의 정확성을 보장하고 피드백 메커니즘을 통해 GPT-4o가 자체적으로 개선되도록 돕습니다)

데이터 준비 작업을 마친 후 팀은 기본 사전 훈련 + 지침 조정의 두 가지 과정을 통해 GameGen-O를 훈련했습니다.

기본 훈련 단계 에서 GameGen-O 모델은 2+1D VAE (Magvit-v2와 같은 변형 자동 인코더)를 사용하여 비디오 클립을 압축합니다.

VAE를 게임 분야에 적용하기 위해 팀에서는 VAE 디코더를 도메인별로 조정했습니다.

팀은 프레임 속도와 해상도 전반에 걸쳐 일반화 기능을 향상시키기 위해 다양한 프레임 속도와 해상도를 갖춘 하이브리드 훈련 전략을 채택했습니다.

또한 모델의 전체 아키텍처는 Latte 및 OpenSora V1.2 프레임 의 원칙을 따릅니다.

Masked Attention 메커니즘을 사용함으로써 GameGen-O는 텍스트-비디오 생성비디오 속편 의 이중 기능을 갖습니다.

팀은 다음을 소개했습니다.

OGameData 데이터 세트와 결합된 이 훈련 방법을 통해 모델은 오픈 필드 비디오 게임 콘텐츠를 안정적이고 고품질로 생성할 수 있으며 후속 대화형 제어 기능의 기반을 마련합니다.

그 후, 사전 훈련된 모델은 고정된 다음 훈련 가능한 InstructNet을 사용하여 미세 조정됩니다. 이를 통해 모델은 다중 모드 구조 명령을 기반으로 후속 프레임을 생성할 수 있습니다.

InstructNet은 주로 구조화된 텍스트, 작동 신호 및 비디오 프롬프트를 포함한 다양한 다중 모드 입력을 수용하는 데 사용됩니다.

InstructNet 브랜치의 조정 과정에서는 현재 콘텐츠를 조건으로 사용하여 다중 모드 제어 신호에 따라 수행되는 현재 프래그먼트 콘텐츠와 미래 프래그먼트 콘텐츠 간의 매핑 관계를 설정합니다.

그 결과 추론 중에 GameGen-O를 사용하면 사용자가 현재 조각을 기반으로 다음 생성된 조각을 지속적으로 생성하고 제어 할 수 있습니다.

현재 GameGen-O는 공식 GitHub 저장소를 만들었지만 아직 코드를 업로드할 시간이 없었습니다.

어린이 신발에 관심이 있으신 분들은 먼저 모아보세요~

프로젝트 홈페이지: https://gamegen-o.github.io/

GitHub 공식 저장소: https://github.com/GameGen-O/GameGen-O/

참조 링크:

[1]https://x.com/_akhaliq/status/1834590455226339492

[2]https://x.com/8teapi/status/1834615421728948581?s=46

이 기사는 WeChat 공개 계정 "Qubit" 에서 가져온 것입니다. 저자: 최첨단 기술에 주목하세요. 36 Krypton은 승인을 받아 게시되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트