什麼?大模型也許很快就能生成《黑神話·悟空》這種3A大作了?!
直接看一則demo,《西遊記》這就上桌:
搭配BGM,是不是有內味兒了(doge)。
這就是騰訊近日推出的GameGen-O,一個專門生成開放世界視頻遊戲的Transformer模型。
簡單說,這個模型能夠模擬各種遊戲引擎功能,生成遊戲角色、動態環境、複雜動作等等。
當然也支持交互控制,用戶可以通過文本、操作信號和視頻提示來控制遊戲內容。
消息一公佈就在𝕏(前推特)開啟了刷屏模式,網友們開始列隊尖叫:
遊戲工作室Azra Games的聯創兼CTO更是直言:
GameGen-O將成為遊戲工作室的ChatGPT時刻。
“遊戲工作室迎來ChatGPT時刻”
具體來說,這個項目由騰訊光子工作室(曾打造出和平精英)聯合港科大、中國科大推出。
推測想要做的事兒,是用AI模型替代一些遊戲開發環節。比如目前公佈的遊戲角色創建、遊戲環境生成、動作生成、事件生成以及各種交互控制。
下面我們挨個預覽一波~
現在,用GameGen-O就能直接生成各種角色了,西部牛仔、太空人、魔法師、警衛……一鍵生成。
經費不足造成真實取景困難,也有plan B了!
給隊友展示騷操作,各種人稱視角的動作生成也能輕鬆拿捏。
遊戲必備環節——給玩家偶爾上億點難度,海嘯、龍捲風、火災事件這就安排(doge)。
與此同時,GameGen-O也支持開放域生成,即不限風格、環境、場景那種。
最後,用文本、操作信號和視頻提示就能實現交互,向左、向右、走向黎明……
好傢伙,誰都知道遊戲開發有多燒錢,這下,普通玩家也能用GameGen-O製作遊戲了。
一位AI架構師網友更是斷言:
用GPT-4o標註數據
為了開發這個模型,團隊自述主要進行了兩項工作:
構建專有數據集OGameData,採用GPT-4o標註數據
經歷兩個階段的訓練過程
具體來說,團隊首先提出了一個數據集構建管道。
團隊從互聯網上收集了32,000個原始視頻,這些視頻來自數百款開放世界遊戲,時長從幾分鐘到幾小時不等,類型包括角色扮演、第一人稱射擊、賽車、動作益智遊戲等。
然後由人類專家對這些視頻進行識別和篩選,最終得到大約15,000個可用視頻。
下一步,將篩選後的視頻通過場景檢測技術切割成片段,並對這些視頻片段進行基於美學、光流和語義內容的嚴格排序和過濾。
接下來使用GPT-4o對超過4,000小時的高質量視頻片段進行細緻的註釋,這些片段的分辨率從720p到4k不等。
為了實現交互控制性,團隊從註釋後的數據集中選擇最高質量的片段,並進行解耦標籤(decoupled labeling)。
這種標籤設計用於描述片段內容狀態的變化,確保訓練模型的數據集更加精細和互動。
對於這種人類專家和GPT-4o一起工作的形式,有網友認為:
這是遞歸自我改進(recursive self-improvement)的一種形式。(人類專家確保了註釋的準確性,並通過反饋機制幫助GPT-4o進行自我改進)
完成數據準備工作後,團隊經過基礎預訓練+指令調整兩個過程來訓練GameGen-O。
在基礎訓練階段,GameGen-O模型使用了一個2+1D VAE(變分自編碼器,如Magvit-v2)來壓縮視頻片段。
為了使VAE適應遊戲領域,團隊對VAE解碼器進行了特定領域的調整。
團隊採用了不同幀速率和分辨率的混合訓練策略,以增強跨幀率和跨分辨率的泛化能力。
另外,模型的整體架構遵循了Latte和OpenSora V1.2框架的原則。
通過使用掩碼注意力機制,讓GameGen-O具備了文本到視頻生成和視頻續集的雙重能力。
團隊介紹稱:
這種訓練方法,結合OGameData數據集,使得模型能夠穩定且高質量地生成開放領域的視頻遊戲內容,併為後續的交互控制能力奠定了基礎。
在這之後,預訓練的模型被固定,然後使用可訓練的InstructNet進行微調,這使得模型能夠根據多模態結構指令生成後續幀。
InstructNet主要用於接受各種多模態輸入,包括結構化文本、操作信號和視頻提示。
在InstructNet分支的調整過程中,當前內容被用作條件,從而在當前片段內容和未來片段內容之間建立了映射關係,這在多模態控制信號下進行。
造成的結果是,在推理時,GameGen-O允許用戶基於當前片段不斷生成和控制下一個生成的片段。
目前,GameGen-O已創建GitHub官方倉庫,只不過還沒來得及上傳代碼。
感興趣的童鞋可以先收藏一波了~
項目主頁:https://gamegen-o.github.io/
GitHub官方倉庫:https://github.com/GameGen-O/GameGen-O/
參考鏈接:
[1]https://x.com/_akhaliq/status/1834590455226339492
[2]https://x.com/8teapi/status/1834615421728948581?s=46
本文來自微信公眾號“量子位”,作者:關注前沿科技,36氪經授權發佈。