작성자: Haotian
A의 현지화 "하락" 외에도, AI 분야에서 최근 가장 큰 변화는 바로: 다중 모달 비디오 생성 기술이 돌파구를 마련했으며, 이전의 순수 텍스트 기반 비디오 생성에서 텍스트+이미지+오디오의 전체 통합 생성 기술로 진화했습니다.
몇 가지 기술 혁신 사례를 간단히 말씀드리겠습니다:
1) 바이트댄스의 오픈소스 EX-4D 프레임워크: 단일 영상을 자유 시점 4D 콘텐츠로 즉시 변환하며, 사용자 인정도는 70.7%에 달합니다. 즉, 일반 비디오를 주어졌을 때 AI가 자동으로 임의의 각도에서 시청 효과를 생성할 수 있으며, 이는 이전에는 전문 3D 모델링 팀이 해결해야 했던 영역입니다;
2) 바이두의 "그림상상" 플랫폼: 한 장의 이미지로 10초 비디오를 생성하며, "영화 수준"의 품질을 달성할 수 있다고 주장합니다. 하지만 마케팅의 과장된 부분인지는 8월 Pro 버전 업데이트 후 실제 효과를 봐야 알 수 있습니다;
3) 구글 딥마인드 Veo: 4K 비디오와 환경 음향의 동기화 생성이 가능합니다. 핵심 기술 포인트는 "동기화" 능력의 달성으로, 이전에는 비디오와 오디오를 두 개의 시스템으로 연결했지만, 진정한 의미론적 수준의 매칭을 위해서는 복잡한 장면에서 걷는 동작과 발걸음 소리의 화면-음향 동기화 등 큰 도전을 극복해야 합니다;
4) 틱톡 ContentV: 80억 개의 매개변수, 2.3초 만에 1080p 비디오 생성, 비용은 5초당 3.67위안. 솔직히 말해 이 비용 통제는 괜찮지만, 현재 생성 품질로는 복잡한 장면에서는 아직 부족합니다;
이러한 사례들이 비디오 품질, 생성 비용, 응용 분야 등에서 돌파구를 마련했다고 말하는 이유는 무엇일까요?
1, 기술적 가치 측면에서, 다중 모달 비디오 생성의 복잡성은 종종 지수적입니다. 단일 프레임 이미지 생성은 대략 10^6개의 픽셀 포인트, 비디오는 시간적 일관성 유지(최소 100프레임), 여기에 오디오 동기화(초당 10^4개의 샘플링 포인트), 3D 공간 일관성까지 고려해야 합니다.
종합해보면, 기술적 복잡성은 결코 낮지 않으며, 원래는 초대형 모델이 모든 작업을 직접 수행했습니다. Sora는 수만 장의 H100을 소모해야 비디오 생성 능력을 갖출 수 있었다고 합니다. 이제는 모듈화 분해 + 대규모 모델 분업 협업을 통해 구현할 수 있게 되었습니다. 예를 들어, 바이트의 EX-4D는 실제로 복잡한 작업을 깊이 추정 모듈, 시점 변환 모듈, 시간 보간 모듈, 렌더링 최적화 모듈 등으로 분해합니다. 각 모듈은 특정 작업을 전문적으로 수행하고, 조정 메커니즘을 통해 협력합니다.
2, 비용 절감 측면에서는 실제로 추론 아키텍처 자체의 최적화가 포함됩니다. 여기에는 계층적 생성 전략(먼저 저해상도로 골격 생성 후 고해상도로 이미지 내용 강화), 캐시 재사용 메커니즘(유사한 장면 재사용), 동적 리소스 할당(구체적인 콘텐츠 복잡성에 따라 모델 깊이 조정) 등이 있습니다.
이러한 최적화를 통해 틱톡 ContentV의 5초당 3.67위안의 결과를 얻을 수 있었습니다.
3, 응용 충격 측면에서, 전통적인 비디오 제작은 고비용 게임이었습니다: 장비, 장소, 배우, 후반 작업으로, 30초 광고 제작에 수십만 위안의 제작비는 정상적이었습니다. 이제 AI는 이 과정을 프롬프트+몇 분 대기로 압축하고, 전통적인 촬영으로는 달성하기 어려운 시점과 특수 효과를 구현할 수 있게 되었습니다.
이로 인해 원래 비디오 제작의 기술 및 자금 장벽이 창의성과 미적 감각으로 변모할 수 있으며, 전체 크리에이터 경제의 재편성을 촉진할 수 있습니다.
그렇다면 이러한 web2 AI 기술 수요 측면의 변화가 web3 AI와 어떤 관련이 있을까요?
1, 먼저 해시레이트 수요 구조의 변화입니다. 이전에는 AI가 해시레이트 규모를 겨뤘고, 더 많은 동질적인 GPU 클러스터를 보유한 쪽이 승리했지만, 다중 모달 비디오 생성은 다양한 해시레이트 조합을 필요로 합니다. 분산된 유휴 해시레이트, 다양한 분산 미세 조정 모델, 알고리즘, 추론 플랫폼에 대한 수요가 발생할 수 있습니다;
2, 다음으로 데이터 주석의 수요도 강화될 것입니다. 전문 수준의 비디오를 생성하려면 정확한 장면 설명, 참조 이미지, 오디오 스타일, 카메라 움직임 궤적, 조명 조건 등이 전문 데이터 주석의 새로운 수요가 될 것입니다. web3의 인센티브 방식을 통해 사진작가, 음향 엔지니어, 3D 아티스트 등이 전문 데이터 소스를 제공하고, 전문 분야별 데이터 주석으로 AI 비디오 생성 능력을 강화할 수 있습니다;
3, 마지막으로 주목할 점은, AI가 과거의 중앙집중식 대규모 자원 배분에서 점차 모듈화 협업으로 변화하는 것 자체가 탈중앙화 플랫폼에 대한 새로운 수요를 의미한다는 것입니다. 그 시점에 해시레이트, 데이터, 모델, 인센티브 등이 함께 결합되어 자기 강화 선순환을 형성하면, web3 AI와 web2 AI 시나리오의 대규모 융합을 촉진할 것입니다.

