AI 본지화 "하강" 외에도, AI 트랙에서 최근 가장 큰 변화는 다음과 같습니다: 다중 모달 비디오 생성 기술이 돌파구를 마련했으며, 이전의 순수 텍스트 기반 비디오 생성에서 텍스트 + 이미지 + 오디오의 전체 통합 생성 기술로 진화했습니다. 몇 가지 기술 혁신 사례를 살펴보겠습니다: 1) 의 프레임워크 오픈소스: 단일 비디오를 자유 시점 4D 콘텐츠로 즉시 변환하며, 사용자 인정도는 70.7%에 달합니다. 즉, 일반 비디오가 주어지면 AI는 자동으로 임의의 각도에서 시청 효과를 생성할 수 있으며, 이전에는 전문 3D 모델링 팀이 해결해야 했습니다; 2) "그림 상상" 플랫폼: 한 장의 이미지로 10초 비디오를 생성하며, "영화 수준" 품질에 도달할 수 있다고 주장합니다. 하지만 마케팅 과장 요소인지는 8월 버전 업데이트 후 실제 효과를 봐야 합니다; 3) : 4K 비디오 + 환경 음향의 동기화 생성이 가능합니다. 핵심 기술 포인트는 "동기화" 능력의 달성으로, 이전에는 비디오와 오디오 두 시스템을 연결했지만, 실제 의미론적 수준의 매칭을 위해서는 복잡한 장면에서 걷는 동작과 발걸음 소리의 화면-음향 동기화 등 큰 도전을 극복해야 합니다; 4) : 80억 매개변수, 2.3초에 1080p 비디오 생성, 비용은 5초당 3.67위안입니다. 솔직히 이 비용 통제는 괜찮지만, 현재 생성 품질은 복잡한 장면에서 아직 미흡합니다; 이러한 사례들이 비디오 품질, 생성 비용, 응용 분야 등에서 돌파구를 마련한 이유는 무엇일까요? 1, 기술적 가치 측면에서 다중 모달 비디오 생성의 복잡성은 지수적입니다. 단일 프레임 이미지 생성은 약 10^6개의 픽셀 포인트, 비디오는 시간적 일관성 유지(최소 100프레임), 오디오 동기화(초당 10^4개 샘플링 포인트), 3D 공간 일관성까지 고려해야 합니다. 종합하면 기술적 복잡성은 상당히 높으며, 원래는 초대형 모델이 모든 작업을 직접 처리했습니다. 는 수만 장의 을 소모해야 비디오 생성 능력을 확보했다고 합니다. 이제는 모듈화 분해 + 대규모 모델 분업 협업을 통해 구현할 수 있습니다. 예를 들어, 의 는 실제로 복잡한 작업을 깊이 추정 모듈, 시점 변환 모듈, 시간 보간 모듈, 렌더링 최적화 모듈 등으로 분해하고, 각 모듈이 전문적인 작업을 수행한 후 조정 메커니즘을 통해 협력합니다. (이하 생략)
이 기사는 기계로 번역되었습니다
원문 표시

Haotian | CryptoInsight
@tmel0211
07-02
最近观察AI行业,发现个越来越“下沉”的变化:从原先拼算力集中和“大”模型的主流共识中,演变出了一条偏向本地小模型和边缘计算的分支。
这一点,从Apple Intelligence覆盖5亿设备,到微软推出Windows 11专用3.3亿参数小模型Mu,再到谷歌DeepMind的机器人“脱网”操作等等都能看出来。
Twitter에서
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트
공유



