다음은 비전 언어 모델(VLM)과 비디오 액션 모델(VAM)의 차이점을 훌륭하게 설명한 자료입니다.
VLM과 VAM은 놀라울 정도로 강력합니다. 인지, 검색, 탐색, 의미 이해에 탁월한 성능을 발휘합니다.
세상에 있는 것을 찾고, 분류하고, 추론하는 데 있어 VLM은 타의 추종을 불허합니다.
하지만 물리적 AI는 움직임, 인과 관계, 역동성이라는 다른 영역에서 한계를 드러냅니다.
바로 이 부분에서 비디오 데이터와 월드 모델이 중요한 역할을 합니다.
월드 모델은 단순히 사물의 이름만 학습하는 것이 아니라, 시간이 지남에 따라 세상이 어떻게 변화하는지 학습합니다.
미래는 VLM이나 월드 모델 중 하나만이 아니라, 둘 다입니다.
VLM은 현실을 이해하고 검색하는 데 사용하고, 월드 모델은 현실을 시뮬레이션하고, 스트레스를 가하고, 그 안에서 에이전트를 훈련하는 데 사용합니다.
서로 다른 도구, 서로 다른 계층, 하지만 목표는 같습니다. 바로 현실 세계에서 실제로 작동하는 기계를 만드는 것입니다.
twitter.com/AlirezaGhods2/stat...