Alireza Ghods의 인사이트

01-28

이 기사는 기계로 번역되었습니다

원문 표시

다음은 비전 언어 모델(VLM)과 비디오 액션 모델(VAM)의 차이점을 훌륭하게 설명한 자료입니다. VLM과 VAM은 놀라울 정도로 강력합니다. 인지, 검색, 탐색, 의미 이해에 탁월한 성능을 발휘합니다. 세상에 있는 것을 찾고, 분류하고, 추론하는 데 있어 VLM은 타의 추종을 불허합니다. 하지만 물리적 AI는 움직임, 인과 관계, 역동성이라는 다른 영역에서 한계를 드러냅니다. 바로 이 부분에서 비디오 데이터와 월드 모델이 중요한 역할을 합니다. 월드 모델은 단순히 사물의 이름만 학습하는 것이 아니라, 시간이 지남에 따라 세상이 어떻게 변화하는지 학습합니다. 미래는 VLM이나 월드 모델 중 하나만이 아니라, 둘 다입니다. VLM은 현실을 이해하고 검색하는 데 사용하고, 월드 모델은 현실을 시뮬레이션하고, 스트레스를 가하고, 그 안에서 에이전트를 훈련하는 데 사용합니다. 서로 다른 도구, 서로 다른 계층, 하지만 목표는 같습니다. 바로 현실 세계에서 실제로 작동하는 기계를 만드는 것입니다. twitter.com/AlirezaGhods2/stat...