다음은 비전 언어 모델(VLM)과 비디오 액션 모델(VAM)의 차이점을 훌륭하게 설명한 자료입니다. VLM과 VAM은 놀라울 정도로 강력합니다. 인지, 검색, 탐색, 의미 이해에 탁월한 성능을 발휘합니다. 세상에 있는 것을 찾고, 분류하고, 추론하는 데 있어 VLM은 타의 추종을 불허합니다. 하지만 물리적 AI는 움직임, 인과 관계, 역동성이라는 다른 영역에서 한계를 드러냅니다. 바로 이 부분에서 비디오 데이터와 월드 모델이 중요한 역할을 합니다. 월드 모델은 단순히 사물의 이름만 학습하는 것이 아니라, 시간이 지남에 따라 세상이 어떻게 변화하는지 학습합니다. 미래는 VLM이나 월드 모델 중 하나만이 아니라, 둘 다입니다. VLM은 현실을 이해하고 검색하는 데 사용하고, 월드 모델은 현실을 시뮬레이션하고, 스트레스를 가하고, 그 안에서 에이전트를 훈련하는 데 사용합니다. 서로 다른 도구, 서로 다른 계층, 하지만 목표는 같습니다. 바로 현실 세계에서 실제로 작동하는 기계를 만드는 것입니다. twitter.com/AlirezaGhods2/stat...
이 기사는 기계로 번역되었습니다
원문 표시
Twitter에서
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트
공유




