Microsoft 오픈 소스 혁신 프레임: DeepSeek-R1 및 기타 모델은 AI 에이전트로 전환 가능
이 기사는 기계로 번역되었습니다
원문 표시
이더리움 네임서비스(ENS) 오데일리사(Odaily)에 따르면, 마이크로소프트는 공식 웹사이트에서 시각적 에이전트 해석 프레임워크 OmniParser의 최신 버전 V2.0을 발표했습니다. 이를 통해 DeepSeek-R1, GPT-4o, Qwen-2.5VL 등의 모델을 컴퓨터에서 사용할 수 있는 AI 에이전트로 변환할 수 있습니다. V1 버전과 비교하여 V2는 작은 상호작용 UI 요소 감지 정확도가 더 높고 추론 속도가 더 빨라졌으며, 지연 시간이 60% 감소했습니다. 고해상도 에이전트 벤치마크 ScreenSpot Pro에서 V2+GPT-4o의 정확도는 놀라운 39.6%에 달했으며, GPT-4o의 원래 정확도는 0.8%에 불과했습니다. 이는 전반적으로 큰 향상을 보였습니다. 마이크로소프트는 V2 외에도 Docker 기반의 Windows 시스템인 omnitool을 오픈소스로 공개했는데, 이는 화면 이해, 위치 파악, 동작 계획 및 실행 등의 기능을 포함하여 대규모 모델을 에이전트로 변환하는 핵심 도구입니다.
출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트
공유




