GPT-4o는 캡차도 못 푸는 건가요? SOTA 모델의 성공률은 40%에 불과합니다.

avatar
36氪
06-04
이 기사는 기계로 번역되었습니다
원문 표시

현재 최강 멀티모달 에이전트가 보안 코드도 해결하지 못하나?

메타에이전트X 팀이 "멀티모달 상호작용 지능체 × CAPTCHA(인간-기계 검증) 문제"에 집중한 최초의 개방형 연구 플랫폼인 Open CaptchaWorld를 출시했다.

해당 플랫폼은 에이전트의 보안 코드 해결 능력을 테스트하는 데 특화되어 있다.

실제 테스트 결과, 인간의 평균 성공률은 93.3%에 달하는 반면, 최첨단 멀티모달 모델의 평균 성공률은 5%-40%로 다양했다.

GPT-4o조차도 어려움을 겪었다.

보안 코드는 현 단계 에이전트 배포의 주요 병목 지점

실제 웹페이지 환경에서 멀티모달 에이전트를 배포할 때, 인간-기계 검증(CAPTCHA)에 막힌 적이 있는가?

프로젝트 팀은 많은 대규모 벤치마크(AgentBench, VisualWebArena 등)가 구축 과정에서 의도적으로 보안 코드가 포함된 웹페이지를 건너뛰었음을 발견했다. 마치 이 장애물이 존재하지 않는 것처럼 말이다.

하지만 현실은 냉정하다: 보안 코드는 "특수 사례"가 아니라 어떤 실제 작업에서도 피할 수 없는 존재이며, 특히 전자상거래, 로그인, 티켓 발권 등 고가치 웹페이지에서 더욱 흔하다.

이에 Open CaptchaWorld라는 테스트 플랫폼과 벤치마크가 등장했다: 시각-언어-동작 상호작용 작업을 위해 설계된 멀티모달 대규모 모델 에이전트를 위한 CAPTCHA 해결 플랫폼 및 평가 기준.

OpenAI의 o3, Anthropic의 Claude‑3.7-sonnet, 제미니(Gemini)‑2.5-pro 등 최신 멀티모달 대규모 모델 에이전트는 정적 인식 작업(이미지-텍스트 질문 답변, UI 이해)에서는 뛰어난 성능을 보이지만, 실제 상호작용 환경에서는 종종 CAPTCHA 단계에서 막힌다:

  • WebAgent는 end-to-end 작업 수행 시 보안 코드로 인해 자주 "멈춘다";
  • AgentBench, VisualWebArena 등 주요 평가 세트는 일반적으로 CAPTCHA가 포함된 웹페이지를 필터링한다;
  • 과거의 보안 코드 연구(reCAPTCHA, DeepCAPTCHA 등)는 주로 정적 인식에 집중했으며, 상호작용, 다단계 계획 및 상태 추적 능력 평가가 심각하게 부족했다.

에이전트의 보안 코드 실제 성능을 체계적으로 평가하기 위해, 연구팀은 완전히 새로운 개방형 기준과 플랫폼인 Open CaptchaWorld를 설계했다.

이 플랫폼은 최신 현대 보안 코드를 포함할 뿐만 아니라 유형도 다양하며(20가지), 모두 실제 웹 브라우저 환경에서 작동하여 에이전트가 실제로 직면하는 도전을 진정으로 재현한다:

"이미지 해독 + 규칙 이해 + 작업 계획 + 단계별 상호작용" = 에이전트 능력의 진정한 시험.

(이하 생략)

전반적으로 이 그래프는 다중 모달 에이전트가 실제 상호작용 작업에서 항상 "비쌀수록 강하지" 않다는 것을 보여주며, Open CaptchaWorld 플랫폼의 에이전트 유용성 및 배포 가능성 분석에서의 중요한 가치를 강조합니다.

향후 모델 설계는 효율성과 성능 간의 협력적 최적화에 더욱 초점을 맞추어야 합니다.

Open CaptchaWorld 플랫폼은 에이전트 개발자와 벤치마크 설계자들에게 새로운 통찰력을 제공합니다.

또한 다음을 밝혀냈습니다 -

  • 현재 에이전트의 실제 "약점" - 장기 시퀀스 작업의 동적 상호작용 및 계획 상호작용 능력;
  • 기존 벤치마크 평가의 맹점 - 실제 배포에 필수적인 "인간-기계 검증" 단계를 대량으로 생략;
  • 새로운 모델 설계 방향 - 현실 웹 페이지 작업에서 에이전트의 자동화 및 견고성을 향상시키는 방법;
  • 에이전트 시대의 새로운 Captcha 설계 - 현재의 Captcha는 결국 에이전트 능력 성장에 의해 뚫릴 것이며, 기술 발전에 대응하기 위해 실시간으로 새로운 Captcha를 설계해야 합니다.

Open CaptchaWorld의 제안은 연구자들이 에이전트를 훈련하고 평가할 때 CAPTCHA 문제를 회피하지 않고 오히려 용감하게 직면하도록 장려하기 위함입니다. 왜냐하면 현실 세계에서 검증 코드조차 통과하지 못한다면 이 에이전트는 실제 적용이 불가능하기 때문입니다.

더 자세한 내용은 원문을 참조해 주시기 바랍니다.

논문 링크: https://arxiv.org/abs/2505.24878 Huggingface Spaces: https://huggingface.co/spaces/YaxinLuo/Open_CaptchaWorld

코드 저장소 & 데이터 링크: https://github.com/MetaAgentX/OpenCaptchaWorld

본 기사는 위챗 공식 계정 "양자위치"에서 가져왔으며, 작성자는 MetaAgentX 팀이고 36커에서 허가를 받아 게시되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트