Hiện tại, Agent đa phương thức mạnh nhất có thể không giải được mã xác minh không?
Đội ngũ MetaAgentX đã giới thiệu nền tảng nghiên cứu mở đầu tiên tập trung vào "Tác tử tương tác đa phương thức × Vấn đề CAPTCHA (xác minh người dùng)" - Open CaptchaWorld.
Nền tảng này được thiết kế đặc biệt để kiểm tra khả năng giải mã CAPTCHA của Agent.
Kết quả thử nghiệm cho thấy: Tỷ lệ thành công trung bình của con người đạt 93.3%, các mô hình đa phương thức SOTA chỉ đạt trung bình từ 5%-40%.
Thậm chí GPT-4o cũng gặp khó khăn.
CAPTCHA là nút thắt lớn trong việc triển khai Agent giai đoạn hiện tại
Khi triển khai Agent đa phương thức trong các tình huống trang web thực tế, bạn có bao giờ bị chặn bởi xác minh người dùng (CAPTCHA) chưa?
Nhóm dự án nhận thấy, nhiều Benchmarks lớn (bao gồm AgentBench, VisualWebArena, v.v.) trong quá trình xây dựng đã cố ý bỏ qua các trang web có CAPTCHA, như thể rào cản này không hề tồn tại.
Nhưng thực tế rất khắc nghiệt: CAPTCHA không phải là "trường hợp đặc biệt", mà là sự hiện diện không thể tránh khỏi trong bất kỳ nhiệm vụ thực tế nào, đặc biệt là ở các trang web thương mại điện tử, đăng nhập, đặt vé, v.v.
Do đó, nền tảng thử nghiệm Open CaptchaWorld và Benchmark ra đời: một nền tảng giải CAPTCHA và tiêu chuẩn đánh giá dành cho các Agent mô hình lớn đa phương thức - được thiết kế riêng cho các nhiệm vụ tương tác hình ảnh-ngôn ngữ-hành động.
Cho dù là o3 của OpenAI, Claude‑3.7-sonnet của Anthropic, hay Gemini‑2.5-pro, những Agent mô hình lớn đa phương thức mới nhất này mặc dù thể hiện xuất sắc trong các nhiệm vụ nhận thức tĩnh (như trả lời câu hỏi hình ảnh-văn bản, hiểu giao diện người dùng), nhưng thường bị kẹt ở phần CAPTCHA trong môi trường tương tác thực tế:
- WebAgent thường bị "chết" khi thực hiện các nhiệm vụ end-to-end do CAPTCHA;
- Các bộ đánh giá chính như AgentBench, VisualWebArena thường lọc bỏ các trang web có CAPTCHA;
- Các nghiên cứu CAPTCHA trước đây (như reCAPTCHA, DeepCAPTCHA) tập trung nhiều hơn vào nhận dạng tĩnh, đánh giá khả năng tương tác, lập kế hoạch nhiều bước và theo dõi trạng thái còn rất hạn chế.
Để đánh giá một cách hệ thống hiệu suất thực tế của Agent trong CAPTCHA, nhóm nghiên cứu đã thiết kế một tiêu chuẩn và nền tảng mới hoàn toàn - Open CaptchaWorld.
Nền tảng này không chỉ chứa các CAPTCHA hiện đại mới nhất mà còn đa dạng (20 loại), tất cả đều được thực hiện trong môi trường trình duyệt Web thực, thực sự tái hiện những thách thức mà Agent gặp phải:
"Giải hình + Hiểu quy tắc + Lập kế hoạch hành động + Tương tác từng bước" = Bài kiểm tra thực sự về khả năng của Agent.
Nhìn chung, hình ảnh này tiết lộ rằng Agent đa phương thức không phải lúc nào cũng "càng đắt càng mạnh" trong các nhiệm vụ tương tác thực tế, đồng thời nhấn mạnh giá trị quan trọng của nền tảng Open CaptchaWorld trong việc phân tích tính hữu dụng và khả năng triển khai của Agent.
Thiết kế mô hình trong tương lai nên tập trung hơn vào việc tối ưu hóa hiệu quả và hiệu suất một cách đồng bộ.
Nền tảng Open CaptchaWorld cung cấp những ý tưởng mới cho các nhà phát triển Agent và nhà thiết kế benchmark.
Đồng thời cũng tiết lộ rằng -
- Điểm yếu thực sự của Agent hiện tại - khả năng tương tác động và lập kế hoạch cho các nhiệm vụ chuỗi dài;
- Điểm mù của việc đánh giá Benchmark hiện tại - bỏ qua phần "xác minh con người" không thể thiếu trong việc triển khai thực tế;
- Hướng thiết kế mô hình mới - làm thế nào để nâng cao khả năng tự động hóa và tính mạnh mẽ của Agent trong các nhiệm vụ trang web thực tế;
- Thiết kế Captcha mới trong thời đại Agent - Captcha hiện tại sẽ sớm bị phá vỡ bởi khả năng tăng trưởng của Agent, chúng ta cũng cần cập nhật và thiết kế Captcha mới để theo kịp sự phát triển công nghệ.
Việc đưa ra Open CaptchaWorld nhằm khuyến khích các nhà nghiên cứu không né tránh vấn đề CAPTCHA khi đào tạo và đánh giá Agent, mà phải can đảm đối mặt với nó, bởi vì trong thế giới thực, nếu không thể vượt qua mã xác nhận, Agent sẽ không thể được triển khai.
Để biết thêm chi tiết, vui lòng đọc bài viết gốc.
Liên kết bài báo: https://arxiv.org/abs/2505.24878Không gian Huggingface: https://huggingface.co/spaces/YaxinLuo/Open_CaptchaWorld
Kho mã & liên kết dữ liệu: https://github.com/MetaAgentX/OpenCaptchaWorld
Bài viết này đến từ trang WeChat "Quantum Bit", tác giả: Đội ngũ MetaAgentX, được 36kr xuất bản với sự cho phép.





