Bạn có nghĩ rằng những người mẫu lớn có thể "lướt Internet" dễ dàng không?
Bộ kiểm tra chuẩn mới BrowseComp-ZH trực tiếp giáng một đòn mạnh vào AI chính thống.
BrowseComp-ZH là bộ kiểm tra chuẩn mới do HKUST (Quảng Châu), Đại học Bắc Kinh, Đại học Chiết Giang, Alibaba, ByteDance, NIO và các tổ chức khác cùng phát hành, khiến hơn 20 mô hình lớn trong và ngoài nước đồng loạt "thất bại":
Độ chính xác của GPT-4o trong thử nghiệm chỉ đạt 6,2% ; độ chính xác của hầu hết các mô hình trong nước/quốc tế giảm xuống dưới 10% ; ngay cả OpenAI DeepResearch có hiệu suất tốt nhất cũng chỉ đạt 42,9% .
Hiện tại, toàn bộ dữ liệu của BrowseComp-ZH đã được phát hành mã nguồn mở.
Đội ngũ nghiên cứu tuyên bố:
Tại sao chúng ta cần phải kiểm tra trình độ tiếng Trung trên web?
Các mô hình lớn ngày nay ngày càng trở nên thành thạo hơn trong việc "sử dụng các công cụ": chúng có thể kết nối với các công cụ tìm kiếm, gọi plug-in và "duyệt các trang web".
Tuy nhiên, nhiều công cụ đánh giá chỉ được thiết lập trong bối cảnh tiếng Anh, ít cân nhắc đến bối cảnh tiếng Trung, công cụ tìm kiếm tiếng Trung và hệ sinh thái nền tảng tiếng Trung.
Tuy nhiên, thông tin trên Internet của Trung Quốc bị phân mảnh nghiêm trọng, các cổng thông tin tìm kiếm thì đa dạng và cách diễn đạt ngôn ngữ thì phức tạp.
Thế giới mạng Trung Quốc khó khăn như thế nào? Sau đây là một số ví dụ giúp bạn hiểu rõ hơn:
Thông tin bị phân mảnh và nằm rải rác trên nhiều nền tảng như Bách khoa toàn thư Baidu, Weibo, trang web của chính quyền địa phương và các tài khoản video.
Cấu trúc ngôn ngữ thông thường chứa nhiều sự thiếu sót, ám chỉ và ẩn dụ, do đó việc tìm kiếm từ khóa thường bị sai lệch.
Chất lượng của các công cụ tìm kiếm khác nhau và thông tin thường bị "chìm" hoặc "bị mất".
Do đó, việc “dịch” bộ đề thi tiếng Anh là chưa đủ.
Cần phải thiết kế nó theo bối cảnh Trung Quốc để thực sự đánh giá xem liệu mô hình lớn có thể được "hiểu", "tìm kiếm" và "dự đoán chính xác" trên các trang web Trung Quốc hay không.
BrowseComp-ZH được tạo ra như thế nào?
Đội ngũ nghiên cứu đã áp dụng “phương pháp thiết kế ngược”: bắt đầu từ một câu trả lời thực tế rõ ràng và có thể xác minh được (chẳng hạn như một loại tranh, tổ chức hoặc tên phim hoặc loạt phim truyền hình nào đó), họ xây dựng ngược lại một vấn đề phức tạp với nhiều ràng buộc để đảm bảo ba điểm sau:
Baidu/Bing/Google ba công cụ tìm kiếm lớn không thể trực tiếp trả lời câu hỏi trên màn hình đầu tiên
Nhiều mô hình chính thống không thể trả lời trực tiếp câu hỏi ở chế độ tìm kiếm.
Sau khi xác minh thủ công, các câu hỏi được cấu trúc rõ ràng và chỉ có một câu trả lời
Cuối cùng, họ đã xây dựng được 289 câu hỏi tìm kiếm đa bước có độ khó cao bằng tiếng Trung , bao gồm 11 lĩnh vực chính như phim ảnh và truyền hình, nghệ thuật, y học, địa lý, lịch sử và công nghệ.
Các mô hình lớn cùng "thất bại"? DeepResearch chỉ đạt 40% và phần lớn trong số đó đều dưới 10%
Trong thử nghiệm của BrowseComp-ZH, nhiều mẫu máy lớn phổ biến trong và ngoài nước đã cùng nhau "lật ngược":
Mặc dù các mô hình này đã chứng minh được khả năng mạnh mẽ trong việc hiểu các cuộc hội thoại và tạo ra biểu cảm, nhưng độ chính xác của chúng nhìn chung lại thấp một cách đáng ngạc nhiên khi đối diện nhiệm vụ tìm kiếm phức tạp trên Internet Trung Quốc:
Hầu hết các mô hình có tỷ lệ chính xác dưới 10% và chỉ một số ít có thể vượt quá 20%.
OpenAI DeepResearch đứng đầu với 42,9%, nhưng vẫn còn kém xa "đạt"
Các nhà nghiên cứu chỉ ra rằng kết quả này cho thấy mô hình không chỉ cần có khả năng "tìm kiếm thông tin" mà còn cần có khả năng "suy luận đa bước" và "tích hợp thông tin" để thực sự tìm ra câu trả lời trên Internet Trung Quốc.
Bốn khám phá lớn tiết lộ “điểm mù mô hình” của nhiệm vụ trang web Trung Quốc
1. Chỉ ghi nhớ thôi là chưa đủ, bạn cần có kỹ năng thực sự
Độ chính xác của các mô hình chỉ dựa vào việc ghi nhớ tham số (không tìm kiếm) thường dưới 10%, điều này cho thấy "ghi nhớ máy móc" là không đáng tin cậy.
2. Các mô hình có suy luận hoạt động tốt hơn
DeepSeek-R1 (23,2%) cao hơn DeepSeek-V3 (8,7%) 14,5% và Claude-3.7 cao hơn Claude-3.5 12,2% . Khả năng suy luận đã trở thành một biến số quan trọng.
3. Tìm kiếm nhiều hơn ≠ tìm kiếm chính xác hơn, chiến lược nhiều vòng là tốt nhất
Các sản phẩm tìm kiếm AI có khả năng truy xuất nhiều vòng giành chiến thắng chung cuộc:
Nghiên cứu sâu: 42,9%
Tìm kiếm sâu Doubao: 26,0%
Mô hình nghiên cứu Perplexity: 22,6%
Ngược lại, các mô hình chỉ lấy dữ liệu một lần (như Kimi và Yuanbao) có tỷ lệ chính xác thấp tới một chữ số.
4. Chức năng tìm kiếm “thất bại”? Truy cập trở nên tệ hơn
Ví dụ phản biện điển hình nhất là DeepSeek-R1, độ chính xác của nó giảm mạnh từ 23,2% xuống 7,6% sau khi chức năng tìm kiếm được bật.
Nghiên cứu chỉ ra rằng mô hình không thể tích hợp hiệu quả thông tin truy xuất trang web với kiến thức hiện có và thay vào đó còn gây hiểu lầm.
Dữ liệu đã mở! Chào mừng đến với Thử thách nhà phát triển mô hình
Tất cả dữ liệu của BrowseComp-ZH đã được phát hành mã nguồn mở.
Các nhà nghiên cứu hy vọng rằng bài kiểm tra chuẩn này có thể đóng vai trò là tiêu chuẩn để thúc đẩy việc triển khai LLM trong hoàn cảnh thông tin của Trung Quốc và giúp xây dựng một tác nhân thông minh có thể thực sự "lướt Internet bằng tiếng Trung".
Tiếp theo, họ có kế hoạch mở rộng quy mô mẫu, mở rộng định dạng câu hỏi và trả lời, đồng thời tiến hành phân tích chuyên sâu về lộ trình lý luận của mô hình và các trường hợp thất bại.
Địa chỉ bài báo: https://arxiv.org/abs/2504.19314
Địa chỉ mã: https://github.com/PALIN2018/BrowseComp-ZH
Bài viết này trích từ tài khoản công khai WeChat "Quantum Bit" , tác giả: đội ngũ BrowseComp-ZH và được 36Kr cho phép xuất bản.





