你以为大模型已经能轻松"上网冲浪"了?
새로운 기준 테스트 세트 BrowseComp-ZH가 주류 AI를 직접 반박합니다.
BrowseComp-ZH는 홍콩과기대(광저우), 북경대학, 저장대학, 알리바바, 바이트댄스, NIO 등의 기관이 공동으로 발표한 새로운 기준 테스트 세트로, 20개 이상의 중국 및 해외 주요 대규모 언어 모델을 집단적으로 "낙제"시켰습니다:
GPT-4o는 테스트에서 정확도가 겨우 6.2%이며, 대부분의 국내외 모델 정확도는 10% 이하로 떨어졌습니다. 현재 가장 좋은 성능을 보이는 OpenAI DeepResearch조차 42.9%에 그쳤습니다.
현재 BrowseComp-ZH의 모든 데이터가 오픈소스로 공개되었습니다.
연구팀은 직접 말합니다:
왜 중국어 웹페이지 능력 테스트가 필요한가?
요즘 대규모 언어 모델은 점점 더 "도구 사용"에 능숙해지고 있습니다: 검색 엔진 연결, 플러그인 호출, 웹페이지 "보기"가 가능합니다.
하지만 대부분의 평가 도구는 영어 맥락에서만 개발되었고, 중국어 맥락, 중국어 검색 엔진, 중국어 플랫폼 생태계에 대한 고려는 거의 없습니다.
그러나 중국어 인터넷 정보는 심각하게 파편화되어 있고, 검색 입구가 다양하며, 언어 표현이 복잡합니다.
중국어 웹페이지 세계가 얼마나 어려운지 몇 가지 예를 들어보겠습니다:
정보가 파편화되어 바이두 백과, 웨이보, 지방 정부 웹사이트, 비디오 채널 등 다양한 플랫폼에 분산되어 있습니다
일반적인 언어 구조에는 생략, 고사, 대용 등이 포함되어 있어 핵심어 검색이 종종 "빗나갑니다"
검색 엔진 자체의 품질이 들쑥날쑥하여 정보가 "가라앉거나" "사라지는" 일이 흔합니다
따라서 영어 테스트 세트를 "번역"한다고 해서 충분하지 않습니다.
중국어 맥락에서 원생적으로 설계되어야만 대규모 언어 모델이 중국어 웹페이지에서 진정으로 "이해할 수 있는지", "찾을 수 있는지", "추론할 수 있는지"를 제대로 평가할 수 있습니다.
[이하 생략]



