GPT-4o를 물리쳤다고 주장하는 새로운 오픈소스 AI의 왕이 사기 혐의로 기소되었습니다. 대형 모델 목록을 미신하지 마세요.

36氪

09-11

이 기사는 기계로 번역되었습니다

원문 표시

AI 모델은 연공서열에 따라 어떻게 순위가 매겨지나요?라는 질문에 대해 생각해 본 적이 있습니까?

인간의 대학 입시와 마찬가지로 그들도 자체 시험인 벤치마크를 가지고 있습니다.

그러나 대학 입학 시험에는 과목 수가 적고 다양한 벤치마크 시험이 있습니다. 일부는 일반 지식을 테스트하고 일부는 수학, 코딩, 독해를 포함한 특정 능력을 전문으로 합니다.

Google이 Gemini를 출시했을 때 벤치마크 순위

벤치마크 테스팅의 장점은 직관적이라는 점이다. 목록을 끌어올리면 점수가 한눈에 명확해지기 때문에 긴 글을 쓰는 것보다 사용자를 유인하는데 더 효과적이다.

그러나 테스트가 정확한지 여부는 확실하지 않습니다. 최근 의심되는 사기 사건으로 인해 벤치마크 테스트의 신뢰성이 한 단계 더 떨어졌습니다.

오픈소스 모델의 새로운 왕, 눈 깜짝할 사이에 '파괴'됐다

9월 6일 Reflection 70B의 등장은 마치 기적처럼 보였습니다. 뉴욕의 무명 스타트업 HyperWrite에서 나온 것이지만 스스로를 '세계 최고의 오픈소스 모델'이라고 칭합니다.

개발자 Matt Shumer는 이를 어떻게 증명합니까? 데이터를 사용하세요.

여러 벤치마크 테스트에서 70B 매개변수만으로 GPT-4o, Claude 3.5 Sonnet, Llama 3.1 405B 및 기타 대형 플레이어를 물리쳤습니다. 최고의 비공개 소스 모델보다 비용 효율적이며 즉시 모든 사람을 놀라게 합니다.

Reflection 70B는 Meta를 기반으로 스스로를 Llama 3.1 70B라고 부릅니다. AI가 자체 추론에서 오류를 감지하고 수정할 수 있는 새로운 기술인 Reflection-Tuning을 사용했습니다. 대답하기 전에.

인간 사고의 비유를 사용하면 이는 "Thinking, Fast and Slow"에서 시스템 1에서 시스템 2로의 전환과 약간 유사하며, AI가 성급하게 생각하지 말고 추론 속도를 늦추도록 상기시킵니다. , 환각을 줄이고 보다 합리적인 답변을 제공합니다.

그러나 곧 의문이 생겼다.

9월 8일, 제3자 평가기관인 인공분석에서는 벤치마크 테스트 결과를 재현할 수 없다고 밝혔습니다.

예를 들어, 벤치마크 중 하나인 Reflection 70B의 MMLU 점수는 Llama 3 70B와 동일하지만 GPT-4o는 물론 Llama 3.1 70B보다 훨씬 낮습니다.

Matt Shumer는 이 질문에 대해 Hugging Face에 업로드할 때 Reflection 70B의 가중치에 문제가 있어 타사 결과가 더 나빴고, 결과적으로 내부 API 버전만큼 좋지 않은 모델 성능이 나왔다고 설명했습니다.

이유가 좀 허무해서 둘 사이에 의견이 엇갈리기도 했고 나중에 인공분석에서 프라이빗 API의 허가를 받아 성능은 정말 좋았으나 여전히 원래 발표한 수준에는 미치지 못했다고 합니다. 공무원.

이후 X와 Reddit 네티즌들도 '위조 방지' 팀에 합류해 Reflection 70B가 기본 테스트 세트에서 LoRA를 직접 훈련한 것이므로 기본 모델이 Llama 3이므로 목록에서 점수를 얻을 수 있다는 의문을 제기했습니다. 그것은 능력이 없습니다.

어떤 사람들은 Reflection 70B가 클로드를 가두었다고 비난하며 처음부터 끝까지 거짓말이었다고 비난하기도 했습니다.

9월 11일 여론 대면 Matt Shumer 팀은 Claude가 해고되었다는 사실을 부인하는 성명을 발표했습니다. 벤치마크 점수를 재현할 수 없는 이유는 확실하지 않습니다.

처음부터의 실수, 데이터 오염 또는 구성 오류로 인해 점수가 잘못 높게 표시되었습니다. 잠시 기다려 주세요.

이번 사건에 대한 최종 결론은 아직 나오지 않았지만 적어도 한 가지 문제점을 보여준다. 순위에 높은 점수를 매긴 셀프 마케팅은 AI 순위를 모르는 사람들에게 매우 혼란스럽다. 진실.

각종 대형모델 시험, 인간랭킹 불안

가장 기본적인 질문인 대형 모델의 성능을 어떻게 평가할 것인가?로 돌아가 보겠습니다.

상대적으로 간단하고 대략적인 방법은 매개변수 수를 살펴보는 것입니다. 예를 들어 Llama 3.1에는 여러 버전이 있으며, 8B는 소비자급 GPU에서의 배포 및 개발에 적합하고, 70B는 대규모 AI 기본 애플리케이션에 적합합니다.

매개변수의 개수가 모델 성능의 상한을 나타내는 '공장 설정'인 경우 벤치마크 테스트는 특정 작업에서 모델의 실제 성능을 평가하는 '시험'을 통과하는 것 이상이다. 강조점이 다르며 점수는 서로 상호 운용되지 않습니다.

2020년에 출시된 대규모 다중 작업 언어 이해라고도 알려진 MMLU는 현재 가장 주류를 이루는 영어 평가 데이터 세트입니다.

수학, 물리학, 역사, 법학, 의학 등 57개 과목을 다루는 약 16,000개의 객관식 문제가 포함되어 있으며 난이도는 고등학생부터 전문가까지 다양합니다. 모델이 올바르게 대답하는 질문이 많을수록 레벨이 높아집니다.

지난해 12월 구글은 Gemini Ultra가 MMLU에서 GPT-4보다 높은 90.0%의 높은 점수를 얻었다고 밝혔습니다.

하지만 이를 숨기지 않고, Gemini와 GPT-4의 방식이 다르다는 점을 시사했습니다. 전자는 CoT(단계별 추론)이고 후자는 5-shot이므로 이 점수는 충분히 객관적이지 않을 수 있습니다.

물론 대형 모델의 세분화 기능을 테스트하는 벤치마크 테스트도 있는데, 그 수가 너무 많아서 나열할 수 없습니다.

GSM8K는 주로 초등학교 수학을 테스트하고 MATH는 수학도 테스트하지만 대수학, 기하학, 미적분학을 포함하여 경쟁이 더 치열하며 HumanEval은 Python 프로그래밍을 테스트합니다.

AI는 수학, 물리학 외에도 '독해'도 수행합니다. DROP을 사용하면 모델이 단락을 읽고 정보를 결합하여 복잡한 추론을 수행할 수 있는 반면, HellaSwag는 상식 추론에 중점을 두고 이를 생활 시나리오와 결합합니다.

HellaSwag 벤치마크 테스트 문제

대부분은 영어로 되어 있지만 대형 중국 모델에는 C-Eval과 같은 자체 벤치마크 테스트도 있습니다. C-Eval은 Shanghai Jiao Tong University, Tsinghua University, University of Edinburgh가 공동으로 완료하여 52개 분야에서 약 14,000개의 질문을 다루고 있습니다. 미적분과 같은.

중국 벤치마크 테스트 SuperCLUE 테스트 논리 및 추론

그렇다면 "평가자"는 누구입니까? 대략 세 가지 유형이 있는데, 하나는 프로그래밍 벤치마크와 같은 자동화된 절차이고, 다른 하나는 GPT-4와 같은 보다 강력한 모델을 심판으로 사용하는 것입니다. 세 번째는 수동이다.

혼합 복싱은 Four Books, Five Classics 및 Six Arts보다 훨씬 더 포괄적입니다. 그러나 벤치마킹에는 심각한 함정도 있습니다. 그 뒤에 있는 회사는 "심판과 운동선수의 역할을 동시에 수행"하는데, 이는 교사가 학생들의 부정 행위를 두려워하는 상황과 매우 유사합니다.

숨겨진 위험 중 하나는 질문이 쉽게 유출되어 모델이 "답변을 복사"하게 된다는 것입니다.

벤치마크의 테스트 세트가 공개된 경우 모델은 훈련 과정에서 이러한 질문이나 답변을 "확인"하여 모델의 성능 결과가 비현실적일 수 있습니다. 왜냐하면 모델이 추론을 통해 질문에 답변하지 못하지만 답변을 기억할 수 있기 때문입니다. .

여기에는 데이터 유출 및 과적합 문제가 포함되어 모델 기능을 과대평가하게 됩니다.

인민대학과 같은 대학의 연구에 따르면 평가 세트와 관련된 데이터가 모델 훈련에 가끔 사용되는 것으로 나타났습니다.

또 다른 숨겨진 위험은 인간이 조작할 여지가 많은 부정 행위입니다.

Reflection 70B X가 본격적으로 논의되고 있을 때 NVIDIA 수석 연구 과학자 Jim Fan은 다음과 같이 게시했습니다. 벤치마크를 조작하는 것은 어렵지 않습니다.

예를 들어, "질문 은행"에서 시작하여 다시 작성된 테스트 세트의 예를 기반으로 모델을 훈련합니다. 테스트 세트의 질문을 다양한 형식, 문구 및 언어로 다시 작성하면 13B 모델이 Tiangang과 반대되는 MMLU, GSM8K 및 HumanEval과 같은 벤치마크 테스트에서 GPT-4를 이길 수 있습니다.

동시에 '질문 해결 방법'을 변경하여 추론의 해시레이트 높일 수도 있습니다. 자기 성찰, 사고의 나무 등을 통해 모델은 추론 속도를 늦추고 다중 추론을 함으로써 정확도를 높일 수 있습니다. .

Jim Fan의 태도는 분명합니다.

2024년 9월에도 사람들이 여전히 MMLU 또는 HumanEval 점수에 열광하고 있다는 것은 놀랍습니다. 이러한 벤치마크는 너무 손상되어 이를 조작하는 것이 학부 과제가 될 수 있습니다.

또한 벤치마크 테스트의 어려움이 AI의 개발 속도를 반드시 따라갈 수는 없을 수도 있습니다. 왜냐하면 벤치마크 테스트는 일반적으로 정적이고 단일한데 AI는 난폭하게 실행되기 때문입니다.

MMLU 개발에 참여한 AI 보안 연구원 Dan Hendrycks는 올해 4월 Nytimes에 MMLU의 유효 기간이 1~2년이 될 수 있으며 곧 다른 더 어려운 테스트로 대체될 것이라고 말했습니다.

수백가지 모델의 전쟁 속에서 인류사회의 순위 불안은 AI에게 전가됐다. 다양한 배후 작전 속에서 AI 순위는 마케팅 도구로 자리잡았지만 혼합돼 있어 신뢰도가 별로 없다.

어떤 AI 모델이 더 강력한지, 사용자는 투표를 하게 됩니다

그러나 데이터와 표준이 있으면 처리하기가 더 쉬운 경우가 많습니다.

벤치마킹은 사용자가 모델을 선택하는 요소로 사용될 수 있고 모델 개선에도 도움이 될 수 있는 구조화된 점수 매기기 프레임 입니다. 중국 벤치마크 테스트를 수행하는 C-Eval은 "우리의 가장 중요한 목표는 모델 개발을 지원하는 것"이라고 직설적으로 말했습니다.

벤치마크 테스트에는 그 자체의 가치가 있으며, 핵심은 어떻게 더욱 권위 있고 신뢰할 수 있게 되는가입니다.

우리는 테스트 세트가 모델 훈련에 사용되면 벤치마크 테스트에서 모델이 "속임수"를 유발할 수 있다는 것을 이미 알고 있습니다.

데이터 주석 회사인 Scale AI의 SEAL 연구소는 자체 데이터 세트의 개인정보 보호를 강조합니다. '비공개 도서 심사'를 통해서만 실제 장을 볼 수 있습니다.

현재 SEAL은 모델의 코딩, 지침 추적, 수학 및 다국어 기능을 테스트할 수 있으며 향후 더 많은 평가 차원이 추가될 예정입니다.

SEAL 올해 8월 코딩능력 순위

질문 및 채점 모드 외에도 보다 현실적인 벤치마크 테스트인 Arena도 있습니다.

그 중 대표적인 것이 카네기멜론대학교, 캘리포니아대학교 버클리캠퍼스 등 연구자들의 비영리단체인 LMSYS가 런칭한 챗봇 아레나이다.

익명의 무작위 AI 모델을 서로 대결하고 사용자가 최고의 모델에 투표한 다음 체스와 같은 경쟁 게임에서 일반적으로 사용되는 Elo 점수 시스템을 사용하여 순위를 매깁니다.

구체적으로, 우리는 무작위로 선택된 두 명의 익명 모델 A와 B에 대해 온라인으로 질문한 다음 A를 선호하는지, B를 선호하는지, 동점인지, 아니면 둘 다인지에 대해 투표할 수 있습니다. 그런 다음에만 A와 B 모델의 실제 색상을 볼 수 있습니다. .

내가 물었던 질문은 이전에 많은 AI를 난처하게 했던 "9.9 또는 9.11이 더 큰가?"였습니다. 두 모델 모두 잘못된 답변을 얻었고 이를 클릭한 결과 행운의 승자 중 하나는 GPT-4o이고 다른 하나는 프랑스의 Mixtral이었습니다.

Chatbot Arena의 장점은 분명합니다. 많은 사용자가 제기하는 질문은 실험실에서 만들어진 테스트 세트보다 훨씬 더 복잡하고 유연합니다. 모두가 보고, 만지고, 사용할 수 있게 되면 현실 세계의 요구에 더 가까운 순위가 될 것입니다.

고급 수학을 테스트하고 출력이 안전한지 여부를 테스트하는 일부 벤치마크 테스트와 달리 실제로는 연구에 더 가깝고 대부분의 사용자의 요구와는 거리가 멀습니다.

현재 챗봇 아레나는 100만 표 이상을 모았습니다. Musk의 xAI도 Chatbot Arena의 순위 승인을 사용했습니다.

그러나 어떤 사람들은 챗봇 아레나가 소수의 사용자들의 편견에 의해 영향을 받을 것이라고 생각합니다. 모든 사람들은 각자의 선호도를 가지고 있습니다. 어떤 사용자는 긴 답변을 좋아할 수도 있고, 다른 사용자는 간결하고 포괄적인 답변을 좋아할 수도 있습니다.

이에 챗봇아레나는 최근 '스타일'과 '콘텐츠'라는 두 가지 지표를 구분하기 위한 조정을 진행했습니다. 대화 길이와 형식의 영향을 제어하여 순위를 변경했습니다.

즉, 어떤 방식으로 측정하더라도 벤치마크 테스트는 단지 참고용일 뿐, 학생의 능력 중 일부만을 반영할 수는 없습니다.

물론 가장 불만족스러운 행동은 벤치마크 테스트에서 주관적으로 순위를 매기고 자신을 보증하며 단순히 화려한 순위만 추구하는 것입니다.

원래 의도로 돌아가서, 우리 모두는 AI를 사용하여 실생활 문제를 해결하고, 제품을 개발하고, 코드를 작성하고, 그림을 생성하고, 심리 상담을 통해 정서 가치를 얻고 싶어합니다... 벤치마크 테스트는 어떤 AI가 더 잘 말하는지 답하는 데 도움이 될 수 없습니다. .

가짜는 진실일 수 없습니다. 발로 투표하는 것은 가장 단순한 진실입니다. 그러한 보다 주관적이고 개인적인 감정과 경험은 여전히 우리의 수행을 위해 교환되어야 합니다.

이 기사는 WeChat 공개 계정 "APPSO" 에서 가져온 것입니다. 작성자: APPSO, 36 Krypton은 승인을 받아 게시되었습니다.

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트