Llama 3에 관한 또 다른 테스트 결과가 공개되었습니다.
대형모델 평가 커뮤니티 LMSYS가 대형모델 순위표를 공개해 라마3가 5위에 올랐고, 영어 부문에서는 GPT-4와 함께 공동 1위에 올랐다.
다른 벤치마크와 달리 이 목록은 네트워크 전체의 평가자가 자신의 제안을 만들고 점수를 매기는 일대일 모델 전투를 기반으로 합니다.
결국 Llama 3가 5위를 차지했고, GPT-4의 세 가지 버전과 Claude 3 Super Cup Opus가 그 뒤를 이었습니다.
영어 싱글 목록에서는 Llama 3가 Claude를 제치고 GPT-4와 동점을 기록했습니다.
메타의 수석과학자인 르쿤(LeCun)은 이 결과에 매우 기뻐하며 이를 리트윗하고 'Nice'라는 글을 남겼다.
PyTorch의 아버지인 수미스 친탈라(Sumith Chintala) 역시 이러한 결과가 믿기지 않으며 Meta가 자랑스럽다고 신나게 말했습니다.
라마3의 400B 버전은 아직 나오지 않았고, 70B 매개변수만 기준으로 5위를 기록했는데... 지난해 3월 GPT-4가 출시됐을 때는 같은 성능을 내기가 거의 불가능했던 기억이 아직도 생생하다. …이제 AI의 민주화는 정말 놀랍습니다. 저는 Meta AI의 동료들이 이러한 성공을 이룬 것을 매우 자랑스럽게 생각합니다.
그렇다면 이 목록은 어떤 구체적인 결과를 보여줍니까?
약 90개 모델이 750,000회에 걸쳐 전투를 벌였습니다.
최신 목록이 공개된 현재 LMSYS는 89개 모델을 포함한 약 750,000개의 대형 모델 솔로 전투 결과를 수집했습니다.
그 중 라마 3(Llama 3)은 12,700회 참여했으며, GPT-4에는 다양한 버전이 있으며 가장 많은 참여 횟수는 68,000회입니다.
아래 그림은 일부 이슈 모델의 대회 횟수와 승률을 보여줍니다. 그림의 두 지표 중 어느 것도 추첨 횟수를 계산하지 않습니다.
목록 측면에서 LMSYS는 일반 목록과 여러 하위 목록으로 나누어져 있으며 GPT-4-Turbo는 이전 1106 버전 및 Claude 3 Super Large Cup Opus와 공동으로 1위를 차지했습니다.
GPT-4의 또 다른 버전(0125)이 2위를 차지했으며 Llama 3이 그 뒤를 바짝 쫓고 있습니다.
그러나 더 흥미로운 점은 최신 0125가 이전 버전 1106만큼 성능이 좋지 않다는 것입니다.
영어 싱글 목록에서는 Llama 3의 결과가 GPT-4 두 대와 직접적으로 동률을 이루며 심지어 0125 버전을 능가했습니다.
중국어 실력 순위 1위는 클로드 3 오푸스(Claude 3 Opus)와 GPT-4-1106이 공동 1위를 차지했고, 라마 3(Llama 3)는 20위를 벗어났다.
언어 능력 외에도 긴 텍스트 및 코딩 능력에 대한 순위도 설정되었으며 Llama 3도 최고 수준에 속합니다.
그런데 LMSYS의 구체적인 "게임의 규칙"은 무엇입니까?
누구나 참여할 수 있는 대형 모델 평가
누구나 참여할 수 있는 대규모 모델 테스트입니다. 질문과 평가 기준은 참가자가 직접 결정합니다.
구체적인 "경쟁" 프로세스는 전투 모드와 병렬 모드의 두 가지 모드로 나뉩니다.
전투 모드에서 테스트 인터페이스에 질문을 입력하면 시스템이 라이브러리에 있는 두 모델을 무작위로 호출하지만 테스터는 시스템이 선택한 모델이 누구인지 알 수 없습니다. 인터페이스에는 "모델 A"와 "모델 B"만 표시됩니다. .
모델이 답을 출력한 후 평가자는 어느 것이 더 나은지 또는 동점인지 선택해야 합니다. 물론 모델의 성능이 기대에 미치지 못하는 경우 해당 옵션이 있습니다.
선택이 이루어진 후에야 모델의 신원이 공개됩니다.
Side-by-side는 사용자가 PK를 위해 지정된 모델을 선택하는 곳입니다. 나머지 테스트 과정은 전투 모드와 동일합니다.
단, 익명 모드의 전투 결과만 집계되며, 대화 중 모델이 실수로 신원을 노출한 경우 결과가 무효 처리됩니다.
다른 모델에 대한 각 모델의 승률에 따르면 다음과 같은 이미지가 그려질 수 있습니다.
△
최종 순위는 승률 데이터를 사용하고 Elo 평가 시스템을 통해 점수로 변환하여 얻습니다.
Elo 등급 시스템은 미국 물리학 교수 Arpad Elo가 설계한 플레이어의 상대적인 기술 수준을 계산하는 방법입니다.
LMSYS의 경우 초기 조건에서는 모든 모델의 평점(R)을 1000으로 설정하고, 이러한 공식을 바탕으로 예상 승률(E)을 계산합니다.
테스트가 진행됨에 따라 실제 점수(S)를 기준으로 점수가 수정됩니다. S에는 1, 0, 0.5의 세 가지 값이 있으며 이는 각각 승, 패, 무승부의 세 가지 상황에 해당합니다.
수정 알고리즘은 다음 공식에 나와 있습니다. 여기서 K는 실제 상황에 따라 테스터가 조정해야 하는 계수입니다.
모든 유효한 데이터가 최종적으로 계산에 포함된 후 모델의 Elo 점수가 얻어집니다.
그러나 실제 운영 과정에서 LMSYS팀은 이 알고리즘의 안정성이 부족하다는 사실을 발견하고 이를 수정하기 위해 통계적 방법을 사용했다.
그들은 반복 샘플링에 부트스트랩 방법을 사용하여 보다 안정적인 결과를 얻었고 신뢰 구간을 추정했습니다.
최종 수정된 Elo 점수는 목록 순위의 기초가 되었습니다.
하나 더
Llama 3는 이미 대규모 모델 추론 플랫폼 Groq(Musk의 Grok 아님)에서 실행될 수 있습니다.
이 플랫폼의 가장 큰 특징은 "빠른 속도"입니다. 이전에는 Mixtral 모델을 사용하여 초당 거의 500개 토큰의 속도를 달성했습니다.
라마 3를 실행하면 속도도 상당히 빠른데, 실제 테스트에 따르면 70B 버전은 초당 약 300개의 토큰을 실행할 수 있고, 8B 버전은 800에 가깝습니다.
참조 링크:
[1]https://lmsys.org/blog/2023-05-03-arena/
[2]https://chat.lmsys.org/?leaderboard
[3]https://twitter.com/lmsysorg/status/1782483699449332144
이 기사는 WeChat 공개 계정 "Qubit"(ID: QbitAI) , 작성자: Cressy, 36 Krypton에서 승인을 받아 게시되었습니다.





