연구원들은 최악의 버전의 Claude AI도 GPT 3.5보다 낫다고 말합니다.

avatar
Decrypt
10-06
이 기사는 기계로 번역되었습니다
원문 표시

AI 업계는 주목할만한 ChatGPT와 Claude AI 모델 간의 치열한 경쟁을 목격하고 있습니다. Chatbot Arena 및 유명한 Vicuna 모델 생성을 담당하는 LMSO( Large Model Systems Organization )는 최근 각 AI 챗봇이 경쟁사에 비해 얼마나 뛰어난지 반영하여 Chatbot Arena 리더보드를 업데이트했습니다. Anthropic은 OpenAI의 모델을 여전히 무료로 사용할 수 있음에도 불구하고 돈을 벌기 위해 노력하고 있는 것으로 나타났습니다.

ChatGPT Plus 및 Bing AI의 강력한 기반인 GPT-4는 가장 높은 점수로 최고의 자리를 차지하며 LLM(대형 언어 모델)의 표준을 설정합니다. 하지만 순위표가 아래로 내려갈수록 예상치 못한 약자 이야기가 펼쳐집니다. Anthropic의 Claude 모델(Claude 1, Claude 2 및 Claude Instant)은 모두 ChatGPT 무료 버전을 지원하는 엔진인 GPT-3.5보다 성능이 뛰어납니다. 이는 Anthropic이 개발한 모든 대규모 언어 모델이 ChatGPT의 무료 버전을 능가할 수 있음을 의미합니다.

LMSO의 세심한 순위 시스템은 이러한 모델의 성능 지표에 대한 통찰력을 제공했습니다. 리더보드에 따르면 GPT-4는 Arena Elo 등급 1181을 기록하여 차트 1위를 차지하고 있으며 Claude 모델은 1119~1155 등급을 밀접하게 따르고 있습니다. 반면 GPT-3.5는 1115 등급으로 뒤쳐져 있습니다. .

모델의 순위를 매기기 위해 LMSO는 유사한 메시지가 있는 경기에서 모델을 " 전투 "하게 만듭니다. 가장 좋은 답을 얻은 모델이 승리하고 다른 모델은 패배합니다. 사용자는 자신의 선호도에 따라 누가 승리할지 결정하지만 어떤 모델이 경쟁하고 있는지는 알 수 없습니다.

Decrypt가 이전에 보고한 것처럼 ChatGPT Plus와 Claude Pro 간의 토큰 처리 기능 차이는 LMSO 순위의 요소는 아니지만 Claude 모델이 GPT에 비해 갖는 주요 이점이기도 합니다.

"Claude 2 LLM을 기반으로 하는 Claude Pro는 최대 100,000개의 정보 토큰을 처리할 수 있는 반면, GPT-4 LLM으로 구동되는 ChatGPT Plus는 8,192개의 토큰을 처리할 수 있습니다."라고 회상했습니다. 토큰 처리 능력의 이러한 차이는 Claude 모델이 광범위한 상황별 입력을 관리하는 데 있어 우위를 점한다는 것을 강조하며, 이는 미묘하고 풍부한 사용자 경험에 매우 중요합니다.

또한 긴 프롬프트를 처리할 때 Claude 2는 GPT보다 우월하여 더 큰 규모의 프롬프트를 보다 효율적으로 처리합니다. 그러나 프롬프트가 비교 가능한 경우 Claude 1과 Claude Instant는 GPT-3.5와 유사하거나 약간 더 나은 결과를 제공하여 이러한 모델의 경쟁적 특성을 보여줍니다. Claude의 컨텍스트 기능을 사용하면 잘못된 초기 답변을 더욱 세련되고 크고 풍부한 프롬프트로 극적으로 개선할 수 있습니다.

오픈 소스 모델은 이 경쟁에서 크게 뒤처지지 않습니다.

700억 개의 매개변수를 갖춘 Meta의 LlaMA-2에서 훈련된 모델인 WizardLM은 최고의 오픈 소스 LLM으로 돋보입니다. 다음은 Meta에서 출시한 Vicuna 33B와 원본 LlaMA-2입니다.

오픈 소스 모델은 다양한 이유로 AI 공간 개발에 중요한 역할을 합니다. 로컬에서 실행될 수 있으므로 사용자에게 이를 미세 조정할 수 있는 기회가 제공되고 모델을 완성하기 위한 공동 노력에 커뮤니티가 참여하게 됩니다. 또한 라이센스로 인해 실행 비용이 저렴하기 때문에 이 공간에는 수십 개의 오픈 소스 LLM이 있고 소수의 독점 모델만 있습니다.

하지만 AI 챗봇 게임은 숫자에만 국한되지 않습니다. 이는 실제 세계에 미치는 영향에 관한 것입니다.

챗봇이 고객 서비스부터 개인 비서까지 다양한 분야에서 통합되면서 효율성, 적응성 및 정확성이 가장 중요해졌습니다. Claude 모델의 순위가 GPT-3.5보다 높으면 기업과 개인 사용자는 자신의 요구 사항에 가장 적합한 모델을 평가하는 기로에 서게 될 수 있습니다. Decrypt는 귀하에게 가장 적합한 모델을 결정하는 데 도움이 되는 두 가지 가이드를 준비했습니다.

초보자에게는 이것이 또 다른 리더보드 업데이트처럼 보일 수도 있습니다. 그러나 AI 산업을 면밀히 관찰하는 사람들에게 이는 경쟁이 얼마나 치열하고 조류가 얼마나 빠르게 바뀔 수 있는지에 대한 증거입니다. 그리고 이 두 진영 사이에 앉아 있는 나머지 우리는 AI 세계에서는 오늘날 가장 인기 있는 모델이 가장 효율적인 모델로 떨어질 수 있다는 사실을 상기시킵니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트