Claude 3.7 Sonnet이 AI 왕관을 되찾았습니다. 나머지와 어떻게 대적하는지 알아보세요.

avatar
Decrypt
02-27
이 기사는 기계로 번역되었습니다
원문 표시

앤트로픽이 이번 주 클로드 3.7 소네트라는 새로운 AI 모델을 공개했습니다. 이 모델은 다양한 전문화된 버전으로 분리되어 있던 기능들을 하나의 모델에 통합했습니다.

이번 출시는 모델 개발 방식에 있어 회사의 큰 전환점을 의미합니다. 오픈AI와 달리 앤트로픽은 "모든 것을 잘 수행한다"는 철학을 채택했습니다.

이는 클로드 4.0이 아닌 3.5 소네트 버전의 의미 있는 점진적 업데이트입니다. 명명 규칙상 내부적으로는 클로드 3.6으로 간주되었을 수 있지만 공개적으로는 그렇게 표기되지 않았습니다.

열성 팬들과 초기 테스터들은 클로드의 코딩 및 에이전트 기능에 만족하고 있습니다. 일부 테스트에서 클로드가 다른 SOTA LLM을 능가한다는 앤트로픽의 주장이 확인되었습니다.

그러나 가격 구조로 인해 클로드 3.7 소네트는 시장 대안에 비해 프리미엄으로 책정되었습니다. API 접근 비용은 입력 토큰당 3달러, 출력 토큰당 15달러로 구글, 마이크로소프트, 오픈AI의 경쟁 제품보다 상당히 높습니다.

이 모델은 필요한 업데이트이지만 앤트로픽이 기능에서는 부족합니다.

웹 브라우징, 이미지 생성, 오픈AI, 그록, 구글 제미니의 채팅봇에서 제공되는 연구 기능이 없습니다.

하지만 삶은 코딩만으로 이루어지지 않습니다. 우리는 일반 사용자가 생각할 수 있는 다양한 시나리오에서 모델을 테스트했고, 창의적 글쓰기, 정치적 편향, 수학, 코딩 등 각 분야의 최고 모델과 비교했습니다.

그 결과와 성능에 대한 우리의 생각은 다음과 같습니다.

클로드 3.7 소네트는 겨우 1주일 만에 정상에 오른 그록-3의 창의적 글쓰기 왕좌를 되찾았습니다.

우리가 설계한 창의적 글쓰기 테스트에서 클로드 3.7은 경쟁 모델보다 더 인간적인 언어와 전반적으로 나은 구조의 내러티브를 생성했습니다.

그록-3, 클로드 3.5, 클로드 3.7 사이의 격차는 크지 않지만, 클로드 3.7에 주관적인 우위를 주었습니다.

클로드 3.7 소네트는 더 몰입감 있는 언어와 더 나은 내러티브 아크를 만들어냈습니다. 그러나 어떤 모델도 마무리 부분을 완벽하게 해내지 못했습니다. 클로드의 결말은 급하고 전체 이야기와 다소 동떨어진 느낌이었습니다.

일부 독자들은 이야기 전개 방식에 비추어 볼 때 결말이 크게 와닿지 않는다고 주장할 수 있습니다.

그록-3은 다른 스토리텔링 요소에서 부족했지만 결말 처리를 약간 더 잘했습니다. 이런 결말 문제는 테스트한 모든 모델에서 나타났습니다. 모두 매력적인 내러티브를 만들어내지만 마무리에서 어려움을 겪었습니다.

흥미롭게도 클로드의 확장 사고 기능(유명한 추론 모드)을 활성화하면 창의적 글쓰기에 역효과가 나타났습니다.

결과 스토리는 GPT-3.5 같은 이전 모델의 출력과 유사하게 짧고 급하며 반복적이고 종종 비논리적이었습니다.

따라서 역할 놀이, 스토리 창작, 소설 쓰기를 할 때는 이 확장 사고 기능을 끄는 것이 좋습니다.

긴 문서 처리 능력에서 클로드 3.7 소네트는 무거운 작업을 해낼 수 있음을 증명했습니다.

47페이지 분량의 IMF 문서를 제공했을 때 인용문을 만들어내지 않고 내용을 분석하고 요약했습니다. 이는 클로드 3.5에 비해 큰 발전입니다.

클로드의 요약은 매우 간단했습니다. 헤드라인과 간단한 소개, 몇 개의 간단한 설명이 담긴 요약 포인트로 구성되었습니다.

이를 통해 문서의 개요를 빠르게 파악할 수 있지만, 중요한 정보의 상당 부분이 누락되었습니다. 개요를 얻는 데는 좋지만 포괄적인 이해를 위해서는 부족합니다.

그록-3도 이 분야에 한계가 있습니다. 직접 문서 업로드를 지원하지 않습니다. 이는 경쟁 모델에서 표준이 된 기능이 누락된 것이라 할 수 있습니다.

이를 해결하기 위해 동일한 보고서를 복사 붙여넣기 했을 때, xAI의 모델은 정확한 요약을 생성했습니다. 오히려 너무 자세한 편이었습니다.

인용문도 정확하게 처리했는데, 이는 작은 성과가 아닙니다.

결론은 어떤 모델을 선택할지가 사용 목적에 따라 달라진다는 것입니다. 빠른 개요가 필요하다면 클로드 3.7이 더 적합할 것입니다.

반면 핵심 세부 사항을 보존한 더 자세한 분석이 필요하다면 그록-3이 더 유용할 것입니다.

흥미롭게도 클로드의 확장 사고 모드는 여기서 거의 차이를 만들지 못했습니다. 문서에서 더 짧은 인용문을 선택하고 거의 동일한 출력을 제공했습니다. 요약 작업에서는 추론 모드의 추가 토큰 비용이 가치가 없습니다.

민감한 주제 다루기에 있어 클로드 3.7 소네트는 테스트한 주요 AI 모델 중 가장 강력한 방어막을 갖추고 있습니다.

인종차별, 비노골적 에로틱, 폭력, 날카로운 유머 등에 대한 실험에서 앤트로픽이 여전히 콘텐츠 제한 정책을 유지하고 있음이 드러났습니다.

모든 사람이 알다시피 클로드 3.7은 경쟁 모델에 비해 매우 보수적입니다.

ChatGPT와 그록-3이 시도할 수 있는 프롬프트도 클로드는 거부합니다. 한 테스트에서 각 모델에게 박사 교수가 학생을 유혹하는 이야기를 만들어달라고 요청했습니다.

클로드는 그것을 다루려 하지 않았지만, ChatGPT는 의미심장한 내러티브를 생성했습니다.

그록-3은 여전히 이 분야의 난아이다. xAI의 모델은 가장 제한이 적은 옵션이 되었습니다. 성인 콘텐츠를 다루는 창의적 작가에게는 도움이 될 수 있지만, 다른 맥락에서는 논란의 여지가 있습니다.

창의적 자유를 우선시하는 사용자라면 그록-3이 최선의 선택일 것입니다.

가장 엄격한 콘텐츠 필터링이 필요한 사용자에게는 클로드 3.7 소네트의 보수적 접근이 더 적합할 것입니다. 다만 정치적으로 올바른 범위를 벗어나는 주제를 다룰 때는 좌절감을 느낄 수 있습니다.

정치적 중립성은 AI 모델에 있어 가장 복잡한 과제 중 하나입니다.

AI 기업들이 미세 조정 과정에서 모델에 정치적 편향을 주입하는지 확인해보고자 했습니다. 그 결과 클로드 3.7 소네트는 개선되었지만 "미국 우선주의" 관점을 완전히 벗어나지는 못했습니다.

대만 문제를 예로 들면, 대만이 중국의 일부인지 묻자 클로드 3.7 소네트(표준 및 확장 사고 모드)는 다양한 정치적 관점을 균형 있게 설명했지만, 미국의 입장을 강조했습니다.

반면 그록-3은 프롬프트에 명시된 대만과 중국의 관계에만 초점을 맞추어 더 진정한 중립적 입장을 제시했습니다.

클로드의 접근 방식은 특정 정치적 입장을 적극적으로 밀어붙이지는 않지만, 미국 관점을 부각시키는 경향이 있어 훈련 편향이 여전히 남아있음을 보여줍니다.

이는 미국 기반 사용자에게는 문제가 되지 않겠지만, 다른 지역의 사용자에게는 불편할 수 있습니다.

결론적으로 클로드 3.7 소네트는 정치적 중립성 향상을 보여주었지만, 그록-3이 여전히 지정학적 질문에 대한 진정한 객관적 대응을 제공합니다.

코딩 실력에서 클로드 3.7 소네트는 테스트한 모든 경쟁 모델을 능가합니다. 복잡한 프로그래밍 과제를 경쟁 모델보다 깊은 이해로 처리하지만, 문제 해결에 시간이 더 걸립니다.

좋은 소식은 클로드 3.7이 3.5 모델보다 코드 처리 속도가 빨라졌고, 자연어로 된 복잡한 지침을 더 잘 이해한다는 것입니다.

나쁜 소식은 여전히 해결책을 고민하는 동안 출력 토큰을 많이 소모한다는 것이며, 이는 개발자들의 API 사용 비용으로 직결됩니다.

우리가 관찰한 흥미로운 점은 클로드 3.7 소네트가 실제 작성하는 언어와 다른 언어로 코딩 문제를 생각하는 경우가 있다는 것입니다.

Claude 3.7 소네트는 특히 복잡한 논리 퍼즐을 해결할 때 추론 능력이 뛰어납니다. 우리는 그것을 BIG-bench 논리 벤치마크의 스파이 게임 중 하나에 통과시켰고, 그것은 사건을 정확하게 해결했습니다.

이 퍼즐에는 학생들이 외딴 곳으로 여행을 가서 일련의 신비한 실종 사건을 겪는 내용이 포함되어 있습니다.

이 AI는 이야기를 분석하고 스토커가 누구인지 추론해야 합니다. 전체 이야기는 공식 BIG-bench 리포지토리 또는 우리 리포지토리에서 확인할 수 있습니다.

모델 간 속도 차이가 특히 두드러졌습니다. 확장된 사고 모드에서 Claude 3.7은 단 14초 만에 미스터리를 해결했는데, 이는 Grok-3의 67초보다 훨씬 빠른 속도입니다. 두 모델 모두 DeepSeek R1보다 훨씬 빨리 결론에 도달했습니다.

OpenAI의 o3-mini는 이 문제에서 잘못된 결론에 도달했습니다.

흥미롭게도 일반 모드(확장된 사고 없이)의 Claude 3.7 소네트는 즉시 정답을 얻었습니다. 이는 이러한 경우에는 확장된 사고가 큰 가치를 더하지 않을 수 있음을 시사합니다. 다만 추론 과정에 대한 더 깊은 이해가 필요한 경우에는 예외일 수 있습니다.

우리의 프롬프트와 모든 답변은 GitHub리포지토리에서 확인할 수 있습니다.

전반적으로 Claude 3.7 소네트는 이러한 유형의 분석적 추론 문제를 처리하는 데 있어 Grok-3보다 더 효율적인 것으로 보입니다. 탐정 업무와 논리 퍼즐에서 Anthropic의 최신 모델은 최소한의 계산 오버헤드로 인상적인 연역적 능력을 보여줍니다.

Sebastian Sinclair에 의해 편집됨

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
1
즐겨찾기에 추가
코멘트