"더 나은 모델은 더 이상 필요 없어요": 레딧에서 화제가 되고 있는 게시글을 통해 AI의 다채로운 세계를 엿볼 수 있습니다.

이 기사는 기계로 번역되었습니다

원문 표시

저자: 프라이데이, 테크 플로우 (techflowpost) 테크플로우

앤트로픽은 서류상으로는 흠잡을 데 없는 실적 보고서를 방금 발표했습니다.

6월 9일에 출시된 Claude Fable 5는 회사가 공개한 최초의 Mythos급 모델입니다. 이 모델은 실제 소프트웨어 엔지니어링 작업 벤치마크인 SWE-Bench Pro에서 80.3%의 점수를 획득하여 이전 플래그십 모델인 Opus 4.8보다 약 11%포인트, GPT-5.5보다 20%포인트 이상 높은 성능을 보였습니다.

하지만 사용자들의 반응은 그러한 열정을 식혔다.

출시 3일 후, 주간 방문자 수 30만 5천 명에 달하는 r/artificial 포럼에 "Claude Fable을 써보니 더 나은 모델이 필요 없다는 걸 깨달았습니다."라는 제목의 글이 인기 게시물로 떠올랐습니다. Axi0m-22라는 닉네임을 사용하는 그는 한동안 보안 연구와 일상 업무에 Fable을 사용하다가 거의 곧바로 코딩에는 Opus를, 기타 작업에는 Haiku를 다시 사용하기 시작했다고 밝혔습니다. 그는 마치 iPhone 17 출시를 지켜보면서 iPhone 14를 들고 있는 것과 같다고 비유했습니다. "새로운 모델이 더 좋다는 건 알지만, '괜찮아, 내 것도 충분히 좋아.'라고 생각하는 거죠."

높은 평가를 받은 부분은 "괜찮다"는 의견이 대부분을 차지하며, 모델에 대한 미적 피로감이 주류 정서.

가장 많은 추천을 받은 댓글(추천 42개)은 다음과 같습니다. "더 넓은 컨텍스트 창을 제외하면, Opus 4.5 이후로는 더 강력한 모델이 필요하다고 느끼지 못했습니다. "

또 다른 사용자 hyprlab은 "토큰을 더 공격적으로 소각하는 모델로 전환한다고 해서 제 작업 흐름에 어떤 이점이 있을지 모르겠습니다. Opus 4.8의 고강도 모드도 이미 충분히 만족스럽습니다."라는 댓글을 남겨 13개의 추천을 받았습니다.

이러한 진술에는 공통적인 비용이 따릅니다.

Fable 5의 API 가격은 입력 토큰 백만 개당 10달러로, Opus 4.8의 거의 두 배에 달합니다. 사용자 siromega37은 "토큰 소비는 늘었지만 투자 수익은 없다. 지금은 정체기에 접어든 것 같고, 결국 거품은 터질 것이다."라고 직설적으로 말했습니다.

사용자 hobopwnzor는 보다 체계적인 해석을 제시했습니다. "우리는 한동안 S자 곡선의 정점에 머물러 있었습니다. 최근의 발전은 주로 모델 자체의 기능 향상보다는 툴 호출 및 주변 장치 엔지니어링에서 비롯되었습니다."

안전 난간은 가장 큰 논쟁거리로 떠올랐습니다. "의도된 용도의 90%가 아예 거부당하고 있습니다."

만약 "충분히 좋다"는 것이 단순히 정서 이라면, 안전 난간에 대한 불만은 특정 제품 자체의 문제라고 볼 수 있습니다.

앤스로픽의 공식 문서에 따르면, Fable 5는 Mythos 5와 동일한 기본 모델을 공유하며, 이 모델은 일부 조직에서만 사용할 수 있습니다. 차이점은 Fable에 보안 분류기가 추가되었다는 점입니다. 사이버 보안과 같은 리스크 영역과 관련된 요청은 차단되어 Opus 4.8에서 처리됩니다. 공식 설명에 따르면 이 메커니즘은 보수적으로 조정되어 평균적으로 5% 미만의 세션에서만 작동하며, 무해한 요청을 잘못 분류할 수도 있습니다.

이 레딧 게시물 아래에서 인식되는 오류 발생률은 5%보다 훨씬 높은 것으로 보입니다. 17개의 추천을 받은 사용자 jradoff는 Fable에 코드 보안 검사를 요청했는데 "보안 관련 작업은 일절 처리하지 않고 Opus로 강등되었다"고 말했습니다. 12개의 추천을 받은 또 다른 댓글은 더욱 직설적이었습니다. "원하는 작업의 90%는 거부될 것이고, 사실상 쓸모가 없다."

유료 사용자들의 불만은 더욱 심각합니다. 200달러 구독 요금제를 사용하는 kaitava는 "보안 감사를 받기 위해 두 배의 사용료를 지불했는데, Opus 버전으로 강등되었습니다. 이제 Opus의 모든 것이 마음에 들지 않고, OpenAI가 따라잡기만을 기다리고 있습니다."라고 썼습니다.

획기적인 성능을 강조하는 주력 제품의 경우, "보안의 사용성 비용"은 사용자의 구매 결정에 있어 핵심 변수가 되고 있습니다.

반대 의견: 헤비 유저들은 그 차이를 "하늘과 땅 차이"처럼 느낀다.

인기 있는 게시물에는 반대 의견이 적지 않았고, 반대 측은 상당히 분명한 입장을 보였습니다. 즉, 과제가 어려울수록 평가도 높아진다는 것이었습니다.

사용자 Phylaras의 댓글은 15개의 추천을 받았습니다. "Fable 덕분에 제 작업이 훨씬 수월해졌습니다. 방대한 컨텍스트 창이 필요한 복잡한 작업에서 이전에는 발견하지 못했던 버그들을 찾아냈습니다." 고에너지 물리 시뮬레이션을 진행한다고 밝힌 한 사용자는 하나의 시뮬레이션 모델이 8,000~10,000줄의 코드로 이루어져 있고 수백 개의 모델이 서로 상호작용한다고 말했습니다. "독립적으로, 그리고 지속적으로 작동하며 환경의 세부 사항까지 이해할 수 있는 모델을 갖게 되어 매우 기대됩니다."

가장 강력한 반박은 사용자 Navetz로부터 나왔습니다. "솔직히 이 모델을 사용해 본 사람이라면 이 게시글이 말도 안 된다고 생각할 겁니다. 제 생각에는 엄청나게 똑똑한 모델이고, 저는 꾸준히 사용해 왔습니다. 기술에 익숙하지 않은 친구들에게는 마치 대학 선수에서 NBA 주전 선수로 바로 올라가는 것과 같다고 설명했습니다."

몇몇 사용자는 절충안을 제시했습니다. ready-eddy라는 사용자는 비용을 아끼지 않는다면 Fable을 매일 사용하는 "빌드 도구"보다는 "계획 및 수정 도구"로 사용하는 것을 제안했습니다. 또 다른 사용자는 마치 사용자 설명서처럼 다음과 같이 요약했습니다. Fable을 사용하여 표를 계산하는 것은 잘못된 모델을 선택한 것이며, Haiku를 사용하여 16개의 에이전트로 복잡한 작업을 실행하는 것 또한 잘못된 모델을 선택한 것입니다. "본질적으로 나쁜 모델은 없으며, 단지 잘못된 시나리오에서 사용되는 모델이 있을 뿐입니다."

벤치마크 점수와 사용자 경험이 분리된 후, 공개적으로 사용 가능한 AI는 더욱 강력해질까요?

이번 토론에서 가장 흥미로운 의견 중 하나는 초점을 제품에서 산업 구조로 옮긴 것이었습니다.

사용자 KedMcJenna는 "공개 AI 동결 이론"을 제안했습니다. 일반인이 접근 가능한 모델은 현재 수준에 머물러 무기한 유지되는 반면, 기업과 정부 엘리트들은 더욱 강력한 비공개 모델을 계속해서 확보할 것이라는 이론입니다. "우리는 적어도 Mythos라는 모델을 알고 있지만, 우리가 결코 알지 못할 훨씬 더 강력한 모델들이 존재할 가능성이 높습니다."

이 댓글은 Mythos 5가 실제로 일반에 공개되지 않았으며 현재 사이버 방어 기관과 중요 인프라 기업만 Project Glasswing 프로그램을 통해 이용할 수 있다는 사실을 지적합니다.

벤치마크 점수와 여론을 함께 고려했을 때, 결론은 서로 모순되지 않습니다.

벤치마크 테스트는 성능의 상한선을 측정하는 반면, 레딧에서 높은 평점을 받은 섹션들은 일상적인 요구 사항의 한계를 반영합니다. 대부분의 사용자 작업은 이미 Opus 4.6 시대에 충족되었기 때문에, 더욱 강력한 모델은 물리 시뮬레이션이나 극도로 긴 실행 시간과 같은 극한 시나리오에서만 그 진가를 발휘할 수 있습니다. 모델 공급업체들은 더 이상 "우리가 할 수 있을까?"라는 질문에 대면 것이 아니라, "누가 필요로 하는가? 그들은 얼마를 지불할 의향이 있는가? 그리고 그들은 어느 정도의 안전성 문제를 감수할 수 있는가?"라는 질문에 직면하게 되었습니다.

Fable 5는 출시 후 3일 만에 벤치마크 순위와 여론에서 완전히 상반된 평가를 받았습니다. 어느 쪽이 진실에 더 가까운지는 Anthropic이 보안 등급을 얼마나 빨리 조정하는지, 그리고 헤비 유저들의 지갑 투표 결과에 달려 있습니다.

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트