GPT-4.1이 비밀리에 출시됐나요? 이 미스터리한 모델은 출시 3일 만에 엄청난 논란을 일으켰고, 네티즌들은 OpenAI의 흔적을 대량 찾아냈다.

avatar
36氪
04-14
이 기사는 기계로 번역되었습니다
원문 표시

이 신비한 모델은 온라인에 공개된 지 불과 3일밖에 되지 않았지만 이미 많은 논란을 불러일으켰습니다!

새로 출시된 대규모 모델 집계 플랫폼인 OpenRouter인 Optimus Alpha는 772억 개의 토큰을 처리했으며, 이는 하루 평균 200억 개가 넘는 수치입니다.

그리고 이 숫자는 계속 상승 있으며, 일일 토큰 처리량이 340억을 넘어서면서 트렌드 목록에서 2위와 1위를 차지했습니다.

일부 네티즌들은 이를 이용해 MC-Bench에 도전하고, "마인크래프트" 스타일의 장면을 만들어내려고 했으며, 이를 4o-mini와 비교하기도 했습니다. 결과는 분명했습니다.

어떤 사람들은 체계적으로 프로그래밍 수준을 테스트한 결과, Optimus Alpha가 Ruby 언어에서 가장 성능이 좋은 모델이라는 것을 발견했습니다.

어떤 사람들은 옵티머스 알파가 SOTA여야 한다고 직접적으로 칭찬하기도 했습니다.

뛰어난 성능에 놀라움을 금치 못하는 사이, 옵티머스 알파의 정체에 대한 추측도 쏟아지고 있다...

실제 작업을 위한 수백만 개의 컨텍스트 창

Optimus Alpha는 최대 32K 출력 비트로 수백만 개의 컨텍스트 창을 지원합니다 .

그리고 응답 속도가 매우 빠르며, 첫 번째 토큰의 중간 지연은 단 0.81초이고 중간 출력 속도는 초당 24.8토큰입니다.

서론에서는 Optimus Alpha가 주로 현실 세계의 작업을 목표로 하며, 특히 프로그래밍에 대해 언급했습니다 .

한 블로거가 쇼핑 카트 기능이 있는 전자상거래 웹사이트를 만들어 달라고 요청했습니다. 결과적으로 Optimus Alpha는 합리적인 UI 인터페이스를 설계했습니다. 다른 많은 AI가 제대로 작동하지 못했던 쇼핑 카트 기능도 정상적으로 작동했고, 여러 파일에서도 모든 것이 제대로 작동했습니다.

아니면 정상적으로 동작할 뿐만 아니라 뱀 머리의 색깔을 바꾸고 뱀 몸의 색깔이 점진적으로 바뀌는 등 영리한 디자인을 추가하는 뱀 게임을 작성할 수도 있는데, 이는 Synopsys의 다른 AI 프로그래밍 도구보다 성능이 뛰어납니다.

어떤 사람들은 손으로 쓴 텍스트를 지원하는 OCR 텍스트 인식 애플리케이션을 작성하는 데 이를 사용하기도 했습니다.

성능 측면에서 Elo 점수는 1338로 Claude 3.7 Sonnet에 이어 2위를 차지했으며, Optimus Alpha의 전신으로 추정되는 DeepSeek-R1과 Quasar Alpha보다 앞서 있습니다.

특히 SQL 데이터베이스 쿼리 작업에서 Optimus Alpha는 가장 높은 평균 점수를 달성했습니다.

Aider 목록에 따르면 Optimus Alpha의 프로그래밍 능력은 Quasar Alpha, Grok 3 및 중간 크기의 o3-mini와 비슷하고 GPT-4.5-preview보다 약간 더 나은 것으로 나타났습니다.

프로그래밍 외에도 Optimus Alpha는 창의적 글쓰기에서도 좋은 성과를 거두었으며, DeepSeek-V3에 이어 Elo 점수에서 4위를 차지했습니다.

OpenAI에서 신비한 모델이 나왔을까?

가장 간단하고도 잔인한 조사 방법은 모델이 스스로 설명하도록 하는 것 입니다.

모델을 출시한 목적이 피드백을 수집하는 것이므로 Optimus Alpha는 현재 OpenRouter에서 무료로 제공되어 실험이 가능합니다.

자신의 정체를 묻자, 옵티머스 알파는 주저 없이 자신이 ChatGPT라고 대답했습니다.

구체적인 버전에 대해 묻는다면 " GPT-4를 기준으로 하며, 지식 기한은 2024년 6월입니다. "라고 답합니다.

또한, 일부 사람들은 옵티머스라는 이름을 테슬라의 옵티머스 프라임 로봇과 직접 연관시키며, 이 신비한 모델은 머스크가 만든 것이라고 믿고 있습니다.

하지만 어떤 사람들은 이것이 울트라맨의 계략이라고 생각하고, 이것이 머스크의 회사에서 나온 것이라고 믿는다면, 그것은 바로 울트라맨이 원하는 것이 될 것입니다.

더욱 설득력 있는 증거는 이번 달 2일에 처음 모습을 드러낸, 현재 오프라인 상태인 퀘이사 알파(Quasar Alpha)에서 나왔습니다.

Reddit의 일부 네티즌은 Quasar Alpha를 사용하여 불법적인 작업을 수행하려고 할 때 모델의 거부 방법이 OpenAI와 매우 유사하다는 것을 발견했습니다.

이 네티즌이 언급한 토크나이저 버그는 이전에 발견된 Quasar Alpha가 중국어-영어 번역 작업을 수행할 때 GPT-4o와 동일한 "읽기" 및 "반복" 문제를 일으킨다는 사실을 언급합니다.

이 버그는 OpenAI에서만 발생 하는 것으로 보이며 Grok, Claude 또는 DeepSeek에서는 발생하지 않습니다.

더욱 복잡한 분석을 실시한 사람들도 있습니다. AI 연구자 샘 페이치(이전 창작 글쓰기 목록을 시작한 사람)는 정보학적 방법을 사용하여 모델 간의 답변 차이를 통해 상관관계를 파악하려고 했습니다.

그 결과, Paech는 Quasar Alpha가 OpenAI의 모델과 매우 유사하다는 것을 발견했으며, 특히 GPT-4.5-preview를 지적했습니다.

이후 울트라맨도 트윗을 통해 퀘이사 알파의 정체를 암시했다 .

마침내 Optimus Alpha로 돌아가서 테스트해보니 ChatGPT와 Quasar Alpha에서 발견되었던 동일한 버그가 다시 나타났습니다 .

페이치 역시 새로운 결과를 얻었습니다. 옵티머스 알파가 최신 혈통표에 추가되었습니다. 가장 가까운 모델은 올해 3월 27일에 업데이트된 ChatGPT-4o입니다 .

시간적 관점에서 볼 때, 퀘이사 알파는 옵티머스 알파가 출시된 다음 날 철수 때문에 일부 사람들은 옵티머스 알파가 퀘이사 알파의 대체품이라고 생각합니다.

실험에서 관찰된 다양한 징후 외에도, 신비한 모델 형태로 새로운 모델을 커뮤니티에서 테스트하는 것은 OpenAI의 전통적인 기술이 되었습니다.

울트라맨이 퀘이사 알파에 대한 힌트를 결합하면, 옵티머스 알파가 OpenAI에서 나왔을 확률은 전반적으로 여전히 매우 높습니다.

더 구체적인 내용은 OpenAI 가 유출한 "GPT-4.1" 과 결합하면 GPT-4o의 업그레이드 버전으로 간주되며, Paech의 최신 혈통 차트에서 이를 확인할 수 있습니다.

이 신비한 모델의 진짜 정체는 무엇이라고 생각하시나요?

참조 링크:

[1]https://x.com/TheMattBerman/status/1910813233008509191

[2]https://www.reddit.com/r/LocalLLaMA/comments/1jrd0a9/chinese_response_bug_in_tokenizer_suggests/

[3]https://x.com/sam_paech/status/1910346895110848553

본 기사는 WeChat 공개 계정 "Quantum Bit" 에서 발췌하였으며, 저자는 Cressey이고, 36Kr에서 게시 허가를 받았습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트