국내 AI 동향을 살펴보셨다면, 클로드 오푸스 4.6의 추론 방식을 알리바바의 퀀(Qwen)에 접목시켜 누구나 자신의 하드웨어에서 오푸스와 유사한 프로그램을 무료로 실행할 수 있도록 만든 오픈소스 모델인 퀀푸스 (Qwopus)를 아실 겁니다. 퀀은 놀라울 정도로 잘 작동했습니다. 하지만 분명한 단점은 퀀이 중국산 모델이라는 점이고, 모든 사람이 중국산 모델을 편안하게 받아들이는 것은 아니라는 것입니다.
그 프로젝트를 이끌었던 익명성 개발자 잭롱은 사용자들의 피드백을 듣고 Gemopus라는 새로운 도구를 개발했습니다. Gemopus 는 구글의 오픈소스 Gemma 4를 기반으로 구축된 클로드 오푸스 스타일의 정밀 조정 도구 모음입니다. 미국적인 DNA를 계승하면서도 동일한 아이디어를 구현했습니다. 최첨단 수준의 추론 능력을 사용자가 이미 소유하고 있는 하드웨어에서 로컬로 실행할 수 있도록 했습니다.
이 제품군은 두 가지 버전으로 제공됩니다. Gemopus-4-26B-A4B 는 더 강력한 옵션으로, 총 260억 개의 파라미터를 가진 전문가 혼합 모델이지만 추론 시에는 약 40억 개만 활성화됩니다. 이는 제한된 하드웨어 환경에서도 뛰어난 성능을 발휘한다는 것을 의미합니다.
파라미터는 AI의 학습, 추론 및 정보 저장 능력을 결정하는 요소입니다. 총 260억 개의 파라미터를 보유하면 모델은 방대한 지식을 축적할 수 있습니다. 하지만 특정 질문에 관련된 40억 개의 파라미터만 활성화함으로써, 방대한 AI 모델이 제공하는 고품질 결과를 얻으면서도 일반적인 하드웨어에서도 원활하게 작동할 수 있을 만큼 가볍습니다.
다른 하나는 Gemopus-4-E4B 로, 최신 iPhone이나 얇고 가벼운 MacBook에서 GPU 없이도 원활하게 작동하도록 설계된 40억 개의 파라미터를 가진 엣지 모델입니다.
여기서 기본 모델 선택은 중요합니다. 4월 2일에 출시된 구글의 Gemma 4는 제미니(Gemini) 3와 동일한 연구 및 기술을 기반으로 직접 제작되었으며, 구글은 출시 당시 이를 명확히 밝혔습니다. 즉, Gemopus는 Qwen 기반의 미세 조정으로는 따라올 수 없는 장점을 가지고 있습니다. 구글의 최첨단 폐쇄형 모델의 DNA를 기반으로 Anthropic의 사고방식이 더해진 것입니다. 말하자면 두 가지 장점을 모두 갖춘 셈입니다.
Gemopus가 현재 Hugging Face에 쏟아져 나오는 다른 Gemma 미세 조정 버전들과 다른 점은 그 이면에 담긴 철학입니다. Jackrong은 Claude의 사고 과정을 Gemma의 가중치에 억지로 적용하지 않기로 의도적으로 결정했는데, 이는 대부분의 경쟁 버전들이 사용하는 지름길입니다.
최근 연구에 근거한 그의 주장은 교사의 표면적인 추론 텍스트를 학생용 모범 답안지에 채워 넣는다고 해서 진정한 추론 능력이 전달되는 것은 아니라는 것입니다. 그것은 논리가 아닌 모방을 가르칩니다. 모범 답안지에는 "과도한 상상력이나 클로드식 사고 과정을 맹목적으로 모방할 필요는 없습니다."라고 적혀 있습니다. 대신 그는 답변의 질, 구조적 명확성, 그리고 자연스러운 대화에 초점을 맞추어, 젬마의 딱딱한 위키피디아식 어조와 묻지도 않은 내용을 강의하듯 설명하는 경향을 개선했습니다.
AI 인프라 엔지니어인 카일 헤슬링은 독립적인 벤치마크 테스트를 진행하고 그 결과를 모델 카드에 직접 게시했습니다. 26B 변형 모델에 대한 그의 평가는 상당히 긍정적이었습니다. 그는 X에 "이 모델을 상당히 엄격하게 벤치마킹해 본 결과, 이미 뛰어난 모델을 더욱 정교하게 다듬은 훌륭한 모델이라는 것을 알게 되어 기쁩니다."라고 썼습니다. "긴 컨텍스트에서 단일 요청 처리 능력이 탁월하며, MOE(전문가 혼합) 아키텍처 덕분에 놀라울 정도로 빠른 속도로 실행됩니다."
더 작은 E4B 변형은 명령 추종, 코딩, 수학, 다단계 추론, 변환, 안전성, 캐싱 등 14가지 핵심 역량 테스트를 모두 통과했으며, 3만 및 6만 토큰 규모의 12가지 장기 컨텍스트 테스트도 모두 통과했습니다. 바늘 찾기 테스트에서는 YaRN의 8배 RoPE 확장성을 적용하여 100만 토큰 규모의 확장 테스트를 포함한 13개 프로브 중 13개를 모두 통과했습니다.
26B는 기본적으로 131K 컨텍스트까지 확장되며, YaRN을 사용하면 최대 524K까지 확장됩니다. Hessling은 YaRN에 대한 스트레스 테스트도 진행했는데, "524K까지 확장된 컨텍스트에서도 간단한 '바늘 찾기' 테스트를 완벽하게 처리했습니다!"라고 말했습니다.
엣지 하드웨어에서 E4B는 진정으로 빠른 속도를 자랑합니다. Jackrong은 iPhone 17 Pro Max에서 초당 45~60개의 토큰, MLX를 통해 MacBook Air M3/M4에서는 초당 90~120개의 토큰을 처리한다고 보고했습니다. 26비트 MoE 아키텍처 덕분에 통합 메모리 시스템이나 10GB 미만의 VRAM을 가진 GPU에서도 원활하게 오프로드됩니다. Hessling은 VRAM이 부족한 환경에서 E4B를 일상적으로 사용할 만한 제품으로 추천했습니다.
두 모델 모두 GGUF 형식으로 제공되므로 별도의 설정 없이 LM Studio 또는 llama.cpp에 바로 사용할 수 있습니다. 전체 학습 코드와 단계별 미세 조정 가이드는 Jackrong의 GitHub 에서 확인할 수 있습니다. Qwopus에 사용했던 것과 동일한 파이프라인, Unsloth 및 LoRA 설정이 적용되었으며 Colab에서도 재현 가능합니다.
Gemopus는 아직 개선해야 할 부분이 있습니다. llama.cpp와 LM Studio에서 Gemma 4 시리즈 전체에 걸쳐 툴 호출 기능이 제대로 작동하지 않습니다. 호출 실패, 형식 불일치, 무한 루프 등의 문제가 발생합니다. 따라서 외부 툴을 사용하는 에이전트에 의존하는 워크플로우라면 Gemopus는 아직 적합한 모델이 아닙니다. Jackrong 본인도 Gemopus를 "완전히 상용화된 솔루션이라기보다는 엔지니어링 탐색용 참고 자료"라고 평가하며, 실제 워크로드에 더욱 안정적인 솔루션이 필요한 사용자에게는 자신이 개발한 Qwopus 3.5 시리즈를 추천합니다.
잭롱은 클로드 스타일의 공격적인 사고 과정 추출을 의도적으로 피했기 때문에, 그의 작품이 쿼퍼스처럼 깊이 있는 오푸스적 사고방식을 보여줄 거라고 기대하지 마세요. 이는 안정성을 위한 의도적인 선택이었지, 실수가 아닙니다.
특히 추론 성능 향상을 위해 Gemma를 더욱 세밀하게 조정하고 싶은 분들을 위해, pseudonmyous 개발자인 DJLougen이 진행하는 Ornstein 이라는 별도의 커뮤니티 프로젝트를 주목할 만합니다. 이 프로젝트는 동일한 26B Gemma 4 기반을 사용하며, 특정 타사 모델의 논리나 스타일에 의존하지 않고 추론 체인을 개선하는 데 중점을 두고 있습니다.
솔직히 한 가지 주의할 점은 Gemma의 학습 과정이 Qwen보다 미세 조정에 있어 더 복잡하다는 것입니다. 손실 함수의 변동폭이 더 크고 하이퍼파라미터에 대한 민감도가 더 높습니다. Jackrong 본인도 그렇게 말했습니다. 프로덕션 워크플로우에 사용할 더 검증된 로컬 모델이 필요하다면, 그의 Qwopus 3.5 시리즈가 여전히 더 탄탄하게 검증되었습니다. 하지만 Opus 스타일의 완성도를 갖춘 미국산 모델을 원한다면 현재로서는 Gemopus가 최선의 선택입니다. 더 밀도가 높은 31B Gemopus 변형 모델도 개발 중이며, Hessling은 이를 "분명 대박 모델이 될 것"이라고 예고했습니다.
자신의 하드웨어에서 로컬 모델을 실행해 보고 싶다면 로컬 AI 시작하기 가이드를 참조하세요.



