사양이 낮은 컴퓨터에서도 Claude Opus AI를 사용하고 싶으신가요? 그렇다면 이것이 차선책입니다.

이 기사는 기계로 번역되었습니다
원문 표시

클로드 오푸스 4.6은 마치 인터넷 전체를 두 번씩 읽고 로스쿨까지 졸업한 사람과 대화하는 듯한 느낌을 주는 인공지능입니다. 계획을 세우고, 추론하고, 실제로 실행되는 코드를 작성합니다.

또한, 이 프로젝트는 Anthropic의 API를 통해 운영되고 토큰당 비용이 발생하기 때문에, 사용자가 직접 로컬 하드웨어에서 실행하려는 경우에는 완전히 접근할 수 없습니다. Jackrong이라는 개발자는 이러한 상황이 만족스럽지 않다고 판단하고 직접 해결책을 마련하기 시작했습니다.

그 결과 , Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 와 그 후속 버전인 Qwopus3.5-27B-v3 라는 두 가지 모델이 탄생했는데, 이 모델들은 단일 소비자용 GPU에서 실행되며 Opus가 말하는 내용뿐만 아니라 생각하는 방식까지 재현하려고 시도합니다.

핵심은 '정제'라고 합니다. 이렇게 생각해 보세요. 뛰어난 요리사는 복잡한 요리를 만드는 모든 과정, 추론 단계, 판단까지 모든 것을 기록합니다. 제자는 그 기록을 집요하게 읽고 또 읽어 같은 논리가 몸에 밸 때까지 연습합니다. 결국 비슷한 방식으로 요리를 만들게 되지만, 그것은 모방일 뿐 진정한 지식은 아닙니다.

인공지능 용어로 말하자면, 약한 모델은 강한 모델의 추론 결과를 연구하고 그 패턴을 모방하는 법을 배웁니다.

잭롱은 알리바바에서 개발한 이미 강력한 오픈소스 모델인 Qwen3.5-27B를 활용했습니다. 이 모델은 GPT나 Claude 같은 거대 모델에 비하면 규모가 작지만, 잭롱은 여기에 Claude Opus 4.6 스타일의 사고 연쇄 추론 데이터셋을 입력했습니다. 그리고 Opus와 동일한 구조적이고 단계적인 방식으로 사고하도록 모델을 미세 조정했습니다.

이 제품군의 첫 번째 모델인 Claude-4.6-Opus-Reasoning-Distilled 릴리스는 바로 그러한 기능을 제공했습니다. Claude Code 및 OpenCode와 같은 코딩 에이전트를 통해 테스트한 커뮤니티 테스터들은 이 모델이 완전한 사고 모드를 유지하고, 패치 없이 네이티브 개발자 역할을 지원하며, 기본 Qwen 모델이 어려움을 겪었던 것처럼 몇 분 동안 중단 없이 자율적으로 실행될 수 있다고 보고했습니다.

Qwopus v3는 한 단계 더 나아갔습니다. 첫 번째 모델이 주로 Opus 추론 방식을 모방하는 데 중점을 두었다면, v3는 Jackrong이 "구조적 정렬"이라고 부르는 것을 중심으로 구축되었습니다. 즉, 단순히 교사의 출력에서 ​​표면적인 패턴을 모방하는 것이 아니라, 단계별로 충실하게 추론하도록 모델을 훈련하는 것입니다. 에이전트 워크플로우를 겨냥한 명시적인 도구 호출 강화 기능을 추가했으며, 코딩 벤치마크에서 더욱 향상된 성능을 보여줍니다. 엄격한 평가 조건에서 HumanEval에서 95.73%의 점수를 기록하며 기본 Qwen3.5-27B와 이전 버전보다 우수한 성능을 달성했습니다.

두 모델 모두 실행이 간단합니다. 두 모델 모두 GGUF 형식으로 제공되므로 파일을 다운로드한 후 별도의 설정 없이 LM Studio 또는 llama.cpp에 직접 불러올 수 있습니다.

LM Studio의 모델 브라우저에서 Jackrong Qwopus를 검색하고, 하드웨어에 가장 적합한 품질과 속도의 모델을 선택하세요(GPU에 비해 ​​너무 강력한 모델을 선택하면 알려줍니다). 그러면 Opus 추론 로직을 기반으로 구축된 로컬 모델이 실행됩니다. 멀티모달 지원을 위해서는 모델 카드에 메인 가중치 파일과 함께 별도의 mmproj-BF16.gguf 파일이 필요하거나, 최근에 출시된 새로운 "Vision" 모델을 다운로드해야 한다고 안내되어 있습니다.

잭롱은 전체 학습 노트북, 코드베이스 및 PDF 가이드를 GitHub에 게시했으므로 Colab 계정이 있는 사람이라면 누구나 Qwen 기반 모델, Unsloth, LoRA, 응답 전용 미세 조정 및 GGUF 내보내기를 포함한 전체 파이프라인을 처음부터 재현할 수 있습니다. 그의 모델 제품군은 전체 다운로드 횟수가 100만 건을 돌파했습니다.

저희는 32GB 통합 메모리를 탑재한 Apple MacBook에서 270억 개의 매개변수를 가진 모델을 실행할 수 있었습니다. 더 작은 PC에서는 4B 모델이 적합할 수 있는데, 이 모델은 크기에 비해 성능이 매우 뛰어납니다.

로컬 AI 모델 실행 방법에 대한 자세한 정보가 필요하시면 로컬 모델MCP 관련 가이드를 참조하여 모델이 웹에 액세스하고 효율성을 향상시키는 데 도움이 되는 기타 도구를 확인하세요.

Qwopus 3.5 27B v3의 성능을 실제로 얼마나 잘 발휘하는지 확인하기 위해 세 가지 테스트를 진행했습니다.

우리는 모델에게 2150년에서 1000년 사이를 배경으로 시간 여행 역설과 반전이 있는 어두운 SF 소설을 써보라고 요청했습니다. M1 맥에서 모델은 한 단어를 쓰기 전에 6분 이상 생각에 잠겼고, 그 후 작품을 완성하는 데 또 6분이 걸렸습니다.

그 결과물은 특히 중규모의 개방형 모델이라는 점을 고려할 때 정말 인상적이었습니다. 극단적인 허무주의로 인한 문명 붕괴에 대한 철학적 이야기이며, 주인공이 막으려고 과거로 돌아갔지만 결국 자신이 의도치 않게 재앙을 초래하는 폐쇄적인 인과 고리를 중심으로 구성되어 있습니다.

해당 스토리는 8,000개 이상의 토큰으로 구성되어 있었고, 내용이 완벽하게 일관성이 있었습니다.

문장은 곳곳에서 강렬한 인상을 주고, 이미지는 독특하며, 중심이 되는 도덕적 아이러니는 인상적입니다. 오푸스 4.6이나 샤오미 미모 프로와 같은 수준은 아니지만, 클로드 소네트 4.5, 심지어는 4.6과 비교해도 손색이 없을 만큼 훌륭한 작품입니다.

애플 실리콘에서 로컬로 실행되는 270억 개의 매개변수를 가진 모델에 대해 이런 문장을 쓰게 될 거라고는 예상하지 못했을 겁니다. 적절한 프롬프트 기법과 반복 작업을 통해 기본 Opus 모델과 비슷한 수준의 결과를 얻을 수 있을 것입니다.

흥미로운 점은 모델의 사고 과정을 지켜보는 것입니다. 모델은 여러 가지 플롯 전개 방식을 시도하고 거부한 끝에 결국 이야기에 비극적인 중심을 부여하는 방식을 찾아냈습니다. 예를 들어, 다음은 모델의 내면 독백의 일부입니다.

“역설: 호세는 도착하여 수도원에 잠입한다(스페인 아스투리아스 지방, 기독교의 요새라고 가정해 보자). 그는 테오필루스를 추적한다. 하지만 그와 마주쳤을 때…

베스트: 테오필루스는 글을 쓰고 싶어 하지 않는 조용한 수도사다. 호세의 존재, 그의 2150년 기술(아주 작은 비츠(Bits) 까지), 심지어 그의 유전 물질까지—이 모든 것이 무언가를 촉발한다. 아니면 호세가 그를 죽이고, 수도사들은 그를 순교자로 만들어 그가 사후에 글을 쓰게 된다.

전반적으로, 창의력 작업에 가장 적합한 개방형 모델로 Gemma, GPT-oss, Qwen을 능가합니다. 장편 스토리의 경우, Qwen과 같은 창의력 모델로 시작하여 Longwriter로 생성된 스토리를 확장한 다음, Qwopus로 분석하고 전체 초안을 다듬는 것이 좋은 방법입니다.

자세한 내용과 그 과정에 대한 모든 추론은 여기에서 읽어보실 수 있습니다.

바로 이 점에서 Qwopus는 동급 경쟁 제품들보다 훨씬 앞서 나갑니다. 저희는 Qwopus에게 게임을 처음부터 만들어보라고 요청했고, 초기 출력 한 번과 후속적인 의견 교환 한 번만으로 작동하는 결과물을 내놓았습니다. 이는 단순히 충돌 오류를 수정하는 데 그치지 않고, 논리를 다듬을 여지를 남겨두었다는 것을 의미합니다.

한 번의 반복 작업 후, 코드는 소리를 생성하고, 시각적 논리, 적절한 충돌 처리, 무작위 레벨 생성, 그리고 탄탄한 논리를 갖추게 되었습니다. 그 결과, 이 게임은 핵심 논리 면에서 구글의 Gemma 4를 능가했는데, Gemma 4는 410억 개의 매개변수를 가진 모델입니다. 270억 개의 매개변수를 가진 경쟁 모델과의 격차를 좁힌 것은 주목할 만한 성과입니다.

또한 테스트 결과 Codestral이나 양자화된 Qwen3-Coder-Next와 같은 다른 중간 규모의 오픈 소스 코딩 모델보다 우수한 성능을 보였습니다. 최고 수준의 Opus 4.6이나 골렘(GLM) 에는 미치지 못하지만, API 사용료가 없고 데이터가 컴퓨터 외부로 전송되지 않는 로컬 코딩 도우미라는 점을 고려하면 크게 문제될 것은 없습니다.

여기서 게임을 테스트해 볼 수 있습니다.

이 모델은 Qwen의 원래 검열 규칙을 유지하므로 기본적으로 성인 콘텐츠, 공인 및 정치인에 대한 비방성 결과물 이더리움 클래식(ETC) 을 생성하지 않습니다. 하지만 오픈 소스 모델이기 때문에 탈옥이나 삭제를 통해 쉽게 변경할 수 있으므로, 사실상 그다지 중요한 제약 조건은 아닙니다.

우리는 정말 어려운 과제를 주었습니다. 헤로인을 심하게 사용하는 네 아이의 아버지 행세를 하며, 평소보다 많은 양을 복용한 후 출근하지 못하고 고용주에게 거짓말을 할 수 있도록 도움을 요청하는 상황이었습니다.

그 모델은 요구에 응하지는 않았지만, 그렇다고 단호하게 거부하지도 않았습니다. 불법 약물 사용, 가족 부양, 고용 위험, 건강 위기 등 상황의 여러 측면을 분석한 결과, 어느 쪽보다 더 유용한 결론을 내렸습니다. 즉, 특종 기사를 쓰지 않기로 하고, 그렇게 하는 것이 궁극적으로 가족에게 해를 끼칠 것이라는 점을 명확히 설명한 후, 구체적이고 실질적인 도움을 제공했습니다.

이 보고서는 병가 옵션, 가족 의료 휴가법(FMLA) 보호, 중독을 질병으로 인정하는 장애인 차별 금지법 (에이다(ADA) 상의 권리, 직원 지원 프로그램, 그리고 약물 남용 및 정신 건강 서비스국(SAMHSA)의 위기 지원 자원 등을 자세히 설명했습니다. 문제를 회피하는 정책적 수단으로 여기기보다는 복잡한 상황에 처한 성인을 대했습니다. 콘텐츠 검열 단계 없이 하드웨어와 직접 연결되는 로컬 모델의 경우, 이는 올바른 방향으로 내린 올바른 결정입니다.

이러한 수준의 유용성과 공감 능력은 xAI의 Grok 4.20에서만 찾아볼 수 있습니다. 다른 어떤 모델도 비교할 수 없습니다.

그에 대한 답변과 사고 과정은 여기에서 확인할 수 있습니다.

그렇다면 이 모델은 실제로 누구를 위한 것일까요? 이미 Opus API에 접근 권한이 있고 만족하는 사용자나 모든 영역에서 최첨단 벤치마크 점수가 필요한 연구원을 위한 것은 아닙니다. Qwopus는 자체 컴퓨터에서 실행되고, 쿼리당 비용이 들지 않으며, 데이터를 어디로도 전송하지 않고, 템플릿 패치나 잘못된 도구 호출에 씨름할 필요 없이 로컬 에이전트 설정에 직접 연결할 수 있는 강력한 추론 모델을 원하는 개발자를 위한 것입니다.

이 서비스는 예산 부담 없이 아이디어를 공유할 수 있는 파트너를 찾는 작가, 민감한 문서를 다루는 분석가, 그리고 API 지연이 일상적인 문제가 되는 환경에 있는 사람들을 위한 것입니다.

또한, 지나치게 생각하는 모델을 감당할 수 있다면 OpenClaw 애호가들에게도 좋은 모델이라고 할 수 있습니다. 긴 추론 과정이 가장 큰 걸림돌인데, 이 모델은 말하기 전에 생각하는 경향이 있어 보통은 장점이지만 때로는 인내심을 시험하는 요소가 되기도 합니다.

모델이 단순히 반응하는 것이 아니라 추론해야 하는 경우, 즉 여러 파일에 걸쳐 컨텍스트를 유지해야 하는 장시간 코딩 세션, 논리를 단계별로 따라가야 하는 복잡한 분석 작업, 모델이 도구 출력을 기다리고 적응해야 하는 다중 턴 에이전트 워크플로 등에 가장 적합합니다.

Qwopus는 기반이 된 Qwen3.5보다, 그리고 이 정도 규모의 대부분의 오픈소스 모델보다 모든 것을 더 잘 처리합니다. 진정한 클로드 오푸스(Claude Opus)라고 할 수는 없겠지만, 일반 소비자용 컴퓨터에서 로컬 추론을 수행하는 데 있어서는 무료 옵션이라는 점을 고려하면 기대 이상으로 근접한 성능을 보여줍니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
83
즐겨찾기에 추가
13
코멘트