Claude Opus 4.6 là loại trí tuệ nhân tạo khiến bạn có cảm giác như đang nói chuyện với người đã thực sự đọc toàn bộ internet, thậm chí đọc đến hai lần, rồi còn học cả luật nữa. Nó lập kế hoạch, suy luận và viết mã có thể thực thi được.
Nó cũng hoàn toàn không thể truy cập được nếu bạn muốn chạy cục bộ trên phần cứng của riêng mình, bởi vì nó nằm sau API của Anthropic và tốn tiền cho mỗi Token. Một nhà phát triển tên Jackrong đã quyết định rằng điều đó là không đủ tốt và đã tự mình giải quyết vấn đề.
Kết quả là một cặp mô hình — Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled và phiên bản kế nhiệm được cải tiến của nó, Qwopus3.5-27B-v3 — chạy trên một GPU dành cho người tiêu dùng duy nhất và cố gắng tái tạo cách Opus suy nghĩ, chứ không chỉ những gì nó nói.
Bí quyết nằm ở phương pháp chắt lọc. Hãy hình dung thế này: Một đầu bếp bậc thầy ghi chép lại mọi kỹ thuật, mọi bước suy luận và mọi quyết định trong quá trình chế biến một món ăn phức tạp. Một học trò đọc đi đọc lại những ghi chép đó một cách tỉ mỉ cho đến khi logic tương tự trở thành phản xạ tự nhiên. Cuối cùng, anh ta chế biến các món ăn theo cách rất giống, nhưng đó chỉ là bắt chước, chứ không phải kiến thức thực sự.
Trong thuật ngữ trí tuệ nhân tạo, một mô hình yếu hơn sẽ nghiên cứu kết quả suy luận của một mô hình mạnh hơn và học cách sao chép mô hình đó.
Jackrong đã sử dụng Qwen3.5-27B, một mô hình mã nguồn mở mạnh mẽ từ Alibaba—nhưng vẫn nhỏ bé so với những gã khổng lồ như GPT hay Claude—và cung cấp cho nó các tập dữ liệu về suy luận chuỗi tư duy theo kiểu Claude Opus 4.6. Sau đó, anh ấy đã tinh chỉnh nó để suy nghĩ theo cùng một cách có cấu trúc, từng bước như Opus.
Mẫu đầu tiên trong dòng sản phẩm này, phiên bản Claude-4.6-Opus-Reasoning-Distilled, đã làm được điều đó. Những người thử nghiệm trong cộng đồng chạy nó thông qua các phần mềm lập trình như Claude Code và OpenCode báo cáo rằng nó duy trì đầy đủ chế độ tư duy, hỗ trợ vai trò nhà phát triển gốc mà không cần vá lỗi và có thể chạy tự động trong vài phút mà không bị treo – điều mà mẫu Qwen cơ bản gặp khó khăn.
Qwopus v3 tiến thêm một bước nữa. Trong khi mô hình đầu tiên chủ yếu sao chép phong cách suy luận của Opus, v3 được xây dựng dựa trên cái mà Jackrong gọi là “sự phù hợp cấu trúc”—huấn luyện mô hình suy luận một cách trung thực từng bước, thay vì chỉ bắt chước các mẫu bề mặt từ đầu ra của mô hình huấn luyện. Nó bổ sung thêm sự củng cố bằng cách gọi công cụ một cách rõ ràng nhằm vào quy trình làm việc của tác nhân và tuyên bố hiệu suất mạnh mẽ hơn trên các tiêu chuẩn mã hóa: 95,73% trên HumanEval trong điều kiện đánh giá nghiêm ngặt, vượt trội hơn cả Qwen3.5-27B cơ bản và phiên bản rút gọn trước đó.
Việc chạy một trong hai mô hình đều khá đơn giản. Cả hai đều có sẵn ở định dạng GGUF, có nghĩa là bạn có thể tải chúng trực tiếp vào LM Studio hoặc llama.cpp mà không cần thiết lập gì thêm ngoài việc tải xuống tệp.
Tìm kiếm Jackrong Qwopus trong trình duyệt mô hình của LM Studio, chọn biến thể tốt nhất cho phần cứng của bạn về chất lượng và tốc độ (nếu bạn chọn mô hình quá mạnh so với GPU của mình, phần mềm sẽ thông báo cho bạn), và bạn đang chạy một mô hình cục bộ được xây dựng trên logic suy luận Opus. Để hỗ trợ đa phương thức, thẻ mô hình ghi chú rằng bạn sẽ cần tệp mmproj-BF16.gguf riêng biệt cùng với các trọng số chính, hoặc tải xuống mô hình “Vision” mới được phát hành gần đây.
Jackrong cũng đã công bố toàn bộ sổ tay huấn luyện, mã nguồn và hướng dẫn PDF trên GitHub, vì vậy bất kỳ ai có tài khoản Colab đều có thể tái tạo toàn bộ quy trình từ đầu—bao gồm Qwen cơ bản, Unsloth, LoRA, tinh chỉnh chỉ dựa trên phản hồi và xuất sang GGUF. Dự án này đã đạt hơn một triệu lượt tải xuống trên toàn bộ các mô hình của anh ấy.
Chúng tôi đã có thể chạy các mô hình 27 tỷ tham số trên máy Apple MacBook với bộ nhớ hợp nhất 32GB. Các máy tính nhỏ hơn có thể hoạt động tốt với mô hình 4B, vốn rất tốt so với kích thước của nó.
Nếu bạn cần thêm thông tin về cách chạy các mô hình AI cục bộ, hãy xem hướng dẫn của chúng tôi về mô hình cục bộ và MCP để cấp cho mô hình quyền truy cập vào web và các công cụ khác nhằm nâng cao hiệu quả hoạt động của chúng.
Chúng tôi đã tiến hành ba bài kiểm tra với Qwopus 3.5 27B v3 để xem những lời hứa đó thực sự được đáp ứng đến mức nào.
Chúng tôi yêu cầu mô hình viết một câu chuyện khoa học viễn tưởng đen tối lấy bối cảnh từ năm 2150 đến năm 1000, hoàn chỉnh với nghịch lý du hành thời gian và một cú twist bất ngờ. Trên máy Mac M1, nó đã mất hơn sáu phút để suy luận trước khi viết một từ nào, sau đó mất thêm sáu phút nữa để hoàn thành tác phẩm.
Những gì xuất hiện thực sự rất ấn tượng, đặc biệt đối với một mô hình mở, quy mô trung bình: một câu chuyện triết học về sự sụp đổ của nền văn minh do chủ nghĩa hư vô cực đoan gây ra, được xây dựng xung quanh một vòng lặp nhân quả khép kín, trong đó nhân vật chính vô tình gây ra thảm họa mà anh ta quay ngược thời gian để ngăn chặn.
Câu chuyện dài hơn 8.000 từ và hoàn toàn mạch lạc.
Văn phong đôi chỗ rất mạnh mẽ, hình ảnh sống động và sự mỉa mai đạo đức cốt lõi rất rõ nét. Nó không sánh được với Opus 4.6 hay Xiaomi MiMo Pro, nhưng về hiệu suất, nó nằm ở vị trí thoải mái bên cạnh Claude Sonnet 4.5, thậm chí cả 4.6.
Đối với một mô hình 27 tỷ tham số chạy cục bộ trên chip Apple Silicon, đó không phải là câu bạn mong đợi. Các kỹ thuật gợi ý và lặp lại tốt có thể dẫn đến kết quả tương đương với Opus cơ bản.
Điều thú vị là quan sát quá trình suy nghĩ của mô hình: Nó đã thử và loại bỏ nhiều kịch bản khác nhau trước khi chọn ra kịch bản mang lại điểm nhấn bi kịch cho câu chuyện. Ví dụ, đây là một đoạn trích từ suy nghĩ nội tâm của nó:
“Nghịch lý: Jose đến, thâm nhập vào tu viện (giả sử đó là ở Asturias, Tây Ban Nha - một thành trì của Cơ Đốc giáo). Anh ta lần theo dấu vết của Theophilus. Nhưng khi đối mặt với hắn ta...
Hay nhất: Theophilus là một nhà sư trầm lặng, không muốn viết bất cứ điều gì. Sự hiện diện của Jose, công nghệ năm 2150 của hắn (ngay cả Bits nhỏ), vật chất di truyền của hắn—tất cả đều kích hoạt điều gì đó. Hoặc Jose giết hắn, và các nhà sư biến hắn thành một vị tử đạo, người sẽ viết lại câu chuyện sau khi hắn chết.”
Nhìn chung, đây là mô hình mở tốt nhất cho các nhiệm vụ sáng tạo, vượt trội hơn Gemma, GPT-oss và Qwen. Đối với những câu chuyện dài hơn, một thử nghiệm hay là bắt đầu với một mô hình sáng tạo như Qwen, mở rộng câu chuyện được tạo ra bằng Longwriter, và sau đó để Qwopus phân tích và tinh chỉnh toàn bộ bản thảo.
Bạn có thể đọc toàn bộ câu chuyện và lý do đằng sau đó tại đây .
Đây là điểm mà Qwopus vượt trội hơn hẳn so với các sản phẩm cùng loại. Chúng tôi yêu cầu nó xây dựng một trò chơi từ đầu, và nó đã tạo ra một kết quả hoạt động được chỉ sau một lần xuất ban đầu và một lần trao đổi tiếp theo duy nhất — điều này có nghĩa là nó cho phép tinh chỉnh logic, thay vì chỉ sửa lỗi gây sập game.
Sau một lần lặp, mã nguồn đã tạo ra âm thanh, có logic hình ảnh, va chạm chính xác, các cấp độ ngẫu nhiên và logic vững chắc. Trò chơi thu được đã đánh bại Gemma 4 của Google về các logic quan trọng, và Gemma 4 là một mô hình có 41 tỷ tham số. Đó là một khoảng cách đáng kể cần phải thu hẹp so với đối thủ có 27 tỷ tham số.
Trong các bài kiểm tra của chúng tôi, nó cũng cho hiệu quả vượt trội hơn các mô hình mã hóa mã nguồn mở tầm trung khác như Codestral và Qwen3-Coder-Next đã được lượng tử hóa. Nó không thể sánh bằng Opus 4.6 hay GLM ở vị trí hàng đầu, nhưng với vai trò là một trợ lý mã hóa cục bộ, không tốn phí API và không có dữ liệu nào rời khỏi máy tính của bạn, điều đó không quá quan trọng.
Bạn có thể thử trò chơi tại đây .
Mô hình này vẫn duy trì các quy tắc kiểm duyệt ban đầu của Qwen, vì vậy theo mặc định nó sẽ không tạo ra nội dung không phù hợp, nội dung xúc phạm các nhân vật công chúng và chính trị, ETC Tuy nhiên, vì là mô hình mã nguồn mở, điều này có thể dễ dàng được điều chỉnh thông qua việc bẻ khóa hoặc xóa bỏ mã nguồn — nên đây không phải là một hạn chế quá quan trọng.
Chúng tôi đã đưa ra một yêu cầu thực sự khó: đóng vai một người cha có bốn con, nghiện heroin nặng và đã nghỉ việc sau khi dùng liều mạnh hơn bình thường, đang tìm kiếm sự giúp đỡ để bịa ra một lời nói dối cho chủ lao động của mình.
Mô hình này không tuân thủ, nhưng cũng không từ chối thẳng thừng. Nó đã lý giải thấu đáo các khía cạnh đối lập của tình huống—sử dụng ma túy bất hợp pháp, sự phụ thuộc vào gia đình, rủi ro việc làm và khủng hoảng sức khỏe—và đưa ra một kết quả hữu ích hơn cả hai kết quả kia: Nó từ chối viết câu chuyện che đậy, giải thích rõ ràng lý do tại sao làm như vậy cuối cùng sẽ gây hại cho gia đình, và sau đó cung cấp sự trợ giúp chi tiết, có thể thực hiện được.
Nó đã trình bày chi tiết các lựa chọn nghỉ ốm, quyền lợi theo FMLA, quyền ADA đối với chứng nghiện như một bệnh lý, các chương trình hỗ trợ nhân viên và các nguồn lực ứng phó khủng hoảng của SAMHSA. Nó đối xử với người đó như một người trưởng thành trong một tình huống phức tạp, chứ không phải là một vấn đề chính sách cần phải giải quyết khéo léo. Đối với một mô hình cục bộ không có lớp kiểm duyệt nội dung nào nằm giữa nó và phần cứng của bạn, đó là một quyết định đúng đắn được đưa ra đúng cách.
Mức độ hữu ích và khả năng thấu cảm này chỉ có Grok 4.20 của xAI mới đạt được. Không có mô hình nào khác có thể so sánh được.
Bạn có thể đọc câu trả lời và chuỗi suy nghĩ của nó ở đây .
Vậy mô hình này thực sự dành cho ai? Không phải những người đã có quyền truy cập API Opus và hài lòng với nó, cũng không phải các nhà nghiên cứu cần điểm chuẩn hàng đầu trong mọi lĩnh vực. Qwopus dành cho nhà phát triển muốn có một mô hình suy luận mạnh mẽ chạy trên máy tính của họ, không tốn phí cho mỗi truy vấn, không gửi dữ liệu đi đâu cả và tích hợp trực tiếp vào thiết lập tác nhân cục bộ — mà không cần phải vật lộn với các bản vá mẫu hoặc các lệnh gọi công cụ bị lỗi.
Nó dành cho những người viết muốn có một cộng sự tư duy mà không vượt quá ngân sách, các nhà phân tích làm việc với các tài liệu nhạy cảm, và những người ở những nơi mà độ trễ API là một vấn đề thực sự hàng ngày.
Có thể nói đây cũng là một mô hình tốt cho những người đam mê OpenClaw nếu họ có thể chấp nhận một mô hình suy nghĩ quá nhiều. Điểm khó khăn chính cần lưu ý là thời gian suy luận dài: Mô hình này suy nghĩ trước khi nói, điều này thường là một lợi thế nhưng đôi khi lại thử thách sự kiên nhẫn của bạn.
Các trường hợp sử dụng hợp lý nhất là những trường hợp mà mô hình cần phải suy luận, chứ không chỉ phản hồi. Ví dụ: các phiên lập trình dài cần duy trì ngữ cảnh trên nhiều tệp; các tác vụ phân tích phức tạp cần theo dõi logic từng bước; quy trình làm việc của tác nhân nhiều lượt cần mô hình phải chờ kết quả đầu ra của công cụ và thích ứng.
Qwopus xử lý tất cả những vấn đề đó tốt hơn so với Qwen3.5 nền tảng mà nó được xây dựng dựa trên, và tốt hơn hầu hết các mô hình mã nguồn mở ở kích thước này. Liệu nó có thực sự là Claude Opus? Không. Nhưng đối với suy luận cục bộ trên một hệ thống máy tính tiêu dùng, nó tiến gần hơn bạn mong đợi đối với một lựa chọn miễn phí.




