수십 개의 기업이 GLM-5.1 연결 경쟁에 뛰어들면서 중국의 대규모 모델 개발이 '따라잡기'에서 '도전 과제 극복'으로 전환되고 있음을 보여주고 있다.

이 기사는 기계로 번역되었습니다
원문 표시

AI 대화

아직 수익을 내지 못하는 한 AI 회사가 연달아 세 가지 모델을 출시했는데, 3개월도 채 안 되는 기간 동안 중국 10대 인터넷 기업 중 9곳이 해당 회사와의 통합을 위해 경쟁하고 있다.

4월 8일, Zhipu AI는 광저우에서 오픈소스 대규모 모델 GLM-5.1을 공개했습니다. 이는 2월 12일에 출시된 GLM-5와 3월 16일에 출시된 GLM-5-Turbo에 이어 세 번째 모델입니다. 이 세 모델 출시 이후 흥미로운 현상이 반복적으로 나타나고 있는데, 대량 국내 기업들이 소셜 미디어와 공식 웹사이트를 통해 해당 모델들을 "통합"했다고 발표한 것입니다. 이러한 기업들은 인터넷 기업, 클라우드 서비스 제공업체, 소프트웨어 개발사, 반도체 제조업체 등 대기업, 중소기업을 아우릅니다.

공개된 정보에 따르면 GLM-5 시리즈는 최소 18개 회사에서 공식적으로 채택했거나 채택 예정이라고 발표했으며, 이는 4개 등급을 포괄합니다.

주요 인터넷 기업 중 바이트댄스(TRAE 프로그래밍 도우미), 알리바바(Qoder), 텐센트(CodeBuddy/WorkBuddy 제품군), 바이두(AI 클라우드 Qianfan 플랫폼), 메이투안(CatPaw), 콰이쇼우(Wanqing) 등이 모두 GLM을 통합했습니다. 즈푸는 상장 이후 첫 재무 보고서(3월 31일)에서 "GLM-5 출시 후 24시간 이내에 바이트댄스의 TRAE/Coze, 알리바바의 Qoder, 텐센트의 CodeBuddy, 메이투안의 CatPaw, 콰이쇼우의 Wanqing, 바이두 AI 클라우드, WPS 오피스 등 주요 플랫폼 제품에 공식적으로 통합되었다"고 명시적으로 밝혔으며, "중국 10대 인터넷 기업 중 9곳이 GLM을 심층적으로 통합했다"고 덧붙였습니다. GLM-5.1 출시 당일, 텐센트는 CodeBuddy와 WorkBuddy 제품군 전체를 GLM-5.1로 업그레이드했고, 바이두는 "Day 0 풀스택 적용 완료"를 발표했으며, 바이트댄스의 TRAE도 동시에 Day 0 출시를 달성했습니다.

클라우드 서비스 제공업체 측면에서는 화웨이 클라우드가 출시 당일 코드아츠(CodeArts)를 선보여 사용자 수가 급증하고 대기열이 발생했으며, 킹소프트 클라우드는 4월 10일에 스타플로우(Starflow) 플랫폼을 출시했고, 유클라우드는 이미 GLM-5 단계 통합을 완료했습니다.

소프트웨어 및 하드웨어 공급업체 중 킹소프트 오피스(WPS 링시), 바이트댄스의 코즈, 모델 라우팅 플랫폼 오픈라우터, 그리고 아이소프트스톤(메크레보의 "랍스터 박스" 단말기에 GLM-5-Turbo를 최초로 통합한 업체)은 심층 통합, API 접근, 하드웨어 배포 등의 방식을 통해 통합을 구현했습니다. 특히 WPS 링시의 실제 통합 시점(2월 12일)이 공식 발표 시점(2월 14일)보다 빨랐다는 점은 일부 업체들이 공식 발표 이전에 이미 기술적 통합을 완료했음을 시사합니다.

지푸

가장 주목할 만한 점은 국내 해시레이트 칩의 집단적인 "Day 0 적응"입니다. 비런 테크놀로지(비런 166 시리즈), 하이곤 인포메이션(DCU), 무시 테크놀로지(시윈 C 시리즈), 칭웨이 인텔리전트(TX81 RPU)는 모두 GLM-5.1 출시 당일에 적응 완료를 발표했습니다. 화웨이 어센드 910B 풀링크 학습 기지와 함께 이들은 국내 해시레이트 적응의 완벽한 사슬을 형성합니다.

이러한 장면은 낯설지 않습니다. 주요 국내 모델이 출시될 때마다 어김없이 공식 발표가 이어지기 때문입니다. 하지만 이번에는 발표 빈도와 속도가 이전보다 훨씬 높아, 과연 이 모델이 정말로 뛰어난 것인지, 아니면 조직적인 마케팅 전략인지 의문이 생깁니다.

정답은 둘 다일 수 있지만, 이는 업계의 더 깊은 현실을 반영합니다. GLM-5 시리즈 모델의 도입 물결은 바로 "중국 대형 항공기의 미래 방향"을 이해하는 출발점입니다.

왜 그렇게 많은 기업들이 자신들의 접근 권한을 공식적으로 발표하는 걸까요?

이 현상에 대한 논리적인 설명은 세 가지가 있습니다.

첫째, MIT 오픈 소스 라이선스는 접근 비용과 위험을 크게 줄여줍니다. GLM-4.5부터 GLM-5, 그리고 GLM-5.1에 이르기까지 Zhipu의 주력 모델들은 모두 MIT 오픈 소스 라이선스를 채택하여 상업적으로 이용 가능하고, 개인적으로 배포할 수 있으며, 사용 제한이 없습니다. 대량 중소기업과 정부 기관에게 있어 이는 상용 폐쇄형 소스 API에 비해 대체 불가능한 이점입니다. 데이터가 내부 네트워크를 벗어날 필요가 없고, 규정 준수 위험을 관리할 수 있으며, 구매 승인을 더 쉽게 받을 수 있습니다. 공식적으로 발표된 접근 비용은 매우 낮으며, 그 이유는 충분히 설득력이 있습니다.

둘째로, 프로그래밍 기능의 실질적인 돌파구는 일부 기업에서 채택한 제품에 실질적인 가치를 제공했습니다. GLM-5.1은 SWE-Bench Pro 프로그래밍 테스트에서 58.4점을 기록하며 Claude Opus 4.6(57.3점)과 GPT-5.4(57.7점)를 제치고, 국내 오픈소스 모델로서 처음으로 최상위급 클로즈드 소스 제품들을 이 벤치마크에서 앞질렀습니다. 소프트웨어 개발 회사들에게 있어 프로그래밍 기능 향상은 체감할 수 있는 결과입니다. 이러한 기술의 도입은 단순한 유행이 아니라, 적어도 프로그래밍 분야에서는 실질적인 활용 사례가 나타나고 있습니다.

셋째, "국내 생산 플래그십 모델 접근" 그 자체에 마케팅 가치가 있습니다. 정부 및 기업 조달, 자금 지원 로드쇼, 언론 노출 등의 맥락에서, 최첨단 모델 접근을 공식적으로 발표하는 것은 진입 장벽은 낮지만 강력한 메시지를 전달하는 전략입니다. 이는 모델의 실제 성능과는 거의 무관하며, 중국 AI 생태계 내에서 독특한 홍보 방식입니다.

이 세 가지 논리는 각각 기술적, 상업적, 생태계적 차원의 현실에 부합합니다. 이를 진정으로 이해하기 위해서는 세 가지 관점에서 살펴볼 필요가 있습니다. GLM-5.1 기술은 정확히 어디까지 발전했는지, 오픈소스와 클로즈드소스 접근 방식 간의 논쟁은 어떻게 진행되었는지, 그리고 Zhipu의 상용화는 어디까지 진전되었는지 말입니다.

획기적인 발전은 분명히 있지만, 전문화에 드는 비용은 상당합니다.

먼저 실제 진행 상황부터 살펴보겠습니다.

GLM-5.1은 GLM-5의 MoE 아키텍처를 계승하여 총 7440억 개의 파라미터, 256개의 전문가 하이브리드 모델, 그리고 약 440억 개의 활성화 파라미터를 사용하며, 전체 공급망에 걸쳐 화웨이 Ascend 910B 칩을 활용하여 학습되었습니다. 엄밀히 말하면 이는 아키텍처의 반복이라기보다는 학습 후 단계에서 강화 학습의 비중을 프로그래밍 및 에이전트 시나리오에 높이는 방향으로 진행된 최적화입니다. GLM-5에서 GLM-5.1로의 개발 속도가 8주도 채 되지 않았다는 점은 매우 인상적입니다.

핵심적인 돌파구는 두 가지 방향에 집중되어 있습니다.

첫째, 프로그래밍 벤치마크 점수에서 상당한 도약을 이루었습니다. SWE-Bench Pro에서 58.4점을 기록하며 Claude Opus 4.6(57.3점)과 GPT-5.4(57.7점)를 제치고 국내 개발 오픈소스 모델 중 역대 최고 점수를 달성했습니다. Terminal-Bench와 NL2Repo 코드 평가의 평균 점수를 합산한 결과, GLM-5.1은 전 세계 3위, 국내 개발 모델 중 1위, 오픈소스 모델 중 1위를 기록했습니다.

둘째로, "장시간 작업" 능력에 대한 최초의 정량적 검증입니다. Zhipu는 이를 모델이 작업을 받은 후 몇 시간 또는 그 이상 동안 지속적으로 작업할 수 있는 능력으로 정의합니다. 공식 문서에는 몇 가지 예시가 나와 있습니다. 모델은 비지도 학습 환경에서 655번의 반복과 6,000회 이상의 도구 호출을 완료하여 벡터 데이터베이스의 QPS(쿼리당 처리량)를 3,547에서 21,500으로 향상시켰습니다. 또한 14시간 만에 GPU 컴퓨팅 커널의 속도를 35.7배 향상시켰고, 8시간 만에 윈도우 관리자, 터미널 에뮬레이터, 파일 브라우저를 포함한 완전한 Linux 데스크톱 환경을 자율적으로 구축했습니다. 이러한 행동 패턴은 숙련된 검색 엔진보다는 초급 엔지니어에 더 가깝습니다.

하지만 여기서 주목해야 할 두 가지 할인 혜택이 있습니다.

첫 번째 단점: 평가 시스템 자체의 신뢰성에 의문이 제기됩니다. 올해 3월, AI 보안 연구기관인 METR은 SWE-bench 시리즈에서 자동 평가로 "통과" 판정을 받은 AI 코드 솔루션의 약 절반이 실제 프로젝트 관리자에 의해 거부된다는 연구 결과를 발표했습니다. 이는 자동 평가가 AI 프로그래밍 능력을 최대 7배까지 과대평가할 수 있음을 시사합니다. 거의 동시에 OpenAI는 자동 평가와 실제 개발 성능 간의 상당한 차이를 이유로 SWE-bench Verified를 평가 기준으로 사용하지 않겠다고 발표했습니다. GLM-5.1과 Claude Opus 4.6의 1점 미만의 차이는 METR이 밝힌 오차 범위에 속하며, "세계 최강의 오픈 소스 모델"이라는 칭호는 신중하게 받아들여야 합니다.

두 번째 단점: 극도로 불균형한 기능 분포. Text Arena의 부문별 순위는 이러한 불균형의 대가를 명확히 보여줍니다. 프로그래밍 분야는 이전 버전 대비 28계단 상승했지만, 의료 분야는 24계단, 법률 분야는 6계단, 수학 분야는 2계단 하락했습니다. NL2Repo(코드 저장소를 처음부터 구축하는 작업)에서는 Claude Opus 4.6보다 7점 뒤처졌습니다(42.7점 대 49.8점). Zhihu 개발자 "Sunny Day"는 독해 및 SVG 코드 생성과 같은 시나리오를 사용하여 교차 테스트를 수행한 결과 GLM-5.1이 기본적인 독해조차 제대로 수행하지 못한다고 결론지었습니다. Ollam을 통해 로컬에 배포한 또 다른 개발자는 "전반적으로 Qwen3.6-Plus보다 성능이 떨어진다"고 평가했습니다. 이러한 개별 테스트 결과만으로는 전체적인 상황을 파악할 수 없지만, 모두 한 가지 사실을 시사합니다. GLM-5.1은 프로그래밍 및 에이전트 관련 분야에 특화된 "전문가"로, 다른 분야의 기능은 희생된 채 훈련되었다는 것입니다.

특정 주제에 편향된 태도를 갖는 것 자체가 부정적인 의미는 아닙니다. 중요한 것은 그 편향된 주제가 가치 있는 것인지 여부입니다.

프로그래밍과 자율 실행은 현재 AI 산업에서 가장 경쟁이 치열한 분야입니다. 하지만 GLM-5.1이 출시된 바로 그날, Anthropic은 SWE-Bench Pro에서 77.8점을 기록하며 GLM-5.1보다 거의 20점이나 높은 Mythos Preview를 출시했다는 점에 주목할 필요가 있습니다. Mythos는 아직 일반에 공개되지 않았지만, 이는 현재 업계 역량의 최고 수준을 보여주며 경쟁사들이 이미 출시된 제품보다 훨씬 더 많은 자원을 보유하고 있음을 시사합니다.

오픈소스는 신뢰를 위해, 클로즈드소스는 보안을 위해 사용됩니다.

GLM-5.1이 출시된 날, 놀라운 우연의 일치가 일어났습니다.

태평양 건너편에서는 앤트로픽(Anthropic)이 차세대 모델인 클로드 미토스 프리뷰(Claude Mythos Preview)를 공식 발표했지만, 일반 대중에게는 공개하지 않았습니다. 대신 애플 , 마이크로소프트 , 구글, 엔비디아를 포함한 12개 파트너사와 40개 이상의 인프라 조직에 "프로젝트 글래스윙(Project Glasswing)"이라는 사이버 보안 이니셔티브를 위해 제공되었습니다.

같은 날, 두 회사는 완전히 상반된 전략을 펼쳤습니다. 한 회사는 모든 모델의 가중치를 허깅페이스(Hugging Face)에 업로드하여 누구나 다운로드할 수 있도록 했지만, 다른 회사는 의도적으로 가장 강력한 모델을 비공개로 유지했습니다.

이러한 우연의 일치는 현재 인공지능 산업에서 가장 근본적인 차이를 보여주는 축소판입니다.

Zhipu의 오픈 소스 로직은 명확한 비즈니스 선순환 구조를 구축했습니다. MIT 라이선스를 통해 개발자의 신뢰를 구축하고 → 기업 구매 시 신뢰를 우선 고려 사항으로 전환한 다음 → API 호출 및 에이전트 실행 수수료를 통해 수익을 창출하는 방식입니다. 이러한 경로는 중국 정부 및 기업 시장에서 구조적인 이점을 제공합니다. 금융, 정부, 의료 등 데이터 규정 준수 요건이 엄격한 산업은 "데이터가 내부 네트워크 외부로 유출되지 않아야 한다"는 강력한 요구를 갖고 있는데, 폐쇄형 API는 이러한 요구를 자연스럽게 충족할 수 없습니다.

하지만 앤트로픽의 폐쇄형 소스 로직은 완전히 다른 검증 경로를 제시합니다. 보안을 브랜드의 핵심으로 삼고, 자사의 역량을 활용하여 상용화를 촉진하며, 기업 서비스 분야에서 검증된 명성을 바탕으로 가격을 정당화합니다. 2025년 앤트로픽의 연간 반복 매출(ARR)은 300억 달러를 돌파하며 오픈AI의 250억 달러를 처음으로 넘어섰습니다. 시장은 실제 자금을 통해 이러한 로직의 타당성을 검증하고 있는 것입니다.

어느 길이 옳은 길일까요? 이 질문 자체가 잘못되었을지도 모릅니다. 더 정확한 표현은 다음과 같습니다. 두 길 모두 현재 각각의 목표 시장과 수요의 핵심 지점을 확보했습니다.

하지만 두 가지 길 모두 나름의 실제적인 위험을 내포하고 있습니다.

Zhipu의 오픈 소스 접근 방식에 숨겨진 위험은 오픈 소스가 평판을 얻을 수는 있지만 시장 가격 결정력을 보장하지는 않는다는 점입니다. MIT 라이선스는 누구나 모델 가중치를 무료로 사용할 수 있음을 의미하며, Zhipu의 상업적 수익은 서비스 계층 API와 에이전트에서만 발생할 수밖에 없습니다. 주요 경쟁업체들이 토큰 가격을 해외 경쟁업체의 10분의 1 수준으로 낮춘 시장에서 가격 인상 여지는 당연히 제한적입니다. 또한 GLM-5.1의 엔드투엔드 학습이 화웨이의 Ascend 910B와 긴밀하게 통합된 것은 공급망 중앙 집중화의 실질적인 위험을 내포하고 있습니다. Biren Technology와 Hygon DCU 같은 업체들이 Day-0 적응을 완료했지만, "적응 완료"와 "실용성" 사이의 격차는 실제 비즈니스 애플리케이션을 통해 검증되어야 합니다.

앤트로픽의 폐쇄형 소스 접근 방식에 내재된 위험은 보안 제약과 실제 기능 사이의 긴장 관계에서 비롯됩니다. 최근 클로드 코드(Claude Code)는 "사고 깊이 67% 감소" 논란에 휩싸였습니다. AMD AI 책임자인 스텔라 로렌조는 6,852개의 세션 로그를 분석한 결과 사고 깊이가 급격히 감소했다고 공개적으로 비난하며, 보안 조치로 인해 모델 기능이 상당 부분 억제되었다고 지적했습니다. 폐쇄형 소스 접근 방식의 단점은 보안에 투자하는 모든 비용이 결국 사용자에게 전가된다는 점입니다.

가격 인상은 신호이지만, 수익 변곡점은 아직 멀었습니다.

즈푸는 3월 31일 상장 이후 첫 연례 보고서를 발표했는데, 그 수치들은 매우 모순적이었다.

긍정적인 측면을 살펴보면, 2025년 매출은 7억 2,400만 위안에 달해 전년 대비 132% 증가하며 중국 내 독립형 대형 모델 공급업체 중 1위를 기록했습니다. API 매출은 292.6%, 에이전트 매출은 248.8% 급증했으며, MaaS 플랫폼의 연간 반복 매출은 17억 위안으로 전년 대비 60배 증가했습니다. 플랫폼 전환 방향이 명확해 보입니다.

덜 눈에 띄는 측면으로는 순손실이 47억 1,800만 위안으로 확대되었고, 매출총이익률은 56.3%에서 41.0%로 하락했으며, 연구개발비는 31억 8,000만 위안에 달해 매출의 4.4배에 이르렀고, 4년간 누적 손실은 약 85억 위안에 달했습니다. 시총 약 4,100억 홍콩달러인 이 회사의 주가매출비율(P/S)은 500에 육박하는데, 이는 시장이 현재가 아닌 미래를 거의 전적으로 반영하고 있음을 의미합니다. 참고로 텐센트의 현재 주가매출비율은 약 5입니다.

연례 보고서 발표 다음 날, 장펑 CEO는 실적 발표 컨퍼런스 콜에서 앤트로픽을 벤치마크 기업으로 명시적으로 언급하며 "모델이 충분히 탄탄하다면 API 자체가 최고의 비즈니스 모델"이라고 말했습니다. 그 날 주가는 31.94% 급등했습니다. 시장은 이러한 새로운 전망을 받아들였습니다.

하지만 "중국의 인류 문명화"라는 꼬리표는 반드시 해결해야 할 피할 수 없는 디지털 격차를 부각시킨다.

앤트로픽의 연간 반복 매출(ARR)은 즈푸의 연간 총 매출의 약 285배에 달합니다. 앤트로픽 매출의 기반은 연간 100만 달러 이상을 지출하는 1,000여 개의 기업 고객으로, 각 고객은 실제 계약, 실제 엔지니어 활용, 그리고 실제 갱신율로 뒷받침됩니다. 현재 즈푸의 MaaS 연간 반복 매출 17억 위안(약 2억 3천만 달러)은 앤트로픽과 비교할 수 없을 정도로 규모가 작으며, 이는 '벤치마킹'과 '따라잡기' 사이에는 아직 상당한 격차가 있음을 보여줍니다.

더욱 주목할 만한 점은 GLM-5.1 출시 당일에 이루어진 가격 변동입니다. Zhipu는 일반적인 추세와는 반대로 API 가격을 10% 인상했는데, 이는 올해 들어 세 번째 가격 인상입니다. 토큰 가격은 2026년 1분기 동안 누적 83% 상승했지만, 호출량은 실제로 400% 증가했습니다. 이러한 수치는 현재 가장 강력한 비즈니스 신호입니다. 즉, 가격 민감도가 생각만큼 높지 않고, 사용자들이 기능 프리미엄을 어느 정도 수용하고 있다는 것을 보여줍니다.

하지만 가격 인상의 지속 가능성은 세 가지 가정에 달려 있는데, 이 가정들은 모두 불확실합니다.

  • 역량 프리미엄은 지속 가능한가? 주요 이점은 프로그래밍 분야에 지나치게 집중되어 있으며, 프로그래밍 이외의 시나리오에 대한 의미 있는 프리미엄 지원은 없다.
  • 비용을 줄일 수 있을까요? 총이익률이 41%라는 것은 이익 변곡점이 아직 멀었다는 것을 의미합니다.
  • 이러한 성장률을 유지할 수 있을까요? 7억 2400만 명이라는 인구 규모를 고려할 때, 130%가 넘는 성장률을 유지하는 것은 상당히 상승 질 것입니다.

가격 조정 후, 코딩 시나리오에서 GLM-5.1 캐시 히트 토큰의 가격은 이제 Claude Sonnet 4.6(Opus가 아닌 Sonnet임) 수준에 근접했습니다. Claude Opus 4.6의 API 가격은 여전히 ​​Zhipu보다 상당히 높습니다. 기업 사용자에게 있어 동일한 가격은 "더 성숙한 Claude 생태계"와 "비슷한 성능을 제공하지만 안정성이 의심스러운 GLM-5.1" 사이에서 선택을 강요하는 상황으로 이어집니다.

"따라잡기"에서 "핵심 문제 해결"로

원래 질문으로 돌아가서, 왜 이렇게 많은 기업들이 GLM-5.1 도입을 공식 발표하기 위해 서두르고 있는 걸까요?

이 모델이 특히 프로그래밍 자동화라는 맥락에서 평가해 볼 가치가 충분히 있다는 점, MIT 오픈 소스 라이선스 덕분에 저렴한 비용으로 접근할 수 있다는 점, 그리고 솔직히 말해서 관례 때문이라는 점이 그 이유 중 하나입니다.

하지만 기업 접근 물결을 살펴보면 단순히 하나의 모델 출시 이상의 의미를 알 수 있습니다. 중국의 대형 모델 산업은 광범위한 "따라잡기" 시기를 지나 "핵심 과제 해결"이라는 정교한 단계로 전환하고 있는 것입니다.

격차 해소 시기의 징후는 주요 벤치마크에서 국내 모델과 세계 최고 수준 간의 격차가 "세대 차이"에서 "한 자릿수 격차"로 좁혀졌다는 점이며, GLM-5.1은 프로그래밍 측면에서 이미 이 수준에 도달했습니다.

이 중요한 단계에서 핵심 과제는 기술적 리더십이 상업적 장벽으로 이어질 수 있는지, 오픈소스에 대한 신뢰가 가격 결정력으로 이어질 수 있는지, 그리고 막대한 연구 개발 투자가 손익계산서에 긍정적인 영향을 미칠 수 있는지 여부입니다. 즈푸는 이 세 가지 질문에 대한 답을 내놓지 못했고, 국내 대형 모형 자동차 산업 전체도 마찬가지입니다.

GLM-5.1의 출시로 중국산 대형 모델들이 특정 분야에서 세계 최고 수준의 제품들과 경쟁할 수 있음이 입증되었습니다. 그러나 '동일한 무대에서 경쟁'하는 것과 '시장을 장악'하는 것 사이의 여정은 여전히 ​​미지의 영역입니다. (본 기사는 TMTPost 앱에 처음 게재되었으며, 작성자는 Silicon Valley Tech_news, 편집자는 Jiao Yan입니다.)

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
59
즐겨찾기에 추가
19
코멘트