[서론] 최근 WWDC에서 애플의 시리는 "AI 기반 재생"이라는 키워드로 주목받으며 "엣지 사이드 모델"의 성장세를 강조했습니다. 앞서 안드레이 카르파티는 모델에서 지식을 제거하고 "인지 핵심"만 남기는 방식을 제안했습니다. 한 중국 기업은 40억 개의 파라미터를 사용하여 이 방식을 구현해 수천억 개의 파라미터를 가진 대규모 모델과 유사한 성능을 스웜 인텔리전스 작업에 달성했다고 주장합니다. 과연 엣지 사이드 인지 모델은 어떤 변화를 가져올 수 있을까요?
어젯밤, 시리는 1조 2천억 개의 매개변수를 가진 구글의 제미니를 사용하여 새롭게 태어났습니다.
반면 아마존은 큰 논란을 불러일으켰던 사내 AI 순위표를 폐쇄했습니다. 직원들이 AI 도구를 대량 사용하면서 해시레이트 급증했고, 경영진은 이를 좌시할 수 없었던 것입니다.
토큰 비용은 인공지능의 대규모 도입에 있어 가장 큰 걸림돌이 되었습니다.
이전 인터뷰에서 안드레이 카르파티는 다음과 같은 방향을 제시했습니다. 모델에 담긴 방대한 양의 지식을 제거하고 생각하고 계획하며 자신이 무엇을 모르는지 알 수 있는 "인지적 핵심"만 남겨두는 것입니다. 10억 수준의 매개변수면 충분할 것이라고 했습니다.
https://www.youtube.com/watch?v=lXUZvyajciY
이 방향이 타당성이 입증되고 있습니다.
40억 개의 파라미터를 가진 모델이 군집 지능 작업에서 GPT-5.4와 같이 수천억 개의 파라미터를 가진 대규모 모델과 동등한 결과를 달성했으며, 엣지 컴퓨팅 환경에도 배포할 수 있습니다.
이 제품은 한때 36억이라는 수치로 일본 허깅페이스 랭킹 1위를 차지하며 650억의 라마를 제쳤던 창립팀에서 나왔습니다.
이번에는 업계 최초로 엣지 측 인지 모델을 개발했습니다.
카르파티의 예언과 해시레이트 요금 청구서
해시레이트 비용에 대한 압박은 기술적인 문제에서 재정적인 문제로 바뀌었고, 아마존의 사례는 그 대표적인 예입니다.
아마존 직원들은 대규모 모델의 추론 기능을 활용하기 위해 내부 AI 도구를 빈번하게 사용했고, 이로 인해 전반적인 해시레이트 사용량이 급증했습니다. 경영진은 사용량을 줄이기 위해 순위표 표시 기능을 긴급히 중단해야 했습니다.
https://www.ft.com/content/b1a62a7f-6df5-4c90-94ce-64ce9c9961b6?syn-25a6b1a6=1
업계는 최초의 '토큰 후퇴' 현상을 겪고 있으며, 일부 기업은 하루에 수억 위안에 달하는 해시레이트 소비하고 있습니다.
대규모 상업 모델은 구조적 한계에 부딪히고 있습니다. 기능이 강력해지고 추론 과정이 깊어질수록 단일 호출 비용이 높아지기 때문입니다.
GPU 비용 대비 수익률은 모든 AI 기업에게 중요한 지표이며, 모델 매개변수가 끊임없이 증가하는 추세는 이 지표를 더욱 악화시킬 뿐입니다.
카르파티의 접근 방식은 다른 길을 제시합니다. 그는 모델에서 "기억/지식"을 제거하고 그가 "인지적 핵심"이라고 부르는 것을 유지할 것을 제안합니다.
방대한 양의 사실과 지식을 박탈당했지만, 사고 알고리즘, 지능적인 마법, 문제 해결 전략은 그대로 유지한 존재.
그는 매개변수가 10억 개에 달하는 규모에서도 효율적인 인간과 유사한 사고가 가능하다는 결론을 내렸다.
인간처럼 생각할 수 있습니다... 사실에 관한 질문을 하면 조사를 해야 할 수도 있습니다. 자신이 모르는 것이 있다는 것을 알고 찾아볼 것입니다.
이 발언은 기술 업계에서 광범위한 논쟁을 불러일으켰습니다.
방향에 대한 합의는 형성되고 있지만, 진정한 변수는 "핵심 이해"를 개념에서 실행 가능한 제품으로 옮길 수 있는 팀입니다.
4B는 수천억 달러 규모의 기업들과 어깨를 나란히 하게 되었습니다. 뉴청 알파는 무엇을 했을까요?
Nextie는 Karpathy의 "인지 코어"를 개념 단계에서 제품으로 구현한 회사입니다.
이 회사는 강화 학습을 사용하여 오픈 소스 추론 모델을 훈련시키는데, 이는 지식과 인지를 분리하여 모델에서 암기된 지식 저장소를 제거하고 일반화 및 추상적 사고 능력을 향상시키는 것을 목표로 합니다.
그 결과로 탄생한 모델인 NewChengAlpha 는 4바이트의 파라미터를 가지고 있습니다. 이 모델은 학습 및 배포를 완료했으며, 업계 최초로 "인지 모델"로 정의되었습니다.
구체적인 훈련 방법 측면에서 보면, 사실 흔치 않은 출발점입니다.
'내일의 새로운 여정' 팀은 1800년부터 2020년까지 220년에 걸친 인류의 학술 논문을 수집하여 군집 지능의 진화를 추적하고 기술적 방향을 제시하는 참고 자료를 제공하고자 했습니다.
본 연구에서는 강화 학습을 오픈 소스 추론 모델에 적용하여 일반화 및 추상화 능력을 향상시키는 데 중점을 두었습니다.
생생한 예를 들자면, 훈련된 모델은 바둑 기사들의 의사 결정 패턴을 일상생활 시나리오에 적용할 수 있습니다. 카르파티의 "사고 보존 알고리즘"은 바로 이 부분에서 구체적인 기술적 구현을 보여줍니다.
성능 측면에서 NewCheng Alpha는 군집 지능 작업(토론, 반성, 도전, 투표 등)에서 GPT-5.4와 같은 대형 모델과 동등한 출력 품질을 달성했으며, 해시레이트 과 추론 속도 면에서 상당한 이점을 보였습니다.
더욱 주목할 만한 점은 이 모델이 열어주는 장면의 공간인데, 이는 세 단계로 점진적으로 의미를 확장하는 구조를 가지고 있다.
첫 번째 단계는 다중 에이전트 의사 결정의 품질을 향상시키는 데 중점을 둡니다.
Harness 의사결정 프레임 에서 인지 모델의 결과물이 추론 모델의 결과물보다 우수한 성능을 보입니다.
기본 모델을 "추론"에서 "인지"로 업그레이드함으로써 다중 에이전트 협업 시스템의 의사 결정 과정 전반의 질이 크게 향상됩니다.
두 번째 계층은 해시레이트 비용을 상당히 절감합니다.
수천억 개의 매개변수를 가진 모델과 비교했을 때, 클라우드 기반 배포는 해시레이트 비용을 크게 절감합니다.
새로운 Alpha는 엣지 배포도 지원합니다. MacBook과 스마트 기기에서 직접 실행할 수 있으므로 해시레이트 비용을 전기 비용으로 전환할 수 있습니다.
이는 특히 체화된 지능 분야에 중요한 의미를 지닙니다. 수천억 개의 매개변수를 가진 대규모 모델을 사용하여 가정용 로봇을 구동하는 것은 로봇이 "생각"할 때마다 대량 토큰을 소모하며, 전체 비용은 가사 노동을 위해 사람을 고용하는 것보다 더 비쌀 수 있습니다.
4B 엣지 배포는 이러한 상황을 근본적으로 바꿔놓습니다.
세 번째 단계는 능동적인 장면 잠금 해제입니다.
현재 대다수의 AI 제품은 사용자가 명령을 내리면 모델이 응답하는 반응형 모드로 작동합니다.
선제적 모드는 지능형 에이전트가 명령을 기다리지 않고 자율적으로 결정을 내리고 작업을 실행하는 것을 의미하며, 그 상업적 규모는 반응적 모드보다 훨씬 크지만, 해시레이트 비용 때문에 항상 상용화에 걸림돌이 되어 왔습니다.
새로운 알파 버전은 제어 가능한 비용으로 24시간 연중무휴 중단 없는 운영을 지원하여, 높은 비용 때문에 이전에는 구현이 어려웠던 능동형 지능형 에이전트를 가능하게 합니다.
팀의 비장의 카드와 트랙 포지셔닝
Tomorrow's New Journey는 마이크로소프트 샤오아이스(Xiaoice) 창립팀이 설립했습니다.
팀의 모토는 "작은 매개변수로 큰 매개변수를 이기는 것"입니다. 이전에 훈련된 오픈 소스 모델인 린나(일본어로는 샤오아이스)는 36억 개의 매개변수로 일본 허깅페이스 순위에서 1위를 차지하며 650억 개의 매개변수를 가진 라마를 제쳤습니다.
새로운 알파는 4B 기술을 사용하여 수천억 명의 사용자를 보유한 대규모 모델과 동일한 수준의 성능을 달성하며, 동일한 기술적 유전자를 계승합니다.
투모로우 뉴 저니의 핵심 투자 분야는 스웜 멀티에이전트 기술 활용입니다.
이 분야는 주요 투자자들의 인정을 받고 있습니다. 2026년 3월, OpenAI는 스타트업 Isara에 투자하여 기업 가치를 6억 5천만 달러로 끌어올렸습니다. Isara는 다중 에이전트 협업 및 군집 지능 연구에 집중하고 있습니다.
https://www.wsj.com/tech/ai/openai-backs-new-ai-startup-seeking-bot-army-breakthroughs-a0b1fedc
이 분야의 지능형 심층 평가(IDI)에서 Tomorrow's New Journey의 전반적인 성능은 어떤 대형 모델보다도 훨씬 뛰어납니다.
자본은 트랙의 가치를 입증했고, 평가 데이터는 트랙 내에서 투모로우즈 뉴 저니의 위치를 결정했습니다.
두 가지 신호를 종합해 보면 동일한 결론에 도달합니다. 즉, 다중 에이전트 군집이 AI 애플리케이션의 차세대 고부가가치 방향이며, 인지 모델이 이를 뒷받침하는 핵심 인프라라는 것입니다.
인지 모델은 매개변수뿐만 아니라 데이터 기록 자체도 변화시킵니다.
GPU 비용 대비 수익률은 모든 AI 기업의 머리 위에 드리워진 다모클레스의 검과 같습니다.
인지 모델이 제시하는 해결책은 경제 모델의 재구성을 의미합니다. 수천억 달러 규모에서만 달성 가능한 효과를 40억 달러로 실현한다는 것은 동일한 산출 품질에 대해 완전히 다른 비용 구조가 적용된다는 것을 의미합니다.
투모로우 뉴 저니는 인터뷰에서 팀이 일반화 능력이 더욱 강화된 80억 규모의 인지 모델을 훈련시키고 있다고 밝혔습니다.
4B가 이미 군집 지능 작업에서 GPT-5.4와 경쟁할 수 있다면, 8B의 능력은 얼마나 더 뛰어날지 기대해 볼 만하다.
업계 전체에 더욱 심오한 질문이 남습니다. 24시간 내내 엣지에서 인지 모델을 운영하는 비용이 무시할 수 있을 정도로 낮아지면, 오늘날 "사용자가 명령을 내리면 모델이 응답하는" 반응형 모델에 기반하여 설계된 모든 AI 제품은 제품 형태를 재검토해야 할 수도 있습니다.
능동형 지능형 에이전트의 상업적 잠재력은 현재의 수동형 지능형 에이전트보다 훨씬 뛰어납니다.
이 글은 위챗 공식 계정 "신지원(New Zhiyuan)" 의 ASI Revelation님이 작성한 글이며, 36Kr의 허가를 받아 게재되었습니다.




