저자: Cool Geek

대규모 모델은 지난 5,000년 동안 중국에서 무슨 일이 일어났는지 알아낼 수 있지만, 현재 시간이 몇 시인지는 답할 수 없습니다. 양자역학이 무엇인지 명확하게 설명할 수는 있지만, 그림과 글을 모두 포함한 전문가 수준의 PPT를 만드는 것조차 어렵습니다.
왜 대형 모델은 전능해 보이지만 실용적인 용도가 항상 부족한 걸까요?
그 이유는 간단합니다. 똑똑하고 지식이 풍부하다는 것은 일할 수 있다는 것을 의미하지 않기 때문입니다.
똑똑해지려면 많은 양의 지식을 훈련하고 학습할 수 있는 대규모 모델이 필요하며, 이를 통해 발달된 뇌가 질문에 잘 대답하도록 훈련될 수 있습니다.
똑똑함과 유능함이라는 두 가지 요소를 모두 만족시키려면, 이 똑똑한 뇌에 유연한 사지를 장착하여 "깊은 사고+깊은 전달"을 이루는 것이 필요합니다.
따라서 스마트한 사고방식에서 '스마트하고 유능한' 것을 실현하는 방향으로 빅 모델의 진화를 어떻게 촉진할 것인가가 이번 빅 모델 열풍이 일시적인 유행일 뿐인지 아니면 역사를 바꿀 것인지를 결정하는 열쇠가 되었습니다.
바이두가 증거를 제시했습니다.
4월 25일, Create 2025 바이두 AI 개발자 컨퍼런스에서 바이두 창업자 로빈 리는 바이두 웬쿠와 바이두 넷디스크가 공동으로 출시한 세계 최초의 콘텐츠 관련 운영체제인 창저우 OS를 소개했습니다.
Baidu Wenku와 Cloud Disk가 과거에 축적한 기반 기술, 역량, 데이터를 완벽하게 통합함으로써 물과 같은 다양한 시나리오에 통합하여 가장 합리적인 형태와 사용자에게 가장 편리한 대화형 인터페이스를 통해 낮은 임계값과 종단 간 고품질 전송을 실현할 수 있습니다.
Cangzhou OS, Baidu Wenku, Baidu Netdisk의 AI에 대한 비전과 기대는 언제 어디서나 모든 단말 장치에서 진정한 원스톱, 엔드투엔드 제공을 달성하여 AI를 "전능하고 유비쿼터스"하게 만드는 것입니다.
01
AI가 운영체제 수준으로 진화할 수 있도록 하는 창저우 OS
기술 업계에서는 모든 기술이 연구실에서 가정에 이르기까지 긴 가트너 곡선 과정을 거쳐야 한다는 의견이 일치합니다.

이 곡선에서 첫 번째 단계의 성장은 주로 기술 진보로 인한 시장의 열광적인 기대에 달려 있습니다. 그러나 기술 구현 효과가 완벽하지 않기 때문에 이 단계의 성장은 기술 구현에 필요한 조건이 점차 성숙되고 거의 임계치가 없는, 전능하고 유비쿼터스한 인프라로 구체화될 때까지 빠르게 감소합니다. 그러면 두 번째 단계의 생태계 폭발이 이어질 것입니다.
소프트웨어 산업의 두 번째 단계가 시작되었다는 신호 중 하나는 보통 컴퓨터 산업의 Windows, 휴대폰 산업의 iOS와 같은 성숙한 운영 체제의 등장입니다.
그렇다면 성숙한 운영체제는 어떻게 정의할까요? 약 15년 전, 글로벌 기술 산업계에서는 이런 논쟁이 있었습니다. 애플이나 스마트폰, 그리고 과거의 스마트폰들이 모두 대형 화면을 갖추고, 전화 통화, 사진 촬영, 음악 감상, 문자 메시지 보내기 등의 기능을 갖추고 있는데, 왜 서로 다른 종일까요?
핵심적인 이유 중 하나는 iOS가 MAC OS로부터 커널 수준의 안정성과 멀티태스킹 기능을 물려받아 개발자가 Apple의 기본 기능을 자유롭게 통합하여 혁신적인 애플리케이션을 만들 수 있는 개방형 생태계를 제공한다는 것입니다. 이로 인해 휴대전화의 정의 방식이 모토로라와 노키아라는 한두 거대 기업만의 문제에서 전체 생태계를 아우르는 무한한 가능성을 지닌 거대한 산업으로 바뀌었습니다. 이로써 10년 이상 모바일 인터넷이 가능해졌습니다.
기술은 계속 발전하겠지만, 비즈니스 스토리는 항상 비슷한 속도로 반복될 것입니다. 모바일 OS에서 증명된 기본 논리는 빅모델 시대의 OS 구축에도 여전히 적용 가능합니다.
요약하자면, 완벽한 기본 역량, 유연한 중앙 스케줄링, 번영하는 애플리케이션 서비스 생태계라는 세 가지 특징이 있습니다. 이는 Cangzhou OS의 3계층 아키텍처, 즉 기본 인프라, 중앙 시스템, 애플리케이션 서비스와 정확히 일치합니다. 유일한 차이점은 애플리케이션과 허브 및 베이스 간의 브리지가 이전 API에서 더 표준화되고 임계값이 낮은 MCP로 변경되었다는 것입니다.

MCP 서버 부분의 기본 인프라의 핵심 구성 요소는 Chatfile plus입니다. Chatfile plus는 주로 지식 기반 프레임 사용하여 다양한 모드, 형태, 형식의 콘텐츠를 요소 수준에서 분해하고 분석하며, 다중 모드 이해, 다중 모드 검색, 파일 변환 및 분석과 같은 일련의 도구 프레임 요소를 사용합니다.
동시에 바이두 웬쿠와 클라우드 디스크는 공공 도메인 지식 베이스, 개인 도메인 지식 베이스, 메모리 베이스라는 "3대 라이브러리"를 구축했습니다. 구체적으로는 바이두 웬쿠가 수년에 걸쳐 축적한 공개 도메인 지식 데이터(공개 도메인 지식 기반), 클라우드 디스크의 사용자가 승인한 지식 데이터(비공개 도메인 지식 기반), 그리고 웬쿠나 클라우드 디스크에 있는 사용자의 과거 지시, 사용 습관 및 과거 생성 기록(메모리 기반)을 말합니다.
이러한 데이터는 종종 다양한 모드, 형태, 형식으로 표현됩니다. 그 중 공개 도메인 지식 기반은 일반적인 지식을 제공하는 반면, 비공개 도메인 지식 기반과 메모리 기반은 사용자의 개인화된 데이터를 저장합니다.
지식 기반 프레임 에서 Cangzhou OS는 "3대 라이브러리"의 다중 모드 콘텐츠를 벡터화하고 레이블을 지정합니다. 즉, 그림, 텍스트, 비디오, 오디오, 문서 등의 비정형 데이터를 컴퓨터가 다양한 전문 모델을 통해 이해할 수 있는 다차원 벡터 데이터, 즉 토큰 세트로 변환합니다.
중앙 시스템에 있어서, 바이두 웬쿠와 클라우드 디스크는 자체적으로 "3대 도구"를 개발했습니다. 즉, 퓨전 에디터(문서, PPT 및 기타 콘텐츠 편집용), 리더(문서, PPT 및 기타 콘텐츠 읽기용), 플레이어(오디오 및 비디오 재생용)입니다.
동시에, 창저우 OS는 "스케줄링 센터"를 사용하여 대화형 구성 요소, 의도 모델 및 전송 인프라를 통해 사용자 메모리와 초상화 데이터를 결합하고, 모델을 통해 사용자 의도를 이해하고 스케줄링 에이전트를 효율적으로 할당할 수도 있습니다.
최상위 레벨에는 일련의 AI 에이전트가 있습니다. "창저우 OS"는 문서 라이브러리, 네트워크 디스크의 PPT, AI 그림책, AI 마인드맵, AI 포스터, AI 노트, AI 스캐닝, AI 리스닝 등 수백 개의 AI 에이전트를 통합합니다. 생성된 모달리티는 그림, 텍스트, 비디오, 오디오 등 다양한 유형을 포괄하며, 학습, 사무, 생활, 엔터테인먼트 시나리오를 포괄적으로 포괄합니다. 또한 퓨전 편집기의 편집, 수정 및 미세 조정 기능을 활용하여 검색 및 콘텐츠 생성 품질을 더욱 높이고 실제 개인화된 작업 요구 사항에 더욱 부합합니다.
02
Cangzhou OS에서
더욱 "똑똑하고 유능한" 에이전트를 만들어 보세요
바이두 웬쿠와 바이두 넷디스크는 최상위 수준의 애플리케이션 서비스에 집중하여 수억 명의 사용자로부터 검증된 수백 개의 유용한 AI 에이전트를 출시했으며, 대량 의 제3자 전문 에이전트를 연결하여 애플리케이션 생태계를 확장했습니다.
"원스톱 AI 콘텐츠 수집 및 제작 플랫폼"인 바이두 웬쿠는 유료 사용자 4,000만 명 이상과 월간 활성 AI 사용자 9,700만 명을 보유하고 있습니다. 바이두 넷디스크도 "원스톱 콘텐츠 서비스 플랫폼"으로 업그레이드되어 10억 명 이상의 사용자에게 서비스를 제공하고, 총 사용 공간은 1,000억 GB가 넘으며, 월간 활성 AI 사용자는 8,000만 명이 넘습니다. 바이두 웬쿠와 바이두 넷디스크는 빅모델 시대의 진정한 "슈퍼 생산성"이 되었습니다.
이번 컨퍼런스에서 바이두 웬쿠와 바이두 넷디스크는 "창저우 OS"를 기반으로 개발된 새로운 기능인 "GenFlow 슈퍼 파트너"와 "AI 노트"도 선보였습니다.
GenFlow는 Baidu Wenku APP에서 출시한 다중 에이전트 협업 기능입니다. "창저우 OS"의 지원으로 콘텐츠 생성을 병렬로 진행할 수 있으며, 가장 포괄적이고 전문적인 네트워크 정보, 사용자 본인의 습관 및 선호도에 따라 다양한 업무를 제공할 수 있습니다.
예를 들어, 어떤 사용자가 결혼식 계획을 세우고 싶어하지만, 처음에 입력하는 내용은 간단한 문장일 뿐입니다. "5월 1일에 하이난에서 야외 결혼식을 올리고 싶은데, 계획서와 초대장을 작성해 주세요."
요구사항은 간단해 보이며, 역사적 틀에 따라 빈칸을 채우면 해결될 수 있습니다. 하지만 사용자 만족을 달성하기 위해서는 사용자의 미적 선호도, 예산 기대치, 프로세스 선호도를 알아야 합니다. 또한, 5월1일 연휴 기간 동안 하이난의 날씨, 교통 흐름, 행사장 분포에 대해서도 알아야 합니다. 그 후, PPT 도구를 통해 이러한 그림과 텍스트를 지식과 결합하여 완전한 계획을 생성해야 합니다. 마지막으로, 계획과 사용자의 미적 선호도를 바탕으로 완벽한 결혼식 초대장 포스터를 제작합니다.
위의 내용을 완성하기 위해서는 사용자의 과거 채팅 기록, 과거 브라우징 기록, 의도 인식, 전체 네트워크 검색, PPT 도구를 별도로 분리하여 전송하고, 사용자 의도를 분석하고, 사용자 선호도를 파악하며, 도구를 자유롭게 결합하는 것이 필요합니다. 마지막으로, 사용자에게 프로세스, 날짜, 장소, 예산, 테마, 실행 세부 사항, 스타일, 인력 배치 등을 포함한 매우 구체적이고 완전한 계획이 제공됩니다.
동시에 사용자가 요구하는 기획안과 포스터는 서로 일치해야 하며, 이를 위해서는 두 가지의 모든 정보가 일관성을 유지해야 하며 동일한 운영체제를 사용하여 병렬로 출력되어야 합니다.
물론, AI가 모든 사람을 동시에 만족시키는 결과를 만들어낼 수는 없기 때문에 결혼식 계획과 포스터 모두 편집 가능해야 하며, 이를 지원하는 기능은 "창저우 OS"의 통합 편집 기능으로 지원됩니다.
심층적 사고에서 심층적 전달까지, GenFlow Super Partner가 시장에서 거의 유일한 "멀티 에이전트 협업" 제품이라는 사실을 찾는 것은 어렵지 않습니다. 이 기술은 높은 비용, 긴 생성 시간, 낮은 효율성, 안정적인 전달 불가능, 여러 라운드의 대화를 통한 최적화 불가능 등 다중 에이전트 협업 제품의 일반적인 문제를 해결할 뿐만 아니라, 성숙한 제품에 직접 내장되어 사용자가 승인한 개인 데이터와 결합되어 AI가 "전능하고 편재하다"는 목표를 달성할 수 있는 실질적인 기회를 제공합니다.
바이두 넷디스크의 AI 노트는 수많은 사무직 근로자와 대학원 및 공무원 시험을 준비하는 사람들에게 강력한 도구입니다.
AI Notes는 업계 최초의 멀티모달 AI Notes입니다. 사용자가 Baidu Netdisk에 저장한 다양한 대학원 입학 시험 학습 영상과 노트 페이지를 동일한 인터페이스에 내장하여 원활한 연동을 구현할 수 있습니다. 비디오 콘텐츠와 노트는 비디오 시청부터 AI 노트 작성, AI 마인드 맵 요약, 최종적으로 학습 결과를 테스트하기 위한 AI 문제 설정까지 서로 밀접하게 연관되어 있어 사용자의 전체 학습 주기를 완벽하게 포괄합니다.
예를 들어, 얼마 전 영어 대학원 입학 시험의 난이도가 이슈 되었고, 사용자들은 영어 대학원 입학 시험에 대한 집중적인 복습을 원했습니다. AI Notes는 먼저 사용자의 네트워크 디스크에 저장된 관련 정보를 검색하고, 동시에 인터넷에 공개된 정보에 나와 있는 테스트 포인트를 질의하여 정리합니다. 하지만 전체 과정은 거기서 끝나지 않습니다. AI Notes는 또한 과거 시험 문제를 결합하여 생성된 시험 포인트에 대한 최종 검증을 실시합니다. 오직 검증된 테스트 포인트만이 이를 기반으로 마인드 맵과 테스트 문제 예측을 계속 생성할 수 있으며, 이를 통해 사용자의 학습 진도를 가속화하는 데 도움이 됩니다.
이 과정에서 사용되는 도구의 양은 결혼식 계획에서 사용하는 도구와 다름없습니다. 예를 들어, 시험 포인트와 실제 문제를 찾으려면 전체 네트워크를 검색할 수 있는 능력이 필요하고, 실제 문제는 종종 PDF나 그림 형식으로 제공되며, 유명 교사의 해석은 비디오 형식으로 제공되므로 다중 모드 콘텐츠를 구문 분석할 수 있는 능력이 필요합니다. 최종 마인드맵 생성과 시험문제 예측에는 대규모 모델의 추론 능력, 다중 모드 콘텐츠를 생성하는 능력, 다양한 콘텐츠를 매핑하고 연관시키는 능력이 필요하며, 동시에 콘텐츠 생성의 절대적 정확성도 보장해야 합니다.
이러한 노력의 이면에는 "창저우 OS"의 역량 강화가 있습니다.
물론, 바이두는 개발자들이 MCP를 온전히 활용할 수 있도록 지원하므로 Cangzhou OS는 바이두의 내부 생태계에만 도움이 되는 것이 아닙니다. 운영체제의 개발과 성장에 있어서 가장 중요한 부분은 외부 세계에 개방하고 개발자의 혁신 역량을 자극하는 것입니다.
따라서 생태계와 애플리케이션의 가치를 극대화하기 위해 "창저우 OS"를 기반으로 하는 바이두 웬쿠와 바이두 넷디스크는 최초로 MCP를 최대한 활용하여 제품과 생태계를 연결하고, MCP 서버-클라이언트-호스트의 3계층 시스템을 구축하여 웬쿠와 넷디스크의 기능을 MCP 서버 형태로 개방하고, MCP 클라이언트 SDK를 통해 더 많은 기업 사용자, 개발자, 지능형 애플리케이션 등의 MCP 호스트에 접근할 수 있도록 했습니다.

그 중 가장 대표적인 사례는 삼성 휴대폰이다. 삼성 휴대폰은 Baidu Wenku Cloud Disk의 파일 업로드, 다운로드, 검색, 공유 및 콘텐츠 이해를 위해 여러 MCP 서버에 연결됩니다.
사용자는 모바일 폰의 음성 지원 인터페이스에서 말하는 것만으로 네트워크 디스크에 파일을 업로드하여 백업하거나, 클라우드에 공유하거나, 문서 요약이나 콘텐츠 Q&A 등의 기능을 직접 구현할 수 있습니다.
반면, 이러한 서버는 삼성 휴대폰 시스템의 클라우드 저장 기능을 강화하고, 대용량의 여러 파일을 휴대폰에서 일괄적으로 백업하고 공유하기 어려운 문제를 해결할 수도 있습니다.
예를 들어, 휴대폰 앨범에서 사용자는 음성 비서를 불러와서 "어제 오센에서 찍은 사진을 바이두 넷디스크에 백업해 줘, 그리고 샤오밍의 사진을 그에게 보내 줘"라고 말할 수 있습니다. 관련 사진은 사용자의 승인된 클라우드 디스크 계정에 업로드되고 공유 링크가 생성됩니다. 그러면 휴대전화 지원자가 주소록에 전화를 걸어 이 링크를 문자 메시지로 상대방 휴대전화로 전송합니다. 링크를 클릭하기만 하면 사용자는 바로 Baidu Cloud Disk에 접속해 사진을 보거나 전송할 수 있습니다.
OS의 기본 기능이 신뢰할 수 있는지 테스트하는 것이 도구의 수나 비밀 기술의 양에 달려 있지 않다는 것은 의심의 여지가 없습니다. 최상위 애플리케이션 서비스 생태계가 사용하기 쉬운지, 성숙하고 풍부한지 여부는 OS 기능을 테스트하는 가장 좋은 기준입니다.
03
OS 스토리는 끝이 없습니다
자본시장에서 투자자들에게 가장 잘 알려진 기업 유형을 '시간의 친구들'이라고 합니다.
이른바 '시간의 친구'란 기업이 어떤 일을 올바르게 행하면, 그 일을 계속하기만 하면 되고, 그 기업의 실적은 지속적인 성장을 유지할 수 있으며, 생태적 개발자들은 계속해서 이익을 얻을 수 있다는 것을 의미합니다.
운영 체제는 전형적인 영구 운동 기계 시장입니다. 컴퓨터와 휴대폰 시장이 존재하는 한, 마이크로소프트, 애플, 구글이 소유한 운영체제에 대한 이야기는 끝이 없을 것입니다.
대형 모델에도 마찬가지입니다. "딥씽킹+딥딜리버리+공공 및 민간 데이터+MCP생태"가 결합되면 미래는 새로운 시대의 전능하고 보편적인 AI가 될 것이며, 그러면 캄브리아기 폭발과 같은 새로운 종이 계속해서 출현할 것입니다.
이 과정에서 아래쪽을 살펴보면, 바이두 웬쿠, 바이두 넷디스크 등의 플랫폼이 자체 역량을 개방하는 모습을 볼 수 있습니다. 생태계를 적극적으로 수용함으로써 우리는 새로운 종의 대형 모델을 창조하고 새로운 규칙을 만드는 사람이 됩니다.
위를 바라보면, "창저우 OS"를 기반으로 수많은 새로운 에이전트가 생성되고 나타나고 있으며, 훌륭한 새로운 애플리케이션 서비스 생태계가 형성되고 있습니다.
그리고 이제 모든 이야기가 시작되었습니다.



