방금 마크 저커버그의 143억 달러짜리 "아보카도"가 출시되어 실리콘 밸리에서 중국인이 개발한 가장 비싼 첫 작품인 GPT-5.4에 정면으로 도전장을 내밀었습니다.

avatar
36氪
04-09
이 기사는 기계로 번역되었습니다
원문 표시

예고도 없이! 1년 만에 주커버그가 드디어 돌아왔다!

방금 전, 메타 슈퍼 인텔리전스 연구소(MSL)가 첫 번째 프로젝트를 시작했습니다.

코드네임이 아보카도인 뮤즈 스파크는 소문 속의 "아보카도"입니다.

진정한 " 만능 육각형 전사 "입니다. 네이티브 멀티모달 인식, 도구 호출, 시각적 사고 체계, 다중 에이전트 오케스트레이션 등 모든 기능이 완벽하게 개발되었습니다.

가장 충격적인 수치부터 시작해 보겠습니다.

인공지능 분석 테스트에서 Muse Spark는 52점을 획득하여 Gemini 3.1 Pro, GPT-5.4, Opus 4.6에 이어 2위를 기록했습니다.

이에 비해 작년의 라마 4 매버릭은 겨우 18점밖에 득점하지 못했습니다 .

18에서 52로 한 번에 급등하면서 메타의 주가는 장중 한때 거의 10% 가까이 급등했습니다 .

메타의 최고 AI 책임자인 알렉산드르 왕은 X에 대해 너무나 흥분한 나머지 트윗을 9개나 올렸습니다.

9개월 전, 저희는 새로운 인프라, 새로운 아키텍처, 새로운 데이터 파이프라인을 구축하여 전체 AI 기술 스택을 처음부터 다시 만들었습니다. Muse Spark는 이러한 노력의 결과물입니다.

MSL 팀의 중국 연구원들도 온라인에서 큰 화제를 모았습니다. 이들은 작년에 OpenAI와 DeepMind에서 이직하여 새로 설립된 연구소에서 일하며 이러한 성공을 꿈꿨습니다.

MSL의 수석 과학자인 자오 성자(Shengjia Zhao)는 "확장을 지원하기 위해 전체 기술 스택을 재구성했으며, 이는 단지 시작일 뿐입니다."라고 직설적으로 말했습니다.

뮤즈 스파크가 제미니 딥싱크 및 GPT 프로에 필적하는 "명상 모드"를 출시했다는 점도 언급할 가치가 있습니다.

(고려해 보면서) 여러 에이전트가 병렬적으로 생각하고 협력적으로 반응한다.

"12세, 9세, 7세 자녀 3명을 포함한 5인 가족을 위한 7일간의 플로리다 문화 및 미식 여행 계획"이라고 입력하기만 하면, Muse Spark는 동시에 세 명의 담당자를 배정합니다. 한 명은 음식 및 문화 여행 일정을 계획하고, 한 명은 가족 친화적인 활동을 검색하며, 나머지 한 명은 숙박 및 물류를 조율합니다.

현재 해당 모델은 meta.ai와 Meta AI 앱에 출시되었으며, API 미리보기 버전은 제한된 수의 사용자에게 제공되고 있습니다.

이 기능은 미국에서 먼저 출시될 예정이며, 향후 몇 주 내에 페이스북, 인스타그램, 왓츠앱과 통합될 것입니다.

무료로 무제한 사용 가능하지만 소스 코드는 비공개입니다.

다음으로 핵심 사항을 강조해 보겠습니다.

인공 분석 점수: 52점; Llama 4 Maverick 점수: 단 18점

네이티브 멀티모달 + 시각적 사고 체인, 시각 분야에서 Gemini 3.1 Pro에 이어 두 번째로 우수함.

HLE는 "숙고 모드" 다중 에이전트 병렬 사고를 통해 58%의 성공률을 달성합니다.

사전 학습에 필요한 해시레이트 요구 사항이 Llama 4의 1/10로 감소했습니다.

1,000명이 넘는 임상의들이 교육에 참여했으며, 그들의 건강 관련 질의응답 능력은 탁월했습니다.

생각은 압축되고, 토큰 소비는 Opus의 1/3에 불과합니다.

아폴로 연구소는 자신들이 보안 테스트를 받고 있다는 것을 감지할 수 있다는 사실을 발견했습니다.

벤치마크 점수는 최상위권에 근접했지만, 코딩 실력은 여전히 ​​부족하다.

먼저 구체적인 데이터를 살펴보겠습니다.

Meta는 Muse Spark(사고 모드)를 Opus 4.6, Gemini 3.1 Pro, GPT 5.4 및 Grok 4.2와 비교했으며, 멀티모달, 텍스트 기반 사고, 성능, 에이전트 등 4가지 차원을 기준으로 총 20개 이상의 벤치마크를 수행했습니다.

Reddit 사용자들이 다시 주석을 단 벤치마크

뮤즈 스파크의 가장 두드러진 특징은 멀티모달리티입니다.

CharXiv는 86.4 버전을 이해하며, GPT 5.4의 82.8 버전과 Gemini 3.1 Pro의 80.2 버전을 능가합니다.

ScreenSpot Pro의 스크린샷 해상도는 84.1로, Opus 4.6의 83.1보다 약간 높습니다.

ZeroBench 멀티스텝 비전 점수는 33.0점이고, Gemini 3.1 Pro 점수는 29.0점입니다.

텍스트 기반 경쟁에서는 양측 모두 승리와 패배를 경험합니다.

GPQA Diamond 박사 과정 문제는 89.5점, Opus 4.6은 92.7점, Gemini 3.1 Pro는 94.3점을 받았습니다.

ARC AGI 2의 추상적 사고 점수는 42.5점으로, Opus 4.6의 63.3점과 Gemini의 76.5점보다 상당히 낮습니다.

저는 경쟁 프로그래밍 평가에서 LiveCodeBench Pro 80.0점, Gemini 82.9점, GPT 5.4 87.5점을 받았습니다.

Meta 자체도 Muse Spark가 코드 및 장기 실행 에이전트 작업 측면에서 가장 발전된 모델에 비해 여전히 뒤처진다는 점을 인정했습니다.

하지만 인터넷을 뜨겁게 달군 것은 Muse Spark가 이미지를 코드로 직접 변환할 수 있다는 사실이었으며, 그 결과는 정말 놀라웠습니다!

하지만 뮤즈 스파크는 헬스케어 부문에서 매우 공격적인 행보를 보이고 있습니다.

HealthBench Hard는 주관식 건강 질문에서 42.8점을 기록한 반면, Gemini 3.1 Pro는 20.6점, GPT 5.4는 40.1점에 그쳤습니다.

MedXpertQA Multimodal Medicine 78.4는 Gemini의 81.3보다 크게 앞서지는 않지만(Gemini가 약간 더 높음), Opus 4.6의 64.8을 훨씬 능가합니다.

Meta가 교육 단계에서 1,000명 이상의 임상의와 협력하여 진행한 데이터 정제 및 선별 과정은 실제로 가시적인 성과를 거두었습니다.

에이전트 트랙 또한 주목할 만합니다.

DeepSearchQA의 검색 에이전트 점수는 74.8점으로, 다섯 회사 중 가장 높았습니다.

τ²-Bench 도구는 GPT 5.4와 동일한 버전인 91.5를 사용합니다.

GDPval-AA Elo Office Agent는 1444를 기록하며 Gemini의 1320을 넘어섰지만 Opus 4.6의 1606에는 미치지 못했습니다.

SWE-Bench 점수 차이는 상당합니다. Verified 77.4, Opus 80.8, GPT 82.9(보고된 바에 따르면 78.2), Pro 52.4, GPT 57.7입니다.

요약하자면, 벤치마크 점수는 멀티모달 및 건강 관련 지표에서 우수했고, 사고 관련 지표와도 동등한 수준이었지만, 코드 및 에이전트 관련 지표는 기대에 미치지 못했습니다.

알렉산드르 왕: 라마 4의 실수는 반복되지 않을 것이다. 아보카도는 점수를 조작하지 않았다.

Artificial Analysis의 자체 테스트를 통해 중요한 사실 하나가 밝혀졌습니다. 바로 토큰 효율성입니다.

전체 인텔리전스 인덱스 테스트 스위트를 실행한 후 Muse Spark는 5,800만 개의 출력 토큰을 사용했는데, 이는 Gemini 3.1 Pro(5,700만 개)와 비슷한 수준이지만 Opus 4.6(1억 5,700만 개) 및 GPT-5.4(1억 2,000만 개)보다는 훨씬 적습니다.

지능 수준이 동일할 경우, 소모되는 토큰 수는 절반에서 3분의 2로 줄어듭니다.

또한 수학 전문가들이 만든 테스트인 FrontierMath에서 Muse Spark는 1~3단계에서는 Gemini 3.1 Pro를 완전히 능가했지만, 4단계에서는 최하위를 기록했습니다.

더욱 주목할 만한 점은 Muse Spark가 Vals Index 순위에서 다음과 같은 구체적인 지표를 바탕으로 3위를 차지했다는 것입니다.

라마 4 출시 1년 후, 메타는 AGI 부문 최상위권으로 복귀했습니다.

다중 에이전트 병렬 사고는 "인류의 최종 시험"에서 58%의 성공률을 가져왔습니다.

"명상 모드"는 Muse Spark의 핵심 기능입니다.

전통적인 사고 방식은 한 명의 주체가 더 많은 시간을 들여 생각하는 반면, 숙고 방식은 여러 주체가 동시에 생각하고 그 결과를 종합하는 방식입니다.

인류의 마지막 시험(도구 없이): Muse Spark(명상 모드)는 50.2점, Gemini Deep Think는 48.4점, GPT 5.4 Pro는 43.9점을 받았습니다.

Humanity's Last Exam (도구 포함): 58.4, Gemini: 53.4, GPT 5.4 Pro: 58.7, 거의 동점입니다.

FrontierScience Research는 38.3점을, Gemini Deep Think는 23.3점, GPT 5.4 Pro는 36.7점을 기록했습니다.

하지만 2025년 물리 올림피아드(IPhO)의 이론 문제에서 Muse Spark는 숙고 모드에서 82.6점을 기록한 반면, GPT 5.4 Pro는 93.5점을 기록하여 상당한 차이를 보였습니다.

전반적으로, 사색 모드는 Muse Spark가 가장 까다로운 통합적 사고 과제에서 최고 수준에 도달할 수 있도록 해줍니다.

'개인 초지능'을 목표로 하는 이 기기는 사진 한 장만 찍으면 개인 영양사가 될 수 있다.

메타는 뮤즈 스파크의 방향을 매우 명확하게 정의합니다: 개인 초지능.

쉽게 말해, 당신과 당신 주변 세상을 이해하는 인공지능 비서입니다.

멀티모달 애플리케이션 측면에서 Muse Spark는 다양한 영역에 걸쳐 시각 정보를 통합하도록 처음부터 설계되었습니다.

공식 시연에는 여러 시나리오가 포함되었습니다.

스도쿠 퍼즐 사진을 찍으면 Muse Spark가 웹페이지에서 플레이할 수 있는 인터랙티브 게임으로 만들어 줍니다.

이 앱은 커피 머신과 그라인더의 사진을 찍어 핵심 구성 요소를 모두 표시한 다음, 웹 기반의 대화형 라떼 제조 튜토리얼을 생성합니다.

마우스 커서를 특정 단계 위에 올리면 사진에서 해당 부분의 경계 상자가 자동으로 강조 표시되어 시각적 안내와 단계별 작업 과정을 제공합니다.

건강 관련 시나리오는 상상력을 발휘할 여지를 훨씬 더 많이 제공합니다.

음식이 가득 담긴 테이블을 탁 치면서 "나는 콜레스테롤 수치가 높고 비관주의자야"라고 말해 보세요. Muse Spark는 권장 식품에는 초록색 점을, 비권장 식품에는 빨간색 점을 표시해 줄 겁니다.

Prompt는 매우 세밀한 제어 기능을 제공하며, UI 상호 작용 논리를 명확하게 설명합니다.

건강 점수는 마우스 커서를 올리지 않아도 바로 위에 표시됩니다. 마우스 커서를 올리면 칼로리, 탄수화물, 단백질, 지방에 대한 자세한 정보가 팝업으로 나타납니다. 또한, 이 팝업은 "항상 최상단에 위치해야 하며 다른 포인트에 가려져서는 안 됩니다."

요가 자세를 촬영할 때도 같은 접근 방식이 적용됩니다.

이 앱은 각 자세에서 어떤 근육 그룹이 스트레칭되는지 식별하고, 난이도를 표시하며, 마우스 커서를 올리면 자세 교정 제안을 제공합니다. 두 사람의 이미지를 나란히 이어 붙여 1부터 10까지 점수를 매깁니다.

이러한 데모의 기반은 시각적 STEM 질문 답변, 개체 인식 및 목표 위치 파악의 조합입니다.

개별적으로는 특별히 주목할 만한 점이 없지만, 여러 기능을 하나의 시나리오로 연결하면 "개인 초지능"이라는 용어에 담긴 제품 의도를 분명히 알 수 있습니다.

또 하나 주목할 만한 새로운 기능은 "쇼핑 모드"입니다.

왕은 자신의 트윗에서 해당 쇼핑 모델이 "인스타그램, 페이스북, 스레드에서 사용자가 팔로우하는 크리에이터, 브랜드, 스타일 콘텐츠를 파악하여 개인 맞춤형 추천을 제공할 수 있다"고 밝혔습니다.

이것이 바로 메타의 독보적인 데이터 강점입니다. 매일 30억 명의 활성 사용자로부터 수집된 소셜 행동 데이터와 AI 쇼핑 도우미를 결합하여 엄청난 상업화 잠재력을 제공하고 있습니다.

세 가지 스케일링 곡선, 90% 감소된 해시레이트, 심지어 사고 자체도 압축될 것입니다.

기술 블로그의 주요 초점은 벤치마킹이 아니라 스케일링입니다.

Meta는 Muse Spark의 성능을 사전 학습, 강화 학습 및 테스트 시간 계산의 세 가지 축으로 나누어 분석합니다. 각 축에는 해당하는 스케일링 곡선이 제공됩니다.

사전 학습: 동일한 기능을 유지하면서 해시레이트 1/10로 줄일 ​​수 있습니다.

지난 9개월 동안 Meta는 사전 학습 기술 스택을 완전히 개편하여 아키텍처, 최적화 알고리즘 및 데이터 전략을 재설계했습니다.

효과를 측정하기 위해 Meta는 일련의 더 작은 버전에 스케일링 법칙을 적용한 다음 동일한 성능 수준에 도달하는 데 필요한 훈련 FLOP 수를 비교했습니다.

결론은 명확합니다. 동일한 수준의 성능을 내려면 Muse Spark는 Llama 4 Maverick보다 10분의 1도 안 되는 해시레이트 만 필요합니다.

이 곡선은 한 가지를 분명히 보여줍니다. Meta는 단순히 GPU를 더 많이 투입한 것이 아니라, 해시레이트 단위당 출력량을 근본적으로 향상시켰습니다.

워싱턴 대학교의 유첸 진은 X에 대해 다음과 같이 적절하게 논평했습니다. "저는 여전히 인프라가 AI 연구소의 진정한 해자라고 생각합니다. 인프라를 통해 더 빠르게 학습하고, 연구원들은 더 많은 아이디어를 더 빠르게 실험할 수 있기 때문입니다."

강화 학습: 로그 선형 성장, 낯선 문제로의 일반화.

대규모 강화 학습은 불안정하기로 악명이 높지만, Meta는 새로운 기술 스택의 강화 학습 곡선이 이례적으로 매끄럽다고 말합니다.

왼쪽 그림은 훈련 데이터 세트에서의 성능을 보여줍니다. pass@1과 pass@16(16번의 시도 중 최소 1번 정답) 모두 로그 선형 증가를 나타냅니다.

이는 RL이 신뢰성을 향상시키면서도 솔루션의 다양성을 저해하지 않는다는 것을 보여줍니다. Muse Spark는 "하나의 경로로만 최종 결과를 도출하는" 것이 아니라, 다양한 솔루션을 탐색할 수 있는 유연성을 유지합니다.

오른쪽 그림이 더 중요한 이유는 평가 세트의 정확도를 고려할 여지를 남겨두기 때문입니다.

또한, 그래프는 꾸준히 상승, 이는 강화 학습을 통해 얻는 발전이 단순한 암기가 아니라 이전에 접해보지 못한 새로운 문제에도 일반화될 수 있음을 보여줍니다.

테스트 중 추론 과정: 마음은 먼저 확장되었다가 수축하고, 다시 확장됩니다.

이 부분이 기사 전체에서 기술적으로 가장 발전된 부분이자 가장 흥미로운 부분입니다.

RL은 뮤즈 스파크에게 답변하기 전에 "머릿속으로 꼼꼼히 생각하는" 법을 가르쳤는데, 이는 시험에서 필요한 추론 능력입니다.

문제는 토큰 비용이 너무 높아서 수십억 명의 사용자에게 이러한 서비스를 지속적으로 제공하기 어렵다는 점입니다.

Meta 문제 해결에는 두 단계가 필요합니다.

첫 번째 단계는 강화 학습에 "생각 시간 페널티"를 추가하는 것입니다. 생각하는 시간은 늘어나지만, 너무 오래 생각하면 점수가 차감됩니다.

이러한 제약 조건은 흥미로운 "상태 전이" 현상을 촉발합니다.

AIME 하위 데이터셋에 대한 성능은 다음과 같습니다. 학습 초기 단계에서 Muse Spark는 더 오래 생각할수록 정확도가 향상되며, 곡선은 오른쪽으로 확장됩니다.

그러다가 길이 제한으로 인해 "사고 압축"이 발생했습니다. Muse Spark는 훨씬 적은 토큰으로 동일한 문제를 해결하는 방법을 학습했고, 그 결과 성능 향상 곡선이 왼쪽으로 기울었습니다.

압축 과정을 거치면 문제 해결 과정이 다시 길어져 훨씬 더 어려운 문제에 직면하게 됩니다.

전체적인 궤적을 그려보면, 처음에는 오른쪽으로, 그다음에는 왼쪽으로, 그리고 다시 오른쪽으로 향하는 3단계 진화 경로를 보여줍니다.

두 번째 단계는 지연 시간 문제를 해결하는 것입니다.

단일 에이전트가 생각하는 시간이 길어질수록 지연 시간은 선형적으로 증가합니다.

Meta의 접근 방식은 1개, 2개, 4개 또는 16개의 에이전트가 동시에 사고하도록 병렬 에이전트 수를 늘리는 것입니다.

그래프에서 볼 수 있듯이, 유사한 지연 시간 수준에서 16개 에이전트의 정확도는 약 54%에서 약 58%로 상승했습니다.

기존 확장 방식은 시간을 희생하여 품질을 높이는 반면, 다중 에이전트 확장 방식은 병렬 처리를 희생하여 품질을 높이고 지연 시간은 거의 변하지 않습니다.

실리콘 밸리에서 "가장 비싼 중국 팀"으로 알려진 팀이 첫 번째 테스트 논문을 제출했습니다.

뮤즈 스파크의 개발 배경에는 작년에 마크 저커버그가 메타 AI 시스템을 완전히 재편한 것이 있습니다.

2025년 6월, 메타는 스케일 AI의 지분 49%를 143억 달러에 인수하고, 스케일 AI의 창립자인 알렉산드르 왕을 메타의 초대 최고 인공지능 책임자(CIO)로 영입하여 메타 슈퍼 인텔리전스 연구소(MSL)를 설립했습니다.

같은 시기에 전 GitHub CEO인 냇 프리드먼(제품 및 응용 프로그램 연구를 공동으로 담당), SSI 공동 창립자인 다니엘 그로스, 그리고 OpenAI, DeepMind, Anthropic에서 영입한 11명의 연구원들도 합류했습니다.

이번 Muse Spark 출시로 한 가지 사실이 입증되었습니다. 9개월에 걸친 메타 초지능 연구소 재구축 작업이 결실을 맺었다는 것입니다.

사전 학습 효율성이 10배 이상 향상되었고, 강화 학습 확장 곡선은 매끄럽고 예측 가능하며, 멀티모달 및 의료 분야에서 최고 수준에 도달했습니다.

하지만 코드와 에이전트 사이의 간극은 여전히 ​​존재하며, 숙고 모드는 아직 완전히 개방되지 않았고, 오픈 소스 일정은 여전히 ​​"희망"에 불과합니다.

더욱 시급한 압박은 같은 주에 앤트로픽이 "공개하기에는 너무 강력하다"고 평가받는 마이토스를 출시했고, 오픈AI의 새로운 연구 프로젝트인 스퍼드(Spud) 역시 출시를 앞두고 있었다는 점입니다.

그들은 143억 원짜리 티켓을 샀다. 진정한 시험은 아직 오지 않았다.

참고 자료:

https://ai.meta.com/blog/introducing-muse-spark-msl/

https://ai.meta.com/blog/scaling-how-we-build-test-advanced-ai/

https://ai.meta.com/static-resource/muse-spark-eval-methodology

https://x.com/alexandr_wang/status/2041909376508985381

이 글은 위챗 공식 계정 "신지위안" 의 글이며, 작성자는 신지위안이고, 36Kr의 허가를 받아 게재되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
70
즐겨찾기에 추가
10
코멘트