2013년 SF 영화 '그녀'에서 운영체제 사만다는 관객에게 이상적인 인공지능의 모습을 처음으로 구체적으로 보여주었습니다. 사만다는 사용자가 말을 끝내기도 전에 말을 할 수 있고, 말투에서 망설임을 감지할 수 있으며, 수동적으로 깨어나기를 기다리는 것이 아니라 항상 '존재'하는 존재입니다.
13년 후, 오픈AI의 전 CTO였던 미라 무라티가 설립한 씽킹 머신즈 랩(Thinking Machines Lab)에서 연구 미리보기를 공개했습니다. 그들이 구축한 인터랙티브 모델은 그 근본적인 목표에 있어 사만다의 논리와 매우 일관성이 있었습니다.
"상호작용 모델: 인간-컴퓨터 협업을 위한 확장 가능한 솔루션"이라는 제목의 이 블로그 게시물은 전체적으로 "존재감"이라는 단어를 반복적으로 강조합니다.
블로그 링크: https://thinkingmachines.ai/blog/interaction-models/
흥미롭게도, 2024년에 미라 무라티는 오픈AI에서 GPT-4o의 고급 음성 모드 출시 행사를 주최하여 인간과 컴퓨터 간의 상호 작용을 자연스러운 인간 대 인간 소통에 더 가깝게 만들었습니다.
2년 후, 그녀는 떠났던 팀과 함께 새롭게 시작했지만, 결국 똑같은 일을 반복하게 되었습니다.
댓글란에는 점점 더 날카로운 비판들이 쏟아졌다.
인공지능 협업 그룹 채팅에서 인간이 배제되었습니다.
이 기사는 METR의 2025년 연구 보고서를 인용하여 주류 AI 기업들이 일반적으로 "모델이 장시간 작업을 자율적으로 완료하는 것"을 가장 중요한 역량 지표로 여기는 경향이 있으며, 그 결과 현재의 대화형 인터페이스는 지속적인 인간의 참여 여지를 거의 남기지 않고 있다는 점을 지적하며 시작합니다.
하지만 실제로는 요구사항이 처음부터 완벽하게 정의되는 경우는 드뭅니다. 고품질 결과물을 얻으려면 지속적인 사람의 개입과 반복적인 조정이 필요한데, 기존의 "순서대로 진행하는" 방식은 바로 이러한 점을 결여하고 있습니다.
언어학자 클라크와 브레넌의 1991년 연구는 효과적인 의사소통이 공존, 동시성, 그리고 동시적 진행에 달려 있음을 보여주었습니다. 양측은 동일한 맥락 속에 있어야 하며, 정보를 동기적으로 주고받아야 합니다. 더 나아가, 월터 옹의 1982년 연구인 "구어의 순간적인 특성"에서 알 수 있듯이, 대화의 본질은 빈번한 참여에 있습니다. 하이에크의 1945년 이론과 결합해 보면, 진정으로 가치 있는 지식은 이러한 즉각적이고 상세한 정보 전달에 담겨 있습니다.
현재 모델들은 사용자가 입력하는 동안 AI가 기다리는 방식으로 작동합니다. AI가 출력을 내놓을 때, 사용자의 즉각적인 반응을 전혀 알지 못합니다. Thinking Machines는 이러한 방식을 긴급한 의견 차이를 직접 대면 하지 않고 이메일 교환에만 의존하는 것에 비유합니다.
현재 실시간 음성 처리 시장은 두 가지 제한적인 접근 방식을 취하고 있습니다. 대부분의 주류 상용 시스템은 음성 활동 감지(VAD)와 같은 구성 요소를 모델 외부에서 조합하여 "유사 실시간" 방식을 사용합니다.
이 플러그인 방식의 구성 요소 관리에는 명백한 한계가 있습니다. 모델은 대화를 능동적으로 중단할 수 없고, 화면 오류와 같은 시각적 변화에 실시간으로 반응할 수 없으며, "듣기 중 동시 통역"과 같은 빈번한 동시 작업을 처리하는 데에도 한계가 있습니다. 한편, Moshi나 PersonaPlex처럼 VAD(가상 음성 지원)가 필요 없는 네이티브 전이중 시스템이 시장에 등장했지만, 대부분 낮은 지연 시간을 달성하기 위해 전반적인 지능 수준을 희생한 소규모 모델입니다.
Thinking Machines는 강화 학습 학자인 리처드 서튼의 관점, 즉 수동으로 설계된 구성 요소에 의존하는 시스템은 결국 일반 학습에 의해 대체될 것이라는 의견에 동의합니다. 상호작용 기능은 모델의 필수적인 부분이 되어야 합니다.
이를 위해 연구팀은 Seeduplex, Qwen-omni, MoshiRAG 등과 같은 전이중 음성 상호작용 및 비동기 에이전트에 대한 업계 연구를 참고하여 실시간 상호작용을 기본적으로 지원하는 시스템을 처음부터 학습시켰습니다. 이 시스템은 시간 인식 "상호작용 모델"(포그라운드)과 비동기적으로 실행되는 "백그라운드 모델"(심층 추론 담당)이 함께 작동하도록 구성됩니다.
시간 정렬 마이크로 라운드 분석/마이크로 라운드 메커니즘: 이 모델은 200밀리초 단위로 입력과 출력을 교대로 처리합니다. 사용자의 침묵과 중단은 실제 정보로 유지됩니다.
이 모델은 사람이 정의한 발화 순서의 경계를 허물어, 별도의 대화 관리 모듈 없이도 사용자가 생각하는 중인지, 양보하는 중인지, 스스로 수정하는 중인지, 또는 응답을 유도하는 중인지를 암묵적으로 추적할 수 있습니다. 또한 동기적으로 말하고 대화 도중에 끼어들 수 있을 뿐만 아니라, 듣고 보는 동안 동시에 도구를 사용하거나 웹을 검색하고 사용자 인터페이스(UI)를 생성할 수도 있습니다.
모달 처리 측면에서, 별도의 대형 인코더가 필요 없도록 오디오와 비디오를 가볍게 처리하여 Transformer 본체와 함께 직접 학습시켰습니다. 또한, 고주파 처리 요구 사항을 충족하기 위해 "스트리밍 세션" 메커니즘을 구현하고 기본 해시레이트 과 통신을 최적화하여 반복적인 메모리 재할당을 방지하고 낮은 지연 시간으로 안정적인 작동을 보장했습니다.
복잡한 작업을 처리할 때 프런트엔드는 전체 컨텍스트를 백엔드로 전송하고, 백엔드는 결과를 다시 프런트엔드로 스트리밍합니다. 프런트엔드는 대화에 원활하게 통합되어 실시간 응답성을 보장하는 동시에 심층적인 추론을 지원합니다. 새롭게 등장하는 보안 문제를 해결하기 위해, 이 모델은 대화 거부 상황을 시뮬레이션하는 현실적인 학습과 탈옥에 대한 견고성 테스트를 거쳤습니다.
주류 모델들의 집단적인 관심을 끈 성적표
테스트에서 TML-Interaction-Small(활성 매개변수 12B)이라는 모델이 매우 뛰어난 성능을 보였습니다.
인터럽트 및 배경 소음 간섭을 평가하는 FD-bench v1.5 벤치마크에서 TML은 77.8점을 기록하여 GPT Realtime-2.0(46.8점)과 Gemini(54.3점)를 크게 앞섰으며, 라운드 전환 지연 시간은 단 0.40초에 불과했습니다. 심층 추론이 요구되는 FD-bench v3에서도 응답 품질/Pass@1(82.8/68.0)에서 경쟁 제품의 지연 시간이 긴 버전보다 일관되게 우수한 성능을 보였습니다.
다른 종합적인 테스트에서도 TML은 뛰어난 균형감을 보여주었습니다. QIVD 오디오/비디오 질문 답변(54.0점), BigBench 오디오(75.7/96.5점), IFEval 명령어 준수(82.1/89.7점)에서 높은 점수를 받았으며, Harmbench에서는 99.0%의 안전한 거부율을 유지했습니다. 순수 지능 기반 테스트에서는 Qwen 3.5 Omni나 GPT-2.0 초고지연 버전보다 약간 뒤처지기도 했지만, 응답 속도와 지능 수준 모두에서 탁월한 성능을 보인 유일한 모델이었습니다.
Thinking Machines는 네이티브 상호 작용 기능을 보다 정확하게 측정하기 위해 여러 벤치마크를 구축했습니다.
StreamBridge 및 AURA와 같은 학계의 기존 텍스트 출력 프로토타입과 비교했을 때, TML은 진정한 동시 음성 출력을 구현합니다. TimeSpeak(능동적 말하기 64.7점), CueSpeak(동시 오류 수정 81.7점), RepCount-A(연속 시각 추적 35.4점), ProactiveVideoQA(비디오 시청을 통한 질문 답변) 등 개별 테스트에서 TML은 모든 항목에서 우수한 결과를 보인 반면, 비교 대상이었던 주류 모델들은 거의 모두 해당 시나리오에서 0점을 받거나 아무런 반응을 보이지 않았습니다.
물론 이 아키텍처에도 한계가 있습니다. 장시간 세션에서 컨텍스트가 누적되는 것을 관리하기 어렵고, 스트리밍 오디오 및 비디오는 네트워크 안정성에 크게 의존합니다. 또한, 이 아키텍처는 아직 더 많은 매개변수를 지원하는 버전으로 확장되지 않았으며, 올해 말에 출시될 예정입니다.
인공지능과 대화하는 것이 점점 사람과 대화하는 것과 비슷해지고 있습니다.
이 연구에 참여한 연구원 닐 우는 초기 아이디어를 다음과 같이 요약했습니다. "인공지능과의 협업이 더 이상 채팅창에 입력하는 것이 아니라, 마치 다른 사람과 대화하는 것과 같다면 어떨까요?" 상호작용을 기본적으로 지원하는 이 모델은 그들의 첫 번째 시도입니다.
Thinking Machines의 CTO인 Soumith Chintala는 전체 로드맵을 세 단계로 나눕니다. 첫째, 인간과 AI 간의 정보 대역폭을 확대하는 것, 둘째, 인간-AI 지능의 상한선을 높이는 것, 셋째, 미래 시스템에서 인간이 핵심적인 역할을 계속 수행할 수 있도록 지원하는 것입니다.
많은 AI 연구 방향이 모델을 더욱 자율적으로 만들고 인간의 개입을 줄이는 데 초점을 맞추는 반면, Thinking Machines는 다른 길을 택했습니다. 바로 인간의 개입을 더욱 원활하게 만들고 통신 대역폭 자체를 인프라로 구축하는 것입니다.
웬 리는 자신의 트윗에서 "137페이지 분량의 로그를 작성하고 12가지 버전을 만들어 봤습니다. 결과는 인간과 AI 간의 협업을 개선하는 데 있어 사람 간의 협업이 매우 중요하다는 것을 보여줍니다."라고 덧붙였습니다. 이는 인간 소통의 리듬을 이해하는 모델을 개발하려면 연구자들이 먼저 인간 소통의 본질을 깊이 이해해야 한다는 것을 의미할 수 있습니다.
하지만 끊임없이 존재하며 정서 과 상태를 즉시 인지할 수 있는 인공지능이 불러일으키는 심리적 경험은 기존의 도구 기반 인공지능과는 매우 다릅니다. 인공지능의 존재감이 상호작용의 모든 영역에서 커질수록 사람들의 인공지능에 대한 인식과 의존도는 어떻게 변화할까요?
이 논문은 이러한 심오한 질문들에 대한 답을 제시하지 못하고, "실시간 정렬 및 보안"에 대한 열린 방향만을 제시했습니다. 그러나 공상 과학 영화 속 이야기들이 데스크톱에서 현실이 되고 인공지능이 우리 삶에 끊임없이 "존재"하게 될 때, 우리가 진정으로 정렬해야 할 것은 모델뿐만 아니라 새로운 세상에서 인류의 위치일지도 모릅니다.
이 글은 미래의 제품을 발굴하는 APPSO가 작성한 위챗 공식 계정 "APPSO" 의 기사이며, 36Kr의 허가를 받아 게재되었습니다.





