ChatGPT 채팅창을 없애는 원인은 바로 "마우스"입니다.

이 기사는 기계로 번역되었습니다
원문 표시

1968년 샌프란시스코에서 컴퓨터 과학자 더글러스 엥겔바트는 두 개의 금속 바퀴가 달린 작은 나무 상자를 들고 "모든 데모의 어머니"로 알려지게 된 출시 행사에서 세상에 새로운 종을 소개했습니다.

그것은 인류가 화면 속 디지털 커서를 움직이기 위해 마우스를 공개적으로 사용한 최초의 사례였습니다. 이후 수십 년 동안 이 작은 화살표는 사실상 어디에나 존재하게 되었습니다. 오피스 소프트웨어, 게임 인터페이스, 브라우저 창, 그리고 수많은 스프레드시트를 넘나들며, 인류가 디지털 세계로 발을 들여놓는 과정에서 가장 친숙하면서도 조용한 안내자가 되었습니다.

하지만 지난 반세기 동안 컴퓨터의 해시레이트, 형태, 활용 시나리오는 거의 변했지만 마우스 커서의 본질은 거의 변하지 않았습니다. 마우스 커서는 화면에서 자신의 위치, 즉 X와 Y 좌표는 알지만, 사용자가 코드 줄을 가리키는지, 청구서를 가리키는지, 풍경 사진을 가리키는지는 알지 못합니다.

끊임없이 번쩍이는 픽셀 대면, 마우스는 매우 기본적인 동작만 할 수 있습니다. 클릭하고, 드래그하고, 다음 클릭을 기다리는 것입니다.

오늘 구글은 제미니를 통해 마우스 커서를 완전히 새롭게 재창조할 예정입니다.

최근 막을 내린 안드로이드 쇼에서 구글은 안드로이드, 인공지능(AI), 하드웨어 생태계와 관련된 거의 모든 계획을 발표했습니다. 그중에서도 " 매직 포인터 "라는 새로운 기능은 기존 마우스 커서에 "눈"과 "두뇌"를 부여합니다.

구글의 의도는 분명합니다. 미래의 AI 상호작용은 장황한 안내 메시지에 의존하지 않고, 마치 현실처럼 화면을 가리키며 "이걸 저기로 옮겨"라고 말하는 방식이 되어야 한다는 것입니다. 그렇다면 마우스 커서가 마침내 화면을 "이해"하게 되었을 때, 인간과 컴퓨터 간의 상호작용은 어디로 향하게 될까요?

눈을 뜬 이 인공지능 화살은 정확히 무엇을 할 수 있을까요?

이 기술의 중요성을 이해하려면 먼저 현재 AI 도구의 가장 불편한 측면, 즉 상호작용 비용을 살펴봐야 합니다.

지난 몇 년 동안 대규모 언어 모델의 기능은 비약적으로 발전했지만, 이를 활용하기 위한 진입 장벽은 여전히 ​​높습니다. AI가 의도를 정확하게 이해하려면 사용자는 복잡한 "단어 추출 기법"을 익혀야 합니다. 즉, 역할을 설정하고, 배경 정보를 추가하고, 출력 형식을 제한해야 합니다. 간단한 요구 사항을 충족하기 위해 수백 단어 분량의 짧은 에세이를 작성하는 것은 흔한 일이 되었습니다.

게다가 일반적인 AI 도구는 대개 별도의 웹 페이지나 애플리케이션 창에서 실행되어 사용자의 작업 흐름을 자주 방해합니다. 예를 들어 50페이지짜리 PDF 파일을 읽다가 AI를 이용해 차트를 만들고 싶다면 보통 다음과 같은 단계를 거쳐야 합니다. 스크린샷 찍기 -> 저장하기 -> 브라우저 열기 -> AI 웹페이지로 이동하기 -> 이미지 업로드하기 -> 명령어 입력하기.

구글은 이러한 번거로운 애플리케이션 간 이동을 "AI 우회"라고 부릅니다. 이러한 전환 방식은 비효율적일 뿐만 아니라, 사용자의 집중 상태, 즉 "몰입" 상태를 쉽게 방해할 수 있습니다.

이를 위해 구글의 첫 번째 상호작용 원칙은 "몰입(flow)"입니다. 구글의 실험적인 AI 커서 프로토타입에서는 AI의 기능이 특정 앱이나 웹페이지에 국한되지 않고 마우스 커서에 통합되어 언제든 사용할 수 있습니다.

작동 방식 또한 최소화되어 있어 키보드 단축키를 외울 필요 없이 마우스를 "흔들기만" 하면 현재 마우스 커서가 있는 콘텐츠를 기반으로 AI 인터페이스가 자동으로 나타나 상황에 맞는 작업 제안을 제공합니다. 이미지를 선택하면 "비교"할지 묻고, 문단 위에 마우스 커서를 올리면 다듬기 솔루션을 적극적으로 제시합니다.

이 과정은 어떠한 지시도 필요하지 않으며 전적으로 직관에 의해 진행됩니다. 매우 직관적인 몇 가지 시나리오를 살펴보겠습니다.

첫째, 궁극적인 형태의 그림 묘사입니다.

만화풍 도시 풍경을 탐색할 때, 기존 마우스로는 클릭하고 확대하는 것밖에 할 수 없었습니다. 하지만 이제는 AI 커서를 사진 배경의 건물 위에 올려놓고 마이크에 대고 "이미지의 이 요소를 여기로 옮겨주세요"라고 말하기만 하면 됩니다.

"이곳"이 누구인지 설명하거나 건물의 외관을 묘사할 필요가 없습니다. AI 커서는 사용자가 가리키는 픽셀을 직접 인식하고 해당 요소를 식별하여 정확하게 이동합니다.

과거에는 마우스가 시스템에 "내가 어디를 클릭했는지"만 알려줄 수 있었지만, 이제는 "내가 무엇을 가리키는지"까지 알려주기 시작했습니다.

둘째, 도입부를 간결하게 하고 자연스러운 언급을 더 많이 사용하십시오.

웹페이지에서 아주 복잡한 베이킹 레시피를 봤을 때, 복사해서 붙여넣거나 "다음 레시피의 모든 재료 양을 두 배로 늘려주세요"라고 일일이 적을 필요가 없습니다. 그냥 마우스 커서로 해당 텍스트를 선택하고 "이 재료들의 양을 두 배로 늘려주세요"라고 자연스럽게 말하면 됩니다.

순식간에 인공지능이 그 자리에서 새로운 레시피를 만들어냈습니다.

셋째, 픽셀을 상호작용 가능한 개체로 변환합니다.

컴퓨터에게 화면은 그저 수백만 개의 빛나는 픽셀일 뿐입니다. 하지만 AI 커서는 이러한 정적인 픽셀을 살아있는 존재로 바꿀 수 있습니다.

예를 들어, 여행 브이로그를 시청하다가 영상에 멋진 레스토랑이 스쳐 지나가는 장면을 생각해 보세요. 영상을 일시 정지하고 마우스 커서를 레스토랑에 가져다 대면, 이전에는 아무런 생동감도 없던 영상이 순식간에 실제 레스토랑 위치 정보로 바뀌고, 그 옆에 예약 링크가 나타납니다.

예를 들어, 낙서로 뒤덮인 포스트잇 사진을 무심코 찍고 마우스 커서를 한 번 움직이면 잉크가 체크 표시 기반의 할 일 목록으로 바뀝니다. 뭔가 느껴지시나요? 예전에는 AI를 직접 찾아야 했지만, 이제는 AI가 마우스 커서를 따라와 손가락 끝으로 자연스럽게 다가옵니다.

인공지능의 안내를 없애고 인간의 직관으로 돌아가자

자세히 살펴보면, 인류에게 가장 강력한 의사소통 도구는 사실 대명사입니다.

동료들과 함께 화면 앞에 앉아 디자인을 수정할 때, "화면 왼쪽 상단 모서리에 있는 파란색 사각형(X:120, Y:350)을 오른쪽으로 50픽셀 옮겨주세요."라고 또렷하고 명확한 목소리로 말하는 경우는 없을 겁니다. 그냥 화면을 가리키며 "이렇게 해주세요."라고 말할 겁니다.

"이걸 오른쪽으로 조금 옮기고, 농도를 약간 묽게 하세요."

"저 식당 좋아 보이는데, 어떻게 가죠?"

코드에 나타난 이 오류 메시지는 무슨 의미인가요?

우리는 일상생활에서 "이것"과 "저것"에 크게 의존합니다. 몸짓과 최소한의 언어 사용이 결합된 형태는 인간에게 가장 효율적인 의사소통 방식입니다. 이는 우리가 같은 물리적 공간에서 살고 동일한 시각적 맥락을 공유하기 때문입니다.

구글은 이 점을 예리하게 파악하고 "이것"과 "저것"의 힘을 활용하라는 제품 원칙으로 정리했습니다.

인간에게 복잡한 신호어 프레임 학습하도록 강요하는 대신, 정반대로 해야 합니다. 의도를 표현하는 번거로운 작업을 우리에게서 없애고 기계가 인간의 가장 게으르고 본능적인 "제스처"에 적응하도록 해야 합니다.

다행스러운 점은 이러한 상호 작용 방식이 이미 구현되고 있다는 것입니다. 크롬 브라우저의 제미니(Gemini)가 오늘부터 이를 지원하는 첫 번째 앱이며, 구글이 새롭게 출시한 구글북 노트북 제품군 은 모든 애플리케이션에서 "매직 포인터"를 운영체제에 직접 통합했습니다.

구글북의 야망은 단순히 마우스를 넘어섭니다. 구글은 이 제품 라인을 "안드로이드폰의 완벽한 동반자"라고 정의합니다.

애플의 아이폰 화면 미러링과 유사하게, 사용자는 안드로이드 앱을 구글북 데스크톱에 원활하게 미러링하여 원래 화면 비율로 실행하고 파일 관리자에서 기기 간 자유로운 이동이 가능하여 스마트폰, 태블릿, 노트북 간의 생태계 장벽을 완전히 허물 수 있습니다. 또한, 제미니는 필요에 따라 데스크톱에 맞춤형 동적 위젯(예: 승객의 실시간 항공편 정보 카드)을 생성할 수 있습니다.

하드웨어 디자인 측면에서 모든 구글북 모델은 본체에 "글로우바" 라이트 스트립을 통합하여 기존 크롬북이나 윈도우 노트북과 한눈에 구별할 수 있도록 했습니다.

구글북의 첫 번째 물량은 에이서, 아수스, 델, HP, 레노버에서 제조될 예정이며, 올가을 상장 것으로 예상됩니다.

흥미롭게도 이 목록에는 삼성이 빠져 있습니다. 최근 보도에 따르면 삼성은 구글의 새로운 운영체제를 탑재한 갤럭시 노트북을 준비 중이며, 차기 언팩 행사는 7월 22일에 열릴 것으로 예상됩니다.

근본적인 핵심 구동 시스템에 대해서는 구글이 구체적으로 언급하지는 않았지만, 기사 전반에 걸쳐 강조된 "지능을 위해 탄생한 현대적인 운영 체제"와 안드로이드 및 크롬OS의 긴밀한 통합은 오랫동안 소문으로만 떠돌던 "알루미늄" 시스템을 가리키는 것으로 보인다.

이는 인공지능이 운영체제 수준의 인프라로 자리 잡기 시작했다는 것을 의미합니다. 인공지능이 진정으로 마우스 커서가 되면, 모든 것에 개입할 권한을 갖게 됩니다. 즉, 보이는 것이 곧 표시되는 것이고, 가리키는 것이 곧 제어되는 것이 되는 것입니다.

인공지능과 인간-컴퓨터 상호작용은 중대한 기로에 서 있다.

1968년으로 거슬러 올라가 보면, 세상을 놀라게 한 최초의 마우스는 놀랍도록 단순한 기능을 가지고 있었습니다. 바로 위치 추적이었죠. 지난 50년 동안 마우스는 스크롤 휠, 측면 버튼, 심지어 팬과 무게추까지 추가되며 발전해 왔지만, 그 본질은 여전히 ​​백지 상태입니다. 정확하게 좌표를 태그 있지만, 그 좌표에 담긴 의미를 이해할 수는 없는 것이죠.

구글의 AI 커서는 상호작용 역사상 전례 없는 진화를 이루었습니다. 사용자의 현재 위치뿐만 아니라 그 위치가 무엇인지까지 파악합니다.

지난 한 해 동안 융자 에 성공한 수많은 스타트업들이 차세대 "AI 시대로 가는 슈퍼 게이트웨이"를 만들기 위해 경쟁적으로 나섰습니다. 모두가 대화 상자의 사실성과 상담원 워크플로의 복잡성에만 몰두하고 있습니다. 하지만 구글은 이제 업계 전체에 냉혹한 교훈을 남겼습니다.

최고의 기술은 무엇일까요? 바로 미묘하면서도 광범위하게 스며드는 영향력입니다. 챗봇은 결코 인공지능의 최종 형태가 아니며, 단지 과도기적 타협안일 뿐입니다. 최고의 인공지능은 단순히 별도의 애플리케이션으로 실행해야 하는 것이 아니라, 사용자의 일상 활동에 자연스럽게 녹아드는 인프라가 되어야 합니다.

흰색 배경에 검은색 텍스트가 있는 명령줄 인터페이스(CLI)에서 마우스 클릭을 사용하는 그래픽 사용자 인터페이스(GUI), 그리고 모바일 시대의 터치스크린 스와이핑(NUI)에 이르기까지, 대규모 언어 모델은 지난 몇 년 동안 우리를 잠시 타이핑 시대의 소통으로 되돌려 놓았고, 이로 인해 수많은 사람들이 프롬프트 불안에 시달리고 있습니다.

하지만 오늘 이후로 우리는 그것이 새벽녘의 잠깐의 우회로에 불과했음을 알게 되었습니다. 진정으로 유용한 인공지능은 결국 인간처럼 생각하는 법을 배워야 합니다. 당신의 모든 눈빛을 이해하고, 당신이 하는 모든 "이것을 저기에 놓아"라는 말을 알아듣는 법을 말입니다.

58년 전, 더글러스 엥겔바트가 그 단순한 나무 쥐 모형을 손에 들었을 때, 그의 궁극적인 꿈은 "인간의 지능을 향상시키는 것"이었습니다.

58년 후, 인공지능이 이 오래된 포인터에 통합되면서 기계는 마침내 세상을 진정으로 "이해"하기 시작했습니다. 즉흥적인 엔지니어의 시대는 막을 내리고, 인간과 컴퓨터 간의 궁극적인 상호작용의 폐쇄 루프는 모호한 "이것"과 "저것"이라는 표현 하나하나를 통해 역사적인 도약을 이룰 것입니다.

다음 링크를 통해 경험해 보세요:

https://aistudio.google.com/apps/bundled/ai-pointer-create?showPreview=true&showAssistant=true&fullscreenApplet=true

https://aistudio.google.com/apps/bundled/ai-pointer-find?showPreview=true&showAssistant=true&fullscreenApplet=true

이 글은 위챗 공식 계정 "APPSO" 에서 Discover Tomorrow's Products가 작성하고 36Kr의 허가를 받아 게시한 글입니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트