구글 로봇, 이제 생각하고, 웹 검색하고, 새로운 기술을 스스로 익힐 수 있다

avatar
Decrypt
09-28
이 기사는 기계로 번역되었습니다
원문 표시

구글 딥마인드는 이번 주 로봇을 그 어느 때보다 더 똑똑하게 만드는 두 가지 AI 모델을 출시했습니다. 업데이트된 제미니(Gemini) 로보틱스 1.5와 그에 상응하는 제미니(Gemini) 로보틱스-ER 1.5는 단순히 댓글을 따르는 데 집중하는 대신, 로봇이 문제를 스스로 판단하고, 인터넷에서 정보를 검색하고, 여러 로봇 에이전트 간에 기술을 전달하도록 합니다.

Google에 따르면 이러한 모델은 "지능과 능숙함으로 물리적 세계의 복잡성을 탐색할 수 있는 기초적인 단계"를 나타냅니다.

구글은 발표를 통해 "제미니(Gemini) 로보틱스 1.5는 물리적 세계에서 AGI를 해결하는 데 중요한 이정표입니다."라고 밝혔습니다. "에이전트 기능을 도입함으로써, 우리는 명령에 반응하는 모델을 넘어 진정으로 추론하고, 계획하고, 도구를 적극적으로 사용하고, 일반화할 수 있는 시스템을 구축하고 있습니다."

그리고 이 "일반화"라는 용어는 모델이 이 용어를 이해하는 데 어려움을 겪기 때문에 중요합니다.

이 모델로 구동되는 로봇은 이제 빨래를 색깔별로 분류하거나, 온라인에서 찾은 일기 예보를 바탕으로 여행 가방을 꾸리거나, 지역 재활용 규정을 확인하여 쓰레기를 올바르게 버리는 등의 작업을 처리할 수 있습니다. 사람이라면 "당연하지, 그래서 뭐?"라고 생각할지도 모릅니다. 하지만 이를 위해서는 기계가 일반화라는 기술, 즉 지식을 새로운 상황에 적용하는 능력이 필요합니다.

로봇과 일반적인 알고리즘은 대개 이 부분에서 어려움을 겪습니다. 예를 들어, 모델에 바지를 접도록 학습시킨다고 하더라도, 엔지니어가 모든 단계를 미리 프로그래밍하지 않는 한 티셔츠를 접을 수는 없습니다.

새로운 모델은 이러한 상황을 바꿔놓았습니다. 새로운 모델은 신호를 포착하고, 환경을 읽고, 합리적인 가정을 하고, 예전에는 기계가 감당하기 어려웠거나 적어도 극도로 어려웠던 여러 단계의 작업을 수행할 수 있습니다.

하지만 더 나은 것이 완벽함을 의미하지는 않습니다. 예를 들어, 한 실험에서 연구팀은 로봇들에게 여러 개의 물체를 보여주고 올바른 쓰레기통에 버리도록 했습니다. 로봇들은 카메라를 사용하여 각 물체를 시각적으로 식별하고, 샌프란시스코의 최신 재활용 지침을 온라인에서 확인한 다음, 마치 현지인이 하듯이 스스로 이상적인 위치에 버렸습니다.

이 프로세스는 온라인 검색, 시각적 인식, 그리고 단계별 계획을 결합하여 기존 로봇이 달성할 수 있었던 수준을 뛰어넘는 상황 인식적 의사결정을 내립니다. 등록된 성공률은 20%에서 40% 사이였습니다. 이상적이지는 않지만, 이전에는 그러한 미묘한 차이를 이해하지 못했던 모델에게는 놀라운 결과였습니다.

구글이 로봇을 슈퍼 로봇으로 만드는 방법

두 모델은 작업을 분담했습니다. 제미니(Gemini) 로보틱스-ER 1.5는 마치 두뇌처럼 작동하여 필요한 작업을 파악하고 단계별 계획을 수립합니다. 정보가 필요할 때 구글 검색을 불러올 수 있습니다. 계획이 수립되면 제미니(Gemini) 로보틱스 1.5는 실제 동작을 처리합니다.

기술적으로 말하면, 새로운 제미니(Gemini) Robotics 1.5는 시각 정보와 지시를 모터 명령으로 전환하는 시각-언어-행동(VLA) 모델이고, 새로운 제미니(Gemini) Robotics-ER 1.5는 임무를 완료하기 위한 다단계 계획을 만드는 시각-언어 모델(VLM)입니다.

예를 들어 로봇이 세탁물을 분류할 때, 로봇은 일련의 사고 과정을 통해 내부적으로 추론합니다. 즉, "색상별 분류"가 흰색은 한 통에, 색상은 다른 통에 넣는다는 것을 이해하고, 각 옷을 집어 올리는 데 필요한 구체적인 동작을 세분화합니다. 로봇은 자신의 추론 과정을 쉬운 영어로 설명할 수 있어, 블랙박스처럼 복잡한 결정을 내리는 일이 줄어듭니다.

구글 CEO 순다르 피차이는 X에 대해 의견을 밝히며, 새로운 모델을 통해 로봇이 더 나은 추론 능력, 미래 계획 능력, 검색과 같은 디지털 도구 활용 능력, 그리고 한 종류의 로봇에서 다른 종류의 로봇으로의 학습 전이 능력을 향상시킬 수 있을 것이라고 언급했습니다. 그는 이를 "진정으로 도움이 되는 범용 로봇을 향한 구글의 다음 큰 발걸음"이라고 칭했습니다.

새로운 제미니(Gemini) 로보틱스 1.5 모델은 로봇이 더 나은 추론 능력, 미리 계획 능력, 검색과 같은 디지털 도구 활용 능력, 그리고 한 종류의 로봇에서 다른 종류의 로봇으로의 학습 전이 능력을 향상할 수 있도록 지원합니다. 진정으로 도움이 되는 범용 로봇을 향한 우리의 다음 큰 발걸음은 로봇이 어떻게 추론하는지 직접 확인하실 수 있습니다… pic.twitter.com/kw3HtbF6Dd

— 순다르 피차이(@sundarpichai) 2025년 9월 25일

이번 출시로 구글은 테슬라, 피겨 AI, 보스턴 다이내믹스와 같은 개발사들과 함께 주목을 받게 되었지만, 각 회사는 서로 다른 접근 방식을 취하고 있습니다. 테슬라는 공장 대량 생산에 집중하고 있으며, 일론 머스크는 2026년까지 수천 대의 로봇을 생산할 것을 약속했습니다. 보스턴 다이내믹스는 백플립 로봇 아틀라스를 통해 로봇 운동 능력의 경계를 넓히고 있습니다. 한편, 구글은 특별한 프로그래밍 없이도 로봇이 어떤 상황에도 적응할 수 있도록 하는 AI에 집중하고 있습니다.

타이밍이 중요합니다. 미국 로봇 기업들은 중국이 AI와 지능형 로봇을 국가적 우선순위로 삼고 있는 시기에 산업 육성에 중점을 둔 연방 사무소 설립을 포함한 국가 차원의 로봇 전략을 추진하고 있습니다. 독일에 본사를 둔 국제로봇연맹(IFR)에 따르면 중국은 공장 및 기타 산업 환경에서 사용되는 로봇의 세계 최대 시장으로, 2023년에는 약 180만 대의 로봇이 가동될 것으로 예상됩니다.

딥마인드의 접근 방식은 엔지니어가 모든 동작을 꼼꼼하게 코딩하는 기존 로봇 프로그래밍과는 다릅니다. 딥마인드 모델은 시연을 통해 학습하고 즉시 적응할 수 있습니다. 로봇의 손에서 물체가 미끄러지거나 누군가 작업 도중 무언가를 옮기더라도 로봇은 한순간도 멈추지 않고 적응합니다.

이 모델은 딥마인드가 지난 3월에 개발한 초기 연구를 기반으로 합니다. 당시 로봇은 가방 지퍼를 풀거나 종이를 접는 것과 같은 단일 작업만 처리할 수 있었습니다. 이제는 일기예보를 확인한 후 여행 준비를 위해 짐을 챙기는 것처럼 많은 사람이 어려워하는 일련의 작업을 처리하고 있습니다.

실험을 원하는 개발자들을 위해 가용성에 대한 접근 방식이 나뉘어 있습니다. 제미니(Gemini) Robotics-ER 1.5는 목요일 Google AI Studio의 제미니(Gemini) API를 통해 출시되었으며, 이는 모든 개발자가 추론 모델을 사용하여 개발을 시작할 수 있음을 의미합니다. 액션 모델인 제미니(Gemini) Robotics 1.5는 "선별된"(아마도 "풍부한"이라는 뜻) 파트너에게만 독점적으로 제공됩니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
47
즐겨찾기에 추가
17
코멘트