거의 10년 전, Google은 Android Marshmallow에서 Now on Tap 이라는 기능을 선보였습니다. 홈 버튼을 길게 탭하면 Google이 화면에 표시된 내용과 관련된 유용한 상황 정보를 표시합니다. 친구와 문자로 영화 이야기를 나누시나요? Now on Tap은 메시징 앱을 종료하지 않고도 타이틀에 대한 세부 정보를 얻을 수 있습니다. Yelp에서 레스토랑을 찾고 계시나요? 전화기는 탭 한 번만으로 OpenTable 권장 사항을 표시할 수 있습니다.
저는 대학을 갓 졸업한 상태였고, 이러한 개선 사항은 흥미롭고 마법처럼 느껴졌습니다. 화면에 표시된 내용을 이해하고 미래에 직면하게 될 조치를 예측하는 능력이 있었기 때문입니다. 제가 가장 좋아하는 안드로이드 기능 중 하나였습니다. 그것은 천천히 Google 어시스턴트로 변모했는데, 그 자체로는 훌륭했지만 완전히 똑같지는 않았습니다.
오늘 캘리포니아주 마운틴뷰에서 열린 Google의 I/O 개발자 컨퍼런스 에서 Google이 Android 운영 체제에서 선전하는 새로운 기능은 옛날의 Now on Tap과 같은 느낌을 줍니다. 즉, 주변의 상황 정보를 활용하여 휴대전화를 비트(Bit) 더 활용할 수 있게 해줍니다. 더 쉽습니다. 이번을 제외하면 이러한 기능은 지난 10년간의 대규모 언어 모델의 발전을 통해 구현되었습니다.
Android 엔지니어링 부사장인 Dave Burke는 Google Meet 영상 통화를 통해 "흥미로운 점은 이제 우리가 정말 흥미로운 보조자를 구축할 수 있는 기술을 보유하게 되었다는 것입니다."라고 말했습니다. “우리는 보는 것을 이해하는 컴퓨터 시스템이 필요하지만 당시에는 이를 잘 수행할 수 있는 기술이 없었다고 생각합니다. 이제 그렇습니다.”
저는 Burke와 Google의 Android 생태계 사장인 Sameer Samat와 함께 Android 세계의 새로운 소식, 회사의 새로운 AI 비서 제미니(Gemini) 및 OS의 미래에 대한 모든 내용에 대해 이야기할 기회를 얻었습니다. Samat는 이러한 업데이트를 "휴대폰의 기능을 재구상하고 Android 전체를 다시 생각해 볼 수 있는 한 세대에 한 번뿐인 기회"라고 말했습니다.
이는 Google이 모바일에서 검색에 접근하는 새로운 방법인 서클(Circle) to Search로 시작됩니다. 회사가 몇 달 전에 데뷔한 Now on Tap의 경험과 마찬가지로 서클(Circle) to Search는 단순히 검색창에 입력하는 것보다 더 대화형입니다. (문자 그대로 화면에서 검색하려는 항목에 서클(Circle) .) Burke는 "매우 본능적이고 재미있으며 현대적인 검색 방법입니다. 사용하기가 너무 재미있기 때문에 젊은 사용자에게도 적합합니다."라고 말합니다.
Samat는 Google이 소비자로부터 긍정적인 피드백을 받았다고 주장하지만 서클(Circle) to Search의 최신 기능은 특히 학생 피드백에서 비롯되었습니다. 서클(Circle) to Search는 이제 사용자가 물리 및 수학 문제에 동그라미를 치는 경우 사용할 수 있습니다. Google은 사용자가 강의 계획서 앱을 떠나지 않고도 문제를 완료하기 위한 단계별 지침을 제공합니다.
Samat는 제미니(Gemini) 단순히 답변을 제공하는 것이 아니라 학생들에게 문제 해결 방법을 보여주고 있다는 점을 분명히 했습니다. 올해 후반에는 서클(Circle) to Search를 통해 다이어그램이나 그래프와 같은 보다 복잡한 문제를 해결할 수 있을 것입니다. 이 모든 기능은 교육용으로 정밀하게 조정된 Google의 LearnLM 모델을 기반으로 합니다.
제미니(Gemini) 여러 면에서 Google Assistant를 능가하는 Google의 AI 도우미입니다. 실제로 요즘 대부분의 Android 휴대전화 에서 Google 어시스턴트를 실행하면 대신 제미니(Gemini) 로 교체할 수 있는 옵션이 있습니다. 그래서 자연스럽게 나는 Burke와 Samat에게 이것이 어시스턴트가 Google 묘지 로 향하고 있다는 뜻인지 물었습니다.
Samat는 " 제미니(Gemini) 전화를 통한 선택적인 경험이라는 관점에서 볼 수 있습니다."라고 말합니다. “분명히 시간이 지남에 따라 제미니(Gemini) 더욱 발전하고 발전하고 있다고 생각합니다. 오늘 발표할 내용은 없지만 소비자가 이 새로운 AI 기반 비서를 선택하려는 경우 선택할 수 있습니다. 그들은 그것을 시험해 볼 수 있고 우리는 사람들이 그렇게 하고 있다는 것을 보고 있으며 우리는 많은 좋은 피드백을 받고 있습니다.”
I/O에서 Android용 제미니(Gemini) 업데이트는 약 10년 전의 Now on Tap과 마찬가지로 상황에 맞는 인식을 향상시키는 것입니다. 올해 말에는 제미니(Gemini) 로 이미지를 생성하고 Gmail이나 Google 메시지와 같은 앱에 끌어다 놓을 수 있게 됩니다. Burke는 피클을 사용하여 테니스 이미지를 생성하는 제미니(Gemini) 의 예를 보여주었습니다. 그는 피클볼 게임에 대한 누군가의 문자에 응답하고 있었습니다. 그는 메시징 앱 위에 오버레이로 나타나는 제미니(Gemini) 이미지 생성을 요청한 다음 이미지를 채팅에 끌어서 놓았습니다.
그런 다음 그는 피클볼 규칙에 대한 YouTube 동영상을 가져왔습니다. 시청하는 동안 제미니(Gemini) 전화를 걸면 "이 비디오에 물어보세요"라는 메시지가 표시됩니다. 이를 통해 제미니(Gemini) 사용하면 전체 내용을 직접 검색하지 않고도 비디오에서 특정 정보를 찾을 수 있습니다. (누가 그럴 시간이 있겠는가?) Burke는 구체적인 피클볼 규칙에 대해 물었고 제미니(Gemini) 영상을 바탕으로 빠르게 답변을 내놓았습니다. 이 "요약" 기능은 PDF, 비디오, 메모 및 뉴스 기사를 요약하는 많은 AI 도구의 특징이었습니다.
PDF 얘기가 나와서 말인데, 곧 제미니(Gemini) 에 PDF를 첨부할 수 있게 되며(“이 PDF에 문의하세요”라는 메시지가 표시됨) 제미니(Gemini) 특정 정보를 전달할 수 있으므로 여러 페이지를 스크롤할 필요가 없습니다. Burke는 이러한 기능이 앞으로 몇 달에 걸쳐 수백만 대의 장치에 출시될 것이라고 말했습니다. 하지만 PDF 기능은 Google AI 모델의 최첨단 기능에 액세스하기 위해 월 20달러의 구독료를 지불하는 제미니(Gemini) Advanced 사용자에게만 제공될 것입니다.
제미니(Gemini) 일반적으로 화면에서 일어나는 일에 따라 더 많은 "동적 제안"을 표시합니다. 어시스턴트를 활성화하면 제미니(Gemini) 오버레이 바로 위에 팝업이 표시됩니다.
제미니(Gemini) Nano 는 Pixel 8 시리즈 , Samsung Galaxy S24 제품군 , 심지어 새로운 Pixel 8A 와 같은 특정 휴대폰의 일부 기기 기능을 지원하는 Google의 대규모 언어 모델입니다. 이러한 기능을 기기 내 기능으로 실행하면 데이터를 클라우드로 전송할 필요가 없으므로 기능을 더욱 비공개적으로 만들 수 있습니다. 오프라인에서도 작업할 수 있습니다.
Nano는 현재 텍스트를 요약하는 Google 녹음기 앱의 요약과 메시지에 대해 보다 상황에 맞는 자동 회신을 제공하는 일부 메시징 앱의 스마트 답장과 같은 기능을 지원합니다. Google의 최신 버전 모델인 다중 모드 기능을 갖춘 제미니(Gemini) Nano가 올해 Pixel 휴대폰부터 출시될 예정입니다. 말이 비트(Bit) 많지만 이는 제미니(Gemini) Nano가 단순히 텍스트를 처리하는 것 이상의 일을 할 수 있다는 것을 의미합니다.
Burke는 "이것은 38억 개의 매개변수 모델이며 다중 모드입니다. 이는 최초의 기기 내장 다중 모드 모델입니다."라고 말합니다. “매우 강력합니다. 학문적 벤치마크에서 제미니(Gemini) 1.0의 약 80%에 도달했는데, 이는 작은 모델로서는 꽤 놀라운 수치입니다.”
이제 이 모델은 시각 장애인 및 저시력 사용자가 화면 내용을 이해하는 데 도움이 되는 Google의 기존 Android TalkBack 화면 판독기 기능을 강화합니다. 제미니(Gemini) Nano는 각 이미지의 내용에 대해 더욱 풍부하고 정확한 설명을 제공할 것으로 알려졌습니다. Google에서는 TalkBalk 사용자가 하루 평균 90개의 라벨이 없는 이미지를 본다고 말하지만 제미니(Gemini) 사용자가 오프라인일 때에도 화면의 이미지를 시각화하고 이해하며 설명할 수 있기 때문에 그 격차를 메울 수 있습니다.
Google은 지난 몇 년 동안 자동녹음전화를 제한하기 위해 통화 선별 기술을 개선하는 데 많은 AI 스마트 기능을 쏟아부었습니다. 다중 모드 기능을 갖춘 제미니(Gemini) Nano는 곧 실시간으로 전화 사기를 방지하는 데 도움이 될 것입니다. 사기 감지라는 새로운 기능을 사용하면 제미니(Gemini) 귀하의 전화 통화를 듣고 상대방의 특정 문구나 요청을 포착하면 귀하가 사기 전화 중일 가능성이 높다는 경고를 발행합니다. . Burke는 이 모델이 BanksNeverAskThat.com 과 같은 웹사이트의 데이터로 훈련되어 은행이 사용자에게 묻지 않는 것과 사기꾼이 일반적으로 요구하는 유형을 학습했다고 말했습니다. 그는 이 모든 청취 및 감지가 기기 내에서 이루어지기 때문에 비공개라고 말합니다. 올해 말에 이 "선택 기능"에 대해 더 자세히 듣게 될 것입니다.
특이하게도 Google은 모든 새로운 기능을 오늘 발표에 압축하는 대신 내일 몇 가지 새로운 Android 기능을 공개할 것이라고 밝혔습니다. 더 많은 소식을 계속 지켜봐 주시기 바랍니다.
스마트폰을 대체하기 위해 경쟁하는 AI 하드웨어 장치 의 부상과 앱 없는 생성 인터페이스에 대한 논의 로 나는 Samat에게 향후 5년 동안 Android가 어떻게 변할 것이라고 생각하는지 물었습니다. 그는 새로운 회사와 기존 회사가 새로운 것을 시도하는 혁신을 보고 기쁘게 생각하며 Google도 "내부적으로 많은 것을 시도"하고 있습니다. 그러나 그는 자동차 분야에 대한 비유로 요약했습니다.
자동차를 구입하면 스티어링 휠과 같은 특정 표준 기능을 기대하게 됩니다. 그러나 AI를 사용하면 스티어링 휠이나 인터페이스가 없는 이러한 기능을 제거하는 것이 큰 도약이 될 것입니다. "어떤 사람들은 그것에 대해 흥분할 것이고, 어떤 사람들은 그것에 대해 흥분하지 않을 것입니다." 그는 우리가 휴대폰에서 수행하는 특정 기능이 AI의 도움으로 그 어느 때보다 도움이 될 것이라고 믿으며 일부 기능은 그런 방식으로 대체될 것으로 예상할 수 있습니다.
“계속 진행되면서 우리가 발견하게 될 것은(이미 자체 테스트에서 확인하고 있음) '좋아, 정말 도움이 되네. '에서 '사실 완전히 새로운 방법이 있어야 합니다.' 그게 지금 재미있고 흥미로운 일이에요. 지금은 이 기술을 연구하는 데 있어 놀라운 시간입니다.”