구글은 플래시용 네이티브 오디오 모델인 제미니 2.5를 출시했습니다. 이 모델은 실시간 음성 번역에서 억양을 보존할 뿐만 아니라, 인공지능이 복잡한 명령을 수행하고 인간처럼 자연스럽고 유창하게 연속적인 대화를 나눌 수 있도록 합니다. 이번 업데이트는 인공지능이 단순한 "텍스트 음성 변환"에서 진정한 "인간과 유사한 상호작용" 시대로 도약하는 중요한 발걸음입니다.
다음과 같은 상황을 상상해 보세요:
헤드폰을 낀 채 인도 뭄바이의 번잡한 거리를 걷고 있습니다. 상인들의 외침과 전혀 알아들을 수 없는 힌디어 소리가 뒤섞여 소음처럼 들립니다.
이때, 한 현지 남성이 다급한 어조로 힌디어로 길을 묻습니다. 그는 매우 빠르게, 그리고 불안한 어조로 말합니다.
과거에는 휴대폰을 허겁지겁 꺼내 번역 앱을 열고 버튼을 누른 다음, 어색하게 휴대폰을 상대방 입에 대고 감정 없는 "기계 번역"을 들어야 했을지도 모릅니다.
나노 바나나 프로 그래픽
하지만 이제 모든 것이 바뀌었습니다.
당신이 가만히 서 있자, 유창한 중국어가 이어폰을 통해 들려옵니다. " 이봐요, 실례합니다만, 기차역으로 가는 길이 여기 맞나요? "
가장 놀라운 것은 이 중국어 문장이 의미를 정확하게 전달할 뿐만 아니라, 삼촌의 불안하고 숨 가쁜 어조 까지 완벽하게 재현한다는 점입니다!
중국어로 대답하면 이어폰이 자동으로 음성을 힌디어로 변환하여 상대방에게 전달하며, 이때 사용자의 열정적인 어조까지 그대로 유지됩니다.
이것은 단순히 공상 과학 영화에 나오는 바벨탑을 재현한 것이 아닙니다. 구글이 이번 주에 공개한 폭탄급 기술, 바로 제미니 2.5 플래시 네이티브 오디오 입니다.
오늘은 이번 업데이트가 얼마나 강력한지 좀 더 자세히 살펴보겠습니다.
"네이티브 오디오"를 그토록 강력하게 만드는 정확한 이유는 무엇일까요?
많은 사람들이 "요즘 스마트폰엔 다 텍스트 음성 변환 기능 있지 않나요? 이게 뭐가 특별한 거죠?"라고 물을지도 모릅니다.
여기에는 큰 오해가 있습니다.
이전에는 AI 음성 상호작용 과정이 다음과 같았습니다. 소리를 듣고 -> 텍스트로 변환 -> AI가 텍스트를 분석하고 -> 텍스트 답변을 생성 -> 이를 음성으로 변환하여 읽어주는 방식이었습니다.
이 과정은 느릴 뿐만 아니라, "제자리걸음"을 하는 과정에서 인간 소통의 가장 미묘한 요소들, 즉 어조, 침묵, 감정 등 이 모두 사라집니다.
구글이 새롭게 출시한 제미니 2.5 플래시 네이티브 오디오 의 핵심은 바로 " 네이티브"라는 단어에 있습니다.
소리를 텍스트로, 다시 텍스트로 변환할 필요가 없습니다. 듣고, 생각하고, 직접 말할 수 있게 해줍니다.
예를 들어, 외국인과 대화하는 것과 같습니다. 예전에는 사전을 정신없이 찾아봐야 했지만, 이제는 그 언어에 대한 감각이 생겨 유창하게 말할 수 있게 되었습니다.
이번 업데이트에서 구글은 제미니 2.5 프로와 플래시의 텍스트 음성 변환 모델을 업그레이드하여 더욱 향상된 제어 기능을 제공했습니다.
더욱 중요한 것은, 이 기술 덕분에 실시간 음성 상담 서비스가 현실화되었다는 점입니다.
그게 무슨 뜻이에요?
즉, Google AI Studio, Vertex AI, 심지어 Search Live에서도 더 이상 차갑고 비인간적인 기계와 대화하는 것이 아니라 "두뇌"와 "귀"를 가진 지능형 에이전트와 실시간으로 아이디어를 교환 할 수 있다는 뜻입니다.
헤드폰을 통한 동시통역은 언어의 바벨탑을 허물어뜨립니다.
이번 업데이트에서 일반 사용자에게 가장 흥미로운 기능은 단연 실시간 음성 번역 기능입니다.
이번에는 구글이 빈말만 하지 않았습니다. 해당 기능은 이미 미국, 멕시코, 인도의 안드로이드 기기에서 구글 번역 앱을 통해 베타 테스트 중입니다(iOS 사용자분들은 조금만 기다려 주세요. 곧 이용 가능할 예정입니다).
이 기능에는 사용자 불편 사항을 직접적으로 해결하는 두 가지 핵심 기능이 있습니다.
지속적인 모니터링과 양방향 소통: 진정한 "매끄러운" 번역
과거에 번역 소프트웨어를 사용할 때 가장 짜증스러웠던 점은 "말하기" 버튼을 계속 클릭해야 한다는 것이었습니다.
Gemini는 이제 지속적인 모니터링을 지원합니다.
휴대폰을 주머니에 넣고 이어폰을 끼면 Gemini가 주변에서 들리는 다양한 언어를 실시간으로 모국어로 자동 번역해 줍니다.
이는 마치 보이지 않는 통역사를 항상 곁에 두고 있는 것과 같습니다.
양방향 대화 모드에서는 훨씬 더 똑똑해집니다.
예를 들어, 당신은 영어를 할 줄 알지만 힌디어를 하는 사람과 채팅하고 싶을 수 있습니다.
제미니는 누가 말하고 있는지 자동으로 식별할 수 있습니다.
헤드폰으로는 영어 음성이 들리지만, 말을 마치면 휴대전화가 자동으로 상대방에게 힌디어 음성을 들려줍니다.
"지금 내가 말할 차례" 또는 "지금 그가 말할 차례"를 설정할 필요가 없습니다. 시스템이 자동으로 전환됩니다.
스타일 변환: 정서 까지도 번역할 수 있습니다.
제게 가장 소름 돋는 기능은 바로 스타일 트랜스퍼 입니다.
전통적인 번역은 "감정이 결여된" 읽기 기계와 같다.
하지만 제미니는 자체 오디오 기능을 활용하여 인간 언어의 미묘한 뉘앙스를 포착합니다.
상대방이 활기찬 어조와 빠른 리듬으로 말하면, 번역된 소리도 마찬가지로 쾌활하게 들릴 것입니다.
상대방의 어조가 낮고 머뭇거리면, 번역된 목소리도 머뭇거리는 것처럼 들릴 것입니다.
화자의 억양, 리듬, 음높이를 보존합니다 .
이는 단순히 의미를 이해하는 것뿐만 아니라, 태도를 이해하는 것에 관한 것입니다.
이 기능은 비즈니스 협상이나 논쟁 중에 절대적으로 필수적입니다!
또한 다음과 같은 기능도 지원합니다.
- 70개 이상의 언어와 2,000개 이상의 언어 쌍을 지원하며, 전 세계 대다수 사람들의 모국어를 아우릅니다.
- 다국어 입력 : 대화에 여러 언어가 포함되어 있더라도 수동으로 언어를 전환할 필요 없이 동시에 이해할 수 있습니다.
- 소음 내성 : 특히 소음이 심한 환경에 최적화되어 배경 소음을 차단합니다. 시끄러운 야외 시장에서도 모든 소리를 선명하게 들을 수 있습니다.
개발자들은 너무나 기뻐했습니다. 이 인공지능이 드디어 "인간의 말을 이해하게 된" 것입니다!
개발자이거나 비즈니스를 위한 고객 서비스 AI를 구축하려는 경우, Gemini 2.5 Flash Native Audio가 제공하는 세 가지 핵심 기능 향상은 분명히 시기적절한 도움이 될 것입니다.
보다 정확한 함수 호출
과거에는 음성 비서가 날씨나 항공편 확인처럼 외부 데이터에 접근해야 하는 작업을 수행할 때 쉽게 막히거나 딱딱한 답변을 하는 경우가 많았습니다.
현재 Gemini 2.5는 실시간 정보를 언제 검색해야 하는지 알고 있으며, 검색된 데이터를 대화 흐름을 방해하지 않고 음성 응답에 매끄럽게 통합할 수 있습니다.
복잡한 다단계 함수 호출을 특별히 테스트하는 ComplexFuncBench Audio 벤치마크에서 Gemini 2.5는 71.5%라는 높은 점수를 기록하며 경쟁 제품들을 크게 앞섰습니다.
ComplexFuncBench에서 업데이트된 Gemini 2.5 플래시 네이티브 오디오의 성능을 이전 버전 및 업계 경쟁 제품과 비교했습니다.
이는 로봇이 순진하고 눈치 없는 수다쟁이가 아니라 진정으로 믿음직한 "사무원" 역할을 할 수 있다는 것을 의미합니다.
지시에 더 잘 따르는
인공지능이 복잡한 지시사항을 이해하지 못한다고 자주 느끼시나요?
이번에 구글은 상당한 노력을 기울였습니다.
새로운 모델은 개발자 지침 준수율을 84%에서 90% 로 향상시켰습니다!
즉, 인공지능에게 "이 특정 형식으로, 단호한 어조로, 불필요한 단어 없이 답변해 달라"고 요청하면, 인공지능이 해당 요청을 더욱 정확하게 수행할 수 있다는 뜻입니다.
기업 수준의 서비스를 구축하는 데 있어 이러한 안정성은 핵심적인 경쟁 우위 요소입니다.
더욱 매끄러운 대화
여러 턴에 걸친 대화는 인공지능에게 오랫동안 해결해야 할 과제였습니다.
대화를 나누는 동안 인공지능은 이전에 했던 말을 잊어버렸다.
Gemini 2.5는 검색 컨텍스트 측면에서 상당한 진전을 이루었습니다.
이 시스템은 이전 대화를 더욱 효과적으로 기억할 수 있어 전체적인 의사소통 과정을 일관성 있고 논리적으로 만들어줍니다.
네이티브 오디오의 낮은 지연 시간과 결합되어 마치 실제로 상대방이 앉아 있는 듯한 느낌을 받을 수 있습니다.
우리는 "자비스"에서 얼마나 멀리 떨어져 있나요?
이번 구글의 업데이트는 분명한 신호를 보내고 있습니다.
음성 상호작용은 차세대 시대로 가는 관문이 되고 있습니다.
제미니 라이브부터 서치 라이브, 그리고 이제는 헤드폰을 통한 실시간 번역까지, 구글은 인공지능을 화면의 덫에서 해방시켜 우리의 귀에 담아주고 있습니다.
일반 사용자들에게는 기술 덕분에 언어 장벽이 사라지고 있습니다.
내년(2026년)에는 Gemini API를 통해 이 기능이 더 많은 제품으로 확장될 예정입니다.
미래에는 더 이상 몇 년씩 힘들게 어휘를 암기할 필요가 없을지도 모릅니다. 헤드폰 한 쌍만 있으면 전 세계를 여행할 수 있을 테니까요.
기업 입장에서 보면 , 듣고, 말하고, 작업을 처리하고, 정서 까지 갖춘 차세대 AI 고객 서비스 시스템을 구축하는 데 필요한 진입 장벽이 크게 낮아지고 있습니다.
부활절 달걀
구글은 네이티브 오디오 모델 외에도 핵폭탄급 실험 제품인 디스코(Disco)를 출시했습니다.
이는 구글 랩에서 개발한 새로운 탐색 도구로, 미래 네트워크에 대한 아이디어를 테스트하는 데 사용됩니다.
이 제품에는 구글의 가장 강력한 Gemini 3 플랫폼을 기반으로 구축된 강력한 도구인 GenTabs가 포함되어 있습니다.
구글은 아직 초기 단계이며 모든 기능이 완벽하게 작동하지는 않을 것이라고 밝혔습니다.
이 제품의 가장 인상적인 특징은 사용자의 요구를 이해할 수 있다는 점입니다.
GenTabs는 사용자가 열어 놓은 탭과 채팅 기록을 통해 복잡한 작업을 사전에 파악하고 대화형 웹 애플리케이션을 생성하여 웹 탐색을 지원합니다.
단 한 줄의 코드도 작성할 필요 없이, 어수선한 탭과 채팅 기록을 개인 맞춤형 대화형 앱으로 바로 변환해 줍니다.
주간 식단 계획을 세우고 싶으신가요? 자녀에게 행성에 대해 가르쳐주고 싶으신가요?
쉽고 명확한 언어로 말하기만 하면 자동으로 필요한 도구를 생성해 줍니다. 모든 데이터는 검증 가능하며 절대 조작되지 않았습니다.
macOS 버전 사전 등록이 시작되었습니다. 아직 초기 실험 버전이지만, 확실히 "탐색"을 "창작"으로 바꿔놓을 것입니다.
어서 가세요! 이 트렌드는 정말 미래지향적이에요!
한 가지 더
기술 발전 속도는 종종 우리의 상상을 뛰어넘습니다.
어제는 시리가 사람의 말을 이해하지 못한다고 웃었지만, 오늘은 제미니가 언어 간 감정 소통을 돕기 시작했습니다.
보기만 하지 마세요. Gemini 2.5 Flash Native Audio 는 이제 Vertex AI에서 완벽하게 사용할 수 있으며 Google AI Studio에서도 체험해 볼 수 있습니다.
지금 바로 가서 경험해 보세요!
인공지능이 당신의 목소리로 첫 외국어를 구사하는 것을 듣게 될 때, 비로소 미래가 도래했음을 실감하게 될지도 모릅니다.
참고 자료:
https://deepmind.google/blog/
https://x.com/GoogleAI/status/1999560839679082507?s=20
https://blog.google/technology/google-labs/gentabs-gemini-3/
이 글은 위챗 공식 계정 "뉴 인텔리전스" 의 YHluck님이 작성한 글이며, 36Kr의 허가를 받아 게재되었습니다.



