목차
비녀장구글은 15일 플래시 TTS(텍스트 음성 변환) 도구인 제미니 3.1을 공식 출시하며 음성 분야에 집중하고 있다. 새로운 기능인 "오디오 태그"를 통해 개발자들은 마치 영화감독처럼 텍스트 명령과 인공지능 음성의 모든 세부 사항을 정밀하게 계획할 수 있게 된다.
구글의 공식 발표 에 따르면, Gemini 3.1 Flash TTS가 오늘부터 세 가지 방식으로 동시에 출시됩니다. 개발자는 Gemini API와 Google AI Studio를 통해 먼저 체험해 볼 수 있으며, 기업 사용자는 Vertex AI를 통해, Google Workspace 및 개인 계정 사용자는 Google Videos에서 직접 이용할 수 있습니다. 이번 출시와 함께 16개의 새로운 언어가 추가됩니다.
Elo 1,211 최고 레이팅
품질 측면에서 구글은 자사의 주장을 뒷받침하기 위해 제3자 데이터를 직접 인용했습니다. 수천 건의 블라인드 테스트 결과를 바탕으로 작성된 인공 분석 TTS 순위표 에서 3.1 Flash TTS는 1,211점의 Elo 점수를 획득하여 "가장 매력적인 사분면"에 선정되었습니다. 이는 고품질 음성 생성과 저렴한 비용이라는 장점을 동시에 갖추고 있음을 의미합니다. 또한 70개 이상의 언어를 지원하며, 다인용 대화 시나리오를 기본적으로 지원합니다.
오디오 태그: 개발자들에게 감독 자리를 넘겨주다
가장 중요한 기술적 업데이트는 개발자가 자연어 명령어를 텍스트 입력에 직접 삽입할 수 있도록 하는 "오디오 태그" 기능으로, 이를 통해 AI 음성에 대한 세밀한 제어가 가능해지고 단순히 모델이 톤을 추측하는 방식에만 의존하는 단계를 넘어설 수 있습니다. 구글은 전체 경험을 세 가지 계층으로 나누어 설명합니다.
시나리오 중심적 : 개발자는 환경을 정의하고 구체적인 대화 지침을 제공하여, 다양한 캐릭터들이 여러 차례의 대화에 자연스럽게 몰입하고 어조의 변화를 경험할 수 있도록 합니다.
화자 수준의 정밀도 : 캐릭터 목소리는 고유한 오디오 프로필을 통해 구체화되며, 리듬, 톤, 억양은 감독의 주석을 사용하여 역동적으로 변경됩니다. 인라인 태그를 사용하면 화자가 문장 중간에 일시적으로 표정을 바꿀 수 있습니다.
원활한 내보내기 : 성능 매개변수를 확인한 후 Gemini API 코드로 직접 내보낼 수 있으므로 프로젝트 및 플랫폼 전반에 걸쳐 일관된 음성 인식이 가능합니다.
StyleUAI, HeyGen, Invideo AI, Sierra와 같은 초기 사용자들은 이 기술이 일반 텍스트를 감정적으로 공감되는 오디오 콘텐츠로 변환할 수 있다는 점에서 긍정적인 평가를 내렸습니다.
SynthID 워터마킹은 AI가 생성한 오디오에 포괄적인 태그.
한편, Gemini 3.1 Flash TTS로 생성된 모든 오디오에는 SynthID 워터마크가 내장되어 있습니다. 이 워터마크는 오디오 파형에 직접 삽입된 미묘하고 눈에 보이지 않는 태그 으로, 시스템에서 안정적으로 감지하여 AI 생성 콘텐츠를 식별하고 허위 정보 확산을 방지하는 데 도움이 됩니다. 이는 또한 AI 콘텐츠 추적 메커니즘을 발전시키기 위한 Google의 지속적인 노력의 일환입니다.
전반적으로 Flash TTS 3.1의 포지셔닝은 명확합니다. "고품질, 저비용, 강력한 제어 기능"이라는 세 가지 요소를 통해 Gemini 생태계의 음성 관련 퍼즐을 완성하는 것입니다. 오디오 태그의 도입으로 이전에는 전문 녹음 스튜디오에서만 가능했던 감독 스타일의 음성 제어 기능을 API 형태로 전 세계 개발자들이 이용할 수 있게 되었습니다.






