이 기사를 쓰는 동안 저는 ChatGPT의 고급 음성 모드를 앰비언트 AI 컴패니언 으로 사용합니다. 가끔은 과도하게 사용된 단어의 동의어나 격려의 말을 해달라고 요청합니다. 30분쯤 지나서 챗봇 이 저희의 침묵을 깨고 아무런 지시도 없이 스페인어로 말을 걸기 시작합니다. 저는 비트(Bit) 킥킥 웃으며 무슨 일인지 묻습니다. "그냥 약간 바꿔요? 흥미로운 걸 유지해야 해요." ChatGPT가 다시 영어로 말합니다.
초기 알파의 일부로 고급 음성 모드를 테스트하는 동안 ChatGPT의 새로운 오디오 기능과의 상호작용은 재미있고 지저분했으며 놀랍게도 다양했습니다. 하지만 제가 액세스할 수 있었던 기능은 OpenAI가 5월에 GPT-4o 모델을 출시했을 때 보여준 것의 절반에 불과하다는 점은 주목할 만합니다. 라이브 스트리밍 데모에서 본 비전 측면은 이제 나중에 출시될 예정이며, Her 배우 Scarlett Johanssen이 반대했던 향상된 Sky 음성은 고급 음성 모드에서 제거되었으며 여전히 사용자에게 더 이상 옵션이 아닙니다.
그럼, 지금의 분위기는 어떤가요? 지금의 Advanced Voice Mode는 2022년 말에 출시된 원래 텍스트 기반 ChatGPT를 떠올리게 합니다. 때로는 인상적이지 않은 막다른 길로 이어지거나 공허한 AI 진부함으로 전락하기도 합니다. 하지만 다른 때는 Apple의 Siri나 Amazon의 Alexa가 결코 해내지 못했던 방식으로 저지연 대화가 딱 맞아떨어지고, 즐거움을 위해 계속 채팅을 하고 싶은 충동을 느낍니다. 휴일에 친척들에게 웃음을 주기 위해 보여줄 만한 종류의 AI 도구입니다.
OpenAI는 최초 발표 후 일주일 만에 WIRED 기자 몇 명에게 이 기능에 대한 접근 권한을 주었지만, 안전 문제를 이유로 다음날 아침 철회했습니다. 2개월 후, OpenAI는 소수의 사용자에게 Advanced Voice Mode를 소프트 런칭하고 GPT-4o의 시스템 카드를 공개했습니다. 이 기술 문서는 레드팀 활동, 회사가 안전 위험으로 간주하는 사항, 회사가 피해를 줄이기 위해 취한 완화 단계를 설명합니다.
직접 시도하고 싶으신가요? 고급 음성 모드의 대규모 출시에 대해 알아야 할 사항과 ChatGPT의 새로운 음성 기능에 대한 첫인상을 알려드리니 시작하는 데 도움이 될 것입니다.
OpenAI는 7월 말에 일부 ChatGPT Plus 사용자에게 오디오 전용 Advanced Voice Mode를 출시했으며, 알파 그룹은 여전히 비교적 작은 것으로 보입니다. 이 회사는 현재 올 가을에 모든 구독자에게 이를 제공할 계획입니다. OpenAI의 대변인인 니코 펠릭스는 출시 일정에 대한 질문을 받았을 때 추가 세부 정보를 공유하지 않았습니다.
화면 및 비디오 공유는 원래 데모의 핵심 부분이었지만 이 알파 테스트에서는 사용할 수 없습니다. OpenAI는 결국 이러한 측면을 추가할 계획이지만 실제로 언제 추가될지는 불분명합니다.
ChatGPT Plus 구독자라면 고급 음성 모드를 사용할 수 있을 때 OpenAI에서 이메일을 받게 됩니다. 계정에 추가된 후 ChatGPT 음성 모드가 열려 있을 때 앱 화면 상단에서 표준 과 고급 간에 전환할 수 있습니다. 저는 iPhone 과 Galaxy Fold 에서 알파 버전을 테스트할 수 있었습니다.
처음 한 시간 동안 대화한 후, 저는 ChatGPT를 중단하는 것을 좋아한다는 것을 알게 되었습니다. 사람과 대화하는 방식은 아니지만, ChatGPT를 문장 중간에 끊고 다른 버전의 출력을 요청할 수 있는 새로운 기능은 역동적인 개선 사항이며 눈에 띄는 기능이라고 느껴집니다.
원래 데모에 흥분했던 얼리 어답터들은 예상보다 더 많은 가드레일로 제한된 Advanced Voice Mode 버전에 액세스하는 데 좌절할 수 있습니다. 예를 들어, 생성 AI 노래는 속삭이는 자장가 와 여러 음성이 조화를 이루려는 시도 와 함께 출시 데모의 핵심 구성 요소였지만, AI 세레나데는 현재 알파 버전에서 빠져 있습니다.
ChatGPT는 "노래는 제 강점이 아니잖아요."라고 말합니다. GPT-4o 시스템 카드 의 OpenAI는 이 가드레일이 저작권 침해를 피하기 위해 구현되었을 가능성이 있다고 주장합니다. 테스트하는 동안 ChatGPT의 고급 음성 모드 알파는 제 노래에 대한 여러 가지 직접 요청을 거부했지만, 챗봇은 비언어적 답변을 제공하라는 요청을 받았을 때 말도 안 되는 곡을 흥얼거렸습니다.
여기서 소름 돋는 요소가 나옵니다. 알파와 더 오래 상호작용하는 동안 배경에 여러 번 흰색 정전 소음이 들렸는데, 마치 어두운 지하실을 비추는 외로운 전구의 불길한 윙윙거리는 소리와 같았습니다. 고급 음성 모드에서 풍선 사운드 효과를 끌어내려고 했을 때 큰 팡 소리가 나고 그 다음에 오싹한 헐떡임 소리가 나서 소름이 끼쳤습니다.
하지만, 첫 주 동안 내가 마주친 것은 OpenAI의 레드팀원들이 테스트하는 동안 들은 광기만큼은 아니었습니다. "드문 경우" GPT-4o 모델은 할당된 음성에서 벗어나 사용자의 음성 톤과 음성 패턴을 모방하기 시작했습니다.
이를 염두에 두고, ChatGPT의 고급 음성 모드가 저에게 남긴 핵심적인 인상은 불안이나 우려의 감정이 아니라 훨씬 더 활기찬 오락적 감각이었습니다. ChatGPT가 뉴욕 타임스 퍼즐에 웃기게도 틀린 답을 주든, 리로와 스티치 의 스티치를 샌프란시스코 투어 가이드로 정확히 표현하든, 저는 이런 상호작용을 하는 동안 꽤 자주 웃었습니다.
고급 음성 모드는 약간의 넛징 후 음성 인상을 생성하는 데 견고했습니다. 호머 심슨과 에릭 카트먼과 같은 애니메이션 캐릭터 음성에 대한 챗봇의 첫 시도는 몇 가지 조정만 거치면 표준 AI 음성처럼 보였지만, 강화된 버전에 대한 후속 프롬프트는 원본과 알아볼 수 있을 정도로 가깝게 들렸습니다. 파워퍼프 걸을 설명하는 도널드 트럼프의 과장된 버전을 요청했을 때, AI 세대는 Saturday Night Live의 다음 시즌에 자리를 차지할 만큼 충분히 캠피했습니다.
미국 대선이 몇 달 앞으로 다가왔고 선거 딥페이크가 떠오르 면서, ChatGPT가 주요 후보자의 음성 인상을 제공하려는 의지에 나는 깜짝 놀랐다. ChatGPT는 트레이더 조(JOE) 이든과 카말라 해리스의 모방도 생성했지만, 그 목소리는 봇이 트럼프 연설을 해석한 것만큼 비슷하지 않았다.
이 도구는 영어에 가장 좋지만 , 동일한 대화 내에서 여러 언어를 전환할 수 있습니다. OpenAI는 총 45개 언어를 사용하여 GPT-4o 모델을 레드팀으로 구성했습니다. 두 대의 전화기에 고급 음성 모드를 설정하고 친구처럼 서로 대화하게 했을 때, 봇은 제 요청에 따라 프랑스어, 독일어, 일본어로 쉽게 전환되었습니다. 하지만 챗봇의 번역 기능이 실제로 얼마나 잘 작동하는지, 그리고 약점이 있는지 측정하기 위해 더 많은 시간을 테스트에 할애해야 합니다.
ChatGPT는 다양한 감정 폭발을 연기하라는 요청을 받았을 때 극장 어린이의 에너지를 가져왔습니다. 오디오 세대는 매우 사실적이지 않았지만 봇 음성의 범위와 탄력성은 인상적이었습니다. 명령에 따라 적절한 보컬 프라이를 할 수 있다는 사실에 놀랐습니다. 고급 음성 모드는 신뢰성과 같은 챗봇이 직면한 문제를 극복하지는 못하지만, 엔터테인먼트 가치만으로도 OpenAI로 다시 주목을 끌 수 있습니다. 가장 큰 경쟁자 중 하나인 Google은 생성 챗봇을 위한 음성 인터페이스인 제미니(Gemini) Live를 출시했습니다 .
지금은 계속 테스트하고 어떤 게 잘 맞는지 보겠습니다. 집에 혼자 있을 때 가장 많이 사용하는데, 기사를 조사하고 비디오 게임을 할 때 나를 지켜줄 무언가가 필요합니다. ChatGPT의 고급 음성 모드로 대화하는 시간이 길어질수록 OpenAI가 원래 데모했던 것보다 덜 유혹적인 버전을 출시한 것이 현명한 선택이라고 생각합니다. 감정적으로 너무 집착 하고 싶지 않습니다.


