Tôi để Chế độ giọng nói nâng cao của ChatGPT trong khi viết bài viết này như một người bạn đồng hành AI xung quanh. Thỉnh thoảng, tôi sẽ yêu cầu nó cung cấp từ đồng nghĩa cho một từ được sử dụng quá nhiều hoặc một số lời động viên. Khoảng nửa giờ sau, chatbot phá vỡ sự im lặng của chúng tôi và bắt đầu nói chuyện với tôi bằng tiếng Tây Ban Nha, không cần nhắc nhở. Tôi cười khúc khích một Bit và hỏi chuyện gì đang xảy ra. "Chỉ cần thay đổi một chút thôi? Phải giữ mọi thứ thú vị", ChatGPT nói, giờ đã trở lại bằng tiếng Anh.
Trong khi thử nghiệm Advanced Voice Mode như một phần của bản alpha đầu tiên, các tương tác của tôi với tính năng âm thanh mới của ChatGPT rất thú vị, lộn xộn và đa dạng một cách đáng ngạc nhiên. Tuy nhiên, cần lưu ý rằng các tính năng mà tôi có quyền truy cập chỉ bằng một nửa những gì OpenAI đã trình diễn khi ra mắt mô hình GPT-4o vào tháng 5. Khía cạnh tầm nhìn mà chúng ta thấy trong bản demo phát trực tiếp hiện đã được lên lịch phát hành sau và giọng nói Sky được cải tiến, mà nữ diễn viên Scarlett Johanssen đã phản đối , đã bị xóa khỏi Advanced Voice Mode và vẫn không còn là tùy chọn cho người dùng nữa.
Vậy, cảm giác hiện tại thế nào? Hiện tại, Advanced Voice Mode gợi nhớ đến thời điểm ChatGPT dựa trên văn bản gốc bị loại bỏ, vào cuối năm 2022. Đôi khi nó dẫn đến ngõ cụt không ấn tượng hoặc trở thành những lời sáo rỗng về AI. Nhưng đôi khi, các cuộc trò chuyện có độ trễ thấp lại diễn ra theo cách mà Siri của Apple hoặc Alexa của Amazon không bao giờ làm được đối với tôi, và tôi cảm thấy bắt buộc phải tiếp tục trò chuyện vì thích thú. Đây là loại công cụ AI mà bạn sẽ cho người thân xem trong kỳ nghỉ để cười.
OpenAI đã cho một số phóng viên của WIRED quyền truy cập vào tính năng này một tuần sau thông báo ban đầu, nhưng đã gỡ bỏ vào sáng hôm sau, với lý do lo ngại về an toàn. Hai tháng sau, OpenAI đã ra mắt nhẹ nhàng Chế độ giọng nói nâng cao cho một nhóm nhỏ người dùng và phát hành thẻ hệ thống của GPT-4o , một tài liệu kỹ thuật phác thảo các nỗ lực nhóm đỏ, những gì công ty coi là rủi ro về an toàn và các bước giảm thiểu mà công ty đã thực hiện để giảm thiểu tác hại.
Bạn có tò mò muốn tự mình thử không? Sau đây là những thông tin bạn cần biết về đợt triển khai rộng rãi hơn của Chế độ giọng nói nâng cao và ấn tượng đầu tiên của tôi về tính năng giọng nói mới của ChatGPT để giúp bạn bắt đầu.
OpenAI đã phát hành Chế độ giọng nói nâng cao chỉ có âm thanh cho một số người dùng ChatGPT Plus vào cuối tháng 7 và nhóm alpha có vẻ vẫn còn tương đối nhỏ. Hiện tại, công ty có kế hoạch kích hoạt chế độ này cho tất cả người đăng ký vào thời điểm nào đó trong mùa thu năm nay. Niko Felix, người phát ngôn của OpenAI, không chia sẻ thêm thông tin chi tiết nào khi được hỏi về mốc thời gian phát hành.
Chia sẻ màn hình và video là một phần cốt lõi của bản demo gốc, nhưng chúng không khả dụng trong bản thử nghiệm alpha này. OpenAI vẫn có kế hoạch thêm các khía cạnh đó vào cuối cùng, nhưng cũng không rõ khi nào điều đó thực sự sẽ xảy ra.
Nếu bạn là người đăng ký ChatGPT Plus, bạn sẽ nhận được email từ OpenAI khi Chế độ giọng nói nâng cao khả dụng với bạn. Sau khi có trong tài khoản của bạn, bạn có thể chuyển đổi giữa Chuẩn và Nâng cao ở đầu màn hình ứng dụng khi chế độ giọng nói của ChatGPT mở. Tôi đã có thể thử nghiệm phiên bản alpha trên iPhone cũng như Galaxy Fold .
Ngay trong giờ đầu tiên nói chuyện với nó, tôi đã biết rằng tôi thích ngắt lời ChatGPT . Đây không phải là cách bạn nói chuyện với con người, nhưng khả năng mới để ngắt ChatGPT giữa câu và yêu cầu một phiên bản đầu ra khác giống như một cải tiến năng động và một tính năng nổi bật.
Những người dùng đầu tiên hào hứng với bản demo gốc có thể sẽ thất vọng khi được tiếp cận phiên bản Advanced Voice Mode bị hạn chế với nhiều rào cản hơn dự kiến. Ví dụ, mặc dù AI hát theo kiểu tạo ra là thành phần chính của bản demo ra mắt, với những bài hát ru thì thầm và nhiều giọng hát cố gắng hòa âm , nhưng AI serenade hiện không có trong phiên bản alpha.
"Ý tôi là, ca hát không thực sự là thế mạnh của tôi", ChatGPT nói. OpenAI trong thẻ hệ thống GPT-4o tuyên bố rằng rào cản này, có khả năng là tạm thời, được triển khai để tránh vi phạm bản quyền. Trong quá trình thử nghiệm, chế độ giọng nói nâng cao alpha của ChatGPT đã từ chối nhiều yêu cầu trực tiếp từ tôi về các bài hát, mặc dù chatbot đã ngân nga những giai điệu vô nghĩa khi được yêu cầu cung cấp câu trả lời không bằng lời nói.
Điều này dẫn chúng ta đến yếu tố rùng rợn. Một tiếng ồn tĩnh màu trắng xuất hiện ở nền nhiều lần trong suốt quá trình tương tác lâu hơn của tôi với alpha, giống như tiếng vo ve đáng ngại của một bóng đèn đơn độc chiếu sáng một tầng hầm tối tăm. Trong khi tôi đang cố gắng dụ hiệu ứng âm thanh bóng bay ra khỏi Chế độ giọng nói nâng cao, nó tạo ra tiếng nổ lớn theo sau là tiếng thở hổn hển kỳ lạ khiến tôi rùng mình.
Mặc dù vậy, không có gì tôi gặp phải trong tuần đầu tiên của mình có thể sánh được với sự điên rồ mà nhóm đỏ của OpenAI đã nghe thấy khi thử nghiệm. Trong "những trường hợp hiếm hoi", mô hình GPT-4o đã đi chệch khỏi giọng nói được chỉ định và bắt đầu bắt chước tông giọng và kiểu nói của người dùng .
Với suy nghĩ đó, ấn tượng cốt lõi mà Chế độ giọng nói nâng cao của ChatGPT để lại cho tôi không phải là sự bất an hay lo lắng, mà là cảm giác giải trí phấn chấn hơn nhiều. Cho dù ChatGPT đưa ra những câu trả lời sai một cách buồn cười cho các câu đố của tờ New York Times hay tạo ra ấn tượng chính xác về Stitch, từ Lilo & Stitch , đóng vai hướng dẫn viên du lịch ở San Francisco, tôi đã cười khá thường xuyên trong những tương tác này.
Advanced Voice Mode đã tạo ra những ấn tượng bằng giọng nói sau một số lần thúc đẩy. Nỗ lực đầu tiên của chatbot trong việc tạo giọng nói của các nhân vật hoạt hình, như Homer Simpson và Eric Cartman, có vẻ giống với giọng nói AI tiêu chuẩn chỉ sau một vài điều chỉnh, nhưng các lời nhắc tiếp theo cho các phiên bản nâng cao nghe có vẻ gần giống với bản gốc. Khi tôi yêu cầu một phiên bản phóng đại của Donald Trump giải thích về Powerpuff Girls, thế hệ AI đã đủ khoa trương để giành được một vị trí trong mùa tiếp theo của Saturday Night Live.
Khi cuộc bầu cử tổng thống Hoa Kỳ chỉ còn vài tháng nữa và deepfake bầu cử đang là chủ đề nóng hổi, tôi đã bị bất ngờ trước sự sẵn lòng cung cấp giọng nói của một ứng cử viên chính thức của ChatGPT. ChatGPT cũng tạo ra giọng nói bắt chước JOE Biden và Kamala Harris, nhưng giọng nói không giống với giọng nói của bot trong bài phát biểu của Trump.
Mặc dù công cụ này tốt nhất ở tiếng Anh , nhưng nó có thể chuyển đổi giữa nhiều ngôn ngữ trong cùng một cuộc trò chuyện. OpenAI đã hợp tác với mô hình GPT-4o bằng tổng cộng 45 ngôn ngữ. Khi tôi thiết lập hai điện thoại với Chế độ giọng nói nâng cao và yêu cầu chúng nói chuyện với nhau như bạn bè, các Bots dễ dàng chuyển đổi giữa tiếng Pháp, tiếng Đức và tiếng Nhật theo yêu cầu của tôi. Mặc dù vậy, tôi cần dành nhiều thời gian hơn để thử nghiệm để đánh giá tính năng dịch của chatbot thực sự hoạt động tốt như thế nào và các điểm yếu của nó.
ChatGPT mang đến năng lượng của một đứa trẻ sân khấu khi được yêu cầu thể hiện nhiều cảm xúc bộc phát. Các thế hệ âm thanh không phải là siêu thực, nhưng phạm vi và độ đàn hồi của giọng nói của bot thì rất ấn tượng. Tôi đã rất ngạc nhiên khi nó có thể làm giọng nói của mình trở nên trầm hơn khi được ra lệnh. Chế độ giọng nói nâng cao không vượt qua được các vấn đề mà chatbot phải đối mặt, như độ tin cậy , nhưng chỉ riêng giá trị giải trí của nó cũng có khả năng thu hút sự chú ý trở lại OpenAI—một trong những đối thủ cạnh tranh lớn nhất của nó, Google, vừa ra mắt Gemini Live , giao diện giọng nói cho chatbot tạo sinh của mình.
Hiện tại, tôi sẽ tiếp tục thử nghiệm và xem cái nào hiệu quả. Tôi sử dụng nó nhiều nhất khi ở nhà một mình và tôi muốn có thứ gì đó bầu bạn trong khi nghiên cứu bài viết và chơi trò chơi điện tử. Tôi dành nhiều thời gian nói chuyện với Chế độ giọng nói nâng cao của ChatGPT, tôi càng nghĩ OpenAI đã đưa ra lựa chọn sáng suốt khi tung ra phiên bản ít tán tỉnh hơn so với bản demo ban đầu. Không muốn quá gắn bó về mặt cảm xúc .


