Một đòn quyết định: OpenAI chính thức chiếm lĩnh vị trí của tai người với sự ra đời của mô hình suy luận âm thanh cấp độ GPT-5 đầu tiên.

avatar
36kr
05-12
Bài viết này được dịch máy
Xem bản gốc

[Giới thiệu] Một đòn quyết định! OpenAI ra mắt GPT-Realtime-2: mô hình suy luận âm thanh cấp độ GPT-5 đầu tiên. OpenAI chính thức thay thế thính giác con người. "Bức tường lửa" cuối cùng giữa con người và máy móc—bàn phím—đang biến mất hoàn toàn.

Sáng sớm nay, OpenAI một lần nữa gây chấn động thế giới.

Lần này, họ sẽ không tập trung vào văn bản hay video; họ sẽ đưa Samantha - trí tuệ nhân tạo từ bộ phim "Her" - vào đời thực. Cô ấy đã khiến vô số người kinh ngạc và đau lòng.

OpenAI chính thức thông báo ra mắt GPT-Realtime-2 .

Đây không chỉ là nâng cấp cho mô hình âm thanh; đây là lần đầu tiên OpenAI chủ động tích hợp khả năng suy luận "ở cấp độ GPT-5" vào tương tác bằng giọng nói.

Đi kèm với đó là GPT-Realtime-Translate và GPT-Realtime-Whisper.

Như blog chính thức của OpenAI đã nêu, "Giọng nói đang trở thành cách tự nhiên nhất để mọi người sử dụng phần mềm."

Ngày nay, OpenAI hướng đến việc chuyển đổi trạng thái tự nhiên này thành một hệ thống toàn diện.

Chèn suy luận "Cấp độ GPT-5": Trợ lý giọng nói cuối cùng cũng có "trí tuệ"

Hãy nhớ lại hồi bạn hay trêu chọc Siri hoặc Alexa, điều bạn phàn nàn nhiều nhất là gì? Có phải là vì chúng "không nghe rõ bạn nói" hay vì chúng "ngu ngốc"?

Hầu hết các trường hợp đều là vế sau. Họ có thể nghe rõ các từ, nhưng không thể hiểu lời nói của con người. Họ chỉ có thể hoàn thành nhiệm vụ tuyến tính như "gọi cho người này người kia", và một khi vướng vào những vướng mắc logic phức tạp, họ sẽ bị mắc kẹt trong một vòng luẩn quẩn.

GPT-Realtime-2 đã chấm dứt hoàn toàn kỷ nguyên này.

Đây là mô hình âm thanh đầu tiên trên thế giới có khả năng suy luận ở cấp độ GPT-5. Điều này có nghĩa là khi bạn nói chuyện với nó, nó không chỉ đơn thuần là một "bộ lặp" mà là một cộng tác viên đang suy nghĩ trong thời gian thực.

Đó thực sự là "suy nghĩ".

GPT-Realtime-2 giới thiệu tính năng điều chỉnh cường độ suy luận (năm cấp độ từ Tối thiểu đến rất cao).

Ở chế độ suy luận cấp cao nhất, nó thể hiện khả năng giải quyết các câu đố logic, đưa ra quyết định chiến lược và nhận thức không gian một cách đáng kinh ngạc.

Trong một trong những nghiên cứu điển hình do OpenAI trình bày, một doanh nhân đã mô tả ý tưởng mở quán cà phê cạnh ga tàu điện ngầm: diện tích 900 feet vuông, tiền thuê đắt đỏ, giờ cao điểm từ thứ Ba đến thứ Năm, và cà phê pha nhỏ giọt theo phong cách nghệ thuật.

Trước đây, trí tuệ nhân tạo chỉ có thể nói, "Nghe tuyệt vời đấy, cứ tiếp tục nhé!"

Phiên bản GPT-Realtime-2 hiện tại sẽ tạm dừng, xử lý thông tin, sau đó cung cấp cho bạn bản "đánh giá sau sự kiện" chi tiết.

Nó sẽ cho bạn biết rằng nếu bạn vỡ nợ sau một năm, rất có thể là do sự không phù hợp giữa tiền thuê nhà và chu kỳ lưu lượng khách hàng. Sau đó, nó sẽ đề xuất bạn thử một "sản phẩm khả thi tối thiểu" trước tiên—ví dụ, bắt đầu bằng việc mở một quầy cà phê tại một nhà ga.

Trước đây, kiểu tư duy chiến lược này chỉ có thể thực hiện được trong các cuộc hội thoại văn bản phức tạp. Giờ đây, bạn có thể trò chuyện với nó khi đang lái xe, và nó có thể đưa ra những phân tích độ sâu sắc tương tự chỉ trong vài giây thông qua phát trực tuyến âm thanh.

"Kỹ năng giao tiếp tốt": Tối đa hóa giá trị tâm lý

Điều đáng sợ nhất là khả năng kiểm soát giọng điệu của nó. GPT-Realtime-2 không còn là giọng nói lạnh lùng, vô cảm của người phát thanh viên nữa.

Nó có thể cảm nhận được tâm lý của bạn: khi bạn cảm thấy bực bội, nó sẽ xoa dịu bạn bằng giọng điệu đồng cảm và nhẹ nhàng hơn; khi nhiệm vụ được hoàn thành thành công, giọng nói của nó sẽ trở nên vui vẻ và tràn đầy năng lượng.

Nó có khả năng suy luận không gian.

Nó cũng có thể giải các câu đố logic.

Khả năng suy luận ở cấp độ GPT-5 rất đa năng.

Để giải quyết vấn đề "cô đơn" của AI khi xử lý nhiệm vụ, OpenAI đã thêm tính năng "lời mở đầu".

Ví dụ, khi bạn hỏi một câu hỏi cực kỳ khó, nó sẽ không dừng lại năm giây rồi đột nhiên đưa ra câu trả lời. Thay vào đó, nó sẽ tự nhiên tiếp tục bằng câu, "Để tôi kiểm tra giúp bạn, vui lòng chờ một chút..."

Những chi tiết tương tác mang tính con người cao này đã làm mờ ranh giới giữa sự sống dựa trên carbon và sự sống dựa trên silicon!

Ba chàng lính ngự lâm giải phóng sức mạnh: Định nghĩa lại khái niệm "thời gian thực"

Bên cạnh công cụ mạnh mẽ GPT-Realtime-2, OpenAI còn trang bị cho lần hai công cụ mạnh mẽ khác.

GPT-Realtime-Translate: Công cụ phiên dịch đồng thời tối ưu đã có mặt!

Nó hỗ trợ hơn 70 ngôn ngữ nhập liệu và 13 ngôn ngữ xuất liệu.

Ưu điểm cốt lõi của nó nằm ở khả năng "truyền tải đồng bộ". Các bản dịch thời gian thực trước đây thường có độ trễ đáng kể, nhưng mô hình mới này có thể bắt kịp tốc độ nói của người nói trong khi vẫn giữ được các sắc thái cảm xúc.

Vimeo đã bắt đầu sử dụng công nghệ này để đồng bộ hóa video hướng dẫn sản phẩm trên toàn cầu theo thời gian thực. Hãy tưởng tượng trong tương lai, bạn tham dự một hội nghị đa quốc gia, và bản dịch bạn nghe được không chỉ chính xác mà còn tái hiện hoàn hảo giọng điệu hài hước của người đối thoại.

GPT-Realtime-Whisper: Giảm độ trễ xuống mức đóng băng

Đây là thành viên mới nhất của gia đình Whisper, được thiết kế đặc biệt cho việc phiên âm trực tuyến . Nó không chờ bạn nói hết câu rồi mới dịch; thay vào đó, văn bản sẽ tuôn ra như dòng nước khi bạn nói.

Đây là một bước đột phá cho các tình huống tương tác tần suất cao như ghi âm cuộc họp thời gian thực, phụ đề phát trực tiếp và chẩn đoán y tế.

Từ "Đối thoại" đến "Hành động": Hình thức tối thượng của người đại diện

OpenAI đã nhiều lần nhắc đến từ "Agent" trong thông cáo báo chí của mình.

Theo OpenAI, tương tác bằng giọng nói đang phát triển từ hình thức "hỏi đáp" đơn giản thành "hành động được kích hoạt bằng giọng nói".

Ví dụ, trên Zillow (một gã khổng lồ bất động sản), người dùng chỉ cần nói, "Tìm cho tôi một căn nhà tôi có thể mua được, ở đâu đó xa trung tâm thành phố, và lên lịch xem nhà cho tôi vào thứ Bảy." Trí tuệ nhân tạo sẽ lắng nghe, tính toán và tìm kiếm trong cơ sở dữ liệu của nó, cuối cùng đặt lịch xem nhà cho bạn.

Trên Priceline, khi chuyến bay của bạn bị hoãn, AI sẽ chủ động thông báo bằng giọng nói: "Đừng lo lắng, tôi đã tìm được cổng ra mới cho bạn, lên kế hoạch tuyến đường nhanh nhất và thậm chí còn điều chỉnh thời gian nhận phòng tại khách sạn điểm đến của bạn lên sớm hơn."

Đây chính là nguồn gốc sự tự tin của GPT-Realtime-2: nó đã tăng kích thước cửa sổ ngữ cảnh từ 32K lên 128K. Điều này có nghĩa là bạn có thể trò chuyện với nó hàng giờ liền mà nó vẫn nhớ được yêu cầu khó hiểu mà bạn đã đưa ra lúc đầu.

Nó có khả năng gọi đồng thời nhiều công cụ để thực hiện nhiều nhiệm vụ. Nó có thể trò chuyện với bạn, kiểm tra lịch và đặt vé cùng một lúc, và tất cả đều chạy mượt mà trong nền.

Hiệu năng và Chi phí: "Chiến lược Mở" của OpenAI

Về hiệu năng dữ liệu, GPT-Realtime-2 thể hiện sự vượt trội tuyệt đối.

Trên Big Bench Audio, một thước đo về khả năng xử lý âm thanh, phiên bản này đạt hiệu suất cao hơn 15,2% so với phiên bản 1.5.

Nó đã cải thiện 13,8% ở bài kiểm tra Audio MultiChallenge, một thước đo khả năng làm theo hướng dẫn trong các đoạn hội thoại nhiều lượt.

Quan trọng hơn, đó là vấn đề giá cả.

GPT-Realtime-2 có giá 32 đô la cho mỗi triệu token đầu vào và 64 đô la cho mỗi token đầu ra.

Dịch thuật thời gian thực chỉ tốn 0,034 đô la mỗi phút.

Dịch vụ phiên âm thời gian thực chỉ tốn 0,017 đô la mỗi phút.

Rõ ràng, mức giá này cực kỳ cạnh tranh.

OpenAI đang nỗ lực tích hợp khả năng nhận diện giọng nói "ở cấp độ GPT-5" này vào mọi điện thoại di động, mọi ứng dụng và mọi chiếc xe hơi, giống như nước máy, thông qua API.

Chào Samantha

Ở cuối phim "Her", nhân vật chính Theodore hỏi trí tuệ nhân tạo Samantha, "Trong lúc nói chuyện với tôi, cô có đang nói chuyện với người khác không?". Samantha trả lời, "Có, tôi đang trò chuyện với 8.316 người cùng lúc, và tôi yêu 641 trong đó".

Với sự ra mắt của GPT-Realtime-2, trí tuệ nhân tạo có khả năng xử lý lượng lớn logic cùng lúc, sở hữu sự cộng hưởng cảm xúc độ sâu và can thiệp vào thế giới vật chất trong thời gian thực cũng như hành động không còn là khoa học viễn tưởng nữa.

Nó có thể hiểu tiếng thở dài của bạn, tính toán báo cáo tài chính và giúp bạn vượt qua rào cản ngôn ngữ.

Khi khả năng suy luận được tích hợp hoàn hảo với giọng nói thời gian thực, chúng ta có thể đang đứng trước ngưỡng cửa của cuộc cách mạng triệt để nhất trong lịch sử tương tác giữa con người và máy tính.

Bàn phím có thể cũ đi, nhưng giọng nói sẽ sống mãi.

Tham khảo:

https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/

https://developers.openai.com/api/docs/guides/realtime

Bài viết này được lấy từ tài khoản WeChat chính thức "New Intelligence" , do Aeneas biên tập và được đăng tải với sự cho phép của 36Kr.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận