ChatGPT hiện có thể theo dõi và tương tác với bạn theo thời gian thực

avatar
Decrypt
12-14
Bài viết này được dịch máy
Xem bản gốc
Dưới đây là bản dịch tiếng Việt của văn bản trên:

OpenAI đã công bố khả năng video lâu hứa hẹn của ChatGPT vào thứ Năm, cho phép người dùng chỉ điện thoại của họ vào các đối tượng để phân tích AI theo thời gian thực - một tính năng đã tích tụ bụi kể từ lần demo đầu tiên vào tháng 5.

Trước đây, bạn có thể nhập văn bản, biểu đồ, giọng nói hoặc ảnh tĩnh và tương tác với GPT. Tính năng này, được phát hành vào cuối thứ Năm, cho phép GPT theo dõi bạn theo thời gian thực và cung cấp phản hồi theo cách hội thoại. Ví dụ, trong các bài kiểm tra của tôi, chế độ này có thể giải quyết các bài toán toán học, cung cấp công thức nấu ăn, kể câu chuyện và thậm chí trở thành người bạn tốt nhất mới của con gái tôi, tương tác với cô ấy trong khi làm bánh pancake, đưa ra gợi ý và khuyến khích quá trình học tập của cô ấy thông qua các trò chơi khác nhau.

Bản phát hành này đến chỉ một ngày sau khi Google đã trình bày phiên bản của riêng họ về trợ lý AI được hỗ trợ bởi camera do Gemini 2.0 mới được tạo ra. Meta cũng đang chơi trong hộp cát này, với trí tuệ nhân tạo của riêng họ có thể nhìn thấy và trò chuyện thông qua camera điện thoại.

Những chiêu trò mới của ChatGPT không phải dành cho tất cả mọi người. Chỉ những người đăng ký Plus, Team và Pro mới có thể truy cập những gì OpenAI gọi là "Chế độ Giọng nói Nâng cao với tầm nhìn". Gói đăng ký Plus có giá 20 USD/tháng và gói Pro có giá 200 USD.

"Chúng tôi rất vui mừng khi thông báo rằng chúng tôi đang mang video đến Chế độ giọng nói nâng cao để bạn có thể đưa video trực tiếp và cũng chia sẻ màn hình trực tiếp vào các cuộc trò chuyện của bạn với ChatGPT," Kevin Weil, Giám đốc Sản phẩm Trưởng của OpenAI, cho biết trong một video vào thứ Năm.

Buổi phát sóng là một phần của chiến dịch "12 Ngày của OpenAI" sẽ trình bày 12 thông báo khác nhau trong 12 ngày liên tiếp. Cho đến nay, OpenAI đã ra mắt mô hình o1 cho tất cả người dùng và tiết lộ kế hoạch ChatGPT Pro với giá 200 USD/tháng, giới thiệu việc tinh chỉnh tăng cường cho các mô hình tùy chỉnh, phát hành ứng dụng video tạo ra Sora, cập nhật tính năng canvas và phát hành ChatGPT cho các thiết bị Apple thông qua tính năng Apple Intelligence của công ty công nghệ khổng lồ này.

Công ty đã cung cấp một cái nhìn qua về những gì nó có thể làm trong buổi phát trực tiếp vào thứ Năm. Ý tưởng là người dùng có thể kích hoạt chế độ video, trong cùng giao diện như giọng nói nâng cao, và bắt đầu tương tác với trò chuyện bot theo thời gian thực. Trò chuyện bot có khả năng hiểu tầm nhìn tuyệt vời và có thể cung cấp phản hồi liên quan với độ trễ thấp, khiến cuộc trò chuyện cảm thấy tự nhiên.

Đến được đây không phải là một chuyến đi trơn tru. OpenAI đã hứa những tính năng này "trong vài tuần tới" vào cuối tháng 4, nhưng tính năng này đã bị hoãn lại sau sự tranh cãi về việc mô phỏng giọng nói của nữ diễn viên Scarlett Johansson - mà không có sự cho phép của cô ấy - trong chế độ giọng nói nâng cao. Vì chế độ video dựa trên chế độ giọng nói nâng cao, điều đó dường như đã làm chậm quá trình triển khai.

Và đối thủ Google cũng không ngồi yên. Dự án Astra vừa mới đến với "những người kiểm tra đáng tin cậy" trên Android tuần này, hứa hẹn một tính năng tương tự: một trí tuệ nhân tạo nói nhiều ngôn ngữ, kết nối với tìm kiếm và bản đồ của Google và nhớ các cuộc trò chuyện trong tối đa 10 phút.

Tuy nhiên, tính năng này vẫn chưa được phổ biến rộng rãi, vì một đợt triển khai lớn hơn được dự kiến vào đầu năm tới. Google cũng có những kế hoạch tham vọng hơn cho các mô hình trí tuệ nhân tạo của họ, cho phép chúng thực hiện các nhiệm vụ theo thời gian thực, hiển thị hành vi chủ động vượt ra ngoài các tương tác âm thanh và hình ảnh.

Meta cũng đang tranh đấu để có một vị trí trong kỷ nguyên tương tác trí tuệ nhân tạo tiếp theo. Trợ lý của họ, Meta AI, đã được giới thiệu vào tháng 9 này. Nó cho thấy những khả năng tương tự như các trợ lý mới của OpenAI và Google, cung cấp phản hồi với độ trễ thấp và hiểu biết video theo thời gian thực.

Nhưng Meta đang đặt cược vào việc sử dụng thực tế tăng cường để thúc đẩy cung cấp trí tuệ nhân tạo của họ, với kính thông minh "kín đáo" đủ khả năng để cung cấp những tương tác đó, sử dụng một camera nhỏ được tích hợp vào khung kính. Meta gọi nó là Dự án Orion.

Những người dùng ChatGPT Plus hiện tại có thể thử các tính năng video mới bằng cách nhấn vào biểu tượng giọng nói bên cạnh thanh chat, sau đó nhấn vào nút video. Chia sẻ màn hình cần một lần nhấp qua menu ba chấm (còn gọi là "hamburger").

Đối với người dùng ChatGPT Doanh nghiệp và Giáo dục háo hức muốn thử các tính năng video mới, tháng 1 là tháng kỳ diệu. Còn đối với người đăng ký ở EU? Họ chỉ có thể xem từ bên lề cho đến lúc này.

Biên tập bởi Andrew Hayward

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận