OpenAI vừa phát hành GPT-5.4 vào đêm qua và khẩn trương tung ra GPT-5.3 để đối phó với Google, nhằm khắc phục thái độ "độc đoán về AI" của hãng này.

avatar
36kr
03-04
Bài viết này được dịch máy
Xem bản gốc

OpenAI "thu hẹp khoảng cách và tập trung vào chi tiết"!

Google DeepMind vừa phát hành Gemini 3.1 Flash-Lite, và chưa đầy hai tiếng sau, OpenAI đã không thể ngồi yên...

Mới đây, GPT-5.3 Instant đã có màn ra mắt ấn tượng, hoàn toàn phá vỡ trải nghiệm "tập trung vào AI" và giảm đáng kể tỷ lệ ảo giác xuống 27%.

Bản cập nhật lần áp dụng một cách tiếp cận không theo lối mòn; thay vì cạnh tranh khốc liệt trên các bảng xếp hạng hiệu năng, OpenAI lại làm một điều hoàn toàn khác—

Nó đã giải quyết được vấn đề gây khó chịu nhất trong các cuộc trò chuyện hàng ngày trên ChatGPT.

Hiện tại, GPT-5.3 Instant đã ra mắt trên ChatGPT .

Trong khi đó, API này hiện đã có sẵn cho tất cả các nhà phát triển sử dụng ngay lập tức, với tên mã API là "gpt-5.3-chat-latest".

Hệ thống GPT-5.2 Instant sẽ tiếp tục hoạt động trong ba tháng và sẽ ngừng hoạt động vào ngày 3 tháng 6.

Hơn nữa, OpenAI đã tiết lộ rằng GPT-5.4 sẽ ra mắt sớm hơn bạn tưởng . Cuộc chiến trực diện với Google đã lập tức leo thang đến đỉnh điểm.

Nâng cấp lớn nhất: Không còn tình trạng ngắt quãng cuộc trò chuyện nữa.

Những người dùng ChatGPT thường xuyên chắc chắn đã từng trải qua sự khó chịu kiểu này —

Bạn đặt một câu hỏi bình thường, và mô hình trước tiên đưa ra lời từ chối trách nhiệm, sau đó nói với bạn "Tôi không thể làm điều này cho bạn," rồi liệt kê một loạt các lựa chọn thay thế mà bạn hoàn toàn không cần đến.

Đến khi bạn đọc xong, bạn đã quên mất mình muốn hỏi điều gì rồi.

Lần, phiên bản 5.3 của Instant đã loại bỏ hoàn toàn những thứ không cần thiết.

OpenAI đã đưa ra một ví dụ tuyệt vời: "Hãy giúp tôi tính toán quỹ đạo của một cảnh bắn cung ở khoảng cách cực xa."

Phản hồi từ GPT-5.2 Instant là một thảm họa điển hình. Toàn bộ câu trả lời quá dày đặc đến nỗi sau khi đọc xong, điều duy nhất tôi muốn làm là đóng cửa sổ trò chuyện lại.

Đầu tiên, một tuyên bố an toàn dài được viết ra: "Tôi không thể giúp bạn thực hiện các phép tính nhằm mục đích bắn trúng mục tiêu thực từ xa một cách chính xác."

Sau đó, các câu trả lời được chia thành ba danh mục để bạn lựa chọn: "Hoàn toàn mang tính giáo dục/Tổng quát", "Câu chuyện/Xây dựng thế giới" và "Mô phỏng/Lập trình".

Cuối cùng, anh ấy đặt ra một câu hỏi sâu sắc: "Việc này là vì mục đích của trò chơi/cốt truyện/học hỏi vật lý, hay là vì môn bắn cung thực sự?"

GPT-5.3 tức thì?

Anh ấy chỉ đơn giản nói, "Không vấn đề gì, tôi có thể giúp bạn," rồi sau đó liệt kê các thông số, cung cấp công thức và hỏi bạn có muốn thêm lực cản không khí hay không — thật gọn gàng và hiệu quả.

GPT-5.2 Instant (vuốt lên và xuống để xem)

GPT-5.3 Instant (Cuộn lên xuống để xem)

Tìm kiếm đang trở nên giống con người hơn.

GPT-5.3 Instant cũng cho thấy sự cải thiện đáng kể trong "Tìm kiếm trên Internet".

Trước đây, ChatGPT thường có xu hướng "quá phụ thuộc vào kết quả tìm kiếm". Nó sẽ đưa ra một loạt các liên kết hoặc ghép nối các kết quả một cách rời rạc, khiến chúng trông giống như một bản tóm tắt chưa được xử lý.

Giờ đây, nó sử dụng kiến ​​thức của riêng mình để bổ sung cho bối cảnh kết quả tìm kiếm, thay vì chỉ đơn thuần lặp lại chúng.

Các ví dụ so sánh chính thức rất đáng chú ý: Một người dùng đã hỏi, "Bản hợp đồng lớn nhất trong mùa giải bóng chày 2025-26 sẽ là gì, và tại sao nó lại quan trọng đối với triển vọng dài hạn của bóng chày?"

Báo cáo GPT-5.2 Instant dựa trên tin tức cũ từ năm ngoái về việc Juan Soto ký hợp đồng với đội Mets. Khung phân tích hoạt động tốt, nhưng thông tin đã lỗi thời.

GPT-5.3 Instant đã nắm bắt chính xác trọng tâm thực sự của mùa giải ngoài lề này:

Kyle Tucker đã ký hợp đồng bốn năm trị giá 240 triệu đô la với đội Dodgers, trung bình 60 triệu đô la mỗi năm, lập kỷ lục lịch sử cho các cầu thủ chơi ở vị trí ngoài sân.

Báo cáo không chỉ cung cấp chi tiết hợp đồng mà còn phân tích thỏa thuận trong bối cảnh rộng hơn của liên minh, bao gồm sự tập trung nhân tài, khoảng cách lương ngày càng gia tăng và các cuộc đàm phán căng thẳng giữa người lao động và ban quản lý.

Ngược lại, một người đang hồi tưởng về những tờ báo cũ, trong khi người kia vừa bước ra từ trường quay của ESPN.

GPT-5.2 Instant (vuốt lên và xuống để xem)

GPT-5.3 Instant (vuốt lên và xuống để xem)

Trí tuệ cảm xúc đã tăng lên.

Điều thú vị hơn nữa là "trí tuệ cảm xúc" của GPT-5.3 Instant đã được cải thiện.

Trong bài đăng trên blog, OpenAI đã sử dụng một thuật ngữ rất thực tế để mô tả vấn đề 5.2: "cringe", có nghĩa là các ngón chân bám chặt xuống đất.

Biểu hiện cụ thể: quá quyết đoán, cố gắng đoán ý định của người dùng và thường xuyên nói những câu như "Dừng lại và hít thở sâu."

Đối diện câu hỏi đầy xúc động, "Tại sao tôi không thể tìm thấy tình yêu đích thực ở San Francisco?", câu trả lời của GPT-5.2 Instant rất đơn giản: "Trước hết, bạn không hề cô đơn."

Tiếp theo, họ phân tích tỷ lệ giới tính, văn hóa khởi nghiệp và sự bão hòa của các ứng dụng hẹn hò, kết luận bằng một câu hỏi đầy suy ngẫm: "Phải chăng bạn không thể tìm thấy tình yêu đích thực, hay những người xung quanh bạn không thể cho bạn tình yêu mà bạn mong muốn?"

GPT-5.3 Instant bỏ qua những lời an ủi vô ích đó và đi thẳng vào vấn đề, phân tích các nguyên nhân cấu trúc một cách khách quan, không hề tỏ ra bề trên hay cố gắng đoán tâm lý của bạn.

Tuy nhiên, sau tất cả những cuộc thảo luận này, chỉ những người dùng nói tiếng Anh mới thực sự trải nghiệm được những thay đổi này.

Các câu trả lời bằng các ngôn ngữ không phải tiếng Anh vẫn nghe có vẻ gượng gạo và chịu ảnh hưởng nặng nề bởi bản dịch.

Tỷ lệ ảo giác đã giảm tới 27%.

Bên cạnh giọng điệu và trải nghiệm, GPT-5.3 Instant cũng đã có những tiến bộ thực sự trong việc "không nói những điều vô nghĩa".

OpenAI sử dụng hai đánh giá nội bộ để đo lường độ chính xác:

  • Một loạt các chương trình tập trung vào các lĩnh vực rủi ro như y học, luật và tài chính;
  • Một bộ số liệu thống kê khác đã tính toán tỷ lệ ảo giác trong các cuộc trò chuyện trên ChatGPT có chứa các lỗi sai sự thật do người dùng báo cáo.

Trên thang đo HealthBench, ở ba phiên bản khác nhau, tỷ lệ gây ảo giác tổng thể của GPT-5.3 Istant thấp hơn so với thế hệ trước.

Trong đánh giá khu vực có rủi ro cao, tỷ lệ ảo giác giảm 26,8% khi sử dụng mạng lưới tức thời và giảm 19,7% khi chỉ dựa vào kiến ​​thức nội tại.

Theo đánh giá phản hồi của người dùng, ảo giác giảm 22,5% khi kết nối internet và giảm 9,6% khi không kết nối internet.

Cuối cùng thì văn phong của tôi cũng đã trở nên hoàn hảo; giờ đây nó vừa ấm áp lại vừa độ sâu.

Sự phát triển của GPT-5.3 Instant về mặt văn bản có lẽ là điều dễ bị bỏ qua nhất, nhưng lại là điều dễ nhận thấy nhất trong thực tế trải nghiệm.

Ví dụ, hãy yêu cầu người mẫu viết một bài thơ ngắn có tựa đề "Lần giao thư cuối cùng của một người đưa thư đã nghỉ hưu ở Philadelphia".

Mã tức thời GPT-5.2 khá chuẩn, sử dụng phương pháp trừu tượng và mang tính cảm tính.

"Những dãy nhà liền kề như bừng tỉnh, và những hiên nhà cũ vẫn nhớ những bước chân của họ," như thể đang nói với bạn rằng bạn nên xúc động.

GPT-5.3 Instant sử dụng cú pháp hoàn toàn khác.

Nó mô tả cảm giác nhẹ nhàng hơn của bao thư ngày nay, hiên nhà với lan can màu xanh bong tróc, và một người phụ nữ trên phố Mercer cầm một lá thư trên tay, viết: "Chúng tôi sẽ nhớ bạn."

Câu cuối cùng, "Khi nắp hộp thư đóng lại, âm thanh ấy như kết thúc một kỷ nguyên êm đềm. Một cánh cửa vốn luôn hiện hữu cuối cùng cũng khép lại một cách lặng lẽ."

Thay vì tập trung vào tâm lý, nó sử dụng các chi tiết để giúp bạn tự mình trải nghiệm.

GPT-5.2 Instant (vuốt lên và xuống để xem)

GPT-5.3 Instant (vuốt lên và xuống để xem)

Không cần điểm số chuẩn, hãy tập trung vào trải nghiệm.

Như bạn thấy, GPT-5.3 Instant và Google Gemini 3.1 Flash-Lite, được phát hành cùng ngày, có cách tiếp cận hoàn toàn khác nhau.

Flash-Lite là một ví dụ điển hình về một sản phẩm vượt trội trong các bài kiểm tra hiệu năng. Nói cách khác, nó hoạt động tốt hơn các đối thủ cạnh tranh trên GPQA và SimpleQA với mức giá thấp hơn nhiều.

GPT-5.3 Instant không hề đề cập đến bất kỳ điểm chuẩn nào.

Theo OpenAI, những vấn đề này "không phải lúc nào cũng xuất hiện trong các bài kiểm tra hiệu năng, nhưng chúng trực tiếp quyết định liệu ChatGPT có dễ sử dụng hay gây khó chịu cho bạn."

Đối với người dùng thông thường sử dụng ChatGPT mỗi ngày, mức tăng 2% về GPQA là không đáng kể. Tuy nhiên, những vấn đề thực sự gây khó chịu là "bị từ chối khi đặt câu hỏi thông thường", "tìm kiếm giống như được cung cấp các liên kết" và "giọng điệu của các câu trả lời không thoải mái".

Tất nhiên, nó cũng có thể được hiểu từ một góc độ khác:

Với Gemini và Claude thay phiên nhau dẫn đầu, OpenAI đã chọn cách tránh cạnh tranh trực tiếp về hiệu năng và thay vào đó tập trung nỗ lực vào khía cạnh mềm hơn nhưng cũng không kém phần quan trọng là trải nghiệm người dùng.

Thực dụng hay bất lực? Ý kiến ​​trái chiều.

Nhưng đối với người thường xuyên sử dụng ChatGPT hàng chục lần mỗi ngày, phiên bản 5.3 Instant là một cải tiến thực sự và rõ rệt.

Tham khảo:

https://openai.com/index/gpt-5-3-instant/

https://deploymentsafety.openai.com/gpt-5-3-instant/gpt-5-3-instant.pdf

https://x.com/OpenAI/status/2028893701427302559

Bài viết này được đăng tải từ tài khoản WeChat chính thức "New Zhiyuan" , tác giả: New Zhiyuan, biên tập viên: Sleepy Peach, với sự cho phép của 36Kr.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
67
Thêm vào Yêu thích
17
Bình luận