Vừa nãy, mẫu GPT-5.3 mới đã va chạm với Gemini. OpenClaw: Cảm ơn.

avatar
36kr
03-04
Bài viết này được dịch máy
Xem bản gốc

Trong thế giới bí ẩn của việc đặt tên mô hình AI, các hậu tố "Instant" và "Lite" từ lâu đã mang một ý nghĩa khó hiểu về sự rẻ tiền.

Có lý do cho điều này. Trước đây, những loại mô hình này thường được coi là nhanh nhưng tư duy chậm, hầu như không đủ khả năng tóm tắt văn bản và dễ đưa ra những kết quả vô nghĩa khi đối mặt với nhiệm vụ suy luận phức tạp hơn một chút.

Theo thời gian, các mẫu xe hạng nhẹ gần như đồng nghĩa với việc "chỉ cần dùng tạm cho đủ dùng".

Mới đây, OpenAI và Google lại "đấu khẩu" một lần nữa, tung ra các mô hình đơn giản của riêng mình và cố gắng lật đổ định kiến ​​này bằng sức mạnh vượt trội. Dưới đây là phiên bản đơn giản hóa:

  • GPT-5.3 Instant: Một trợ lý thông minh "giống người" hơn, giảm đáng kể tỷ lệ hiểu nhầm, hạn chế tối đa "giọng điệu AI" và nâng cao khả năng viết chi tiết. Giao tiếp tự nhiên và chính xác hơn, phù hợp với các tình huống đòi hỏi chất lượng nội dung cao (viết lách, hỏi đáp chuyên nghiệp, lĩnh vực rủi ro cao).
  • Gemini 3.1 Flash-Lite: Giá cả phải chăng, tốc độ nhanh và hiệu quả, nó cũng hỗ trợ điều chỉnh "cấp độ tư duy", duy trì thông lượng cao trong khi vẫn đáp ứng được khả năng suy luận logic sâu sắc, phù hợp cho nhiệm vụ xử lý hàng loạt quy mô lớn, thời gian thực cao (kiểm duyệt nội dung, tạo giao diện người dùng, hội thoại NPC).

GPT-5.3 Instant: Cuối cùng tôi cũng đã học được cách trò chuyện như một người bình thường.

Những người thường xuyên sử dụng ChatGPT có lẽ đã từng trải qua sự khó chịu này: bạn chỉ hỏi một câu hỏi đơn giản, nhưng nó lại cứ khăng khăng đưa ra một thao thao bất tuyệt kiểu như, "Là một trí tuệ nhân tạo, tôi cần nhắc bạn rằng..."

Cách tiếp cận "kiểu AI", luôn cố gắng dạy mọi người cách làm mọi việc, quả thực khá khó chịu. May mắn thay, lần OpenAI đã thực sự lắng nghe.

Phiên bản GPT-5.3 Instant mới ra mắt đã nỗ lực rất nhiều để khắc phục "vấn đề" này. Nó đã học cách đưa ra câu trả lời trực tiếp, thay vì đưa ra những lời giải thích dài dòng.

Ngoài việc ngắn gọn hơn, nó còn trở nên đáng tin cậy hơn. Phiên bản cũ, sau khi tìm kiếm trên web, thường hiển thị cho bạn một loạt các liên kết và thông tin không liên quan.

Nhờ khả năng tìm kiếm được nâng cao, GPT-5.3 Instant chủ động kết hợp nội dung trang web với kiến ​​thức bối cảnh của riêng nó, trước tiên xác định điều bạn thực sự muốn hỏi trước khi cung cấp câu trả lời tập trung, thay vì chỉ đơn thuần giao phó công việc của công cụ tìm kiếm cho bạn.

Đánh giá nội bộ của OpenAI cho thấy tỷ lệ ảo giác giảm 26,8% khi kết nối internet và giảm 19,7% khi chỉ dựa vào kiến ​​thức nội bộ. Chính thức đặc biệt đề cập đến các lĩnh vực rủi ro như y tế, luật và tài chính, nơi mô hình mới cho thấy sự cải thiện đáng kể cả về độ thận trọng và độ chính xác.

Điều đáng ngạc nhiên nhất chính là sự thay đổi trong phong cách viết của nó.

OpenAI đã minh họa điều này bằng cách so sánh hai bài thơ: Cả hai phiên bản đều mô tả ngày cuối cùng nghỉ hưu của một người đưa thư ở Philadelphia. Phiên bản cũ hơn có xu hướng sử dụng nhiều cụm từ mang tính tình cảm như "mang cả thành phố trong túi thư của mình", trong khi phiên bản mới hơn mô tả "lan can màu xanh bị sứt mẻ" và "cánh cổng nơi một chú chó luôn chờ đợi ở cửa". Tâm lý không cần phải gượng ép; chúng chỉ đơn giản là tuôn chảy một cách tự nhiên.

Điều chỉnh giọng điệu cũng là một trong những mục tiêu cốt lõi của bản cập nhật lần.

Những cụm từ như "Dừng lại. Hít thở sâu." làm gián đoạn mạch hội thoại đã được giảm thiểu một cách có chủ ý, dẫn đến phong cách tổng thể trực tiếp hơn và ít giọng điệu "AI" không cần thiết. Người dùng vẫn có thể tùy chỉnh mức độ ấm áp và nhiệt tình của các câu trả lời trong phần cài đặt để tìm ra phong cách tương tác ưa thích của mình.

GPT-5.3 Instant hiện đã có sẵn cho tất cả người dùng ChatGPT bắt đầu từ hôm nay, với tên API là "gpt-5.3-chat-latest". Người dùng trả phí có thể tiếp tục sử dụng GPT-5.2 Instant trên các mẫu máy cũ hơn, nhưng nó sẽ chính thức ngừng hoạt động vào ngày 3 tháng 6 năm nay.

Thời gian ăn trứng Phục Sinh

Đèn pin Gemini 3.1: Giá rẻ, nhanh và khá thông minh.

So với cách tiếp cận đơn giản của GPT-5.3 Instant, Gemini 3.1 Flash-Lite áp dụng cách tiếp cận thực dụng hơn, với mục tiêu rất rõ ràng: nhanh và rẻ.

Về giá cả, Gemini 3.1 Flash-Lite có giá đầu vào là 0,25 đô la cho mỗi triệu token và giá đầu ra là 1,50 đô la cho mỗi triệu token.

Điều này có nghĩa là gì? Nếu bạn là nhà phát triển phần mềm, điều đó có nghĩa là bạn có thể nhờ trí tuệ nhân tạo đọc tương đương năm cuốn sách Harry Potter hoàn chỉnh với giá chưa đến 2 nhân dân tệ.

Bạn nghĩ đồ rẻ tiền thì không tốt? Điều đó cho thấy bạn có suy nghĩ thiển cận.

Theo các bài kiểm tra hiệu năng của Artificial Analysis, so với thế hệ trước Gemini 2.5 Flash, 3.1 Flash-Lite có thời gian phản hồi từ đầu tiên (TTFT) nhanh hơn 2,5 lần và tốc độ đầu ra tổng thể nhanh hơn 45%. Đối với các sản phẩm yêu cầu phản hồi thời gian thực, sự khác biệt về độ trễ này sẽ dễ dàng nhận thấy trải nghiệm người dùng.

Điều này có nghĩa là trong khi bạn vẫn đang chớp mắt, câu trả lời của hệ thống có thể đã được tạo ra một nửa. Đối với các ứng dụng yêu cầu phản hồi theo thời gian thực—chẳng hạn như dịch thuật tức thời, hội thoại NPC trong game và tạo giao diện người dùng tức thì—độ trễ thấp này là rất quan trọng.

Ngoài ra, Gemini 3.1 Flash-Lite còn có khả năng "suy nghĩ".

Trong AI Studio và Vertex AI, Google đã trang bị cho mô hình Lite này tùy chọn "Mức độ tư duy". Các nhà phát triển có thể điều chỉnh độ sâu "tư duy" của mô hình dựa trên độ phức tạp của nhiệm vụ.

Nhiệm vụ đơn giản, có năng suất cao, chẳng hạn như dịch nội dung hàng loạt và kiểm duyệt nội dung, có thể được hoàn thành nhanh chóng với cấu hình tối thiểu; đối với nhiệm vụ yêu cầu tuân thủ nghiêm ngặt các hướng dẫn, chẳng hạn như tạo giao diện hoặc tạo mô phỏng, mô hình có thể dành nhiều thời gian hơn cho quá trình suy luận để củng cố kết quả.

Khả năng "có được tất cả" này đã mang lại những kết quả ấn tượng. Trên bảng xếp hạng của Arena.ai, nó đạt được điểm Elo là 1432 và tỷ lệ chính xác GPQA Diamond (Giải đáp câu hỏi cấp độ sau đại học) là 86,9%.

Nó đạt 86,9% trong bài kiểm tra đánh giá học thuật GPQA Diamond và 76,8% trong bài kiểm tra khả năng hiểu đa phương thức MMMU Pro. Những con số này không chỉ "tốt trong cùng tầm giá", mà còn vượt trội trực tiếp so với Gemini 2.5 Flash có kích thước lớn hơn.

Lưu ý rằng sự so sánh ở đây là với Gemini 2.5 Flash, chứ không phải Gemini 3 Flash, điều này cho thấy rõ ràng rằng Google, với sự khôn ngoan của mình, cũng không đặt nhiều niềm tin vào mô hình này.

Hiện tại, Flash-Lite 3.1 đang được cung cấp cho các nhà phát triển dưới dạng bản xem trước thông qua Google AI Studio và API Gemini , trong khi người dùng doanh nghiệp có thể truy cập thông qua Vertex AI. Các đối tác ban đầu như Latitude, Cartwheel và Wheling đã hoàn thành thử nghiệm hoàn cảnh và nhìn chung đánh giá cao tính ổn định và khả năng tuân thủ hướng dẫn của nó trong các cuộc gọi quy mô lớn.

Nếu bạn đặt hai mẫu này cạnh nhau, bạn sẽ thấy rằng "Instant" và "Lite" có lẽ đang tìm được vị trí phù hợp nhất của mình.

Lấy OpenClaw, một phần mềm đang rất phổ biến gần đây, làm ví dụ. Kịch bản cốt lõi của nó là giúp người dùng xử lý email và quản lý lịch trình. Về bản chất, nó là một tác nhân cần thực hiện nhiệm vụ một cách tự động.

Các yêu cầu đối với mô hình trong loại sản phẩm này hoàn toàn khác so với chatbot thông thường: nó không yêu cầu mô hình phải quá thông minh, mà yêu cầu mô hình phải nói chuyện giống con người, không mắc lỗi và có khả năng xử lý các cuộc gọi với tần suất cao.

GPT-5.3 Instant giảm đáng kể tỷ lệ ảo giác, nghĩa là trợ lý ảo sẽ mắc ít lỗi hơn khi thực hiện nhiệm vụ một cách tự động; việc giảm "giọng nói AI" giúp cho các email và tài liệu được tạo ra có văn phong giống với thói quen đọc của người thật hơn.

Gemini 3.1 Flash-Lite đáp ứng tốt hơn yêu cầu thứ ba, cũng là yêu cầu quan trọng nhất. Khi tác nhân chạy ngầm, nó thường cần xử lý một lượng lớn nhiệm vụ song, khiến nó cực kỳ nhạy cảm với tốc độ phản hồi và chi phí API.

Tốc độ phản hồi cực nhanh và chi phí phải chăng của Flash-Lite, cùng với "khả năng tư duy" cho phép phân bổ tỷ lệ băm linh hoạt, khiến kiến ​​trúc có tính linh hoạt cao này trở thành một giải pháp tuyệt vời cho nhiệm vụ tự động hóa có độ đồng thời cao.

Mặc dù cần phải theo dõi thêm tính ổn định lâu dài của hai mô hình, nhưng hướng đi chung đã rõ ràng: một mô hình hướng đến việc tạo ra sự tương tác gần gũi hơn với con người, còn mô hình kia tập trung vào tốc độ và hiệu quả chi phí. Trong tương lai khi ai cũng có một "con tôm hùm", mô hình nhẹ hơn sẽ trở thành lựa chọn tự nhiên và thiết thực hơn.

Địa chỉ tham khảo đính kèm:

https://openai.com/index/gpt-5-3-instant/

Gemini

Bài viết này được đăng tải từ tài khoản chính thức WeChat "APPSO" , do APPSO - đơn vị khám phá các sản phẩm của tương lai - chấp bút và được xuất bản với sự cho phép của 36Kr.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận