
Ngày 12 tháng 12, OpenAI đã ra mắt GPT-5.2, định vị nó là sê-ri mô hình AI phù hợp nhất cho "công việc trí tuệ chuyên nghiệp". Thông cáo chính thức cho biết GPT-5.2 có thể trực tiếp tạo ra các kết quả công việc thực tế như thuyết trình, bảng tính, mã nguồn và phân tích tài liệu dài, đồng thời hỗ trợ xử lý nhiệm vụ đa bước, đa công cụ. Nó cũng có thể tạo ra các trò chơi web giao diện người dùng và thiệp chúc mừng. Theo phản hồi, người dùng doanh nghiệp ChatGPT có thể tiết kiệm trung bình từ 40 đến 60 phút thời gian làm việc mỗi ngày, trong khi người dùng có kỹ năng cao có thể tiết kiệm hơn 10 giờ mỗi tuần. GPT-5.2 được coi là phiên bản chủ chốt để tiếp tục nâng cao năng suất.
Ba phiên bản đã được phát hành đồng thời để đáp ứng đầy đủ các kịch bản sử dụng chuyên nghiệp khác nhau.
OpenAI cho biết GPT-5.2 được phát hành với ba phiên bản: Instant, Thinking và Pro, tập trung lần lượt vào hiệu quả hàng ngày, suy luận độ sâu và chất lượng giải quyết các bài toán khó. Trong ứng dụng ChatGPT, GPT-5.2 ban đầu sẽ khả dụng cho người dùng có gói trả phí. Nền tảng API hoàn toàn mở cho các nhà phát triển.
Bước tiến vượt bậc về năng lực chuyên môn, lần đầu tiên đạt đến trình độ chuyên gia hàng đầu tại GDPval.
OpenAI chỉ ra rằng GPT-5.2 Thinking đại diện cho một bước đột phá quan trọng trong việc đánh giá kiến thức chuyên môn GDPval. Bài đánh giá này bao gồm 44 ngành nghề thuộc 9 lĩnh vực và yêu cầu các mô hình phải trực tiếp tạo ra các sản phẩm đầu ra như bài thuyết trình, bảng tính, lịch trình và tài liệu kinh doanh.
Kết quả cho thấy GPT-5.2 Thinking vượt trội hơn hoặc vượt qua các chuyên gia trong ngành ở 70,9% nhiệm vụ , với tốc độ sản xuất nhanh hơn 11 lần so với chuyên gia con người và chi phí thấp hơn 1%, trở thành mô hình OpenAI đầu tiên đạt hoặc thậm chí vượt qua trình độ chuyên môn của con người.

Các kỹ năng thực hành đã được nâng cấp toàn diện, đồng thời kết quả dự án và việc phát triển chương trình cũng được tăng cường.
Trong các ứng dụng thực tế, GPT-5.2 Thinking cung cấp cấu trúc trình bày và bảng tính hoàn chỉnh hơn với logic gần giống với các chuyên gia tư vấn và phân tích chuyên nghiệp, và có thể xử lý các nhiệm vụ phức tạp như lập kế hoạch nguồn nhân lực, cơ cấu vốn chủ sở hữu và quản lý dự án. Trong nhiệm vụ bảng tính cấp độ ngân hàng đầu tư, hiệu suất của nó tốt hơn khoảng 9% so với thế hệ trước.

Trong lĩnh vực phát triển phần mềm, GPT-5.2 Thinking đạt độ chính xác 56% trong bài kiểm tra sửa lỗi mã nguồn thực tế SWE-Bench Pro. Nó có thể trực tiếp đọc kho mã nguồn, hiểu các vấn đề kỹ thuật và đưa ra các bản vá hữu ích.

(Lưu ý: SWE-Bench Pro là một bài kiểm tra mô phỏng "công việc kỹ thuật phần mềm thực tế", yêu cầu trí tuệ nhân tạo (AI) trực tiếp khắc phục các vấn đề lập trình trong các dự án thực tế, thay vì chỉ trả lời các câu hỏi lý thuyết.)
Nhờ độ tin cậy và khả năng tích hợp được cải thiện, việc cộng tác trên các tập tin, hình ảnh và công cụ dung lượng lớn đã trở nên hoàn thiện hơn.
OpenAI cho biết tỷ lệ lỗi phản hồi của GPT-5.2 Thinking giảm khoảng 30% so với phiên bản tiền nhiệm. Trong bộ dữ liệu chuẩn MRCRv2, nó duy trì độ chính xác gần như hoàn hảo ngay cả đối diện các tài liệu cực dài lên đến hàng trăm nghìn từ, khiến nó phù hợp cho việc phân tích hợp đồng, báo cáo tài chính và bản ghi chép nguyên văn.
Về khả năng hiểu hình ảnh, GPT-5.2 giảm đáng kể tỷ lệ lỗi trong việc diễn giải biểu đồ và giao diện phần mềm. Về khả năng gọi công cụ, nó đạt độ chính xác 98,7% trong bài kiểm tra Tau2-bench và có thể hoàn thành ổn định toàn bộ quy trình nhiệm vụ trên nhiều hệ thống và nhiều bước.

(Lưu ý: MRCRv2 là bài kiểm tra được thiết kế đặc biệt để đánh giá khả năng của AI trong việc nắm bắt chính xác thông tin quan trọng trong nội dung cực dài và tránh nhầm lẫn ngữ cảnh trong quá trình suy luận lần. Tau2-bench là công cụ đánh giá mô phỏng các quy trình việc kinh doanh và dịch vụ khách hàng thực tế, được sử dụng để kiểm tra xem AI có thể gọi đúng công cụ, tích hợp thông tin và hoàn thành toàn bộ nhiệm vụ trong nhiều vòng tương tác hay không.)
Bài viết này, "GPT-5.2 mới của OpenAI: Có khả năng tạo trò chơi nhỏ và thiệp chúc mừng, giúp người dùng doanh nghiệp tiết kiệm 10 giờ làm việc mỗi tuần," lần đầu tiên xuất hiện trên ABMedia .




