Công việc chuyên môn của bạn có thể đã bị trí tuệ nhân tạo vượt qua trong 70,9% trường hợp: Đánh giá độ sâu về GPT-5.2.

12-12

Bài viết này được dịch máy

Xem bản gốc

Vào rạng sáng, OpenAI chính thức ra mắt thế hệ mô hình lớn mới GPT-5.2.

Điều này diễn ra chỉ một tháng sau khi thế hệ trước GPT-5.1 được phát hành, đánh dấu sự ra đời của một kỷ nguyên mới, nơi trí tuệ nhân tạo hỗ trợ công việc của con người.

Trong các bài kiểm tra chuẩn chính thức , GPT-5.2 đạt vượt qua thắng 70,9% trong nhiệm vụ công việc chuyên môn thuộc 44 ngành nghề, lần đầu tiên đạt hoặc vượt qua hiệu suất tổng thể của các chuyên gia trong ngành. Tiết kiệm cho người dùng doanh nghiệp thông thường 40-60 phút mỗi ngày và hơn 10 giờ mỗi tuần cho người dùng thử lại – OpenAI đang chuyển đổi AI từ "trợ lý đàm thoại" thành "cộng tác viên chuyên nghiệp" có khả năng tạo ra giá trị kinh tế trực tiếp.

Khác với các phiên bản trước, GPT-5.2 không chỉ đơn thuần theo đuổi việc cải thiện khả năng đối thoại nói chung, mà thay vào đó tập trung chính xác vào "các nhiệm vụ chuyên môn dựa trên kiến thức". OpenAI đã tuyên bố rõ ràng trong thông báo chính thức rằng sê-ri là "sê-ri mô hình mạnh mẽ nhất từ trước đến nay, được xây dựng cho các nhiệm vụ chuyên môn dựa trên kiến thức".

01 Bước ngoặt: sự thay đổi về chất lượng từ "chuyên gia" sang "trợ lý"

Theo dữ liệu chính thức OpenAI công bố, người dùng ChatGPT Enterprise trung bình có thể tiết kiệm được 40-60 phút thời gian làm việc mỗi ngày, trong khi người dùng thường xuyên báo cáo tiết kiệm được hơn 10 giờ mỗi tuần . Đằng sau dữ liệu này là sự chuyển đổi nhân vật của AI từ "nhà cung cấp thông tin" thành "người tạo ra giá trị".

Kết quả của bài kiểm tra chuẩn GDPval thậm chí còn Sự lật đổ hơn: trong đánh giá nghề nghiệp chuyên môn này bao gồm 44 ngành nghề thuộc chín ngành công nghiệp đóng góp nhiều nhất vào GDP của Mỹ, GPT-5.2 Thinking đạt tỷ lệ thắng 70,9%, đánh dấu lần đầu tiên hiệu suất tổng thể của nó đạt hoặc vượt qua hiệu suất của các chuyên gia trong ngành .

Để so sánh, thế hệ trước GPT-5 chỉ có tỷ lệ thắng là 38,8% trong bài kiểm tra này.

“Đây là một bước tiến vượt bậc về chất lượng,” một giám khảo của GDPval nhận xét khi đánh giá sản phẩm GPT-5.2. “Trông như được thực hiện bởi một công ty với đội ngũ chuyên nghiệp, và thiết kế bố cục khá ấn tượng.”

Điều đáng kinh ngạc hơn nữa là sự so sánh về hiệu quả: GPT-5.2 hoàn thành nhiệm vụ chuyên môn này nhanh hơn gấp 11 lần so với các chuyên gia con người, trong khi chi phí chỉ bằng chưa đến 1% chi phí của chuyên gia . Đây không chỉ là một bước tiến công nghệ mà còn là một cuộc cách mạng trong mô hình kinh tế.

02 Phân chia ba bên: Ma trận chuyên nghiệp phù hợp chính xác

Đối diện các tình huống chuyên môn đa dạng, GPT-5.2 lần đầu tiên áp dụng chiến lược "ba phiên bản", tạo thành một ma trận chuyên môn bao quát các nhu cầu khác nhau.

Phiên bản Instant được định vị là một "công cụ hiệu quả", nhắm đến các tình huống làm việc và học tập hàng ngày. Trong khi vẫn duy trì phong cách hội thoại tự nhiên của GPT-5.1, nó có những cải tiến đáng kể trong việc truy xuất thông tin, hướng dẫn vận hành, viết tài liệu kỹ thuật và dịch thuật. Những người thử nghiệm ban đầu đặc biệt chỉ ra rằng các giải thích của nó rõ ràng hơn và có thể trình bày thông tin chính ngay từ đầu.

Phiên bản Thinking là "trung tâm thông minh", được thiết kế đặc biệt cho các tác vụ độ sâu phức tạp. Nó vượt trội trong việc lập trình, tóm tắt các tài liệu dài, suy luận logic toán học và lập kế hoạch dự án. Trong ChatGPT, GPT-5.2 Thinking cũng có các công cụ mới không có trong các phiên bản trước đó, chẳng hạn như khả năng tạo trực tiếp bảng tính và bài thuyết trình.

Phiên bản Pro hoạt động như nhân vật"trung tâm tư duy hàng đầu", phục vụ nhiệm vụ đòi hỏi độ chính xác và độ tin cậy cao. Hiện tại, đây là lựa chọn thông minh và đáng tin cậy nhất cho nghiên cứu khoa học, các bài toán toán học phức tạp và các khám phá tiên tiến. Các thử nghiệm ban đầu cho thấy nó mắc ít lỗi nghiêm trọng hơn và hoạt động tốt hơn trong các lĩnh vực phức tạp như lập trình.

Sự phân công lao động tinh tế này phản ánh sự hiểu biết sâu sắc hơn của OpenAI về nhu cầu thị trường: không phải một mô hình duy nhất để giải quyết mọi vấn đề, mà là cung cấp các giải pháp thông minh phù hợp nhất cho các tình huống khác nhau .

03 Năm bước tiến lớn: Góc nhìn về sự đổi mới các năng lực "cấp chuyên gia"

Nếu tóm tắt các khả năng của GPT-5.2 thành năm khía cạnh, chúng ta có thể thấy rõ "lộ trình phát triển của chuyên gia".

Về các ứng dụng văn phòng độ sâu, GPT-5.2 thể hiện một bước tiến vượt bậc so với việc chỉ "tạo văn bản" đơn thuần, mà còn hướng đến "tạo ra các sản phẩm hoàn chỉnh". Nó có thể trực tiếp tạo, phân tích và định dạng các bảng tính và bài thuyết trình phức tạp. Trong một nhiệm vụ tra mô hình hóa bảng tính nội bộ dành cho các nhà phân tích ngân hàng đầu tư cấp dưới, điểm trung bình của nó cao hơn GPT-5.1 tới 9,3 điểm phần trăm .

So sánh trực tiếp cho thấy GPT-5.2 tạo ra các bảng tính và bản trình chiếu với những cải tiến đáng kể về độ phức tạp và định dạng. Cho dù đó là bảng cơ cấu vốn chủ sở hữu hay biểu đồ trực quan hóa quản lý dự án, nó đều tạo ra sản phẩm có chất lượng gần như chuyên nghiệp .

Về khả năng thành thạo mã nguồn , GPT-5.2 thể hiện sự tiến bộ vượt bậc từ "hỗ trợ viết mã" đến "dẫn dắt phát triển". Trong bài kiểm tra SWE-Bench Pro, một bài kiểm tra đánh giá nghiêm ngặt các khả năng kỹ thuật phần mềm thực tế, nó đã lập kỷ lục mới với số điểm 55,6% , so với 50,8% của phiên bản tiền nhiệm.

Điều ấn tượng hơn cả là khả năng thực tiễn của nó : GPT-5.2 có thể tạo ra các ứng dụng hoàn chỉnh chỉ trên một trang duy nhất, chẳng hạn như "Wave Simulator", "Holiday Card Tạo ra" và "Typing Rain Game", chỉ dựa trên một lời nhắc. Giám đốc điều hành của Windsurf, Jeff Wang, nhận xét: "GPT-5.2 đại diện cho bước tiến lớn nhất trong lập trình tác nhân kể từ GPT-5."

Trong khi đó, tỷ lệ ảo giác của GPT-5.2 đã giảm đáng kể . Trong một tập hợp các truy vấn ChatGPT đã được ẩn danh, tần suất câu trả lời sai trong GPT-5.2 Thinking đã giảm 38% so với GPT-5.1 Thinking .

Về khả năng hiểu ngữ cảnh dài , GPT-5.2 lần đầu tiên đạt độ chính xác gần 100% trong biến thể đánh giá MRCR 4 kim (lên đến 256k token) trong bài kiểm tra OpenAI MRCRv2. Điều này có nghĩa là các chuyên gia có thể tự tin sử dụng nó để xử lý các dự án đa tài liệu như báo cáo dài, hợp đồng và bài nghiên cứu.

Những đột phá trong khả năng hiểu hình ảnh đã cho phép GPT-5.2 tiến bộ từ việc chỉ đơn thuần "nhìn thấy" đến việc thực sự "hiểu". Trong suy luận đồ thị và hiểu giao diện phần mềm, tỷ lệ lỗi của nó đã giảm khoảng một nửa so với GPT-5.1 .

Tỷ lệ chính xác khi trả lời các câu hỏi về biểu đồ khoa học đạt 88,7% , và tỷ lệ chính xác khi hiểu ảnh chụp màn hình giao diện người dùng đồ họa (GUI) là 86,3% . Ngay cả khi đối diện hình ảnh bo mạch chủ chất lượng thấp, GPT-5.2 vẫn có thể xác định chính xác các thành phần chính và đánh dấu vị trí của chúng, trong khi GPT-5.1 chỉ có thể xác định được một vài bộ phận.

Sự hoàn thiện trong khả năng lập lịch nhiệm vụ và gọi công cụ thực sự mang lại cho GPT-5.2 những đặc điểm của một "tác nhân thông minh". Trong bài kiểm tra Tau2-bench Telecom, nó đã đạt được điểm số xuất sắc 98,7% , chứng minh khả năng sử dụng các công cụ một cách đáng tin cậy trong nhiệm vụ nhiều vòng, kéo dài.

Trong các tình huống thực tế, khi người dùng nêu ra các vấn đề phức tạp liên quan đến việc hoãn chuyến bay, lỡ chuyến nối chuyến, thất lạc hành lý và yêu cầu chỗ ngồi ưu tiên y tế, GPT-5.2 có thể điều phối toàn bộ quy trình làm việc — đặt lại vé, sắp xếp chỗ ngồi hỗ trợ đặc biệt và xử lý bồi thường — mang lại kết quả toàn diện hơn so với phiên bản tiền nhiệm.

04 Khả năng sử dụng và triển vọng: Triển khai từng bước nâng cấp năng suất

Bắt đầu từ hôm nay, sê-ri GPT-5.2 sẽ được triển khai cho người dùng trả phí trên ChatGPT, bao gồm các gói Plus, Pro, Go, Business và Enterprise. Mô hình mới này hiện đã có sẵn cho tất cả các nhà phát triển trên nền tảng API.

Chiến lược định giá phản ánh những khả năng được cải thiện: Giá API của GPT-5.2 là 1,75 đô la cho mỗi triệu token đầu vào và 14 đô la cho mỗi triệu token đầu ra, tăng so với GPT-5.1. Tuy nhiên, OpenAI nhấn mạnh rằng nhờ hiệu quả sử dụng token cao hơn, tổng chi phí để đạt được mức chất lượng tương đương trên nhiều lần đánh giá của tác nhân thực tế lại thấp hơn .

Về mặt bảo mật, GPT-5.2 tiếp tục và tăng cường các biện pháp bảo mật. Đặc biệt, nó giảm đáng kể các phản hồi không mong muốn trong các cuộc hội thoại liên quan đến sức khỏe tâm thần. OpenAI cũng đang dần ra mắt mô hình dự đoán độ tuổi để tự động áp dụng các biện pháp bảo vệ nội dung nghiêm ngặt hơn cho trẻ vị thành niên.

Quyết định phát hành GPT-5.2 của OpenAI vào dịp kỷ niệm 10 năm thành lập mang ý nghĩa biểu tượng sâu sắc, tượng trưng cho cầu nối giữa quá khứ và tương lai. Từ GPT đến GPT-3, từ ChatGPT đến GPT-5.2, công ty này luôn dẫn đầu trong sự phát triển của công nghệ trí tuệ nhân tạo.

Khi GPT-5.2 dần được triển khai cho hàng trăm triệu người dùng trên toàn thế giới, một tín hiệu rõ ràng của thời đại đang nổi lên: Trí tuệ nhân tạo không còn chỉ là một công cụ để trả lời câu hỏi hoặc tạo văn bản, mà là một cộng tác viên thông minh có khả năng hiểu được những nhu cầu phức tạp, điều phối các quy trình nhiều bước và tạo ra kết quả chuyên nghiệp.

Bản chất của công việc chuyên nghiệp đang được định nghĩa lại, và động cơ cốt lõi của quá trình định nghĩa lại lần đã được âm thầm nâng cấp lên phiên bản 5.2.

Bài viết này được đăng tải từ tài khoản WeChat công cộng "First Voice" , tác giả: Jia Yue, và được xuất bản với sự cho phép của 36Kr.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan