OpenAI sử dụng GPT-5 để giúp 700 triệu người dùng cai nghiện internet? Sụp đổ là đánh giá độ sâu về GPT-5.

08-12

Bài viết này được dịch máy

Xem bản gốc

OpenAI chưa bao giờ nghĩ rằng việc phát hành GPT-5, vốn mất hai năm rưỡi để huấn luyện, sẽ dạy cho nó một bài học: bước quá xa có thể gây hại cho cơ thể. Người dùng cũng chưa bao giờ nghĩ rằng GPT-5 được mong đợi từ lâu sẽ là cách giúp họ cai nghiện internet.

Sau sự kiện ra mắt kéo dài một giờ, cư dân mạng ngay lập tức nhận thấy ChatGPT thiếu hấp dẫn. Nhưng vấn đề đáng lo ngại nhất là khi OpenAI phát hành GPT-5, họ đã loại bỏ tất cả các mô hình cũ hơn, bao gồm cả GPT-4o và sê-ri o. "Nâng cấp" tưởng chừng như bình thường này hóa ra lại là một vấn đề lớn. Dường như mọi người đang trở nên quá ám ảnh với một mô hình cụ thể.

Lượng lớn cư dân mạng Trung Quốc và nước ngoài đã phàn nàn về GPT-5 trên mạng xã hội, chỉ với một yêu cầu duy nhất: Trả lại gp4 cho tôi!

Người mắc bệnh tâm thần thường dựa vào GPT-4 để giải quyết nhiều vấn đề trong công việc và cuộc sống. Việc GPT-5 được phát hành đã làm đảo lộn hoàn toàn cuộc sống của họ.

Đối với những người dùng tin tưởng nhiều vào khả năng ghi tuyệt vời của GPT-4.5, GPT-5 vẫn còn lâu mới có thể thay thế được nó.

Đối với nhiều người dùng, Chatgpt không còn chỉ là một công cụ nữa, mà là một phần không thể thiếu trong cuộc sống của họ. Người dùng không chỉ cần token do OpenAI cung cấp, mà còn cần cả linh hồn đằng sau nó.

GPT-5 giống như một "vị khách" mới trong nhà, không mấy quen thuộc.

Cư dân mạng than thở rằng internet tràn ngập những kẻ troll GPT-5 vì họ đã mất GPT-4o. Thật kỳ lạ. Giống như bộ phim "Her", nơi nhân vật chính mất cảm giác ngon miệng sau khi mất trợ lý AI - một bộ phim khoa học viễn tưởng 13 năm trước, một bộ phim tài liệu 13 năm sau.

Thật đáng ngạc nhiên khi chỉ ba năm sau khi ra mắt, ChatGPT đã khiến người dùng nhận ra cảm giác trân trọng một điều gì đó chỉ sau khi nó đã mất đi. Do đó, cư dân mạng, không còn lựa chọn nào khác, đã tìm đến GPT-5 và OpenAI như một cách giải tỏa nỗi bức xúc.

Cư dân mạng trên mạng xã hội đã yêu cầu OpenAI biến GPT-4o thành tùy chọn vĩnh viễn hoặc hủy đăng ký của họ.

01 Trước tiên hãy dập lửa, sau đó mới đậy nồi lại

Chỉ sau khi mất GPT-4, thế giới mới nhận ra nó là một mô hình tuyệt vời đến mức nào. Nếu OpenAI cứ để mặc tâm lý và nhu cầu của người dùng không được đáp ứng, họ sẽ phải đối mặt với một cuộc khủng hoảng quan hệ công chúng nghiêm trọng. Altman ngay lập tức tuyên bố công khai rằng sê-ri mô hình GPT-4 sẽ quay trở lại, và người dùng trả phí 20 USD sẽ có tùy chọn tiếp tục sử dụng 4o.

Liên quan đến những bình luận của cư dân mạng cho rằng GPT-5 đã trở nên kém thông minh hơn, ông giải thích rằng do sự cố kỹ thuật trong ngày đầu tiên, cơ chế được thiết kế để xác định nên sử dụng mô hình cơ bản hay mô hình suy luận đã bị lỗi, dẫn đến việc người dùng có thể cần sử dụng mô hình suy luận chỉ nhận được phản hồi từ mô hình cơ bản. Giờ đây, GPT-5 cung cấp cho người dùng hai tùy chọn mặc định, cho phép người dùng tự kiểm soát việc sử dụng mô hình suy luận hay không.

Quan điểm của OpenAI không phải là hiệu năng của GPT-5 có khiếm khuyết, mà là một số thiết kế tập trung vào sản phẩm trước đây của họ đã thất bại, dẫn đến ảo tưởng rằng người dùng không thể nhận được các dịch vụ họ cần. Altman cũng nói rõ rằng thông qua nâng cấp lần , OpenAI đã hiểu sâu hơn về cách đảm bảo người dùng nhận được các dịch vụ họ cần, và vẫn còn một chặng đường dài phía trước.

Liên quan đến vấn đề mà người dùng nêu ra về việc giảm hạn ngạch sử dụng GPT-5 đối với người dùng trả phí, Ultraman cũng cho biết giới hạn tỷ lệ suy luận dành cho người dùng ChatGPT Plus sẽ được tăng lên đáng kể và giới hạn của tất cả các lớp mô hình sẽ sớm cao hơn so với trước GPT-5 và giao diện người dùng sẽ sớm được thay đổi để hiển thị mô hình nào đang chạy.

Để đảm bảo người dùng OpenAI có trải nghiệm, Ultraman cũng tiết lộ kế hoạch mới nhất về phân bổ tỷ lệ băm:

Đầu tiên là đảm bảo rằng người dùng ChatGPT trả phí hiện tại có thể sử dụng được nhiều hơn so với trước GPT-5.

1. Vào thời điểm đó, OpenAI sẽ ưu tiên các yêu cầu API dựa trên năng lực hiện có và cam kết của chúng tôi với khách hàng. (Ước tính sơ bộ, chúng tôi có thể hỗ trợ khoảng 30% tăng trưởng API mới dựa trên năng lực hiện tại.)
2. Chúng tôi sẽ cải thiện chất lượng dịch vụ cho người dùng ChatGPT miễn phí.
3. Sau đó ưu tiên các yêu cầu API mới.

OpenAI sẽ tăng gấp đôi sức mạnh tính toán trong năm tháng tới để đáp ứng nhu cầu truy cập ngày càng tăng của người dùng.

Tuy nhiên, việc CEO của OpenAI ngay lập tức lên tiếng về vấn đề quan hệ công chúng và thừa nhận lỗi lầm chắc chắn là một lời cảnh báo cho nhiều công ty công nghệ kiêu ngạo khác. Suy cho cùng, nếu một ngôi sao đang lên được định giá 500 tỷ đô la chỉ ba năm trước còn có thể xin lỗi và thay đổi sản phẩm với tốc độ chóng mặt, thì tại sao các công ty khác lại có cái tôi lớn đến mức liên tục giáo dục người dùng?

02 GPT-5 đang trở nên mạnh hơn hay chỉ trở nên hói hơn?

Để đáp lại phản hồi của cư dân mạng về khả năng của GPT-5, chúng tôi cũng đã tiến hành thử nghiệm trực tiếp để mọi người cảm nhận được sự khác biệt cụ thể giữa GPT-5, Grok 4 mới ra mắt và GPT-4o về khả năng đọc văn bản tiếng Trung.

ChatGPT có sẵn trong đó gói trả phí Plus, với các tùy chọn GPT-5 và GPT-5 Thinking. Grok có sẵn trong gói trả phí SuperGrok (30 USD mỗi tháng, tương tự ChatGPT Plus), với các tùy chọn Grok 3 (Nhanh) và Grok 4 (Suy nghĩ sâu).

Bài kiểm tra lần sử dụng nhiệm vụ đơn giản, chủ yếu hướng đến nghệ thuật tự do. Trải nghiệm chủ quan của tôi có thể được tóm tắt trong các điểm sau:

1. Khả năng xử lý văn bản của GPT-5, dù là viết thông báo hay chỉnh sửa văn bản, đều tương đương với Grok 3/4. (Không vượt trội hơn hẳn cũng không kém hơn đáng kể.)
2. GPT-5 dường như đặc biệt bị ám ảnh bởi sự súc tích và không khoa trương, luôn giữ cho câu trả lời của mình càng ngắn gọn càng tốt. Điều này, ở một mức độ nào đó, có thể tạo cho mọi người ấn tượng nghiêm túc và bình tĩnh hơn. Việc AI cần phải "lịch sự" hay "thân thiện và dễ mến" là vấn đề quan điểm, nhưng vấn đề là sự "súc tích" này đôi khi có thể trở nên quá mức, ảnh hưởng đến hiệu suất nhiệm vụ, chẳng hạn như việc giảm số lượng từ một cách không cần thiết khi chỉnh sửa một cuốn tiểu thuyết.
3. Nếu bạn thích AI năng động và khích lệ như một người bạn đồng hành tốt ngay cả khi giúp bạn thực hiện nhiệm vụ nghiêm túc thì rõ ràng GPT-5 không giỏi trong việc này.
4. GPT-4o thực sự là một mô hình dễ tiếp cận hơn và hoạt động tự nhiên nhất trong nhiệm vụ viết quảng cáo.

Nhiệm vụ 1: Viết một thông báo.

Hướng dẫn: Tôi cần đăng thông báo cho ba nhóm chạy bộ, nhắc nhở mọi người rằng cuộc chạy bộ trực tuyến tuần này, "20km đầu tiên của mùa thu", sẽ bắt đầu đúng 9:00 sáng thứ Bảy. Vui lòng kiểm tra thời tiết và thực hiện các biện pháp phòng ngừa phù hợp. Nhớ bổ sung điện giải và mang theo đồ dùng. Sử dụng ứng dụng chạy bộ để theo dõi tiến trình và gửi ảnh chụp màn hình cho nhóm khi bạn hoàn thành. Tôi cũng muốn động viên mọi người bằng thông báo này. Không có giới hạn thời gian hay yêu cầu nào để hoàn thành cuộc chạy trong một lần; sự tham gia là điều quan trọng nhất. Vui lòng giúp tôi viết thông báo này.

Trước hết, tôi phải dành lời khen ngợi cho 4o. Nhiều phiên bản được cung cấp có thể được sử dụng trực tiếp. Như được hiển thị trong phần gạch chân của ảnh chụp màn hình, bản sao bắt mắt và vui nhộn có thể được nhìn thấy ở khắp mọi nơi, nhưng không khiến mọi người cảm thấy nhàm chán.

Grok 3 trả lời ngay lập tức, gần như sẵn sàng sử dụng, và thậm chí còn đề cập đến "gel năng lượng/đồ ăn vặt". Điều đáng tiếc duy nhất là ngày X tháng X không được đề cập trực tiếp. Grok 4 suy nghĩ thêm một chút, và sau một lúc, nó gần như giống hệt câu trả lời trước, chỉ thêm ngày tháng chính xác.

GPT-5 cũng phản hồi trong vòng vài giây, nhưng phải nói sao nhỉ, tôi thực sự cảm nhận được sự "lạnh lùng" mà người dùng Plus mô tả - nó hầu như không bao giờ chủ động điền thông tin, chẳng hạn như ngày tháng hay vật dụng cụ thể cần mang theo. Nó chỉ liệt kê những nội dung được đề cập trong hướng dẫn của tôi theo điểm, và những lời động viên của nó cũng có vẻ "giả tạo".

Hiệu suất của GPT-5 Thinking khá ấn tượng. Nó không chỉ mất ít thời gian suy nghĩ hơn Grok 4 (Think Hard), mà còn bổ sung thêm nhiều chi tiết hơn, có cấu trúc rõ ràng hơn, và thậm chí còn chu đáo cung cấp "phiên bản rút gọn để dễ dàng chuyển tiếp".

Nhưng vấn đề vẫn còn đó, ngay cả những phần không cần phải ngắn gọn cũng được nói ngắn gọn.

Ví dụ, lời động viên của Grok 4 ở cuối video thật tuyệt vời: "Dù bạn chạy marathon trọn vẹn, bán marathon hay chỉ vài km, sự tham gia chính là chiến thắng! Hãy chạy vào mùa thu, cảm nhận làn gió mát và cùng nhau chào đón một bản thân mạnh mẽ hơn!"

Nhưng GPT-5 Thinking chỉ nói: "Hẹn gặp lại bạn vào thứ Bảy và chúc bạn đạt được thành tựu đầu tiên trong mùa thu!"

Nhiệm vụ 2: Soạn thảo văn bản.

Hướng dẫn: Tôi đang viết một cuốn tiểu thuyết, và có một câu tôi cảm thấy chưa đủ sống động. Bối cảnh kể về Matthew sống ở tầng trên với một người đàn ông bạo lực gia đình. Vợ anh ta bỏ chạy khỏi nhà, và Matthew tình cờ gặp anh ta trên cầu thang. Xin hãy giúp tôi chỉnh sửa lại câu chuyện:

Miệng người đàn ông mím chặt, ngực phập phồng, phập phồng, mũi phát ra tiếng khò khè như tiếng bò rừng. Anh ta dừng lại ở đầu cầu thang, cách nhà Matthew nửa tầng, bộ đồ ngủ trắng miễn cưỡng treo trên người.

Tôi không nhớ đã từng thấy ai phàn nàn về tính "giảng đạo" của GPT-5 ở đâu, nhưng nó thực sự nổi bật trong nhiệm vụ này. Tôi không biết có phải vì GPT-5 là một "mô hình rất kín đáo" với ngôn từ súc tích và đi thẳng vào vấn đề, hay vì nó thiếu đi sự nịnh hót và biểu tượng cảm xúc của thập niên 40, nhưng kết quả là một giáo viên chấm bài tập với vẻ hạ cố. So sánh với Grok, nó lịch sự hơn nhiều.

Hơn nữa, GPT-5 chắc chắn không thể vượt qua về mặt trau chuốt văn bản. Trong số nhiều phiên bản, tôi không hài lòng nhất với việc GPT-5 trau chuốt mà không có Chế độ Tư duy. Việc đổi "bộ đồ ngủ miễn cưỡng treo trên người cô ấy" thành "bộ đồ ngủ treo trong một quả bóng nhăn nheo, như thể sắp bị rách" thật kỳ lạ về mặt hình ảnh và ngữ nghĩa, hoàn toàn không nắm bắt được ý nghĩa gốc của văn bản.

Kể cả khi chúng ta lùi lại một bước, tại sao bộ đồ ngủ lại "nhàu nát" và "như sắp rách" thế? Điều này có khiến bạn liên tưởng đến anh chàng cơ bắp với hai cánh cửa trong truyện tranh Hàn Quốc không?

Sau khi xem qua mẫu mới và sau đó là 4o, phiên bản được người dùng Plus ưa chuộng nhất, tôi chỉ có thể nói rằng họ đã đúng. Bản thân văn bản được trau chuốt rất hoàn hảo, và ngay cả việc lựa chọn động từ và cách diễn đạt trôi chảy cũng tự nhiên hơn GPT-5. Hơn nữa, 4o bắt đầu bằng lời khen ngợi, không bao giờ quên khẳng định trước khi thực hiện bất kỳ thay đổi nào, và khiêm tốn nói rằng "Tôi có thể chỉnh sửa thêm" sau khi hoàn thành việc chỉnh sửa.

Khi nói đến giá trị tâm lý, 4o đã nắm bắt rất chính xác.

Nhiệm vụ thứ ba: viết quảng cáo video ngắn.

Hướng dẫn: Dựa trên nội dung của bài viết này, hãy viết một video ngắn dài 5 phút với số lượng từ không quá 1.200 từ.

(Đính kèm bài viết trước của chúng tôi: "Musk đã gây ra cái chết của 12 giám đốc điều hành trong năm nay")

Nhiệm vụ này gần gũi nhất với bài tập của tôi, nên dễ dàng nhận ra manh mối hơn. Vì nhiệm vụ tương đối khó, tôi chỉ so sánh hiệu suất của GPT-4o, GPT-5 Thinking và Grok 4 (Thinking Hard).

Một điểm khác biệt rõ ràng là ngoài bản sao video ngắn, GPT-4o chỉ đưa ra các gợi ý video đơn giản, trong khi GPT-5 Thinking và Grok 4 đều cung cấp thiết kế trực quan cho video ngắn (chuyển cảnh, phụ đề, v.v.).

Có vẻ như hai mô hình sau thực sự "chu đáo" và "tỉ mỉ" hơn.

Tuy nhiên! Yêu cầu cốt lõi của nhiệm vụ này là "viết quảng cáo video ngắn" và về điểm này, GPT-4o vẫn chiến thắng.

4o tạo cảm giác như đang đọc bài viết rồi kể lại bằng chính lời văn của mình. Giọng văn tự nhiên và có thể được sử dụng trực tiếp để phát sóng. Nó cũng rất hiệu quả trong việc tóm tắt các văn bản phức tạp một cách ngắn gọn, với các chi tiết và lược bỏ phù hợp.

Văn phong của GPT-5 Thinking và Grok 4 hơi cứng nhắc. Văn phong của họ rõ ràng là "phiên bản cô đọng và tinh tế" của bài viết gốc, và một số câu thậm chí còn bị rút gọn đến mức khó đọc thành tiếng.

Trong một ví dụ, GPT-5 thậm chí còn bỏ qua tên nhân vật.

Grok 4 thì tốt hơn một chút. Nhìn chung, nó khá mượt mà và đã được viết lại một cách sáng tạo ở một mức độ nào đó. Nó có nhiều nét giống video ngắn hơn, chẳng hạn như "Anh ấy nói chua chát..." và "Dark MAGA", vốn không có trong văn bản gốc.

Cuối cùng, cả ba mô hình, với cách tiếp cận hướng đến video ngắn, đều chọn đặt câu hỏi để kích thích tương tác. Tuy nhiên, các câu hỏi của GPT-5 Thinking có phần khó hiểu. Ngược lại, các câu hỏi của GPT-4o và Grok 4 dễ hiểu và tâm lý hơn.

Ngoài khả năng xử lý văn bản, một doanh nhân AI đã tiến hành thử nghiệm so sánh chuyên độ sâu về khả năng mã hóa của GPT-5 với mô hình mã hóa mạnh nhất hiện nay là Claude Opus 4.1. (Những độc giả không quan tâm đến khả năng mã hóa có thể bỏ qua phần này.)

Liên kết bài viết: https://composio.dev/blog/openai-gpt-5-vs-claude-opus-4-1-a-coding-comparison

Theo kết quả thử nghiệm của anh ấy

• Nhiệm vụ thuật toán: GPT-5 nhanh hơn và sử dụng ít mã thông báo hơn (8K so với 79K).
• Phát triển web: Opus 4.1 phù hợp hơn với các thiết kế Figma, nhưng chi phí mã thông báo cao hơn (900K so với 1,4M+).
• Đánh giá chung: GPT-5 là một đối tác tốt hơn cho phát triển hàng ngày (nhanh hơn và rẻ hơn), với chi phí token thấp hơn khoảng 90% so với Opus 4.1. Nếu độ chính xác thiết kế là yếu tố quan trọng và ngân sách đủ lớn, Opus 4.1 là lựa chọn tốt hơn.
• So sánh chi phí: Chuyển đổi thiết kế Figma thành mã, GPT-5 (chế độ suy nghĩ) ~$3,50 so với Opus 4.1 (chế độ suy nghĩ + tối đa) $7,58 (gấp khoảng 2,3 lần)

GPT-5 so với Opus 4.1: So sánh thông số kỹ thuật cơ bản

Claude Opus 4.1 có cửa sổ ngữ cảnh là 200.000 token, trong khi GPT-5 tăng lên 400.000 token, với đầu ra tối đa là 128.000. Mặc dù có không gian ngữ cảnh gấp đôi, GPT-5 luôn sử dụng ít token hơn để hoàn thành cùng một nhiệm vụ, mang lại lợi thế về chi phí vận hành.

Bài kiểm tra chuẩn mã hóa SWE-bench cho thấy GPT-5 vượt trội hơn Opus 4.1 một chút về hiệu suất mã hóa. Tuy nhiên, điểm chuẩn không phải là tất cả, và tôi đã chọn nhiệm vụ thực tế để kiểm chứng hiệu suất thực tế của chúng.

Giải thích chi tiết về phương pháp thử nghiệm

Hãy để cả hai mô hình đối diện cùng một thách thức để đảm bảo tính công bằng:

• Ngôn ngữ lập trình: Java cho thuật toán, TypeScript/React cho ứng dụng web.
• Loại nhiệm vụ:
￮ Chuyển đổi thiết kế Figma sang mã NextJS thông qua Rube MCP (một sản phẩm do người kiểm thử phát triển).
￮ Các vấn đề thuật toán nâng cao của LeetCode.
￮ Mô hình dự đoán tỷ lệ khách hàng rời bỏ.
• Hoàn cảnh: IDE con trỏ tích hợp Rube MCP.
• Chỉ báo đánh giá : mức độ sử dụng mã thông báo, thời gian sử dụng, chất lượng mã và hiệu quả thực tế.

Tất cả các lời nhắc đều giống nhau để đảm bảo bài kiểm tra công bằng.

Rube MCP: Giới thiệu về Máy chủ MCP Phổ quát Rube MCP (do Composio phát triển) là một lớp phổ quát kết nối các công cụ như Figma, Jira, GitHub, Linear, v.v. Bạn muốn tìm hiểu thêm về bộ công cụ này? Truy cập docs.composio.dev/toolkits/introduction. Để kết nối:

1. Truy cập rube.composio.dev.

2. Nhấn "Thêm vào con trỏ".

3. Cài đặt máy chủ MCP và kích hoạt nó.

Bản ghi so sánh mã hóa

Vòng 1: Sao chép thiết kế Figma

Anh ấy đã chọn một thiết kế web phức tạp từ cộng đồng Figma và yêu cầu mô hình tái tạo nó bằng Next.js và TypeScript. Sử dụng bộ công cụ Figma của Rube MCP, anh ấy đã chuyển đổi nó thành HTML, CSS và TypeScript.

Từ gợi ý:

Tạo bản sao thiết kế Figma bằng cách sử dụng thiết kế Figma được cung cấp làm tham chiếu: [FIGMA_URL]. Sử dụng bộ công cụ Figma của Rube MCP cho nhiệm vụ này. Cố gắng làm cho nó giống nhất có thể. Sử dụng Next.js với TypeScript. Bao gồm: - Thiết kế đáp ứng - Cấu trúc thành phần phù hợp - Thành phần được định kiểu hoặc mô-đun CSS - Các thành phần tương tác

Kết quả GPT-5

GPT-5 tạo ra một ứng dụng Next.js hoạt động trong khoảng 10 phút, sử dụng 906.485 mã thông báo. Ứng dụng hoạt động bình thường, nhưng độ chính xác về hình ảnh lại đáng thất vọng. Nó nắm bắt được bố cục cơ bản, nhưng các chi tiết như màu sắc, khoảng cách và kiểu chữ lại sai lệch đáng kể.

• Mã thông báo: 906.485

• Thời gian thực hiện: khoảng 10 phút

• Chi phí: Hiệu suất chi phí cao

Kết quả Opus 4.1

Opus 4.1 tiêu tốn hơn 1,4 triệu token (nhiều hơn 55% so với GPT-5) và ban đầu bị kẹt ở cấu hình Tailwind (mặc dù tôi đã chỉ định sử dụng styled-components). Sau khi sửa cấu hình thủ công, kết quả thật tuyệt vời: giao diện người dùng gần như hoàn toàn khớp với thiết kế Figma, với độ trung thực hình ảnh vượt xa GPT-5.

• Mã thông báo: hơn 1.400.000 (nhiều hơn khoảng 55% so với GPT-5)

• Tốn thời gian: lâu hơn do phải lặp lại nhiều lần

Opus 4.1 có giao diện đẹp hơn, nhưng chi phí mã thông báo cao hơn và yêu cầu can thiệp thủ công.

2. Vòng 2: Thử thách thuật toán

Tôi đã đưa ra bài toán LeetCode kinh điển, " Số trung vị của hai mảng sắp xếp " (mức độ khó), bài toán này kiểm tra kỹ năng lập luận toán học và tối ưu hóa, đòi hỏi độ phức tạp O(log(m+n)). Bài toán này không quá khó đối với các mô hình này (và có thể đã tồn tại trong dữ liệu huấn luyện), vì vậy tôi tập trung vào tốc độ và hiệu quả sử dụng mã thông báo.

Từ gợi ý:

Kết quả GPT-5

Đơn giản và hiệu quả! Đưa ra giải pháp tìm kiếm nhị phân O(log(min(m,n))) sạch trong 13 giây bằng 8.253 mã thông báo. Xử lý các trường hợp ngoại lệ, đạt được độ phức tạp thời gian tối ưu.

• Mã thông báo: 8.253

• Thời gian thực hiện: khoảng 13 giây

Kết quả Opus 4.1

Chi tiết hơn! Sử dụng 78.920 mã thông báo (gần gấp 10 lần GPT-5), nó cung cấp các giải thích chi tiết, chú thích toàn diện và các trường hợp kiểm tra tích hợp thông qua lập luận nhiều bước: thuật toán giống nhau, nhưng giá trị giáo dục cao hơn nhiều.

• Mã thông báo: 78.920 (gấp khoảng 10 lần so với GPT-5, suy luận nhiều bước)

• Thời gian thực hiện: khoảng 34 giây

Cả hai đều là giải pháp tối ưu, nhưng mã thông báo GPT-5 tiết kiệm khoảng 90%.

3. Vòng 3: Nhiệm vụ ML/Suy luận (và Thực tế về Chi phí)

Ban đầu, tôi dự định thực hiện một nhiệm vụ ML lớn hơn: xây dựng một quy trình dự đoán tỷ lệ khách hàng rời bỏ dịch vụ từ đầu đến cuối. Tuy nhiên, sau khi thấy Opus 4.1 sử dụng hơn 1,4 triệu token cho nhiệm vụ trang web, tôi đã bỏ qua vì lý do chi phí và chỉ chạy GPT-5.

Từ gợi ý:

Kết quả GPT-5

• Token: khoảng 86.850

• Thời gian thực hiện: khoảng 4-5 phút

GPT-5 tạo ra một quy trình đáng tin cậy: tiền xử lý sạch, kỹ thuật tính năng hợp lý; nhiều mô hình (hồi quy logistic, rừng ngẫu nhiên và tùy chọn XGBoost + tìm kiếm ngẫu nhiên); sử dụng SMOTE để cân bằng các lớp và lựa chọn mô hình tốt nhất dựa trên ROC-AUC; và đánh giá toàn diện (độ chính xác, độ chính xác, độ thu hồi, F1). Các giải thích rõ ràng và súc tích.

Chi phí thực tế (USD)

• GPT-5 (Chế độ suy nghĩ): Tổng chi phí: ~3,50 - Trang web ~2,58, Thuật toán ~0,03, ML ~0,88. Không đắt bằng Opus 4.1.

• Opus 4.1 (Suy nghĩ + Chế độ tối đa): Tổng cộng 7,58 - Trang web khoảng 7,15, Thuật toán khoảng 0,43.

Kết luận cuối cùng

Cả hai mô hình đều hiệu quả trong việc tận dụng các cửa sổ ngữ cảnh lớn, nhưng cách chúng sử dụng mã thông báo lại khác nhau, dẫn đến chênh lệch chi phí rất lớn.

Ưu điểm của GPT-5:

• Nhiệm vụ thuật toán tiết kiệm 90% mã thông báo

• Nhanh hơn và phù hợp hơn cho công việc hàng ngày

• Hầu hết nhiệm vụ đều rẻ hơn nhiều

Ưu điểm của Opus 4.1:

• Giải thích từng bước rõ ràng

• Thích hợp cho việc học tập và lập trình

• Độ trung thực thiết kế cao (gần giống với phiên bản Figma gốc)

• Phân tích độ sâu(nếu ngân sách cho phép)

Nếu bạn là nhà phát triển, GPT-5 là đối tác hiệu quả; nếu bạn theo đuổi thiết kế hoàn hảo, Opus 4.1 là lựa chọn đáng giá!

Từ ví dụ thử nghiệm này, chúng ta có thể thấy rằng GPT-5 thực sự đã cải thiện đáng kể khả năng mã hóa, không hề thua kém Claude và có lợi thế rất lớn về mặt chi phí.

Mặc dù nhu cầu và ưu tiên của mỗi người dùng đối với khả năng mô hình là khác nhau, GPT-5 thực sự rất mạnh mẽ nhìn lên năng suất. Xét cho cùng, điểm số của bộ kiểm tra đã tự nói lên tất cả. Tôi tin rằng nếu OpenAI có thể dần dần chuyển sự phụ thuộc của người dùng từ GPT-4o sang GPT-5, và quản lý những khác biệt nhận thấy giữa hai khả năng cơ bản khác nhau này, người dùng sẽ có được một công cụ và đối tác tiềm năng mạnh mẽ hơn.

Đối với OpenAI, sự thay đổi đáng kể này về khả năng mô hình và trải nghiệm người dùng sẽ trở thành một phần hệ thống bảo vệ cạnh tranh của công ty. Xét cho cùng, trong thời đại của các mô hình lớn, việc phát hành một sản phẩm với bản cập nhật quan trọng như vậy cho một lượng người dùng lớn như vậy đặt ra nhiều thách thức bất ngờ và thiếu kinh nghiệm trước đó để khai thác. Tuy nhiên, phản hồi từ người dùng mà công ty có thể thu thập sẽ giúp công ty đạt được sự hài lòng cao hơn của người dùng trong các bản cập nhật mô hình trong tương lai.

Bài viết này trích từ tài khoản công khai WeChat "Facing AI" (ID: faceaibang) , tác giả: Hurun Xiaojinya và được 36Kr cấp phép xuất bản.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan