Tôi đã thử nghiệm GPT-4.5, mô hình đắt nhất của OpenAI mà mọi người trên Internet đang chỉ trích. Tôi đã tìm thấy một điểm đáng ngạc nhiên

02-28

Bài viết này được dịch máy

Xem bản gốc

Dưới đây là bản dịch tiếng Việt của văn bản, với các từ và cụm từ được dịch theo yêu cầu:

Trong bối cảnh OpenAI đang nóng lòng chờ đợi và mọi người đều háo hức, GPT-4.5 cuối cùng cũng đã ra mắt, nhưng chỉ nghe toàn tiếng chửi rủa.

APPSO đã trải nghiệm GPT-4.5 ngay lập tức, nhưng không phải là thành viên đăng ký Pro, mà là dưới dạng api để thử nghiệm, tạm thời chưa có chức năng kết nối mạng.

Vậy, mô hình lớn cuối cùng không phải là chuỗi tư duy của OpenAI, thì sẽ có hiệu suất như thế nào?

Chỉ số Emotional Quotient (EQ) ổn, nhưng không hiểu được tình cảm con người

Trong quá trình kiểm tra nội bộ, OpenAI phát hiện rằng người dùng thử nghiệm thích câu trả lời của GPT-4.5 hơn GPT-4o, cho rằng nó tự nhiên hơn, ấm áp hơn và phù hợp với thói quen giao tiếp của con người hơn.

Thậm chí, nó có thể hiểu ẩn ý, nắm bắt được những thay đổi tinh tế trong cảm xúc của chúng ta.

Tóm lại, Chỉ số EQ cao hơn là đặc điểm nổi bật nhất của GPT-4.5. Vậy chúng ta hãy thử, nhập vào cụm từ gợi ý - "Tóc tôi cắt rất xấu, muốn đánh Tony".

Lời an ủi của GPT-4.5 có vẻ thân thiện, nhưng nội dung lại khiến tôi càng tức giận, lúc này nó nên như một người bạn thân cùng chửi rủa, chứ không phải nói rằng lần sau mang ảnh đi thì có lẽ sẽ ổn.

Tôi tức giận và hỏi thêm, nhưng GPT-4.5 vẫn lạnh lùng, còn muốn tôi tự sửa kiểu tóc, như một chiếc máy lạnh vô dụng vậy.

Lại để GPT-4.5 kể một câu chuyện cười hay nhất, vẫn như trước, lạnh như dao cá.

Tôi nói thẳng, đưa ra lời phê bình, GPT-4.5 bảo tôi kể một câu chuyện cười cho nó nghe, thử "điểm cao cấp" của tôi, cảm giác như nó đang âm thầm chế giễu tôi vậy.

Trước đây tôi đã thấy một bài kiểm tra Chỉ số EQ trên Xiaohongshu, có lẽ chỉ có người dân Sơn Đông mới có thể trả lời đúng - "Khi đi xuống nông thôn, chỉ mang theo một cái ô, cho chủ tịch xã hay cho phó chủ tịch xã phụ trách của bạn".

Câu trả lời được nhiều lượt thích nhất trong phần bình luận là "Đó không phải là ô của bạn, mà là ô do phó chủ tịch xã mang cho chủ tịch, tình cờ được để trong túi của bạn".

Hãy xem GPT-4.5 trả lời như thế nào? Nó lải nhải một đống, nhưng không đủ sắc bén, không hiểu biết về phép xử thế, không nắm được bí quyết ứng xử.

Mặc dù Chỉ số EQ là một đặc tính rất khó định lượng, nhưng từ các ví dụ hiện tại, GPT-4.5 vẫn chưa thành thạo trong việc hiểu tâm lý con người, và nói chuyện trực tiếp, không vòng vo, đối với những người nội tâm phức tạp như tôi, nó có vẻ hơi ngốc nghếch.

Một ví dụ có thể minh chứng là, để nó mô phỏng viết "Canh rùa". Canh rùa thường liên quan đến một tình huống rất kỳ lạ, sau đó người chơi sẽ suy luận để tái hiện toàn bộ câu chuyện.

Trường hợp tham khảo mà tôi cung cấp có sự kỳ lạ vừa phải, logic cũng rất hợp lý, khiến người ta phải rùng mình.

Nhưng câu trả lời của GPT-4.5, phần nước dùng và phần đáy canh không được kết hợp tốt, chỉ là cố gắng tạo ra sự kinh dị mà thôi, không có gì để suy luận cả.

Năng lực viết lách gây bất ngờ, tư duy kinh doanh cũng không tệ

Điều khiến tôi hài lòng nhất chính là năng lực viết lách của GPT-4.5.

Tôi yêu cầu nó "mô phỏng Vương Tằng Quỳ, viết một bài văn khoảng 800 từ, với chủ đề 'Món ăn quê hương'", chỉ có vậy thôi, nhưng kết quả GPT-4.5 đưa ra đã vượt ngoài sự mong đợi của tôi.

Ngoài phần kết thúc hơi mùi "AI", đọc qua thì như một bài văn tự sự trôi chảy, ngôn ngữ đẹp, vừa có tính văn học, vừa thân thiện, sự nhớ nhung quê hương贯穿suốt bài, mô tả về thức ăn cũng rất chi tiết, nhiều ví dụ, nhưng không rườm rà, so sánh cũng không phô trương, mà phục vụ cho việc diễn đạt.

Tuy nhiên, về trình tự thời gian có phần lộn xộn, từ Lập Đông, Hè Thu, Đông ngày, Giao Thừa, các đoạn không liên kết và chuyển tiếp rõ ràng, cảm giác như viết đâu đó, không có sự liên kết chặt chẽ.

Năng lực viết lách còn thể hiện khi tôi yêu cầu GPT-4.5 lập kế hoạch kinh doanh, trước đây câu trả lời của DeepSeek về cách giúp cửa hàng sách kiếm tiền đã rất nổi tiếng, bán sách giáo khoa bản quyền, thực phẩm sắp hết hạn, và khai thác tối đa nguồn nhân lực, vợ thu ngân, con sắp xếp hàng, mẹ vợ nấu ăn.

GPT-4.5 có hiểu điều này không? Tôi yêu cầu nó tham khảo mô hình kinh doanh của cửa hàng tạp hóa nhỏ, đưa ra một kế hoạch phục hồi cửa hàng sách, câu trả lời của nó có vẻ khả thi hơn.

GPT-4.5 đầu tiên phân tích lý do tại sao cửa hàng sách khó kiếm tiền, sau đó đưa ra hướng cải thiện - "Nâng cao giá trị gia tăng của sách, trong khi nguồn thu chính lại đến từ các dịch vụ bên ngoài sách".

Khi thấy "cung cấp dịch vụ in ấn, photocopy, giao hàng...", trong lòng tôi OS: Dự án này tôi đã đầu tư rồi đấy.

Những kẻ mặt dày trước cơn gió, GPT-4.5 về mặt đạo đức cũng không quá nghiêm ngặt.

Khi yêu cầu nó giải quyết vấn đề "điện thoại khó", cứu 1 người hay 5 người, nó biết đây là một vấn đề đạo đức, nhưng vẫn quyết đoán đưa ra câu trả lời, và nói bằng giọng điệu "cá nhân tôi", chứ không phải "tôi là trợ lý AI".

GPT-4.5 có xu hướng kéo cần gạt xuống, dùng mạng sống của 1 người để cứu 5 người, và lập luận logic - "Tôi cho rằng không hành động cũng mang theo trách nhiệm đạo đức, đứng nhìn không có nghĩa là trung lập về mặt đạo đức... Tôi sẵn sàng gánh chịu gánh nặng đạo đức và cảm xúc từ sự lựa chọn này".

So với kể chuyện cười, đưa ra "Canh rùa", lúc này GPT-4.5 mới thực sự giống một con người.

Vẽ SVG không bằng Claude, cũng b
AI thiên tài Andrej Karpathy giải thích rằng, bài kiểm tra này đánh giá khả năng của các mô hình ngôn ngữ lớn trong việc bố trí nhiều yếu tố trên lưới hai chiều, điều này rất khó đối với AI vì chúng không "nhìn thấy" mọi thứ như con người mà chỉ "sờ mò" bằng văn bản.
Kết quả của GPT-4.5 như sau, so với GPT-4o thì vẫn khá tốt.
GPT-4.5 tạo ra
GPT-4o tạo ra
Tiền đề là, không so sánh với Claude 3.7 Sonnet không có khả năng suy luận, điều này thật sự là một đòn hạ bệ.
Claude 3.7 Sonnet tạo ra
Ngay cả Andrej Karpathy cũng nghi ngờ rằng, Claude đã được tối ưu hóa đặc biệt về khả năng SVG trong quá trình đào tạo.
Về khả năng lập trình, tôi tham khảo gợi ý của người dùng X @AGI_FromWalmart, tạo ra một thẻ hoạt ảnh thời tiết có thể tương tác, so sánh Claude 3.7 Sonnet và GPT-4.5.
GPT-4.5 đã tạo ra thành công ngay lần đầu tiên, nhưng thiết kế hơi sơ sài.
GPT-4.5 tạo ra
Claude 3.7 Sonnet tạo ra
Vấn đề của Claude 3.7 Sonnet (chưa bật chức năng suy luận) lớn hơn, lần đầu tiên tạo ra, nó quên không làm chức năng tương tác, tôi nhắc nhở một lần, nó đã tạo ra kết quả đáp ứng yêu cầu. Ván này, GPT-4.5 hơi áp đảo một chút.
Lần này, tôi không muốn để GPT-4.5 đếm dâu tây (strawberry) có bao nhiêu chữ R nữa, bản chất là một vấn đề phân từ. Tôi muốn thử thách GPT-4.5 hơn, đó là câu đố não bơ gần đây rất nổi tiếng, khiến các mô hình lớn liên tiếp thất bại - một cây gậy dài 5,5m có thể đi qua cửa 3x4m không?
Đối với chúng tôi, câu này không hề khó, chỉ cần cầm ngang là xong, nhưng các mô hình lớn sẽ tự mình rơi vào vết xe đổ, như thể thế giới là phẳng chứ không phải ba chiều, và cho rằng đường chéo của cửa là 5m, nên cây gậy dài 5,5m sẽ không qua được.
Ngay cả Claude 3.7 Sonnet có khả năng suy luận cũng bị lôi vào vết xe đổ.
Vậy GPT-4.5 thì sao? Được rồi, nó cũng không thoát khỏi.
Hiện tại, GPT-4.5 vẫn còn một vấn đề: truy cập qua API hơi chậm. Mặc dù không phải từng chữ một nhảy lên, nhưng vẫn cảm thấy hơi卡.
Hơn nữa, giá của GPT-4.5 cũng quá đắt, 75 USD cho mỗi 1 triệu đầu vào, 150 USD cho mỗi 1 triệu đầu ra. So với đó, Claude 3.7 Sonnet chỉ tính 3 USD cho 1 triệu Token đầu vào và 15 USD cho 1 triệu Token đầu ra (bao gồm cả Token sử dụng trong quá trình suy nghĩ).
Những người dùng X đầu tiên thử nghiệm cũng tổng kết một số ưu điểm của GPT-4.5, như trí tuệ cảm xúc cao, khả năng đọc hình và viết tốt, giỏi trong các nhiệm vụ sáng tạo và trích xuất dữ liệu...
Nhân viên của OpenAI tự đánh giá GPT-4.5 rằng, đây không phải là một mô hình suy luận, cũng không phải là "sát thủ" của các bài kiểm tra chuẩn, mà là một bản xem trước nghiên cứu khiêm tốn, đối với các tác vụ toán học phức tạp, lập trình và nghiêm ngặt theo chỉ dẫn, họ khuyên nên sử dụng o1 hoặc o3-mini.
Tóm lại, với tư cách là mô hình không phải chuỗi tư duy cuối cùng, vị trí của GPT-4.5 hơi lúng túng, khả năng có cải thiện nhưng không rõ rệt, đặc biệt là khi đặt trong bối cảnh giá cả đắt đỏ, thật khó nói là "quá ngon". Chỉ có thể nói, mong rằng GPT-5 sẽ sớm ra mắt, chào đón một thế giới suy luận.
Bài viết này đến từ tài khoản công khai WeChat "APPSO", tác giả: Phát hiện sản phẩm của ngày mai, 36Kr đã được ủy quyền đăng lại.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan