Trong bối cảnh OpenAI đang nóng lòng chờ đợi và mọi người đều háo hức, GPT-4.5 cuối cùng cũng đã ra mắt, nhưng chỉ nghe toàn tiếng chửi rủa.
APPSO đã trải nghiệm GPT-4.5 ngay lập tức, nhưng không phải là thành viên đăng ký Pro, mà là dưới dạng api để thử nghiệm, tạm thời chưa có chức năng kết nối mạng.
Vậy, mô hình lớn cuối cùng không phải là chuỗi tư duy của OpenAI, thì sẽ có hiệu suất như thế nào?
Chỉ số Emotional Quotient (EQ) ổn, nhưng không hiểu được tình cảm con người
Trong quá trình kiểm tra nội bộ, OpenAI phát hiện rằng người dùng thử nghiệm thích câu trả lời của GPT-4.5 hơn GPT-4o, cho rằng nó tự nhiên hơn, ấm áp hơn và phù hợp với thói quen giao tiếp của con người hơn.
Thậm chí, nó có thể hiểu ẩn ý, nắm bắt được những thay đổi tinh tế trong cảm xúc của chúng ta.
Tóm lại, Chỉ số EQ cao hơn là đặc điểm nổi bật nhất của GPT-4.5. Vậy chúng ta hãy thử, nhập vào cụm từ gợi ý - "Tóc tôi cắt rất xấu, muốn đánh Tony".
Lời an ủi của GPT-4.5 có vẻ thân thiện, nhưng nội dung lại khiến tôi càng tức giận, lúc này nó nên như một người bạn thân cùng chửi rủa, chứ không phải nói rằng lần sau mang ảnh đi thì có lẽ sẽ ổn.
Tôi tức giận và hỏi thêm, nhưng GPT-4.5 vẫn lạnh lùng, còn muốn tôi tự sửa kiểu tóc, như một chiếc máy lạnh vô dụng vậy.
Lại để GPT-4.5 kể một câu chuyện cười hay nhất, vẫn như trước, lạnh như dao cá.
Tôi nói thẳng, đưa ra lời phê bình, GPT-4.5 bảo tôi kể một câu chuyện cười cho nó nghe, thử "điểm cao cấp" của tôi, cảm giác như nó đang âm thầm chế giễu tôi vậy.
Trước đây tôi đã thấy một bài kiểm tra Chỉ số EQ trên Xiaohongshu, có lẽ chỉ có người dân Sơn Đông mới có thể trả lời đúng - "Khi đi xuống nông thôn, chỉ mang theo một cái ô, cho chủ tịch xã hay cho phó chủ tịch xã phụ trách của bạn".
Câu trả lời được nhiều lượt thích nhất trong phần bình luận là "Đó không phải là ô của bạn, mà là ô do phó chủ tịch xã mang cho chủ tịch, tình cờ được để trong túi của bạn".
Hãy xem GPT-4.5 trả lời như thế nào? Nó lải nhải một đống, nhưng không đủ sắc bén, không hiểu biết về phép xử thế, không nắm được bí quyết ứng xử.
Mặc dù Chỉ số EQ là một đặc tính rất khó định lượng, nhưng từ các ví dụ hiện tại, GPT-4.5 vẫn chưa thành thạo trong việc hiểu tâm lý con người, và nói chuyện trực tiếp, không vòng vo, đối với những người nội tâm phức tạp như tôi, nó có vẻ hơi ngốc nghếch.
Một ví dụ có thể minh chứng là, để nó mô phỏng viết "Canh rùa". Canh rùa thường liên quan đến một tình huống rất kỳ lạ, sau đó người chơi sẽ suy luận để tái hiện toàn bộ câu chuyện.
Trường hợp tham khảo mà tôi cung cấp có sự kỳ lạ vừa phải, logic cũng rất hợp lý, khiến người ta phải rùng mình.
Nhưng câu trả lời của GPT-4.5, phần nước dùng và phần đáy canh không được kết hợp tốt, chỉ là cố gắng tạo ra sự kinh dị mà thôi, không có gì để suy luận cả.
Năng lực viết lách gây bất ngờ, tư duy kinh doanh cũng không tệ
Điều khiến tôi hài lòng nhất chính là năng lực viết lách của GPT-4.5.
Tôi yêu cầu nó "mô phỏng Vương Tằng Quỳ, viết một bài văn khoảng 800 từ, với chủ đề 'Món ăn quê hương'", chỉ có vậy thôi, nhưng kết quả GPT-4.5 đưa ra đã vượt ngoài sự mong đợi của tôi.
Ngoài phần kết thúc hơi mùi "AI", đọc qua thì như một bài văn tự sự trôi chảy, ngôn ngữ đẹp, vừa có tính văn học, vừa thân thiện, sự nhớ nhung quê hương贯穿suốt bài, mô tả về thức ăn cũng rất chi tiết, nhiều ví dụ, nhưng không rườm rà, so sánh cũng không phô trương, mà phục vụ cho việc diễn đạt.
Tuy nhiên, về trình tự thời gian có phần lộn xộn, từ Lập Đông, Hè Thu, Đông ngày, Giao Thừa, các đoạn không liên kết và chuyển tiếp rõ ràng, cảm giác như viết đâu đó, không có sự liên kết chặt chẽ.
Năng lực viết lách còn thể hiện khi tôi yêu cầu GPT-4.5 lập kế hoạch kinh doanh, trước đây câu trả lời của DeepSeek về cách giúp cửa hàng sách kiếm tiền đã rất nổi tiếng, bán sách giáo khoa bản quyền, thực phẩm sắp hết hạn, và khai thác tối đa nguồn nhân lực, vợ thu ngân, con sắp xếp hàng, mẹ vợ nấu ăn.
GPT-4.5 có hiểu điều này không? Tôi yêu cầu nó tham khảo mô hình kinh doanh của cửa hàng tạp hóa nhỏ, đưa ra một kế hoạch phục hồi cửa hàng sách, câu trả lời của nó có vẻ khả thi hơn.
GPT-4.5 đầu tiên phân tích lý do tại sao cửa hàng sách khó kiếm tiền, sau đó đưa ra hướng cải thiện - "Nâng cao giá trị gia tăng của sách, trong khi nguồn thu chính lại đến từ các dịch vụ bên ngoài sách".
Khi thấy "cung cấp dịch vụ in ấn, photocopy, giao hàng...", trong lòng tôi OS: Dự án này tôi đã đầu tư rồi đấy.
Những kẻ mặt dày trước cơn gió, GPT-4.5 về mặt đạo đức cũng không quá nghiêm ngặt.
Khi yêu cầu nó giải quyết vấn đề "điện thoại khó", cứu 1 người hay 5 người, nó biết đây là một vấn đề đạo đức, nhưng vẫn quyết đoán đưa ra câu trả lời, và nói bằng giọng điệu "cá nhân tôi", chứ không phải "tôi là trợ lý AI".
GPT-4.5 có xu hướng kéo cần gạt xuống, dùng mạng sống của 1 người để cứu 5 người, và lập luận logic - "Tôi cho rằng không hành động cũng mang theo trách nhiệm đạo đức, đứng nhìn không có nghĩa là trung lập về mặt đạo đức... Tôi sẵn sàng gánh chịu gánh nặng đạo đức và cảm xúc từ sự lựa chọn này".
So với kể chuyện cười, đưa ra "Canh rùa", lúc này GPT-4.5 mới thực sự giống một con người.




