Ngày 28 tháng 2, Open AI đã tung ra một đòn lớn, GPT-4.5 với danh hiệu "mô hình AI lớn nhất, kiến thức phong phú nhất và đắt nhất trong lịch sử" đã chính thức ra mắt. CEO Sam Altman đã ca ngợi nó trên Twitter, gọi đây là "mô hình tốt nhất, được suy nghĩ kỹ lưỡng mà tôi từng thảo luận". Ông còn nói "Lần đầu tiên tôi cảm thấy AI như một con người!"
Tuy nhiên, buổi ra mắt này lại đầy kịch tính: Altman đã khen ngợi GPT-4.5 trên mạng, nhưng lại vắng mặt tại sự kiện, chỉ vì ông vừa trở thành cha mới và phải ở bệnh viện chăm sóc con.
Từ GPT trở thành huyền thoại 2 năm trước đến ngày nay ra mắt GPT-4.5, mô hình AI mới này sẽ mang lại điều gì cho chúng ta?
Lần này nó "cảm tính" hơn
Về kỳ vọng đối với GPT, tôi nghĩ không cần phải nói nhiều. 2 năm trước, GPT-4 đã làm nên kỳ tích, những người dùng đều nói "Trời ơi".
Tuy nhiên, thời gian trôi qua nhanh, không ngờ GPT-4.5 cũng đã đến lúc ra mắt, nhưng có vẻ như không còn cảm giác "choáng ngợp" như trước nữa.
Về mặt hiệu suất, tôi cá nhân cho rằng GPT-4.5 chưa đạt được kỳ vọng của mọi người.
Mặc dù được cho là sử dụng 10 lần năng lực tính toán của GPT-4o, nhưng nhìn chung dữ liệu không có sự cải thiện lớn.
Thậm chí, nó cũng phù hợp với tên gọi, chỉ có khoảng nửa bậc cải thiện.
Trên mạng, một số chuyên gia đã thử các bài kiểm tra vật lý cổ điển thường dùng cho AI, và kết quả thực ra cũng không tệ, vận tốc di chuyển của quả bóng rất nhanh và không vượt quá quả bóng lớn.
Tuy nhiên, về khả năng suy luận, mặc dù GPT-4.5 có cải thiện nhẹ so với GPT-4o, nhưng trong các khả năng GPQA (khoa học), AIME'24 (toán học), SWE-Bench Verified (lập trình), nó vẫn hoàn toàn yếu hơn OpenAl o3-mini.
Vì vậy, ưu điểm lần này của GPT-4.5 chính là "tính cảm xúc" mà OpenAI đề cập.
Tính cảm xúc của GPT-4.5 thể hiện ở đâu?
Trước khi thực sự giới thiệu GPT-4.5, OpenAI đã trình diễn cho chúng ta quá trình tiến hóa từ GPT-1 đến GPT-4.5, rất thú vị. Họ đã hỏi một câu hỏi kiến thức phổ thông: Tại sao đại dương lại mặn?
Câu trả lời của GPT-1 như thế này, có thể thấy nó thậm chí không biết mình đang nói gì.
GPT-2 và GPT-3.5 bắt đầu biết mình đang nói gì và có manh mối.
GPT-4 là câu trả lời quen thuộc của chúng ta, có logic, có cơ sở, chỉ là nói quá cứng nhắc, không giống người.
Đến GPT-4.5, ta sẽ thấy câu trả lời không khác GPT-4 nhiều, điều này cũng cho thấy năng lực suy luận và logic thực ra không thay đổi nhiều.
Thay đổi lớn nhất là ngôn ngữ của nó, một mặt nó nói ngắn gọn hơn, sử dụng từ ngữ thông thường hơn, mặt khác nó sử dụng "dấu chấm than" để thể hiện cảm xúc trong lời nói.
Để thể hiện rõ nhất khả năng cảm xúc của GPT-4.5, cần hỏi nó những câu có liên quan đến cảm xúc, ví dụ: Tôi cảm thấy rất buồn khi không đạt được kết quả thi.
Có thể thấy, GPT-4o trả lời thực sự rất vô cảm, chỉ là phân tích logic thuần túy.
Trong khi GPT-4.5 lại quan tâm đến cảm xúc của con người, không chỉ an ủi mà còn xây dựng lại niềm tin, nói rằng "Đây không phải là vấn đề về năng lực của bạn", cuối cùng còn đưa ra giải pháp để bạn chuyển hướng sự chú ý và không còn buồn nữa.
Điều thú vị hơn là, một số người phát hiện ra rằng, nếu nó có khả năng cảm xúc cao như vậy, có lẽ nó sẽ có thành tích tốt hơn trong các lĩnh vực khoa học xã hội. Và quả nhiên, họ phát hiện ra nó giỏi hơn GPT-4o trong việc đề xuất nhạc.
Có lẽ là vì nhạc cần sự thẩm định cảm tính nhiều hơn, chứ không cần phân tích logic trực tiếp, và đây chính là thế mạnh của GPT-4.5.
Thay vì "bộ não thông minh" mà mọi người kỳ vọng trước đây, lần này GPT-4.5 không còn là "robot trả lời câu hỏi" nữa, mà là vẫn giữ được chỉ số thông minh, nhưng trở thành "chị gái tâm lý" có thể luôn mang đến cho bạn giá trị về cảm xúc.
DeepSeek đánh bại GPT-4.5
Khi nói đến khả năng cảm xúc, DeepSeek cũng không thể bỏ qua. Khi DeepSeek vừa ra mắt, nó không chỉ có giá cả hợp lý, mà còn rất "tinh tế trong giao tiếp xã hội".
Nổi tiếng nhất là bức ảnh cuộc trò chuyện sau đây:
Nhiều người lúc đó đều nói rằng, DeepSeek đã "lên tinh thần" rồi, nhiều lúc còn biết dùng các meme trên mạng để trả lời. Vậy so với GPT-4.5 mới ra, nó thể hiện như thế nào?
Tôi đã dùng câu hỏi về không đạt kết quả thi như trước để hỏi nó:
Tôi nhận thấy, câu trả lời của DeepSeek cũng rất tốt, gần như giống hệt GPT-4.5, an ủi, xây dựng lại niềm tin, rồi đưa ra giải pháp. Vì vậy, trước đây khi chúng ta cảm thấy DeepSeek có khả năng cảm xúc cao, đó không phải là ảo giác, mà nó thực sự có khả năng cảm xúc, và cũng không thua kém GPT-4.5 là bao.
Nhưng nếu không nói về chi phí mà chỉ nói về năng lực, thì đó là hành vi vô lương tâm (mà cũng không thấy GPT-4.5 có năng lực gì quá đặc biệt). Nhiều người khi lần đầu tiên thấy giá của GPT-4.5, đều nghi ngờ liệu họ có ghi nhầm giá hay mắt mình có vấn đề.
Giá API của GPT-4.5 thực sự đắt đến mức không thể tưởng tượng, mỗi 1 triệu Tokens đầu vào là 75 USD, đầu ra là 150 USD, đã cao gấp 30 lần GPT-4o. Trong khi đối thủ Claude 3.7 của nó, chỉ 3 USD cho 1 triệu Tokens đầu vào và 15 USD cho đầu ra, như vậy ở nước ngoài nó đã đắt hơn người khác 10-25 lần.
Trong giới công nghệ, có người tính toán rằng nếu đặt câu hỏi bằng vài chục chữ Hán, và nhận được câu trả lời dài 3-4 nghìn chữ, thì giá sẽ khoảng 60 đồng.
Có lẽ đây chính là điều mà OpenAI muốn nói với bạn lần này: Điều có giá trị nhất trong thế giới ngày nay là giá trị cảm xúc, một câu trả lời có chỉ số cảm xúc cao có thể đắt gấp vài chục lần so với câu trả lời "trực tiếp".
Nhưng nếu tôi sử dụng DeepSeek, thì GPT sẽ phản ứng như thế nào? Hiện nay, giá của DeepSeek V3 là 2 đồng (tương đương 0,27 USD) cho đầu vào và 8 đồng (tương đương 1,1 USD) cho đầu ra.
GPT-4.5 thì đắt gấp 277 lần và 150 lần, có khả năng tương đương, nhưng giá lại quá cao, OpenAI lấy cớ gì để định giá như vậy?
Đạt đến ngưỡng huấn luyện dự kiến?
Gần đây, Grok 3 và GPT-4.5 liên tiếp ra mắt, có lẽ điều này liên quan đến sự xuất hiện của DeepSeek, sự xuất hiện của cả hai dường như mang cảm giác bị "ép buộc".
Ví dụ như Grok 3, Musk gọi nó là "mô hình AI lớn thông minh nhất thế giới", nhưng gần đây cũng không gây được tiếng vang, tương tự, GPT-4.5 hiện nay, về "chỉ số cảm xúc" có cải thiện? Nhưng hiệu suất vẫn không đạt được kỳ vọng của mọi người, phải biết rằng OpenAI luôn là dẫn đầu trong ngành, nhưng lần này lại không như mong đợi.
Có lẽ, con đường AI mà chúng ta quen thuộc, thông qua việc đốt tiền mua Token, tăng cường tỷ lệ băm, đang bắt đầu bước vào giai đoạn trầm lắng.
Dự án GPT-4.5 này đã bắt đầu từ rất sớm, nhưng sau 2 năm mới ra mắt, rất có thể là quá trình huấn luyện liên tục không đạt được kết quả mong muốn, cho đến khi bị DeepSeek đe dọa mới vội vàng đưa ra.
Ngay từ ngày 19 tháng 2, Sam Altman đã dự báo rằng họ đã đạt đến mức 4.5, vì vậy việc ra mắt lần này thực ra đã được lên kế hoạch từ trước.
Nhưng lúc đó ông cũng nói rằng, sau này muốn đạt đến mức GPT-5.5, thì cần tăng thêm 100 lần tỷ lệ băm.
Đó là 100 lần tỷ lệ băm, có lẽ phải xếp card đồ họa thành dãy Himalaya rồi, và ngay cả khi không nói đến số lượng GPU, hiện nay lượng điện năng tiêu thụ của AI đã chiếm 4% tổng điện năng của Mỹ, muốn tăng thêm 100 lần, liệu có thể tiêu thụ đến 4 lần điện năng của Mỹ không?
Hiện nay, mô hình AI lớn chủ yếu theo hai hướng, một là đường lối của nước ngoài là đốt tiền mua tăng tỷ lệ băm, còn một là đường lối của DeepSeek là tăng cường học thuật trên thuật toán. Có lẽ bây giờ chúng ta nên mong đợi xem liệu DeepSeek R2 có thể đạt được bước đột phá lớn về hiệu suất không, nếu được, có lẽ con đường chúng ta đang đi mới là con đường đúng đắn.
Tài liệu tham khảo:
Zhihu, X, Facebook, YouTube, B站, Weibo
Bài viết này đến từ trang công khai WeChat "Khoa học kỹ thuật Hồ" (ID: kejihutv), tác giả: Lão Hồ, được 36Kr ủy quyền đăng tải.