GPT-4.1 đã được thử nghiệm trên toàn bộ mạng và bị Google Gemini đánh bại. Các chuyên gia suy đoán: nó được chưng cất từ ​​GPT-4.5.

avatar
36kr
04-15
Bài viết này được dịch máy
Xem bản gốc

GPT-4.1 tuyên bố sẽ thay thế GPT-4.5 trong vòng hai tháng. Nó mạnh đến mức nào? Trong nhiều thử nghiệm thực tế, hiệu suất của nó thực sự đáng chú ý, nhưng vẫn không thể đánh bại được Gemini 2.5 Pro và Claude 3.7 Sonnet. Vậy câu hỏi đặt ra là tại sao OpenAI lại phát hành một mô hình kém xa Google?

Tuy nhiên, hai tháng sau, GPT-4.5 chính thức bị loại bỏ và làn sóng cũ đã đánh bại làn sóng mới tiến vào bãi biển.

Sự ra đời của họ GPT-4.1 đã vượt trội hơn hẳn 4.5 với hiệu suất mã hóa mạnh hơn, hàng triệu ngữ cảnh mã thông báo và giá cả phải chăng hơn.

Hiệu suất của phiên bản nano của GPT-4.1 tương đương với GPT-4o mini, nhanh hơn và rẻ hơn.

Các mô hình này hiện chỉ khả dụng trong API, nhưng các nền tảng mã hóa phổ biến Windsurf và Cursor đã tung ra trải nghiệm miễn phí GPT-4.1 trong bảy ngày.

Hãy xem, đợt thử nghiệm thực tế đầu tiên trên toàn bộ mạng lưới đã đến.

GPT-4.1 có khả năng mã hóa tuyệt vời, nhưng nó không thể đánh bại Gemini 2.5

Mô hình này, vốn nổi tiếng với khả năng mã hóa tuyệt vời, hoạt động như thế nào trong nhiệm vụ thực tế?

Các nhà khoa học của OpenAI cho biết GPT-4.1 không phải là mô hình suy luận, nhưng nó có thể đạt 55% trong bài kiểm tra chuẩn kỹ thuật phần mềm

Cư dân mạng Flavio Adamo đã sử dụng cùng một lời nhắc - để quả bóng mô phỏng chuyển động rơi tự do trong một hình lục giác quay, để kiểm tra hiệu suất mã hóa của ba mô hình GPT-4.1 và GPT-4.5.

Không khó để nhận thấy rằng GPT-4.1 mô phỏng chính xác quá trình chuyển động vật lý của quả bóng, nhưng GPT-4.1-mini/GPT-4.1-nano lại kém xa.

Hiệu suất của GPT-4.5 gần như tốt bằng GPT-4.1.

Trong một thử nghiệm tương tự khác, GPT-4.1 được yêu cầu xoay một hình vuông để mô phỏng hiệu ứng của một quả cầu nảy trong hình vuông.

Nhà phát triển Kaggle Parul Pandey cho biết việc tạo ra các mô phỏng vật lý giáo dục bằng GPT-4.1 rất thú vị.

Như được hiển thị bên dưới, trong quá trình tạo mã sử dụng một quả bóng sụp đổ kim tự tháp, mô hình đọc rất ít tệp không cần thiết và cấu trúc mã rất ngắn gọn.

Một kỹ sư khác đã sử dụng Windsurf để cho GPT-4.1 tạo ra trò chơi Snake trong 30 giây.

Nhà nghiên cứu Dimitris Papailiopoulos của Microsoft đã sử dụng GPT-4.1, GPT-4o và GPT-4.5 để vẽ kỳ lân và suy đoán rằng 4.1 có ít tham số hơn 4o.

Thành thật mà nói, kỳ lân do GPT-4.1 tạo ra là kỳ lân xấu xí nhất.

Giáo sư Ethan Mollick của trường Wharton đã sử dụng GPT-4.1 để tạo ra p5js cho bảng điều khiển tàu vũ trụ. Ông cho biết so với GPT-4, phiên bản 4.1 đã có những tiến bộ vượt bậc và hoạt động tốt nhìn chung.

Hơn nữa, Ethan tuyên bố rằng GPT-4.1 là mô hình thứ tư có thể chạy shader trong twigl lần đầu tiên.

Cư dân mạng đã yêu cầu GPT-4.1 và Gemini 2.5 Pro mô phỏng cảnh đêm của thành phố theo phong cách cyberpunk được chiếu sáng bằng đèn neon. Trong trường hợp này, mô hình 4.1 vẫn mạnh hơn nhiều so với mô hình Google.

Từ bản demo trên, không khó để thấy rằng hiệu suất mã hóa của GPT-4.1 thực sự đáng kinh ngạc, nhưng xét về góc độ vĩ mô, nó vẫn chưa tốt bằng Gemini 2.5 Pro và Claude 3.7 Sonnet.

Trong bài kiểm tra mã hóa đa ngôn ngữ Aider mới nhất, GPT-4.1 đạt 52,4%, gần bằng Grok 3 và DeepSeek V3. Chi phí cũng giảm một nửa so với o3-mini.

Cư dân mạng phàn nàn rằng lập trình GPT-4.1 không tốt bằng DeepSeek V3 nhưng giá lại đắt gấp 8 lần.

Tương tự như vậy, trong đánh giá chuẩn Livebench mới nhất, người ta cũng xác nhận rằng khả năng suy luận, mã hóa và toán học của GPT-4.1 kém hơn Gemini 2.5.

Người sáng lập Abacus.AI, Bindu Reddy cho biết 4.1 có hiệu suất cao hơn GPT-4o, nhưng kết quả Livebench cho thấy mô hình mới chỉ là bản cập nhật gia tăng cho 4o.

Nhà khoa học Pierre Bongrand của Harvard chỉ ra rằng OpenAI đã phát hành một mô hình kém xa Google lần đầu tiên.

Trong bài kiểm tra chuẩn câu hỏi trả lời kiến ​​thức GPQA Diamond, nhóm GPT-4.1 không đạt đến trình độ tiến sĩ của con người, chứ đừng nói đến vượt qua Gemini 2.5 Pro.

Một cư dân mạng đã đùa trong một bức ảnh chế rằng trong thời gian OpenAI phát hành GPT-4 và GPT-4.1, Google đã phát triển Bard thành phiên bản mạnh nhất Gemini 2.5.

Cuộc chiến AI năm nay rõ ràng là cuộc đối đầu trực tiếp giữa OpenAI và Google.

Google bị bao vây nhưng OpenAI không thể bị đánh giá thấp

Cùng với việc phát hành GPT-4.1, Nathan Lambert, người đứng đầu bộ phận đào tạo sau đại học tại Ai2, cũng đã xuất bản một bài viết phân tích sớm nhất có thể.

Ông cho biết mặc dù GPT-4.1 là bản cập nhật nhỏ nhưng nó giúp làm rõ hơn rằng các mô hình rất khác nhau đang thúc đẩy việc kinh doanh API tốt nhất.

Ngày nay, OpenAI đang sử dụng GPT-4.1 để tách API và ChatGPT.

Mô hình của nó đang tối ưu hóa trí thông minh của từng đô la và chúng ta sẽ tiếp tục thấy sự khác biệt trong cách ChatGPT xử lý và việc kinh doanh API của nó.

Gần đây, OpenAI đã thực hiện nhiều bản cập nhật nhỏ và viễn cảnh mong đợi cuối cùng của họ là biến ChatGPT thành một ứng dụng độc lập với API của nó.

Tuần trước, chức năng bộ nhớ của ChatGPT đã được cải thiện.

Hôm nay, OpenAI đã công bố một bộ mô hình chỉ dành cho API khác, GPT-4.1, cạnh tranh trực tiếp với Gemini của Google.

Nếu xét riêng lẻ, không có bản phát hành gần đây nào thực sự đại diện cho những đột phá mang tính đột Sự lật đổ. Xét cho cùng, các mô hình có hiệu suất tương đương đã tồn tại.

Tuy nhiên, những bản cập nhật này cho thấy trọng tâm chiến lược của OpenAI đang hướng đến đâu.

Ngày nay, số người dùng hoạt động hàng tuần đã vượt quá 1,9 tỷ. Vào thời điểm này, thứ mà nó cần là ChatGPT và mô hình đằng sau nó, hoàn toàn khác biệt so với bất kỳ sản phẩm AI nào khác trên thị trường.

Không giống như các sản phẩm khác chủ yếu tập trung vào mã hóa hoặc xử lý thông tin, ChatGPT đặc biệt chú trọng vào tính cách, bầu không khí và tính giải trí.

Một ví dụ điển hình về điều này là GPT-4.5, cùng với mức giá cao, đang bị loại khỏi API nhưng vẫn sẽ được duy trì trong ChatGPT.

Mô hình o3, o4 hoặc mô hình mở sắp ra mắt vẫn chưa rõ định hướng chiến lược vĩ mô của OpenAI là gì.

Như có thể thấy trong hình bên dưới, thông điệp cốt lõi mà OpenAI truyền tải rất đơn giản - cung cấp các mô hình có hiệu suất tốt hơn và tốc độ suy luận nhanh hơn.

Dưới đây là bảng so sánh giữa mô hình OpenAI mới và giá mỗi triệu token Google Gemini(tính bằng USD).

Mô hình mới của OpenAI:

GPT-4.1: Đầu vào/Đầu ra: 2.00/8.00 | Đầu vào bộ nhớ đệm: 0,50

GPT-4.1 Mini: Đầu vào/Đầu ra: 0,40/1,60 | Đầu vào bộ nhớ đệm: 0,10

GPT-4.1 Nano: Đầu vào/Đầu ra: 0,10/0,40 | Đầu vào bộ nhớ đệm: 0,025

Mô hình cũ của OpenAI:

GPT-4o: Đầu vào/Đầu ra: 2.5/10.00 | Đầu vào bộ nhớ đệm: $1,25

GPT-4o Mini: Đầu vào/Đầu ra: 0,15/0,60 | Đầu vào bộ nhớ đệm: $0,075

Google Gemini:

Gemini 2.5 Pro (≤200K Token): Vào/Ra: 1,25/10,00 | Bộ nhớ đệm: Không khả dụng

Gemini 2.5 Pro (>200K Token): Vào/Ra: 2,50/15,00 | Bộ nhớ đệm: Không khả dụng

Gemini 2.0 Flash: Đầu vào/Đầu ra: 0.10/0.40 | Đầu vào bộ nhớ đệm: 0,025 (văn bản/hình ảnh/video), 0,175 (âm thanh)

Gemini 2.0 Flash-Lite: Đầu vào/Đầu ra: 0,075/0,30 | Bộ nhớ đệm: Không khả dụng

Mặc dù các mô hình của OpenAI có hiệu suất cao trong đánh giá học thuật, nhưng điều này không phản ánh đầy đủ hiệu suất thực tế của chúng. Rốt cuộc, trong thực tế, họ cần phải thực hiện nhiệm vụ lặp đi lặp lại, chuyên biệt.

Rõ ràng, những mẫu máy mới này được thiết kế để cạnh tranh trực tiếp với Gemini Flash và Flash-Lite (sau sự ra mắt ấn tượng của Gemini 2.5 Pro, mẫu máy rất được mong đợi Gemini 2.5 Flash cũng sắp được ra mắt).

Khi so sánh, hiệu suất của GPT-4o-mini đã tụt hậu và không dễ sử dụng như Flash.

Để thành công trong việc kinh doanh API, OpenAI cần phải tạo ra bước đột phá trong lĩnh vực tiên tiến này, nơi Gemini đã có lợi thế.

Có phải tất cả chúng đều được chưng cất từ ​​GPT-4.5 không?

Nhiều người nhận thấy rằng trong tuyên truyền chính thức của OpenAI, mô hình phát hành các mô hình mới này hoàn toàn giống nhau - có những cải tiến đáng kể, nhưng lại ít giải thích về lý do cụ thể.

Vì vậy, gần như chắc chắn rằng những mô hình mới này được chắt lọc từ GPT-4.5 để có được tính cách và khả năng suy luận tốt hơn.

Hoặc về mặt mã hóa và toán học, dựa trên các mô hình như o3.

Có thể thấy rằng mô hình mới đã có những tiến bộ đáng kể về mã. Bạn biết đấy, các mô hình ban đầu của OpenAI từng cực kỳ kém về mặt này, gần như bằng không.

Tuy nhiên, các mô hình mới này vẫn còn kém xa so với các mô hình tiên tiến như Gemini 2.5 (mô hình suy luận) hoặc Claude 3.7 (mô hình suy luận tùy chọn) về mặt mã hóa và đánh giá toán học.

Ngày nay, chúng ta đang ở giai đoạn đầu của quá trình chuyển đổi sang các mô hình bao gồm lý luận, nhưng khái niệm về mô hình tốt nhất đã trở nên phức tạp hơn.

Các mô hình suy luận này sẽ đạt được những cải tiến hiệu suất đáng kể bằng cách sử dụng nhiều mã thông báo hơn trước. Hiệu suất là vua, nhưng nếu hiệu suất ngang nhau thì bên nào có chi phí thấp hơn sẽ thắng.

Nhưng lợi thế của người đi trước vẫn khó có thể thay đổi

Nhưng xét cho cùng, đối với hầu hết người dùng thông thường, các chi tiết kỹ thuật nêu trên thực ra không có nhiều ý nghĩa.

Đối với họ, thanh trượt gây khó chịu được gọi đùa là "giao tiếp với người mẫu" trực quan hơn.

Trong một thời gian dài, nhiều người ngần ngại về phí đăng ký chatbot hơn là giá của API.

Nhưng ngày càng rõ ràng rằng trải nghiệm thực sự được cá nhân hóa và thân thiện với người dùng thường chỉ tồn tại trong các ứng dụng tích hợp này.

Tất nhiên, các nhà phát triển cũng có thể xây dựng các sản phẩm cạnh tranh thông qua API và tích lũy dữ liệu tương tác của người dùng, nhưng vì OpenAI đã thiết lập được lợi thế đi đầu rất lớn ở cấp độ sản phẩm nên việc đánh bại OpenAI có thể không dễ dàng.

Tất cả những điều này một lần nữa khẳng định sự hiểu biết của chúng ta: sản phẩm hóa là ưu tiên hàng đầu trong quá trình phát triển AI hiện nay.

Chức năng bộ nhớ cũng như sự tách biệt rõ ràng hơn giữa dòng sản phẩm ChatGPT và các dịch vụ API sẽ giúp OpenAI mở đường cho sự phát triển trong tương lai.

Nhưng OpenAI vẫn còn một chặng đường dài phía trước để hiện thực hóa hoàn toàn viễn cảnh mong đợi này.

Tham khảo:

https://x.com/bindureddy/status/1911865521504747563

https://x.com/paulgauthier/status/1911927464844304591

https://x.com/flavioAd/status/1911848067470598608

Bài viết này trích từ tài khoản công khai WeChat "Xinzhiyuan" , tác giả: Xinzhiyuan, được 36Kr xuất bản với sự cho phép.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận