GPT-4.1 ra mắt vào đêm muộn, do cựu sinh viên USTC dẫn đầu, với khả năng lập trình hàng triệu ngữ cảnh tuyệt vời, GPT-4.5 sẽ bị loại trong ba tháng

avatar
36kr
04-15
Bài viết này được dịch máy
Xem bản gốc

Vừa rồi, OpenAI đã ra mắt ba mô hình mới dành riêng cho các nhà phát triển: GPT-4.1 , GPT-4.1 miniGPT-4.1 nano!

Tất cả chúng đều có cửa sổ ngữ cảnh cực lớn lên tới 1 triệu mã thông báo và vượt qua trội hơn GPT-4o và GPT-4o mini về khả năng cốt lõi như theo dõi mã và hướng dẫn. Thời hạn nộp kiến ​​thức cũng đã được gia hạn đến tháng 6 năm 2024.

Điều đáng chú ý là sê-ri GPT‑4.1 chỉ khả dụng thông qua API và mở cho tất cả các nhà phát triển.

GPT-4.1 nano là mô hình nano đầu tiên của OpenAI và cũng là mô hình nhanh nhất và rẻ nhất mà họ hiện có.

Đừng để kích thước nhỏ của nó đánh lừa, hiệu suất của nó không hề yếu chút nào: Điểm MMLU là 80,1%, điểm GPQA là 50,3%, điểm chuẩn mã hóa đa ngôn ngữ của Aider là 9,8%, rõ ràng là vượt trội hơn GPT-4o mini!

GPT-4.1 mini vượt qua GPT-4o trong nhiều bài kiểm tra chuẩn, nhanh gấp đôi và chi phí thấp hơn 83%, tối đa hóa hiệu quả!

GPT‑4.1 , trong đó máy chủ lực, thậm chí còn mạnh mẽ hơn:

Mã hóa mạnh nhất: GPT‑4.1 đạt 54,6% trên SWE-bench Verified, cải thiện 21,4% so với GPT‑4o và 26,6% so với GPT‑4.5.

Hướng dẫn sau: Trên MultiChallenge⁠ của Scale, GPT‑4.1 đạt 38,3%, cải thiện 10,5% so với GPT‑4o.

Bối cảnh dài: Trên Video-MME, GPT‑4.1 đạt được SOTA mới - đạt 72,0% ở hạng mục video dài, không có phụ đề, cải thiện 6,7% so với GPT‑4o.

Kể từ đó, "quasar" được Ultraman the Riddler nhắc đến cuối cùng đã được xác nhận - đó là GPT-4.1!

Với việc ra mắt phiên bản GPT-4.1 mạnh mẽ hơn và có chi phí thấp hơn, bản xem trước GPT‑4.5 gây nhiều tranh cãi sẽ hủy niêm yết khỏi API sau ba tháng (ngày 14 tháng 7).

Đáp lại, OpenAI tuyên bố rằng GPT‑4.5 ban đầu được ra mắt như một phiên bản xem trước nghiên cứu với mục đích khám phá và thử nghiệm một LLM quy mô lớn, đòi hỏi nhiều tính toán.

Mặc dù mô hình này sắp bị ngừng phát triển, OpenAI vẫn sẽ tiếp tục kết hợp các tính năng mà các nhà phát triển yêu thích, chẳng hạn như tính sáng tạo, chất lượng viết và khiếu hài hước, vào các mô hình API trong tương lai.

Kiểm tra Demo tại chỗ

Đầu tiên, tất nhiên là khả năng lập trình.

Trong bản demo này, các nhà nghiên cứu đã yêu cầu GPT-4.1 tạo một ứng dụng web thẻ ghi nhớ trực tuyến và đưa ra nhiều yêu cầu rất cụ thể. Ví dụ, khi nhấn thẻ ghi nhớ, hình ảnh động 3D sẽ xuất hiện.

Đây là cách GPT-4o thực hiện nhiệm vụ này.

So sánh thì GPT-4.1 hoạt động rất mượt mà, cả về màu sắc và hoạt hình 3D.

Lưu ý rằng từ đầu đến cuối, bạn chỉ cần một lời nhắc để có được một đơn đăng ký hoàn chỉnh!

Dưới đây là Sân chơi OpenAI. Trong phần trình diễn, nhà nghiên cứu đã yêu cầu GPT-4.1 tạo một ứng dụng mã tệp Python duy nhất, mô phỏng các truy vấn của người dùng ở bên phải. Trang web này có thể nhận các tập tin văn bản lớn và trả lời các câu hỏi liên quan.

Như bạn có thể thấy, mô hình tạo ra hàng trăm dòng mã. Khi các nhà nghiên cứu thực sự chạy các mã này, họ thấy rằng kết quả tốt ngoài mong đợi.

Chỉ là một gợi ý và nó đã tạo ra trang web này.

Tiếp theo là màn tìm kim trong đống cỏ khô.

Các nhà nghiên cứu đã tải lên tệp tin - tệp nhật ký yêu cầu và phản hồi của máy chủ NASA kể từ tháng 8 năm 1995.

Trong tệp này, bên trái là tên máy trạm đã gửi yêu cầu tới máy chủ NASA. Đây là một tệp dài với lượng lớn dòng nhật ký và có khoảng 450.000 mã thông báo ở bên trái.

Không thể sử dụng tệp này trên các mô hình trước đây của OpenAI.

Ở đây, nhà nghiên cứu đã lén lút thêm một dòng mà thực chất không phải là phản hồi yêu cầu HTTP. "Kim" nhỏ này trong chồng giấy rất khó phát hiện.

Cuối cùng, GPT-4.1 đã thành công!

Các nhà nghiên cứu đã xác nhận rằng dòng này thực sự có trong tệp nhật ký mà họ đã tải lên.

OpenAI đặc biệt nhấn mạnh rằng một điểm rất quan trọng trong thực tế là cách các nhà phát triển API nhắc nhở mô hình.

Trong nhiệm vụ này, GPT-4.1 được nhiệm vụ là trợ lý phân tích nhật ký. Các nhà nghiên cứu cho máy tính biết dữ liệu cần nhập và cách xây dựng truy vấn của người dùng.

Có một số quy tắc sau đây, chẳng hạn như mô hình chỉ trả lời những câu hỏi có liên quan đến nội dung dữ liệu nhật ký, câu hỏi luôn phải được định dạng trong thẻ truy vấn, trả lời bằng thông báo lỗi nếu một trong đó không đúng, v.v.

Tiếp theo, đã đến lúc giới thiệu GPT-4.1.

Các nhà nghiên cứu hỏi: Finalal.gov gửi bao nhiêu yêu cầu? Mô hình đã từ chối vì nó không được định dạng bên trong thẻ truy vấn.

Nếu cùng một yêu cầu được thực hiện trong thẻ truy vấn, nó sẽ tìm thấy cả hai tham chiếu trong tệp nhật ký.

Theo cách này, các nhà phát triển có thể yêu cầu mô hình không được làm gì đó, đây là chi tiết cực kỳ có ý nghĩa và quan trọng trong quá trình phát triển - tuân theo các chỉ dẫn tiêu cực.

Giá cả

Về giá cả, mặc dù GPT-4.1 rẻ hơn GPT-4o 26%, giá đầu vào và đầu ra vẫn cao tới 2 đô la Mỹ và 8 đô la Mỹ cho một triệu token.

GPT‑4.1 nano là mô hình rẻ nhất và nhanh nhất của OpenAI cho đến nay, với chi phí đầu vào là 0,1 đô la và chi phí đầu ra là 0,4 đô la.

Đối với các truy vấn sử dụng lại cùng một ngữ cảnh, các mô hình mới này đã tăng mức chiết khấu bộ nhớ đệm gợi ý từ 50% lên 75%.

Cuối cùng, các yêu cầu ngữ cảnh dài sẽ được bao gồm trong hóa đơn tiêu chuẩn theo mã thông báo mà không mất thêm chi phí.

Lập trình: Mô hình mạnh nhất của OpenAI đã ra đời

So với các mẫu như GPT-4o, o1 và o3-mini, GPT-4.1 đã có những cải tiến lớn về mặt lập trình.

Rõ ràng là nó tốt hơn nhiều so với GPT-4o trong nhiều nhiệm vụ lập trình khác nhau, chẳng hạn như sử dụng các tác nhân thông minh để giải quyết các vấn đề lập trình, phát triển giao diện, giảm các sửa đổi mã không cần thiết, tuân thủ nghiêm ngặt các định dạng khác nhau, duy trì tính nhất quán trong việc sử dụng công cụ, v.v.

Trong SWE-bench Verified, một bài kiểm tra phản ánh khả năng thực tế của kỹ thuật phần mềm, GPT-4.1 đã hoàn thành 54,6% nhiệm vụ, trong khi GPT-4o (2024-11-20) chỉ hoàn thành 33,2%.

Điều này cho thấy GPT-4.1 đã có những cải tiến đáng kể trong việc duyệt cơ sở mã, hoàn thành nhiệm vụ và tạo mã có thể chạy và vượt qua các bài kiểm tra.

Đối với SWE-bench Verified, mô hình sẽ nhận được kho lưu trữ mã và mô tả sự cố và cần tạo bản vá để khắc phục sự cố. Hiệu suất của nó phụ thuộc rất nhiều vào các từ gợi ý và công cụ được sử dụng

Đối với các nhà phát triển API muốn chỉnh sửa các tệp lớn, GPT-4.1 đáng tin cậy hơn nhiều khi xử lý các thay đổi về mã ở nhiều định dạng khác nhau.

Tiêu chuẩn so sánh đa ngôn ngữ Aider ⁠— không chỉ đo khả năng mã hóa của mô hình trên nhiều ngôn ngữ lập trình mà còn đo khả năng tạo ra các thay đổi mã ở cả định dạng tệp đầy đủ và các định dạng khác nhau.

Ở đây, điểm GPT‑4.1 cao hơn gấp đôi điểm GPT‑4o và thậm chí cao hơn 8% so với GPT‑4.5.

Điều này cho phép các nhà phát triển tránh phải viết lại toàn bộ tệp và thay vào đó, mô hình sẽ xuất ra các dòng đã thay đổi, giúp tiết kiệm đáng kể chi phí và giảm độ trễ.

Đối với các nhà phát triển muốn viết lại toàn bộ tệp, giới hạn mã thông báo đầu ra của GPT‑4.1 cũng đã được tăng lên 32.768 mã thông báo (16.384 cho GPT‑4o). Trong đó, tính năng Predicted Outputs có thể được sử dụng để giảm độ trễ khi ghi lại toàn bộ tệp.

Trong chuẩn mực đa ngôn ngữ của Aider, mô hình giải quyết các bài tập mã hóa từ Exercism bằng cách chỉnh sửa các tệp nguồn và được phép thử lại một lần. Định dạng "toàn bộ" yêu cầu mô hình phải viết lại toàn bộ tệp, có thể chậm hơn và tốn kém hơn. Định dạng "diff" yêu cầu mô hình phải viết sê-ri các khối tìm kiếm/thay thế

Ngoài ra, GPT‑4.1 còn có những cải tiến đáng kể về mã hóa giao diện so với GPT‑4o, có thể tạo ra các ứng dụng web hoàn thiện hơn và đẹp mắt hơn.

Trong đánh giá so sánh trực tiếp, các giám khảo con người thích các trang web được tạo bởi GPT-4.1 hơn GPT-4o 80% thời gian.

Lệnh theo dõi: Bây giờ ở cấp độ đầu tiên

Về mặt tuân thủ lệnh, OpenAI đã phát triển một hệ thống đánh giá nội bộ để theo dõi hiệu suất của mô hình theo nhiều chiều và các danh mục tuân thủ lệnh chính sau đây:

Định dạng sau: Tạo phản hồi theo định dạng tùy chỉnh bắt buộc (như XML, YAML, Markdown, v.v.).

Hướng dẫn tiêu cực: Tránh thực hiện một hành động cụ thể. (Ví dụ: "Không yêu cầu người dùng liên hệ với bộ phận hỗ trợ")

Hướng dẫn có thứ tự: thực hiện sê-ri các thao tác theo thứ tự nhất định. (Ví dụ: "Trước tiên hãy hỏi tên người dùng, sau đó là địa chỉ email của họ")

Yêu cầu về nội dung: Đảm bảo rằng nội dung đầu ra có chứa thông tin cụ thể. (Ví dụ: "Khi viết kế hoạch dinh dưỡng, bạn phải bao gồm cả gam protein.")

Sắp xếp: Sắp xếp đầu ra theo một cách cụ thể. (Ví dụ: "Sắp xếp kết quả theo dân số")

Nhận diện sự tự tin thái quá: Trả lời “Tôi không biết” hoặc những câu tương tự khi thông tin được yêu cầu không có sẵn hoặc yêu cầu nằm ngoài phạm vi đã chỉ định. (Ví dụ: “Nếu bạn không biết câu trả lời, vui lòng cung cấp email để liên hệ với đội ngũ hỗ trợ của chúng tôi.”)

Các danh mục này được xác định dựa trên phản hồi của nhà phát triển và phản ánh hướng dẫn theo những khía cạnh mà họ cho rằng phù hợp và quan trọng nhất. Trong đó danh mục chia các từ gợi ý thành ba loại theo độ khó: dễ, trung bình và khó.

Khi xử lý các từ gợi ý khó, GPT-4o và GPT-4o mini có độ chính xác dưới 30%, trong khi nano nhỏ nhất trong sê-ri mới đạt tới 32%.

Cùng lúc đó, GPT-4.1 đạt 49%, gần bắt kịp o1 và o3-mini, nhưng vẫn còn kém GPT-4.5 một khoảng cách khá xa.

Đánh giá sau hướng dẫn nội bộ dựa trên các trường hợp sử dụng thực tế của nhà phát triển và phản hồi, bao gồm nhiệm vụ có độ phức tạp khác nhau và kết hợp các yêu cầu hướng dẫn về định dạng, mức độ chi tiết, độ dài, v.v.

Đối với nhiều nhà phát triển, việc thực hiện lệnh nhiều lần là rất quan trọng, nghĩa là mô hình cần phải duy trì tính mạch lạc khi cuộc trò chuyện tiếp diễn và ghi nhớ những gì người dùng đã nói trước đó.

GPT-4.1 có khả năng rút thông tin từ tin nhắn lịch sử hội thoại tốt hơn, cho phép tương tác tự nhiên hơn.

Trong bài kiểm tra chuẩn MultiChallenge do Scale AI đưa ra, mặc dù GPT‑4.1 không tốt bằng o1 và GPT-4.5 nhưng đã bắt kịp o3-mini và cao hơn GPT‑4o 10,5%.

Trong tiêu chuẩn MultiChallenge, mô hình được thử thách sử dụng đúng bốn loại thông tin từ các tin nhắn trước đó (bối cảnh hội thoại) trong nhiều vòng đối thoại.

Hơn nữa, GPT-4.1 đạt 87,4% trên IFEval, trong khi GPT-4o đạt 81,0%. IFEval sử dụng một từ gợi ý có chứa hướng dẫn có thể xác minh (ví dụ: chỉ định độ dài nội dung hoặc tránh các thuật ngữ/định dạng cụ thể).

Trong IFEval, mô hình phải tạo ra các câu trả lời tuân theo nhiều hướng dẫn khác nhau.

Khả năng tuân thủ lệnh mạnh hơn không chỉ cải thiện độ tin cậy của các ứng dụng hiện có mà còn cho phép triển khai các ứng dụng mới vốn khó triển khai trong quá khứ do độ tin cậy của mô hình không đủ.

Những người thử nghiệm ban đầu đã báo cáo rằng GPT‑4.1 có thể có xu hướng tuân theo các hướng dẫn theo nghĩa đen hơn, vì vậy OpenAI khuyên bạn nên rõ ràng và cụ thể khi thiết kế lời nhắc.

Bối cảnh dài: Tìm kim trong đống cỏ khô được điểm tối đa

Hiểu biết về ngữ cảnh dài là một khả năng quan trọng đối với các ứng dụng trong luật pháp, lập trình, hỗ trợ khách hàng và nhiều lĩnh vực khác.

GPT‑4.1, GPT‑4.1 mini và GPT‑4.1 nano không chỉ có thể xử lý ngữ cảnh lên tới 1 triệu mã thông báo mà còn có thể xử lý nội dung trong đó một cách đáng tin cậy và bỏ qua thông tin nhiễu.

Khái niệm 1 triệu token là gì? Tương tự như vậy, lượng nội dung mà nó chứa có thể lớn hơn 8 lần toàn bộ cơ sở mã React!

So với 128.000 token của GPT-4o, đây là một cải tiến rất lớn.

Dưới đây, chúng tôi trình bày khả năng của GPT‑4.1 trong việc thu thập các thông tin ẩn nhỏ (tức là "kim") tại các vị trí khác nhau trong cửa sổ ngữ cảnh.

GPT‑4.1 có thể truy xuất “kim” một cách nhất quán và chính xác ở nhiều độ dài ngữ cảnh khác nhau và ở mọi vị trí lên đến 1 triệu mã thông báo. Điều này có nghĩa là nó có thể rút hiệu quả các chi tiết có liên quan cần thiết cho nhiệm vụ đang thực hiện, bất kể các chi tiết này nằm ở đâu trong dữ liệu đầu vào.

Tuy nhiên, nhiệm vụ trong thế giới thực hiếm khi đơn giản như việc lấy một “cây kim” rõ ràng.

Trong đánh giá“Kim trong đống cỏ khô”, GPT‑4.1, GPT‑4.1 mini và GPT‑4.1 nano đều thu thập thành công “kim” ở mọi vị trí trong bối cảnh lên tới 1 triệu mã thông báo.

OpenAI-MRCR

Trong các ứng dụng thực tế, người dùng thường yêu cầu mô hình có khả năng thu thập và hiểu nhiều thông tin cũng như hiểu được mối quan hệ giữa các thông tin này.

Để đạt được mục đích này, OpenAI mã nguồn mở một chuẩn mực mới để thử nghiệm các mô hình nhằm tìm và phân biệt nhiều "kim" ẩn trong bối cảnh dài: OpenAI-MRCR (Tham chiếu đồng thời nhiều vòng).

Đánh giá bao gồm nhiều lượt trò chuyện tổng hợp giữa người dùng và trợ lý, trong đó người dùng yêu cầu mô hình sáng tác về một chủ đề, chẳng hạn như "viết một bài thơ về loài lợn vòi" hoặc "viết một bài đăng trên blog về đá".

Tiếp theo, 2, 4 hoặc 8 yêu cầu có nội dung tương tự nhưng phiên bản khác nhau sẽ được chèn ngẫu nhiên vào ngữ cảnh.

Mô hình phải tìm chính xác phản hồi tương ứng với trường hợp cụ thể do người dùng chỉ định (ví dụ: “Vui lòng cho tôi bài thơ thứ ba về loài lợn vòi”).

Thách thức của nhiệm vụ này là những yêu cầu tương tự này rất giống với phần còn lại của bối cảnh — mô hình có thể dễ dàng bị đánh lừa bởi những điểm khác biệt nhỏ, như cho rằng một truyện ngắn về lợn vòi với một bài thơ, hoặc cho rằng một bài thơ về ếch với một bài thơ về lợn vòi.

Khi ngữ cảnh đạt đến giới hạn GPT‑4o là 128.000 mã thông báo, GPT‑4.1 hoạt động tốt hơn đáng kể; ngay cả khi độ dài ngữ cảnh mở rộng lên 1 triệu mã thông báo, nó vẫn duy trì hiệu suất mạnh mẽ.

Trong OpenAI-MRCR, mô hình phải trả lời một câu hỏi liên quan đến việc phân biệt 2, 4 hoặc 8 lời nhắc của người dùng trong số nội dung gây mất tập trung.

Đi bộ đồ thị

Graphwalks là một dữ liệu để đánh giá khả năng suy luận ngữ cảnh dài qua nhiều bước nhảy.

Nhiều trường hợp sử dụng ngữ cảnh dài dành cho nhà phát triển yêu cầu thực hiện lần bước nhảy logic trong ngữ cảnh, chẳng hạn như chuyển đổi giữa nhiều tệp khi viết mã hoặc tham chiếu chéo tài liệu khi trả lời các câu hỏi pháp lý phức tạp.

Về mặt lý thuyết, các mô hình (hoặc thậm chí là con người) có thể giải quyết vấn đề OpenAI-MRCR chỉ bằng lần lần duyệt hoặc đọc qua ngữ cảnh, nhưng Graphwalks được thiết kế để yêu cầu suy luận trên nhiều vị trí trong ngữ cảnh và không thể giải quyết bằng cách xử lý tuần tự.

Graphwalks điền vào cửa sổ ngữ cảnh bằng một đồ thị có hướng gồm các giá trị băm thập lục phân, sau đó yêu cầu mô hình thực hiện tìm kiếm theo chiều rộng (BFS) bắt đầu từ một nút ngẫu nhiên trong đồ thị. Tiếp theo, mô hình được yêu cầu trả về tất cả nút ở một độ sâu nhất định.

GPT‑4.1 đạt độ chính xác 61,7% trong tiêu chuẩn này, ngang bằng hiệu suất của o1 và đánh bại GPT‑4o một cách dễ dàng.

Trong Graphwalks, mô hình được yêu cầu thực hiện tìm kiếm theo chiều rộng từ một nút ngẫu nhiên trong một đồ thị lớn.

Tầm nhìn: Hiểu biết hình ảnh vượt qua GPT-4o để thống trị

Sê-Ri GPT‑4.1 có khả năng hiểu hình ảnh cực kỳ tốt và đặc biệt là GPT‑4.1 mini đã đạt được bước tiến vượt bậc, thường vượt trội hơn GPT‑4o trong các tiêu chuẩn hình ảnh.

Trong chuẩn mực MMMU, mô hình cần trả lời các câu hỏi có chứa biểu đồ, sơ đồ, bản đồ, v.v.

Trong chuẩn mực MathVista⁠, các mô hình được yêu cầu để giải quyết nhiệm vụ toán học trực quan

Trong bài kiểm tra chuẩn CharXiv-Reasoning, các mô hình được yêu cầu trả lời các câu hỏi về biểu đồ trong các bài báo khoa học.

Khả năng xử lý ngữ cảnh dài cũng rất quan trọng đối với các trường hợp sử dụng đa phương thức như xử lý video dài.

Trong điểm chuẩn Video-MME (Video dài, không có phụ đề), mô hình cần trả lời các câu hỏi trắc nghiệm dựa trên các video dài 30-60 phút và không có phụ đề.

Ở đây, GPT‑4.1 một lần nữa đạt được SOTA — đạt 72,0%, cao hơn mức 65,3% của GPT‑4o.

Trong Video-MME, mô hình trả lời các câu hỏi trắc nghiệm dựa trên các video dài 30-60 phút và không có phụ đề.

Kết quả đầy đủ

Kết quả về mặt học thuật, lập trình, hướng dẫn, bối cảnh dài, tầm nhìn và đánh giá lệnh gọi chức năng được liệt kê đầy đủ bên dưới.

Kiến thức học thuật

lập trình

Hướng dẫn cần tuân theo

Bối cảnh dài

Tầm nhìn

Gọi hàm

Trưởng đoàn du lịch Trung Quốc

Gia Huệ Vũ

Jiahui Yu hiện đang phụ trách đội ngũ Perception và lĩnh vực nghiên cứu của ông là học độ sâu và điện toán hiệu suất cao.

Ông là một trong những thành viên chủ chốt khi GPT-4o được phát hành.

Trước đây, ông đồng lãnh đạo dự án đa phương thức Gemini tại Google DeepMind.

Anh từng có kinh nghiệm thực tập tại Microsoft Research Asia, Megvii Technology, Adobe Research, Snap Research, Jump Trading, Baidu Research, Nvidia Research và Google Brain.

Ông đã nhận được bằng cử nhân khoa học máy tính từ Đại học Khoa học và Công nghệ Trung Quốc. từ Đại học Illinois tại Urbana-Champaign.

Tham khảo:

https://openai.com/index/gpt-4-1/

https://x.com/OpenAI

Bài viết này trích từ tài khoản công khai WeChat "Xinzhiyuan" , tác giả: Xinzhiyuan, biên tập viên: Ban biên tập HNZ, 36Kr được phép xuất bản.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận