Cuộc tấn công lén lút của GPT-4.1 vào ban đêm, OpenAI đã hạ gục ba mô hình nhỏ nhất, nhanh nhất và rẻ nhất trong lịch sử, hàng triệu ngữ cảnh mã thông báo

avatar
36kr
04-15
Bài viết này được dịch máy
Xem bản gốc

Zhidongxi đưa tin vào ngày 15 tháng 4 rằng OpenAI vừa phát hành ba mô hình của sê-ri GPT-4.1 cùng một lúc, tuyên bố rằng đây là sê-ri mô hình nhỏ nhất, nhanh nhất và rẻ nhất từ ​​trước đến nay và hiệu suất tổng thể của mô hình mới tốt hơn GPT-4o và GPT-4o mini .

Sê-Ri sản phẩm GPT-4.1 bao gồm ba mẫu: GPT-4.1, GPT-4.1 mini và GPT-4.1 nano. Cửa sổ ngữ cảnh của mỗi mô hình đạt tới 1 triệu mã thông báo, số lượng mã thông báo đầu ra đạt tới 32.768 và thời hạn kiến ​​thức là tháng 6 năm 2024. Các bài kiểm tra chuẩn của OpenAI cho thấy điểm số của nó trong mã hóa, làm theo hướng dẫn và hiểu văn bản dài đều vượt trội hơn GPT-4o và GPT-4o mini.

Sê-Ri mô hình GPT-4.1 chỉ khả dụng thông qua API và hiện mở cho tất cả các nhà phát triển . OpenAI sẽ bắt đầu ngừng sử dụng các phiên bản xem trước GPT-4.5 trong API của mình vì họ sê-ri hình GPT-4.1 cung cấp hiệu suất tương tự trên nhiều khả năng chính, với chi phí và độ trễ thấp hơn. Bản xem trước GPT-4.5 sẽ kết thúc vào ngày 14 tháng 7 năm nay .

Tối ưu hóa hiệu suất cụ thể tập trung vào mã hóa, hướng dẫn và hiểu văn bản dài:

Mã hóa : GPT-4.1 đạt 54,6% trong thử nghiệm xác thực SWE, cải thiện 21,4% so với GPT-4o và 26,6% so với GPT-4.5.

Thực hiện theo hướng dẫn : Trong chuẩn mực MultiChallenge của Scale, đánh giá khả năng thực hiện theo chỉ báo, GPT-4.1 đạt 38,3%, cải thiện 10,5% so với GPT-4o.

Hiểu văn bản dài : Trong tiêu chuẩn Video-MME về khả năng hiểu văn bản dài đa phương thức, GPT-4.1 đạt 72,0% ở hạng mục văn bản dài không có phụ đề, cải thiện 6,7% so với GPT-4o.

Đối với các tình huống nhạy cảm hơn với độ trễ, OpenAI đã nhấn mạnh GPT-4.1 nano và cho biết đây là mô hình nhanh nhất và tiết kiệm nhất. Điểm chuẩn MMLU của GPT-4.1 nano là 80,1%, điểm GPQA là 50,3% và điểm mã hóa đa ngôn ngữ của Aider là 9,8%, tất cả đều cao hơn GPT-4o mini.

OpenAI đã đề cập trong một blog rằng sê-ri mô hình GPT-4.1 có hiệu suất tốt hơn và tiết kiệm hơn sẽ mở ra những khả năng mới cho các nhà phát triển để xây dựng các hệ thống thông minh và các ứng dụng tác nhân thông minh phức tạp.

Về giá cả, đối với các truy vấn có quy mô trung bình, GPT-4.1 rẻ hơn 26% so với GPT-4o và đối với các truy vấn sử dụng lại cùng một bối cảnh, OpenAI đã tăng mức chiết khấu bộ nhớ đệm gợi ý từ 50% lên 75%. Cuối cùng, OpenAI không tính thêm phí cho các yêu cầu ngữ cảnh dài vượt quá mức phí tiêu chuẩn cho mỗi mã thông báo.

01.

Khả năng mã hóa: Vượt trội hơn GPT-4o

Hơn 80% người dùng thích ứng dụng GPT-4.1

GPT-4.1 hoạt động tốt hơn GPT-4o trong nhiều nhiệm vụ mã hóa , bao gồm giải quyết chủ động nhiệm vụ mã hóa, mã hóa giao diện, giảm các chỉnh sửa không cần thiết, tuân theo định dạng diff và đảm bảo tính nhất quán trong việc sử dụng công cụ.

So với GPT-4o, GPT-4.1 có thể tạo ra các ứng dụng web mạnh mẽ và đẹp hơn, chẳng hạn như ứng dụng "thẻ flash" được hiển thị bên dưới:

Trên SWE-bench Verified, chỉ báo đo lường các kỹ năng kỹ thuật phần mềm thực tế , GPT-4.1 đã hoàn thành 54,6% nhiệm vụ và GPT-4o hoàn thành 33,2% , điều này cho thấy GPT-4.1 đã cải thiện khả năng khám phá cơ sở mã, hoàn thành nhiệm vụ và tạo mã có thể thực thi và kiểm tra được.

▲Trong thử nghiệm này, mô hình nhận được cơ sở mã và mô tả vấn đề, sau đó cần tạo bản vá để giải quyết vấn đề. Hiệu suất của mô hình sẽ phụ thuộc rất nhiều vào lời nhắc và công cụ được sử dụng.

Đối với các nhà phát triển API muốn chỉnh sửa các tệp lớn , GPT-4.1 mạnh mẽ hơn khi xử lý các khác biệt về mã ở nhiều định dạng. GPT-4.1 có điểm cao gấp đôi GPT-4o và cao hơn 8% so với GPT-4.5 trong điểm chuẩn đánh giá sự khác biệt đa ngôn ngữ Aider.

Đánh giá này kiểm tra cả khả năng mã hóa của mô hình trong nhiều ngôn ngữ lập trình khác nhau và khả năng tạo ra những thay đổi ở cả định dạng toàn diện và khác biệt. OpenAI đã đào tạo cụ thể GPT-4.1 để tuân theo định dạng diff, cho phép các nhà phát triển tiết kiệm chi phí và độ trễ bằng cách để mô hình chỉ xuất ra các dòng đã thay đổi, thay vì phải viết lại toàn bộ tệp.

Ngoài ra, OpenAI đã tăng giới hạn mã thông báo đầu ra của GPT-4.1 lên 32.768 và GPT-4o lên 16.384 mã thông báo, đồng thời cũng đề xuất sử dụng đầu ra dự đoán để giảm độ trễ khi ghi lại toàn bộ tệp.

▲Trong Aider, mô hình giải quyết các bài tập mã hóa của Exercism bằng cách chỉnh sửa tệp nguồn, cho phép thử lại một lần.

Về mặt mã hóa giao diện , GPT-4.1 có thể tạo ra các ứng dụng web mạnh mẽ và đẹp hơn. Trong các thử nghiệm so sánh của OpenAI, người đánh giá thích các trang web do GPT-4.1 tạo ra hơn các trang web do GPT-4o tạo ra trong 80% thời gian.

Ngoài các tiêu chuẩn trên, GPT-4.1 có thể giảm thiểu các chỉnh sửa không cần thiết. Trong đánh giá nội bộ của OpenAI, các chỉnh sửa không cần thiết trong mã đã giảm từ 9% trong GPT-4o xuống 2% trong GPT-4.1 .

02.

Thực hiện theo hướng dẫn: Đánh giá hiệu suất theo 6 hướng dẫn chính

Hiệu ứng đối thoại tự nhiên nhiều vòng cao hơn 10,5% so với GPT-4o

OpenAI đã phát triển một hệ thống đánh giá nội bộ theo dõi hiệu suất của các mô hình trên nhiều chiều và một số hướng dẫn chính sau các danh mục, bao gồm:

Định dạng sau : Cung cấp hướng dẫn để chỉ định định dạng tùy chỉnh cho phản hồi của mô hình, chẳng hạn như XML, YAML, Markdown, v.v.

Hướng dẫn tiêu cực : chỉ rõ những hành vi mà mô hình cần tránh, chẳng hạn như “không yêu cầu người dùng liên hệ với bộ phận hỗ trợ”.

Hướng dẫn có thứ tự : Cung cấp cho mô hình một tập hợp các hướng dẫn phải được thực hiện theo thứ tự nhất định, chẳng hạn như "đầu tiên yêu cầu người dùng cung cấp tên, sau đó yêu cầu email của họ";

Yêu cầu về nội dung : Nội dung đầu ra có chứa thông tin nhất định, chẳng hạn như "Khi viết kế hoạch dinh dưỡng, hãy luôn đưa vào hàm lượng protein";

Xếp hạng : Sắp xếp đầu ra theo một cách cụ thể, chẳng hạn như "sắp xếp theo quy mô dân số".

Quá tự tin : Yêu cầu người mẫu nói “Tôi không biết” hoặc nói điều gì đó tương tự nếu thông tin được yêu cầu không có sẵn hoặc yêu cầu không thuộc một danh mục nhất định. Ví dụ: “Nếu bạn không biết câu trả lời, vui lòng cung cấp email liên hệ hỗ trợ”.

Blog OpenAI đề cập rằng các danh mục này được đưa ra dựa trên phản hồi của nhà phát triển. Ở mỗi danh mục, OpenAI chia nhỏ các lời nhắc thành dễ, trung bình và khó, và GPT-4.1 cho thấy sự cải thiện đáng kể so với GPT-4o về mặt các lời nhắc khó.

▲Hiệu suất GPT-4.1 trong các lời nhắc khó

Tầm quan trọng của việc thực hiện nhiều lệnh theo lượt đối với các nhà phát triển là mô hình cần duy trì tính nhất quán trong hội thoại và theo dõi những gì người dùng đã nói trước đó. OpenAI huấn luyện GPT-4.1 để rút thông tin tốt hơn từ các cuộc trò chuyện trước đó, qua đó đạt được các cuộc trò chuyện tự nhiên hơn. Trong chuẩn mực MultiChallenge của Scale, GPT-4.1 đạt mức cải thiện 10,5% so với GPT-4o .

▲Kết quả thử nghiệm GPT-4.1 trong MultiChallenge

Trong thử nghiệm IFEval , nó sử dụng lời nhắc có hướng dẫn có thể xác minh, ví dụ, chỉ định độ dài nội dung hoặc tránh một số thuật ngữ hoặc định dạng nhất định. GPT-4.1 đạt 87,4% và GPT-4o đạt 81,0%.

▲Kết quả thử nghiệm GPT-4.1 trong IFEval

Những người thử nghiệm ban đầu lưu ý rằng GPT-4.1 có khả năng hiểu nghĩa đen tốt hơn, vì vậy OpenAI khuyến nghị các nhà phát triển chỉ định hướng dẫn cụ thể trong lời nhắc.

03.

Hiểu văn bản dài: phù hợp để xử lý cơ sở mã lớn và tài liệu dài

Tìm kim trong đống cỏ khô không phải là vấn đề

Các mô hình sê-ri GPT-4.1 có thể xử lý 1 triệu ngữ cảnh mã thông báo, trong khi cửa sổ ngữ cảnh trước đó của GPT-4o là 128.000. 1 triệu token lớn hơn 8 lần so với toàn bộ cơ sở mã React, do đó ngữ cảnh dài phù hợp để xử lý các cơ sở mã lớn hoặc lượng lớn tài liệu dài .

OpenAI cũng đã đào tạo mô hình GPT-4.1 để bỏ qua thông tin gây mất tập trung trong các ngữ cảnh dài và ngắn, một khả năng quan trọng đối với các ứng dụng doanh nghiệp trong nhiều lĩnh vực như luật pháp, mã hóa và hỗ trợ khách hàng.

Trong blog, OpenAI đã chứng minh khả năng của GPT-4.1 trong việc thu thập một lượng nhỏ thông tin ẩn (tức là một "cây kim") ở các vị trí khác nhau trong cửa sổ ngữ cảnh , đây chính là khả năng "tìm kim trong đống cỏ khô".

▲ Đánh giá “mò kim đáy bể” nội bộ của OpenAI về mô hình GPT-4.1

Kết quả cho thấy GPT-4.1 có thể truy xuất chính xác thông tin quan trọng này (kim) ở mọi vị trí và ở nhiều độ dài ngữ cảnh khác nhau (lên đến 1 triệu mã thông báo). Công cụ này rút các chi tiết có liên quan đến nhiệm vụ đang thực hiện, bất kể chi tiết đó nằm ở đâu trong nội dung đầu vào.

Trong thực tế sử dụng, người dùng thường cần các mô hình để hiểu và thu thập nhiều thông tin cũng như hiểu được mối quan hệ giữa các thông tin này. Để đánh giá khả năng này, OpenAI đang mã nguồn mở một công cụ đánh giá mới: OpenAI-MRCR (Nhận dạng từ cốt lõi nhiều vòng).

OpenAI-MRCR có thể được sử dụng để kiểm tra khả năng tìm và phân biệt nhiều thông tin khóa ẩn trong ngữ cảnh của mô hình. Đánh giá bao gồm nhiều lượt đối thoại tổng hợp giữa người dùng và trợ lý, trong đó người dùng yêu cầu người mẫu viết một bài viết về một chủ đề, ví dụ: hoặc “viết một bài đăng trên blog về đá”. Sau đó, nó sẽ chèn 2, 4 hoặc lần yêu cầu giống hệt nhau vào bối cảnh hội thoại tổng thể và mô hình cần phải truy xuất phản hồi tương ứng với một trường hợp yêu cầu cụ thể.

Trong OpenAI-MRCR⁠, các câu hỏi được mô hình trả lời sẽ có 2, 4 hoặc 8 từ gợi ý gây mất tập trung tương tự nằm rải rác trong ngữ cảnh và mô hình cần phải phân biệt giữa các câu hỏi này và lời nhắc của người dùng.

▲Trong OpenAI-MRCR⁠, kết quả đánh giá của mô hình trả lời các câu hỏi có thêm 2 yếu tố gây nhiễu

▲Trong OpenAI-MRCR⁠, kết quả đánh giá của mô hình trả lời các câu hỏi có thêm 4 yếu tố gây nhiễu

▲Trong OpenAI-MRCR⁠, kết quả đánh giá của mô hình trả lời các câu hỏi có thêm 8 yếu tố gây nhiễu

Thách thức ở đây là những yêu cầu này rất giống với phần còn lại của bối cảnh và mô hình có thể dễ dàng bị đánh lừa bởi những khác biệt nhỏ. OpenAI nhận thấy rằng GPT-4.1 hoạt động tốt hơn GPT-4o khi độ dài ngữ cảnh đạt tới 128K mã thông báo .

OpenAI cũng đã phát hành dữ liệu Graphwalks để đánh giá khả năng suy luận ngữ cảnh dài nhiều bước nhảy . Điều này là do nhiều trường hợp sử dụng của nhà phát triển yêu cầu ngữ cảnh dài đòi hỏi phải thực hiện nhiều bước nhảy logic trong ngữ cảnh, chẳng hạn như chuyển đổi giữa nhiều tệp khi viết mã hoặc tham chiếu chéo tài liệu khi trả lời các câu hỏi pháp lý phức tạp.

Graphwalks yêu cầu mô hình phải suy luận ở nhiều vị trí khác nhau trong bối cảnh. Nó điền vào cửa sổ ngữ cảnh bằng một đồ thị có hướng bao gồm các giá trị băm thập lục phân, sau đó yêu cầu mô hình thực hiện tìm kiếm theo chiều rộng (BFS) bắt đầu từ một nút ngẫu nhiên trong đồ thị, rồi yêu cầu mô hình trả về tất cả nút có độ sâu nhất định.

▲Kết quả đánh giá Graphwalks

GPT-4.1 đạt độ chính xác 61,7% trong tiêu chuẩn này, ngang bằng hiệu suất của o1 và đánh bại GPT-4o.

Ngoài hiệu suất và độ chính xác của mô hình, các nhà phát triển còn cần những mô hình có thể phản hồi nhanh chóng để đáp ứng nhu cầu của người dùng. OpenAI đã cải thiện ngăn xếp suy luận để giảm thời gian xử lý mã thông báo đầu tiên và giảm thêm độ trễ cũng như chi phí thông qua bộ nhớ đệm gợi ý.

Các thử nghiệm sơ bộ của OpenAI cho thấy GPT-4.1 có độ trễ mã thông báo đầu tiên p95 là khoảng mười lăm giây ở 128.000 mã thông báo ngữ cảnh hoặc nửa phút ở 1 triệu mã thông báo ngữ cảnh. GPT-4.1 mini và nano nhanh hơn. Ví dụ , GPT-4.1 nano thường trả về mã thông báo đầu tiên trong vòng năm giây cho truy vấn có 128.000 mã thông báo đầu vào .

04.

Hiểu biết đa phương thức: trả lời các câu hỏi từ video không có phụ đề và giải các bài toán bằng sơ đồ

Vượt trội hơn GPT-4o

Về khả năng hiểu hình ảnh, GPT-4.1 mini vượt trội hơn GPT-4o về điểm chuẩn hình ảnh .

Đối với các trường hợp sử dụng đa phương thức, chẳng hạn như xử lý video dài, hiệu suất ngữ cảnh dài cũng rất quan trọng. Trong Video-MME (dài không có phụ đề), mô hình trả lời các câu hỏi trắc nghiệm dựa trên video dài 30-60 phút không có phụ đề và GPT-4.1 đạt 72,0%, cao hơn 65,3% của GPT-4o.

Kết quả của bài kiểm tra MMMU trong đó mô hình trả lời các câu hỏi có chứa đồ thị, biểu đồ, bản đồ, v.v .:

Kết quả kiểm tra MathVista của mô hình giải quyết nhiệm vụ toán học trực quan :

Kết quả kiểm tra CharXiv-Reasoning cho các mô hình trả lời các câu hỏi về đồ thị trong các bài báo khoa học :

05.

Kết luận: Mở ra khả năng xây dựng các tác nhân thông minh phức tạp

Những cải tiến trong GPT-4.1 liên quan đến nhu cầu thực tế của các nhà phát triển trong quá trình phát triển hàng ngày. Từ mã hóa, hướng dẫn theo dõi đến hiểu ngữ cảnh dài, các mô hình sê-ri GPT-4.1 có hiệu suất tốt hơn và tiết kiệm hơn đã mở ra những khả năng mới cho việc xây dựng các hệ thống thông minh và các ứng dụng tác nhân thông minh phức tạp.

Trong tương lai, điều này có thể cho phép các nhà phát triển sử dụng nó kết hợp với nhiều API khác nhau để xây dựng các tác nhân hữu ích và đáng tin cậy hơn, có tiềm năng được áp dụng trong kỹ thuật phần mềm thực tế, rút nhận xét từ lượng lớn tài liệu, giải quyết các yêu cầu của khách hàng với sự can thiệp tối thiểu của con người và nhiệm vụ phức tạp khác.

Bài viết này trích từ tài khoản công khai WeChat "Smart Things" (ID: zhidxcom) , tác giả: Cheng Qian, biên tập: Yun Peng và được 36Kr cấp phép xuất bản.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận