Hôm qua, OpenAI đã công bố việc điều chỉnh các quy tắc sử dụng API của mình.
Trong tương lai, để truy cập vào các mô hình lớn mới nhất của OpenAI, bạn sẽ cần có ID đã xác thực (tức là thẻ căn cước do chính phủ của một trong những quốc gia/khu vực được OpenAI hỗ trợ cấp và mỗi thẻ căn cước chỉ có thể xác minh một tổ chức sau mỗi 90 ngày). Việc không vượt qua quá trình xác minh sẽ ảnh hưởng đến việc sử dụng mô hình.
Cuộc tranh cãi do các quy định mới gây ra vẫn chưa lắng xuống. OpenAI đã ra mắt ba mô hình sê-ri GPT-4.1 vào sáng nay. Tuy nhiên, chúng chỉ có thể được sử dụng thông qua API và sẽ không xuất hiện trực tiếp trong ChatGPT.
GPT-4.1: mô hình chủ lực có hiệu suất tốt nhất trong mã hóa, thực hiện theo hướng dẫn và hiểu ngữ cảnh dài, phù hợp cho nhiệm vụ phức tạp.
GPT-4.1 mini: Một mô hình nhỏ và hiệu quả vượt qua GPT-4o trong nhiều điểm chuẩn trong khi giảm độ trễ gần một nửa và chi phí 83%, khiến nó phù hợp với các tình huống đòi hỏi hiệu suất hiệu quả.
GPT-4.1 nano: Mô hình siêu nhỏ đầu tiên của OpenAI, nhanh nhất và rẻ nhất, với cửa sổ ngữ cảnh 1 triệu mã thông báo, phù hợp cho nhiệm vụ có độ trễ thấp như phân loại và tự động hoàn thành.
Mặc dù mọi người đều đã chuẩn bị cho cách đặt tên khó hiểu của OpenAI, GPT-4.1 vẫn bị cư dân mạng chỉ trích. Ngay cả Giám đốc sản phẩm của OpenAI là Kevin Weil cũng nói đùa: "Kỹ năng đặt tên của chúng tôi chắc chắn không được cải thiện trong tuần này".
Thẻ mô hình GPT-4.1 🔗 https://platform.openai.com/docs/models/gpt-4.1
Lập trình + văn bản dài, GPT-4.1>GPT-4.5?
Công nghệ là yếu tố cốt lõi. Mặc dù tên gọi bị chỉ trích, nhưng sức mạnh của GPT-4.1 vẫn rõ ràng với tất cả mọi người.
OpenAI tuyên bố rằng sê-ri mô hình GPT-4.1 hoạt động tốt trong nhiều bài kiểm tra chuẩn và là một trong những mô hình lập trình mạnh mẽ nhất hiện có.
Có khả năng hoàn thành nhiệm vụ mã hóa phức tạp một cách độc lập
Cải thiện khả năng phát triển front-end
Giảm thiểu các sửa đổi mã không cần thiết
Tuân thủ tốt hơn với định dạng diff
Các cuộc gọi công cụ nhất quán và ổn định hơn
OpenAI thậm chí còn ví GPT-4.1 như một "chuẩn tinh", ngụ ý rằng nó có sức ảnh hưởng và năng lượng mạnh mẽ trong lĩnh vực AI giống như một chuẩn tinh.
Trong bài kiểm tra chuẩn SWE-bench Verified, một tiêu chuẩn đánh giá năng lực kỹ thuật phần mềm thực tế, GPT-4.1 đạt 54,6%, tăng 21,4 điểm phần trăm so với GPT-4o và 26,6 điểm phần trăm so với GPT-4.5.
GPT‑4.1 đã được đào tạo đặc biệt trên định dạng diff, cho phép xuất ra các đoạn đã sửa đổi ổn định hơn, tiết kiệm độ trễ và chi phí. Ngoài ra, OpenAI đã tăng giới hạn mã thông báo đầu ra của GPT‑4.1 lên 32768 mã thông báo để hỗ trợ nhu cầu viết lại toàn bộ tệp.
Trong nhiệm vụ phát triển giao diện người dùng, kết quả kiểm tra mù của OpenAI cho thấy 80% đánh giá thích các trang web được tạo bởi GPT-4.1.
OpenAI cũng đã mời Varun Mohan, người sáng lập và giám đốc điều hành của Windsurf, chia sẻ kinh nghiệm của mình trong chương trình phát sóng trực tiếp sáng nay. Varun tiết lộ rằng các bài kiểm tra chuẩn nội bộ cho thấy hiệu suất của GPT-4.1 tốt hơn GPT-4 60%.
Với hiệu suất vượt trội của GPT-4.1, Windsurf đã quyết định cung cấp cho tất cả người dùng trải nghiệm GPT-4.1 miễn phí trong một tuần , sau đó tiếp tục bán sản phẩm với mức chiết khấu đáng kể. Ngoài ra, người dùng Cursor hiện có thể sử dụng GPT-4.1 miễn phí.
Trong các cuộc trò chuyện thực tế, đặc biệt là nhiệm vụ tương tác nhiều vòng, điều quan trọng là mô hình phải ghi nhớ và tham chiếu chính xác thông tin trong ngữ cảnh. Trên chuẩn MultiChallenge của Scale, GPT-4.1 cải thiện GPT-4o 10,5 điểm phần trăm.
IFEval là một bộ kiểm tra dựa trên các hướng dẫn rõ ràng (chẳng hạn như hạn chế về độ dài nội dung và định dạng) để đánh giá liệu mô hình có thể xuất nội dung theo các quy tắc cụ thể hay không. GPT-4.1 vẫn hoạt động tốt hơn GPT-4o.
Trong hạng mục video dài không có phụ đề của chuẩn mực ngữ cảnh dài đa phương thức Video-MME, GPT-4.1 đã lập kỷ lục mới với số điểm là 72,0%, dẫn trước GPT-4o 6,7 điểm phần trăm.
Thu nhỏ mô hình là xu hướng tất yếu trong quá trình thương mại hóa AI.
GPT‑4.1 mini "nhỏ nhưng mạnh mẽ" thậm chí vượt qua GPT-4o trong nhiều bài kiểm tra, đồng thời vẫn duy trì hiệu suất thông minh tương đương hoặc cao hơn GPT‑4o, với độ trễ giảm gần giảm nửa và chi phí giảm 83%.
Nhà nghiên cứu Aidan McLaughlin của OpenAI đã viết rằng với GPT-4.1 mini/nano, giờ đây có thể đạt được chức năng chất lượng giống như GPT-4 với chi phí thấp hơn nhiều (rẻ hơn 25 lần), cực kỳ tiết kiệm chi phí.
GPT‑4.1 nano là mô hình nhanh nhất và có chi phí thấp nhất của OpenAI, phù hợp với nhiệm vụ yêu cầu độ trễ thấp.
Nó cũng hỗ trợ cửa sổ ngữ cảnh lên tới 1 triệu mã thông báo và đạt lần lượt 80,1%, 50,3% và 9,8% trong các bài kiểm tra lập trình đa ngôn ngữ MMLU, GPQA và Aider, tất cả đều cao hơn GPT-4o mini và phù hợp với nhiệm vụ phân loại và hoàn thành tự động.
Tuy nhiên, GPT-4.1 chỉ khả dụng thông qua API và sẽ không xuất hiện trực tiếp trong ChatGPT. Nhưng tin tốt là phiên bản GPT-4o của ChatGPT đã âm thầm kết hợp một số tính năng của GPT-4.1 và sẽ còn nhiều tính năng khác được bổ sung trong tương lai.
Bản xem trước GPT‑4.5 sẽ ngừng hoạt động vào ngày 14 tháng 7 năm 2025. Mô hình cốt lõi của API dành cho nhà phát triển cũng sẽ dần được thay thế bằng GPT-4.1.
Theo giải thích chính thức, GPT-4.1 vượt trội về hiệu suất, chi phí và tốc độ, trong khi khả năng thể hiện sáng tạo, chất lượng văn bản, khiếu hài hước và phong cách tinh tế mà người dùng yêu thích ở GPT-4.5 sẽ tiếp tục được duy trì ở các mẫu máy trong tương lai.
GPT-4.1 cũng đã được nâng cấp về khả năng hiểu hướng dẫn, cho dù đó là yêu cầu về định dạng, kiểm soát nội dung, nhiệm vụ phức tạp gồm nhiều bước hay thậm chí là duy trì tính nhất quán trong nhiều vòng hội thoại, thì nó đều hoạt động tốt hơn.
Văn bản dài là điểm nổi bật của sê-ri GPT-4.1. Nó hỗ trợ khả năng xử lý ngữ cảnh cực dài lên tới 1 triệu mã thông báo, tương đương với khoảng 8 bộ mã nguồn React hoàn chỉnh hoặc hàng trăm trang tài liệu, vượt xa 128.000 mã thông báo của GPT-4o. Phù hợp với nhiệm vụ như phân tích cơ sở mã lớn và xem xét nhiều tài liệu.
Trong thử nghiệm "mò kim đáy bể", GPT-4.1 đã thu thập chính xác thông tin ngữ cảnh cực dài và hoạt động tốt hơn GPT-4o; trong thử nghiệm tìm kiếm, nó có khả năng phân biệt các yêu cầu tương tự và lý luận vị trí chéo tốt hơn, với tỷ lệ chính xác là 62%, vượt xa mức 42% của GPT-4o.
Mặc dù hỗ trợ ngữ cảnh siêu dài, tốc độ phản hồi của GPT-4.1 không hề chậm. Yêu cầu mã thông báo 128K mất khoảng 15 giây và mô hình nano mất chưa đến 5 giây. OpenAI cũng đã tối ưu hóa cơ chế bộ nhớ đệm nhắc nhở, tăng mức chiết khấu từ 50% lên 75%, giúp sử dụng rẻ hơn.
Trong phiên trình diễn trực tiếp sáng nay, OpenAI đã chứng minh đầy đủ khả năng xử lý ngữ cảnh dài mạnh mẽ của GPT-4.1 và khả năng tuân thủ hướng dẫn nghiêm ngặt thông qua hai trường hợp, đây cũng có thể là những tình huống sử dụng khá thiết thực cho các nhà phát triển.
Trong trường hợp đầu tiên, người trình diễn đã sử dụng GPT-4.1 để tạo một trang web có thể tải lên và phân tích các tệp văn bản lớn, sau đó sử dụng trang web mới tạo này để tải lên tệp nhật ký yêu cầu máy chủ của NASA từ tháng 8 năm 1995.
Người trình diễn đã "bí mật" chèn một dòng bản ghi yêu cầu HTTP không chuẩn vào tệp nhật ký này và yêu cầu GPT-4.1 phân tích toàn bộ tệp và tìm bản ghi bất thường này. Kết quả là, mô hình đã tìm thấy thành công dòng bản ghi bất thường này trong tệp có khoảng 450.000 mã thông báo.
Trong trường hợp thứ hai, người thuyết trình thiết lập một thông báo hệ thống để cho phép mô hình hoạt động như một trợ lý phân tích nhật ký, quy định rằng dữ liệu đầu vào phải nằm trong thẻ <log_data> và câu hỏi của người dùng phải nằm trong thẻ <query>.
Khi người thuyết trình đặt câu hỏi mà không có thẻ <query>, mô hình sẽ từ chối trả lời. Khi các thẻ được sử dụng đúng cách, mô hình sẽ trả lời chính xác các câu hỏi về tệp nhật ký. Ngược lại, GPT-4o trước đây sẽ bỏ qua các quy tắc và hạn chế này và trả lời trực tiếp các câu hỏi.
Tóm lại, những lợi thế cốt lõi của GPT-4.1 bao gồm hỗ trợ ngữ cảnh cực dài, khả năng suy luận truy xuất mạnh mẽ, xử lý nhiều tài liệu tuyệt vời, độ trễ thấp và hiệu suất cao, cùng hiệu quả về chi phí cao. Phù hợp với các tình huống như luật pháp, tài chính và lập trình, và là lựa chọn lý tưởng cho nhiệm vụ như tìm kiếm mã, phân tích hợp đồng thông minh và dịch vụ khách hàng.
Thủ thuật thực sự của OpenAI là một mô hình lý luận có thể suy nghĩ như Feynman
OpenAI vẫn chưa chính thức ra mắt o3 nhưng một số tin tức đã được công bố.
Theo The Information, trích dẫn lời ba người quen thuộc với bài kiểm tra, mô hình AI mới mà OpenAI dự định ra mắt trong tuần này sẽ có thể tích hợp các khái niệm trên nhiều lĩnh vực và đề xuất những ý tưởng thử nghiệm mới, từ phản ứng tổng hợp hạt nhân đến phát hiện mầm bệnh.
OpenAI lần đầu tiên ra mắt mô hình tập trung vào lý luận vào tháng 9 năm ngoái. Loại mô hình này hoạt động đặc biệt hiệu quả khi giải quyết các vấn đề có thể kiểm chứng như định lý toán học. Thời gian suy nghĩ càng lâu thì hiệu quả càng tốt.
Khi Luật mở rộng quy mô gặp phải tình trạng tắc nghẽn, OpenAI đã chuyển trọng tâm nghiên cứu và phát triển sang lý luận. Công ty tin rằng trong tương lai sẽ có thể cung cấp dịch vụ đăng ký hàng tháng lên tới 20.000 đô la Mỹ (140.000 nhân dân tệ) để hỗ trợ nghiên cứu trình độ tiến sĩ.
Mô hình lý luận này, giống như Tesla hay nhà khoa học Feynman, có thể tích hợp kiến thức từ nhiều lĩnh vực như sinh học, vật lý và kỹ thuật để cung cấp nhận xét độc đáo. Bạn biết đấy, trên thực tế, loại thành tựu liên ngành này đòi hỏi phải có đội ngũ tốn nhiều thời gian và công sức, nhưng mô hình mới của OpenAI có thể hoàn thành nhiệm vụ tương tự một cách độc lập.
Công cụ "Nghiên cứu chuyên sâu" của ChatGPT hỗ trợ duyệt các trang web và sắp xếp báo cáo, cho phép các nhà khoa học tóm tắt tài liệu và đề xuất phương pháp thử nghiệm mới, chứng minh tiềm năng của công cụ trong lĩnh vực này. Theo một người thử nghiệm, các nhà khoa học có thể sử dụng AI này để đọc tài liệu công bố trong nhiều lĩnh vực khoa học, tóm tắt các thí nghiệm hiện có và đề xuất phương pháp mới chưa từng được thử nghiệm.
Các mô hình lý luận hiện tại cũng đã cải thiện đáng kể hiệu quả nghiên cứu khoa học.
The Information đã trích dẫn ví dụ về Sarah Owens, một nhà sinh học phân tử tại Phòng thí nghiệm quốc gia Argonne ở Illinois, người đã sử dụng mô hình o3-mini-high để nhanh chóng thiết kế các thí nghiệm áp dụng các kỹ thuật liên quan đến sinh thái học nhằm phát hiện các tác nhân gây bệnh trong nước thải, giúp tiết kiệm nhiều ngày.
Nhà hóa học Massimiliano Delferro đã sử dụng AI để thiết kế các thí nghiệm phân hủy nhựa, thu được một kế hoạch hoàn chỉnh bao gồm phạm vi nhiệt độ và áp suất, với hiệu quả vượt xa mong đợi. Trong "Thí nghiệm ngẫu hứng AI" vào tháng 2 năm nay, những người thử nghiệm đã sử dụng o1-pro và o3-mini-high đánh giá tác động tiềm tàng hoàn cảnh của việc xây dựng nhà máy điện hoặc mỏ tại một khu vực địa lý cụ thể và kết quả vượt xa mong đợi.
Theo các báo cáo, tại một sự kiện thử nghiệm được tổ chức tại Phòng thí nghiệm quốc gia Oak Ridge ở Tennessee, Chủ tịch OpenAI Greg Brockman đã phát biểu trước hàng nghìn nhà khoa học từ chín viện liên bang:
“Chúng ta đang hướng tới xu hướng mà AI sẽ dành lượng lớn thời gian để 'suy nghĩ kỹ' về các vấn đề khoa học quan trọng và điều này sẽ giúp bạn hiệu quả hơn gấp mười hoặc thậm chí gấp trăm lần trong vài năm tới”.
Hiện tại, OpenAI đã cam kết cung cấp quyền truy cập sở hữu tư nhân vào nhiều phòng thí nghiệm quốc gia để sử dụng các mô hình suy luận được lưu trữ trên siêu máy tính tại Phòng thí nghiệm quốc gia Los Alamos.
Tuy nhiên, lý tưởng thì đầy đủ, nhưng thực tế lại gầy gò. Trong nhiều trường hợp, vẫn còn khoảng cách giữa các gợi ý của AI và khả năng xác minh những ý tưởng này của các nhà khoa học. Ví dụ, một mô hình có thể gợi ý cường độ tia laser để cung cấp một lượng năng lượng nhất định, nhưng điều đó vẫn cần được xác minh trong trình mô phỏng; những đề xuất liên quan đến hóa học hoặc sinh học sẽ cần phải thử nghiệm trong phòng thí nghiệm.
OpenAI cũng đã phát hành một tác nhân AI có tên là Operator, nhưng nó bị chỉ trích vì thường xuyên xảy ra lỗi.
Theo những người hiểu rõ vấn đề này, OpenAI có kế hoạch cải thiện hiệu suất thông qua "học tăng cường dựa trên phản hồi của con người" (RLHF), sàng lọc các trường hợp lỗi dựa trên dữ liệu sử dụng thực tế của người dùng và đào tạo Người vận hành bằng các ví dụ thành công.
David Luan, người đứng đầu Amazon AGI SF Lab và cựu giám đốc kỹ thuật OpenAI, đã đưa ra một góc nhìn thú vị. Ông cho biết trước khi các mô hình suy luận ra đời, nếu một mô hình AI truyền thống "phát hiện ra một định lý toán học mới", nó sẽ bị "trừng phạt" vì nó không có trong dữ liệu đào tạo.
Ngoài ra, OpenAI cũng đang phát triển các tác nhân lập trình tiên tiến hơn. Giám đốc tài chính của OpenAI, Sarah Friar đã tiết lộ tại Hội nghị thượng đỉnh Goldman Sachs ở London vào tháng 3 năm nay:
“Điều tiếp theo chúng tôi sẽ ra mắt là một sản phẩm mà chúng tôi gọi là A-SWE. Nhân tiện, kỹ năng tiếp thị của chúng tôi không phải là tốt nhất (cười). A-SWE là viết tắt của ‘Agentic Software Engineer’.”
Bà cho biết A-SWE không chỉ là trợ lý cho các kỹ sư phần mềm trong đội ngũ của bạn như Copilot hiện nay, mà là một kỹ sư phần mềm có "khả năng tự chủ" thực sự, có thể tự mình phát triển ứng dụng cho bạn.
Bạn chỉ cần gửi PR (Yêu cầu kéo) giống như bạn gửi cho một kỹ sư thông thường và nó có thể hoàn tất toàn bộ quá trình phát triển một cách độc lập.
“Nó không chỉ có thể hoàn thành quá trình phát triển mà còn có thể thực hiện mọi công việc mà các kỹ sư ghét nhất: nó sẽ tự thực hiện QA (đảm bảo chất lượng), kiểm tra và sửa lỗi, và viết tài liệu hướng dẫn—những việc mà các kỹ sư thường khó có thể tự mình thực hiện. Vì vậy, hiệu quả chiến đấu của đội ngũ kỹ sư của bạn sẽ được tăng cường đáng kể.”
Một mặt, các mô hình như GPT-4.1 có thể xử lý nhiệm vụ phức tạp hơn bao giờ hết thông qua các bối cảnh cực dài và khả năng tuân theo hướng dẫn chính xác; Mặt khác, các mô hình lý luận và tác nhân tự động đang phá vỡ những hạn chế của AI truyền thống và hướng tới khả năng tư duy tự động thực sự.
Bài viết này trích từ tài khoản công khai WeChat "APPSO" , tác giả: APPSO và được 36Kr cho phép xuất bản.



