Sau khi Ilya tuyên án, người ta tiết lộ rằng GPT-5 đã được huấn luyện nhiều lần và không thành công. Nó đã được huấn luyện trong vài tháng và dữ liệu phải được xây dựng lại theo cách thủ công.

avatar
36kr
15 giờ trước
Bài viết này được dịch máy
Xem bản gốc
Dưới đây là bản dịch tiếng Việt của văn bản, với các từ được giữ nguyên như trong nội dung gốc:

Được tiết lộ rằng GPT-5 không đạt được hiệu quả như kỳ vọng.

Sau khi OpenAI vừa kết thúc 12 buổi ra mắt liên tiếp, điều mọi người mong đợi nhất là GPT-5/4.5 nhưng lại không xuất hiện, khiến Wall Street Journal đưa tin.

GPT-5 đã hoàn thành ít nhất 2 đợt huấn luyện, mỗi lần kéo dài hàng tháng, nhưng sau mỗi lần huấn luyện lại gặp phải các vấn đề mới.

OpenAI đang tuyển dụng chuyên gia lập trình và toán học để xây dựng dữ liệu từ đầu cho GPT-5, họ cũng sử dụng dữ liệu được tổng hợp bởi o1, nhưng hiệu quả vẫn chưa cao, khó đáp ứng nhu cầu tiền huấn luyện của GPT-5.

Theo ước tính của thị trường, một đợt huấn luyện kéo dài 6 tháng chỉ tính riêng về tính toán đã cần 500 triệu USD. Hai lần huấn luyện của GPT-5 đều không suôn sẻ, chắc chắn chi phí đằng sau cũng là một con số khổng lồ.

Gần đây, Ilya đã tuyên bố tại NeurIPS 2024 rằng việc tiền huấn luyện sắp kết thúc, điều này dường như lại được khẳng định một lần nữa...

Điều này cũng phù hợp với thông tin trước đó của The Information, khi tốc độ tiến hóa của dòng sản phẩm GPT chậm lại, OpenAI đang thử điều chỉnh chiến lược, chẳng hạn như ra mắt các dòng o1, o3.

Hiện tại, OpenAI vẫn chưa phản hồi về thông tin mới nhất này.

Nhưng liệu GPT-5 là OpenAI đang giấu không công bố, hay là không thể công bố? Câu trả lời dường như đã rõ ràng hơn.

Dữ liệu và tính toán khổng lồ vẫn không thể hoàn thiện việc tiền huấn luyện GPT-5

Trong bài đăng của Wall Street Journal, OpenAI có kỳ vọng rất cao vào GPT-5.

Nó có thể thực hiện khám phá khoa học và hoàn thành các nhiệm vụ thông thường của con người, chẳng hạn như đặt lịch hẹn, đặt vé máy bay. Và họ hy vọng nó sẽ mắc ít lỗi hơn, hoặc có thể thừa nhận sự tồn tại của lỗi, tức là giảm thiểu ảo giác.

Điều này phù hợp với thông tin được tiết lộ trước đó. Trước đây, Giám đốc Công nghệ trưởng của OpenAI, Mira, đã so sánh mức độ thông minh của GPT-5 với một nghiên cứu sinh tiến sĩ.

Điều này có nghĩa là GPT-5 có thể đạt được thành tích cao trong một số lĩnh vực cụ thể, có thể sâu sắc hiểu, suy luận và có kiến thức chuyên môn như một nghiên cứu sinh hoặc tiến sĩ. So sánh với GPT-3 là trẻ sơ sinh lúng túng, GPT-4 là học sinh trung học.

Vào tháng 10 năm nay, OpenAI đã huy động được 6,6 tỷ USD, nâng giá trị thị trường lên 157 tỷ USD. Việc các nhà đầu tư tiếp tục rót vốn cũng được cho là do họ tin rằng GPT-5 sẽ có bước tiến lớn.

Tuy nhiên, việc ra mắt GPT-5 vẫn đang bị trì hoãn.

Trước đây, Otaman đã nói rằng GPT-5 không có thời gian phát hành cụ thể, sẽ ra mắt khi nào sẵn sàng, có thể là năm 2025 hoặc 2026.

Nhìn lại, việc ra mắt GPT-5 luôn gặp nhiều trở ngại.

Vào năm 2023, OpenAI đã bị tiết lộ là đã từ bỏ một mô hình mang mã hiệu Arrakis. Lý do là mô hình này không thể vừa duy trì hiệu suất vừa giảm nhu cầu về tài nguyên tính toán, không đạt được hiệu quả huấn luyện như mong đợi.

Điều này thực sự chứng minh rằng, nếu muốn huấn luyện các mô hình quy mô lớn hơn, vẫn cần nguồn lực tính toán khổng lồ và thời gian dài hơn.

Xét về mục tiêu, GPT-5 rõ ràng sẽ là một "quái vật".

Phát triển GPT-5 bắt đầu từ khi GPT-4 được ra mắt. Đến nay đã hơn 18 tháng.

Mã dự án bên trong là Orion. Theo kế hoạch ban đầu, Microsoft muốn thấy GPT-5 vào giữa năm 2024.

Wall Street Journal tiết lộ rằng, việc huấn luyện GPT-5 quy mô lớn đã được thực hiện ít nhất 2 lần. Mỗi lần kéo dài vài tháng và đều gặp phải các vấn đề mới.

Trong trường hợp tốt nhất, Orion sẽ hoạt động tốt hơn so với các sản phẩm hiện tại của OpenAI. Nhưng so với chi phí đã bỏ ra, sự cải thiện không quá rõ ràng.

Ước tính, một đợt huấn luyện kéo dài 6 tháng chỉ riêng về chi phí tính toán đã tốn 500 triệu USD. So sánh, chi phí huấn luyện GPT-4 đã vượt quá 100 triệu USD.

Mặt khác, để có một mô hình tốt hơn, cần nhiều dữ liệu hơn.

Nguồn dữ liệu công cộng đã cạn kiệt, OpenAI quyết định thuê người xây dựng dữ liệu từ đầu. Theo tin tức, họ đã tuyển dụng một số kỹ sư phần mềm và nhà toán học để viết mã và giải các bài toán, cung cấp cho GPT-5 học tập.

Trong cộng đồng AI, mọi người luôn tin rằng việc mô hình học mã nguồn có thể nâng cao khả năng giải quyết các vấn đề khác.

Đồng thời, OpenAI cũng hợp tác với một số nhà vật lý học để GPT-5 học cách hiểu các vấn đề trong lĩnh vực của họ.

Nhưng vấn đề là, quá trình này quá chậm.

OpenAI cũng đã đi theo hướng tổng hợp dữ liệu bằng AI. Được biết, GPT-5 đã sử dụng dữ liệu được tổng hợp bởi o1.

Phương pháp này có thể đã được chứng minh.

Anthropic bên cạnh cũng bị tiết lộ là sử dụng dữ liệu tổng hợp bằng AI để huấn luyện mô hình. Họ giữ lại dữ liệu tổng hợp tốt nhất trong mô hình, vì chất lượng mô hình tỷ lệ thuận với chất lượng dữ liệu tổng hợp.

Trên đây là những thông tin mới nhất về GPT-5.

Nhưng nói lại, gần đây ai còn quan tâm đến GPT-5 nữa (cười).

Bởi vì OpenAI đã khởi động Luật Mở rộng Suy luận với các dòng sản phẩm o1, o3.

Phiên bản o3 vừa được ra mắt đã lập kỷ lục trên ARC-AGI.

Kết quả mới nhất cho thấy, trên 400 nhiệm vụ công khai, phiên bản hiệu quả nhất của o3 đạt được 91,5%.

Về cơ chế cốt lõi, o3 cũng đưa ra những gợi ý mới. Nó tìm kiếm và thực hiện trong không gian token của LLM, để tái tổ chức kiến thức trong quá trình kiểm tra.

Với sự ra mắt của dòng sản phẩm o3, lời tiên tri về AGI vẫn rất hấp dẫn.

o3 thống trị bảng xếp hạng ARC-AGI, còn bao xa mới đến AGI?

Để giới thiệu sơ lược về tập dữ liệu ARC-AGI, đó là các mảng lưới có các ô màu (được mô tả bằng văn bản, sử dụng số để biểu thị màu), các mô hình lớn cần quan sát 3 ví dụ đầu vào-đầu ra, sau đó dựa trên quy luật để điền vào các ô trống mới.

Những ví dụ này tương đối đơn giản, nhưng thực tế có thể gặp những vấn đề như sau:

Tập dữ liệu ARC-AGI bao gồm 400 bài kiểm tra công khai và 100 bài kiểm tra riêng tư.

Trong các bài kiểm tra công khai, phi

ARC thách thức một trong những người khởi xướng, cựu kỹ sư cao cấp của Google, cha đẻ của Keras François Chollet cho rằng, o3 có thể thích ứng với các nhiệm vụ chưa từng gặp trước đây, có thể nói là tiếp cận mức độ của con người trong lĩnh vực ARC-AGI.

Tất nhiên, chi phí cũng rất đắt đỏ, ngay cả ở chế độ tính toán thấp, mỗi nhiệm vụ cũng cần 17-20 USD, trong khi chi phí thuê người thực hiện các vấn đề này của bên phát động chỉ trung bình 5 USD mỗi vấn đề.

Nhưng bỏ qua vấn đề chi phí, Chollet chỉ ra rằng, sự cải tiến của o3 so với chuỗi GPT chứng minh tầm quan trọng của kiến trúc, cho rằng không thể đạt được kết quả tương tự bằng cách đầu tư thêm tính toán vào GPT-4.

Vì vậy, thông qua bài kiểm tra ARC-AGI, có nghĩa là o3 đã đạt được AGI chăng? Chollet cho rằng không phải.

Qua kiểm tra, phát hiện ra rằng, o3 vẫn thất bại trong một số nhiệm vụ rất đơn giản, điều này cho thấy nó vẫn có sự khác biệt cơ bản với trí thông minh của con người.

Ngoài ra, thế hệ tiếp theo của ARC-AGI, ARC-AGI-2 cũng sắp ra mắt, các bài kiểm tra sớm cho thấy nó sẽ đặt ra thách thức lớn đối với o3, ngay cả ở chế độ tính toán cao, điểm số của nó cũng có thể giảm xuống dưới 30% (trong khi người thông minh vẫn có thể đạt trên 95%).

Nhưng dù có đạt được AGI hay không, những thành tích mà o3 có thể đạt được đều là chưa từng có, thậm chí có người cho rằng, đối với những nhiệm vụ như ARC, lợi thế của con người thực sự nằm ở suy luận thị giác, nếu chuyển sang mô tả hình dạng bằng văn bản như mô hình nhìn thấy, con người có thể không làm tốt hơn AI.

Hơn nữa, đối với một trường hợp "không thành công" của o3, cũng có người nghi ngờ là câu trả lời chuẩn sai.

Trong bài toán này, quy luật thay đổi là kết nối hai ô xanh nằm trong cùng một hàng hoặc cột, và tô toàn bộ vùng đỏ xuyên qua.

Sự khác biệt giữa "câu trả lời chuẩn" và cố gắng của o3 là liệu phần trong khung xanh có được tô xanh hay không:

Trong ba ví dụ, phần chuyển từ đỏ sang xanh đều là do đường nối xuyên qua, nhưng trong bài toán này, đường nối đi qua phần 3x4 màu đỏ ở dưới, do đó o3 cho rằng không nên tô xanh phần này.

Vậy o3 đã thực hiện như thế nào?

Có người cho rằng là thông qua từ gợi ý, nhưng người phụ trách ARC Challenge Greg Kamradt và nhà nghiên cứu của OpenAI Brandon McKinzie đều phủ nhận điều này, cho biết từ gợi ý cho o3 rất đơn giản.

Ngoài ra, Chollet dự đoán, cơ chế cốt lõi của o3 dường như là tìm kiếm và thực hiện chương trình ngôn ngữ tự nhiên trong không gian Token - dưới sự hướng dẫn của một mô hình bộ đánh giá, tìm kiếm không gian chuỗi suy nghĩ có thể mô tả các bước cần thiết để giải quyết nhiệm vụ.

Theo quan điểm của Chollet, o3 đã thực hiện tái tổ chức kiến thức trong quá trình kiểm tra, tóm lại, o3 đã xây dựng một khuôn mẫu mới hướng tới AGI.

Nhà khoa học AI của Nvidia Jim Fan cho rằng, bản chất của o3 là "nới lỏng siêu trí tuệ học tập tăng cường tập trung vào một điểm, để bao phủ nhiều điểm hơn trong không gian vấn đề hữu ích".

Tức là dùng độ sâu để đổi lấy độ rộng, nới lỏng việc học tập tăng cường cho từng nhiệm vụ cụ thể, để đạt được tính phổ dụng trên nhiều nhiệm vụ hơn.

Jim Fan lấy ví dụ, như AlphaGo, bản đồ điện tử của Boston Dynamics đều là siêu trí tuệ nhân tạo, thể hiện rất xuất sắc trong các nhiệm vụ cụ thể.

Nhưng o3 không còn là chuyên gia chỉ có thể đối phó với từng nhiệm vụ đơn lẻ như vậy, mà là chuyên gia có thể thể hiện xuất sắc trên một tập hợp nhiệm vụ hữu ích rộng hơn.

Tuy nhiên, Jim Fan cũng cho biết, o3 vẫn không thể bao quát toàn bộ phân phối nhận thức của con người, chúng ta vẫn đang ở trong nghịch lý của Moravec.

(Nghịch lý Moravec cho rằng, khả năng trí tuệ cao cấp độc đáo của con người chỉ cần rất ít năng lực tính toán (ví dụ như suy luận), nhưng các kỹ năng vô ý thức và trực giác lại cần rất nhiều năng lực tính toán.)

Phát hiện của bên phát động ARC Challenge - o3 thất bại trong một số nhiệm vụ rất đơn giản, dường như chính xác minh chứng quan điểm này.

Cuối cùng, về AGI, Jim Fan cho biết, chúng ta đã đạt được những cột mốc lớn và có lộ trình rõ ràng, nhưng vẫn còn nhiều việc phải làm.

Một điều nữa

Như một phần của việc phát hành trong 12 ngày, cùng với việc công bố o3 vào ngày cuối cùng, OpenAI cũng đã đăng một bài báo về vấn đề an toàn.

Bài báo giới thiệu một phương pháp căn chỉnh gọi là căn chỉnh cẩn trọng (deliberative alignment), trực tiếp truyền đạt các quy tắc an toàn được viết bằng tay, có thể giải thích, cho mô hình suy luận, và huấn luyện họ thực hiện suy luận rõ ràng về các quy tắc này trước khi trả lời.

Kết quả, các mô hình được đào tạo không cần CoT do con người gán hoặc câu trả lời, vẫn có thể tuân thủ chính sách an toàn của OpenAI với độ chính xác cao.

OpenAI phát hiện rằng, o1 vượt trội hơn nhiều so với các mô hình tiên tiến khác như GPT-4o trong một loạt các tiêu chuẩn an toàn nội bộ và bên ngoài, và đạt hiệu suất bão hòa trên nhiều tập dữ liệu thử thách (an toàn).

Phát hiện này cho thấy, suy luận sẽ trở thành một hướng mới để nâng cao tính an toàn của các mô hình.

Tham khảo liên kết:

[1]https://www.wsj.com/tech/ai/openai-gpt5-orion-delays-639e7693?st=ng5hBi

[2]https://x.com/mckbrando/status/1870285050555810198

[3]https://x.com/DrJimFan/status/1870542485023584334[4]https://arcprize.org/blog/oai-o3-pub-breakthrough

Bài viết này đến từ tài khoản công khai WeChat "Lượng tử vị", tác giả: Quan tâm đến công nghệ tiên tiến, 36Kr được ủy quyền đăng tải.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận