Danh tính thực sự của GPT-5 được tiết lộ, bài kiểm tra lập trình đầu tiên làm chấn động internet, trò chơi được tạo ra trong vài giây chỉ bằng một câu, hai nhà lãnh đạo của OpenAI chuẩn bị cho AGI

avatar
36kr
08-01
Bài viết này được dịch máy
Xem bản gốc

GPT-5 thậm chí còn gần hơn nữa! Hôm nay, mô hình bí ẩn Horizon Alpha đã trở nên nổi tiếng, với bài kiểm tra mã hóa đầu tiên cho thấy hiệu suất đáng kinh ngạc và nhiều bài đánh giá benchmark của bên thứ ba đã được công bố. Ngay trước khi ra mắt, một thành viên cốt cán của OpenAI đã thừa nhận trong một cuộc phỏng vấn rằng mô hình này vẫn còn nhiều hạn chế, nhưng vẫn tự tin rằng quy luật mở rộng quy mô vẫn chưa có hồi kết.

Dấu hiệu phát hành GPT-5 đang ngày càng rõ ràng hơn.

Sáng nay, một mô hình bí ẩn mang tên Horizon Alpha bất ngờ được ra mắt OpenRouter và nhiều biểu đồ cùng bài kiểm tra đã được thực hiện trên toàn bộ mạng lưới.

Mô hình Horizon Alpha có ngữ cảnh 256K, phản hồi cực kỳ nhanh và rất tốt cho việc viết sáng tạo.

Nó cũng có khả năng "suy luận", nhưng ngân sách cho mã thông báo suy luận gấp đôi so với o4-mini.

Khi nói đến lập trình, Horizon Alpha là vô song.

Nó có thể tạo ra nhiều trò chơi khác nhau như "Fruit Ninja" và "Alien Catches Cow" trong một câu, có thể trực tiếp xuất quảng cáo dựa trên hình ảnh logo và có thể dễ dàng vượt qua bài kiểm tra "mô phỏng vật lý lục giác".

Trong bài kiểm tra chuẩn EQ-Bench về khả năng viết, Horizon Alpha xếp hạng nhất, vượt xa o3 và Gemini 2.5 Pro.

Điều thậm chí còn tuyệt vời hơn nữa là nó có thể hoàn thành phép nhân 20 chữ số trong vòng 30 giây.

Nhiều mô hình có tên mã khác nhau đã bị rò rỉ trước đó, chẳng hạn như Lobster, Zenith, Summit, v.v., đã khiến mọi người kinh ngạc trong nhiều lần thử nghiệm.

Mọi dấu hiệu đều cho thấy "gầu gia đình" GPT-5 chắc chắn là mẫu máy tính mạnh nhất hành tinh.

Google đã bao gồm trang tài liệu OpenAI cho GPT-5, hiện tại là 404

Thông tin chi tiết hơn về Horizon Alpha đều tập trung trong các bài kiểm tra thực tế của cư dân mạng.

Horizon Alpha bí ẩn ra mắt, tự hào với chương trình đáng kinh ngạc

Hiện tại, Phiên bản alpha có thể được bắt đầu thử nghiệm trên nền tảng OpenRouter.

Cổng thông tin: https://openrouter.ai/chat?room=orc-1754007231-sX8GtgCUyNkHh6O6In2l

Trong quá trình suy luận mô hình, Horizon Alpha có thông lượng nhanh nhất, đạt 120 mã thông báo/giây, so với Claude Sonnet 4 (60-80 mã thông báo/giây).

Trong bài kiểm tra so sánh thông lượng, Horizon Alpha hiện là giải pháp nhanh nhất.

Mô phỏng vật lý tuyệt đẹp, xây dựng trang web chỉ trong vài giây

Một số cư dân mạng yêu cầu tạo ra một màn hình nền Windows 95 cổ điển đầy đủ chức năng. Hiệu quả thật bất ngờ và tốc độ tạo ra cực kỳ nhanh.

Một bài kiểm tra khác mô phỏng vật lý bằng cách đặt một quả bóng bên trong một đa giác.

Cho dù là hình lục giác hay hình tam giác, ngay cả khi phạm vi di chuyển của quả bóng bị thu hẹp thì hiệu ứng cũng không bị ảnh hưởng.

Một phiên bản khó hơn bao gồm 20 quả bóng nảy bên trong một hình bảy cạnh xoay tròn. Cư dân mạng đã vô cùng kinh ngạc và thốt lên: "Đây là một trong những phiên bản hay nhất tôi từng thấy."

Horizon Alpha có thể tạo một trang web hiển thị sê-ri trò chơi đơn giản và thú vị trên trình duyệt trong 3 phút 48 giây.

Lời nhắc tương tự cũng được đưa ra cho Horizon Alpha: “Tạo một trình đổ bóng trực quan thú vị có thể chạy trong ứng dụng twigl để làm cho nó trông giống như một đại dương đầy bão tố.”

Giáo sư Ethan Mollick của trường Wharton CS rất ngạc nhiên khi đây là sản phẩm tốt nhất từ trước đến nay và được tạo ra rất nhanh chóng.

Khi cư dân mạng yêu cầu "tạo một trang web kinh doanh liên quan đến việc dắt chó đi dạo", Horizon Alpha đã đặt ra rất nhiều câu hỏi cần được xác nhận trước; Sonnet 4 sẽ trực tiếp cung cấp giải pháp.

Bên trái: Horizon Alpha; Bên phải: Claude Sonnet 4

Cuối cùng, xét theo kết quả xây dựng, đầu ra của Horizon Alpha có chất lượng cao và súc tích, trong khi đầu ra của Sonnet 4 dài hơn, toàn diện hơn và sáng tạo hơn.

Trên: Horizon Alpha; Dưới: Claude Sonnet 4

Horizon Alpha cũng sẽ xây dựng trang web ngân hàng riêng.

Thiết kế tuyệt vời và thẩm mỹ

Chuyên gia AI Matthew Berman đã đích thân thử nghiệm chức năng tạo SVG và thiết kế UI, và Horizon Alpha ngay lập tức tạo ra một hình ảnh được thiết kế chuyên nghiệp và đẹp mắt.

Trước đó, Simon Willison, một nhân vật lớn trong lĩnh vực AI, đã nói rằng lịch sử tiến hóa của AI có thể được nhìn thấy từ bức tranh "một con bồ nông đang đạp xe".

Hiện tại, thử nghiệm SVG do Horizon Alpha tạo ra là thử nghiệm mạnh nhất trong số tất cả các mô hình.

Một số ví dụ SVG tuyệt vời khác.

Cần lưu ý rằng mặc dù hiệu suất trong nhiều bài kiểm tra là phi thường, nhưng theo bên long suy đoán, Horizon Alpha có thể chỉ là một mô hình nhỏ.

Bất kể là GPT-5 nào, bước tiếp theo là chờ OpenAI phát hành.

Phỏng vấn "Hai anh hùng" của OpenAI, Ultraman khen ngợi

Ngay trước khi phát hành GPT-5, hai anh hùng của OpenAI - Nhà khoa học trưởng Jakub Pachocki và Giám đốc nghiên cứu Mark Chen - đã phát hành các cuộc phỏng vấn quan trọng cùng lúc.

Cặp đôi vàng này chính là "hai gã khổng lồ" đã phát triển GPT-5.

Cuộc phỏng vấn độc quyền do MIT Technology Review thực hiện đã bất ngờ chiếm được trái tim của Ultraman.

Ông đánh giá rất cao bài viết này và nói rằng: "Tôi thường cho rằng những bài viết như thế này không đề cập đến vấn đề chính, nhưng bài viết này thực sự nắm bắt được bản chất của sự hợp tác giữa họ."

Được Ultraman công nhận thực sự có ý nghĩa gì?

Đối tác tốt nhất của OpenAI

Bất kỳ ai quen thuộc với những thay đổi về nhân sự nội bộ của OpenAI đều biết rằng Jakub Pachocki và Mark Chen đều là những ngôi sao đang lên.

Phong cách của họ rất khác nhau nhưng lại bổ sung cho nhau một cách hoàn hảo.

Mark Chen, cựu người giao dịch định lượng trên Phố Wall, ăn mặc bảnh bao và nói năng lưu loát, điều này có thể nói là không liên quan gì đến AI.

Sau khi gia nhập OpenAI, ông nhanh chóng trở thành động lực chính thúc đẩy các khả năng đa phương thức của DALL·E và GPT-4 cũng như Codex, và rất giỏi trong việc chuyển đổi các nghiên cứu phức tạp thành các sản phẩm mà mọi người đều có thể sử dụng.

Jakub Pachocki, một nhà khoa học máy tính lý thuyết kín tiếng đã kế nhiệm Ilya sau khi ông rời đi, luôn ám ảnh với việc mở rộng giới hạn của logic và khả năng sáng tạo của AI.

Về việc phân chia nhân vật nội bộ, Pachocki cho biết, "Chen chịu trách nhiệm xây dựng và quản lý đội ngũ nghiên cứu, trong khi tôi chịu trách nhiệm thiết lập lộ trình nghiên cứu và xây dựng viễn cảnh mong đợi kỹ thuật dài hạn của chúng tôi."

Chế độ hợp tác giữa chúng có thể được coi là "chuyển đổi liền mạch".

Bất kể vấn đề kỹ thuật có phức tạp đến đâu, Pachocki và Mark luôn làm việc cùng nhau một cách ăn ý để nhanh chóng giải quyết.

Thang đo AGI, thời gian tự động

Hiện tại, kỳ vọng của thế giới bên ngoài đối với GPT-5 là nó sẽ là một quái vật mạnh hơn, nhanh hơn và linh hoạt hơn.

Trong cuộc phỏng vấn, mặc dù Mark Chen không trực tiếp đề cập đến vấn đề GPT-5, ông thừa nhận rằng "chúng tôi luôn cố gắng tìm hiểu những điểm nghẽn kỹ thuật của học độ sâu. Ngay cả mô hình suy luận mạnh mẽ nhất hiện nay cũng không thể kết nối kiến thức một cách hiệu quả."

Pachocki nói thêm, “Chúng ta vẫn đang ở giai đoạn đầu của mô hình lý luận.”

Điều quan trọng là làm thế nào để cho phép mô hình thực hiện quá trình học tập và khám phá lâu dài và đưa ra những ý tưởng mới.

Đồng thời, theo quan điểm của họ, Luật mở rộng quy mô vẫn chưa đạt đến giới hạn và bằng cách đầu tư thêm tài nguyên tính toán và dữ liệu, mô hình sẽ ngày càng tốt hơn.

Khi được hỏi về cách ứng xử AGI, Mark Chen đã đề xuất một chỉ báo- khả năng hoạt động tự động của mô hình trong thời gian dài hơn, cụ thể là "thời gian tự động".

Khái niệm này tuy đơn giản nhưng lại sâu sắc. Nó thể hiện khoảng thời gian mà AI có thể tiếp tục tiến bộ trong việc đối diện các vấn đề phức tạp mà không cần sự can thiệp của con người.

Viễn cảnh mong đợi này vượt xa khả năng của các mô hình hiện tại, vốn chỉ có khả năng tự chủ trong vài phút đến một giờ và thường bị kẹt khi gặp phải các tình huống không quen thuộc.

Toán học + Lập trình, Chén Thánh của AI?

Cách đây một thời gian, các mô hình OpenAI đã đạt được kết quả tốt trong hai cuộc thi hàng đầu:

Đầu tiên, anh giành giải nhì tại Chung kết AtCoder World Tour. Thứ hai, anh giành huy chương vàng tại cuộc thi IMO 2025.

Trong cuộc thi AtCoder, chiến thắng của Psyho đã chứng minh tư duy sáng tạo độc đáo của con người, tương tự như khi AlphaGo đánh bại Lee Sedol trong trò chơi cờ vây.

Pachocki cho biết: “Chúng ta đang nói về lập trình và toán học, nhưng thực chất là về sự sáng tạo, đưa ra những ý tưởng mới lạ, kết nối các ý tưởng từ nhiều lĩnh vực khác nhau”.

Theo quan điểm của họ, toán học và lập trình là nền tảng của "trí thông minh chung".

Tham khảo:

https://x.com/karminski3/status/1950987896565182587 https://x.com/chetaslua/status/1950784759799718161

https://www.technologyreview.com/2025/07/31/1120885/the-two-people-shaping-the-future-of-openais-research/

Bài viết này được trích từ tài khoản công khai WeChat "Xinzhiyuan" , tác giả: Xinzhiyuan và được 36Kr cho phép xuất bản.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận