GPT-5 chỉ đạt 70 điểm trong bài kiểm tra IQ? Sự thật đằng sau những lời phàn nàn lan rộng trên mạng về "trí thông minh bị suy giảm" của nó là trí thông minh của mô hình được xác định bởi định tuyến của nó. Bí quyết để khai phá sức mạnh thần thánh của GPT-5 nằm ở lời nhắc. Giờ đây, các nhà khoa học y tế đã tái tạo được một khoảnh khắc "thần thánh" với sự trợ giúp của GPT-5.
72 giờ sau khi GPT-5 được phát hành, kết quả bài kiểm tra IQ đã gây chấn động toàn bộ Internet.
Trong bài kiểm tra IQ của Mensa, GPT-5 đạt 118 điểm và 70 điểm trong bài kiểm tra ngoại tuyến; GPT-5 Thinking đạt lần lượt 85 điểm và 57 điểm.
Kết quả này lập kỷ lục thấp nhất trong lịch sử các bài kiểm tra IQ của nhóm mô hình OpenAI.
Trên thực tế, lý do thực sự đằng sau điều này là do vấn đề "định tuyến".
Không phải là GPT-5 quá ngu ngốc, nhưng với tư cách là một "mô hình đơn lẻ", một trong đó quyết định trí thông minh của nó.
Ultraman cũng trả lời những câu hỏi tương tự trong mục AMA trên Reddit.
Ông cho biết đã xảy ra lỗi nội bộ nghiêm trọng (cấp độ Sev) và hệ thống chuyển mạch tự động không thể hoạt động, khiến GPT-5 hoạt động giống như một người có trí thông minh giảm sút.
Trong báo cáo mới nhất của METR, có thể thấy rằng GPT-5 vẫn đang ở ranh giới Pareto và tăng trưởng theo cấp số nhân của trí thông minh vẫn chưa chậm lại.
Nói cách khác, GPT-5 vẫn tiếp tục truyền thuyết về Luật mở rộng.
GPT-5 mạnh mẽ, chìa khóa nằm ở sự nhanh chóng
Những cư dân mạng phàn nàn một cách mù quáng về GPT-5 thực ra chưa khám phá ra tiềm năng của mẫu máy mới nhất này.
Giám đốc trí tuệ nhân tạo của Cline cho biết cốt lõi nằm ở suy nghĩ, sở thích và phong cách giao tiếp của một người.
Đối với người dùng có tư duy hệ thống, GPT-5 là một công cụ mang tính cách mạng. Chỉ cần dành thời gian để xây dựng một khuôn khổ toàn diện và nêu rõ các yêu cầu cho mô hình.
Kết quả là, nó có thể thực hiện chính xác và tự động mà không cần phải hiệu chỉnh thủ công trong suốt quá trình.
Thật trùng hợp, tác giả sách bán chạy nhất của NYT, Mark Manson cũng cho biết mọi người đang giao tiếp với GPT-5 theo cách sai lầm và điều quan trọng là phải chủ động.
Bằng cách này, nó sẽ biết rằng bạn không dễ bị lừa và sẽ đưa ra câu trả lời hoàn hảo.
Ví dụ, bạn muốn hỏi "blueberry" có bao nhiêu chữ b và đe dọa nó bằng cách nói "Nếu mày trả lời sai, mẹ của Bambi sẽ đến tìm mày đấy".
Đến thời điểm này, GPT-5 sẽ không mắc bất kỳ lỗi nào nữa.
Ví dụ, GPT-5 mà cư dân mạng đang tranh cãi thậm chí còn không thể giải được một phương trình đơn giản, và mẹo thực sự nằm ở các gợi ý.
Khi lời nhắc chuyển thành "suy nghĩ kỹ hơn và giải quyết", bạn có thể tìm ra giải pháp đúng.
Những lời nhắc nào được coi là hiệu quả? Một số cư dân mạng đã tiết lộ lời nhắc của hệ thống GPT-5, thứ có thể được gọi là mỏ vàng.
Khoảnh khắc bàn tay Chúa
Trong lĩnh vực y học, GPT-5 đã có thể sánh ngang với các chuyên gia về con người.
Sau khi trải nghiệm GPT-5, nhà khoa học y sinh Derya Unutmaz cảm nhận sâu sắc khoảnh khắc "nước đi thứ 37" của AlphaGo.
Sau đây là những gì đã xảy ra. Hai năm trước, phòng thí nghiệm của Derya đã tiến hành sê-ri các thí nghiệm miễn dịch học tiên tiến nhằm mục đích điều chỉnh quá trình chuyển hóa năng lượng của tế bào T.
Tế bào miễn dịch này có ý nghĩa quan trọng đối với liệu pháp miễn dịch ung thư, bệnh mãn tính và rối loạn tự miễn.
Vào thời điểm đó, họ đã thu được một kết quả đáng kinh ngạc, nhưng có một khám phá mà họ không thể giải thích được.
Đội ngũ đã vật lộn với vấn đề này trong nhiều tuần và chỉ nhận được câu trả lời một phần.
Dựa trên các thí nghiệm này, Derya đã tải các biểu đồ dữ liệu chưa được công bố lên GPT-5 Pro để phân tích và kết quả thật đáng ngạc nhiên.
Chỉ dựa trên một biểu đồ như trên, GPT-5 đã xác định chính xác những phát hiện quan trọng và đưa ra khuyến nghị cho các kế hoạch thử nghiệm.
Điều đáng kinh ngạc nhất là cơ chế mà nó đề xuất cuối cùng đã giải thích được mọi kết quả.
Derya Unutmaz cho biết đây là khoảnh khắc "thần thánh" trong lĩnh vực AI. Quá trình này chứng minh rằng GPT-5 đã trở thành một chuyên gia hàng đầu và một đối tác nghiên cứu khoa học thực thụ, có khả năng cung cấp những hiểu biết sâu sắc.
OpenAI nhắm đến ngai vàng Anthropic với GPT-5
Mặc dù GPT-5 vẫn chưa phải là AGI, nhưng khả năng lập trình mạnh mẽ của nó đã thu hút nhiều nhà phát triển hơn.
Ngoài ra, các tùy chọn cá nhân hóa mới và hiện tượng "ảo giác" giảm đi có thể thu hút nhiều người dùng hàng ngày hơn đến với phiên bản miễn phí của ChatGPT.
Đây chắc chắn là một thách thức đối với Anthropic.
Lý do là vì mô hình AI mạnh mẽ nhất để viết mã thường được công nhận là mô hình Claude của Anthropic.
Do đó, khi OpenAI phát hành mô hình mới, họ đã nhấn mạnh khả năng lập trình mạnh mẽ của GPT-5.
GPT-5 là mô hình lập trình mạnh mẽ nhất của chúng tôi cho đến nay và đặc biệt hiệu quả trong việc tạo ra các giao diện phức tạp và gỡ lỗi cơ sở mã lớn.
Chỉ cần một gợi ý, nó có thể tạo ra các trang web, ứng dụng và trò chơi đẹp mắt, đáp ứng nhanh chóng và trực quan, biến ý tưởng thành hiện thực.
Ý định rất rõ ràng.
Tại buổi họp báo, Altman cho biết mô hình mới không chỉ hiệu quả trong việc lập trình mà còn có thể chuyển đổi các dự án phần mềm từ ý tưởng thành mã có thể sử dụng chỉ trong một bước.
Nhiều chương trình được tạo ra bởi GPT-5
Pietro Schirano, CEO của công ty khởi nghiệp AI MagicPath, gọi GPT-5 là mô hình lập trình tốt nhất hiện có và là "người cộng tác tuyệt vời". Ông nói:
Điều này giống như sự xuất hiện của điện trong mỗi hộ gia đình, một khoảnh khắc thay đổi chưa từng có sẽ hoàn toàn thay đổi cách chúng ta phát triển.
OpenAI đã dành phần lớn thời gian phát trực tiếp kéo dài một giờ để trình bày khả năng lập trình của GPT-5, bao gồm trình bày sê-ri kết quả đánh giá chuẩn.
Cursor, Vercel và JetBrains cùng nhiều công ty khác cũng chia sẻ đánh giá về các thử nghiệm ban đầu của GPT-5.
Michael Truell, CEO của Cursor, sản phẩm "lập trình AI", đã ca ngợi đây là "mô hình mã hóa thông minh nhất từng được sử dụng":
Đội ngũ phát hiện ra rằng GPT-5 không chỉ hoạt động tốt và dễ điều khiển mà còn thể hiện những tính cách độc đáo không thấy ở các mô hình khác.
Nó không chỉ có thể phát hiện các lỗi tinh vi mà còn có thể chạy các tác nhân AI nền dài hạn, nhiều lần để hoàn thành nhiệm vụ phức tạp — nhiệm vụ thường khiến các mô hình khác khó khởi động.
Guillermo Rauch, người sáng lập và giám đốc điều hành của Vercel, cho rằng"GPT-5 là mô hình AI front-end tốt nhất":
Ấn tượng đầu tiên của chúng tôi khi sử dụng nó trên v0.dev là đây là mô hình AI front-end tốt nhất, đạt hiệu suất cao nhất về cả tính thẩm mỹ và chất lượng mã, và thực sự độc đáo.
Nó vượt trội ở điểm giao thoa giữa khoa học máy tính phức tạp và nghệ thuật, đánh dấu bước nhảy vọt từ việc hoàn thành mã đơn giản trong quá khứ đến các ứng dụng đầy đủ trên nhiều thiết bị và màn hình ngày nay.
Kirill Skrygan, CEO của JetBrains, một công ty IDE lớn truyền thống, cho biết "GPT-5 Sự lật đổ lập trình":
GPT-5 là một bước đột phá mang tính cách mạng trong lĩnh vực mã hóa. Là mô hình mặc định, nó cải thiện hiệu suất và chất lượng của Trợ lý AI JetBrains và Junie, tác nhân mã hóa, hơn 1,5 lần.
Trên nền tảng không cần mã mới của chúng tôi, Kineto, GPT-5 đã tăng gấp đôi chất lượng thiết kế, giao diện người dùng và trải nghiệm ứng dụng tổng thể từ đầu đến cuối.
Nhìn lên theo dữ liệu , tăng trưởng doanh thu của Anthropic chủ yếu là nhờ vào khả năng lập trình mạnh mẽ của công ty.
Theo The Information, doanh thu hàng năm của Anthropic đang tiến tới mức 5 tỷ đô la, tăng từ mức 4 tỷ đô la vào đầu tháng này, phản ánh địa vị là lựa chọn hàng đầu của các lập trình viên và ứng dụng mã hóa.
Trong khi đó, doanh thu hàng năm của OpenAI hiện là 12 tỷ đô la, một con số phản ánh việc kinh doanh rộng hơn và quy mô lớn hơn của công ty.
Tương lai là lý luận thông minh
Sau khi phát hành GPT-5, Giám đốc nghiên cứu của OpenAI Mark Chen và Chủ tịch Greg Brockman đã thảo luận về một số điểm nổi bật trong hoạt động R&D của mô hình mới nhất trong một cuộc phỏng vấn gần đây với TBPN.
Mark Chen lần đầu tiên đề cập rằng chìa khóa của đào tạo GPT-5 nằm ở dữ liệu tổng hợp.
Sự thành công của nó có nghĩa là nó đã hoàn toàn vượt qua được những hạn chế của việc cạn kiệt dữ liệu Internet và đạt được phạm vi kiến thức toàn diện hơn trong các lĩnh vực cốt lõi.
Những gì OpenAI đang làm hiện nay là dẫn dắt thế giới vào kỷ nguyên "suy luận giống như tác nhân thông minh" và GPT-5 chính là chìa khóa cho sự chuyển đổi này.
Giảm sự can thiệp của người dùng thông qua các mô hình nhanh hơn và thông minh hơn, cho phép AI tích hợp liền mạch vào mục đích sử dụng hàng ngày và chuyên nghiệp.
Mark nhấn mạnh rằng OpenAI đã nghiên cứu các mô hình suy luận trong nhiều năm, nhưng giao diện trước đây khá vụng về, chẳng hạn như việc chuyển đổi giữa GPT-4 và o1.
Ngày nay, GPT-5 đã đạt được sự tích hợp liền mạch thông qua tối ưu hóa tốc độ, do đó người dùng không phải chờ đợi quá trình suy luận dài.
Ông đã đưa ra một ví dụ chi tiết, trích dẫn các mô hình trước đây như O1, vốn cung cấp câu trả lời tốt hơn cho mọi nhiệm vụ nhưng lại quá chậm. GPT-5 kết hợp cả khả năng suy luận và phi suy luận, trở thành một "cửa hàng trọn gói".
Đặc biệt, những đóng góp của đội ngũ đào tạo sau đại học đã biến mô hình này trở thành một "quái vật" trong các lĩnh vực như lập trình.
Khi được hỏi về cách đặt tên cho các mô hình, Mark cười và nói rằng cách đặt tên theo số này thật "điên rồ", nhưng nó thực sự hiệu quả.
Ông cho biết khả năng cộng tác sáng tạo và kỹ thuật phần mềm của GPT-5 vượt qua GPT-4.5, đồng thời nhanh hơn và rẻ hơn.
GPT-5 giống như việc cung cấp cho ChatGPT một máy tính, được trang bị Python REPL và trình duyệt. Mô hình có thể học các công cụ mới với phương pháp học không cần chỉnh sửa, giống như cách con người trải nghiệm một công cụ mới.
Trong một số nhiệm vụ đòi hỏi sự sáng tạo, GPT-5 có thể mang đến những giải pháp bất ngờ. Bước tiếp theo là nâng cao năng lực LLM lên tầm khuôn khổ lý thuyết, đề xuất các giả thuyết mới và hỗ trợ đổi mới khoa học.
Nhiều dây chuyền song song, giao hàng bất cứ lúc nào
Trong OpenAI, đội ngũ hoạt động theo nhiều khung thời gian khác nhau: từ khám phá ý tưởng đến chuyển dịch cho đến phát hành mô hình hàng đầu.
Đây không chỉ là bước đột phá trong một công nghệ duy nhất mà là sự tiến bộ trên nhiều trục.
Mark mô tả đây là quy trình "khám phá và thực hiện", nhấn mạnh khả năng lặp lại mô hình một cách nhanh chóng của công ty.
Chúng tôi cho cây không gian để phát triển và khi cây đã sẵn sàng, chúng tôi sẽ vận chuyển trực tiếp.
Hiện tại, mô hình OpenAI tập trung vào việc tối ưu hóa thuật toán, đồng thời tiếp thu kết quả cải tiến về phần cứng và kiến trúc suy luận, đồng thời tận dụng kinh nghiệm của cộng đồng mã nguồn mở trong việc tăng tốc suy luận.
Cuối cùng, ông cũng đề cập rằng ChatGPT đã xử lý khoảng 71% các truy vấn mô hình lớn trên toàn thế giới và cung cấp thông tin chi tiết dữ liệu sử dụng độc đáo.
Mark cho biết lý do không chỉ dựa vào dữ liệu DUA hoặc lượt thích là để tránh thiên kiến "phục vụ", mà là để khám phá các tín hiệu hành vi ngầm định nhằm hướng dẫn cải thiện mô hình.
GPT-5 đã là AI "tự lặp lại"
Greg Brockman đã trải nghiệm mọi bản phát hành từ GPT-1 đến GPT-5 và tóm tắt cảm nhận của mình về từng phiên bản:
- GPT-1: Sử dụng dữ liệu công khai để đào tạo Transformer chứng minh rằng "đào tạo trước là hữu ích".
- GPT-2: Lần tôi nghĩ "những thứ được tạo ra khá thú vị" và có cả những câu chuyện về kỳ lân.
- GPT-3: Vừa vượt qua ngưỡng "có người muốn sử dụng", nhưng độ tin cậy của nó còn kém.
- GPT-4: Có khả năng sử dụng trong thế giới thực và hiện có thể viết mã và trả lời các câu hỏi về sức khỏe.
- GPT-5: Đặt ra các tiêu chuẩn mới về độ tin cậy, tính thực tiễn và khả năng mã hóa, và kỹ thuật phần mềm sẽ được chuyển đổi hoàn toàn.
Vào cuối năm 2019, GPT-3 ra mắt và OpenAI nhận ra rằng họ phải xây dựng một sản phẩm để tiếp tục thúc đẩy sứ mệnh của mình và gây quỹ.
Họ quyết định tạo ra một API và để những người khác tự khám phá cách sử dụng của nó.
Vào đầu năm 2020, đội ngũ của Greg Brockman đã chạy khắp nơi để tìm kiếm những khách hàng sẵn sàng dùng thử API.
OpenAI không đưa API của mình ra thị trường cho đến giữa năm 2020 và ChatGPT không được phát hành cho đến tháng 11 năm 2022.
Vào thời điểm đó, OpenAI đã cân nhắc gọi ChatGPT là "Trò chuyện với GPT-3.5". ChatGPT cũng có một phiên bản tiền nhiệm là WebGPT, cũng dựa trên GPT-3.5. Trong suốt năm 2022, OpenAI về cơ bản đã trả tiền cho người dùng để sử dụng phiên bản tiền nhiệm của ChatGPT: người dùng không trả tiền cho OpenAI; OpenAI trả tiền cho họ để sử dụng nó.
Khi nào bạn nhận ra ChatGPT sẽ bùng nổ?
Đối với Greg Brockman, khoảnh khắc thực sự khiến anh xúc động là khi anh hoàn thành khóa đào tạo GPT-4.
Vào ngày 8 tháng 8 năm 2022, OpenAI đã hoàn thành giai đoạn hậu huấn luyện ban đầu cho GPT-4. Mặc dù còn nhiều lỗi, nhưng sự sáng tạo thì thật tuyệt vời và thực sự thú vị.
OpenAI mất khoảng một năm rưỡi để nâng cao khả năng viết sáng tạo của mô hình lên ngang bằng với phiên bản lỗi ban đầu.
Vào thời điểm đó, OpenAI nhận ra rằng mô hình này không chỉ có thể được huấn luyện cho một nhiệm vụ cụ thể mà còn có thể khái quát hóa và thể hiện hành vi thông minh, mặc dù nó chưa được huấn luyện trực tiếp cho nhiệm vụ đó. Đây rõ ràng là một ứng dụng đột phá.
Do đó, kế hoạch phát hành GPT-4 API ban đầu đã bị hoãn lại và ChatGPT được phát triển trước và ra mắt tháng 11 năm 2022.
Nhìn lại, GPT-3.5 thực chất là một "mô hình hữu ích" mà xã hội chưa từng thấy trước đây, nhưng trong mắt OpenAI, nó lại đầy rẫy những thiếu sót.
GPT-3.5 đã tạo nên một cuộc cách mạng trong mô hình kinh doanh của OpenAI: sự chuyển đổi cơ bản từ "trả tiền cho mọi người để thử nghiệm" sang "đăng ký do người dùng khởi tạo".
Ben Thompson gọi OpenAI là "một công ty vô tình được sinh ra để phục vụ người tiêu dùng": ChatGPT đã có hơn một triệu người dùng trong vòng 72 giờ kể từ khi phát hành, tạo ra nhu cầu cực lớn.
Nhiều người sau đó nói rằng OpenAI muốn chứng minh rằng "Khả năng mở rộng" chính là chìa khóa cho sự tiến bộ của AI ngay từ đầu, nhưng thực tế thì ngược lại: Khả năng mở rộng là giải pháp duy nhất hiệu quả sau khi họ thử nhiều phương pháp không hiệu quả.
Hiện nay, OpenAI đang chứng kiến các mô hình AI giúp tạo ra thế hệ mô hình tiếp theo và giám sát các nhiệm vụ quá phức tạp đối với con người.
Greg Brockman cho biết: Chúng ta không nên cố tình tối ưu hóa CoT (Chuỗi suy nghĩ) vì mục đích thẩm mỹ, cũng không nên ép buộc mô hình phải ẩn đi quá trình suy luận của nó, mà nên để chúng tự do thể hiện "ý tưởng" của mình.
Greg Brockman đã từng đề cập rằng khi khả năng của mô hình được cải thiện, chúng không chỉ có thể hoàn thành nhiệm vụ đơn giản mà còn có thể xử lý một số nhiệm vụ phức tạp mà con người khó có thể kiểm soát.
Khái niệm "giám sát mở rộng" này được đề xuất để giải quyết thách thức này: sử dụng các mô hình AI mạnh mẽ để cung cấp phản hồi và giám sát đáng tin cậy cho nhiệm vụ phức tạp, hoặc hỗ trợ các chuyên gia thông qua "mô hình phê bình" để việc giám sát trở nên dễ dàng hơn. Điều này đảm bảo rằng ngay cả khi các hệ thống AI trở nên thông minh và phức tạp hơn, chúng vẫn có thể phù hợp với các giá trị của con người và được quản lý an toàn.
Tham khảo:
https://www.axios.com/2025/08/08/openai-aims-gpt-5-at-anthropics-coding-crown
https://x.com/thealexbanks/status/1953867094648385990
https://x.com/slow_developer/status/1954097563981812149
https://x.com/tbpn/status/1954249389796651184
https://www.youtube.com/watch?v=gaImbWPGgtU
Bài viết này trích từ tài khoản công khai WeChat "Xinzhiyuan" , tác giả: KingHZ Taozi và được 36Kr cấp phép xuất bản.