GPT-5 giành chiến thắng trong cuộc thi hàng đầu thế giới, làm nên lịch sử. Con người về nhì, và đội ngũ Đại học Giao thông Bắc Kinh giành giải nhất tại Trung Quốc.

Bài viết này được dịch máy
Xem bản gốc

Theo Zhidongxi đưa tin vào sáng sớm ngày 18 tháng 9, OpenAI và Google đã công bố rằng các mô hình của họ đã đạt được hiệu suất đạt huy chương vàng trong trận chung kết cuộc thi lập trình có tiếng thế giới ICPC 2025 (Cuộc thi lập trình sinh viên quốc tế lần thứ 49).

Hệ thống suy luận OpenAI đã trả lời đúng tất cả 12 câu hỏi và trả lời đúng 11 câu hỏi cùng một lúc. Nó đã thành công trong việc giải quyết câu hỏi khó nhất sau 9 lần gửi câu hỏi, xếp hạng nhất so với đội ngũ con người ; phiên bản nâng cao của Gemini 2.5 Deep Think đã giải quyết 10 câu hỏi trong 677 phút, xếp hạng thứ hai so với đội ngũ con người .

Nếu AI được đưa vào bảng xếp hạng chung của ICPC, ba vị trí đứng đầu phải là hệ thống suy luận OpenAI, Đại học bang St. Petersburg và Google Gemini 2.5 Deep Think phiên bản nâng cao .

ICPC yêu cầu thí sinh giải 12 bài toán thuật toán phức tạp trong vòng 5 giờ. Độ hoàn thiện của lời giải và thời gian giải quyết sẽ ảnh hưởng đến điểm số.

Cuối cùng, bốn đội đứng đầu trong số 139 đội đã giành huy chương vàng, đó là Đại học Quốc gia Saint Petersburg, Đại học Tokyo, Đại học Giao thông Bắc Kinh và Đại học Thanh Hoa . Đại học Quốc gia Saint Petersburg đã giải được nhiều câu hỏi nhất, tổng cộng 11 câu.

Đội ngũ con người giành huy chương vàng ICPC

Đây là lần thứ hai hệ thống suy luận của OpenAI và Gemini 2.5 Deep Think của Google chứng tỏ sức mạnh của mình trong một cuộc thi quốc tế hàng đầu, sau chiến thắng tại Kỳ thi Olympic Toán học quốc tế (IMO) hai tháng trước.

Mã nguồn cho phiên bản nâng cao Gemini 2.5 Deep Think của Google tham gia vòng chung kết ICPC đã được mã nguồn mở trên GitHub.

Địa chỉ GitHub:

https://github.com/google-deepmind/gemini_icpc2025

01.

OpenAI đạt điểm tuyệt đối

Google đã sai hai điều

ICPC được công nhận trên toàn thế giới là cuộc thi lập trình thuật toán cấp đại học lịch sử, lớn nhất và uy tín nhất. Hàng năm, thí sinh từ gần 3.000 trường đại học và hơn 103 quốc gia tranh tài để giải quyết các bài toán lập trình thực tế.

Cả OpenAI và Google đều tham gia và đạt hiệu suất vàng. Hệ thống suy luận của OpenAI đã trả lời được 12 câu hỏi, phiên bản nâng cao Gemini 2.5 Deep Think của Google đã trả lời được 10 câu hỏi, và đội ngũ con người xuất sắc nhất đã trả lời được 11 câu hỏi .

1. OpenAI: Đạt điểm tuyệt đối, trả lời đúng cả 11 câu hỏi ngay lần thử đầu tiên

Hệ thống suy luận của OpenAI nhận được điểm hoàn hảo.

OpenAI cho biết họ không đào tạo một mô hình cụ thể cho ICPC và họ đã sử dụng kết hợp các mô hình lý luận chung để tham gia cuộc thi.

Trong suốt cuộc thi, GPT-5 và một mô hình lý luận thực nghiệm đã phối hợp để đưa ra các giải pháp, trong đó mô hình lý luận thực nghiệm chịu trách nhiệm lựa chọn các giải pháp được gửi đến. Cuối cùng, GPT-5 đã trả lời đúng 11 câu hỏi, và câu hỏi cuối cùng và khó nhất đã được mô hình lý luận thực nghiệm giải quyết.

Mô hình này đã trả lời đúng 11 câu hỏi cùng một lúc , trong đó câu hỏi khó nhất đã được trả lời thành công ở lần nộp lần.

2. Google: Trả lời đúng 10 câu hỏi, giải quyết 8 câu hỏi trong 45 phút

Gemini 2.5, phiên bản nâng cao của Deep Think, đã thi đấu trực tiếp trong hoàn cảnh trực tuyến từ xa theo quy định của ICPC, bắt đầu sau 10 phút so với các thí sinh. Gemini đã giải được 10 trong số 12 bài toán trong 677 phút, trong đó tám trong đó mất 45 phút và hai bài mất ba giờ.

Hình bên dưới hiển thị thời gian giải từng bài toán trong Vòng chung kết ICPC 2025. Thời gian Gemini được hiển thị màu xanh lam, và thời gian nhanh nhất đội ngũ đại học được hiển thị màu xám.

Geminiđã vượt qua con người trong việc giải quyết cả ba vấn đề .

Thời gian giải quyết từng bài toán trong kỳ thi chung kết ICPC

Ngoài ra, Google DeepMind còn đề cập đến một bài toán khó mà tất cả đội ngũ của con người đều gặp phải, đã được Gemini giải quyết thành công chỉ trong nửa giờ.

Bài toán C yêu cầu đội ngũ thiết kế một giải pháp để đưa chất lỏng vào một hệ thống bồn chứa thông qua một mạng lưới các đường ống được kết nối với nhau. Mục tiêu là tìm ra cấu hình đường ống sao cho có thể đổ đầy tất cả các bồn chứa càng nhanh càng tốt.

Có vô số cấu hình có thể có cho vấn đề này, vì mỗi đường ống có thể mở, đóng hoặc thậm chí mở một phần, khiến việc tìm ra cấu hình tối ưu trở nên cực kỳ khó khăn.

Giới thiệu về Bài toán C

Gemini đã tìm ra một giải pháp hiệu quả: đầu tiên nó giả định rằng mỗi hồ chứa đều có một "giá trị ưu tiên" biểu thị mức độ ưu tiên mà mỗi hồ chứa nhận được so với các hồ chứa khác.

Khi đưa ra một tập hợp các giá trị ưu tiên, thuật toán lập trình động có thể được sử dụng để tìm cấu hình tối ưu của đường ống.

Gemini phát hiện ra rằng bằng cách áp dụng Định lý Minimax, bài toán ban đầu có thể được chuyển thành việc tìm giá trị ưu tiên có thể tối đa hóa ràng buộc trên luồng cuối cùng.

Bằng cách tận dụng mối tương quan giữa các giá trị ưu tiên và lưu lượng tối ưu, Gemini đã nhanh chóng tìm ra giá trị ưu tiên tối ưu thông qua các tìm kiếm tam phân lồng nhau trong không gian giải pháp lồi hình bát, cuối cùng giải quyết được bài toán C.

Người dùng Gemini hiện đang đăng ký Google AI Ultra có thể sử dụng phiên bản nhẹ hơn của Gemini 2.5 Deep Think trong Ứng dụng Gemini .

02.

Cấp độ huy chương vàng ICPC

Thể hiện khả năng suy luận trừu tượng của các mô hình lớn

Blog của Google DeepMind đề cập rằng hiệu suất của Gemini được hưởng lợi từ những cải tiến công nghệ trong quá trình đào tạo trước, đào tạo sau, công nghệ học tăng cường, suy luận nhiều bước và tư duy song song .

Ví dụ, bằng cách sử dụng học tăng cường, các nhà nghiên cứu đã huấn luyện Gemini suy luận và tạo mã cho một số vấn đề khó khăn nhất mà lập trình viên gặp phải, học hỏi từ phản hồi thu được và cải thiện phương pháp. Để giải quyết một vấn đề, nhiều tác nhân Gemini sẽ đề xuất giải pháp riêng, thực thi mã và kiểm tra bằng thiết bị đầu cuối, sau đó lặp lại giải pháp dựa trên tất cả các lần thử.

Nghiên cứu nội bộ của Google DeepMind cho thấy phiên bản nâng cao của Gemini 2.5 Deep Think cũng có thể đạt hiệu suất đạt huy chương vàng tại Vòng chung kết ICPC thế giới năm 2023 và 2024, không kém gì 20 nhà phát triển cạnh tranh hàng đầu thế giới .

Việc đạt được kết quả huy chương vàng tại ICPC có ý nghĩa thực tiễn trực tiếp đối với phát triển phần mềm. Việc kết hợp các giải pháp AI và con người tốt nhất từ ​​cuộc thi đã giúp giải quyết toàn bộ 12 bài toán một cách triệt để và chính xác. Điều này chứng minh tiềm năng của AI trong việc cung cấp những hiểu biết độc đáo, bổ trợ cho các chuyên gia con người.

Ngoài toán học và lập trình, Gemini 2.5 Deep Think Advanced Edition còn thể hiện khả năng suy luận trừu tượng .

Bởi vì các vấn đề ICPC đòi hỏi các mô hình phải hiểu được các vấn đề phức tạp, thiết kế các kế hoạch logic nhiều bước và thực hiện chúng một cách hoàn hảo—những kỹ năng tương tự được yêu cầu trong nhiều lĩnh vực khoa học và kỹ thuật, bao gồm thiết kế thuốc hoặc vi mạch mới.

Các nhà nghiên cứu OpenAI đã đăng trên X rằng họ đã sử dụng cùng một bộ mô hình để tham gia cuộc thi IMO và IOI, chứng minh hiệu suất và tính linh hoạt của mô hình.

03.

Kết luận: Các mô hình lớn rất phức tạp

Cải thiện kỹ năng giải quyết vấn đề trừu tượng

Từ Kỳ thi Olympic Toán học Quốc tế (IMO) đến cuộc thi lập trình lần, OpenAI và các mô hình của Google đã chứng minh tiềm năng to lớn trong việc giải quyết các bài toán và lập luận ngày càng khó khăn. Tiến sĩ Bill Poucher, Giám đốc Điều hành ICPC, tuyên bố rằng ICPC cam kết thiết lập các tiêu chuẩn cao nhất trong giải quyết vấn đề, và những thành tựu của Gemini trong lĩnh vực này đánh dấu một thời điểm then chốt trong việc xác định các công cụ và tiêu chuẩn học thuật cần thiết cho thế hệ AI tiếp theo.

Những đột phá này trong lập trình cạnh tranh và lập luận toán học chứng minh rằng các mô hình lớn có thể đạt được bước nhảy vọt về hiệu suất trong việc giải quyết các vấn đề lập luận trừu tượng và có thể kết hợp với các chuyên gia để giải quyết các vấn đề phức tạp hơn.

Bài viết này được trích từ tài khoản WeChat công khai "Zhidongxi" (ID: zhidxcom) , tác giả: Cheng Qian, biên tập: Li Shuiqing và được 36Kr cấp phép xuất bản.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận