AI tranh huy chương vàng Human Olympiad, mô hình toán học DeepMind giải đúng 25 câu hình học IMO, GPT-4 thất bại thảm hại, bị 0 điểm

01-18

Bài viết này được dịch máy

Xem bản gốc

[Giới thiệu] Hôm nay, mô hình AlphaGeometry của Google DeepMind đã được xuất bản trên tạp chí Nature! Nó có thể giải được 25 trong số 30 bài toán hình học IMO, gần bằng trình độ của những vận động viên giành huy chương vàng của con người! Đối với GPT-4, tôi không giải được dù chỉ một câu hỏi và thất bại trực tiếp.

Tác nhân AI của Google DeepMind lại phá kỷ lục!

Hệ thống AI có tên AlphaGeometry này có thể giải được 25 trong số 30 bài toán hình học trong kỳ thi Olympic Toán học Quốc tế (IMO), thành tích này đã gần bằng thành tích của những vận động viên đoạt huy chương vàng Olympic Toán học của con người.

Kể từ đó, khả năng suy luận của AI trong lĩnh vực toán học một lần nữa đạt được nâng cấp hoành tráng, vượt qua mức cao nhất trước đó.

Nghiên cứu này đã được công bố trên tạp chí Nature.

Địa chỉ giấy: https://www.nature.com/articles/s41586-023-06747-5

Câu hỏi hình học thi đấu IMO sau đây từng khiến rất nhiều thí sinh bối rối, nhưng giờ đây, AI đã có thể giải được!

Điều đặc biệt hơn nữa là mô hình này được huấn luyện trên dữ liệu tổng hợp chứ không phải dữ liệu thực thường được sử dụng.

Quá trình huấn luyện như sau: Đầu tiên, hàng tỷ hình học ngẫu nhiên được tạo ra ban đầu và tất cả các mối quan hệ giữa các điểm và đường trong mỗi hình đều được phân tích toàn diện.

Sau đó, AlphaGeometry sẽ tìm tất cả các bằng chứng trong mỗi hình và làm ngược lại để tìm ra những yếu tố hình học bổ sung nào (nếu có) đã được thêm vào để có được những bằng chứng đó.

Bằng cách này, AlphaGeometry kết hợp các ưu điểm của mô hình ngôn ngữ thần kinh và công cụ suy luận biểu tượng để tạo thành một hệ thống biểu tượng thần kinh.

Một trong hai hệ thống cung cấp những ý tưởng nhanh chóng, trực quan, trong khi hệ thống còn lại chịu trách nhiệm đưa ra quyết định cẩn thận và hợp lý hơn. Một giả thuyết táo bạo, xác minh cẩn thận, cải tiến liên tục kế hoạch và chứng minh các định lý hình học phức tạp.

Ý tưởng về dữ liệu tổng hợp cũng cung cấp một giải pháp mới cho vấn đề không đủ tập dữ liệu của các mô hình lớn.

Cư dân mạng thốt lên: Đây đơn giản là đang làm nên lịch sử!

Noam Brown, nhà khoa học nghiên cứu tại OpenAI và là cha đẻ của AI poker, cho biết: "Xin chúc mừng đội ngũ Google DeepMind đã đạt được kết quả này! Thật thú vị khi thấy AI đạt được những tiến bộ vượt bậc như vậy trong toán học nâng cao".

Thử nghiệm thực tế

Không dài dòng nữa, hãy đi thẳng vào câu hỏi thực sự.

Biết rằng trong tam giác cân ABC, độ dài các cạnh AB và AC bằng nhau. Chứng minh: ∠ABC = ∠BCA.

Các góc đáy của một tam giác cân đều bằng nhau, đây là lẽ thường mà bất cứ ai đã học toán trung học cơ sở (Định lý cân 1) đều biết, nhưng làm thế nào để chứng minh điều đó?

Những gì AlphaGeometry làm là khởi động một tìm kiếm bằng chứng bằng cách chạy một công cụ lý luận mang tính biểu tượng.

Công cụ này sẽ không mệt mỏi rút ra các phát biểu mới từ các tiền đề định lý cho đến khi định lý được chứng minh hoặc các phát biểu mới đã cạn kiệt.

Nhưng nếu công cụ biểu tượng không thể tìm thấy bằng chứng, mô hình ngôn ngữ sẽ xây dựng một điểm phụ giúp tăng trạng thái bằng chứng trước khi công cụ biểu tượng thử lại.

Chu kỳ này tiếp tục cho đến khi tìm được giải pháp.

Ví dụ: sau cấu trúc phụ trợ đầu tiên "D là trung điểm của BC", vòng lặp sẽ kết thúc.

Sau đó, quá trình chứng minh bắt đầu, bao gồm hai bước khác, cả hai đều tận dụng các tính chất của điểm giữa: "BD = DC" và "B, D và C thẳng hàng".

Sau đó, chu trình tiếp tục cho đến khi chứng minh được rằng ∠ABC = ∠BCA.

Đồng thời, bài P3 của IMO năm 2015 cũng được AlphaGeometry xử lý dễ dàng.

Nếu muốn trả lời câu hỏi này, bạn cần xây dựng ba điểm phụ.

Trong cả hai giải pháp, các nhà nghiên cứu xen kẽ đầu ra mô hình ngôn ngữ (màu xanh) và đầu ra công cụ ký hiệu, phản ánh thứ tự thực hiện. (Xem bài viết để biết quy trình chứng minh cụ thể)

Ngay cả AlphaGeometry cũng tìm thấy một tiền đề chưa được sử dụng trong IMO 2004 P1.

Do cần phải sử dụng thuật toán quay lui để rút tiền đề tối thiểu, AlphaGeometry đã xác định được một tiền đề không cần thiết cho việc chứng minh: O không nhất thiết phải là trung điểm của BC, P, B, C thẳng hàng.

Trong đó, phía trên bên phải là sơ đồ định lý ban đầu, phía dưới là sơ đồ định lý tổng quát, trong đó O được thả ra khỏi trong đó trí trung điểm, còn P vẫn nằm trên đường thẳng BC.

Bài toán ban đầu yêu cầu P nằm giữa B và C, một điều kiện mà định lý tổng quát và nghiệm không thể đảm bảo. Nhưng AlphaGeometry giải quyết được vấn đề này.

Ngoài ra, AlphaGeometry đã thất bại trong câu hỏi chứng minh IMO P6 năm 2008. Đây là bộ câu hỏi khó nhất trong số 30 bộ câu hỏi, với điểm trung bình của con người chỉ là 0,28/7.

Điều đáng nói là Wei Shen đến từ Đại học Bắc Kinh từng đoạt huy chương vàng IMO 2008 và IMO 2009 với số điểm tuyệt đối trong 2 năm liên tiếp.

Tại sao cần sử dụng đề thi Olympic Toán để làm bài thi AI?

Làm thế nào để đánh giá liệu khả năng suy luận logic và toán học của hệ thống AI có đủ mạnh hay không?

Điều đó đương nhiên sẽ là đưa ra những câu hỏi toán khó nhất, chẳng hạn như câu hỏi IMO ban đầu.

Suy cho cùng, những người có thể tham gia Olympic Toán học Quốc tế đều là những học sinh trung học giỏi toán nhất thế giới, có thể nói là trình độ cao nhất của toàn nhân loại.

Vì vậy cuộc thử nghiệm này cũng có thể coi là cuộc đọ sức giữa AI và con người!

Các chuyên gia đã chọn ra 30 câu hỏi thi IMO từ năm 2000 đến năm 2022 để hình thành bộ bài thi chuẩn IMO-AG-30, sau đó cho phép các “thí sinh” tranh tài trong thời gian thi đấu giới hạn.

Kết quả của cuộc đọ sức là AlphaGeometry của Google DeepMind đã tiệm cận trình độ của những vận động viên giành huy chương vàng IMO.

Những người đạt huy chương vàng về con người trung bình có thể giải được 25,9 vấn đề, trong khi AlphaGeometry có thể giải được 25 vấn đề, có thể nói nó vô cùng gần gũi với con người.

Hệ thống AI SOTA "Phương pháp của Wu" trước đây chỉ có thể giải được 10 câu hỏi.

Ngoài phương pháp của Wu, khi so sánh giữa AlphaGeometry và phương pháp tiên tiến khác, GPT-4 không thể thực hiện bất kỳ câu hỏi nào trong số 30 câu hỏi thi IMO và trực tiếp bị 0 điểm!

Bạn biết đấy, khi các đặc vụ AI trước đây xử lý các vấn đề toán học phức tạp, họ thường không đủ khả năng suy luận và thiếu dữ liệu đào tạo.

Nhưng điều làm cho AlphaGeometry trở nên khác biệt là nó kết hợp sức mạnh dự đoán của mô hình ngôn ngữ thần kinh với công cụ suy luận dựa trên quy tắc, cho phép hai hệ thống làm việc cùng nhau để tìm ra giải pháp.

Các nhà nghiên cứu cũng đã phát triển một phương pháp có thể tạo ra lượng lớn dữ liệu huấn luyện tổng hợp - lên tới 100 triệu mẫu duy nhất.

Bằng cách này, bạn có thể giải quyết vấn đề thiếu dữ liệu một cách hiệu quả và huấn luyện AlphaGeometry mà không cần dựa vào sự trình diễn của con người.

Thông qua AlphaGeometry, chúng ta có thể thấy khả năng suy luận logic, khám phá và xác minh kiến thức mới của AI không ngừng tăng lên.

Ngày nay, AI đã có thể giải được các bài toán hình học cấp độ Olympic, sau một thời gian, các hệ thống AI tiên tiến hơn và tổng quát hơn có thể xuất hiện, cho đến một ngày AGI xuất hiện.

Giờ đây, Google DeepMind đã tạo mã và mô hình mã nguồn mở AlphaGeometry, hy vọng rằng chúng có thể cùng với các công cụ khác để tạo và đào tạo dữ liệu tổng hợp, mang lại cơ hội mới cho các lĩnh vực toán học, khoa học và AI.

Địa chỉ dự án: https://github.com/google-deepmind/alphageometry

Buff kép chứng minh hình học: mô hình lớn + công cụ suy luận biểu tượng

Cụ thể, AlphaGeometry là một hệ thống biểu tượng thần kinh bao gồm hai thành phần chính:

1. Mô hình ngôn ngữ thần kinh

2. Động cơ suy luận tượng trưng

Hệ thống AI này sử dụng hai phần trên để phối hợp với nhau nhằm đạt được các chứng minh định lý hình học phức tạp.

Đội ngũ Google DeepMind ở đây trích dẫn các ý tưởng từ cuốn sách "Suy nghĩ: Nhanh và Chậm".

“Nó hơi giống ‘tư duy trực quan’ và ‘tư duy logic’ của chúng ta: một hệ thống cung cấp các ý tưởng nhanh chóng, trực quan, trong khi hệ thống kia đưa ra các quyết định cẩn thận, dựa trên logic hơn.”

Ở đây, mô hình ngôn ngữ thần kinh là "Hệ thống 1", rất giỏi trong việc khám phá các mẫu và mối quan hệ phổ biến trong dữ liệu, đồng thời có thể nhanh chóng thấy trước các cấu trúc hình học có thể hữu ích.

Tuy nhiên, họ thường không giỏi suy luận chặt chẽ và không thể giải thích được quá trình ra quyết định của mình.

Công cụ suy luận mang tính biểu tượng thì khác và có thể được coi là "Hệ thống 2".

Chúng dựa trên logic hình thức và tuân theo các quy tắc rõ ràng để đi đến kết luận vừa hợp lý vừa có thể giải thích được.

Tuy nhiên, động cơ suy luận biểu tượng có thể “chậm” và thiếu linh hoạt khi giải quyết các vấn đề lớn và phức tạp.

Quá trình AlphaGeometry khi giải một bài toán đơn giản: Đầu tiên, đưa ra bài toán và các giả định định lý của nó (ảnh bên trái), AlphaGeometry (ảnh giữa) sử dụng công cụ ký hiệu của nó để thực hiện suy luận logic trên đồ thị nhằm rút ra kết luận mới cho đến khi tìm được đáp án hoặc Không thể dẫn xuất thêm nữa. Nếu không tìm thấy câu trả lời, mô hình ngôn ngữ của AlphaGeometry sẽ giới thiệu một phần tử đồ họa mới (hiển thị bằng màu xanh lam) có khả năng giúp giải quyết vấn đề, cung cấp các lộ trình suy luận mới cho công cụ biểu tượng. Quá trình này được lặp lại cho đến khi tìm được giải pháp cho vấn đề (phải). Trong ví dụ này, chỉ có một phần tử đồ họa mới được thêm vào.

Vai trò của mô hình ngôn ngữ AlphaGeometry là chỉ dẫn công cụ suy luận biểu tượng tìm ra những con đường khả thi để giải các bài toán hình học.

Nói chung, các câu hỏi hình học ở cấp độ IMO thường dựa trên sơ đồ và các yếu tố hình học mới cần được thêm vào sơ đồ, chẳng hạn như điểm, đường hoặc vòng tròn, để tìm ra lời giải.

Mô hình ngôn ngữ của AlphaGeometry có thể dự đoán những yếu tố mới nào sẽ hữu ích nhất trong việc giải quyết vấn đề với vô số khả năng. Những gợi ý này giúp lấp đầy những khoảng trống thông tin, cho phép công cụ biểu tượng đưa ra nhiều suy đoán hơn về sơ đồ và tiến gần hơn đến câu trả lời đúng.

Ví dụ, AlphaGeometry đã giải được bài toán thứ 3 của Olympic Toán quốc tế năm 2015 (ảnh dưới) Phần bên phải là bản chất của quá trình giải bài toán.

Toàn bộ quá trình giải quyết vấn đề bao gồm 109 bước suy luận logic.

Phần màu xanh trong hình tượng trưng cho các phần tử đồ họa mới được thêm vào

Ngoài ra, đội ngũ Google còn yêu cầu AlphaGeometry giải IMO 2005 P3, mất tổng cộng 110 bước để hoàn thành.

Hoàn thành các bước để giải quyết vấn đề: https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphageometry-an-olympiad-level-ai-system-for-geometry%20/AlphaGeometry%20solution.pdf

100 triệu dữ liệu tổng hợp để đào tạo AI từ đầu

Khả năng giải toán của AlphaGeometry rất mạnh mẽ, và điều sốc hơn nữa là nó hoàn thành quá trình huấn luyện từ con số 0 chỉ bằng dữ liệu tổng hợp.

Như Google DeepMind lưu ý, các hệ thống AI đã phải vật lộn để giải quyết các vấn đề hình học khó khăn do thiếu dữ liệu đào tạo.

Về vấn đề này, các nhà nghiên cứu đã sử dụng công nghệ "dữ liệu tổng hợp" để mô phỏng quá trình tích lũy kiến thức mà không cần bất kỳ sự giảng dạy trình diễn nào của con người và bắt đầu đào tạo AlphaGeometry từ đầu.

Dưới đây là một số ví dụ về đồ họa ngẫu nhiên được tạo từ dữ liệu tổng hợp.

Sử dụng 100.000 CPU, ban đầu, Google tạo ra các biểu đồ ngẫu nhiên gồm 1 tỷ đối tượng hình học và thực hiện rút ra toàn diện tất cả các mối quan hệ giữa các điểm và đường trong mỗi biểu đồ (chạy phép tính biểu tượng và quá trình quay lui mất 3 -4 ngày).

Quy trình tạo dữ liệu tổng hợp AlphaGeometry

AlphaGeometry không chỉ tìm thấy tất cả các bằng chứng trong mỗi sơ đồ mà còn hoạt động ngược lại để xác định những cấu trúc đồ họa bổ sung nào là cần thiết để đi đến các bằng chứng đó.

Các nhà nghiên cứu gọi quá trình này là “suy diễn và truy tìm biểu tượng”.

AlphaGeometry tạo trực quan hóa dữ liệu tổng hợp

Sau khi sàng lọc bộ dữ liệu khổng lồ này để loại bỏ các mẫu trùng lặp, cuối cùng chúng tôi đã thu được dữ liệu gồm 100 triệu mẫu đào tạo duy nhất bao gồm các mức độ khó khác nhau.

Trong đó còn có thêm 9 triệu mẫu kết cấu bổ sung.

Mô hình ngôn ngữ của AlphaGeometry phân tích nhiều trường hợp về cách các cấu trúc này giúp hoàn thiện chứng minh và có thể đưa ra các đề xuất hiệu quả cũng như thiết kế các cấu trúc hình học mới khi giải các bài toán hình học cấp độ Olympic.

Phân tích dữ liệu tổng hợp được tạo ra

Huy chương vàng IMO ca ngợi AI vì lý luận toán học tiên phong

Các câu trả lời của AlphaGeometry cho các câu hỏi cạnh tranh IMO đều đã vượt qua xác minh của máy tính.

Google DeepMind đã so sánh kết quả với phương pháp AI trước đây cũng như hiệu suất của các vận động viên con người trong các cuộc thi Olympic.

Các bước chứng minh AlphaGeometry so với Điểm trung bình của người tham gia IMO cho các câu hỏi khác nhau

Điều đáng nói là họ còn mời huấn luyện viên toán học và vận động viên đoạt huy chương vàng IMO Evan Chen để xem xét một số giải pháp của AlphaGeometry.

Đầu ra của AlphaGeometry rất đáng khen ngợi, nó không chỉ có thể đứng vững để xác minh mà còn được nêu rõ ràng. Khi AI trước đây giải các câu hỏi cạnh tranh bằng chứng, câu trả lời của nó đôi khi không đủ tin cậy (kết quả đầu ra có lúc đúng, có lúc sai, cần phải có sự xác minh của con người). AlphaGeometry không gặp phải vấn đề này: các giải pháp của nó có cấu trúc có thể xác minh được bằng máy.
Mặc dù vậy, đầu ra của nó rất dễ hiểu đối với con người. Có thể tưởng tượng rằng một chương trình máy tính sẽ giải quyết các vấn đề hình học bằng cách bẻ khóa hệ tọa độ, vốn sẽ là một chuỗi các phép toán đại số nhàm chán. Nhưng đó không phải là trường hợp của AlphaGeometry, vốn sử dụng các quy tắc hình học truyền thống mà học sinh học, bao gồm kiến thức về các góc và các hình tam giác tương tự.

Trong mỗi cuộc thi IMO có tổng cộng 6 câu hỏi, thường chỉ có 2 trong số đó liên quan đến hình học.

Vì vậy, AlphaGeometry chỉ có thể đóng vai trò trong khoảng 1/3 số câu hỏi Olympic.

Tuy nhiên, khả năng của nó trong lĩnh vực hình học đủ để khiến nó trở thành "mô hình AI đầu tiên trên thế giới vượt qua tiêu chuẩn huy chương đồng của Olympic Toán học quốc tế năm 2000 và 2015".

Về khả năng giải các bài toán hình học, AlphaGeometry gần ngang bằng với các vận động viên đạt huy chương vàng IMO.

Google DeepMind cho biết tham vọng của họ còn vượt xa điều đó và hy vọng sẽ thúc đẩy sự phát triển của các hệ thống AI thế hệ tiếp theo trong lĩnh vực suy luận.

Bắt đầu từ đầu, sử dụng dữ liệu tổng hợp quy mô lớn để huấn luyện hệ thống AI, phương pháp này được kỳ vọng sẽ tác động đến các mô hình khám phá tri thức mới cho các hệ thống AI trong tương lai trong toán học và các lĩnh vực khác.

Trên thực tế, trước khi xây dựng hệ thống AlphaGeometry, Google DeepMind và Google Research lượng lớn rất nhiều công việc nền tảng về lý luận toán học AI.

Trước đó, Google DeepMind đã tung ra FunSearch, phá kỷ lục về phát hiện đầu tiên của LLM về một bí ẩn chưa có lời giải trong lĩnh vực toán học.

Mục tiêu dài hạn của Google DeepMind là xây dựng một hệ thống AI có thể mở rộng các lĩnh vực toán học khác nhau, giải quyết các vấn đề phức tạp và thực hiện lý luận nâng cao cho đến khi đạt được AGI.

Cư dân mạng: Điểm kỳ dị AGI đang đến gần

Sự ra đời của AlphaGeometry được so sánh với cú sốc lớn trong lĩnh vực AI do sự ra mắt của các “gia đình Alpha” như AlphaFold và AlphaCode.

Đồng thời, tầm quan trọng và tiềm năng của “dữ liệu tổng hợp” ngày càng trở nên nổi bật.

Shane Legg, đồng sáng lập và giám đốc khoa học AGI của Google DeepMind, cho biết: “Tôi vẫn còn nhớ mơ hồ việc cố gắng giải những bài toán hình học điên rồ tại trại huấn luyện IMO New Zealand ở Christchurch vào năm 1990. Bây giờ thấy rằng trí tuệ nhân tạo đã trở nên rất giỏi trong lĩnh vực này. , Tôi hơi sốc! AGI đang tiến gần hơn."

Hôm qua, nghiên cứu của nghiên cứu sinh tiến sĩ Pan Lu của UCLA về tiêu chuẩn lý luận toán học MathVista đã được ICLR 2024 chấp nhận làm bài báo miệng.

Sau khi xem nghiên cứu mới nhất của Google, ông nói: "Vào năm 2021, chúng tôi đã khám phá nghiên cứu ban đầu về hình học: InterGPS của chúng tôi, một bộ giải biểu tượng thần kinh, lần đầu tiên đã đạt được hiệu suất trung bình của con người. Giờ đây, AlphaGeometry đánh dấu lịch sử Một bước đột phá: Đạt được các kỹ năng cấp độ Olympic !"

Một số cư dân mạng cho rằng đây đơn giản chỉ là một sự kiện lớn. Lý luận toán học có thể được mở rộng sang vật lý, và vật lý có thể được mở rộng sang hóa học và sinh học. Trí tuệ nhân tạo có khả năng thống trị nghiên cứu trong những năm tới. Điểm kỳ dị đang đến gần.

Hầu hết các nhà toán học đang làm việc đều không thể làm được điều này, đặc biệt là trong thời gian quy định. Việc đào tạo chỉ với dữ liệu tổng hợp cho thấy toán học không có điểm nghẽn về dữ liệu. Bởi vì chúng ta có thể dễ dàng tạo ra dữ liệu tổng hợp chất lượng cao không giới hạn.

Nhà khoa học máy học của NVIDIA Shengyang Sun tò mò hỏi: "Liệu những vấn đề tổng hợp này có xuất hiện trong IMO 2024 không?"

Jing Yu Koh, Tiến sĩ học máy tại CMU, cho biết: "2024 là năm của dữ liệu tổng hợp! Tôi rất thích lĩnh vực hình học vì bạn có cách kết hợp nó với thế giới thực để đảm bảo tính hiệu quả của dữ liệu tổng hợp".

Tham khảo:

https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/

https://www.nature.com/articles/s41586-023-06747-5

Bài viết này đến từ tài khoản công khai WeChat "Xin Zhiyuan" (ID: AI_era) , tác giả: Xinzhiyuan, 36 Krypton được phép xuất bản.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan