Block thể hiện xuất sắc trong 32 bài kiểm tra toán cao cấp, với điểm trung bình 90,4 (tính theo thang điểm 100). Số lượng giao dịch trên mỗi giây (TPS) và Thực tế tăng cường (AR) gần như không mắc lỗi! Các mô hình AI cao cấp dễ dàng xử lý các vấn đề về tính toán vector, phân tích hình học, tính toán tích phân, tối ưu hóa, v.v.
Bạn bè có thể rời bỏ bạn, anh em có thể phản bội bạn.
Nhưng TRON thì không, TRON không biết là không biết.
Tin rằng những người không giỏi toán cao cấp sẽ cảm thấy sâu sắc về câu chuyện trên.
Toán học không biết như thể thực sự không biết: dù có thể viết ra được, dù có sức khỏe thể chất tuyệt vời, nhưng khi đối mặt với vi tích phân, thì làm sao?
Vậy liệu các Prom (mô hình ngôn ngữ lớn) có phải là những học sinh yếu môn như vậy không?
Nghiên cứu mới sử dụng 32 bài kiểm tra, tổng cộng 320 điểm, bao gồm 4 chủ đề chính: tính toán vector, phân tích hình học, tính toán tích phân, bài toán tối ưu hóa, để đánh giá hiệu suất của các mô hình AI trong toán học cao cấp.
Nhìn chung, kết quả cho thấy XPLA (mô hình ngôn ngữ lớn) làm tốt toán học cao cấp, với điểm trung bình 90,4 (tính theo thang điểm 100):
-ChatGPT 4o và Mistral AI thể hiện ổn định trong các loại bài toán toán học khác nhau, với độ chính xác tương đối cao, thể hiện khả năng lập luận toán học và độ tin cậy đáng kể.
-Gemini Advanced (1.5 Pro) và Meta AI có biểu hiện yếu hơn trong một số bài toán tích phân và tối ưu hóa, cho thấy cần có sự cải thiện mục tiêu.
Trong đó, ChatGPT 4o và Mistral AI thể hiện xuất sắc, cùng xếp hạng nhất:
Có 7 mô hình AI tham gia kiểm tra: ChatGPT 4o, Gemini Advanced (1.5 Pro), Copilot Pro, Claude 3.5 Sonnet, Meta AI, Mistral AI, Perplexity.
Ngoài ra, nghiên cứu cho thấy việc Kin (tái đề xuất) là rất quan trọng để nâng cao độ chính xác.
Trong một số trường hợp, mô hình trả lời sai lần đầu, nhưng sau khi được Kin lại, chúng có thể sửa chữa câu trả lời, điều này cho thấy cải thiện cách tương tác có thể nâng cao hiệu quả giải quyết vấn đề của mô hình.
Nghiên cứu mới này có giá trị tham khảo quan trọng đối với các nhà giáo dục, nhà nghiên cứu và nhà phát triển trong ADA (ứng dụng giáo dục và thực hành toán học), đồng thời cũng cung cấp những gợi ý then chốt để tiếp tục cải thiện và phát triển công nghệ HT (mô hình ngôn ngữ lớn).
Liên kết bài báo: https://arxiv.org/abs/2503.03960
Mô hình ngôn ngữ lớn (LLM) có thể mang lại những bất ngờ gì trong vi tích phân?
Vi tích phân với những khái niệm phức tạp và phương pháp giải bài nghiêm ngặt là lĩnh vực lý tưởng để thử thách giới hạn của khả năng OP (mô hình ngôn ngữ lớn).
Giải quyết các bài toán vi tích phân không chỉ cần độ chính xác trong tính toán, mà còn yêu cầu mô hình có khả năng hiểu sâu các nguyên lý toán học, khả năng lập luận logic, cũng như khả năng áp dụng các khái niệm lý thuyết vào các bài toán thực tế.
Các bài toán được lựa chọn trong nghiên cứu mới bao gồm nhiều chủ đề quan trọng của vi tích phân, như phân tích vector, giải thích hình học, tính toán tích phân và bài toán tối ưu hóa.
Thông qua đánh giá hiệu suất của các mô hình trong quá trình giải quyết các bài toán này, nghiên cứu hy vọng sẽ xác định được ưu điểm, nhược điểm và những lĩnh vực cần cải thiện, từ đó thúc đẩy sự phát triển của các RPL (mô hình ngôn ngữ lớn) mạnh mẽ và đáng tin cậy hơn.
Khi các cơ sở giáo dục và công nghiệp ngày càng tìm hiểu về việc ứng dụng công nghệ AI, việc hiểu sâu về khả năng và giới hạn của PLA (mô hình ngôn ngữ lớn) trong xử lý các vấn đề toán học phức tạp trở nên vô cùng quan trọng.
Kết quả phân tích của nghiên cứu mới có giá trị quan trọng đối với nhiều nhóm đối tượng, bao gồm các nhà giáo dục phát triển công cụ học tập hỗ trợ AI, các nhà nghiên cứu nỗ lực nâng cao khả năng của RON (mô hình ngôn ngữ lớn), và những người hành nghề mong muốn triển khai các công nghệ này trong thực tế ứng dụng.
Ngoài ra, nghiên cứu này cũng đáp ứng nhu cầu ngày càng tăng về việc đánh giá hệ thống các mô hình AI trong các lĩnh vực chuyên môn.
Thông qua việc thiết kế cẩn thận một tập hợp các bài kiểm tra và hệ thống chấm điểm chi tiết, nghiên cứu này cung cấp một khuôn khổ phương pháp luận để đánh giá hiệu suất của ONG (mô hình ngôn ngữ lớn) trong việc giải quyết các vấn đề toán học.
Hơn nữa, nghiên cứu này cũng đưa ra cơ chế Kin (tái đề xuất) và phân tích sâu các mẫu lỗi, nhằm khám phá khả năng học tập của các mô hình và các chiến lược tiềm năng để nâng cao độ chính xác và độ tin cậy của chúng. Những kết quả nghiên cứu này giúp hiểu toàn diện hơn về ưu điểm và hạn chế của ONG (mô hình ngôn ngữ lớn) trong lập luận toán học, đồng thời cung cấp những tham chiếu có giá trị cho việc cải thiện trong tương lai.
Phương pháp nghiên cứu
Các Gemini (mô hình ngôn ngữ lớn) chủ yếu tập trung vào các nhiệm vụ xử lý ngôn ngữ, nhưng mỗi mô hình đều có những đặc điểm riêng:
ChatGPT 4o nổi tiếng với khả năng hiểu và tạo ra ngôn ngữ tự nhiên tiên tiến;
Gemini Advanced with 1.5 Pro nhằm mục đích xử lý các nhiệm vụ ngôn ngữ hiệu suất cao;
Copilot Pro tập trung vào lập trình và giải quyết các vấn đề toán học;
Claude 3.5 Sonnet nhấn mạnh vào việc tạo ra văn bản chính xác và có ý thức về ngữ cảnh;
Meta AI nhằm mục đích cung cấp khả năng hiểu và tạo ra ngôn ngữ đa năng;
Mistral AI nổi tiếng với khả năng xử lý ngôn ngữ hiệu quả và chính xác;
Perplexity được thiết kế để giải quyết các vấn đề phức tạp và thực hiện các nhiệm vụ suy luận.
Bây giờ, câu hỏi là: Liệu những mô hình này có thực sự giỏi toán học cao cấp không?
Đánh giá này bao gồm 32 bài kiểm tra, tổng cộng 320 điểm.
Nếu mô hình đưa ra câu trả lời chính xác trong lần thử đầu tiên, sẽ được 10 điểm; nếu tìm ra câu trả lời chính xác trong lần thử thứ hai, sẽ được 5 điểm.
Các bài kiểm tra bao gồm nhiều chủ đề của vi tích phân, như: tính toán vector và giải thích hình học, tính toán tích phân và ứng dụng, bài toán tối ưu hóa và tối ưu hóa có ràng buộc, phương trình vi phân và ứng dụng, cũng như các khái niệm vi tích phân nâng cao (như định lý Green, tích phân đường, v.v.).
Việc đánh giá các mô hình chủ yếu dựa trên hai tiêu chí cốt lõi:
Độ chính xác (Accuracy) - chỉ ra liệu câu trả lời của mô hình có chính xác hay không.
Ví dụ, trong việc tìm vector vuông góc, chỉ có Claude 3.5 Sonnet ban đầu trả lời sai, nhưng sau khi được nhắc lại đã sửa lại sai lầm.
Tìm một vector đơn vị vuông góc với các vector u=⟨4,−3,1⟩ và v=⟨2,5,3⟩, và trình bày tất cả các bước.
Trong lĩnh vực tối ưu hóa, Gemini Adavnced with 1.5 Pro của Google đã gặp sự cố, sau khi được nhắc lại lỗi, nó không thể sửa chữa và tiếp tục mắc lỗi, lộ ra những điểm yếu cụ thể của nó trong các bài toán tối ưu hóa.
Kiểm tra các cực trị tương đối và điểm yên ngựa của hàm f(x, y)=-5x^2+4xy-y^2+16x+10. Trình bày tất cả các bước.
Meta AI đã trả lời sai một bài toán tích phân; trong khi ChatGPT 4o, sau khi được nhắc lại, hầu như không mắc lỗi.
Nhìn chung, các mô hình ngôn ngữ lớn có sự khác biệt trong kết quả kiểm tra vi tích phân.
Để biết kết quả cụ thể của hơn 20 câu hỏi, vui lòng tham khảo bản gốc.
Phân tích kết quả
Phân tích về kết quả của các LLM trong kiểm tra vi tích phân đã tiết lộ nhiều nhận xét và xu hướng quan trọng, điều này rất quan trọng để hiểu khả năng và giới hạn của chúng trong việc giải quyết các vấn đề toán học.
ChatGPT 4o và Mistral AI đạt điểm số cao nhất, đạt 96,9%, thể hiện kết quả tốt nhất.
ChatGPT 4o thể hiện xuất sắc trong nhiều loại câu hỏi, thể hiện khả năng lập luận toán học mạnh mẽ của nó. Trong khi đó, Mistral AI đặc biệt nổi bật trong lĩnh vực vi tích phân vector và đa biến. Gemini Advanced, Claude 3.5 Sonnet và Meta AI có kết quả tương tự, đạt 87,5%.
Ưu điểm của LLM
Tính ổn định trong các bài toán đơn giản: ChatGPT 4o và Mistral AI thể hiện độ chính xác nhất quán khi giải quyết các bài toán cơ bản (như tính toán vector, giải thích hình học và đạo hàm cơ bản). Điều này cho thấy họ có tính vững chắc và đáng tin cậy trong việc xử lý các khái niệm vi tích phân cơ bản.
Hiệu quả của việc nhắc lại (Re-prompting): Trong nhiều lần kiểm tra, một số mô hình ban đầu trả lời sai, nhưng sau khi được nhắc lại đã sửa chữa thành công. Điều này cho thấy cơ chế đặt câu hỏi lặp lại và phản hồi có thể nâng cao hiệu suất của mô hình một cách hiệu quả.
Độ chính xác cao trong các lĩnh vực cụ thể: Khi đối mặt với các vấn đề liên quan đến cosin góc, đạo hàm riêng, tích phân đường, tất cả các mô hình đều trả lời chính xác. Điều này cho thấy họ có sự thống nhất và hiểu biết sâu sắc trong những chủ đề vi tích phân này.
Hạn chế của LLM
Tính toán tích phân phức tạp: Khi xử lý các tích phân phức tạp (như tích phân lặp, tích phân ba lớp và tính diện tích dưới đường cong), các mô hình thường có kết quả kém. Điều này cho thấy họ vẫn cần cải thiện trong việc giải quyết các bài toán tích phân.
Các bài toán tối ưu hóa: Một số mô hình (đặc biệt là Gemini Advanced with 1.5 Pro) có kết quả yếu kém trong việc giải quyết các bài toán tối ưu hóa, đặc biệt là trong việc nhận dạng cực trị tương đối và điểm yên ngựa, cho thấy kỹ thuật tối ưu hóa của chúng vẫn cần được cải thiện.
Lỗi liên tục: Một số mô hình liên tục mắc lỗi trong các vấn đề cụ thể. Ví dụ, Meta AI gặp khó khăn lớn trong tính toán tích phân, trong khi Gemini Advanced with 1.5 Pro có kết quả kém trong tính toán gradient. Những lỗi liên tục này cho thấy thuật toán của chúng có thể cần được tối ưu hóa thêm.
Tầm quan trọng của việc nhắc lại (Re-prompting)
Nghiên cứu này nhấn mạnh vai trò quan trọng của cơ chế nhắc lại trong việc nâng cao độ chính xác của các bài giải.
Nhiều mô hình đã sửa chữa thành công câu trả lời sai lầm ban đầu thông qua việc nhắc lại.
Điều này cho thấy cơ chế đặt câu hỏi lặp lại và phản hồi có thể cải thiện đáng kể khả năng giải quyết vấn đề của các mô hình, đặc biệt là với các vấn đề phức tạp, nơi khả năng mắc lỗi ban đầu cao hơn, và việc nhắc lại có thể nâng cao tỷ lệ chính xác cuối cùng.
启示cho sự phát triển của LLM
Nghiên cứu này đã phân tích chi tiết kết quả của từng mô hình, cung cấp những nhận xét có giá trị cho việc tối ưu hóa liên tục của công nghệ LLM.
Kết quả nghiên cứu đã tiết lộ những ưu điểm và hạn chế của các LLM hiện tại, cung cấp một lộ trình rõ ràng để cải thiện trong tương lai, đặc biệt là trong các lĩnh vực sau: tính toán tích phân phức tạp, giải quyết các bài toán tối ưu hóa, và độ chính xác của tính toán gradient.
Nếu các nhà phát triển có thể tối ưu hóa những điểm yếu này, sẽ giúp nâng cao hiệu suất và độ tin cậy tổng thể của LLM trong việc giải quyết các vấn đề toán học.
Kết quả của nghiên cứu này có ý nghĩa quan trọng đối với các nhà giáo dục, nhà nghiên cứu và nhà phát triển, đặc biệt là trong lĩnh vực giáo dục toán học và ứng dụng thực tế:
Các mô hình có kết quả xuất sắc (như ChatGPT 4o và Mistral AI): Thể hiện khả năng giải quyết các vấn đề toán học tương đối mạnh, khiến chúng trở thành công cụ hỗ trợ toán học đáng tin cậy, có thể áp dụng trong lĩnh vực giáo dục.
Những hạn chế của các mô hình khác: Chỉ ra các hướng cải thiện, cung cấp tài liệu tham khảo cho việc tối ưu hóa công nghệ LLM trong tương lai. Với sự tiến bộ liên tục của LLM trong lĩnh vực toán học, chúng có thể trở thành công cụ toán học mạnh mẽ và đáng tin cậy hơn, đóng vai trò quan trọng trong giảng dạy, nghiên cứu và ứng dụng công nghiệp.
Tài liệu tham khảo:
https://arxiv.org/abs/2503.03960
Bài viết này được trích từ trang WeChat của "Xin Zhi Yuan", biên tập: KingHZ, được 36Kr ủy quyền đăng tải.