Cha đẻ của học tập tăng cường Richard Sutton và người hướng dẫn của ông Andrew Barto đã nhận được Giải thưởng Turing năm 2024. Có người nói rằng, Giải thưởng Turing cuối cùng cũng đã được trao cho học tập tăng cường, đây là "phần thưởng" đến muộn.
Giải thưởng Turing năm 2024 đã được trao cho cha đẻ của học tập tăng cường!
Vừa mới đây, Hiệp hội Máy tính ACM đã công bố: Andrew G. Barto và Richard S. Sutton là những người nhận Giải thưởng Turing ACM năm 2024, để ghi nhận những đóng góp của họ trong việc thiết lập các khái niệm và thuật toán cơ bản của học tập tăng cường.
Tiếp theo sau Giải thưởng Nobel, các học giả về AI lại một lần nữa giành được Giải thưởng Turing.
"Cha đẻ của học tập tăng cường" Richard S. Sutton và người hướng dẫn của ông Andrew G. Barto đều đã đóng góp những công trình tiên phong cho lĩnh vực học tập tăng cường.
Từ những bài báo được công bố từ những năm 1980, cả hai đã giới thiệu các ý tưởng cốt lõi của học tập tăng cường, xây dựng nền tảng toán học và phát triển các thuật toán then chốt của học tập tăng cường - đây là một trong những phương pháp quan trọng nhất để tạo ra các hệ thống thông minh.
Vào năm 1998, Sutton và Barto đã cùng viết cuốn sách "Reinforcement Learning: An Introduction" (Học tập tăng cường: Một lời giới thiệu), cuốn sách này vẫn được coi là tác phẩm tiên phong trong lĩnh vực này. Hiện nó đã được trích dẫn hơn 75.000 lần.
Hiện nay, Barto là Giáo sư Danh dự tại Khoa Tin học và Khoa học Máy tính, Đại học Massachusetts Amherst.
Sutton là Giáo sư Khoa học Máy tính tại Đại học Alberta, Nhà nghiên cứu trưởng tại Keen Technologies, và Nhà nghiên cứu thỉnh giảng tại Viện Trí tuệ Nhân tạo Alberta (Amii).
Giải thưởng A.M. Turing của ACM thường được gọi là "Giải Nobel của lĩnh vực Máy tính", với giải thưởng lên đến 1 triệu đô la Mỹ, do Google tài trợ. Giải thưởng này được đặt theo tên của nhà toán học người Anh Alan M. Turing, người đã đặt nền móng cho lý thuyết toán học của khoa học máy tính.
Khi biết tin mình đã nhận được Giải thưởng Turing năm nay, Sutton cảm thấy rất bất ngờ.
Gần đây, Sutton mới vừa đăng một bài viết trích dẫn lời nói của Turing.
Cha đẻ của RL và người hướng dẫn của ông
Ngành công nghiệp AI luôn nỗ lực để tối đa hóa khả năng tri thức của máy móc. Và Richard Sutton, người đang hoạt động trong ngành này, đã lâu nay luôn suy nghĩ về một vấn đề cơ bản hơn - làm thế nào để máy móc học hỏi?
Với việc xuất bản cuốn "Reinforcement Learning: An Introduction", cuốn sách "kinh điển" trong lĩnh vực học tập tăng cường, sau hàng chục năm vẫn còn có ý nghĩa quan trọng. Bởi vì những ý tưởng này về bản chất dường như đơn giản, nhưng lại có ảnh hưởng lâu dài đến ngành công nghiệp AI rộng lớn hơn.
Sutton giải thích phương pháp nghiên cứu của mình như sau: nghiên cứu phải bắt đầu từ những điều nhỏ bé; loại nghiên cứu cơ bản này sẽ không mang lại những cải tiến rõ ràng cho các công nghệ mới nhất ngay lập tức.
Từ năm 1978, cả hai đã bắt đầu hợp tác.
Lúc đó, Sutton đang theo học bậc tiến sĩ tại Đại học Massachusetts Amherst, và người hướng dẫn của ông chính là Barto. Sau đó, Sutton lại tiếp tục làm nghiên cứu sinh sau tiến sĩ dưới sự hướng dẫn của Barto.
Họ đã viết ra một số thuật toán RL sớm nhất, giống như cách con người hoặc máy học, để cho phép máy móc thu nhận kiến thức thông qua thử và sai liên tục.
Mặc dù Sutton đã giành được sự công nhận trong giới học thuật nhờ điều này, nhưng ở một mức độ nào đó, ông lại có sự khác biệt với các lý thuyết chủ đạo được xây dựng bởi các công ty lớn như Google, Microsoft, OpenAI thông qua các mô hình ngôn ngữ lớn (LLM).
Theo ông, những công nghệ này chỉ đang mô phỏng hành vi của con người, mà không thực sự nhận thức được hành động của chính mình và học hỏi từ đó -
Tôi cho rằng chúng không đi đúng hướng để đạt được Trí tuệ Nhân tạo Tổng quát (AGI).
Cốt lõi của học tập tăng cường là đảm bảo rằng máy móc "học từ kinh nghiệm", hoặc hiểu được phản hồi và học hỏi từ sai lầm.
Tuy nhiên, các mô hình ngôn ngữ lớn (LLM) lại trích xuất thông tin từ dữ liệu lịch sử khổng lồ để tạo ra phản hồi, do đó mức độ thông minh của chúng cũng chỉ tương ứng với quy mô của mạng nơ-ron tại thời điểm đó.
Do đó, LLM có một "điểm yếu ngu ngốc" bẩm sinh. Mặc dù chúng có thể điều chỉnh câu trả lời cho các câu hỏi bằng văn bản, nhưng mục tiêu chính của chúng chỉ là xác định đầu ra tiếp theo trong chuỗi văn bản.
Đối với nhiều hệ thống AI hiện nay, Sutton đánh giá rằng "chúng hoàn toàn không học hỏi khi bạn tương tác với chúng".
Ví dụ, theo ông, ChatGPT sẽ không thay đổi bất kỳ trọng số nào dựa trên kinh nghiệm của chính nó; nó không quan tâm đến kết quả, cũng thiếu nhận thức thực sự; nó không hề ngạc nhiên về bất cứ điều gì xảy ra, vì nó không có bất kỳ kỳ vọng nào về những gì sẽ xảy ra.
Michael Bowling, đồng nghiệp cũ của Sutton tại Google DeepMind, đánh giá về ông như sau -
Trong khi phần còn lại của thế giới đang theo đuổi các ứng dụng mô hình ngôn ngữ lớn, Rich vẫn kiên định với lĩnh vực nghiên cứu cơ bản.
Trong tương lai, khi mọi người muốn thấy các hệ thống AI có thể thực sự tương tác với con người, họ có thể nhận ra rằng những đóng góp của Sutton cho học tập tăng cường là vô cùng quan trọng.
Và trong 5 năm qua, RL cũng đã ngày càng được chú trọng hơn. DeepSeek, một ứng dụng gây chấn động toàn cầu, đã sử dụng RL để huấn luyện AI thông qua vòng lặp phản hồi tích cực.
Theo Cam Linke, người phụ trách Viện Trí tuệ Nhân tạo Alberta (Amii), Sutton là một chuyên gia khiêm tốn, không thích khoe khoang. Ông loại bỏ các yếu tố truyền thống như hệ thống phân cấp trong khoa học hoặc các yếu tố chính trị, và quá trình khoa học là điều quan trọng nhất đối với ông.
Tiếp theo sau Geoffrey Hinton, Yoshua Bengio và Yann LeCun, những người đã nhận Giải thưởng Turing vào năm 2018 vì đóng góp của họ trong nghiên cứu mạng nơ-ron sâu, Sutton là nhà nghiên cứu Canada mới nhất nhận được Giải thưởng Turing.
Ông nói rằng, ông coi bản thân như một tác nhân học tập tăng cường, học hỏi ở nhiều cấp độ thông qua kinh nghiệm, như điều chỉnh cách đi khi đập vào ngón chân, hoặc nhận một công việc và tìm thấy niềm vui trong đó.
Học tập tăng cường là gì?
Lĩnh vực AI thường tập trung vào việc xây dựng các tác nhân thông minh - những thực thể có thể cảm nhận và hành động.
Các tác nhân thông minh hơn có thể lựa chọn các hành động tốt hơn. Do đó, biết những hành động nào tốt hơn là rất quan trọng đối với AI.
Phần thưởng - một thuật ngữ vay mượn từ tâm lý học và khoa học thần kinh - biểu thị một tín hiệu liên quan đến chất lượng hành vi của tác nhân thông minh.
Học tập tăng cường (RL) là quá trình học tìm ra các hành động tốt hơn dưới sự hướng dẫn của tín hiệu phần thưởng này.
Ý tưởng học hỏi từ phần thưởng đã tồn tại hàng nghìn năm đối với những người huấn luyện động vật.
Sau đó, Alan Turing trong bài báo năm 1950 "Computing Machinery and Intelligence" đã thảo luận về câu hỏi "Máy móc có thể suy nghĩ
Nhu cầu thông tin của học tập tăng cường là tối thiểu, kết hợp tính phổ quát của khung MDP, khiến các thuật toán học tập tăng cường có thể được áp dụng cho nhiều lĩnh vực vấn đề.
Bất kể là hợp tác hay phối hợp với các nhà nghiên cứu khác, Barto và Sutton đều đã phát triển nhiều thuật toán cơ bản của học tập tăng cường.
Bao gồm những đóng góp quan trọng nhất của họ - học tập sai biệt thời gian, đạt được những bước tiến quan trọng trong việc giải quyết vấn đề dự đoán phần thưởng, ngoài ra còn có phương pháp gradient chiến lược và sử dụng mạng nơ-ron như một công cụ học biểu diễn.
Họ cũng đề xuất thiết kế tác nhân thông minh AI kết hợp học tập và lập kế hoạch, chứng minh giá trị của việc sử dụng kiến thức về môi trường làm cơ sở cho lập kế hoạch.
Như đã đề cập ở trên, cuốn sách "Reinforcement Learning: An Introduction" đã giúp hàng nghìn nhà nghiên cứu hiểu và đóng góp cho lĩnh vực này, quan trọng hơn, nó vẫn tiếp tục truyền cảm hứng cho nhiều hoạt động nghiên cứu quan trọng trong khoa học máy tính hiện nay.
Mặc dù các thuật toán của Barto và Sutton được phát triển cách đây hàng chục năm, nhưng trong 15 năm qua, thông qua việc kết hợp với các thuật toán học sâu (được khởi xướng bởi các giải thưởng Turing 2018 Bengio, Hinton và LeCun), học tập tăng cường đã đạt được những bước tiến đáng kể trong ứng dụng thực tế - kỹ thuật học tập tăng cường sâu.
Ví dụ nổi bật nhất của học tập tăng cường là chương trình máy tính AlphaGo đã đánh bại các vận động viên quây hàng đầu thế giới vào năm 2016 và 2017.
Một thành tựu quan trọng khác trong những năm gần đây là sự xuất hiện của trợ lý trò chuyện ChatGPT.
ChatGPT là một LLM, quá trình đào tạo của nó được chia thành hai giai đoạn, giai đoạn thứ hai sử dụng một kỹ thuật được gọi là học tập tăng cường dựa trên phản hồi của con người (RLHF) để tốt hơn nắm bắt kỳ vọng và sở thích của con người.
Học tập tăng cường cũng đạt được thành công đáng kể trong nhiều lĩnh vực khác.
Một trường hợp nghiên cứu nổi bật là học kỹ năng vận động trong việc thao tác và giải quyết các vấn đề vật lý (Rubik's Cube) bằng tay, điều này cho thấy việc hoàn toàn thực hiện học tập tăng cường trong mô phỏng cuối cùng cũng có thể thành công đáng kể trong thế giới thực rất khác biệt.
Các lĩnh vực ứng dụng khác bao gồm kiểm soát tắc nghẽn mạng, thiết kế vi mạch, quảng cáo Internet, tối ưu hóa thuật toán, tối ưu hóa chuỗi cung ứng toàn cầu, cải thiện hành vi và khả năng suy luận của trợ lý trò chuyện, thậm chí cả cải thiện một trong những vấn đề cổ nhất trong khoa học máy tính - thuật toán nhân ma trận.
Cuối cùng, công nghệ được một phần启发từ khoa học thần kinh này cũng đã đóng góp lại cho khoa học thần kinh. Các nghiên cứu gần đây, bao gồm cả công việc của Barto, cho thấy rằng các thuật toán học tập tăng cường cụ thể được phát triển trong trí tuệ nhân tạo cung cấp lời giải thích tốt nhất cho nhiều phát hiện về hệ thống dopamin trong não người.
Giới thiệu người nhận giải
Andrew Barto
Andrew Barto là Giáo sư Danh dự Nghỉ hưu của Khoa Khoa học Thông tin và Máy tính tại Đại học Massachusetts Amherst. Ông là Thành viên của IEEE và AAAS.
Barto nhận bằng cử nhân Toán học từ Đại học Michigan vào năm 1970. Sau khi đọc các tác phẩm của Michael Arbib và McCulloch và Pitts, ông đã phát triển sự quan tâm đến việc sử dụng máy tính và toán học để mô phỏng não bộ, và 5 năm sau đó, ông đã nhận được bằng tiến sĩ Khoa học Máy tính tại trường này với một luận văn về tế bào tự động.
Ông bắt đầu sự nghiệp tại Đại học Massachusetts Amherst với tư cách là nghiên cứu sinh sau tiến sĩ vào năm 1977, sau đó đảm nhiệm nhiều vị trí khác nhau, bao gồm Phó Giáo sư, Giáo sư và Trưởng Khoa.
Trước đây, ông đã nhận được nhiều giải thưởng, bao gồm Giải thưởng Thành tựu Trọn đời về Khoa học Thần kinh của Đại học Massachusetts, Giải thưởng Xuất sắc về Nghiên cứu của IJCAI và Giải thưởng Tiên phong của IEEE Neural Networks Society.
Richard Sutton
Richard Sutton là Giáo sư Khoa học Máy tính tại Đại học Alberta, Nhà khoa học nghiên cứu tại Keen Technologies, và Cố vấn Khoa học Trưởng tại Viện Trí tuệ Máy tính Alberta (Amii). Ông là Thành viên của AAAI, Hội Hoàng gia Anh và Hội Hoàng gia Canada.
Trong giai đoạn 2017-2023, ông đã từng là Nhà khoa học nghiên cứu xuất sắc tại DeepMind.
Trước khi gia nhập Đại học Alberta, ông đã từng là Chuyên gia Kỹ thuật Trưởng tại Phòng thí nghiệm AI của AT&T Shannon từ năm 1998 đến 2002.
Sutton nhận bằng cử nhân Tâm lý học từ Đại học Stanford và bằng thạc sĩ và tiến sĩ Khoa học Máy tính và Thông tin từ Đại học Massachusetts Amherst.
Các vinh dự mà Sutton đạt được bao gồm Giải thưởng Xuất sắc về Nghiên cứu của Liên minh Quốc tế về Trí tuệ Nhân tạo, Giải thưởng Thành tựu Trọn đời của Hiệp hội Trí tuệ Nhân tạo Canada và Giải thưởng Thành tựu Nghiên cứu Xuất sắc của Đại học Massachusetts Amherst.
Tài liệu tham khảo:
https://awards.acm.org/turing
Bài viết này được trích từ trang công khai WeChat của "新智元", tác giả: 新智元, biên tập: 编辑部 HNZ, được 36氪ủy quyền đăng tải.






