Các phòng thí nghiệm đang xem xét lại quy trình nghiên cứu AI khi nghiên cứu tự động bằng AI mang lại những lợi ích có thể đo lường được và đặt ra nhiều câu hỏi về các hệ thống tự động.
Trong những tuần gần đây, một thí nghiệm lan truyền trên mạng xã hội của Andrej Karpathy đã biến nghiên cứu tự động bằng trí tuệ nhân tạo từ một ý tưởng chuyên biệt thành một chủ đề thảo luận trọng tâm trong cộng đồng nghiên cứu trí tuệ nhân tạo.
Nguồn gốc khái niệm tự nghiên cứu của Karpathy
Đầu tháng này, Andrej Karpathy , một nhà nghiên cứu AI nổi tiếng và là một trong những người sáng lập OpenAI , đã chia sẻ một thí nghiệm ấn tượng trên X. Sau đó, ông đứng đầu bộ phận AI tại Tesla và hiện đang làm việc độc lập đồng thời điều hành Eureka Labs , một dự án xây dựng một loại trường học mới cho kỷ nguyên AI.
Karpathy, người có 1,9 triệu người theo dõi trên X, có tầm ảnh hưởng lớn đến mức hầu như bất kỳ bình luận nào về AI cũng lan truyền nhanh chóng. Tuy nhiên, bài đăng mới nhất của anh ấy nổi bật vì nó giới thiệu một hệ thống thực tiễn mà anh ấy đã xây dựng để tự động hóa nghiên cứu, mà anh ấy gọi là “tự động nghiên cứu” . Ý tưởng này nhanh chóng thu hút sự chú ý của cả những người thực hành và các nhà lý thuyết.
Trong thí nghiệm, Karpathy đã triển khai một tác nhân lập trình AI để chạy một chuỗi các bài kiểm tra nhằm cải thiện quá trình huấn luyện một mô hình ngôn ngữ nhỏ. Trong hai ngày liên tục, tác nhân này đã thực hiện 700 thí nghiệm , khám phá một cách có hệ thống các cấu hình huấn luyện để tìm ra các thiết lập tốt hơn.
Qua các thí nghiệm đó, thuật toán đã phát hiện ra 20 phương pháp tối ưu hóa giúp cải thiện hiệu quả huấn luyện. Hơn nữa, khi Karpathy áp dụng 20 điều chỉnh tương tự cho một mô hình ngôn ngữ lớn hơn, dù vẫn còn tương đối nhỏ, ông đã ghi nhận tốc độ huấn luyện tăng 11% . Sự gia tăng cụ thể này đã nhấn mạnh tiềm năng thực tiễn của phương pháp ông đề xuất.
Từ thí nghiệm trong phòng thí nghiệm đến mô hình nghiên cứu mới tiềm năng
Karpathy mô tả khung này như một công cụ nghiên cứu tổng quát để tối ưu hóa mã và mô hình. Điều quan trọng là, ông nhấn mạnh rằng tác nhân tự nghiên cứu không tự điều chỉnh mà chỉ điều chỉnh mã huấn luyện và các tham số mạng nơ-ron ban đầu của một mô hình AI khác, nhỏ hơn. Sự khác biệt này rất quan trọng đối với các cuộc thảo luận về an toàn, ngay cả khi những tác động đối với quy trình nghiên cứu là sâu rộng.
Ông lập luận rằng những công cụ như vậy có thể định hình lại cách các phòng thí nghiệm hàng đầu tiến hành nghiên cứu AI. “Tất cả các phòng thí nghiệm tiên phong của LLM sẽ làm điều này. Đó là trận chiến cuối cùng,” Karpathy viết trên X. Tuy nhiên, ông thừa nhận rằng việc mở rộng ý tưởng từ một dự án Python 630 dòng lên một cơ sở mã mô hình tiên phong lớn hơn nhiều lần sẽ dẫn đến sự phức tạp đáng kể.
Karpathy vẫn coi thách thức này là một vấn đề kỹ thuật hơn là một rào cản về mặt khái niệm. Theo ông, các phòng thí nghiệm sẽ tạo ra một loạt các tác nhân, cho chúng hợp tác để tinh chỉnh các mô hình nhỏ hơn, sau đó dần dần đưa những ý tưởng triển vọng nhất lên quy mô lớn hơn. Ông đề xuất rằng con người sẽ "tùy chọn" đóng góp ở các rìa, hướng dẫn và đánh giá thay vì tự tay lập trình mọi sửa đổi.
Hiện nay, phương pháp của ông tập trung vào một tác nhân duy nhất liên tục cải tiến mã nguồn theo một hướng nhất định. Tuy nhiên, trong tương lai, ông kỳ vọng nhiều tác nhân AI sẽ cùng lúc khám phá các giả thuyết và thí nghiệm khác nhau. Ông viết rằng bước tiếp theo của nghiên cứu tự động là trở thành một môi trường hợp tác quy mô lớn, bất đồng bộ dành cho các tác nhân, được thiết kế để mô phỏng một cộng đồng nghiên cứu chứ không phải chỉ một nghiên cứu sinh tiến sĩ đơn lẻ.
Phản ứng của ngành và bài kiểm tra Shopify
Thí nghiệm nhanh chóng vượt ra khỏi phạm vi lý thuyết khi Tobias Lütke , đồng sáng lập kiêm CEO của Shopify , quyết định thử nghiệm hệ thống trên dữ liệu của công ty. Lütke đã báo cáo trên X rằng ông đã sử dụng hệ thống này để tối ưu hóa mô hình AI nội bộ, hướng dẫn tác nhân cải thiện cả chất lượng và tốc độ. Điều này đã biến khái niệm này thành hiện thực đối với các ứng dụng doanh nghiệp.
Theo Lütke, sau khi để quá trình chạy qua đêm, tác nhân này đã thực hiện 37 thí nghiệm và mang lại hiệu suất tăng 19% . Tuy nhiên, ông không công bố đầy đủ chi tiết kỹ thuật, nhưng kết quả này đủ ấn tượng để làm dấy lên thêm nhiều suy đoán và kỳ vọng về tác động thương mại.
Sau đó, Karpathy nhận xét rằng bất kỳ chỉ số nào có thể đánh giá một cách hiệu quả đều có thể được nhắm mục tiêu bởi một nhóm tác nhân như vậy. Hơn nữa, ông lưu ý rằng nếu một chỉ số có một phương pháp thay thế rẻ hơn, chẳng hạn như huấn luyện một mạng nhỏ hơn thay vì một mạng lớn, thì nó vẫn có thể được tích hợp. Ông khuyến khích các nhà công nghệ xem xét liệu các vấn đề tối ưu hóa của riêng họ có thuộc phạm vi này hay không.
Mối liên hệ với giấc mơ và nỗi sợ hãi về trí tuệ nhân tạo tự cải tiến
Điều thực sự thu hút sự chú ý của công chúng là sự tương đồng đáng kể giữa điều này với ý tưởng về trí tuệ nhân tạo tự cải tiến đã được thảo luận từ lâu. Khoa học viễn tưởng thường miêu tả các hệ thống tự viết lại mã của chính chúng, trong khi một số nhà nghiên cứu hiện đại khao khát những khả năng như vậy và những người khác lại lo sợ chúng. Khái niệm tự cải tiến đệ quy có sức ảnh hưởng đặc biệt trong giới an toàn AI.
Trong các cuộc thảo luận đó, một mối lo ngại chính là trí tuệ nhân tạo (AI) có thể liên tục tối ưu hóa kiến trúc và dữ liệu huấn luyện của chính nó trong một vòng lặp. Qua nhiều chu kỳ, điều này có thể gây ra hiện tượng mà một số nhà nghiên cứu an toàn gọi là "cất cánh đột ngột" hay "bùng nổ trí tuệ". Trong trường hợp như vậy, AI có thể nhanh chóng vượt qua khả năng nhận thức của con người, khiến việc duy trì quyền kiểm soát có ý nghĩa trở nên khó khăn hoặc bất khả thi.
Tuy nhiên, cách thiết lập của Karpathy lại không đạt được bức tranh lý tưởng hoặc đáng báo động đó. Tác nhân mà ông sử dụng không sửa đổi quy trình huấn luyện của chính nó hoặc thay đổi cấu trúc bên trong của nó. Thay vào đó, nó đang viết lại mã huấn luyện và cài đặt mạng nơ-ron của một mô hình khác, đơn giản hơn. Sự tách biệt này giữ cho hệ thống hiện tại nằm trong khuôn khổ tối ưu hóa thông thường hơn, mặc dù hướng đi đã rõ ràng.
Tuy nhiên, nhiều nhà quan sát đã diễn giải công trình này như một cái nhìn sơ lược về cách các phòng thí nghiệm cuối cùng có thể điều phối các hệ thống tự động hơn. Hơn nữa, bằng cách làm cho việc thử nghiệm dựa trên tác nhân trở nên dễ tiếp cận và hiệu quả, dự án có thể thúc đẩy việc áp dụng các kiến trúc tương tự, bao gồm cả các vòng lặp tối ưu hóa hệ thống tác nhân tiên tiến hơn.
Vòng lặp Karpathy và các mô hình tác nhân tổng quát
Một số nhà phân tích nhấn mạnh rằng mô hình cốt lõi đằng sau dự án có thể được trừu tượng hóa và tái sử dụng. Janakiram MSV , nhà phân tích chính tại Janakiram & Associates , đã viết trên trang tin công nghệ The New Stack rằng Karpathy đã định nghĩa một vòng lặp có thể tái sử dụng một cách hiệu quả. Ông gọi nó là “Vòng lặp Karpathy” , gợi ý một khuôn mẫu cho các hệ thống tác nhân rộng lớn hơn.
Theo Janakiram, vòng lặp này có ba yếu tố thiết yếu. Thứ nhất, tác nhân phải có quyền truy cập vào một tệp duy nhất mà nó có thể tự do chỉnh sửa. Thứ hai, nó cần một chỉ số duy nhất, có thể kiểm chứng một cách khách quan để tối ưu hóa. Thứ ba, phải có giới hạn thời gian cố định cho mỗi thử nghiệm, hạn chế thời gian tác nhân có thể chạy một thử nghiệm nhất định trước khi báo cáo kết quả.
Ông cũng nhấn mạnh rằng các hướng dẫn mà Karpathy đã nhúng trong tệp cấu hình của mình cung cấp một mô hình mạnh mẽ về cách giao tiếp với bất kỳ tác nhân AI nào. Tệp văn bản thuần túy này đã chỉ rõ những gì tác nhân nên làm, những ràng buộc nào được áp dụng, những gì nó không được phép chạm vào và các tiêu chí dừng. Hơn nữa, nó đã xác định chính xác mỗi vòng lặp nên chạy trong bao lâu và khi nào tác nhân phải dừng lại và tóm tắt kết quả.
Các nhà bình luận cho rằng phong cách thiết kế phản hồi chính xác này đang trở thành một kỹ năng quan trọng. Mặc dù các mô hình cơ bản ngày càng mạnh mẽ hơn, việc kiểm soát hiệu quả vẫn phụ thuộc vào con người trong việc viết ra các chỉ thị rõ ràng, có cấu trúc, nhằm điều chỉnh quyền tự chủ của tác nhân phù hợp với các mục tiêu và giới hạn cụ thể.
So sánh Autoresearch với các phương pháp AutoML hiện có
Không phải ai cũng đồng ý rằng công trình của Karpathy là một bước đột phá. Một số nhà phê bình cho rằng ông đã tái khám phá các thành phần của AutoML , một tập hợp các kỹ thuật mà Google , Microsoft và các phòng thí nghiệm AI khác đã sử dụng trong nhiều năm. Các khung AutoML cũng thực hiện các thí nghiệm lặp đi lặp lại để tìm kiếm dữ liệu, kiến trúc và siêu tham số tốt hơn.
Các hệ thống AutoML cổ điển dựa rất nhiều vào các vòng lặp tối ưu hóa tự động và chiến lược tìm kiếm. Chúng khám phá kiến trúc mô hình, điều chỉnh siêu tham số và đôi khi chọn dữ liệu huấn luyện bằng cách sử dụng các biến thể ngẫu nhiên hoặc thuật toán tiến hóa. Tuy nhiên, chúng thường không bao gồm một tác nhân AI có thể đọc các bài báo nghiên cứu, thiết kế các giả thuyết mới và viết các thay đổi mã tùy ý để đáp ứng.
Karpathy phản bác những so sánh làm giảm thiểu sự khác biệt. Ông chỉ ra các phương pháp như tìm kiếm kiến trúc mạng thần kinh , một cách thức tự động hóa thiết kế mô hình. Theo ông, các hình thức ban đầu của kỹ thuật này còn yếu so với một tác nhân có khả năng suy luận dựa trên mã, học hỏi từ các thử nghiệm trước đó và lấy thông tin từ internet.
Ông mô tả việc tìm kiếm kiến trúc mạng thần kinh dựa trên lịch sử là “một phiên bản yếu kém đến mức hoàn toàn vô dụng khi so sánh”. Hơn nữa, ông nhấn mạnh rằng hệ thống của mình sử dụng một mô hình ngôn ngữ lớn để viết mã tùy ý, diễn giải kết quả từ các thí nghiệm trước đó và điều chỉnh chiến lược ngay lập tức, khiến nó linh hoạt hơn nhiều so với các quy trình tìm kiếm kiến trúc mạng thần kinh tự động truyền thống.
Nhìn về phía trước với các đợt tấn công ồ ạt và tác động rộng hơn
Khi sự chú ý ngày càng tăng, một số nhà nghiên cứu đang tìm hiểu cách mở rộng các ý tưởng thí nghiệm tự nghiên cứu Karpathy thành các bầy tác nhân hoàn chỉnh. Tầm nhìn là một mạng lưới các tác nhân chuyên biệt phân chia nhiệm vụ, kiểm tra chéo kết quả và đề xuất các phương pháp tiếp cận mới, trong khi con người đặt ra các mục tiêu và giới hạn cấp cao. Điều này có thể làm thay đổi quy trình làm việc của AI trong cả lĩnh vực học thuật và công nghiệp.
Tuy nhiên, việc mở rộng quy mô các bầy tác nhân đặt ra nhiều câu hỏi về an toàn, độ tin cậy và quản trị. Các nhà quan sát lo ngại về rủi ro tự cải tiến theo kiểu đệ quy cảnh báo rằng khi các hệ thống này có được quyền tự chủ và ảnh hưởng lớn hơn đối với cơ sở hạ tầng quan trọng, việc giám sát cẩn thận sẽ là điều thiết yếu. Việc duy trì các chỉ số đánh giá mạnh mẽ và sự xem xét của con người ở mỗi bước thăng tiến sẽ rất quan trọng.
Hiện tại, dự án của Karpathy vẫn chỉ là một minh họa tương đối đơn giản về cách các mô hình ngôn ngữ có thể tiến hành các thí nghiệm tự nghiên cứu trên các cơ sở mã nguồn khiêm tốn. Tuy nhiên, phản ứng từ những nhân vật như Lütke và các nhà phân tích trong ngành cho thấy rằng mô hình cơ bản này có thể lan rộng nhanh chóng, làm mờ ranh giới giữa các nhà nghiên cứu con người và các tập thể tác nhân tự động.
Tóm lại, công trình nghiên cứu tự động của Karpathy chứng minh rằng một tác nhân được cấu hình tốt có thể phát hiện ra những cải tiến hiệu suất có thể đo lường được chỉ trong vài ngày, chứ không phải vài tháng. Hơn nữa, khi các phòng thí nghiệm đẩy mạnh các kỹ thuật này hướng tới các mô hình lớn hơn và các bầy đàn đa tác nhân, chúng có thể mở khóa những khả năng mới mạnh mẽ đồng thời làm gia tăng các cuộc tranh luận lâu nay về tính tự chủ, khả năng kiểm soát và hướng đi tương lai của nghiên cứu trí tuệ nhân tạo.






