Dương Lập Khôn: Thật vô lý khi chỉ dựa vào LLM để đạt được AGI. Tương lai của AI đòi hỏi mô hình thế giới JEPA (phỏng vấn 10.000 từ tại hội nghị GTC)

04-19

Bài viết này được dịch máy

Xem bản gốc

Mục lục bài viết này

Vào thời điểm các mô hình ngôn ngữ lớn (LLM) đang thúc đẩy quá trình áp dụng AI trên toàn thế giới, Yann LeCun, được biết đến là cha đẻ của mạng nơ-ron tích chập và là nhà khoa học AI trưởng hiện tại tại Meta, gần đây đã đưa ra một tuyên bố đáng ngạc nhiên rằng sự quan tâm của ông đối với LLM đã giảm sút và ông thậm chí còn cho rằng LLM đã đạt đến điểm nghẽn trong quá trình phát triển.

Nó đã gây ra cuộc thảo luận rộng rãi trong cộng đồng trí tuệ nhân tạo.

Trong cuộc trò chuyện độ sâu với Nhà khoa học trưởng của NVIDIA Bill Dally vào tháng trước, LeCun đã trình bày chi tiết nhận xét độc đáo của mình về hướng phát triển tương lai của AI, nhấn mạnh tầm quan trọng của việc hiểu thế giới vật lý, trí nhớ bền bỉ, khả năng lập luận và lập kế hoạch, cũng như hệ sinh thái mã nguồn mở, đây chính là chìa khóa để dẫn đầu làn sóng cách mạng AI tiếp theo. Sau đây là tóm tắt những điểm chính dành cho bạn.

Bill Dally: Yann, rất nhiều điều thú vị đã xảy ra trong lĩnh vực AI trong năm qua. Theo bạn, sự phát triển thú vị nhất trong năm qua là gì?

Yann LeCun: Quá nhiều không thể đếm xuể, nhưng tôi sẽ nói cho bạn biết một điều có thể khiến một số bạn ngạc nhiên. Tôi không còn hứng thú với Mô hình ngôn ngữ lớn (LLM) nữa.

LLM nằm ở cuối phổ và nằm trong tay những người làm sản phẩm trong ngành, chỉ cải tiến chúng ở mức độ nhất định, cố gắng thu thập thêm dữ liệu, tăng sức mạnh tính toán và tạo ra dữ liệu tổng hợp. Tôi cho rằng có bốn lĩnh vực có nhiều câu hỏi thú vị hơn:

Không nhiều người nói về cách làm cho máy móc hiểu được thế giới vật lý, cách làm cho chúng có trí nhớ liên tục và hai điều cuối cùng là cách làm cho chúng lý luận và lập kế hoạch.

Tất nhiên, có một số nỗ lực để khiến LLM có thể lập luận, nhưng theo tôi đây là cách đơn giản hóa rất nhiều khi ứng xử lập luận. Tôi cho rằng có thể có phương pháp tốt hơn để thực hiện việc này. Vì vậy, tôi rất hào hứng về những điều mà nhiều người trong cộng đồng công nghệ có thể không hứng thú cho đến tận năm năm sau. Nhưng hiện nay, chúng không còn thú vị nữa vì chúng chỉ là những bài báo học thuật ít người biết đến.

Mô hình thế giới và sự hiểu biết về thế giới vật lý

Bill Dally: Nhưng nếu đó không phải là lý luận LLM về thế giới vật chất, có trí nhớ và khả năng lập kế hoạch liên tục, thì đó là gì? Mô hình cơ bản sẽ như thế nào?

Yann LeCun: Vậy thì có rất nhiều người đang làm việc trên các mô hình thế giới. Mô hình thế giới là gì?

Chúng ta đều có những mô hình về thế giới trong đầu. Về cơ bản, đây chính là cách cho phép chúng ta điều khiển suy nghĩ. Chúng ta có mô hình thế giới như hiện tại. Bạn biết đấy, nếu tôi đẩy cái chai này từ trên xuống, khả năng cao là nó sẽ sụp đổ, nhưng nếu tôi đẩy nó từ dưới lên, nó sẽ trượt. Nếu tôi ấn quá mạnh, nó có thể nổ.

Xnip2025-04-19_12-55-24 | Dynamic Zone Trends-Phương tiện truyền thông tin tức blockchain có ảnh hưởng nhất — Ảnh chụp màn hình cuộc phỏng vấn Yann LeCun

Chúng ta có những mô hình về thế giới vật chất, được hình thành trong những tháng đầu đời, giúp chúng ta ứng phó với thế giới thực. Đối phó với thế giới thực khó khăn hơn nhiều so với đối phó với ngôn ngữ. Chúng ta cần một kiến trúc hệ thống có thể xử lý được các hệ thống thực tế hoàn toàn khác biệt so với những gì chúng ta đang xử lý hiện nay. LLM dự đoán token, nhưng token có thể là bất cứ thứ gì. Mô hình xe tự lái của chúng tôi sử dụng mã thông báo từ cảm biến và tạo ra mã thông báo để điều khiển xe. Theo một nghĩa nào đó, đó là lý luận về thế giới vật chất, ít nhất là về nơi nào an toàn để lái xe và nơi nào bạn sẽ không đâm vào cột điện.

Bill Dally: Tại sao token không phải là cách đúng đắn để biểu thị thế giới vật chất?

Yann LeCun: Các token là riêng biệt. Khi chúng ta nói về token, chúng ta thường muốn nói đến một tập hợp hữu hạn các khả năng. Trong một LLM thông thường, số lượng mã thông báo có thể là khoảng 100.000. Khi bạn đào tạo một hệ thống để dự đoán một mã thông báo, bạn không bao giờ có thể đào tạo nó để dự đoán chính xác mã thông báo tiếp theo trong một chuỗi văn bản.

Bạn có thể tạo ra một phân phối xác suất cho tất cả các mã thông báo có thể có trong từ điển của mình, đây chỉ là một vectơ dài gồm 100.000 số từ 0 đến 1 có tổng bằng 1. Chúng ta biết cách thực hiện điều đó, nhưng chúng ta không biết cách thực hiện với phim ảnh, với dữ liệu vốn có tính đa chiều và liên tục. Mọi nỗ lực để hệ thống có thể hiểu thế giới hoặc xây dựng mô hình tinh thần về thế giới bằng cách đào tạo hệ thống để dự đoán phim ở cấp độ pixel đều phần lớn đã thất bại.

Ngay cả khi đào tạo một hệ thống như một loại mạng nơ-ron để học cách biểu diễn hình ảnh tốt, thì mọi kỹ thuật hoạt động bằng cách tái tạo hình ảnh từ các phiên bản bị hỏng hoặc bị biến đổi đều thất bại. Chúng hoạt động phần nào, nhưng không tốt bằng kiến trúc thay thế mà chúng tôi gọi là nhúng chung, về cơ bản không cố gắng tái tạo ở cấp độ pixel. Họ cố gắng học cách biểu diễn trừu tượng của hình ảnh, bộ phim hoặc tín hiệu tự nhiên mà bạn đang luyện tập, để bạn có thể đưa ra dự đoán trong không gian biểu diễn trừu tượng đó.

Yann LeCun: Ví dụ tôi thường dùng là nếu tôi quay một bộ phim về căn phòng này, di chuyển máy quay và dừng lại ở đây, sau đó yêu cầu hệ thống dự đoán phần còn lại của bộ phim sẽ như thế nào, hệ thống có thể dự đoán rằng đây là một căn phòng, có người đang ngồi trong đó, v.v. Nó không thể dự đoán được ngoại hình của mỗi người. Điều này hoàn toàn không thể đoán trước được từ những đoạn clip đầu của bộ phim.

Có nhiều điều trên thế giới này không thể đoán trước được. Nếu bạn đào tạo một hệ thống để đưa ra dự đoán ở cấp độ pixel, nó sẽ dành toàn bộ tài nguyên để cố gắng tìm ra những chi tiết mà nó không thể tự phát minh ra. Đây là sự lãng phí tài nguyên hoàn toàn. Mỗi lần chúng tôi thử, và tôi đã làm việc về vấn đề này trong 20 năm, để đào tạo một hệ thống sử dụng phương pháp học tự giám sát để dự đoán phim, thì đều không thành công. Nó chỉ có hiệu quả nếu được thực hiện ở cấp độ trình bày. Điều này có nghĩa là những kiến trúc đó không có khả năng sinh sản.

Bill Dally: Về cơ bản, nếu bạn muốn nói rằng máy biến áp không có khả năng này, nhưng mọi người có máy biến áp thị giác và đã đạt được kết quả rất tốt.

Yann LeCun: Ý tôi không phải vậy, vì bạn có thể sử dụng máy biến áp cho mục đích đó. Bạn có thể đặt máy biến áp vào những kiến trúc đó. Vấn đề là loại kiến trúc mà tôi đang nói đến được gọi là kiến trúc dự đoán nhúng chung. Vì vậy, hãy lấy một đoạn phim hoặc hình ảnh hoặc bất kỳ thứ gì, chạy nó qua bộ mã hóa, bạn sẽ có được một biểu diễn, sau đó lấy phần tiếp theo của phiên bản đã chuyển đổi của văn bản hoặc phim hoặc hình ảnh đó, chạy nó qua bộ mã hóa và bây giờ hãy thử đưa ra dự đoán trong không gian biểu diễn đó, thay vì trong không gian đầu vào.

Bạn có thể sử dụng cùng một phương pháp đào tạo, đó là điền vào chỗ trống, nhưng bạn thực hiện trong không gian tiềm ẩn này thay vì trong biểu diễn ban đầu.

Yann LeCun: Khó khăn là nếu bạn không cẩn thận và không sử dụng các kỹ thuật thông minh, hệ thống sẽ bị phá vỡ. Nó hoàn toàn bỏ qua dữ liệu đầu vào và chỉ tạo ra một biểu diễn hằng số không chứa nhiều thông tin về dữ liệu đầu vào. Cho đến năm hoặc sáu năm trước, chúng ta vẫn chưa có công nghệ nào có thể ngăn chặn điều này xảy ra.

Bây giờ, nếu bạn muốn sử dụng điều này cho một hệ thống tác nhân, hoặc một hệ thống có thể suy luận và lập kế hoạch, thì bạn cần một công cụ dự đoán. Khi xem một đoạn video, nó có một số ý tưởng về tình trạng của thế giới, tình trạng hiện tại của thế giới và điều nó cần làm là dự đoán tình trạng tiếp theo của thế giới sẽ như thế nào, giả sử rằng tôi có thể thực hiện một hành động mà tôi đang tưởng tượng.

Vì vậy, bạn cần một công cụ dự đoán có thể dự đoán trạng thái tiếp theo của thế giới dựa trên tình trạng của thế giới và hành động mà bạn tưởng tượng. Nếu bạn có một hệ thống như vậy, bạn có thể lập kế hoạch cho sê-ri các hành động để đạt được kết quả cụ thể. Đây thực sự là cách chúng ta lập kế hoạch và lý luận. Chúng tôi không thực hiện điều này trong không gian mã thông báo.

Yann LeCun: Tôi xin đưa ra một ví dụ rất đơn giản. Có rất nhiều hệ thống lý luận dựa trên tác nhân, và cách chúng hoạt động là sử dụng phương pháp tạo ngẫu nhiên các mã thông báo khác nhau, tạo ra lượng lớn lượng lớn các chuỗi mã thông báo, sau đó có một mạng nơ-ron thứ hai cố gắng chọn chuỗi tốt nhất từ tất cả các chuỗi được tạo ra. Điều này cũng giống như việc viết một chương trình mà không biết cách viết chương trình vậy.

Việc viết một chương trình ngẫu nhiên rồi kiểm tra tất cả và giữ lại chương trình đưa ra cho bạn câu trả lời đúng là hoàn toàn vô vọng.

Bill Dally: Vâng, thực ra có một số bài báo về siêu tối ưu hóa gợi ý thực hiện điều đó.

Yann LeCun: Đối với các chương trình ngắn thì có thể, nhưng khi độ dài tăng trưởng theo cấp số nhân, sau một thời gian, bạn sẽ thấy hoàn toàn vô vọng.

Tác giả bổ sung thêm hiểu biết của tôi: Nói một cách đơn giản, mô hình LLM hiện tại chơi trò chơi xác suất, chọn ra câu trả lời tốt nhất có thể từ một lượng lớn các lựa chọn văn bản. Tuy nhiên, Yann LeCun cho rằng thế giới thực có quá nhiều biến số và quá phức tạp, và bước tiếp theo của mô hình là có khả năng tự dự đoán tương lai. Giống như một đứa trẻ học được từ cuộc sống rằng nếu bạn thả một quả bóng, nó sẽ rơi xuống đất, và nếu bạn đến gần lửa, bạn sẽ cảm thấy nóng... Mặc dù đứa trẻ không hiểu được những nguyên tắc đằng sau điều đó, nhưng nó có thể có được khả năng dự đoán từ kinh nghiệm sống.

Triển vọng và thách thức của AGI/AMI

Bill Dally: Vâng, nhiều người nói rằng AGI, hay tôi đoán bạn có thể gọi là AMI, sắp xuất hiện. Bạn nghĩ sao? Bạn cho rằng nó sẽ xuất hiện khi nào và tại sao? Khoảng cách ở đâu?

Yann LeCun: Tôi không thích thuật ngữ AGI vì mọi người dùng nó để chỉ các hệ thống có trí thông minh ngang bằng con người, trong khi trí thông minh của con người, thật đáng buồn, lại cực kỳ chuyên biệt. Vì vậy, gọi nó là chung chung là không đúng. Tôi thích cụm từ AMI, viết tắt của trí thông minh máy móc tiên tiến.

Đây chỉ là vấn đề về từ vựng, và tôi cho rằng rằng khái niệm mà tôi đã mô tả, về các hệ thống có thể học các mô hình tinh thần trừu tượng về thế giới và sử dụng chúng để lập luận và lập kế hoạch, tôi cho rằng rằng chúng ta có thể nắm bắt tốt cách thức để làm cho nó hoạt động, ít nhất là ở quy mô nhỏ, trong vòng ba đến năm năm nữa. Sau đó, chúng ta sẽ phải mở rộng quy mô cho đến khi đạt được AI ở cấp độ con người.

Yann LeCun: Vấn đề ở đây là: trong suốt lịch sử của AI, nhiều thế hệ các nhà nghiên cứu AI đã khám phá ra một mô hình mới và tuyên bố rằng đây chính là mô hình đó. Trong mười năm nữa, chúng ta sẽ có trí thông minh ngang bằng con người. Chúng ta sẽ có những cỗ máy thông minh hơn con người trong mọi lĩnh vực. Hiện tượng này đã diễn ra trong 70 năm, với tần suất xảy ra khoảng 10 năm một lần.

Sóng hiện tại cũng sai. Cho rằng bạn có thể đạt được trí thông minh ở cấp độ con người chỉ bằng cách mở rộng quy mô LLM, hoặc để họ tạo ra hàng nghìn chuỗi mã thông báo và chọn ra những chuỗi tốt, và trong vài năm nữa bạn sẽ có một quốc gia toàn thiên tài trong một trung tâm dữ liệu, trích lời một người giấu tên, là vô nghĩa. Thật vô lý.

Chắc chắn, đối với nhiều ứng dụng, các hệ thống trong tương lai gần sẽ đạt trình độ tiến sĩ, nhưng xét về trí thông minh tổng thể thì không, chúng ta thậm chí còn chưa đạt tới trình độ đó. Nhưng khi tôi nói xa xôi, điều đó có thể xảy ra trong khoảng mười năm nữa.

Bill Dally: Không còn xa nữa đâu. AI đã được ứng dụng theo nhiều cách để cải thiện tình trạng của con người và giúp cuộc sống dễ dàng hơn. Bạn cho rằng ứng dụng AI nào là hấp dẫn và có lợi nhất?

Yann LeCun: Tôi cho rằng tác động của AI đối với khoa học và y học có thể sẽ lớn hơn nhiều so với những gì chúng ta có thể tưởng tượng hiện nay, mặc dù nó đã khá lớn rồi. Không chỉ trong nghiên cứu như gấp protein và thiết kế thuốc, mà còn trong việc tìm hiểu cơ chế của sự sống. Và có rất nhiều hậu quả ngắn hạn. Hiện nay ở Hoa Kỳ, khi chụp ảnh y tế, người ta thường sử dụng AI. Nếu là chụp nhũ ảnh, nhiều khả năng là nó đã được sàng lọc trước bằng hệ thống học độ sâu để phát hiện khối u. Nếu bạn sử dụng máy chụp MRI, thời gian bạn phải dành trong máy chụp MRI đã giảm khoảng bốn lần vì hiện nay chúng ta có thể khôi phục hình ảnh MRI có độ phân giải cao với ít dữ liệu hơn nhiều. Vì vậy, có rất nhiều hậu quả ngắn hạn.

Yann LeCun: Chắc chắn rồi, mọi chiếc xe của chúng tôi và NVIDIA là một trong những nhà cung cấp lớn trong lĩnh vực này, hiện đều có ít nhất một hệ thống hỗ trợ người lái hoặc hệ thống phanh khẩn cấp tự động. Những điều này đã trở thành bắt buộc ở Châu Âu trong nhiều năm. Những điều này làm giảm 40 phần trăm va chạm. Họ cứu vãn sống con người. Đây là những ứng dụng rất lớn.

Rõ ràng, đây không phải là AI tạo ra; đây là nhận thức và bây giờ là một số khả năng kiểm soát chiếc xe. LLM có nhiều ứng dụng trong các lĩnh vực như công nghiệp và dịch vụ hiện đang hoặc sẽ có trong vài năm tới, nhưng chúng ta cũng phải cân nhắc đến những hạn chế của nó. Việc triển khai và thực hiện một hệ thống đạt được mức độ chính xác và độ tin cậy mong muốn khó hơn nhiều so với những gì hầu hết mọi người tưởng tượng. Chắc chắn đây là trường hợp của xe tự lái. Mốc thời gian để đạt được công nghệ lái xe tự động cấp độ 5 đang ngày càng thu hẹp. Tôi cho rằng nó sẽ giống vậy. AI thường thất bại không phải ở công nghệ cơ bản hay bản demo hào nhoáng, mà là khi bạn thực sự phải triển khai, áp dụng và làm cho nó đủ tin cậy để tích hợp với các hệ thống hiện có.

Đó chính là lý do khiến việc này trở nên khó khăn, tốn kém và mất nhiều thời gian hơn dự kiến.

Bill Dally: Tất nhiên, trong một ứng dụng như xe tự lái, nơi mọi thứ phải luôn chính xác, nếu không sẽ có người bị thương hoặc tử vong, thì mức độ chính xác phải gần như hoàn hảo. Nhưng có nhiều ứng dụng mà nếu nó thực hiện đúng hầu hết các lần thì có thể mang lại rất nhiều lợi ích. Ngay cả với một số ứng dụng y tế, khi bạn có bác sĩ kiểm tra lần, hoặc chắc chắn là giải trí và giáo dục, bạn chỉ muốn lợi ích lớn hơn tác hại và hậu quả của việc làm sai không gây ra thảm họa.

Yann LeCun: Tất nhiên rồi. Đối với hầu hết các hệ thống này, hệ thống hữu ích nhất là hệ thống giúp mọi người làm việc hiệu quả và sáng tạo hơn. Ví dụ, một trợ lý mã hóa để hỗ trợ họ trong việc mã hóa. Điều này đúng trong y học, trong nghệ thuật và trong việc tạo ra văn bản. AI không thay thế con người; nó cung cấp cho họ những công cụ mạnh mẽ.

Vâng, nó có thể thay thế vào một thời điểm nào đó, nhưng tôi không cho rằng mọi người sẽ chấp nhận nó. Mối quan hệ của chúng ta với các hệ thống AI trong tương lai, bao gồm cả siêu trí tuệ, là chúng ta sẽ là ông chủ của chúng. Chúng ta sẽ có một nhóm người ảo siêu thông minh làm việc cho chúng ta. Tôi không biết bạn thế nào, nhưng tôi thích làm việc với những người thông minh hơn tôi. Đó là điều tuyệt vời nhất trên thế giới.

Bill Dally: Ngược lại, AI có thể mang lại nhiều lợi ích cho nhân loại theo nhiều cách, nhưng nó cũng có mặt tối, khi mọi người sẽ sử dụng nó để tạo ra thông tin ngụy tạo độ sâu tin tức giả mạo, và nếu không được sử dụng đúng cách, nó có thể gây ra đau khổ về mặt cảm xúc. Mối quan tâm lớn nhất của bạn về việc sử dụng AI là gì? Làm sao chúng ta có thể giảm bớt những lo lắng này?

Yann LeCun: Một điều mà Meta rất quen thuộc là sử dụng AI như một biện pháp đối phó với các cuộc tấn công thù địch, bất kể những cuộc tấn công đó có đến từ AI hay không. Một điều có thể gây ngạc nhiên là mặc dù LLM và nhiều độ sâu khác đã xuất hiện trong nhiều năm, nhưng các đồng nghiệp chịu trách ngụy tạo phát hiện và loại bỏ các loại tấn công này đã nói với chúng tôi rằng chúng tôi không thấy có sự gia tăng lớn về nội dung được tạo ra và đăng trên mạng xã hội, hoặc ít nhất là không theo cách độc hại. Thông thường, nó sẽ được đánh dấu là tổng hợp. Vì vậy, chúng ta không thấy được tất cả các kịch bản thảm khốc mà mọi người đã cảnh báo cách đây ba hoặc bốn năm, nói rằng điều này sẽ phá hủy hệ thống thông tin và truyền thông.

Yann LeCun: Tôi muốn kể cho bạn nghe một câu chuyện vui. Vào mùa thu năm 2022, các đồng nghiệp của tôi tại Meta, một đội ngũ nhỏ, đã cùng nhau xây dựng một chương trình LLM được đào tạo dựa trên toàn bộ tài liệu khoa học. Tất cả các tài liệu kỹ thuật mà họ có thể có được. Nó được gọi là Galactica và họ đã phát hành một bài báo dài mô tả cách nó được đào tạo, mã mã nguồn mở và một hệ thống demo mà bạn có thể thử nghiệm.

Điều này đã bị chỉ trích dữ dội trên Twitter. Mọi người nói, "Ồ, điều này thật kinh khủng. Điều này sẽ giết chết chúng ta. Nó sẽ phá hủy hệ thống truyền thông khoa học. Bây giờ bất kỳ kẻ ngốc nào cũng có thể viết một bài báo nghe giống như một bài báo khoa học về lợi ích của việc ăn thủy tinh vỡ hay gì đó." Làn sóng ý kiến tiêu cực lớn đến nỗi những người đồng nghiệp tội nghiệp của tôi, một nhóm năm người, không thể ngủ được vào ban đêm. Họ đã gỡ bản demo xuống, để lại mã mã nguồn mở và các giấy tờ, nhưng chúng tôi kết luận rằng thế giới chưa sẵn sàng cho công nghệ này và không ai quan tâm.

Yann LeCun: Ba tuần sau, ChatGPT xuất hiện, giống như sự lần lâm của Đấng cứu thế. Chúng tôi nhìn nhau và hỏi: "Chuyện gì vừa xảy ra thế?" Chúng tôi không thể hiểu được sự nhiệt tình của công chúng đối với điều này, khi xem xét phản ứng đối với Galactica.

Bill Dally: Phần lớn là vấn đề về nhận thức. GPT không cố gắng viết các bài báo học thuật hoặc thực hiện nghiên cứu khoa học; đó là thứ bạn có thể nói chuyện và hỏi bất kỳ câu hỏi nào, cố gắng nói một cách tổng quát hơn. Theo một cách nào đó, nó hữu ích hơn với nhiều người hơn hoặc gần như hữu ích.

Yann LeCun: Chắc chắn là có nguy hiểm và có nhiều hành vi lạm dụng khác nhau. Nhưng giải pháp cho tình trạng lạm dụng này chính là AI tốt hơn. Như tôi đã nói trước đây, có những hệ thống không đáng tin cậy. Phương pháp cho vấn đề này là các hệ thống AI tốt hơn có óc phán đoán, kỹ năng lập luận, khả năng kiểm tra xem câu trả lời có đúng không và khả năng đánh giá độ tin cậy của câu trả lời của chính chúng, nhưng hiện tại vẫn chưa làm được như vậy. Nhưng thành thật mà nói, tôi không tin vào những kịch bản thảm khốc đó. Mọi người sẽ thích nghi. Tôi có xu hướng cho rằng AI nói chung là tốt, ngay cả khi có một số điều xấu xen lẫn trong đó.

Tầm quan trọng và tương lai của nguồn mở

Bill Dally: Là người sống ở cả hai bờ Đại Tây Dương, ông có góc nhìn rất toàn cầu. Bạn cho rằng những đổi mới về AI trong tương lai sẽ đến từ đâu?

Yann LeCun: Nó có thể đến từ bất cứ đâu. Người thông minh có ở khắp mọi nơi. Không ai có độc quyền về những ý tưởng hay. Một số người có mặc cảm tự tôn rất lớn cho rằng họ có thể nghĩ ra mọi ý tưởng hay mà không cần nói chuyện với bất kỳ ai. Theo kinh nghiệm của tôi với tư cách là một nhà khoa học, điều này không đúng.

Những ý tưởng hay xuất phát từ sự tương tác và trao đổi ý tưởng giữa nhiều người. Trong thập kỷ trở lại đây, việc truyền đạt mã cũng trở nên quan trọng. Đây là một trong những lý do tại sao tôi ủng hộ mạnh mẽ các nền tảng AI mã nguồn mở và tại sao Meta đã áp dụng triết lý này ở một mức độ nào đó. Chúng ta không độc quyền về những ý tưởng hay, mặc dù chúng ta cho rằng mình như vậy. Câu chuyện gần đây về DeepSeek thực sự cho thấy những ý tưởng hay có thể đến từ bất cứ đâu.

Yann LeCun: Có rất nhiều nhà khoa học xuất sắc ở Trung Quốc. Một câu chuyện mà nhiều người nên biết là nếu bạn tự hỏi, bài báo nào được trích dẫn nhiều nhất trong mọi lĩnh vực khoa học trong 10 năm qua? Bài báo đó được xuất bản vào năm 2015, cách đây đúng 10 năm. Bài viết này nói về một kiến trúc mạng nơ-ron đặc biệt có tên là ResNet hay mạng dư thừa, xuất phát từ Microsoft Research Asia ở Bắc Kinh và được một nhóm các nhà khoa học Trung Quốc đề xuất.

Tác giả chính là Kaiming He. Một năm sau, ông gia nhập phòng thí nghiệm FAIR của Meta ở California, nơi ông làm việc khoảng tám năm và gần đây chuyển đến Học viện Công nghệ Massachusetts (MIT). Điều này cho thấy có rất nhiều nhà khoa học giỏi trên khắp thế giới và ý tưởng có thể đến từ bất cứ đâu. Nhưng để thực sự đưa những ý tưởng này vào thực tế, bạn cần một cơ sở hạ tầng khổng lồ, lượng lớn tài nguyên máy tính và bạn cần phải đưa cho bạn bè và đồng nghiệp của mình nhiều tiền để mua các tài nguyên cần thiết. Việc có một cộng đồng trí thức cởi mở giúp tiến trình diễn ra nhanh hơn vì có người đưa ra một nửa ý tưởng hay và người khác đưa ra nửa còn lại. Nếu họ giao tiếp, mọi chuyện sẽ xảy ra. Nếu tất cả đều khép kín và tách biệt thì sẽ không có tiến bộ.

Yann LeCun: Một điều nữa là để những ý tưởng sáng tạo xuất hiện, với tư cách là nhà khoa học trưởng tại NVIDIA, bạn cần để mọi người thực sự sáng tạo, thay vì buộc họ phải đưa ra thứ gì đó sau mỗi ba tháng hoặc sáu tháng. Về cơ bản, đây chính là trường hợp của DeepSeek và LLaMA.

Một câu chuyện ít được biết đến hơn là có một số chương trình LLM tại FAIR 2022. Một chương trình có lượng lớn nguồn lực và sự hỗ trợ về mặt lãnh đạo, chương trình còn lại là một dự án "cướp biển" nhỏ của một chục người ở Paris quyết định xây dựng chương trình LLM của riêng họ vì họ cần nó vì một lý do nào đó. Dự án đó đã trở thành LLaMA, và dự án lớn mà bạn chưa từng nghe đến đã bị dừng lại.

Vì vậy, ngay cả khi bạn không có đủ sự hỗ trợ, bạn vẫn có thể đưa ra những ý tưởng tuyệt vời. Nếu bạn bị tách biệt khỏi ban quản lý ở một mức độ nào đó và họ để bạn làm việc một mình, bạn có khả năng đưa ra những ý tưởng tốt hơn so với khi bạn được yêu cầu sáng tạo theo một lịch trình nhất định. Hàng chục người đã phát triển LLaMA và sau đó quyết định chọn nó làm nền tảng. Một đội ngũ đã được thành lập xung quanh dự án này để phát triển LLaMA 2, sau đó đã trở mã nguồn mở và tạo nên một cuộc cách mạng nhỏ trong bối cảnh ngành. Tính đến ngày hôm qua, LLaMA đã được tải xuống hơn 1 tỷ lần. Tôi nghĩ điều này thật tuyệt vời. Tôi cho trong đó có nhiều người trong số các bạn ở đây, nhưng những người đó là ai? Ý tôi là, bạn hẳn phải biết họ vì tất cả họ đều phải mua phần cứng NVIDIA để chạy những thứ đó. Chúng tôi cảm ơn (Nvidia) vì đã bán tất cả các GPU này.

Bill Dally: Chúng ta hãy nói thêm về mã nguồn mở. Tôi cho rằng LLaMA thực sự là một sáng kiến đột phá về mặt này vì đây là LLM hiện đại và cung cấp tỷ trọng mở để mọi người có thể tải xuống và tự chạy. Ưu và nhược điểm của việc này là gì? Rõ ràng là công ty đã đầu tư một số tiền rất lớn để phát triển mô hình, đào tạo mô hình và tinh chỉnh mô hình, sau đó cung cấp miễn phí. Lợi ích của việc làm này là gì? Nhược điểm là gì?

Yann LeCun: Vâng, tôi cho rằng có một số nhược điểm. Nếu bạn là một công ty mong muốn kiếm thu nhập trực tiếp từ dịch vụ, có thể sẽ không có lợi cho bạn khi tiết lộ mọi bí mật nếu đó là việc kinh doanh duy nhất của bạn. Nhưng nếu bạn là một công ty như Meta hay Google, thu nhập đến từ các nguồn khác: quảng cáo trong trường hợp của Meta, nhiều nguồn khác nhau trong trường hợp của Google, thì điều quan trọng không phải là bạn có thể tạo ra bao nhiêu thu nhập trong ngắn hạn, mà là liệu bạn có thể xây dựng các tính năng cần thiết cho sản phẩm bạn muốn xây dựng và có được những người thông minh nhất trên thế giới đóng góp vào đó hay không.

Đối với Meta, sẽ không có hại gì nếu một công ty khác sử dụng LLaMA cho các mục đích khác, vì họ không có mạng xã hội để xây dựng trên đó. Điều này đe dọa Google hơn vì bạn có thể sử dụng nó để xây dựng một công cụ tìm kiếm, đó có lẽ là lý do tại sao họ không quá tích cực với phương pháp này.

Yann LeCun: Một điều khác mà chúng tôi thấy được tác động, đầu tiên là với PyTorch và bây giờ là LLaMA, là họ khởi động toàn bộ hệ sinh thái của các công ty khởi nghiệp mới. Chúng ta đang chứng kiến điều này trong ngành công nghiệp lớn hơn hiện nay, nơi mọi người đôi khi sẽ tạo nguyên mẫu hệ thống AI bằng cách sử dụng API độc quyền, nhưng khi đến lúc triển khai, cách tiết kiệm chi phí nhất để thực hiện là trên LLaMA vì bạn có thể chạy tại chỗ hoặc trên một số nền tảng mã nguồn mở khác. Về mặt triết học, tôi cho rằng yếu tố quan trọng nhất, lý do quan trọng nhất để muốn có một nền tảng mã nguồn mở là trong một thời gian rất ngắn, mọi tương tác của chúng ta với thế giới số sẽ được trung gian hóa bởi các hệ thống AI. Bây giờ tôi đeo kính thông minh Ray-Ban Meta và thông qua đó tôi có thể nói chuyện với Meta AI và hỏi nó bất kỳ câu hỏi nào.

Yann LeCun: Chúng tôi không tin rằng mọi người sẽ muốn có một trợ lý duy nhất và những trợ lý đó sẽ đến từ một số ít công ty ở Bờ Tây Hoa Kỳ hoặc ở Trung Quốc. Chúng tôi cần những trợ lý có trình độ cực kỳ đa dạng. Họ cần có khả năng nói tất cả các ngôn ngữ trên thế giới, hiểu tất cả các nền văn hóa, tất cả các hệ thống giá trị và tất cả các trung tâm quan tâm của thế giới. Họ cần có những thành kiến, quan điểm chính trị khác nhau, v.v. Chúng ta cần những trợ lý đa dạng vì lý do tương tự như chúng ta cần những phương tiện truyền thông đa dạng. Nếu không, tất cả chúng ta sẽ nhận được cùng một thông tin từ cùng một nguồn, điều này sẽ không tốt cho nền dân chủ hay bất cứ điều gì khác.

Chúng ta cần một nền tảng mà bất kỳ ai cũng có thể sử dụng để xây dựng những trợ lý đa dạng đó. Hiện tại, điều này chỉ có thể thực hiện được thông qua các nền tảng mã nguồn mở. Tôi cho rằng điều này sẽ còn quan trọng hơn nữa trong tương lai vì nếu chúng ta muốn có các mô hình cơ sở có thể nói được tất cả các ngôn ngữ trên thế giới, v.v., thì không một thực thể nào có thể tự mình làm được điều đó. Ai sẽ thu thập tất cả dữ liệu bằng mọi ngôn ngữ trên thế giới và cung cấp cho OpenAI, Meta, Google hay Anthropic? Không ai.

Họ muốn giữ lại dữ liệu đó. Mỗi khu vực trên thế giới sẽ muốn đóng góp dữ liệu của họ vào mô hình cơ sở toàn cầu, nhưng thực tế lại không muốn bàn giao dữ liệu. Họ có thể đóng góp vào việc đào tạo một mô hình toàn cầu. Tôi cho rằng đây là mô hình cho tương lai. Mô hình cơ sở sẽ là mã nguồn mở và được đào tạo theo cách phân tán, với các trung tâm dữ liệu khác nhau trên toàn thế giới có quyền truy cập vào các tập hợp dữ liệu khác nhau, về cơ bản là đào tạo một mô hình đồng thuận. Điều này khiến cho các nền tảng mã nguồn mở trở nên hoàn toàn tất yếu, còn các nền tảng độc quyền, cho rằng, sẽ biến mất.

Bill Dally: Điều này có ý nghĩa đối với ngôn ngữ, sự đa dạng của mọi thứ và các ứng dụng. Một công ty cụ thể có thể tải xuống LLaMA rồi tinh chỉnh nó trên dữ liệu độc quyền mà họ không muốn tải lên.

Yann LeCun: Đây chính là những gì đang xảy ra hiện nay. Hầu hết các mô hình kinh doanh của các công ty khởi nghiệp AI đều được xây dựng dựa trên điều này. Họ xây dựng các hệ thống chuyên dụng cho các ứng dụng theo chiều dọc.

Bill Dally: Trong bài phát biểu quan trọng của Jensen, ông đã đưa ra một ví dụ tuyệt vời về việc sử dụng LLM để lập kế hoạch đám cưới và quyết định ai sẽ ngồi vào bàn tiệc. Đây là một ví dụ tuyệt vời về sự đánh đổi giữa nỗ lực đầu tư vào đào tạo và nỗ lực đầu tư vào suy luận.

Một kịch bản là bạn có thể có một mô hình rất mạnh mà bạn phải dành lượng lớn tài nguyên để đào tạo, hoặc bạn có thể xây dựng một mô hình kém mạnh hơn nhưng chạy nó nhiều lần để nó có thể suy luận và hoàn thành nhiệm vụ. Bạn cho rằng sự đánh đổi giữa thời gian đào tạo và thời gian suy luận hoặc thử nghiệm khi xây dựng các mô hình mạnh mẽ là gì? Điểm ngọt ngào ở đâu?

Yann LeCun: Trước hết, tôi cho rằng Jensen hoàn toàn đúng khi cho rằng cuối cùng bạn sẽ có được nhiều sức mạnh hơn từ một hệ thống có khả năng lý luận.

Nhưng tôi không đồng ý rằng cách lý luận hiện tại mà các LLM có kỹ năng lý luận sử dụng là cách đúng đắn. Nó có hiệu quả, nhưng không phải là cách đúng đắn. Khi chúng ta lý luận, khi chúng ta suy nghĩ, chúng ta làm như vậy trong một trạng thái tinh thần trừu tượng không liên quan gì đến ngôn ngữ. Bạn không muốn lang thang trong không gian mã thông báo; bạn muốn lý luận trong không gian tiềm ẩn của mình, chứ không phải trong không gian biểu tượng.

Nếu tôi bảo bạn tưởng tượng một khối lập phương đang trôi trước mặt bạn rồi xoay khối lập phương đó 90 độ quanh trục thẳng đứng của nó, bạn có thể thực hiện điều đó trong đầu, bất kể ngôn ngữ nào. Mèo có thể làm điều này, và chúng ta không thể giải thích bằng lời cho mèo, nhưng mèo có thể làm những việc phức tạp hơn nhiều khi lập kế hoạch đường đi để nhảy lên đồ nội thất. Chúng làm những việc phức tạp hơn thế nhiều và không phụ thuộc vào ngôn ngữ. Chắc chắn nó không được thực hiện trong không gian mã thông báo, mà sẽ là sê-ri các hành động. Việc này được thực hiện trong một không gian tinh thần trừu tượng. Đó là thách thức trong vài năm tới: tìm ra kiến trúc mới cho phép loại suy luận này. Đây là những gì tôi đã nghiên cứu trong vài năm qua.

Bill Dally: Chúng ta có nên mong đợi một loại mô hình mới cho phép chúng ta lý luận trong không gian trừu tượng này không?

Yann LeCun: Nó được gọi là Mô hình thế giới (JEPA). Trong vài năm qua, tôi và các đồng nghiệp đã công bố sê-ri bài báo về vấn đề này, có thể nói đây là bước đầu tiên theo hướng này. JEPA là viết tắt của Joint Embedding Predictive Architecture

Đây là những mô hình thế giới có khả năng học các biểu diễn trừu tượng và có thể thao túng các biểu diễn đó, có thể lý luận và tạo ra sê-ri hành động để đạt được một mục tiêu cụ thể. Tôi cho rằng đây chính là tương lai. Khoảng ba năm trước, tôi đã viết một bài báo dài về vấn đề này, giải thích cách thức thực hiện.

Bill Dally: Để chạy những mô hình này, bạn cần có phần cứng tốt. Trong thập kỷ qua, khả năng của GPU đã tăng từ 5 đến 10.000 lần cho cả việc đào tạo và suy luận các mô hình AI, từ Kepler đến Blackwell. Hôm nay chúng ta thấy rằng sẽ còn nhiều điều hơn nữa. Khả năng mở rộng và mở rộng quy mô cung cấp các khả năng bổ sung. Theo bạn, điều gì sẽ xảy ra trong tương lai? Bạn mong đợi chúng tôi có thể xây dựng những mô hình JPA và các mô hình mạnh mẽ khác như thế nào?

Yann LeCun: Vâng, hãy tiếp tục đưa nó ra ngoài vì chúng tôi cần tất cả sức mạnh tính toán có thể có. Kiểu suy luận này trong không gian trừu tượng sẽ tốn rất nhiều tài nguyên tính toán khi chạy và nó liên quan đến điều mà tất cả chúng ta đều rất quen thuộc.

Các nhà tâm lý học nói về Hệ thống 1 và Hệ thống 2. Hệ thống 1 là nhiệm vụ bạn thực hiện mà không cần suy nghĩ về chúng. Chúng đã trở thành bản năng thứ hai của bạn và bạn có thể làm mà không cần suy nghĩ nhiều. Ví dụ, nếu bạn là người lái xe có kinh nghiệm, bạn có thể lái xe ngay cả khi không có người hỗ trợ và có thể lái xe trong khi nói chuyện với ai đó. Nhưng nếu bạn mới lái xe lần hoặc chỉ mới lái xe được vài giờ, bạn phải thực sự tập trung vào việc mình đang làm. Bạn đang lập kế hoạch cho nhiều tình huống thảm họa khác nhau, v.v. Đó là Hệ thống 2. Bạn đang huy động toàn bộ mô hình thế giới của mình để tìm ra điều gì sắp xảy ra, sau đó lập kế hoạch hành động để những điều tốt đẹp xảy ra.

Yann LeCun: Tuy nhiên, khi bạn đã quen với một nhiệm vụ, bạn chỉ có thể sử dụng Hệ thống 1, một hệ thống phản ứng cho phép bạn hoàn thành nhiệm vụ mà không cần lập kế hoạch. Đầu tiên, loại lý luận này là Hệ thống 2, trong khi các chiến lược phản ứng tự động, tiềm thức là Hệ thống 1.

Hệ thống hiện tại đang cố gắng chuyển dần sang Hệ thống 2, nhưng cuối cùng, tôi cho rằng chúng ta cần một kiến trúc khác để triển khai Hệ thống 2. Nếu bạn muốn một hệ thống có thể hiểu được thế giới vật lý, tôi không cho rằng đó sẽ là một kiến trúc tạo sinh. Thế giới vật chất khó hiểu hơn nhiều so với ngôn ngữ. Chúng ta cho rằng ngôn ngữ là đỉnh cao của năng lực trí tuệ của con người, nhưng thực tế, ngôn ngữ đơn giản vì nó rời rạc. Vì đây là cơ chế giao tiếp nên nó cần phải rời rạc để chống lại nhiễu. Nếu không, bạn sẽ không thể hiểu được những gì tôi đang nói bây giờ. Vì vậy, vì lý do đó, mọi việc trở nên đơn giản. Nhưng thế giới thực tế phức tạp hơn nhiều.

Yann LeCun: Đây là điều bạn có thể đã nghe tôi nói trước đây: các LLM hiện tại thường sử dụng khoảng 30 nghìn tỷ mã thông báo để đào tạo. Mã thông báo thường có kích thước khoảng 3 byte, do đó, nó tương đương khoảng 0,9 đến 10^14 byte, giả sử là 10^14 byte. Bất kỳ ai trong chúng ta cũng phải mất hơn 400.000 năm để đọc hết số sách đó, vì đó là tất cả số văn bản có sẵn trên Internet cộng lại.

Nhưng hiện nay, các nhà tâm lý học cho chúng ta biết rằng một đứa trẻ 4 tuổi có tổng cộng 16.000 giờ thức và chúng ta có khoảng 2MB dữ liệu đi qua dây thần kinh thị giác vào vỏ não thị giác mỗi giây, khoảng 2MB mỗi giây. Nhân con số đó với 16.000 giờ rồi nhân với 3.600, bạn sẽ có được khoảng 10^14 byte, đây chính là lượng dữ liệu thu được thông qua thị giác trong bốn năm. Lượng dữ liệu mắt bạn nhìn thấy tương đương với lượng văn bản mà bạn phải mất 400.000 năm để đọc hết.

Điều này cho thấy chúng ta sẽ không bao giờ đạt được AGI, bất kể bạn muốn nói gì, chỉ thông qua đào tạo văn bản. Điều này chắc chắn không thể xảy ra.

Bill Dally: Quay trở lại với phần cứng, đã có rất nhiều tiến bộ trong các hệ thống xung điện, và những người ủng hộ cũng như những người nghiên cứu phép loại suy với các hệ thống sinh học cho rằng phần cứng hình thái thần kinh có chỗ đứng. Bạn có cho rằng phần cứng mô phỏng thần kinh có thể bổ sung hoặc thay thế GPU trong xử lý AI không?

Yann LeCun: Không phải trong ngắn hạn. Ừm, tôi phải kể cho bạn nghe một câu chuyện về điều này. Khi tôi bắt đầu làm việc tại Bell Labs vào năm 1988, đội ngũ của tôi thực sự tập trung vào phần cứng tương tự cho mạng nơ-ron. Vào giữa những năm 1990, họ đã xây dựng được nhiều thế hệ mạng nơ-ron hoàn toàn tương tự, sau đó là kết hợp tương tự-kỹ thuật số và cuối cùng là hoàn toàn kỹ thuật số.

Vào thời điểm đó, mọi người đã mất hứng thú với mạng lưới nơ-ron nên điều đó không có ý nghĩa gì. Vấn đề với các nguyên lý cơ bản như thế này là các chất bán dẫn kỹ thuật số hiện tại đang ở mức cực tiểu cục bộ sâu đến mức sẽ mất một thời gian và lượng lớn đầu tư để các công nghệ thay thế có thể bắt kịp. Ngay cả về nguyên tắc, cũng không rõ liệu nó có lợi thế gì không.

Yann LeCun: Những thứ như nơ-ron tương tự hoặc nơ-ron tăng đột biến hoặc mạng nơ-ron tăng đột biến có thể có một số lợi thế cố hữu, nhưng chúng khiến việc tái sử dụng phần cứng trở nên rất khó khăn. Theo một nghĩa nào đó, mọi phần cứng mà chúng ta đang sử dụng đều quá lớn và quá nhanh, vì vậy về cơ bản, bạn phải tái sử dụng cùng một phần cứng để tính toán các phần khác nhau của mô hình.

Nếu bạn sử dụng phần cứng tương tự, bạn không thể sử dụng ghép kênh. Đối với mỗi nơ-ron trong mạng nơ-ron ảo của bạn, phải có một nơ-ron vật lý. Điều này có nghĩa là bạn không thể lắp một mạng lưới nơ-ron có kích thước phù hợp trên một con chip duy nhất. Bạn phải sử dụng nhiều chip và khi bạn có thể làm như vậy thì rất nhanh nhưng không hiệu quả lắm vì bạn cần giao tiếp giữa các chip và bộ nhớ trở nên phức tạp. Cuối cùng, bạn cần giao tiếp bằng kỹ thuật số vì đó là cách duy nhất để đạt được hiệu quả chống nhiễu.

Yann LeCun: Thực ra, bộ não cung cấp một thông tin thú vị. Hầu hết bộ não, hoặc bộ não của hầu hết các loài động vật, giao tiếp thông qua các xung động. Xung là tín hiệu nhị phân, do đó nó là tín hiệu kỹ thuật số chứ không phải tín hiệu tương tự. Tính toán ở cấp độ nơ-ron có thể là tương tự, nhưng giao tiếp giữa các nơ-ron thực chất là kỹ thuật số, ngoại trừ ở những động vật rất nhỏ. Ví dụ, C. elegans, một loài giun dài 1 mm, có 302 tế bào thần kinh. Chúng không gửi xung vì không cần phải giao tiếp qua khoảng cách xa, do đó ở quy mô đó, chúng có thể sử dụng phương thức liên lạc tương tự.

Điều này cho thấy rằng ngay cả khi chúng ta muốn sử dụng các kỹ thuật tiên tiến như điện toán tương tự, chúng ta vẫn phải sử dụng truyền thông kỹ thuật số theo cách nào đó. Ít nhất thì đó là trường hợp của trí nhớ. Điều này không rõ ràng và tôi đã thực hiện phép tính này lần. Có thể tôi không biết nhiều về điều này như bạn, nhưng tôi không cho rằng điều đó sẽ sớm xảy ra.

Bill Dally: Có thể ở một số góc độ tính toán biên, điều này có ý nghĩa. Ví dụ, nếu bạn muốn một bộ vi điều khiển siêu rẻ để chạy hệ thống nhận thức cho máy hút bụi hoặc máy cắt cỏ, có lẽ máy tính là hợp lý. Nếu bạn có thể đặt toàn bộ thứ đó vào một con chip duy nhất và sử dụng thứ gì đó như bộ nhớ thay đổi pha hoặc thứ gì đó tương tự để lưu trữ tỷ trọng, tôi biết có những người đang nghiêm túc làm việc để chế tạo những thứ này. Đây là những gì được gọi là PIM (Bộ xử lý trong bộ nhớ) hoặc công nghệ bộ xử lý và bộ nhớ analog và kỹ thuật số. Bạn cho rằng chúng có hiệu quả không? Họ có tương lai không?

Yann LeCun: Tất nhiên rồi. Một số đồng nghiệp của tôi rất quan tâm đến điều này vì họ muốn tạo ra sản phẩm kế nhiệm cho những chiếc kính thông minh đó. Điều bạn muốn là quá trình xử lý hình ảnh diễn ra liên tục. Hiện tại, điều này không thể thực hiện được do tiêu thụ điện năng. Chỉ có một cảm biến, như cảm biến hình ảnh, không thể luôn hoạt động trong loại kính này; pin sẽ hết trong vài phút.

Một giải pháp khả thi là xử lý trực tiếp trên cảm biến, do đó bạn không phải di chuyển dữ liệu ra khỏi chip, nơi tiêu thụ năng lượng. Việc di chuyển dữ liệu là thứ tiêu thụ năng lượng, chứ không phải bản thân quá trình tính toán. Có rất nhiều nỗ lực đang được thực hiện trong lĩnh vực này, nhưng chúng ta vẫn chưa đạt được mục tiêu. Tôi cho rằng đây là một hướng đi đầy hứa hẹn. Trên thực tế, sinh học đã giải quyết được vấn đề này. Võng mạc có khoảng 60 triệu tế bào thụ cảm ánh sáng và ở phía trước võng mạc có bốn lớp tế bào thần kinh - tế bào thần kinh trong suốt - xử lý các tín hiệu và nén chúng thành 1 triệu sợi thần kinh thị giác truyền chúng đến vỏ não thị giác của chúng ta. Có tính năng nén, rút xuất tính năng và nhiều tính năng khác để có được thông tin hữu ích nhất từ hệ thống thị giác.

Bill Dally: Còn những công nghệ mới nổi khác thì sao? Bạn có cho rằng lượng tử, logic siêu dẫn hay bất kỳ thứ gì khác sắp ra mắt sẽ mang lại cho chúng ta bước tiến lớn trong sức mạnh xử lý AI không?

Yann LeCun: Có thể là siêu dẫn. Tôi không biết đủ về nó để có thể đưa ra phán đoán. Quang học thì rất đáng thất vọng. Tôi nhớ mình đã rất ngạc nhiên vào những năm 1980 khi nghe các cuộc thảo luận về việc triển khai mạng nơ-ron quang học, nhưng chúng chưa bao giờ được thực hiện. Công nghệ đang phát triển, nên có thể điều đó sẽ thay đổi.

Nói về lượng tử, tôi cực kỳ hoài nghi về máy tính lượng tử. Tôi cho rằng ứng dụng trung hạn duy nhất của điện toán lượng tử mà tôi có thể thấy là mô phỏng các hệ thống lượng tử, như hóa học lượng tử hay thứ gì đó tương tự. Còn những điều khác thì tôi cực kỳ hoài nghi.

Bill Dally: Ông nói về việc xây dựng AI có thể học hỏi thông qua quan sát, giống như một chú gấu con vậy. Bạn cho rằng điều này đặt ra những yêu cầu gì cho phần cứng? Bạn cho rằng chúng ta cần phát triển phần cứng như thế nào để thực hiện được điều này? Bạn có thể cho chúng tôi bao nhiêu?

Yann LeCun: Vấn đề là bạn sẵn sàng mua bao nhiêu. Như chúng ta đã nghe ngày hôm nay, bạn mua càng nhiều, bạn càng tiết kiệm được nhiều. Cái này không hề rẻ đâu. Ví dụ như phim ảnh. Hãy để tôi kể cho bạn nghe về một thí nghiệm mà một số đồng nghiệp của tôi đã tiến hành cách đây khoảng một năm. Có một kỹ thuật học tự giám sát sử dụng phương pháp tái tạo để học cách biểu diễn hình ảnh. Dự án này có tên là MAE, viết tắt của Masked Autoencoder.

Về cơ bản, đây là một bộ mã hóa tự động, một bộ mã hóa tự động khử nhiễu, rất giống với bộ mã hóa đang được sử dụng. Bạn lấy một hình ảnh, làm hỏng nó bằng cách loại bỏ các phần trong đó— thực ra là những khối lớn — rồi sau đó đào tạo một mạng nơ-ron khổng lồ để tái tạo lại toàn bộ hình ảnh ở cấp độ pixel hoặc cấp độ mã thông báo. Sau đó, bạn sử dụng biểu diễn nội bộ làm đầu vào cho nhiệm vụ tiếp theo, như nhận dạng đối tượng hoặc bất kỳ tác vụ nào khác, để đào tạo có giám sát.

Yann LeCun: Nó hoạt động tốt, nhưng bạn phải đun sôi một cái ao nhỏ để làm mát các cụm GPU làm mát bằng chất lỏng đó. Nó kém hiệu quả hơn nhiều so với các kiến trúc nhúng chung. Bạn có thể đã nghe nói đến DINO, DINO V2, JAPA, v.v. Đây là các kiến trúc nhúng chung và chúng có xu hướng hoạt động tốt hơn và thực sự rẻ hơn khi đào tạo.

Trong nhúng chung, về cơ bản bạn có hai không gian tiềm ẩn, tương ứng với hai loại đầu vào. Thay vì chuyển đổi mọi thứ thành một mã thông báo, chúng ta có thể lấy toàn bộ hình ảnh và phiên bản bị hỏng hoặc đã chuyển đổi, chạy cả hai qua bộ mã hóa, sau đó thử nối các phần nhúng. Bạn đào tạo một biểu diễn của hình ảnh hoàn chỉnh từ các biểu diễn của hình ảnh chỉ hiển thị một phần hoặc bị hỏng. Điều này sẽ mang lại kết quả tốt hơn và giảm chi phí.

Yann LeCun: Được rồi, đội ngũ nói, "Có vẻ như cách này hiệu quả với hình ảnh, hãy thử với phim". Bây giờ bạn phải mã hóa bộ phim, về cơ bản là chuyển đổi nó thành các bản vá 16×16, đây là số bản vá lượng lớn ngay cả đối với một bộ phim ngắn. Sau đó, bạn đào tạo một mạng lưới nơ-ron khổng lồ để tái tạo các đoạn bị thiếu trong phim, có lẽ là để dự đoán các bộ phim trong tương lai. Cách này đòi hỏi phải đun sôi một hồ nước nhỏ, không chỉ là một cái ao nhỏ, và về cơ bản là sẽ thất bại. Dự án đó đã bị dừng lại.

Yann LeCun: Giải pháp thay thế hiện tại của chúng tôi là một dự án có tên là VJA và chúng tôi sắp ra mắt phiên bản thứ hai. Đây là một trong những kiến trúc dự đoán nhúng chung. Vì vậy, nó đưa ra những dự đoán về bộ phim nhưng ở mức độ đại diện và có vẻ như nó hoạt động rất tốt. Chúng tôi có một ví dụ về điều này. Phiên bản đầu tiên được đào tạo trên các clip rất ngắn, chỉ 16 khung hình, và được đào tạo để dự đoán hình ảnh biểu diễn của clip đầy đủ từ phiên bản clip được che một phần.

Hệ thống đó rõ ràng có thể cho bạn biết liệu một bộ phim cụ thể có khả thi về mặt vật lý hay không, ít nhất là trong những trường hợp hạn chế. Nó cung cấp cho bạn kết quả nhị phân: "cách này hiệu quả", "cách này không hiệu quả" hoặc có thể đơn giản hơn thế. Bạn đo lường lỗi dự đoán do hệ thống gây ra. Bạn sử dụng 16 khung cửa sổ trượt trên phim và xem liệu bạn có thể dự đoán được vài khung hình tiếp theo hay không. Bạn đo lỗi dự đoán và khi có điều gì đó thực sự kỳ lạ xảy ra trong phim — chẳng hạn như một vật thể biến mất, thay đổi hình dạng, xuất hiện một cách tự phát hoặc không tuân theo các định luật vật lý — thì nó đánh dấu đó là hiện tượng bất thường.

Bill Dally: Đây là những màng phim tự nhiên, sau đó bạn thử nghiệm chúng trên màng phim tổng hợp, tại đó những điều rất kỳ lạ sẽ xảy ra.

Yann LeCun: Nếu bạn huấn luyện nó trên những bộ phim có những điều rất kỳ lạ xảy ra, điều đó sẽ trở thành chuẩn mực và nó sẽ không phát hiện ra những điều đó là kỳ lạ nữa. Vì vậy, bạn không thể làm điều đó. Cũng giống như cách trẻ em học vật lý trực quan vậy. Một vật không được hỗ trợ sẽ rơi, chủ yếu là do lực hấp dẫn, đây là điều mà trẻ sơ sinh học được khi được khoảng chín tháng tuổi.

Nếu bạn cho một đứa trẻ năm hoặc sáu tháng tuổi xem một cảnh tượng trong đó có một vật thể dường như đang lơ lửng giữa không trung, chúng sẽ không hề ngạc nhiên. Nhưng khi được chín hoặc mười tháng tuổi, trẻ sẽ nhìn nó bằng đôi mắt mở to, và bạn thực sự có thể đo được điều đó. Các nhà tâm lý học có phương pháp để đo lường sự chú ý, nghĩa là mô hình bên trong của trẻ về thế giới bị vi phạm. Em bé nhìn thấy điều mà bé cho rằng không thể xảy ra và điều đó không phù hợp với mong đợi của bé. Vì vậy, cô ấy phải xem xét để điều chỉnh mô hình bên trong của mình và nói rằng, "Có lẽ tôi nên tìm hiểu về điều này."

Bill Dally: Ông đã nói về việc lập luận và lập kế hoạch trong không gian nhúng chung này. Chúng ta cần gì để đến đó? Những hạn chế về mặt mô hình và phần cứng là gì?

Yann LeCun: Phần lớn chỉ là làm sao cho nó hoạt động thôi. Chúng ta cần một công thức tốt. Trước khi mọi người đưa ra được công thức tốt để đào tạo các mạng tích chập đơn giản, việc này rất khó khăn. Trở lại cuối những năm 2000, Geoff Hinton đã nói với mọi người rằng việc đào tạo các mạng độ sâu bằng cách sử dụng phương pháp truyền ngược là rất khó. Yann LeCun có thể thực hiện điều đó với ConvNets, nhưng ông là người duy nhất trên thế giới có thể làm được điều đó, điều này đúng vào thời điểm đó, nhưng không hoàn toàn chính xác.

Hóa ra không khó đến vậy, nhưng có rất nhiều mẹo bạn phải tìm ra — mẹo kỹ thuật, mẹo trực giác, sử dụng hàm phi tuyến tính nào, ý tưởng về ResNet, bài báo được trích dẫn nhiều nhất trong tất cả các lĩnh vực khoa học trong 10 năm qua. Đây là một ý tưởng rất đơn giản: bạn chỉ cần kết nối bỏ qua mọi lớp, do đó theo mặc định, một lớp trong mạng nơ-ron độ sâu về cơ bản bị nhầm lẫn là hàm danh tính và những gì mạng nơ-ron thực hiện là đi chệch khỏi ý tưởng rất đơn giản đó. Điều này cho phép chúng ta tránh hiện tượng biến mất gradient trong quá trình truyền ngược và đào tạo mạng nơ-ron với 100 lớp trở lên.

Yann LeCun: Cho đến khi mọi người đưa ra một công thức hoàn chỉnh với tất cả các kết nối còn lại, trình tối ưu hóa Adam và quy tắc hóa, thì không có gì thực sự hiệu quả. Chúng tôi vừa mới công bố một bài báo cho thấy rằng bạn không cần phải điều chỉnh trong máy biến áp và những thứ tương tự như vậy. Cho đến khi bạn có công thức hoàn chỉnh và tất cả các mẹo, sẽ không có gì hiệu quả cả.

Điều này cũng đúng với NLP và hệ thống Xử lý ngôn ngữ tự nhiên. Vào giữa những năm 2010, đã có những hệ thống dựa trên bộ mã hóa tự động khử nhiễu, như BERT, trong đó bạn lấy một đoạn văn bản, làm hỏng nó, sau đó đào tạo một mạng nơ-ron lớn để khôi phục các từ bị mất. Cuối cùng, kiến trúc này được thay thế bằng kiến trúc kiểu GPT, nơi bạn chỉ cần đào tạo trên toàn bộ hệ thống. Bạn đào tạo nó như một bộ mã hóa tự động, nhưng bạn không cần phải làm hỏng đầu vào vì kiến trúc này mang tính nhân quả. Phương pháp này đã được chứng minh là rất thành công và mở rộng.

Yann LeCun: Chúng tôi phải đưa ra một công thức tốt cho các kiến trúc JAPA để chúng có thể mở rộng ở cùng mức độ. Đó chính là mảnh ghép còn thiếu.

Bill Dally: Vâng, chúng ta có đèn đỏ nhấp nháy ở phía trước. Trước khi kết thúc, bạn có lời nào muốn nhắn nhủ tới khán giả không?

Yann LeCun: Vâng, tôi muốn nhấn mạnh lại quan điểm tôi đã nêu trước đó. Những tiến bộ trong AI và hành trình hướng tới AI cấp độ con người, trí thông minh máy móc tiên tiến hay AGI, bất kể bạn muốn gọi nó là gì, đều cần sự đóng góp của tất cả mọi người. Nó sẽ không đến từ một thực thể nào đó đang tiến hành nghiên cứu và phát triển một cách bí mật. Chuyện đó sẽ không xảy ra. Nó sẽ không chỉ là một sự kiện; sẽ có nhiều tiến bộ liên tục trên chặng đường này.

Con người sẽ không bị giết trong giờ đầu tiên sau khi điều này xảy ra vì đây không phải là một sự kiện. Nó sẽ cần sự đóng góp từ khắp nơi trên thế giới. Nghiên cứu này phải là nghiên cứu mở và dựa trên nền tảng mã nguồn mở. Nếu họ cần được đào tạo lượng lớn, chúng ta sẽ cần phần cứng rẻ hơn. Bạn (Nvidia) cần phải hạ giá xuống. [cười]

Bill Dally: Bạn cần phải nói chuyện với Jensen về chuyện này.

Yann LeCun: Chúng ta sẽ có một tương lai với một cộng đồng trợ lý AI cực kỳ đa dạng, những người sẽ giúp đỡ chúng ta trong cuộc sống hàng ngày, luôn đồng hành cùng chúng ta thông qua kính thông minh hoặc các thiết bị thông minh khác, và chúng ta sẽ là

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan