Tiến độ của mô hình chậm là do việc xây dựng trung tâm dữ liệu chậm và tỷ lệ băm O1 huấn luyện cao gấp hàng trăm lần so với GPT4.
Gần đây, Bob McGrew, cựu giám đốc nghiên cứu của OpenAI, đã có cuộc trò chuyện độ sâu với kênh Học tập không giám sát, kênh cực kỳ dày đặc thông tin và chứa đầy thông tin hữu ích. Rất nên đọc toàn văn .
Bob McGrew từng là nhà khoa học trưởng tại OpenAI trong sáu năm rưỡi, rời đi vào năm 2023.
Trong cuộc phỏng vấn lần, ông thảo luận sâu về hiện trạng và tương lai của AI, bao gồm sự tiến bộ của các mô hình được đào tạo trước, những đột phá trong AI đa phương thức, tương lai của robot, tổ chức và văn hóa nghiên cứu AI cũng như tác động của AI về các vấn đề quan trọng của xã hội.
McGrew dự đoán lĩnh vực AI sẽ có những thay đổi to lớn trong vài năm tới. Cuộc đua tỷ lệ băm sẽ ngày càng nóng lên, các mô hình sản xuất video và robot sẽ chứng kiến tăng trưởng bùng nổ và AI đa phương thức sẽ thay đổi sâu sắc cuộc sống của chúng ta.
McGrew chỉ ra rằng mặc dù sẽ mất một thời gian để GPT-5 được phát hành nhưng sự phát triển của AI không bị trì trệ. OpenAI đang tập trung vào công nghệ "điện toán thời gian thử nghiệm", cho phép tăng trưởng tỷ lệ băm mà không cần xây dựng trung tâm dữ liệu mới. Điều này có nghĩa là OpenAI dự kiến sẽ tiếp tục cải thiện hiệu suất của các mô hình AI mà không làm tăng đáng kể chi phí, tiếp tục mang lại niềm tin cho các nhà đầu tư.
McGrew cũng dự đoán rằng các mô hình tạo video sẽ cách mạng hóa tạo ra trong vòng hai năm tới. Ông cho rằng rằng những bộ phim đoạt giải thưởng được tạo ra hoàn toàn bằng AI sẽ sớm xuất hiện. Đây chắc chắn là một sự thay đổi Sự lật đổ đối với ngành điện ảnh và truyền hình, đồng thời nó cũng mang lại không gian trí tưởng tượng khổng lồ cho các nhà đầu tư trong các lĩnh vực liên quan.
Ngoài ra, McGrew cho rằng robot sẽ được sử dụng rộng rãi trong 5 năm tới. Hoàn cảnh làm việc như bán lẻ và kho hàng sẽ là môi trường đầu tiên mở ra "cuộc cách mạng robot". Điều này cũng đồng nghĩa với việc các công ty trong Chuỗi ngành công nghiệp robot sẽ mở ra những cơ hội phát triển chưa từng có.
Đối diện làn sóng AI, McGrew nhắc nhở chúng ta chú ý đến việc bồi dưỡng nhân tài AI. Ông cho rằng rằng kỹ năng toán học, lập trình và viết sẽ là khả năng cạnh tranh cốt lõi của các tài năng trong tương lai và các khoản đầu tư vào các lĩnh vực giáo dục liên quan cũng sẽ nhận được lợi nhuận cao.
01 Những điểm chính như sau
Khi nào GPT-5 sẽ đến? Tính toán trong quá trình thử nghiệm sẽ dẫn đến những đột phá lớn
Nhiều người cho rằng tiến độ trên các mô hình ngôn ngữ lớn dường như đã bị đình trệ kể từ khi GPT-4 ra mắt, nhưng thực tế người trong nội bộ lại có cái nhìn hoàn toàn khác. Việc phát triển các mô hình ngôn ngữ lớn như GPT đòi hỏi lượng lớn tỷ lệ băm, phụ thuộc vào việc xây dựng các trung tâm dữ liệu mới, đây là một quá trình kéo dài nhiều năm.
Việc chuyển từ GPT-4 lên GPT-5 sẽ yêu cầu tỷ lệ băm tăng gấp 100 lần, việc này cần có thời gian. Trước khi GPT-5 được phát hành chính thức, lần đầu tiên chúng ta có thể thấy một phiên bản chuyển tiếp với tỷ lệ băm tăng gấp 10 lần.
Trọng tâm hiện tại của OpenAI là "tính toán tại thời điểm thử nghiệm", tức là đầu tư nhiều tỷ lệ băm hơn vào quá trình tạo ra câu trả lời bằng mô hình để có được Chuỗi suy nghĩ dài hơn và mạch lạc hơn. Ví dụ: OpenAI mở rộng GPT-4 lên mô hình 0,1, đạt được tỷ lệ băm tăng trưởng gấp 100 lần.
“Tính toán trên thử nghiệm” không yêu cầu xây dựng trung tâm dữ liệu mới nên vẫn còn rất nhiều chỗ để cải tiến thuật toán. Máy tính vào thời điểm thử nghiệm sẽ là một trong những bước phát triển thú vị nhất của AI trong những năm tới.
Đột phá AI đa phương thức: Sora dẫn đầu cuộc cách mạng thế hệ video như thế nào?
Không giống như các phương thức khác như hình ảnh, video là một chuỗi sự kiện mở rộng yêu cầu giao diện người dùng hoàn chỉnh để xem câu chuyện diễn ra như thế nào theo thời gian. Ngoài ra, việc đào tạo và chạy các mô hình video rất tốn kém.
Sora là mô hình tạo video chất lượng cao đầu tiên giải quyết được một số thách thức trong việc tạo video thông qua khả năng tạo kịch bản phân cảnh. Tính năng bảng phân cảnh cho phép người dùng đặt các điểm kiểm tra tại các thời điểm khác nhau để hướng dẫn quá trình tạo video.
Trong tương lai, các mô hình video sẽ có chất lượng tốt hơn, thời gian tạo dài hơn và chi phí thấp hơn. Giống như LLM, bạn sẽ có thể xem những video cực kỳ đẹp mắt, chân thực và chúng hầu như không tốn phí.
Dự kiến trong vòng hai năm nữa chúng ta sẽ được xem những bộ phim đoạt giải thưởng hoàn toàn do AI tạo ra. Điểm hấp dẫn của những bộ phim này sẽ là cách các đạo diễn sử dụng mô hình video để hiện thực hóa viễn cảnh mong đợi sáng tạo của họ và thực hiện những điều mà họ không thể quay được.
Tương lai của robot: Trong 5 năm nữa chúng ta sẽ tương tác với robot trong cuộc sống hàng ngày
Robotics sẽ được sử dụng rộng rãi trong 5 năm tới, mặc dù còn một số hạn chế. Sự xuất hiện của các mô hình cơ sở là một bước đột phá lớn trong lĩnh vực chế tạo robot, cho phép robot khởi động nhanh chóng và khái quát hóa theo những cách quan trọng.
Việc huấn luyện robot trong thế giới thực có những ưu điểm so với hoàn cảnh mô phỏng. Trình mô phỏng rất giỏi trong việc mô phỏng các vật thể cứng, nhưng trong thế giới thực, nhiều vật thể mềm, chẳng hạn như vải hoặc bìa cứng, và trình mô phỏng không giỏi xử lý những vật thể này.
Đối với bất kỳ robot nào muốn thực sự linh hoạt, việc đào tạo trong thế giới thực là điều cần thiết.
Dự kiến trong 5 năm nữa, chúng ta sẽ tương tác với robot trong cuộc sống hàng ngày theo những cách mà ngày nay chúng ta cảm thấy kỳ lạ. Robot sẽ được sử dụng rộng rãi trong môi trường bán lẻ, nhà kho và hoàn cảnh làm việc khác.
Văn hóa của OpenAI: Sự kết hợp giữa tinh thần kinh doanh và hợp tác
Văn hóa của OpenAI tương tự như văn hóa của một công ty khởi nghiệp, tập trung vào sự hợp tác và mục tiêu chung. Họ có quan điểm chung về hướng đi đúng đắn và cho phép các nhà nghiên cứu có nhiều quyền tự do khám phá các lĩnh vực mà họ quan tâm.
Văn hóa của OpenAI khuyến khích sự hợp tác và đảm bảo mọi người làm việc cùng nhau để xây dựng một sản phẩm thay vì xuất bản nhiều bài báo. Điều này trái ngược hoàn toàn với văn hóa học thuật, vốn tập trung nhiều hơn vào danh dự cá nhân và sự cạnh tranh.
Giới thiệu về AGI
Nhiều người lo ngại AI sẽ dẫn tới tình trạng thất nghiệp hàng loạt nhưng thực tế AI chỉ có thể tự động hóa một nhiệm vụ duy nhất. Hầu hết các công việc đều có một số nhiệm vụ không thể tự động hóa được, ngay cả khi lập trình.
Những tiến bộ trong AI sẽ tiếp tục, sẽ rất thú vị và sẽ không chậm lại mà sẽ thay đổi. Chúng ta đang chuyển đổi từ một thế giới nơi trí thông minh có thể là một yếu tố cực kỳ khan hiếm trong xã hội sang một thế giới nơi trí thông minh có mặt khắp nơi và miễn phí.
Khi trí tuệ không còn khan hiếm thì quyền tự chủ sẽ trở thành một yếu tố sản xuất khan hiếm. Cơ quan là khả năng đặt câu hỏi phù hợp và theo đuổi các dự án phù hợp. Chúng ta cần suy nghĩ về cách phát triển cơ quan này để có thể làm việc với AI.
Tương lai sẽ tiếp tục diễn ra và những tiến bộ trong AI sẽ dần thay đổi cuộc sống của chúng ta. Chúng ta nên tập trung vào các lĩnh vực đòi hỏi sự kiên nhẫn vô hạn, chẳng hạn như kiểm tra kỹ chi tiêu hoặc so sánh mua sắm, nơi AI có thể thực hiện công việc tốt hơn.
Làm thế nào để rèn luyện trẻ thích nghi với thời đại AI?
Mặc dù AI đang phát triển nhanh chóng nhưng chúng ta không nên thay đổi cách giáo dục con cái mình. Chúng ta vẫn nên dạy chúng toán, lập trình và viết vì những kỹ năng này giúp chúng suy nghĩ về vấn đề một cách có hệ thống.
Tương lai là điều không thể đoán trước và cách AI thực sự hoạt động sẽ là điều bí ẩn và được tiết lộ cho chúng ta theo thời gian. Chúng ta nên khuyến khích trẻ thử những điều thách thức giới hạn khả năng của chúng và phát triển khả năng phục hồi của chúng.
02 Toàn văn bài phỏng vấn
Người dẫn chương trình Jacob: Bob McGrew đã từng là giám đốc nghiên cứu tại OpenAI trong sáu năm rưỡi. Gần đây anh ấy đã rời bỏ vị trí của mình vài tháng trước và chúng tôi thật may mắn khi có được anh ấy trên một trong những podcast đầu tay của anh ấy tại đây trên Podcast Học tập Không giám sát. Vì vậy, chúng tôi có cơ hội hỏi anh ấy về tương lai của trí tuệ nhân tạo. Chúng tôi đã thảo luận xem liệu mô hình có gặp phải nút thắt cổ chai hay không, mô hình robot, mô hình video, mô hình sử dụng máy tính cũng như dòng thời gian và khả năng mà Bob đã hình dung. Chúng tôi đã nói về văn hóa độc đáo của OpenAI và điều gì làm cho nghiên cứu của nó trở nên hiệu quả, cũng như một số điểm quyết định quan trọng và trải nghiệm của chúng như thế nào. Chúng tôi thảo luận lý do tại sao AGI có thể có cảm giác giống như hiện nay và Bob chia sẻ lý do anh rời OpenAI và điều gì sẽ xảy ra tiếp theo. Tôi cho rằng mọi người sẽ thực sự thích tập phim này. Không dài dòng nữa, đây là Bob. Bob, cảm ơn bạn rất nhiều vì đã tham gia podcast. Cảm ơn bạn đã mời và tôi mong chờ cuộc trò chuyện lần. Thực sự vui mừng vì bạn có thể đến. Tôi biết chúng ta sẽ nói về nhiều chủ đề khác nhau. Tôi nghĩ chúng ta nên bắt đầu với vấn đề mà tôi nghĩ mọi người đang quan tâm nhất hiện nay, đó là cuộc tranh luận sôi nổi về việc liệu khả năng của mô hình có đạt đến điểm nghẽn hay không. Chúng tôi muốn biết suy nghĩ của bạn về vấn đề này và bạn nghĩ còn bao nhiêu tiềm năng trong quá trình đào tạo trước.
Bob McGrew: Chà, tôi nghĩ đây có lẽ là nơi tồn tại sự khác biệt lớn nhất giữa những người quan sát bên ngoài và những người bên trong các phòng thí nghiệm lớn. Tôi cho rằng, nếu nhìn từ bên ngoài, nhiều người lần đầu tiên bắt đầu chú ý đến trí tuệ nhân tạo vì ChatGPT. Rồi sáu tháng sau, GPT-4 xuất hiện. Có cảm giác như mọi thứ đang tăng tốc nhanh chóng và đang đạt được tiến bộ. Tuy nhiên, GPT-4 đã được phát hành cách đây một năm rưỡi và mọi người đều biết rằng nó đã được đào tạo bài bản trước đó. Vì vậy, những gì xảy ra bây giờ? Sao không có gì mới ra nhỉ?
Nhìn từ bên trong rất khác. Ngoài kia, mọi người đang tự hỏi, liệu chúng ta có đang gặp phải nút thắt cổ chai dữ liệu không? Chuyện gì đã xảy ra thế? Nhưng bạn phải nhớ rằng để đạt được tiến bộ với quá trình đào tạo trước, đặc biệt, đòi hỏi nỗ lực tính toán tăng lên rất nhiều. Từ GPT-2 đến GPT-3 hoặc từ GPT-3 đến GPT-4, số tiền tính toán hiệu quả tăng lên 100 lần. Đó là những gì sự gia tăng này thể hiện. Bạn có thể làm điều này bằng cách tăng số lượng phép toán dấu phẩy động, thêm chip, mở rộng trung tâm dữ liệu và cải tiến thuật toán. Cải tiến thuật toán có thể mang lại một số lợi nhuận- 50%, gấp 2 hoặc 3 lần sẽ rất tuyệt. Nhưng về cơ bản, bạn phải chờ các trung tâm dữ liệu mới được xây dựng.
Không thiếu các trung tâm dữ liệu mới được xây dựng. Bạn chỉ cần xem tin tức để biết rằng các phòng thí nghiệm tiên tiến như Meta, X và các phòng thí nghiệm khác đang xây dựng các trung tâm dữ liệu mới, ngay cả khi chúng không phải lúc nào cũng gây chú ý. Nhưng về cơ bản, đó là một quá trình rất chậm và phải mất nhiều năm. Trên thực tế, cho đến khi bạn thấy sự chuyển đổi thế hệ hoàn toàn, chẳng hạn như từ GPT-4 sang GPT-5, bạn sẽ thấy điều gì đó chỉ là cải tiến gấp 10 lần. Mọi người thường quên rằng chúng tôi đã chuyển từ GPT-3 sang GPT-3.5 sang GPT-4.
Bây giờ điều thú vị là việc đào tạo trước đang diễn ra. Tôi cho rằng chúng ta sẽ phải chờ xem khi nào mẫu tiếp theo được phát hành. Nếu bạn nhìn vào thứ gì đó giống như O1, chúng ta có thể đạt được tiến bộ bằng cách học tăng cường. Theo chỉ báo khác nhau, O1 thể hiện khả năng tính toán nhiều hơn 100 lần so với GPT-4. Một số người có thể không nhận ra điều này vì người ta đã quyết định đặt tên nó là O1 thay vì GPT-5. Tuy nhiên, trên thực tế, đây là mẫu xe thế hệ mới.
Khi thế hệ tiếp theo, GPT-4.5 giả định được đào tạo, câu hỏi thú vị là, tiến trình trước đào tạo này so với quá trình học tăng cường như thế nào? Tôi cho rằng chúng ta sẽ phải chờ xem tin tức nào được đưa ra.
Jordan, Người dẫn chương trình: Điều đó đặt ra câu hỏi, xét đến quá trình kéo dài nhiều năm cho đến năm 2025, bạn có cho rằng sẽ có nhiều tiến bộ về trí tuệ nhân tạo vào năm tới như năm ngoái không, hay bạn cho rằng mọi thứ sẽ bắt đầu chậm lại?
Bob McGrew: Tôi cho rằng sẽ có tiến bộ. Tôi cho rằng đó sẽ là một sự tiến triển khác. Có một điều là khi bạn bước sang bất kỳ thế hệ tiếp theo nào, bạn sẽ luôn gặp phải những vấn đề mà bạn chưa từng thấy ở thế hệ trước. Vì vậy, ngay cả khi trung tâm dữ liệu được xây dựng, con người cũng sẽ mất thời gian để giải quyết vấn đề và hoàn thành việc đào tạo mô hình.
Quá trình học tăng cường mà chúng tôi đã sử dụng để đào tạo O1, cùng một quy trình mà OpenAI đã sử dụng để đào tạo O1, đã tạo ra một Chuỗi suy nghĩ dài hơn, mạch lạc hơn, kết hợp hiệu quả nhiều tính toán hơn vào câu trả lời. Vì vậy, bạn biết đấy, nếu một mô hình mất vài giây để tạo ra câu trả lời và một mô hình khác mất hàng giờ để tạo ra câu trả lời, thì nỗ lực tính toán đó gấp 10.000 lần nếu bạn thực sự có thể khai thác điều đó, phải không?
Thành thật mà nói, chúng tôi đã nghĩ đến cách sử dụng tính toán thời gian kiểm tra kể từ khoảng năm 2020. Cuối cùng, tôi cho rằng đây thực sự là câu trả lời thực sự cho cách thực hiện điều này, tức là làm thế nào để thực hiện điều đó mà không lãng phí lượng lớn tài nguyên máy tính. Lợi ích của việc này là nó không yêu cầu trung tâm dữ liệu mới. Ở đây, có rất nhiều cơ hội để cải tiến, vì đây là một công nghệ mới mới bắt đầu và có nhiều cơ hội để cải tiến thuật toán.
Về mặt lý thuyết, không có lý do gì để nói rằng những nguyên tắc và ý tưởng cơ bản tương tự được sử dụng để lấy O1, chẳng hạn, điều mà GPT-4 có thể làm trong vài giây thành điều mà O1 phải mất 30 giây hoặc một phút hoặc vài phút để nghĩ về Nó không thể mở rộng đến hàng giờ hoặc thậm chí hàng ngày. Cũng giống như việc chuyển từ GPT-3 sang GPT-4, không có công nghệ mới cơ bản nào; cả hai đều được đào tạo theo cách gần giống nhau, nhưng mở rộng là rất khó khăn.
Vì vậy, đó thực sự là trọng tâm của câu hỏi: bạn có thể thực sự mở rộng không? Tôi cho rằng đó sẽ là loại tiến bộ mà chúng ta sắp thấy và nó sẽ là loại thú vị nhất.
Người dẫn chương trình Jacob: Vâng, vào năm 2025. Với việc tập trung vào tính toán thời gian thử nghiệm và việc sử dụng O1 hiện tại, tôi cho rằng sẽ thực sự thú vị khi nghĩ về cách mọi người thực sự sử dụng những mô hình này, phải không? Tôi cho rằng gần đây bạn đã tweet một điều thú vị mà tôi nghĩ là bạn cần những kiểu dáng mới này để mở khóa chức năng của một số mẫu máy nhất định. Vì vậy, có thể mở rộng về điều đó một chút. Ví dụ: bạn đã thấy bất kỳ yếu tố hình thức sản phẩm ban đầu nào mà bạn thấy thú vị khi sử dụng các mô hình này chưa?
Bob McGrew: Vâng, vâng. Để giải thích vấn đề này, chatbot đã xuất hiện được một thời gian. Đối với hầu hết các tương tác mà mọi người thực hiện với chatbot ngày nay, các mô hình cấp GPT-4 thực hiện tốt nhiệm vụ này. Bạn biết đấy, nếu bạn hỏi ChatGPT, Hoàng đế La Mã thứ tư là ai? Hoặc làm cách nào để hâm nóng cơm basmati? Hầu hết các cuộc trò chuyện hàng ngày của chúng tôi đều được xử lý tốt.
Khi chúng tôi nghĩ đến việc phát hành bản xem trước của O1, đã có rất nhiều câu hỏi về việc liệu mọi người có sử dụng nó hay không và liệu họ có tìm thấy điều gì liên quan đến nó hay không. Tôi cho rằng đây là những câu hỏi đúng. Đó là việc hiểu những gì bạn cần làm với mô hình để thực sự nhận được giá trị từ nó. Lập trình là một trường hợp sử dụng tốt cho việc này vì nó đặt ra một vấn đề có cấu trúc trong đó bạn đang cố gắng đạt được tiến bộ trong một thời gian dài và nó thúc đẩy đáng kể các kỹ năng suy luận.
Một ví dụ khác là nếu bạn đang viết bản tóm tắt chính sách. Trong trường hợp này, bạn cần viết một tài liệu dài, cần có ý nghĩa và gắn kết. Thực tế là mặc dù có rất nhiều lập trình viên nhưng hầu hết những người không phải lập trình viên đều không phải giải quyết nhiệm vụ như vậy hàng ngày. Tuy nhiên, quay trở lại với tiềm năng đột phá ở đây, điều quan trọng là phải có một Chuỗi suy nghĩ mạch lạc và một phương pháp có cấu trúc để giải quyết vấn đề.
Quá trình này không chỉ bao gồm việc suy nghĩ về vấn đề; nó còn có thể bao gồm việc thực hiện hành động và phát triển một kế hoạch hành động. Điều tôi hào hứng nhất với các mô hình như O1 - và tôi chắc chắn rằng sẽ sớm có các mô hình tương tự từ các phòng thí nghiệm khác - là sử dụng chúng để đạt được hành động lâu dài, về cơ bản hoạt động như một đại diện. Mặc dù tôi cho rằng thuật ngữ "đại lý" bị lạm dụng quá mức và không truyền đạt rõ ràng những gì chúng tôi đang cố gắng đạt được, nhưng có nhiều nhiệm vụ trong cuộc sống mà tôi muốn một người mẫu đặt chỗ cho tôi, mua sắm cho tôi và mua sắm. đối với tôi theo cách liên quan đến Cách tương tác với phần còn lại của thế giới để giải quyết vấn đề.
Tôi cho rằng đây là lúc chúng ta thực sự cần giải quyết hình thức sản phẩm: hiểu nó là gì và làm thế nào chúng ta có thể triển khai nó một cách hiệu quả. Hiện tại, tôi không cho rằng có ai đã tìm ra điều này.
Người dẫn chương trình Jacob: Điều này thật thú vị. Ý tôi là, nó hoàn toàn có ý nghĩa. Tôi nghĩ mọi người, bạn biết đấy, sẽ có rất nhiều trí tưởng tượng về những gì những đặc vụ này có thể làm và những vấn đề họ có thể giải quyết cho người dân và doanh nghiệp. Vậy trở ngại lớn nhất để thực hiện điều này ngày nay là gì? Rõ ràng, bạn đã thấy một số mô hình ban đầu, như mô hình sử dụng máy tính mà Anthropic đã phát hành và tôi chắc chắn rằng các phòng thí nghiệm khác cũng đang nghiên cứu mô hình này. Nhưng khi bạn nghĩ về điều gì đang cản trở chúng ta đạt được mục tiêu của mình, thì một số thách thức vẫn cần phải giải quyết là gì?
Bob McGrew: Vâng, có rất nhiều câu hỏi. Tôi cho rằng vấn đề trước mắt nhất là độ tin cậy. Vì vậy, bạn biết đấy, nếu tôi yêu cầu phải làm điều gì đó, hãy gác hành động đó sang một bên, phải không? Nếu tôi yêu cầu một người đại diện làm điều gì đó thay mặt tôi, ngay cả khi đó chỉ là suy nghĩ hoặc viết một số mã cho tôi và tôi cần phải rời đi trong năm phút hoặc một giờ để thực hiện công việc đó, nếu nhiệm vụ đó không thực hiện được và khiến tôi phải rời đi. nhầm rồi, khi tôi quay lại, nó sẽ ra sao? Nếu tôi không làm vậy thì tôi chỉ lãng phí một giờ thôi. Đây là một vấn đề lớn.
Bây giờ hãy thêm vào điều này một thực tế là tác nhân này sẽ thực hiện các hành động trong thế giới thực. Có lẽ nó đang mua thứ gì đó cho tôi. Có lẽ nó đang gửi một thông cáo PR. Có thể đó là thay mặt tôi gửi ghi chú, email, tin nhắn Slack. Nếu không làm tốt sẽ có hậu quả. Ít nhất tôi sẽ xấu hổ và thậm chí có thể mất một số tiền. Vì vậy, độ tin cậy trở nên quan trọng hơn bao giờ hết.
Tôi cho rằng có một nguyên tắc nhỏ khi nghĩ về độ tin cậy, đó là từ độ tin cậy 90% đến độ tin cậy 99%, nỗ lực tính toán có thể tăng theo một bậc độ lớn. Đây là một cải tiến gấp 10 lần. Để cải thiện độ tin cậy từ 99% lên độ tin cậy 99,9%, cần phải cải thiện mức độ khác. Do đó, mỗi "9" bổ sung đòi hỏi một bước nhảy vọt lớn về hiệu suất của mô hình. Sự cải thiện gấp 10 lần này là rất đáng kể và thể hiện một hoặc hai năm làm việc.
Vì vậy tôi cho rằng đó là câu hỏi đầu tiên chúng ta phải đối mặt. Tôi cho rằng câu hỏi thú vị thứ hai là mọi thứ chúng ta đã nói đến đều dành cho người tiêu dùng, phải không? Bạn không được nhúng vào doanh nghiệp. Nhưng khi bạn nói về các đại lý thực hiện nhiệm vụ, đối với nhiều người trong chúng ta, đó sẽ là điều chúng tôi làm tại nơi làm việc, điều gì đó gắn liền với doanh nghiệp. Tôi cho rằng điều đó mang lại sê-ri các cân nhắc khác.
Người dẫn chương trình Jordan: Thật thú vị. Những gì chúng ta đang thấy ở doanh nghiệp ngày nay là rất nhiều công ty tư vấn đang thực sự làm rất tốt vì hiện tại việc triển khai những công nghệ này vào doanh nghiệp đòi hỏi rất nhiều sự can thiệp. Bạn cho rằng kiểu hướng dẫn thực hành này và nhu cầu trợ giúp từ các doanh nghiệp sẽ còn tiếp tục trong thời gian tới không? Hay bạn cho rằng nó sẽ trở nên dễ sử dụng hơn, nơi mà các doanh nghiệp có thể triển khai rất dễ dàng những mô hình ngôn ngữ lớn này trong tương lai?
Bob McGrew: Vâng, tôi cho rằng đó là một câu hỏi thực sự thú vị. Và ý tôi là, ngay cả khi mới bắt đầu xây dựng, vấn đề gì khi triển khai các mô hình ngôn ngữ lớn trong doanh nghiệp? Chà, nếu nó định tự động hóa một nhiệm vụ cho bạn hoặc thực hiện công việc của bạn, thì có lẽ nó cần có ngữ cảnh. Bởi vì trong không gian tiêu dùng, không có nhiều bối cảnh. Được rồi, bạn thích màu đỏ, tốt. Không thú vị.
Người dẫn chương trình Jacob: Cảm ơn bạn đã sử dụng màu đỏ làm ví dụ (podcast của bạn có tên là RedPoint).
Bob McGrew: Nhưng bạn biết đấy, trong kinh doanh, bạn biết đấy, đồng nghiệp của bạn là ai? Bạn đang làm việc trên dự án nào? Cơ sở mã của bạn là gì? Bạn biết đấy, mọi người đã thử những gì? Mọi người thích và không thích điều gì? Tất cả thông tin này tồn tại như một hoàn cảnh trong doanh nghiệp. Nó ở trong Slack của bạn. Nó có trong tài liệu của bạn. Bạn biết đấy, có thể nó ở trong Figma của bạn hay gì đó. Vậy làm thế nào để bạn có được quyền truy cập?
Chà, bạn cần phải tự mình xây dựng một cái gì đó. Tôi cho rằng chắc chắn có phương pháp để mọi người xây dựng thư viện của những trình kết nối này và sau đó bạn có thể đến và thực hiện điều đó. Điều này rất giống với những gì chúng tôi làm tại Palantir, nơi vấn đề cơ bản mà Palantir giải quyết là tích hợp dữ liệu trên toàn doanh nghiệp. Tôi cho rằng đây là một trong những lý do tại sao các nền tảng trí tuệ nhân tạo như AIP của Palantir lại rất thú vị. Vì vậy, tôi cho rằng đó là con đường đầu tiên, bạn đang xây dựng thư viện cho những thứ này. Toàn bộ nền tảng có thể được xây dựng trên nền tảng này.
Một điều nữa là cơ hội sử dụng máy tính. Vì vậy, bây giờ, thay vì phải thực hiện theo cách rất cụ thể và có khả năng tùy chỉnh này, giờ đây bạn có một công cụ mà bạn có thể sử dụng để thực hiện mọi thứ. Anthropic đã nghĩ ra điều này; nó thực sự thú vị, chúng tôi ở Anthropic đã nói về những đặc vụ này trước khi họ rời OpenAI vào năm 2020 và Google DeepMind đã xuất bản một bài báo về vấn đề này. Mọi phòng thí nghiệm đều đã nghĩ đến vấn đề này và đang tìm cách giải quyết nó.
Sự khác biệt giữa các máy tính sử dụng tác nhân tích hợp với các API lập trình này là các hành động bạn thực hiện hiện bao gồm nhiều bước hơn vì bạn đang điều khiển chuột và bàn phím. Bạn có thể cần số lượng mã thông báo cần thiết gấp 10 hoặc thậm chí 100 lần để sử dụng tích hợp có lập trình này.
Vậy bây giờ chúng ta quay lại làm gì? Bạn cần một mô hình có Chuỗi suy nghĩ rất dài và mạch lạc, có thể giải quyết vấn đề một cách nhất quán trong thời gian dài, đó chính xác là loại vấn đề mà O1 giải quyết. Tôi chắc chắn có phương pháp khác để giải quyết vấn đề này. Nhưng tôi cho rằng đây sẽ là bước đột phá mà chúng ta sẽ thấy trong vài năm tới.
Người dẫn chương trình Jacob: Năm tới. Bạn cho rằng cuối cùng nó sẽ diễn ra như thế nào? Bởi vì tôi nghĩ một mặt, rõ ràng là một mô hình phổ quát có thể được sử dụng trong bất kỳ bối cảnh nào có vẻ hấp dẫn. Tôi tưởng tượng có thể khó đạt được độ tin cậy 99,999%. Và bạn biết đấy, có rất nhiều bước có thể sai ở những điểm khác nhau. Bạn biết đấy, một quan điểm khác về cách thức hoạt động của nó là, tôi chắc chắn rằng một số vấn đề này có thể được đơn giản hóa nếu API ứng dụng cơ bản được mở theo cách nào đó, phải không? Hoặc theo phương pháp khác hoặc bạn có thể cung cấp một mô hình cụ thể để sử dụng Salesforce hoặc một số công cụ cụ thể mà tôi không biết. Nếu bạn có quyền truy cập vào trải nghiệm cơ bản thì tích hợp sẽ là một lợi thế rất lớn. Bằng cách này, bạn có thể hoàn thành công việc trong tích tắc thay vì ngồi đó xem máy tính thực hiện mọi việc trên màn hình.
Bob McGrew: Vâng, ý tôi là, tôi cho rằng bạn chắc chắn sẽ thấy sự kết hợp của phương pháp này, một trong đó sử dụng tích hợp này và một số trong đó, bạn biết đấy, việc sử dụng máy tính trở thành phương án dự phòng, có thể được sử dụng nếu bạn không có bất cứ điều gì tùy chỉnh. Sau đó, có thể bạn sẽ biết mọi người sử dụng những gì và nếu nó hiệu quả thì bạn sẽ tìm ra tích hợp chi tiết hơn.
Tôi cho rằng về việc bạn nhìn thấy một đại lý Sử dụng Máy tính dành riêng cho Salesforce, về mặt kỹ thuật, điều đó không có nhiều ý nghĩa đối với tôi vì tôi cho rằng cơ bản bạn đang tận dụng dữ liệu. Ai đó đã ra ngoài và thu thập lượng lớn bộ dữ liệu khổng lồ về cách sử dụng Salesforce.
Bạn có thể đưa dữ liệu này vào -- sẽ có lợi cho Salesforce khi chia sẻ các bộ dữ liệu này với Anthropic, OpenAI và Google. Họ đào tạo người mẫu của riêng họ. Tôi cho rằng mọi nhà cung cấp ứng dụng sẽ muốn điều này được công khai và là một phần của mọi mô hình cơ bản. Vì vậy, tôi không cho rằng, bạn biết đấy, có vẻ như đó là lý do đối với tôi để có một mô hình chuyên dụng theo cách này.
Người dẫn chương trình Jacob: Không, đó là một quan điểm thực sự hấp dẫn vì tôi nghĩ khi bạn đang ở trong một không gian rất cạnh tranh và các đối thủ cạnh tranh của bạn đang tiết lộ dữ liệu của họ và sản phẩm của họ ngày càng dễ sử dụng hơn, bạn chắc chắn muốn sản phẩm của mình giống như thế này.
Bob McGrew: Vâng, tôi thấy hơi bí ẩn tại sao lại không có một hệ sinh thái gồm những người đưa dữ liệu vào các mô hình ngôn ngữ lớn. Điều này thực sự tương đương với SEO của Google.
Người dẫn chương trình Jacob: Đó thực sự là một quan điểm thú vị. Bạn cho rằng chúng ta còn cách xa việc sử dụng máy tính rộng rãi bao xa?
Bob McGrew: Ý tôi là, tôi cho rằng có một nguyên tắc chung cho những thứ này, đó là khi bạn xem bản demo, nó cực kỳ hấp dẫn nhưng vẫn chưa thể sử dụng được nhiều. Nó sẽ là một nỗi đau để sử dụng. Và sau đó, bạn biết đấy, hãy cho nó một năm và nó sẽ tốt hơn gấp mười lần. Hơn nữa, sự cải thiện này tăng trưởng theo tuyến tính logarit. Tốt hơn gấp mười lần, bạn biết đấy, chỉ là một mức độ cải thiện thôi. Nhưng mức độ cải thiện là khá đáng chú ý. Bạn sẽ bắt đầu thấy nó được sử dụng trong những trường hợp sử dụng hạn chế. Sau đó cho nó một năm thứ hai. Cho đến lúc đó, nó hoạt động tốt một cách đáng ngạc nhiên, nhưng bạn không thể lần dựa vào nó được. Đó là những gì chúng ta làm bây giờ với chatbot, bạn vẫn phải lo chúng bị ảo giác. Chà, câu hỏi về việc áp dụng thực sự phụ thuộc vào mức độ tin cậy mà bạn yêu cầu. Bất kỳ trường nào có thể chấp nhận được lỗi sẽ được tự động hóa nhanh hơn những trường không thể chấp nhận được.
Người dẫn chương trình Jacob: Vì vậy, tôi muốn quay lại câu hỏi ban đầu của Jordan, về cơ bản, ngay bây giờ bạn cần lượng lớn sự trợ giúp để có thể tích hợp vào dữ liệu phù hợp cũng như xác định các biện pháp bảo vệ và quy trình làm việc tùy chỉnh, điều này hoàn toàn hợp lý. Vì vậy, loại lớp trung gian nào sẽ tồn tại giữa "Này, mô hình sử dụng máy tính tuyệt vời, các công ty đã sẵn sàng đăng nhập"? Lớp giữa này sẽ trông như thế nào?
Bob McGrew: Trời ạ, tôi cho rằng các công ty khởi nghiệp nên xác định nó. Bạn biết đấy, tôi không cho rằng chúng ta biết rõ câu trả lời cho điều đó. Tôi cho rằng một hiện tượng thú vị mà bạn thấy khi bạn có một công cụ chung như sử dụng máy tính là các vấn đề mà nó giải quyết có độ khó rất nhỏ và nó có thể giải quyết được rất nhiều vấn đề. Nhưng sau đó bạn nhận thấy một vấn đề thực sự quan trọng và bạn không thể giải quyết được nó. Và sau đó bạn nói, được rồi, bây giờ chúng ta sẽ làm điều gì đó rất cụ thể về vấn đề này, và có lẽ chúng ta sẽ thực hiện một phương pháp có lập trình cho vấn đề này. Vì vậy, tôi cho rằng chúng ta sẽ thấy sự kết hợp của phương pháp trong một khoảng thời gian.
Người dẫn chương trình Jordan: Tôi rất tò mò, rõ ràng là bạn đang làm việc trong lĩnh vực nghiên cứu và chịu trách nhiệm về một số nghiên cứu thực sự tiên tiến. Chúng tôi đã nói một chút về việc tính toán thời gian kiểm tra. Bạn đặc biệt quan tâm đến lĩnh vực nào khác?
Bob McGrew: Tôi cho rằng chúng ta đã nói về việc đào tạo trước. Chúng ta đã nói về việc tính toán thời gian thử nghiệm. Một điều thực sự thú vị khác là đa phương thức. Một ngày trọng đại cho đa phương thức. Vâng, hôm nay Sora đã được thả. Trên thực tế, đây là đỉnh cao của cuộc hành trình dài này. Chúng tôi cho rằng các mô hình ngôn ngữ lớn đã được phát minh vào năm 2018. Rõ ràng là bạn có thể áp dụng Transformers và một số kỹ thuật tương tự để thích ứng với các phương thức khác. Vì vậy, bạn có tầm nhìn bao gồm, bạn có đầu ra hình ảnh, đầu vào âm thanh và đầu ra âm thanh.
Trước hết, những thứ này khởi đầu là những mô hình phụ trợ như DALLE hay Whisper. Cuối cùng, chúng được tích hợp vào mô hình chính. Một phương thức từ lâu đã phản đối cách tiếp cận này là video. Tôi cho rằng Sora là người đầu tiên chứng minh điều đó; các công ty khác, như Runway, và một số người mẫu khác cũng làm theo. Bây giờ Sora đã được phát hành. Tôi cho rằng có hai điều thực sự thú vị và khác biệt về video so với các phương thức khác.
Khi tạo một hình ảnh, có thể bạn thực sự chỉ muốn tạo một hình ảnh từ một lời nhắc. Có lẽ bạn hãy thử nó lần. Nếu bạn là nhà thiết kế đồ họa chuyên nghiệp, bạn có thể chỉnh sửa một số chi tiết trong hình ảnh này. Nhưng thành thật mà nói, không ai trong chúng tôi như vậy. Có rất nhiều công dụng ở đây, bạn có cần vài slide không? Bạn có muốn một hình ảnh đi kèm với tweet hoặc bài thuyết trình của mình không? Đây là một quá trình rất đơn giản.
Tuy nhiên, đối với video, wow. Ý tôi là, đó là sê-ri chuỗi sự kiện mở rộng. Đó không phải là một lời nhắc. Vì vậy, bây giờ bạn thực sự cần một giao diện người dùng hoàn chỉnh. Bạn cần suy nghĩ về cách làm cho câu chuyện diễn ra theo thời gian. Tôi cho rằng đó là một trong những điều chúng ta sẽ thấy với phiên bản Sora. Sora dành nhiều thời gian hơn để suy nghĩ về điều này; đội ngũ sản phẩm nỗ lực nhiều hơn vào việc này so với một số nền tảng khác.
Một điều khác bạn cần cân nhắc là video rất đắt tiền. Việc đào tạo những mô hình này rất tốn kém và việc vận hành những mô hình này cũng rất tốn kém. Vì vậy, mặc dù thật thú vị khi xem video chất lượng Sora - và tôi cho rằng chất lượng của Sora thực sự tốt hơn - bạn phải chú ý hơn một chút để thấy rằng video đó có chất lượng tốt hơn, ít nhất là nếu bạn chỉ xem một đoạn clip ngắn.
Giờ đây, bất kỳ ai có tài khoản Plus đều có thể sử dụng Sora. OpenAI đã phát hành tài khoản Pro trị giá 200 USD mỗi tháng, trong đó gồm việc tạo chậm Sora không giới hạn. Khi bạn đạt được mức độ chất lượng và phân phối như vậy, hai vấn đề khó khăn sẽ được giải quyết. Đây sẽ là ngưỡng cao mà các đối thủ khác khó có thể sánh kịp.
Người dẫn chương trình Jacob: Sự phát triển của các mô hình video sẽ như thế nào trong vài năm tới? Ý tôi là, rõ ràng là trong không gian mô hình ngôn ngữ rộng lớn, chúng ta đã thấy sự tiến bộ to lớn, có cảm giác như các mô hình năm ngoái giờ đây rẻ hơn gấp 10 lần và nhanh hơn nhiều. Bạn cho rằng sẽ có những cải tiến tương tự cho video không?
Bob McGrew: Thực ra, tôi cho rằng sự tương tự khá đơn giản. Vì vậy, nếu tôi nghĩ về sự khác biệt giữa mô hình video ngày nay và mô hình video trong hai năm tới, trước hết chất lượng sẽ tốt hơn. Chất lượng tức thời bây giờ là rất tốt. Bạn có thể nhìn thấy sự phản ánh. Nếu bạn chia sẻ điều gì đó, tất cả những câu đố khó giải, bạn có thể chỉ ra, ồ, nhìn này, có sự phản ánh được thực hiện ở đó. Có chút khói. Bạn biết đấy, điều khó khăn là mở rộng, trở nên mạch lạc.
Vì vậy, đội ngũ sản phẩm SOAR có tính năng bảng phân cảnh cho phép bạn đặt các điểm kiểm tra ở các điểm khác nhau, chẳng hạn như cứ năm giây một lần hoặc mười giây một lần, để giúp hướng dẫn quá trình xây dựng. Bạn biết đấy, về cơ bản, nếu bạn muốn chuyển từ video vài giây sang video dài một giờ thì đó là một vấn đề rất khó khăn. Tôi cho rằng đây là thứ bạn sẽ thấy ở thế hệ mẫu tiếp theo.
Mặt khác, một sự tương tự khác là, tôi thực sự cho rằng nó sẽ rất giống một mô hình ngôn ngữ lớn, nếu bạn muốn có mã thông báo chất lượng GPT-3, nó rẻ hơn 100 lần so với khi GPT-3 lần đầu tiên ra mắt. Điều này cũng đúng với Sora, nơi bạn có thể xem những video chân thực, cực kỳ đẹp mắt này và chúng hầu như không tốn một xu nào.
Người dẫn chương trình Jacob: Tôi nghĩ giấc mơ sẽ là có một bộ phim dài tập được tạo ra bởi trí tuệ nhân tạo, giành được một số giải thưởng hoặc thứ gì đó tương tự, bạn biết đấy, sử dụng một câu hỏi podcast trơ trẽn, bạn cho rằng khi nào chúng ta sẽ có một bộ phim như thế cái này?
Bob McGrew: Tôi chỉ có thể đoán thôi. Ôi Chúa ơi. Đúng. Thành thật mà nói thì tiêu chuẩn để giành được giải thưởng có vẻ quá thấp phải không? Tôi nghĩ có rất nhiều chương trình trao giải. Thực sự, đây có phải là bộ phim bạn thực sự muốn xem không? Đúng. Tôi có cảm giác như chúng ta sẽ xem nó sau hai năm nữa, nhưng thực ra nó sẽ kém ấn tượng hơn những gì tôi vừa nói vì lý do bạn muốn xem không phải vì bản thân video mà là vì có một đạo diễn đã có viễn cảnh mong đợi sáng tạo và sử dụng mô hình video để hiện thực hóa viễn cảnh mong đợi sáng tạo của mình. Tôi cho rằng họ làm vậy vì họ có thể làm được những điều mà họ không thể chụp ảnh bằng phương tiện này. Chúng ta có thể tưởng tượng nó. Không ai trong chúng tôi ở đây là giám đốc, nhưng tất cả chúng tôi đều có thể tưởng tượng ra những khả năng có thể xảy ra. Chúng tôi không phải là nhà thiết kế đồ họa, chúng tôi không phải là giám đốc, nhưng vâng, đó là tương lai.
Người dẫn chương trình Jordan: Đúng vậy. Vâng, chúng tôi có một số kỹ năng rất cụ thể ở đây. Vâng, chúng tôi đang chứng kiến rất nhiều công ty nổi lên với nỗ lực trở thành Pixar của AI. Chúng tôi luôn đặt câu hỏi, khi nào điều này thực sự khả thi? Vì vậy, có vẻ như nó sẽ đến sớm hơn rất nhiều so với những gì chúng ta mong đợi.
Bob McGrew: Đó là suy đoán của tôi. Một khi mọi việc đã đạt đến giai đoạn có thể chứng minh được thì mọi việc sẽ tiến triển rất nhanh chóng. Trước đó, tiến độ diễn ra rất chậm, hoặc ít nhất là vô hình.
Người điều hành Jordan: Tôi muốn chuyển từ video sang robot. Bạn đã tham gia OpenAI để nghiên cứu rất nhiều về robot khi mới bắt đầu. Chúng tôi muốn nghe suy nghĩ của bạn về lĩnh vực này và vị trí của chúng tôi ngày hôm nay cũng như vị trí mà bạn cho rằng nó sẽ đi tới.
Bob McGrew: Đây thực sự là một câu hỏi rất cá nhân. Khi tôi rời Palantir, một trong những suy nghĩ của tôi là bot sẽ là lĩnh vực mà việc học độ sâu trở thành hiện thực chứ không chỉ là một nút trên trang web của ai đó. Vì vậy, tôi đã dành một năm giữa Palantir và OpenAI để tìm hiểu thêm về robot và viết một số mã ban đầu về thị giác bằng cách sử dụng học độ sâu. Đây là một lĩnh vực rất thách thức. Vào thời điểm đó, tôi nghĩ có thể là 5 năm nữa; đó là năm 2015, và điều đó hoàn toàn sai lầm. Tuy nhiên, tôi cho rằng bây giờ là thời điểm thích hợp. Tôi tin rằng robot sẽ được sử dụng rộng rãi trong 5 năm nữa, mặc dù còn một số hạn chế. Vì vậy, tôi cho rằng bây giờ là thời điểm tốt để thành lập một công ty chế tạo robot.
Một quan điểm khá rõ ràng là mô hình cơ sở là một bước đột phá lớn trong việc giúp robot thiết lập và chạy nhanh chóng, cho phép nó khái quát hóa theo những cách quan trọng. Có một vài khía cạnh khác nhau về điều này. Trong đó rõ ràng hơn là khả năng sử dụng tầm nhìn và chuyển tầm nhìn thành kế hoạch hành động do mô hình cơ bản mang lại. Một khía cạnh ít rõ ràng hơn và có lẽ thú vị hơn là toàn bộ hệ sinh thái đã phát triển. Bây giờ tôi đã rời OpenAI, tôi đã dành thời gian với những người sáng lập và tôi đã nói chuyện với một số người sáng lập bot. Một người sáng lập bot nói với tôi rằng họ thực sự đã thiết lập bot để có thể trò chuyện. Điều này thực sự thú vị và dễ dàng hơn nhiều; bạn có thể ra lệnh cho robot phải làm gì và nó sẽ hiểu. Nó sử dụng một số mô hình chuyên dụng để thực hiện các hoạt động. Trước đây, việc viết những gì bạn muốn rất cồng kềnh và bạn phải ngồi trước máy tính thay vì nhìn vào robot. Bây giờ bạn chỉ cần nói chuyện với nó.
Tôi cho rằng một trong những khác biệt chính trong kết quả mà chúng tôi vẫn chưa hiểu là bạn học trong mô phỏng hay trong thế giới thực. Đóng góp chính của chúng tôi trong hai năm qua trong lĩnh vực robot là chứng minh rằng bạn có thể đào tạo trong một trình mô phỏng và khái quát nó vào thế giới thực. Có nhiều lý do để sử dụng trình mô phỏng; ví dụ, việc chạy trên hệ thống sản xuất hoặc trong thế giới thực là rất cồng kềnh. Bạn có thể làm bài kiểm tra miễn phí và hơn thế nữa. Tuy nhiên, trình mô phỏng rất tốt trong việc mô phỏng các vật thể cứng. Điều này thật tuyệt nếu bạn đang thực hiện nhiệm vụ chọn và đặt với các vật cứng. Tuy nhiên, nhiều thứ trên thế giới là vật mềm. Bạn phải xử lý vải, hoặc khi xem xét nhà kho, bìa cứng. Thật không may, trình giả lập không thực hiện tốt công việc xử lý các tình huống này. Vì vậy, đối với bất kỳ thứ gì muốn thực sự phổ biến, phương pháp duy nhất chúng tôi có thể làm ngay bây giờ là sử dụng các bản demo trong thế giới thực. Như bạn có thể thấy từ một số công việc mới nổi gần đây, điều này thực sự có thể tạo ra những kết quả đầy hứa hẹn.
Người điều hành Jacob: Hiệu quả rất tốt. Và sau đó, tôi nghĩ, rõ ràng điều này có phần bất khả tri, giống như, bạn biết đấy, khi mọi người khám phá quy luật mở rộng quy mô trong chế tạo robot và lượng dữ liệu mà con người có thể cần để vận hành từ xa, nhưng bạn cảm thấy như chúng ta đã khá gần với nó rồi. Phải không? đóng? Hoặc, ý tôi là, rõ ràng, bạn biết đấy, vào năm 2015, bạn cho rằng còn 5 năm nữa. Bạn cho rằng chúng ta đang tiến gần đến thời điểm mà mọi người nói robot giống như ChatGPT và mọi người nói, ồ, điều đó thật tuyệt, trông khác biệt và hoạt động được.
Bob McGrew: Khi nói đến các dự đoán, đặc biệt là các dự đoán về robot, bạn thực sự phải suy nghĩ về lĩnh vực này. Vì vậy, tôi khá bi quan về việc áp dụng robot của người tiêu dùng đại chúng, bởi vì có robot trong nhà thật đáng sợ. Cánh tay robot thật nguy hiểm. Họ có thể giết bạn và quan trọng hơn là họ có thể giết con bạn. Và, bạn biết đấy, bạn có thể sử dụng các loại cánh tay robot khác nhau không có những nhược điểm này, nhưng chúng cũng có những nhược điểm khác. Nhà là một nơi rất tự do.
Nhưng tôi cho rằng rằng trong nhiều hình thức bán lẻ hoặc hoàn cảnh làm việc khác, tôi cho rằng chúng ta sẽ thấy điều đó sau 5 năm nữa. Nếu bạn đến một nhà kho của Amazon, bạn thậm chí có thể thấy điều này xảy ra; họ đã có sẵn robot để giải quyết các vấn đề về di chuyển. Bạn biết đấy, họ đang làm việc về việc lấy và đặt. Tôi cho rằng bạn sẽ thấy lượng lớn robot được triển khai trong hoàn cảnh nhà kho.
Và sau đó, bạn biết đấy, nó sẽ được thực hiện theo từng giai đoạn theo từng lĩnh vực trong một khoảng thời gian. Tôi sẽ không dự đoán khi nào nó sẽ được đưa vào sử dụng trong nhà, nhưng tôi cho rằng bạn sẽ thấy nó được sử dụng rộng rãi. Tôi cho rằng trong 5 năm nữa, chúng ta sẽ tương tác với họ trong cuộc sống hàng ngày theo cách mà ngày nay chúng ta cảm thấy kỳ lạ.
Jacob: Ý tôi là, rõ ràng đã có một số công ty chế tạo robot độc lập. Ở một mức độ nào đó, rõ ràng là robot tận dụng được những tiến bộ cơ bản trong LLM. Tôi tò mò, kiểu như, bạn biết đấy, liệu tất cả những điều này có kết hợp được với nhau không? Rõ ràng một số công ty chỉ làm mô hình video. Một số công ty tập trung vào sinh học, khoa học vật liệu. Khi bạn nghĩ về hướng đi dài hạn của việc này, bạn biết đấy, liệu sẽ có một mô hình lớn bao gồm tất cả những điều này không?
Bob McGrew: Ở quy mô mô hình tiên tiến, tôi cho rằng bạn nên tiếp tục mong đợi những công ty này sẽ tung ra một mô hình. Nó sẽ là thứ tốt nhất ở mọi khía cạnh của mọi dạng dữ liệu họ có. Đây là một cảnh báo quan trọng.
Những gì chuyên môn thực sự mang lại cho bạn là hiệu quả chi phí. Trong năm qua, bạn đã thấy các phòng thí nghiệm tiên tiến đã tiến bộ hơn trong việc tạo ra các mô hình nhỏ với lượng lớn trí thông minh có thể thực hiện các trường hợp sử dụng giống như chatbot với chi phí rất thấp.
Nếu bạn là một công ty, một mô hình rất phổ biến tại thời điểm này là bạn tìm ra những gì bạn muốn AI làm cho mình và sau đó bạn vận hành nó bằng mô hình tiên tiến nhất mà bạn thích. Sau đó, bạn tạo một cơ sở dữ liệu khổng lồ và tinh chỉnh một số mô hình nhỏ hơn để thực hiện điều đó. Bạn biết đấy, đây là một thông lệ rất phổ biến; OpenAI cung cấp dịch vụ này và tôi tin rằng đây là mô hình phổ biến trên mọi nền tảng.
Bạn có thể nói, bạn biết đấy, nó rất, rất rẻ. Bây giờ bạn đào tạo một chatbot như thế này thì chatbot chăm sóc khách hàng của bạn cũng được đào tạo như thế này, nếu ai đó đi chệch kịch bản thì sẽ không thể tốt như nếu bạn sử dụng mô hình tiên tiến. Nhưng điều đó không thành vấn đề; đó là tỷ lệ giữa hiệu suất và giá cả mà mọi người sẵn sàng chấp nhận.
Người điều hành Jacob: Một điều tôi thấy rất thú vị là khi chúng ta trò chuyện trước đây, bạn đã đề cập đến quan điểm vĩ mô về sự tiến bộ của trí tuệ nhân tạo. Về cơ bản, bạn nói rằng vào năm 2018, chúng tôi đã kỳ vọng rằng đến năm 2024, chúng tôi sẽ có nhiều khả năng mô hình khác nhau. , và ngay từ những nguyên tắc đầu tiên bạn sẽ cho rằng rằng những điều này đã hoàn toàn thay đổi. Có vẻ như thế giới gần như không thể nhận ra được kể từ năm 2018. Mặc dù bạn chắc chắn đã có tác động to lớn đến thế giới rộng lớn hơn nhưng tôi vẫn chưa thể nói rằng sự lan rộng của AI đã thay đổi hoàn toàn cách thế giới vận hành. Tại sao bạn cho rằng đây là trường hợp?
Bob McGrew: Chà, tôi chỉ muốn nói lại điều đó một chút, tôi nghĩ, nghe có vẻ kỳ lạ nhưng suy nghĩ đúng đắn về trí tuệ nhân tạo là phải bi quan sâu sắc. Giống như, tại sao tiến độ lại chậm như vậy? Tại sao, bạn biết đấy, một số người nói rằng trí tuệ nhân tạo đã khiến GDP tăng trưởng 0,1%. Nhưng điều này không phải do tăng năng suất khi sử dụng AI mà là do chi phí vốn phát sinh để xây dựng các trung tâm dữ liệu cần thiết để đào tạo AI. Vậy tại sao AI không được thể hiện rõ ràng trong dữ liệu năng suất? Nó giống như những gì người ta thường nói khi nói về Internet vào những năm 1990.
Tôi cho rằng có một số lý do cho việc này. Đầu tiên, cho rằng quan điểm của năm 2018 rằng một khi bạn có thể nói chuyện với nó và nó có thể viết mã, mọi người sẽ được tự động hóa ngay lập tức. Đây cũng chính là ý tưởng mà các kỹ sư có khi được yêu cầu viết một tính năng. Bạn có thể nghĩ, "Ồ, vâng, tôi có thể làm điều đó trong vài tuần." Nhưng khi bắt đầu viết mã, bạn nhận ra, "Ồ, thực ra, tính năng này phức tạp hơn tôi nghĩ. "Hơn nữa." là một kỹ sư giỏi, bạn có thể ước tính khoảng hai tuần, nhưng trên thực tế, dự án có thể mất hai tháng. Nếu họ là một kỹ sư tồi, họ có thể thấy rằng tính năng này hoàn toàn không thể viết được.
Tôi cho rằng đó là điều sẽ xảy ra khi chúng ta thực sự tìm hiểu cách con người hoàn thành công việc. Đúng, bạn có thể nói chuyện với họ qua điện thoại, nhưng điều đó không có nghĩa là tất cả những gì họ làm chỉ là nói chuyện với bạn. Trong đó công việc thực sự liên quan. Về cơ bản, AI có thể tự động hóa chỉ một nhiệm vụ. Tuy nhiên, một công việc được tạo thành từ nhiều nhiệm vụ. Khi bạn xem xét kỹ hơn các công việc thực tế, bạn sẽ thấy rằng đối với hầu hết các công việc, có một số nhiệm vụ không thể tự động hóa được.
Ví dụ: ngay cả khi bạn nhìn vào lập trình, mã soạn sẵn sẽ được tối ưu hóa trước tiên và những phần phức tạp hơn, chẳng hạn như tìm ra chính xác những gì bạn muốn làm, sẽ được giải quyết sau cùng. Vì vậy, tôi cho rằng khi chúng ta tiếp tục triển khai AI, chúng ta sẽ thấy rằng nó ngày càng phức tạp và có nhiều hạn chế hơn trong việc tự động hóa toàn bộ phạm vi công việc của con người.
Jordan: Vì vậy, với ý nghĩ đó, xét về mặt tiến độ, bạn cho rằng lĩnh vực nào ngày nay bị đánh giá thấp và cần được chú ý nhiều hơn hiện tại?
Bob McGrew: Được rồi. Đây là câu trả lời, những công ty khởi nghiệp mà tôi thực sự quan tâm là những công ty mà mọi người đang sử dụng trí tuệ nhân tạo để giải quyết một số vấn đề rất nhàm chán.
Hãy tưởng tượng bạn điều hành một công ty nơi bạn có thể thuê tất cả những người thông minh mà bạn muốn làm những việc cực kỳ nhàm chán như kiểm tra mọi chi phí của bạn và đảm bảo rằng bạn đang so sánh giá cả một cách hợp lý. Ví dụ: nếu bạn có một bộ phận mua sắm toàn những người như Elon Musk, những người kiểm soát chi tiêu thực sự cẩn thận, bạn có thể tiết kiệm được rất nhiều tiền.
Không ai làm điều đó bởi vì, bạn biết đấy, những người thực sự có thể tiết kiệm tiền, họ sẽ cảm thấy buồn chán. Họ sẽ ghét công việc này phải không? Nhưng trí tuệ nhân tạo có tính kiên nhẫn vô cùng.
Nó không cần phải thông minh vô cùng. Và, bạn biết đấy, tôi cho rằng ở bất cứ đâu nếu bạn đang điều hành việc kinh doanh của mình và bạn có thể nhận được giá trị từ điều gì đó mà những người có lòng kiên nhẫn vô hạn đang làm, thì đó là điều mà AI nên tự động hóa.
Jacob: Thật thú vị vì tôi luôn cho rằng các nhà tư vấn là nơi để những người thông minh giải quyết những vấn đề nhàm chán hoặc làm việc trong những ngành nhàm chán. Và rõ ràng, với những mô hình trí tuệ nhân tạo tiên tiến, bạn có thể yêu cầu một người có chỉ số IQ rất cao giải quyết những vấn đề mà bạn sẽ không bao giờ yêu cầu một người thông minh làm.
Bob McGrew: Vâng, ý tôi là, đây là lần đầu tiên tôi nghe nói có người thực hiện một nghiên cứu về năng suất cho thấy AI thực sự mang lại sự cải thiện từ 20 đến 50%. Tôi đã nghĩ, ồ, thật tuyệt. Sau đó tôi phát hiện ra, ồ, đó là một cố vấn. À, bạn biết đấy, trí tuệ nhân tạo rất giỏi "nhảm nhí", còn việc của các nhà tư vấn là "nhảm nhí". Vì vậy có lẽ chúng ta không nên ngạc nhiên khi những cải tiến về năng suất xuất hiện ở đây trước tiên.
Người điều hành Jacob: Vâng, tôi cho rằng sự cải thiện cũng lớn nhất ở nửa dưới của những người có thành tích kém, phải không?
Bob McGrew: Đúng vậy. Thực ra tôi cho rằng điều đó cũng có chút hy vọng. Bởi vì nếu bạn nhìn vào nửa dưới của dân số, bạn biết đấy, họ có những kỹ năng mà con người có nhưng rất khó tự động hóa, đó là phiên bản đầy hy vọng của điều này. Họ biết họ đang làm gì, nhưng họ không biết cách viết mã để triển khai nó. Sau đó, mô hình xuất hiện và thông báo: ồ, tôi biết cách viết mã để thực hiện việc này, nhưng tôi không biết mình phải làm gì. Vì vậy, giờ đây những người làm việc kém này thực sự có thể có được sự thăng tiến thực sự trong công việc của mình. Vì vậy tôi nghĩ điều đó rất đáng hy vọng.
Người dẫn chương trình Jordan: Tôi nghĩ, về mặt hiệu suất, bạn đã và đang làm việc với một số nhà nghiên cứu giỏi nhất trên thế giới. Bạn cho rằng điều gì khiến một nhà nghiên cứu AI trở thành người giỏi nhất?
Bob McGrew: Có nhiều loại nhà nghiên cứu khác nhau làm những công việc khác nhau. Nếu bạn nghĩ về ai đó như Alec Radford, người đã phát minh ra sê-ri GPT và CLIP, bạn sẽ thấy rằng về cơ bản anh ấy đã phát minh ra các mô hình ngôn ngữ lớn (LLM) và sau đó tiếp tục thực hiện nhiều hình thức nghiên cứu đa phương thức khác nhau. Alec là một người đàn ông thích làm việc một mình vào ban đêm. Ngược lại, những ngôi sao sáng khác như Ilya Sutskvi và Jacob Picjoki, nhà khoa học đứng đầu thứ nhất và thứ hai của OpenAI, lần lượt có những ý tưởng và viễn cảnh mong đợi tuyệt vời. Họ giúp đỡ người khác giải quyết các thách thức và đóng vai trò quan trọng trong việc phát triển lộ trình chung cho công ty.
Những nhà khoa học giỏi nhất đều có một đặc điểm chung: sự kiên trì nhất định. Tôi sẽ luôn nhớ cảnh Aditya Ramesh, người đã phát minh ra DALL-E, vật lộn với vấn đề tạo ra một hình ảnh không có trong tập huấn luyện để chứng minh rằng mạng lưới thần kinh có thể sáng tạo. Ý tưởng ban đầu của DALL-E là xem liệu nó có thể tạo ra hình ảnh một chú gấu trúc màu hồng đang trượt băng trên băng hay không, điều mà Aditya chắc chắn không tồn tại trong dữ liệu huấn luyện. Anh ấy đã làm việc đó trong 18 tháng, có thể là hai năm, cố gắng biến nó thành hiện thực.
Tôi nhớ khoảng một năm sau, Ilya đến cho tôi xem một bức ảnh và nói: "Nhìn này, đây là thế hệ mới nhất. Nó thực sự bắt đầu hoạt động." Những gì tôi thấy là một vệt mờ và phần trên chỉ có màu hồng, màu trắng. phía dưới - chỉ là các pixel đang bắt đầu kết tụ lại với nhau. Tôi vẫn chưa thể nhìn thấy gì nhưng Aditya vẫn kiên trì. Sự kiên trì này là điều mà mọi nhà nghiên cứu thành công đều phải có khi giải quyết các vấn đề cơ bản. Họ phải coi đây là “điểm tựa cuối cùng” của mình và quyết tâm giữ vững nó trong nhiều năm nếu cần thiết.
Người dẫn chương trình Jacob: Để làm cho nó hoạt động. Bạn học được gì khi thành lập một tổ chức nghiên cứu với một nhóm người như vậy?
Bob McGrew: Thật thú vị, phép so sánh tốt nhất mà tôi có thể nghĩ đến thực ra lại đến từ Alex Carp tại Palantir, người luôn nói rằng các kỹ sư là nghệ sĩ. Điều này có ý nghĩa. Khi bạn nói chuyện với một kỹ sư thực sự giỏi, họ chỉ muốn sáng tạo. Có điều gì đó trong trái tim họ. Code là cách họ biến tác phẩm điêu khắc trong tâm trí mình thành hiện thực.
Tại Palantir, bạn biết đấy, bạn phải để họ sửa lỗi, nhưng lần bạn làm điều đó, phía nghệ sĩ của họ lại rất buồn. Phải có một quy trình để mọi người làm việc cùng nhau nhưng phía nghệ sĩ của họ lại thấy buồn. Sự thật là, kỹ sư là nghệ sĩ, kỹ sư 10x là nghệ sĩ 10x và nhà nghiên cứu là nghệ sĩ 100x bất kỳ kỹ sư nào.
Còn nhiều điều cần cân nhắc khi xây dựng một tổ chức với các nhà nghiên cứu. Có một cách quản lý kỹ thuật mà bạn nói rằng sẽ thật tuyệt nếu mọi người là một phần có thể hoán đổi cho nhau và bạn có một quy trình cho phép họ làm việc cùng nhau. Tuy nhiên, làm việc với các nhà nghiên cứu đòi hỏi phải hết sức chú ý vì điều quan trọng là bạn không được cản trở tính nghệ thuật của họ.
Chính niềm đam mê với viễn cảnh mong đợi trong tâm trí họ đã khiến họ sẵn sàng đón nhận mọi thử thách để biến viễn cảnh mong đợi thành hiện thực.
Người điều hành Jordan: Bạn thật may mắn khi được làm việc tại Palantir và OpenAI, đồng thời có rất nhiều bài viết thảo luận về nền văn hóa rất đặc biệt của Palantir. Khi bạn nghĩ về OpenAI, tôi chắc chắn rằng sẽ có rất nhiều bài viết về văn hóa của nó trong tương lai. Bạn cho rằng những bài viết này sẽ nói gì?
Bob McGrew: Vâng. Ý tôi là, tôi cho rằng một trong đó là hợp tác với các nhà nghiên cứu như chúng ta vừa nói đến. Một điều điên rồ khác về OpenAI là nó đã trải qua bao lần lần biến đổi, hoặc tôi thích coi nó như lần xây dựng lại. Vì thế khi tôi gia nhập OpenAI, đó là một tổ chức phi lợi nhuận. Viễn cảnh mong đợi của công ty là xây dựng AGI bằng cách viết bài. Chúng tôi biết điều đó là sai; nó có cảm giác không ổn. Rất nhiều người trong những ngày đầu, Sam, Greg và tôi, là những người có tinh thần kinh doanh, và con đường đến với AGI này có vẻ không ổn.
Vài năm sau, công ty chuyển từ tổ chức phi lợi nhuận sang tổ chức vì lợi nhuận. Điều này gây ra rất nhiều tranh cãi trong công ty, một phần vì chúng tôi biết rằng đến một lúc nào đó chúng tôi sẽ phải tương tác với sản phẩm. Chúng ta phải nghĩ cách kiếm tiền. Sự hợp tác với Microsoft đã trở thành một thời điểm tái thiết khác, một thời điểm cũng gây nhiều tranh cãi. Ý tôi là, có thể kiếm tiền là một chuyện, nhưng giao nó cho Microsoft, cho một công ty công nghệ lớn, ồ, điều đó thật khủng khiếp.
Ngoài ra, điều quan trọng không kém là chúng tôi quyết định nói, được thôi, chúng tôi không chỉ hợp tác với Microsoft mà còn xây dựng sản phẩm của riêng mình bằng cách sử dụng API. Cuối cùng, thêm dịch vụ tiêu dùng vào dịch vụ doanh nghiệp thông qua ChatGPT. Đây là những chuyển biến mang tính quyết định mà các công ty khởi nghiệp sẽ phải trải qua. Tại OpenAI, có cảm giác như cứ sau 18 tháng hoặc hai năm một lần, về cơ bản chúng tôi lại thay đổi mục đích của công ty và danh tính của những người làm việc ở đó.
Chúng tôi đã chuyển từ quan niệm rằng công việc của bạn là viết báo sang ý tưởng xây dựng một mô hình mà mọi người trên thế giới đều có thể sử dụng. Điều thực sự điên rồ là vào năm 2017, nếu bạn hỏi chúng tôi sứ mệnh đúng đắn là gì, thì đó sẽ không phải là viết một bài báo để triển khai AGI; thay vào đó, chúng tôi muốn xây dựng một mô hình mà mọi người đều có thể sử dụng. Nhưng chúng ta không biết làm cách nào để đạt được điều đó, vì vậy chúng ta chỉ cần khám phá và tìm ra tất cả những điều này trong suốt quá trình.
Người dẫn chương trình Jacob: Bạn cho rằng điều gì khiến bạn thành công đến vậy trong việc thực hiện những thay đổi lớn này?
Bob McGrew: Ý tôi là, trước hết là sự cần thiết. Không ai trong số này được chọn tùy ý, phải không? Bạn có một tổ chức phi lợi nhuận và bạn hết tiền, và có thể bạn cần tìm cách huy động tiền; có thể để huy động tiền, bạn phải trở thành một công ty vì lợi nhuận. Bạn đang làm việc với Microsoft, có thể họ không thấy giá trị trong mô hình bạn đang tạo nên bạn cần xây dựng một API vì nó thực sự có thể hoạt động. Sau đó, bạn có thể cho họ thấy rằng mọi người thực sự muốn những mô hình này.
ChatGPT, tôi cho rằng đây là điều chúng tôi thực sự tin tưởng sau GPT-3, với những tiến bộ phù hợp, hình thức phù hợp không chỉ là một API mà mọi người phải thông qua một bên trung gian để nói chuyện với mô hình, mà mô hình sẽ là thứ bạn có thể nói chuyện trực tiếp với một cái gì đó Vì vậy, đó là một điều mà tôi cho rằng là rất có chủ ý. Nhưng như tất cả chúng ta đều biết, sự việc xảy ra chỉ là một tai nạn. Chúng tôi đang làm việc trên nó. Chúng tôi thực sự đã đào tạo GPT-4 và chúng tôi hy vọng sẽ phát hành nó khi mô hình đủ tốt để chúng tôi sử dụng nó hàng ngày.
Tất cả chúng tôi đều xem xét ChatGPT vào tháng 11 và nghĩ, liệu nó có vượt qua ngưỡng không? Không chính xác. John Schulman, một trong những người đồng sáng lập dẫn đầu đội ngũ, nói, nhìn này, tôi thực sự chỉ muốn chuyển giao cái này. Tôi muốn có được một số kinh nghiệm bên ngoài. Tôi nhớ mình đã nghĩ rằng nếu một nghìn người sử dụng nó thì đó sẽ là một thành công. Bạn biết đấy, tiêu chuẩn thành công của chúng ta khá thấp. Chúng tôi đã quyết định không đưa nó vào danh sách chờ.
Và sau đó, bạn biết đấy, thế giới lại ép buộc chúng ta, và đột nhiên, mọi người trên thế giới đều muốn sử dụng nó. Khi bạn ra mắt nó, những ngày đầu tiên đó như thế nào? Ôi chúa ơi, chuyện đó khá dữ dội. Lúc đầu, có một số người không tin rằng điều này thực sự sẽ xảy ra. Có chút lo lắng. Chúng tôi nhanh chóng cố gắng tìm ra cách để có được GPU. Vì vậy, chúng tôi đã tạm thời chuyển một số tài nguyên máy tính nghiên cứu của mình đến đó.
Và câu hỏi đặt ra là khi nào nó sẽ dừng lại? Điều này sẽ tiếp tục hay nó sẽ trở thành một mốt nhất thời? Bởi vì chúng tôi gần như đã trải nghiệm điều gì đó tương tự với DALL-E. Mẫu DALL-E 2 gây xôn xao mạng rồi biến mất. Vì vậy mọi người lo lắng rằng ChatGPT cũng sẽ thực sự biến mất. Đây là lúc tôi rất tin chắc rằng nó sẽ không biến mất mà nó thực sự sẽ quan trọng hơn API.
Người dẫn chương trình Jacob: Ý tôi là, thật là một trải nghiệm thú vị. Tôi nghĩ một trong đó những điều thú vị là bạn đang tiến rất gần đến nghiên cứu AI tiên tiến. Tôi tò mò, bạn đã thay đổi suy nghĩ của mình như thế nào trong lĩnh vực AI trong năm qua?
Bob McGrew: Điều buồn cười là tôi không cho rằng mình đã thay đổi quyết định. Sau GPT-3, bước vào năm 2020 và 2021, nếu bạn trong đó, rất nhiều điều cần phải xảy ra trong 4 hoặc 5 năm tới dường như là điều đương nhiên. Chúng ta sẽ có những mô hình này. Chúng tôi sẽ làm cho các mô hình lớn hơn, chúng sẽ có nhiều mô hình. Ngay cả trong năm 2021, chúng tôi vẫn đang nói về cách chúng tôi cần sử dụng RL trên các mô hình ngôn ngữ và cố gắng tìm ra cách để nó hoạt động. Và, sự khác biệt thực sự giữa năm 2021 và 2024 không phải là điều cần phải xảy ra mà là việc chúng ta có thể biến điều đó thành hiện thực. Và bạn biết đấy, chúng tôi, lĩnh vực này, có thể biến điều đó thành hiện thực. Nhưng ở một khía cạnh nào đó, hoàn cảnh hiện tại của chúng tôi cũng có chút gì đó do duyên phận.
Người dẫn chương trình Jacob: Tôi đoán, trong tương lai, khi bạn nghĩ về việc mở rộng đào tạo trước và mở rộng mô tính toán thời gian kiểm tra, bạn có cảm thấy như định mệnh sẽ đạt được AGI chỉ với hai thứ đó không? Hoặc, bạn ứng xử vấn đề này như thế nào?
Bob McGrew: Tôi rất khó hiểu khái niệm AGI (Trí tuệ tổng hợp nhân tạo). Và tôi cho rằng, nếu có, một trong những lời chỉ trích sâu sắc của tôi đối với AGI là không có một khoảnh khắc nào đúng lúc và trên thực tế, những vấn đề này là fractal. Và chúng ta sẽ thấy ngày càng có nhiều thứ được tự động hóa. Nhưng bằng cách nào đó chúng tôi - tôi không biết. Tôi có cảm giác nó sẽ trở nên tầm thường đến mức bằng cách nào đó tất cả chúng ta sẽ lái những chiếc xe tự lái đến văn phòng và chỉ huy đội quân trí tuệ nhân tạo ở đó. Và sau đó chúng tôi nghĩ, ồ, điều này thật nhàm chán. Tôi vẫn có cảm giác như đang ở văn phòng và sếp của tôi vẫn là một tên ngốc. Đây có lẽ là tương lai của AGI của chúng tôi. Chúng tôi nóng lòng muốn tan sở lúc 5 giờ chiều hay gì đó.
Nghiêm trọng hơn, tôi luôn cảm thấy và tôi cho rằng đây là quan điểm chung trong OpenAI cũng như trong các phòng thí nghiệm tiên tiến khác, rằng việc giải quyết suy luận là thách thức cơ bản cuối cùng cần có để mở rộng trí thông minh ở cấp độ con người. Bạn cần giải quyết việc đào tạo trước, bạn cần giải quyết các chế độ thất bại, bạn cần giải quyết suy luận. Tại thời điểm này, thách thức còn lại là mở rộng. Nhưng nó rất quan trọng.
Mở rộng rất khó khăn. Trên thực tế, không có nhiều ý tưởng cơ bản nào cả. Hầu như tất cả công việc là làm thế nào để mở rộng để chấp nhận số lượng tính toán ngày càng lớn hơn. Đây là một vấn đề mang tính hệ thống. Đây là một vấn đề phần cứng. Đây là một vấn đề tối ưu hóa. Đây là một vấn đề dữ liệu. Đây là một vấn đề trước khi đào tạo. Tất cả các câu hỏi thực sự chỉ là về mở rộng. Vì vậy, vâng, tôi cho rằng theo một cách nào đó, nó đã được định hình sẵn rồi. Công việc ở đây là mở rộng nó, nhưng thật khó. Lượng lớn công việc.
Người dẫn chương trình Jacob: Rõ ràng, tôi cho rằng mọi người đang nói về tác động xã hội của việc những mô hình này mở rộng khả năng của họ. Tôi cho rằng chúng ta vẫn đang ở giai đoạn đầu của cuộc thảo luận này và có lẽ còn rất nhiều cuộc trò chuyện khác nhau cần phải diễn ra. Nhưng bạn đặc biệt quan tâm và đam mê điều gì và bạn cho rằng chúng ta nên nói về điều gì?
Bob McGrew: Vâng. Điều tôi cho rằng thú vị nhất là chúng ta đang chuyển từ thời đại mà trí thông minh có lẽ là nguồn lực khan hiếm nhất trong xã hội sang thời đại mà trí thông minh sẽ có ở khắp mọi nơi và miễn phí. Vậy yếu tố sản xuất khan hiếm là gì? Và tôi không cho rằng chúng ta biết. Tôi đoán là cơ quan. Đó là, bạn có thể hoàn thành công việc. Những câu hỏi phù hợp bạn cần hỏi là gì? Những dự án phù hợp bạn cần theo đuổi là gì? Tôi cho rằng những loại vấn đề này rất khó để AI giải quyết cho chúng ta. Tôi cho rằng đây sẽ là những câu hỏi cốt lõi mà nhân loại cần phải tìm ra. Và không phải ai cũng giỏi việc này. Vì vậy, tôi cho rằng điều chúng ta cần nghĩ đến là làm cách nào để phát triển loại cơ quan cho phép chúng ta làm việc với cơ quan đó.
Người điều hành Jordan: Bạn cho rằng đây là hiện tại hay tương lai?
Bob McGrew: Tôi cho rằng nó sẽ có cảm giác rất liên tục. Đây là một đường cong hàm mũ. Vấn đề về đường cong hàm mũ là chúng không có bộ nhớ. Bạn luôn có cảm giác như mình luôn di chuyển với cùng tốc độ, cùng nhịp điệu.
Người dẫn chương trình Jacob: Những mô hình này cuối cùng cũng không tìm ra, ý tôi là, nếu bạn nghĩ về việc tìm ra những việc cần làm hoặc mục tiêu của dự án, bạn vừa đề cập đến điều đó lần phải không? Ví dụ: bạn có thể tưởng tượng, ở cấp độ cơ bản nhất trong tương lai, nói với người mẫu, này, hãy xây dựng một công ty tốt, hoặc tạo ra một tác phẩm nghệ thuật thú vị, hoặc tạo ra một bộ phim, hay bất cứ điều gì. Khi những mô hình này trở nên mạnh mẽ hơn, tôi nghĩ cơ quan đó có thể sẽ nói về điều đó.
Bob McGrew: Vâng, ý tôi là, bạn có thể yêu cầu AI giải quyết mọi vấn đề không? Tôi cho rằng bạn có thể làm được và bạn sẽ nhận được một số kết quả. Nhưng hãy lấy Sora làm ví dụ. Nếu bạn đang tạo ra một video và đưa ra lời nhắc rất mơ hồ thì video đó sẽ hoàn toàn dành cho bạn. Có lẽ nó sẽ là một video thực sự thú vị. Có thể nó sẽ hay hơn video thú vị nhất mà bạn có thể nghĩ ra. Nhưng nó có thể không phải là video bạn muốn.
Vì vậy, bạn cũng có thể tương tác với nó, bạn đưa ra lời nhắc rất chi tiết, bạn nói, tôi đã đưa ra những lựa chọn cụ thể này về các video tôi muốn xem. Điều này cho phép bạn tạo video làm hài lòng bạn hoặc khán giả của bạn.
Tôi cho rằng sự căng thẳng này sẽ tiếp tục tồn tại cho dù AI có tiến bộ đến đâu, bởi việc bạn lấp đầy những khoảng trống như thế nào sẽ quyết định rất nhiều đến sản phẩm cuối cùng.
Người dẫn chương trình Jacob: Hôm nay bạn sử dụng mẫu O1 hiện đại như thế nào?
Bob McGrew: Phương pháp hiểu và tương tác ưa thích của tôi với các mô hình là tôi dành nhiều thời gian để dạy đứa con trai tám tuổi của mình cách lập trình. Con thích đặt câu hỏi, vì vậy tôi luôn nghĩ cách kết nối những điều con quan tâm ngày hôm nay với những bài học tôi muốn dạy con.
Ví dụ, một ngày nọ, cậu bé nói: "Bố, trình thu thập dữ liệu web là gì? Nó hoạt động như thế nào?" Điều đó đã cho tôi một cơ hội và tôi nói, được thôi, con có thể dạy bố cách hoạt động của trang web bằng một chương trình ngắn? Tôi đã thử sử dụng mô hình O1, cố gắng tạo ra một chương trình đủ ngắn và không đưa ra quá nhiều khái niệm mới mà tôi chưa dạy anh ấy.
Mục đích là dạy cậu ấy về mạng lưới, những khái niệm cốt lõi mà tôi muốn cậu ấy hiểu, đồng thời đảm bảo nội dung đó có thể tiếp cận được đối với một đứa trẻ 8 tuổi. Phải mất một thời gian để điều chỉnh chương trình, nhưng tôi tin rằng một phần của quá trình học tập là thử nghiệm và thử nghiệm các ý tưởng khác nhau là một khía cạnh quan trọng trong đó.
Người điều hành Jordan: Tôi đoán về mặt thử nghiệm, khi bạn nghĩ về nó từ góc độ thử nghiệm nghiên cứu, khi các mô hình mới xuất hiện, đánh giá cốt lõi mà bạn thường làm là gì và đánh giá dựa vào đánh giá nào nhiều nhất?
Bob McGrew: Ý tôi là, điều đầu tiên cần chỉ ra ở đây là nó thay đổi theo từng thế hệ mẫu xe. Bạn biết đấy, khi chúng tôi phát triển mô hình O1, chỉ báo phù hợp cần xem xét là GPQA, viết tắt của Trả lời câu hỏi đã được chứng minh của Google. Tuy nhiên, vào thời điểm chúng tôi sẵn sàng ra mắt, nó không còn là một chỉ báo thú vị nữa vì chúng tôi đã chuyển từ chỗ gần như không làm gì ngay từ đầu sang trạng thái bão hòa hoàn toàn. Một số câu hỏi còn lại cuối cùng thường là những câu hỏi có cách diễn đạt kém hoặc không thú vị lắm. Vì vậy, chỉ báo bạn chọn phụ thuộc rất nhiều vào những gì bạn đang cố gắng thực hiện trong nghiên cứu của mình và tôi cho rằng đó là nguyên tắc chung.
Tuy nhiên, một thứ hữu ích trong vài năm qua là lập trình. Lập trình là một nhiệm vụ nhiều người, bao gồm cả tôi và các nhà nghiên cứu khác, có thể hiểu được, điều này rất quan trọng. Nó có thể mở rộng từ việc hoàn thành một dòng mã đến viết toàn bộ trang web. Chúng ta vẫn chưa hoàn toàn giải quyết được vấn đề lập trình và tôi cho rằng chúng ta vẫn còn một chặng đường dài phía trước. Tôi tin rằng vẫn còn một khoảng cách rất lớn trước khi chúng ta thực sự có thể thực hiện được công việc của một kỹ sư phần mềm thực sự.
Người dẫn chương trình Jacob: Một điều rõ ràng về sự nghiệp ban đầu của bạn là bạn đang lấy bằng Tiến sĩ về khoa học máy tính và tôi nhớ ít nhất một phần trong đó tập trung vào lý thuyết trò chơi. Rõ ràng, tôi cho rằng có rất nhiều ý nghĩa thú vị khi sử dụng những mô hình này để khám phá các chủ đề trong lý thuyết trò chơi. Điều tôi muốn hỏi là, nói chung, bạn cho rằng trí tuệ nhân tạo sẽ thay đổi nghiên cứu khoa học xã hội, hoạch định chính sách và các lĩnh vực liên quan khác như thế nào? Nếu hôm nay bạn đang xem lại công việc trước đây của mình bằng cách sử dụng sức mạnh của những mô hình này, bạn sẽ cố gắng làm gì?
Bob McGrew: Trước hết, tôi thực sự rất thất vọng về giới học thuật. Tôi cho rằng nó có một tập hợp khích lệ kém. Theo một cách nào đó, tôi đã thiết kế tổ chức của OpenAI để phản ánh môi trường học thuật, tạo ra một nơi mà sự cộng tác có thể phát triển.
Một khía cạnh thú vị của kinh doanh là rất nhiều công việc quản lý sản phẩm giống với khoa học xã hội thực nghiệm. Bạn có một ý tưởng muốn thử nghiệm trên con người. Bạn muốn xem nó hoạt động như thế nào trong khi thực hiện một phương pháp tốt. Thử nghiệm A/B là một ví dụ tuyệt vời; khi bạn làm điều này, bạn thực sự đang tiến hành một hình thức khoa học xã hội.
Đây là một trong những điều tôi đặc biệt hào hứng: nếu bạn đang thực hiện thử nghiệm A/B, tại sao không thực hiện tất cả các tương tác bạn có với người dùng ngay bây giờ, tinh chỉnh mô hình với dữ liệu đó và đột nhiên bạn có một người dùng mô phỏng, nó có phản ứng theo cách phù hợp với người dùng thực tế của bạn không? Điều này có nghĩa là bạn có thể thử nghiệm A/B mà không cần đưa vào sản xuất. Có lẽ sau này, bạn có thể thực hiện một cuộc phỏng vấn sâu với một trong đó những người dùng được mô phỏng để biết suy nghĩ của họ.
Ngày nay điều này có thể thực hiện được không? Tôi không biết. Tôi chưa thử, nhưng có lẽ ngày mai tôi sẽ thử. Tôi cho rằng đây là một nguyên tắc chung tốt: bất cứ khi nào bạn thấy mình yêu cầu ai đó làm điều gì đó cho mình, hãy cân nhắc xem liệu bạn có thể yêu cầu AI làm việc đó hay không. Hơn nữa, AI có thể xử lý hàng trăm nhiệm vụ, trong khi con người chỉ có thể hoàn thành một nhiệm vụ và điều đó cũng phải tốn rất nhiều công sức.
Người dẫn chương trình Jordan: Đúng vậy, tôi đã để Jacob làm rất nhiều nhiệm vụ cho mình.
Người dẫn chương trình Jacob: Đúng vậy, bạn nên ngừng làm việc đó đi. Bạn nên bắt đầu hỏi về mô hình của tôi. Cảm ơn bạn đã cung cấp nó. Bạn đã cứu tôi rất nhiều thời gian. Tôi nghĩ rằng bạn đã đề cập rằng bạn đã thiết kế khích lệ hiện có trong giới học thuật và thiết kế tổ chức OpenAI trái ngược với điều đó. Bạn có thể nói thêm về điều này?
Bob McGrew: Vâng, vâng. Ý tôi là, hãy nghĩ lại năm 2017, 2018, 2019. Vào thời điểm đó, các phòng thí nghiệm nghiên cứu trí tuệ nhân tạo chưa phải là một ngành công nghiệp lớn. Họ chỉ là phòng thí nghiệm nghiên cứu. Rất nhiều người trong đó đến từ giới học thuật. Nếu bạn nhìn vào cấu trúc của giới học thuật, bạn sẽ thấy nó có một loạt khích lệ đủ tốt so với thiết kế ban đầu của nó. Tuy nhiên, người ta tập trung nhiều vào tín dụng – ai thực sự đã làm điều này? Các tên trên tờ giấy được sắp xếp theo thứ tự nào? Điều này rất quan trọng đối với những người có bối cảnh học vấn.
Có thể bạn không muốn cộng tác với người khác vì điều đó làm giảm đi sự đóng góp của bạn vào kết quả. Nếu hai người cùng nhau giải quyết một vấn đề thì đó thường giống một cuộc cạnh tranh hơn là cơ hội để làm việc nhanh gấp đôi. Trong bối cảnh này, tôi cho rằng DeepMind đã cân nhắc việc thành lập một phòng thí nghiệm mô phỏng học viện nhưng hoạt động trong khuôn khổ công ty để tôi có thể cố vấn cho mọi người và chỉ tập trung vào học độ sâu.
Mặt khác, tôi cho rằng mục tiêu ban đầu của Brain là tập hợp một số học giả để tiến hành nghiên cứu khám phá theo cách rất hàn lâm. Thay vì áp đặt phương hướng, tôi sẽ đưa những người quản lý sản phẩm ra bên ngoài để họ có thể nắm bắt những ý tưởng tuyệt vời này và biến chúng thành sản phẩm. Đồng thời, chúng tôi là một nhóm gồm những người khởi nghiệp và một số nhà nghiên cứu xuất sắc, bao gồm cả những người như Ilya. Quan điểm của chúng tôi là một phòng thí nghiệm nghiên cứu nên được vận hành giống như một công ty khởi nghiệp.
Chúng tôi cho rằng điều quan trọng là phải mang lại cho mọi người nhiều tự do đồng thời xác định rõ ràng con đường phía trước, đặc biệt là những người là những nhà nghiên cứu xuất sắc—một số người trong đó họ thậm chí còn không nhận ra là xuất sắc vào thời điểm đó. Mục tiêu của chúng tôi là để họ tìm ra “ngọn đồi” mà họ sẵn sàng “chiến đấu vì” để tạo ra tác phẩm tuyệt vời mà họ khao khát tạo ra. Chúng tôi nhấn mạnh sự hợp tác và đảm bảo rằng mọi người cùng nhau hướng tới một mục tiêu thống nhất thay vì chỉ tập trung vào việc xuất bản lượng lớn bài báo.
Người điều hành Jacob: Tôi thích tuyên bố này. Tôi nghĩ trước đó bạn đã nhìn lại một số quyết định đáng chú ý nhất trong lịch sử của OpenAI, từ phi lợi nhuận sang chuyển đổi, hợp tác với Microsoft, phát hành API của ChatGPT. Có điểm quyết định nào có thể chưa được nhiều người biết đến mà bạn cho rằng là điểm quyết định quan trọng không? Nói cách khác, bạn cho rằng quyết định nào là khó thực hiện hoặc quyết định nào thực sự làm thay đổi hướng đi của tổ chức?
Bob McGrew: Tôi cho rằng một trong những quyết định mà tôi chưa từng nói đến trước đây, nhưng điều đó gây khá nhiều tranh cãi vào thời điểm đó, đó là quyết định tăng gấp đôi mô hình hóa ngôn ngữ và biến nó thực sự thành trọng tâm của OpenAI. Quyết định này phức tạp vì nhiều lý do. Những thay đổi như vậy liên quan đến việc tái cơ cấu và tái cơ cấu, và mọi người phải thay đổi công việc của mình.
Một lần nữa, văn hóa ban đầu của chúng tôi khuyến khích thử phương pháp khác nhau để xem phương pháp hiệu quả. Nỗ lực lớn đầu tiên của chúng tôi là cùng nhau chơi trò chơi Dota 2, trò chơi tiếp nối truyền thống vĩ đại về AI giải quyết các trò chơi ngày càng khó. Bạn chuyển từ cờ vua sang cờ vây, sau đó đến Dota 2 và StarCraft, điều này có vẻ kém thú vị hơn. Tuy nhiên, tôi có thể đảm bảo với bạn rằng về mặt toán học, những trò chơi này thực sự khó hơn cờ vây và cờ vua, ngay cả khi chúng kém tinh tế hơn.
Dự án Dota 2 đã thành công rực rỡ và nó đã dạy chúng tôi rất nhiều điều. Từ kinh nghiệm lần, chúng tôi đã phát triển niềm tin rằng bạn có thể giải quyết vấn đề bằng cách mở rộng quy mô và một bộ công cụ công nghệ cho mục đích này. Vì vậy, bằng cách quyết định kết thúc nhiều dự án khám phá hơn, như đội ngũ chế tạo robot và đội ngũ chơi game, đồng thời thực sự tập trung vào các mô hình ngôn ngữ và các mô hình tổng quát, bao gồm cả công việc đa phương thức, tôi tin rằng đây là một lựa chọn rất quan trọng, mặc dù điều đó rất đau đớn. thời gian.
Người dẫn chương trình Jacob: Một điều tôi nhận thấy trước đó, rõ ràng là bạn đã đề cập rằng bạn đang thử nghiệm những mô hình này trên đứa trẻ 8 tuổi của mình. Và, tôi nghĩ trong thời gian bạn làm cha mẹ, rõ ràng là tám năm trước thế giới là một nơi rất khác so với bây giờ, phần lớn là do những tiến bộ bạn đã thúc đẩy trong lĩnh vực trí tuệ nhân tạo. Tôi tự hỏi, cho dù đó là về cuộc sống hay cách bạn nuôi dạy con cái, bạn có thay đổi điều gì dựa trên niềm tin mới mẻ của mình về sức mạnh của những mô hình này sẽ thể hiện nhanh chóng như thế nào trên thế giới không?
Bob McGrew: Vâng, tôi cho rằng thực tế là tôi không thay đổi gì cả. Và tôi cho rằng đó có lẽ là một thất bại của tôi, phải không? Giống như, ai giỏi hơn tôi trong việc tìm ra những gì trẻ em nên học? Tuy nhiên, tôi cho rằng tôi vẫn đang cố gắng dạy họ điều tương tự như tôi đã làm cách đây 8 năm.
Tại sao tôi phải dạy đứa con trai tám tuổi của mình viết mã khi ChatGPT có thể viết mã cho nó? Tôi cho rằng đó là một điều bí ẩn. Tuy nhiên, ở một khía cạnh nào đó, tương lai đã được định trước, nhưng tôi cho rằng đường nét về cách nó thực sự hoạt động sẽ rất bí ẩn và sẽ được tiết lộ cho chúng ta theo thời gian.
Vì vậy, tôi cho rằng sự thật lâu đời về việc thử những thứ nằm ngoài khả năng của bạn là rất quan trọng. Bạn phải chăm chỉ học toán, chăm chỉ học viết mã, học viết, học viết tốt và học đọc rộng. Tôi cho rằng những điều này sẽ phát triển những kỹ năng mà trẻ em và nói thẳng ra là người lớn sẽ cần bất kể AI sẽ làm gì.
Bởi vì về cơ bản, vấn đề không phải là viết mã. Điều này không liên quan gì đến toán học. Đó là việc bạn học cách suy nghĩ về vấn đề một cách có cấu trúc.
Người dẫn chương trình Jordan: Được rồi, mọi chuyện thật tuyệt vời. Tôi chắc chắn chúng ta có thể nói chuyện với bạn thêm vài giờ nữa. Nhưng chúng tôi muốn kết thúc cuộc trò chuyện bằng một số câu hỏi và đáp nhanh. Câu hỏi đầu tiên là, trong lĩnh vực AI ngày nay, điều gì được cường điệu quá mức và điều gì được cường điệu hóa quá mức?
Bob McGrew: Ồ, được rồi. Chà, câu trả lời đơn giản cho điều được cường điệu hóa quá mức là, tôi cho rằng đó là kiến trúc mới. Có rất nhiều kiến trúc mới trên thị trường. Chúng trông vui nhộn nhưng có xu hướng vỡ ra khi thu nhỏ lại. Vì vậy, nếu có một kiến trúc không bị phá vỡ ở quy mô lớn thì nó sẽ không bị thổi phồng quá mức. Cho đến lúc đó, họ đã bị thổi phồng quá mức. Về phần bị định giá thấp, tôi cho rằng là 01. Tôi nghĩ nó đã được thổi phồng rất nhiều, nhưng nó có được thổi phồng một cách thích hợp không? KHÔNG. Tôi cho rằng nó bị đánh giá thấp.
Người dẫn chương trình Jacob: Tôi biết thính giả của chúng ta sẽ tò mò nên tôi sẽ hỏi, nhưng bạn có thể chia sẻ một chút về lý do bạn rời OpenAI vào thời điểm này không?
Bob McGrew: Sự thật là tôi đã làm việc ở đó được 8 năm và tôi thực sự cảm thấy mình đã hoàn thành hầu hết những điều mà tôi muốn đạt được khi đến đây. Hơn nữa, không phải ngẫu nhiên mà thời điểm tôi tuyên bố từ chức ngay sau khi bản xem trước của O1 được tung ra. Bạn biết đấy, một dự án cụ thể, một dự án nghiên cứu mà chúng tôi đã phát triển, một lần nữa, là đào tạo trước, suy luận đa phương thức. Những vấn đề này đã được giải quyết. Thành thật mà nói, đó là một công việc khó khăn. Khi tôi cảm thấy mình đã hoàn thành những việc cần làm cũng là lúc giao việc đó cho thế hệ tiếp theo, những người đam mê công việc và cam kết giải quyết những vấn đề còn lại. Tôi cho rằng những vấn đề họ gặp phải rất thú vị.
Kế hoạch của bạn cho tương lai là gì? Sau khi rời Palantir, tôi đã dành hai năm trước khi tham gia OpenAI. Tôi bắt đầu lên kế hoạch thành lập một công ty chế tạo robot và thử rất nhiều thứ. Tôi bắt tay vào làm mọi việc và nói chuyện với rất nhiều người. Thành thật mà nói, tôi đã mắc rất nhiều lỗi, nhưng không có lỗi nào thực sự quan trọng. Trong quá trình đó, tôi đã học được rất nhiều điều và phát triển lý thuyết của riêng mình về điều gì là quan trọng trên thế giới và bản chất của tiến bộ công nghệ là gì.
Tất cả những trải nghiệm này, những người tôi gặp và những ý tưởng tôi nghĩ ra đã giúp tôi tham gia OpenAI. Điều này hóa ra lại tốt hơn nhiều so với bất cứ điều gì tôi có thể chọn trong sáu tháng đầu tiên sau khi rời Palantir. Vì vậy, tôi không vội. Tôi sẽ tiếp tục gặp gỡ mọi người và tìm hiểu mọi chuyện. Tôi thực sự thích quá trình suy nghĩ và học hỏi những điều mới.
Người dẫn chương trình Jacob: Bây giờ bạn có nhiều thời gian hơn, có lĩnh vực nào bạn đặc biệt muốn nghiên cứu sâu hơn hoặc có lĩnh vực nào mà bạn muốn dành nhiều thời gian hơn không?