Tiến độ của mô hình chậm là do việc xây dựng trung tâm dữ liệu chậm và tỷ lệ băm O1 huấn luyện cao gấp hàng trăm lần so với GPT4.
Gần đây, Bob McGrew, cựu giám đốc nghiên cứu của OpenAI, đã có cuộc trò chuyện độ sâu với kênh Học tập không giám sát, kênh cực kỳ dày đặc thông tin và chứa đầy thông tin hữu ích. Rất nên đọc toàn văn .
Bob McGrew từng là nhà khoa học trưởng tại OpenAI trong sáu năm rưỡi, rời đi vào năm 2023.
Trong cuộc phỏng vấn lần, ông thảo luận sâu về hiện trạng và tương lai của AI, bao gồm sự tiến bộ của các mô hình được đào tạo trước, những đột phá trong AI đa phương thức, tương lai của robot, tổ chức và văn hóa nghiên cứu AI cũng như tác động của AI về các vấn đề quan trọng của xã hội.
McGrew dự đoán lĩnh vực AI sẽ có những thay đổi to lớn trong vài năm tới. Cuộc đua tỷ lệ băm sẽ ngày càng nóng lên, các mô hình sản xuất video và robot sẽ chứng kiến tăng trưởng bùng nổ và AI đa phương thức sẽ thay đổi sâu sắc cuộc sống của chúng ta.
McGrew chỉ ra rằng mặc dù sẽ mất một thời gian để GPT-5 được phát hành nhưng sự phát triển của AI không bị trì trệ. OpenAI đang tập trung vào công nghệ "điện toán thời gian thử nghiệm", cho phép tăng trưởng tỷ lệ băm mà không cần xây dựng trung tâm dữ liệu mới. Điều này có nghĩa là OpenAI dự kiến sẽ tiếp tục cải thiện hiệu suất của các mô hình AI mà không làm tăng đáng kể chi phí, tiếp tục mang lại niềm tin cho các nhà đầu tư.
McGrew cũng dự đoán rằng các mô hình tạo video sẽ cách mạng hóa tạo ra trong vòng hai năm tới. Ông cho rằng rằng những bộ phim đoạt giải thưởng được tạo ra hoàn toàn bằng AI sẽ sớm xuất hiện. Đây chắc chắn là một sự thay đổi Sự lật đổ đối với ngành điện ảnh và truyền hình, đồng thời nó cũng mang lại không gian trí tưởng tượng khổng lồ cho các nhà đầu tư trong các lĩnh vực liên quan.
Ngoài ra, McGrew cho rằng robot sẽ được sử dụng rộng rãi trong 5 năm tới. Hoàn cảnh làm việc như bán lẻ và kho hàng sẽ là môi trường đầu tiên mở ra "cuộc cách mạng robot". Điều này cũng đồng nghĩa với việc các công ty trong Chuỗi ngành công nghiệp robot sẽ mở ra những cơ hội phát triển chưa từng có.
Đối diện làn sóng AI, McGrew nhắc nhở chúng ta chú ý đến việc bồi dưỡng nhân tài AI. Ông cho rằng rằng kỹ năng toán học, lập trình và viết sẽ là khả năng cạnh tranh cốt lõi của các tài năng trong tương lai và các khoản đầu tư vào các lĩnh vực giáo dục liên quan cũng sẽ nhận được lợi nhuận cao.
01 Những điểm chính như sau
Khi nào GPT-5 sẽ đến? Tính toán trong quá trình thử nghiệm sẽ dẫn đến những đột phá lớn
Nhiều người cho rằng tiến độ trên các mô hình ngôn ngữ lớn dường như đã bị đình trệ kể từ khi GPT-4 ra mắt, nhưng thực tế người trong nội bộ lại có cái nhìn hoàn toàn khác. Việc phát triển các mô hình ngôn ngữ lớn như GPT đòi hỏi lượng lớn tỷ lệ băm, phụ thuộc vào việc xây dựng các trung tâm dữ liệu mới, đây là một quá trình kéo dài nhiều năm.
Việc chuyển từ GPT-4 lên GPT-5 sẽ yêu cầu tỷ lệ băm tăng gấp 100 lần, việc này cần có thời gian. Trước khi GPT-5 được phát hành chính thức, lần đầu tiên chúng ta có thể thấy một phiên bản chuyển tiếp với tỷ lệ băm tăng gấp 10 lần.
Trọng tâm hiện tại của OpenAI là "tính toán tại thời điểm thử nghiệm", tức là đầu tư nhiều tỷ lệ băm hơn vào quá trình tạo ra câu trả lời bằng mô hình để có được Chuỗi suy nghĩ dài hơn và mạch lạc hơn. Ví dụ: OpenAI mở rộng GPT-4 lên mô hình 0,1, đạt được tỷ lệ băm tăng trưởng gấp 100 lần.
“Tính toán trên thử nghiệm” không yêu cầu xây dựng trung tâm dữ liệu mới nên vẫn còn rất nhiều chỗ để cải tiến thuật toán. Máy tính vào thời điểm thử nghiệm sẽ là một trong những bước phát triển thú vị nhất của AI trong những năm tới.
Đột phá AI đa phương thức: Sora dẫn đầu cuộc cách mạng thế hệ video như thế nào?
Không giống như các phương thức khác như hình ảnh, video là một chuỗi sự kiện mở rộng yêu cầu giao diện người dùng hoàn chỉnh để xem câu chuyện diễn ra như thế nào theo thời gian. Ngoài ra, việc đào tạo và chạy các mô hình video rất tốn kém.
Sora là mô hình tạo video chất lượng cao đầu tiên giải quyết được một số thách thức trong việc tạo video thông qua khả năng tạo kịch bản phân cảnh. Tính năng bảng phân cảnh cho phép người dùng đặt các điểm kiểm tra tại các thời điểm khác nhau để hướng dẫn quá trình tạo video.
Trong tương lai, các mô hình video sẽ có chất lượng tốt hơn, thời gian tạo dài hơn và chi phí thấp hơn. Giống như LLM, bạn sẽ có thể xem những video cực kỳ đẹp mắt, chân thực và chúng hầu như không tốn phí.
Dự kiến trong vòng hai năm nữa chúng ta sẽ được xem những bộ phim đoạt giải thưởng hoàn toàn do AI tạo ra. Điểm hấp dẫn của những bộ phim này sẽ là cách các đạo diễn sử dụng mô hình video để hiện thực hóa viễn cảnh mong đợi sáng tạo của họ và thực hiện những điều mà họ không thể quay được.
Tương lai của robot: Trong 5 năm nữa chúng ta sẽ tương tác với robot trong cuộc sống hàng ngày
Robotics sẽ được sử dụng rộng rãi trong 5 năm tới, mặc dù còn một số hạn chế. Sự xuất hiện của các mô hình cơ sở là một bước đột phá lớn trong lĩnh vực chế tạo robot, cho phép robot khởi động nhanh chóng và khái quát hóa theo những cách quan trọng.
Việc huấn luyện robot trong thế giới thực có những ưu điểm so với hoàn cảnh mô phỏng. Trình mô phỏng rất giỏi trong việc mô phỏng các vật thể cứng, nhưng trong thế giới thực, nhiều vật thể mềm, chẳng hạn như vải hoặc bìa cứng, và trình mô phỏng không giỏi xử lý những vật thể này.
Đối với bất kỳ robot nào muốn thực sự linh hoạt, việc đào tạo trong thế giới thực là điều cần thiết.
Dự kiến trong 5 năm nữa, chúng ta sẽ tương tác với robot trong cuộc sống hàng ngày theo những cách mà ngày nay chúng ta cảm thấy kỳ lạ. Robot sẽ được sử dụng rộng rãi trong môi trường bán lẻ, nhà kho và hoàn cảnh làm việc khác.
Văn hóa của OpenAI: Sự kết hợp giữa tinh thần kinh doanh và hợp tác
Văn hóa của OpenAI tương tự như văn hóa của một công ty khởi nghiệp, tập trung vào sự hợp tác và mục tiêu chung. Họ có quan điểm chung về hướng đi đúng đắn và cho phép các nhà nghiên cứu có nhiều quyền tự do khám phá các lĩnh vực mà họ quan tâm.
Văn hóa của OpenAI khuyến khích sự hợp tác và đảm bảo mọi người làm việc cùng nhau để xây dựng một sản phẩm thay vì xuất bản nhiều bài báo. Điều này trái ngược hoàn toàn với văn hóa học thuật, vốn tập trung nhiều hơn vào danh dự cá nhân và sự cạnh tranh.
Giới thiệu về AGI
Nhiều người lo ngại AI sẽ dẫn tới tình trạng thất nghiệp hàng loạt nhưng thực tế AI chỉ có thể tự động hóa một nhiệm vụ duy nhất. Hầu hết các công việc đều có một số nhiệm vụ không thể tự động hóa được, ngay cả khi lập trình.
Những tiến bộ trong AI sẽ tiếp tục, sẽ rất thú vị và sẽ không chậm lại mà sẽ thay đổi. Chúng ta đang chuyển đổi từ một thế giới nơi trí thông minh có thể là một yếu tố cực kỳ khan hiếm trong xã hội sang một thế giới nơi trí thông minh có mặt khắp nơi và miễn phí.
Khi trí tuệ không còn khan hiếm thì quyền tự chủ sẽ trở thành một yếu tố sản xuất khan hiếm. Cơ quan là khả năng đặt câu hỏi phù hợp và theo đuổi các dự án phù hợp. Chúng ta cần suy nghĩ về cách phát triển cơ quan này để có thể làm việc với AI.
Tương lai sẽ tiếp tục diễn ra và những tiến bộ trong AI sẽ dần thay đổi cuộc sống của chúng ta. Chúng ta nên tập trung vào các lĩnh vực đòi hỏi sự kiên nhẫn vô hạn, chẳng hạn như kiểm tra kỹ chi tiêu hoặc so sánh mua sắm, nơi AI có thể thực hiện công việc tốt hơn.
Làm thế nào để rèn luyện trẻ thích nghi với thời đại AI?
Mặc dù AI đang phát triển nhanh chóng nhưng chúng ta không nên thay đổi cách giáo dục con cái mình. Chúng ta vẫn nên dạy chúng toán, lập trình và viết vì những kỹ năng này giúp chúng suy nghĩ về vấn đề một cách có hệ thống.
Tương lai là điều không thể đoán trước và cách AI thực sự hoạt động sẽ là điều bí ẩn và được tiết lộ cho chúng ta theo thời gian. Chúng ta nên khuyến khích trẻ thử những điều thách thức giới hạn khả năng của chúng và phát triển khả năng phục hồi của chúng.
02 Toàn văn bài phỏng vấn
Người dẫn chương trình Jacob: Bob McGrew đã từng là giám đốc nghiên cứu tại OpenAI trong sáu năm rưỡi. Gần đây anh ấy đã rời bỏ vị trí của mình vài tháng trước và chúng tôi thật may mắn khi có được anh ấy trên một trong những podcast đầu tay của anh ấy tại đây trên Podcast Học tập Không giám sát. Vì vậy, chúng tôi có cơ hội hỏi anh ấy về tương lai của trí tuệ nhân tạo. Chúng tôi đã thảo luận xem liệu mô hình có gặp phải nút thắt cổ chai hay không, mô hình robot, mô hình video, mô hình sử dụng máy tính cũng như dòng thời gian và khả năng mà Bob đã hình dung. Chúng tôi đã nói về văn hóa độc đáo của OpenAI và điều gì làm cho nghiên cứu của nó trở nên hiệu quả, cũng như một số điểm quyết định quan trọng và trải nghiệm của chúng như thế nào. Chúng tôi thảo luận lý do tại sao AGI có thể có cảm giác giống như hiện nay và Bob chia sẻ lý do anh rời OpenAI và điều gì sẽ xảy ra tiếp theo. Tôi cho rằng mọi người sẽ thực sự thích tập phim này. Không dài dòng nữa, đây là Bob. Bob, cảm ơn bạn rất nhiều vì đã tham gia podcast. Cảm ơn bạn đã mời và tôi mong chờ cuộc trò chuyện lần. Thực sự vui mừng vì bạn có thể đến. Tôi biết chúng ta sẽ nói về nhiều chủ đề khác nhau. Tôi nghĩ chúng ta nên bắt đầu với vấn đề mà tôi nghĩ mọi người đang quan tâm nhất hiện nay, đó là cuộc tranh luận sôi nổi về việc liệu khả năng của mô hình có đạt đến điểm nghẽn hay không. Chúng tôi muốn biết suy nghĩ của bạn về vấn đề này và bạn nghĩ còn bao nhiêu tiềm năng trong quá trình đào tạo trước.
Bob McGrew: Chà, tôi nghĩ đây có lẽ là nơi tồn tại sự khác biệt lớn nhất giữa những người quan sát bên ngoài và những người bên trong các phòng thí nghiệm lớn. Tôi cho rằng, nếu nhìn từ bên ngoài, nhiều người lần đầu tiên bắt đầu chú ý đến trí tuệ nhân tạo vì ChatGPT. Rồi sáu tháng sau, GPT-4 xuất hiện. Có cảm giác như mọi thứ đang tăng tốc nhanh chóng và đang đạt được tiến bộ. Tuy nhiên, GPT-4 đã được phát hành cách đây một năm rưỡi và mọi người đều biết rằng nó đã được đào tạo bài bản trước đó. Vì vậy, những gì xảy ra bây giờ? Sao không có gì mới ra nhỉ?
Nhìn từ bên trong rất khác. Ngoài kia, mọi người đang tự hỏi, liệu chúng ta có đang gặp phải nút thắt cổ chai dữ liệu không? Chuyện gì đã xảy ra thế? Nhưng bạn phải nhớ rằng để đạt được tiến bộ với quá trình đào tạo trước, đặc biệt, đòi hỏi nỗ lực tính toán tăng lên rất nhiều. Từ GPT-2 đến GPT-3 hoặc từ GPT-3 đến GPT-4, số tiền tính toán hiệu quả tăng lên 100 lần. Đó là những gì sự gia tăng này thể hiện. Bạn có thể làm điều này bằng cách tăng số lượng phép toán dấu phẩy động, thêm chip, mở rộng trung tâm dữ liệu và cải tiến thuật toán. Cải tiến thuật toán có thể mang lại một số lợi nhuận- 50%, gấp 2 hoặc 3 lần sẽ rất tuyệt. Nhưng về cơ bản, bạn phải chờ các trung tâm dữ liệu mới được xây dựng.
Không thiếu các trung tâm dữ liệu mới được xây dựng. Bạn chỉ cần xem tin tức để biết rằng các phòng thí nghiệm tiên tiến như Meta, X và các phòng thí nghiệm khác đang xây dựng các trung tâm dữ liệu mới, ngay cả khi chúng không phải lúc nào cũng gây chú ý. Nhưng về cơ bản, đó là một quá trình rất chậm và phải mất nhiều năm. Trên thực tế, cho đến khi bạn thấy sự chuyển đổi thế hệ hoàn toàn, chẳng hạn như từ GPT-4 sang GPT-5, bạn sẽ thấy điều gì đó chỉ là cải tiến gấp 10 lần. Mọi người thường quên rằng chúng tôi đã chuyển từ GPT-3 sang GPT-3.5 sang GPT-4.
Bây giờ điều thú vị là việc đào tạo trước đang diễn ra. Tôi cho rằng chúng ta sẽ phải chờ xem khi nào mẫu tiếp theo được phát hành. Nếu bạn nhìn vào thứ gì đó giống như O1, chúng ta có thể đạt được tiến bộ bằng cách học tăng cường. Theo chỉ báo khác nhau, O1 thể hiện khả năng tính toán nhiều hơn 100 lần so với GPT-4. Một số người có thể không nhận ra điều này vì người ta đã quyết định đặt tên nó là O1 thay vì GPT-5. Tuy nhiên, trên thực tế, đây là mẫu xe thế hệ mới.
Khi thế hệ tiếp theo, GPT-4.5 giả định được đào tạo, câu hỏi thú vị là, tiến trình trước đào tạo này so với quá trình học tăng cường như thế nào? Tôi cho rằng chúng ta sẽ phải chờ xem tin tức nào được đưa ra.
Jordan, Người dẫn chương trình: Điều đó đặt ra câu hỏi, xét đến quá trình kéo dài nhiều năm cho đến năm 2025, bạn có cho rằng sẽ có nhiều tiến bộ về trí tuệ nhân tạo vào năm tới như năm ngoái không, hay bạn cho rằng mọi thứ sẽ bắt đầu chậm lại?
Bob McGrew: Tôi cho rằng sẽ có tiến bộ. Tôi cho rằng đó sẽ là một sự tiến triển khác. Có một điều là khi bạn bước sang bất kỳ thế hệ tiếp theo nào, bạn sẽ luôn gặp phải những vấn đề mà bạn chưa từng thấy ở thế hệ trước. Vì vậy, ngay cả khi trung tâm dữ liệu được xây dựng, con người cũng sẽ mất thời gian để giải quyết vấn đề và hoàn thành việc đào tạo mô hình.
Quá trình học tăng cường mà chúng tôi đã sử dụng để đào tạo O1, cùng một quy trình mà OpenAI đã sử dụng để đào tạo O1, đã tạo ra một Chuỗi suy nghĩ dài hơn, mạch lạc hơn, kết hợp hiệu quả nhiều tính toán hơn vào câu trả lời. Vì vậy, bạn biết đấy, nếu một mô hình mất vài giây để tạo ra câu trả lời và một mô hình khác mất hàng giờ để tạo ra câu trả lời, thì nỗ lực tính toán đó gấp 10.000 lần nếu bạn thực sự có thể khai thác điều đó, phải không?
Thành thật mà nói, chúng tôi đã nghĩ đến cách sử dụng tính toán thời gian kiểm tra kể từ khoảng năm 2020. Cuối cùng, tôi cho rằng đây thực sự là câu trả lời thực sự cho cách thực hiện điều này, tức là làm thế nào để thực hiện điều đó mà không lãng phí lượng lớn tài nguyên máy tính. Lợi ích của việc này là nó không yêu cầu trung tâm dữ liệu mới. Ở đây, có rất nhiều cơ hội để cải tiến, vì đây là một công nghệ mới mới bắt đầu và có nhiều cơ hội để cải tiến thuật toán.
Về mặt lý thuyết, không có lý do gì để nói rằng những nguyên tắc và ý tưởng cơ bản tương tự được sử dụng để lấy O1, chẳng hạn, điều mà GPT-4 có thể làm trong vài giây thành điều mà O1 phải mất 30 giây hoặc một phút hoặc vài phút để nghĩ về Nó không thể mở rộng đến hàng giờ hoặc thậm chí hàng ngày. Cũng giống như việc chuyển từ GPT-3 sang GPT-4, không có công nghệ mới cơ bản nào; cả hai đều được đào tạo theo cách gần giống nhau, nhưng mở rộng là rất khó khăn.
Vì vậy, đó thực sự là trọng tâm của câu hỏi: bạn có thể thực sự mở rộng không? Tôi cho rằng đó sẽ là loại tiến bộ mà chúng ta sắp thấy và nó sẽ là loại thú vị nhất.
Người dẫn chương trình Jacob: Vâng, vào năm 2025. Với việc tập trung vào tính toán thời gian thử nghiệm và việc sử dụng O1 hiện tại, tôi cho rằng sẽ thực sự thú vị khi nghĩ về cách mọi người thực sự sử dụng những mô hình này, phải không? Tôi cho rằng gần đây bạn đã tweet một điều thú vị mà tôi nghĩ là bạn cần những kiểu dáng mới này để mở khóa chức năng của một số mẫu máy nhất định. Vì vậy, có thể mở rộng về điều đó một chút. Ví dụ: bạn đã thấy bất kỳ yếu tố hình thức sản phẩm ban đầu nào mà bạn thấy thú vị khi sử dụng các mô hình này chưa?
Bob McGrew: Vâng, vâng. Để giải thích vấn đề này, chatbot đã xuất hiện được một thời gian. Đối với hầu hết các tương tác mà mọi người thực hiện với chatbot ngày nay, các mô hình cấp GPT-4 thực hiện tốt nhiệm vụ này. Bạn biết đấy, nếu bạn hỏi ChatGPT, Hoàng đế La Mã thứ tư là ai? Hoặc làm cách nào để hâm nóng cơm basmati? Hầu hết các cuộc trò chuyện hàng ngày của chúng tôi đều được xử lý tốt.
Khi chúng tôi nghĩ đến việc phát hành bản xem trước của O1, đã có rất nhiều câu hỏi về việc liệu mọi người có sử dụng nó hay không và liệu họ có tìm thấy điều gì liên quan đến nó hay không. Tôi cho rằng đây là những câu hỏi đúng. Đó là việc hiểu những gì bạn cần làm với mô hình để thực sự nhận được giá trị từ nó. Lập trình là một trường hợp sử dụng tốt cho việc này vì nó đặt ra một vấn đề có cấu trúc trong đó bạn đang cố gắng đạt được tiến bộ trong một thời gian dài và nó thúc đẩy đáng kể các kỹ năng suy luận.
Một ví dụ khác là nếu bạn đang viết bản tóm tắt chính sách. Trong trường hợp này, bạn cần viết một tài liệu dài, cần có ý nghĩa và gắn kết. Thực tế là mặc dù có rất nhiều lập trình viên nhưng hầu hết những người không phải lập trình viên đều không phải giải quyết nhiệm vụ như vậy hàng ngày. Tuy nhiên, quay trở lại với tiềm năng đột phá ở đây, điều quan trọng là phải có một Chuỗi suy nghĩ mạch lạc và một phương pháp có cấu trúc để giải quyết vấn đề.
Quá trình này không chỉ bao gồm việc suy nghĩ về vấn đề; nó còn có thể bao gồm việc thực hiện hành động và phát triển một kế hoạch hành động. Điều tôi hào hứng nhất với các mô hình như O1 - và tôi chắc chắn rằng sẽ sớm có các mô hình tương tự từ các phòng thí nghiệm khác - là sử dụng chúng để đạt được hành động lâu dài, về cơ bản hoạt động như một đại diện. Mặc dù tôi cho rằng thuật ngữ "đại lý" bị lạm dụng quá mức và không truyền đạt rõ ràng những gì chúng tôi đang cố gắng đạt được, nhưng có nhiều nhiệm vụ trong cuộc sống mà tôi muốn một người mẫu đặt chỗ cho tôi, mua sắm cho tôi và mua sắm. đối với tôi theo cách liên quan đến Cách tương tác với phần còn lại của thế giới để giải quyết vấn đề.
Tôi cho rằng đây là lúc chúng ta thực sự cần giải quyết hình thức sản phẩm: hiểu nó là gì và làm thế nào chúng ta có thể triển khai nó một cách hiệu quả. Hiện tại, tôi không cho rằng có ai đã tìm ra điều này.
Người dẫn chương trình Jacob: Điều này thật thú vị. Ý tôi là, nó hoàn toàn có ý nghĩa. Tôi nghĩ mọi người, bạn biết đấy, sẽ có rất nhiều trí tưởng tượng về những gì những đặc vụ này có thể làm và những vấn đề họ có thể giải quyết cho người dân và doanh nghiệp. Vậy trở ngại lớn nhất để thực hiện điều này ngày nay là gì? Rõ ràng, bạn đã thấy một số mô hình ban đầu, như mô hình sử dụng máy tính mà Anthropic đã phát hành và tôi chắc chắn rằng các phòng thí nghiệm khác cũng đang nghiên cứu mô hình này. Nhưng khi bạn nghĩ về điều gì đang cản trở chúng ta đạt được mục tiêu của mình, thì một số thách thức vẫn cần phải giải quyết là gì?
Bob McGrew: Vâng, có rất nhiều câu hỏi. Tôi cho rằng vấn đề trước mắt nhất là độ tin cậy. Vì vậy, bạn biết đấy, nếu tôi yêu cầu phải làm điều gì đó, hãy gác hành động đó sang một bên, phải không? Nếu tôi yêu cầu một người đại diện làm điều gì đó thay mặt tôi, ngay cả khi đó chỉ là suy nghĩ hoặc viết một số mã cho tôi và tôi cần phải rời đi trong năm phút hoặc một giờ để thực hiện công việc đó, nếu nhiệm vụ đó không thực hiện được và khiến tôi phải rời đi. nhầm rồi, khi tôi quay lại, nó sẽ ra sao? Nếu tôi không làm vậy thì tôi chỉ lãng phí một giờ thôi. Đây là một vấn đề lớn.
Bây giờ hãy thêm vào điều này một thực tế là tác nhân này sẽ thực hiện các hành động trong thế giới thực. Có lẽ nó đang mua thứ gì đó cho tôi. Có lẽ nó đang gửi một thông cáo PR. Có thể đó là thay mặt tôi gửi ghi chú, email, tin nhắn Slack. Nếu không làm tốt sẽ có hậu quả. Ít nhất tôi sẽ xấu hổ và thậm chí có thể mất một số tiền. Vì vậy, độ tin cậy trở nên quan trọng hơn bao giờ hết.
Tôi cho rằng có một nguyên tắc nhỏ khi nghĩ về độ tin cậy, đó là từ độ tin cậy 90% đến độ tin cậy 99%, nỗ lực tính toán có thể tăng theo một bậc độ lớn. Đây là một cải tiến gấp 10 lần. Để cải thiện độ tin cậy từ 99% lên độ tin cậy 99,9%, cần phải cải thiện mức độ khác. Do đó, mỗi "9" bổ sung đòi hỏi một bước nhảy vọt lớn về hiệu suất của mô hình. Sự cải thiện gấp 10 lần này là rất đáng kể và thể hiện một hoặc hai năm làm việc.
Vì vậy tôi cho rằng đó là câu hỏi đầu tiên chúng ta phải đối mặt. Tôi cho rằng câu hỏi thú vị thứ hai là mọi thứ chúng ta đã nói đến đều dành cho người tiêu dùng, phải không? Bạn không được nhúng vào doanh nghiệp. Nhưng khi bạn nói về các đại lý thực hiện nhiệm vụ, đối với nhiều người trong chúng ta, đó sẽ là điều chúng tôi làm tại nơi làm việc, điều gì đó gắn liền với doanh nghiệp. Tôi cho rằng điều đó mang lại sê-ri các cân nhắc khác.
Người dẫn chương trình Jordan: Thật thú vị. Những gì chúng ta đang thấy ở doanh nghiệp ngày nay là rất nhiều công ty tư vấn đang thực sự làm rất tốt vì hiện tại việc triển khai những công nghệ này vào doanh nghiệp đòi hỏi rất nhiều sự can thiệp. Bạn cho rằng kiểu hướng dẫn thực hành này và nhu cầu trợ giúp từ các doanh nghiệp sẽ còn tiếp tục trong thời gian tới không? Hay bạn cho rằng nó sẽ trở nên dễ sử dụng hơn, nơi mà các doanh nghiệp có thể triển khai rất dễ dàng những mô hình ngôn ngữ lớn này trong tương lai?
Bob McGrew: Vâng, tôi cho rằng đó là một câu hỏi thực sự thú vị. Và ý tôi là, ngay cả khi mới bắt đầu xây dựng, vấn đề gì khi triển khai các mô hình ngôn ngữ lớn trong doanh nghiệp? Chà, nếu nó định tự động hóa một nhiệm vụ cho bạn hoặc thực hiện công việc của bạn, thì có lẽ nó cần có ngữ cảnh. Bởi vì trong không gian tiêu dùng, không có nhiều bối cảnh. Được rồi, bạn thích màu đỏ, tốt. Không thú vị.
Người dẫn chương trình Jacob: Cảm ơn bạn đã sử dụng màu đỏ làm ví dụ (podcast của bạn có tên là RedPoint).
Bob McGrew: Nhưng bạn biết đấy, trong kinh doanh, bạn biết đấy, đồng nghiệp của bạn là ai? Bạn đang làm việc trên dự án nào? Cơ sở mã của bạn là gì? Bạn biết đấy, mọi người đã thử những gì? Mọi người thích và không thích điều gì? Tất cả thông tin này tồn tại như một hoàn cảnh trong doanh nghiệp. Nó ở trong Slack của bạn. Nó có trong tài liệu của bạn. Bạn biết đấy, có thể nó ở trong Figma của bạn hay gì đó. Vậy làm thế nào để bạn có được quyền truy cập?
Chà, bạn cần phải tự mình xây dựng một cái gì đó. Tôi cho rằng chắc chắn có phương pháp để mọi người xây dựng thư viện của những trình kết nối này và sau đó bạn có thể đến và thực hiện điều đó. Điều này rất giống với những gì chúng tôi làm tại Palantir, nơi vấn đề cơ bản mà Palantir giải quyết là tích hợp dữ liệu trên toàn doanh nghiệp. Tôi cho rằng đây là một trong những lý do tại sao các nền tảng trí tuệ nhân tạo như AIP của Palantir lại rất thú vị. Vì vậy, tôi cho rằng đó là con đường đầu tiên, bạn đang xây dựng thư viện cho những thứ này. Toàn bộ nền tảng có thể được xây dựng trên nền tảng này.
Một điều nữa là cơ hội sử dụng máy tính. Vì vậy, bây giờ, thay vì phải thực hiện theo cách rất cụ thể và có khả năng tùy chỉnh này, giờ đây bạn có một công cụ mà bạn có thể sử dụng để thực hiện mọi thứ. Anthropic đã nghĩ ra điều này; nó thực sự thú vị, chúng tôi ở Anthropic đã nói về những đặc vụ này trước khi họ rời OpenAI vào năm 2020 và Google DeepMind đã xuất bản một bài báo về vấn đề này. Mọi phòng thí nghiệm đều đã nghĩ đến vấn đề này và đang tìm cách giải quyết nó.
Sự khác biệt giữa các máy tính sử dụng tác nhân tích hợp với các API lập trình này là các hành động bạn thực hiện hiện bao gồm nhiều bước hơn vì bạn đang điều khiển chuột và bàn phím. Bạn có thể cần số lượng mã thông báo cần thiết gấp 10 hoặc thậm chí 100 lần để sử dụng tích hợp có lập trình này.
Vậy bây giờ chúng ta quay lại làm gì? Bạn cần một mô hình có Chuỗi suy nghĩ rất dài và mạch lạc, có thể giải quyết vấn đề một cách nhất quán trong thời gian dài, đó chính xác là loại vấn đề mà O1 giải quyết. Tôi chắc chắn có phương pháp khác để giải quyết vấn đề này. Nhưng tôi cho rằng đây sẽ là bước đột phá mà chúng ta sẽ thấy trong vài năm tới.
Người dẫn chương trình Jacob: Năm tới. Bạn cho rằng cuối cùng nó sẽ diễn ra như thế nào? Bởi vì tôi nghĩ một mặt, rõ ràng là một mô hình phổ quát có thể được sử dụng trong bất kỳ bối cảnh nào có vẻ hấp dẫn. Tôi tưởng tượng có thể khó đạt được độ tin cậy 99,999%. Và bạn biết đấy, có rất nhiều bước có thể sai ở những điểm khác nhau. Bạn biết đấy, một quan điểm khác về cách thức hoạt động của nó là, tôi chắc chắn rằng một số vấn đề này có thể được đơn giản hóa nếu API ứng dụng cơ bản được mở theo cách nào đó, phải không? Hoặc theo phương pháp khác hoặc bạn có thể cung cấp một mô hình cụ thể để sử dụng Salesforce hoặc một số công cụ cụ thể mà tôi không biết. Nếu bạn có quyền truy cập vào trải nghiệm cơ bản thì tích hợp sẽ là một lợi thế rất lớn. Bằng cách này, bạn có thể hoàn thành công việc trong tích tắc thay vì ngồi đó xem máy tính thực hiện mọi việc trên màn hình.
Bob McGrew: Vâng, ý tôi là, tôi cho rằng bạn chắc chắn sẽ thấy sự kết hợp của phương pháp này, một trong đó sử dụng tích hợp này và một số trong đó, bạn biết đấy, việc sử dụng máy tính trở thành phương án dự phòng, có thể được sử dụng nếu bạn không có bất cứ điều gì tùy chỉnh. Sau đó, có thể bạn sẽ biết mọi người sử dụng những gì và nếu nó hiệu quả thì bạn sẽ tìm ra tích hợp chi tiết hơn.
Tôi cho rằng về việc bạn nhìn thấy một đại lý Sử dụng Máy tính dành riêng cho Salesforce, về mặt kỹ thuật, điều đó không có nhiều ý nghĩa đối với tôi vì tôi cho rằng cơ bản bạn đang tận dụng dữ liệu. Ai đó đã ra ngoài và thu thập lượng lớn bộ dữ liệu khổng lồ về cách sử dụng Salesforce.
Bạn có thể đưa dữ liệu này vào -- sẽ có lợi cho Salesforce khi chia sẻ các bộ dữ liệu này với Anthropic, OpenAI và Google. Họ đào tạo người mẫu của riêng họ. Tôi cho rằng mọi nhà cung cấp ứng dụng sẽ muốn điều này được công khai và là một phần của mọi mô hình cơ bản. Vì vậy, tôi không cho rằng, bạn biết đấy, có vẻ như đó là lý do đối với tôi để có một mô hình chuyên dụng theo cách này.
Người dẫn chương trình Jacob: Không, đó là một quan điểm thực sự hấp dẫn vì tôi nghĩ khi bạn đang ở trong một không gian rất cạnh tranh và các đối thủ cạnh tranh của bạn đang tiết lộ dữ liệu của họ và sản phẩm của họ ngày càng dễ sử dụng hơn, bạn chắc chắn muốn sản phẩm của mình giống như thế này.
Bob McGrew: Vâng, tôi thấy hơi bí ẩn tại sao lại không có một hệ sinh thái gồm những người đưa dữ liệu vào các mô hình ngôn ngữ lớn. Điều này thực sự tương đương với SEO của Google.
Người dẫn chương trình Jacob: Đó thực sự là một quan điểm thú vị. Bạn cho rằng chúng ta còn cách xa việc sử dụng máy tính rộng rãi bao xa?
Bob McGrew: Ý tôi là, tôi cho rằng có một nguyên tắc chung cho những thứ này, đó là khi bạn xem bản demo, nó cực kỳ hấp dẫn nhưng vẫn chưa thể sử dụng được nhiều. Nó sẽ là một nỗi đau để sử dụng. Và sau đó, bạn biết đấy, hãy cho nó một năm và nó sẽ tốt hơn gấp mười lần. Hơn nữa, sự cải thiện này tăng trưởng theo tuyến tính logarit. Tốt hơn gấp mười lần, bạn biết đấy, chỉ là một mức độ cải thiện thôi. Nhưng mức độ cải thiện là khá đáng chú ý. Bạn sẽ bắt đầu thấy nó được sử dụng trong những trường hợp sử dụng hạn chế. Sau đó cho nó một năm thứ hai. Cho đến lúc đó, nó hoạt động tốt một cách đáng ngạc nhiên, nhưng bạn không thể lần dựa vào nó được. Đó là những gì chúng ta làm bây giờ với chatbot, bạn vẫn phải lo chúng bị ảo giác. Chà, câu hỏi về việc áp dụng thực sự phụ thuộc vào mức độ tin cậy mà bạn yêu cầu. Bất kỳ trường nào có thể chấp nhận được lỗi sẽ được tự động hóa nhanh hơn những trường không thể chấp nhận được.
Người dẫn chương trình Jacob: Vì vậy, tôi muốn quay lại câu hỏi ban đầu của Jordan, về cơ bản, ngay bây giờ bạn cần lượng lớn sự trợ giúp để có thể tích hợp vào dữ liệu phù hợp cũng như xác định các biện pháp bảo vệ và quy trình làm việc tùy chỉnh, điều này hoàn toàn hợp lý. Vì vậy, loại lớp trung gian nào sẽ tồn tại giữa "Này, mô hình sử dụng máy tính tuyệt vời, các công ty đã sẵn sàng đăng nhập"? Lớp giữa này sẽ trông như thế nào?
Bob McGrew: Trời ạ, tôi cho rằng các công ty khởi nghiệp nên xác định nó. Bạn biết đấy, tôi không cho rằng chúng ta biết rõ câu trả lời cho điều đó. Tôi cho rằng một hiện tượng thú vị mà bạn thấy khi bạn có một công cụ chung như sử dụng máy tính là các vấn đề mà nó giải quyết có độ khó rất nhỏ và nó có thể giải quyết được rất nhiều vấn đề. Nhưng sau đó bạn nhận thấy một vấn đề thực sự quan trọng và bạn không thể giải quyết được nó. Và sau đó bạn nói, được rồi, bây giờ chúng ta sẽ làm điều gì đó rất cụ thể về vấn đề này, và có lẽ chúng ta sẽ thực hiện một phương pháp có lập trình cho vấn đề này. Vì vậy, tôi cho rằng chúng ta sẽ thấy sự kết hợp của phương pháp trong một khoảng thời gian.
Người dẫn chương trình Jordan: Tôi rất tò mò, rõ ràng là bạn đang làm việc trong lĩnh vực nghiên cứu và chịu trách nhiệm về một số nghiên cứu thực sự tiên tiến. Chúng tôi đã nói một chút về việc tính toán thời gian kiểm tra. Bạn đặc biệt quan tâm đến lĩnh vực nào khác?
Bob McGrew: Tôi cho rằng chúng ta đã nói về việc đào tạo trước. Chúng ta đã nói về việc tính toán thời gian thử nghiệm. Một điều thực sự thú vị khác là đa phương thức. Một ngày trọng đại cho đa phương thức. Vâng, hôm nay Sora đã được thả. Trên thực tế, đây là đỉnh cao của cuộc hành trình dài này. Chúng tôi cho rằng các mô hình ngôn ngữ lớn đã được phát minh vào năm 2018. Rõ ràng là bạn có thể áp dụng Transformers và một số kỹ thuật tương tự để thích ứng với các phương thức khác. Vì vậy, bạn có tầm nhìn bao gồm, bạn có đầu ra hình ảnh, đầu vào âm thanh và đầu ra âm thanh.
Trước hết, những thứ này khởi đầu là những mô hình phụ trợ như DALLE hay Whisper. Cuối cùng, chúng được tích hợp vào mô hình chính. Một phương thức từ lâu đã phản đối cách tiếp cận này là video. Tôi cho rằng Sora là người đầu tiên chứng minh điều đó; các công ty khác, như Runway, và một số người mẫu khác cũng làm theo. Bây giờ Sora đã được phát hành. Tôi cho rằng có hai điều thực sự thú vị và khác biệt về video so với các phương thức khác.
Khi tạo một hình ảnh, có thể bạn thực sự chỉ muốn tạo một hình ảnh từ một lời nhắc. Có lẽ bạn hãy thử nó lần. Nếu bạn là nhà thiết kế đồ họa chuyên nghiệp, bạn có thể chỉnh sửa một số chi tiết trong hình ảnh này. Nhưng thành thật mà nói, không ai trong chúng tôi như vậy. Có rất nhiều công dụng ở đây, bạn có cần vài slide không? Bạn có muốn một hình ảnh đi kèm với tweet hoặc bài thuyết trình của mình không? Đây là một quá trình rất đơn giản.
Tuy nhiên, đối với video, wow. Ý tôi là, đó là sê-ri chuỗi sự kiện mở rộng. Đó không phải là một lời nhắc. Vì vậy, bây giờ bạn thực sự cần một giao diện người dùng hoàn chỉnh. Bạn cần suy nghĩ về cách làm cho câu chuyện diễn ra theo thời gian. Tôi cho rằng đó là một trong những điều chúng ta sẽ thấy với phiên bản Sora. Sora dành nhiều thời gian hơn để suy nghĩ về điều này; đội ngũ sản phẩm nỗ lực nhiều hơn vào việc này so với một số nền tảng khác.
Một điều khác bạn cần cân nhắc là video rất đắt tiền. Việc đào tạo những mô hình này rất tốn kém và việc vận hành những mô hình này cũng rất tốn kém. Vì vậy, mặc dù thật thú vị khi xem video chất lượng Sora - và tôi cho rằng chất lượng của Sora thực sự tốt hơn - bạn phải chú ý hơn một chút để thấy rằng video đó có chất lượng tốt hơn, ít nhất là nếu bạn chỉ xem một đoạn clip ngắn.
Giờ đây, bất kỳ ai có tài khoản Plus đều có thể sử dụng Sora. OpenAI đã phát hành tài khoản Pro trị giá 200 USD mỗi tháng, trong đó gồm việc tạo chậm Sora không giới hạn. Khi bạn đạt được mức độ chất lượng và phân phối như vậy, hai vấn đề khó khăn sẽ được giải quyết. Đây sẽ là ngưỡng cao mà các đối thủ khác khó có thể sánh kịp.
Người dẫn chương trình Jacob: Sự phát triển của các mô hình video sẽ như thế nào trong vài năm tới? Ý tôi là, rõ ràng là trong không gian mô hình ngôn ngữ rộng lớn, chúng ta đã thấy sự tiến bộ to lớn, có cảm giác như các mô hình năm ngoái giờ đây rẻ hơn gấp 10 lần và nhanh hơn nhiều. Bạn cho rằng sẽ có những cải tiến tương tự cho video không?
Bob McGrew: Thực ra, tôi cho rằng sự tương tự khá đơn giản. Vì vậy, nếu tôi nghĩ về sự khác biệt giữa mô hình video ngày nay và mô hình video trong hai năm tới, trước hết chất lượng sẽ tốt hơn. Chất lượng tức thời bây giờ là rất tốt. Bạn có thể nhìn thấy sự phản ánh. Nếu bạn chia sẻ điều gì đó, tất cả những câu đố khó giải, bạn có thể chỉ ra, ồ, nhìn này, có sự phản ánh được thực hiện ở đó. Có chút khói. Bạn biết đấy, điều khó khăn là mở rộng, trở nên mạch lạc.
Vì vậy, đội ngũ sản phẩm SOAR có tính năng bảng phân cảnh cho phép bạn đặt các điểm kiểm tra ở các điểm khác nhau, chẳng hạn như cứ năm giây một lần hoặc mười giây một lần, để giúp hướng dẫn quá trình xây dựng. Bạn biết đấy, về cơ bản, nếu bạn muốn chuyển từ video vài giây sang video dài một giờ thì đó là một vấn đề rất khó khăn. Tôi cho rằng đây là thứ bạn sẽ thấy ở thế hệ mẫu tiếp theo.
Mặt khác, một sự tương tự khác là, tôi thực sự cho rằng nó sẽ rất giống một mô hình ngôn ngữ lớn, nếu bạn muốn có mã thông báo chất lượng GPT-3, nó rẻ hơn 100 lần so với khi GPT-3 lần đầu tiên ra mắt. Điều này cũng đúng với Sora, nơi bạn có thể xem những video chân thực, cực kỳ đẹp mắt này và chúng hầu như không tốn một xu nào.
Người dẫn chương trình Jacob: Tôi nghĩ giấc mơ sẽ là có một bộ phim dài tập được tạo ra bởi trí tuệ nhân tạo, giành được một số giải thưởng hoặc thứ gì đó tương tự, bạn biết đấy, sử dụng một câu hỏi podcast trơ trẽn, bạn cho rằng khi nào chúng ta sẽ có một bộ phim như thế cái này?
Bob McGrew: Tôi chỉ có thể đoán thôi. Ôi Chúa ơi. Đúng. Thành thật mà nói thì tiêu chuẩn để giành được giải thưởng có vẻ quá thấp phải không? Tôi nghĩ có rất nhiều chương trình trao giải. Thực sự, đây có phải là bộ phim bạn thực sự muốn xem không? Đúng. Tôi có cảm giác như chúng ta sẽ xem nó sau hai năm nữa, nhưng thực ra nó sẽ kém ấn tượng hơn những gì tôi vừa nói vì lý do bạn muốn xem không phải vì bản thân video mà là vì có một đạo diễn đã có viễn cảnh mong đợi sáng tạo và sử dụng mô hình video để hiện thực hóa viễn cảnh mong đợi sáng tạo của mình. Tôi cho rằng họ làm vậy vì họ có thể làm được những điều mà họ không thể chụp ảnh bằng phương tiện này. Chúng ta có thể tưởng tượng nó. Không ai trong chúng tôi ở đây là giám đốc, nhưng tất cả chúng tôi đều có thể tưởng tượng ra những khả năng có thể xảy ra. Chúng tôi không phải là nhà thiết kế đồ họa, chúng tôi không phải là giám đốc, nhưng vâng, đó là tương lai.
Người dẫn chương trình Jordan: Đúng vậy. Vâng, chúng tôi có một số kỹ năng rất cụ thể ở đây. Vâng, chúng tôi đang chứng kiến rất nhiều công ty nổi lên với nỗ lực trở thành Pixar của AI. Chúng tôi luôn đặt câu hỏi, khi nào điều này thực sự khả thi? Vì vậy, có vẻ như nó sẽ đến sớm hơn rất nhiều so với những gì chúng ta mong đợi.
Bob McGrew: Đó là suy đoán của tôi. Một khi mọi việc đã đạt đến giai đoạn có thể chứng minh được thì mọi việc sẽ tiến triển rất nhanh chóng. Trước đó, tiến độ diễn ra rất chậm, hoặc ít nhất là vô hình.
Người điều hành Jordan: Tôi muốn chuyển từ video sang robot. Bạn đã tham gia OpenAI để nghiên cứu rất nhiều về robot khi mới bắt đầu. Chúng tôi muốn nghe suy nghĩ của bạn về lĩnh vực này và vị trí của chúng tôi ngày hôm nay cũng như vị trí mà bạn cho rằng nó sẽ đi tới.
Bob McGrew: Đây thực sự là một câu hỏi rất cá nhân. Khi tôi rời Palantir, một trong những suy nghĩ của tôi là bot sẽ là lĩnh vực mà việc học độ sâu trở thành hiện thực chứ không chỉ là một nút trên trang web của ai đó. Vì vậy, tôi đã dành một năm giữa Palantir và OpenAI để tìm hiểu thêm về robot và viết một số mã ban đầu về thị giác bằng cách sử dụng học độ sâu. Đây là một lĩnh vực rất thách thức. Vào thời điểm đó, tôi nghĩ có thể là 5 năm nữa; đó là năm 2015, và điều đó hoàn toàn sai lầm. Tuy nhiên, tôi cho rằng bây giờ là thời điểm thích hợp. Tôi tin rằng robot sẽ được sử dụng rộng rãi trong 5 năm nữa, mặc dù còn một số hạn chế. Vì vậy, tôi cho rằng bây giờ là thời điểm tốt để thành lập một công ty chế tạo robot.
Một quan điểm khá rõ ràng là mô hình cơ sở là một bước đột phá lớn trong việc giúp robot thiết lập và chạy nhanh chóng, cho phép nó khái quát hóa theo những cách quan trọng. Có một vài khía cạnh khác nhau về điều này. Trong đó rõ ràng hơn là khả năng sử dụng tầm nhìn và chuyển tầm nhìn thành kế hoạch hành động do mô hình cơ bản mang lại. Một khía cạnh ít rõ ràng hơn và có lẽ thú vị hơn là toàn bộ hệ sinh thái đã phát triển. Bây giờ tôi đã rời OpenAI, tôi đã dành thời gian với những người sáng lập và tôi đã nói chuyện với một số người sáng lập bot. Một người sáng lập bot nói với tôi rằng họ thực sự đã thiết lập bot để có thể trò chuyện. Điều này thực sự thú vị và dễ dàng hơn nhiều; bạn có thể ra lệnh cho robot phải làm gì và nó sẽ hiểu. Nó sử dụng một số mô hình chuyên dụng để thực hiện các hoạt động. Trước đây, việc viết những gì bạn muốn rất cồng kềnh và bạn phải ngồi trước máy tính thay vì nhìn vào robot. Bây giờ bạn chỉ cần nói chuyện với nó.
Tôi cho rằng một trong những khác biệt chính trong kết quả mà chúng tôi vẫn chưa hiểu là bạn học trong mô phỏng hay trong thế giới thực. Đóng góp chính của chúng tôi trong hai năm qua trong lĩnh vực robot là chứng minh rằng bạn có thể đào tạo trong một trình mô phỏng và khái quát nó vào thế giới thực. Có nhiều lý do để sử dụng trình mô phỏng; ví dụ, việc chạy trên hệ thống sản xuất hoặc trong thế giới thực là rất cồng kềnh. Bạn có thể làm bài kiểm tra miễn phí và hơn thế nữa. Tuy nhiên, trình mô phỏng rất tốt trong việc mô phỏng các vật thể cứng. Điều này thật tuyệt nếu bạn đang thực hiện nhiệm vụ chọn và đặt với các vật cứng. Tuy nhiên, nhiều thứ trên thế giới là vật mềm. Bạn phải xử lý vải, hoặc khi xem xét nhà kho, bìa cứng. Thật không may, trình giả lập không thực hiện tốt công việc xử lý các tình huống này. Vì vậy, đối với bất kỳ thứ gì muốn thực sự phổ biến, phương pháp duy nhất chúng tôi có thể làm ngay bây giờ là sử dụng các bản demo trong thế giới thực. Như bạn có thể thấy từ một số công việc mới nổi gần đây, điều này thực sự có thể tạo ra những kết quả đầy hứa hẹn.
Người điều hành Jacob: Hiệu quả rất tốt. Và sau đó, tôi nghĩ, rõ ràng điều này có phần bất khả tri, giống như, bạn biết đấy, khi mọi người khám phá quy luật mở rộng quy mô trong chế tạo robot và lượng dữ liệu mà con người có thể cần để vận hành từ xa, nhưng bạn cảm thấy như chúng ta đã khá gần với nó rồi. Phải không? đóng? Hoặc, ý tôi là, rõ ràng, bạn biết đấy, vào năm 2015, bạn cho rằng còn 5 năm nữa. Bạn cho rằng chúng ta đang tiến gần đến thời điểm mà mọi người nói robot giống như ChatGPT và mọi người nói, ồ, điều đó thật tuyệt, trông khác biệt và hoạt động được.
Bob McGrew: Khi nói đến các dự đoán, đặc biệt là các dự đoán về robot, bạn thực sự phải suy nghĩ về lĩnh vực này. Vì vậy, tôi khá bi quan về việc áp dụng robot của người tiêu dùng đại chúng, bởi vì có robot trong nhà thật đáng sợ. Cánh tay robot thật nguy hiểm. Họ có thể giết bạn và quan trọng hơn là họ có thể giết con bạn. Và, bạn biết đấy, bạn có thể sử dụng các loại cánh tay robot khác nhau không có những nhược điểm này, nhưng chúng cũng có những nhược điểm khác. Nhà là một nơi rất tự do.
Nhưng tôi cho rằng rằng trong nhiều hình thức bán lẻ hoặc hoàn cảnh làm việc khác, tôi cho rằng chúng ta sẽ thấy điều đó sau 5 năm nữa. Nếu bạn đến một nhà kho của Amazon, bạn thậm chí có thể thấy điều này xảy ra; họ đã có sẵn robot để giải quyết các vấn đề về di chuyển. Bạn biết đấy, họ đang làm việc về việc lấy và đặt. Tôi cho rằng bạn sẽ thấy lượng lớn robot được triển khai trong hoàn cảnh nhà kho.
Và sau đó, bạn biết đấy, nó sẽ được thực hiện theo từng giai đoạn theo từng lĩnh vực trong một khoảng thời gian. Tôi sẽ không dự đoán khi nào nó sẽ được đưa vào sử dụng trong nhà, nhưng tôi cho rằng bạn sẽ thấy nó được sử dụng rộng rãi. Tôi cho rằng trong 5 năm nữa, chúng ta sẽ tương tác với họ trong cuộc sống hàng ngày theo cách mà ngày nay chúng ta cảm thấy kỳ lạ.
Jacob: Ý tôi là, rõ ràng đã có một số công ty chế tạo robot độc lập. Ở một mức độ nào đó, rõ ràng là robot tận dụng được những tiến bộ cơ bản trong LLM. Tôi tò mò, kiểu như, bạn biết đấy, liệu tất cả những điều này có kết hợp được với nhau không? Rõ ràng một số công ty chỉ làm mô hình video. Một số công ty tập trung vào sinh học, khoa học vật liệu. Khi bạn nghĩ về hướng đi dài hạn của việc này, bạn biết đấy, liệu sẽ có một mô hình lớn bao gồm tất cả những điều này không?
Bob McGrew: Ở quy mô mô hình tiên tiến, tôi cho rằng bạn nên tiếp tục mong đợi những công ty này sẽ tung ra một mô hình. Nó sẽ là thứ tốt nhất ở mọi khía cạnh của mọi dạng dữ liệu họ có. Đây là một cảnh báo quan trọng.
Những gì chuyên môn thực sự mang lại cho bạn là hiệu quả chi phí. Trong năm qua, bạn đã thấy các phòng thí nghiệm tiên tiến đã tiến bộ hơn trong việc tạo ra các mô hình nhỏ với lượng lớn trí thông minh có thể thực hiện các trường hợp sử dụng giống như chatbot với chi phí rất thấp.
Nếu bạn là một công ty, một mô hình rất phổ biến tại thời điểm này là bạn tìm ra những gì bạn muốn AI làm cho mình và sau đó bạn vận hành nó bằng mô hình tiên tiến nhất mà bạn thích. Sau đó, bạn tạo một cơ sở dữ liệu khổng lồ và tinh chỉnh một số mô hình nhỏ hơn để thực hiện điều đó. Bạn biết đấy, đây là một thông lệ rất phổ biến; OpenAI cung cấp dịch vụ này và tôi tin rằng đây là mô hình phổ biến trên mọi nền tảng.
Bạn có thể nói, bạn biết đấy, nó rất, rất rẻ. Bây giờ bạn đào tạo một chatbot như thế này thì chatbot chăm sóc khách hàng của bạn cũng được đào tạo như thế này, nếu ai đó đi chệch kịch bản thì sẽ không thể tốt như nếu bạn sử dụng mô hình tiên tiến. Nhưng điều đó không thành vấn đề; đó là tỷ lệ giữa hiệu suất và giá cả mà mọi người sẵn sàng chấp nhận.
Người điều hành Jacob: Một điều tôi thấy rất thú vị là khi chúng ta trò chuyện trước đây, bạn đã đề cập đến quan điểm vĩ mô về sự tiến bộ của trí tuệ nhân tạo. Về cơ bản, bạn nói rằng vào năm 2018, chúng tôi đã kỳ vọng rằng đến năm 2024, chúng tôi sẽ có nhiều khả năng mô hình khác nhau. , và ngay từ những nguyên tắc đầu tiên bạn sẽ cho rằng rằng những điều này đã hoàn toàn thay đổi. Có vẻ như thế giới gần như không thể nhận ra được kể từ năm 2018. Mặc dù bạn chắc chắn đã có tác động to lớn đến thế giới rộng lớn hơn nhưng tôi vẫn chưa thể nói rằng sự lan rộng của AI đã thay đổi hoàn toàn cách thế giới vận hành. Tại sao bạn cho rằng đây là trường hợp?
Bob McGrew: Chà, tôi chỉ muốn nói lại điều đó một chút, tôi nghĩ, nghe có vẻ kỳ lạ nhưng suy nghĩ đúng đắn về trí tuệ nhân tạo là phải bi quan sâu sắc. Giống như, tại sao tiến độ lại chậm như vậy? Tại sao, bạn biết đấy, một số người nói rằng trí tuệ nhân tạo đã khiến GDP tăng trưởng 0,1%. Nhưng điều này không phải do tăng năng suất khi sử dụng AI mà là do chi phí vốn phát sinh để xây dựng các trung tâm dữ liệu cần thiết để đào tạo AI. Vậy tại sao AI không được thể hiện rõ ràng trong dữ liệu năng suất? Nó giống như những gì người ta thường nói khi nói về Internet vào những năm 1990.
Tôi cho rằng có một số lý do cho việc này. Đầu tiên, cho rằng quan điểm của năm 2018 rằng một khi bạn có thể nói chuyện với nó và nó có thể viết mã, mọi người sẽ được tự động hóa ngay lập tức. Đây cũng chính là ý tưởng mà các kỹ sư có khi được yêu cầu viết một tính năng. Bạn có thể nghĩ, "Ồ, vâng, tôi có thể làm điều đó trong vài tuần." Nhưng khi bắt đầu viết mã, bạn nhận ra, "Ồ, thực ra, tính năng này phức tạp hơn tôi nghĩ. "Hơn nữa." là một kỹ sư giỏi, bạn có thể ước tính khoảng hai tuần, nhưng trên thực tế, dự án có thể mất hai tháng. Nếu họ là một kỹ sư tồi, họ có thể thấy rằng tính năng này hoàn toàn không thể viết được.
Tôi cho rằng đó là điều sẽ xảy ra khi chúng ta thực sự tìm hiểu cách con người hoàn thành công việc. Đúng, bạn có thể nói chuyện với họ qua điện thoại, nhưng điều đó không có nghĩa là tất cả những gì họ làm chỉ là nói chuyện với bạn. Trong đó công việc thực sự liên quan. Về cơ bản, AI có thể tự động hóa chỉ một nhiệm vụ. Tuy nhiên, một công việc được tạo thành từ nhiều nhiệm vụ. Khi bạn xem xét kỹ hơn các công việc thực tế, bạn sẽ thấy rằng đối với hầu hết các công việc, có một số nhiệm vụ không thể tự động hóa được.
Ví dụ: ngay cả khi bạn nhìn vào lập trình, mã soạn sẵn sẽ được tối ưu hóa trước tiên và những phần phức tạp hơn, chẳng hạn như tìm ra chính xác những gì bạn muốn làm, sẽ được giải quyết sau cùng. Vì vậy, tôi cho rằng khi chúng ta tiếp tục triển khai AI, chúng ta sẽ thấy rằng nó ngày càng phức tạp và có nhiều hạn chế hơn trong việc tự động hóa toàn bộ phạm vi công việc của con người.
Jordan: Vì vậy, với ý nghĩ đó, xét về mặt tiến độ, bạn cho rằng lĩnh vực nào ngày nay bị đánh giá thấp và cần được chú ý nhiều hơn hiện tại?
Bob McGrew: Được rồi. Đây là câu trả lời, những công ty khởi nghiệp mà tôi thực sự quan tâm là những công ty mà mọi người đang sử dụng trí tuệ nhân tạo để giải quyết một số vấn đề rất nhàm chán.
Hãy tưởng tượng bạn điều hành một công ty nơi bạn có thể thuê tất cả những người thông minh mà bạn muốn làm những việc cực kỳ nhàm chán như kiểm tra mọi chi phí của bạn và đảm bảo rằng bạn đang so sánh giá cả một cách hợp lý. Ví dụ: nếu bạn có một bộ phận mua sắm toàn những người như Elon Musk, những người kiểm soát chi tiêu thực sự cẩn thận, bạn có thể tiết kiệm được rất nhiều tiền.
Không ai làm điều đó bởi vì, bạn biết đấy, những người thực sự có thể tiết kiệm tiền, họ sẽ cảm thấy buồn chán. Họ sẽ ghét công việc này phải không? Nhưng trí tuệ nhân tạo có tính kiên nhẫn vô cùng.
Nó không cần phải thông minh vô cùng. Và, bạn biết đấy, tôi cho rằng ở bất cứ đâu nếu bạn đang điều hành việc kinh doanh của mình và bạn có thể nhận được giá trị từ điều gì đó mà những người có lòng kiên nhẫn vô hạn đang làm, thì đó là điều mà AI nên tự động hóa.
Jacob: Thật thú vị vì tôi luôn cho rằng các nhà tư vấn là nơi để những người thông minh giải quyết những vấn đề nhàm chán hoặc làm việc trong những ngành nhàm chán. Và rõ ràng, với những mô hình trí tuệ nhân tạo tiên tiến, bạn có thể yêu cầu một người có chỉ số IQ rất cao giải quyết những vấn đề mà bạn sẽ không bao giờ yêu cầu một người thông minh làm.
Bob McGrew: Vâng, ý tôi là, đây là lần đầu tiên tôi nghe nói có người thực hiện một nghiên cứu về năng suất cho thấy AI thực sự mang lại sự cải thiện từ 20 đến 50%. Tôi đã nghĩ, ồ, thật tuyệt. Sau đó tôi phát hiện ra, ồ, đó là một cố vấn. À, bạn biết đấy, trí tuệ nhân tạo rất giỏi "nhảm nhí", còn việc của các nhà tư vấn là "nhảm nhí". Vì vậy có lẽ chúng ta không nên ngạc nhiên khi những cải tiến về năng suất xuất hiện ở đây trước tiên.
Người điều hành Jacob: Vâng, tôi cho rằng sự cải thiện cũng lớn nhất ở nửa dưới của những người có thành tích kém, phải không?
Bob McGrew: Đúng vậy. Thực ra tôi cho rằng điều đó cũng có chút hy vọng. Bởi vì nếu bạn nhìn vào nửa dưới của dân số, bạn biết đấy, họ có những kỹ năng mà con người có nhưng rất khó tự động hóa, đó là phiên bản đầy hy vọng của điều này. Họ biết họ đang làm gì, nhưng họ không biết cách viết mã để triển khai nó. Sau đó, mô hình xuất hiện và thông báo: ồ, tôi biết cách viết mã để thực hiện việc này, nhưng tôi không biết mình phải làm gì. Vì vậy, giờ đây những người làm việc kém này thực sự có thể có được sự thăng tiến thực sự trong công việc của mình. Vì vậy tôi nghĩ điều đó rất đáng hy vọng.
Người dẫn chương trình Jordan: Tôi nghĩ, về mặt hiệu suất, bạn đã và đang làm việc với một số nhà nghiên cứu giỏi nhất trên thế giới. Bạn cho rằng điều gì khiến một nhà nghiên cứu AI trở thành người giỏi nhất?
Bob McGrew: Có nhiều loại nhà nghiên cứu khác nhau làm những công việc khác nhau. Nếu bạn nghĩ về ai đó như Alec Radford, người đã phát minh ra sê-ri GPT và CLIP, bạn sẽ thấy rằng về cơ bản anh ấy đã phát minh ra các mô hình ngôn ngữ lớn (LLM) và sau đó tiếp tục thực hiện nhiều hình thức nghiên cứu đa phương thức khác nhau. Alec là một người đàn ông thích làm việc một mình vào ban đêm. Ngược lại, những ngôi sao sáng khác như Ilya Sutskvi và Jacob Picjoki, nhà khoa học đứng đầu thứ nhất và thứ hai của OpenAI, lần lượt có những ý tưởng và viễn cảnh mong đợi tuyệt vời. Họ giúp đỡ người khác giải quyết các thách thức và đóng vai trò quan trọng trong việc phát triển lộ trình chung cho công ty.
Những nhà khoa học giỏi nhất đều có một đặc điểm chung: sự kiên trì nhất định. Tôi sẽ luôn nhớ cảnh Aditya Ramesh, người đã phát minh ra DALL-E, vật lộn với vấn đề tạo ra một hình ảnh không có trong tập huấn luyện để chứng minh rằng mạng lưới thần kinh có thể sáng tạo. Ý tưởng ban đầu của DALL-E là xem liệu nó có thể tạo ra hình ảnh một chú gấu trúc màu hồng đang trượt băng trên băng hay không, điều mà Aditya chắc chắn không tồn tại trong dữ liệu huấn luyện. Anh ấy đã làm việc đó trong 18 tháng, có thể là hai năm, cố gắng biến nó thành hiện thực.
Tôi nhớ khoảng một năm sau, Ilya đến cho tôi xem một bức ảnh và nói: "Nhìn này, đây là thế hệ mới nhất. Nó thực sự bắt đầu hoạt động." Những gì tôi thấy là một vệt mờ và phần trên chỉ có màu hồng, màu trắng. phía dưới - chỉ là các pixel đang bắt đầu kết tụ lại với nhau. Tôi vẫn chưa thể nhìn thấy gì nhưng Aditya vẫn kiên trì. Sự kiên trì này là điều mà mọi nhà nghiên cứu thành công đều phải có khi giải quyết các vấn đề cơ bản. Họ phải coi đây là “điểm tựa cuối cùng” của mình và quyết tâm giữ vững nó trong nhiều năm nếu cần thiết.
Người dẫn chương trình Jacob: Để làm cho nó hoạt động. Bạn học được gì khi thành lập một tổ chức nghiên cứu với một nhóm người như vậy?
Bob McGrew: Thật thú vị, phép so sánh tốt nhất mà tôi có thể nghĩ đến thực ra lại đến từ Alex Carp tại Palantir, người luôn nói rằng các kỹ sư là nghệ sĩ. Điều này có ý nghĩa. Khi bạn nói chuyện với một kỹ sư thực sự giỏi, họ chỉ muốn sáng tạo. Có điều gì đó trong trái tim họ. Code là cách họ biến tác phẩm điêu khắc trong tâm trí mình thành hiện thực.
Tại Palantir, bạn biết đấy, bạn phải để họ sửa lỗi, nhưng lần bạn làm điều đó, phía nghệ sĩ của họ lại rất buồn. Phải có một quy trình để mọi người làm việc cùng nhau nhưng phía nghệ sĩ của họ lại thấy buồn




