Trí thông minh sở hữu đang háo hức chờ đợi "khoảnh khắc ChatGPT" của mình.

Bài viết này được dịch máy
Xem bản gốc

Đọc nhanh

  • Sự phát triển mạnh mẽ của các mô hình quy mô lớn gần như hoàn toàn dựa vào cơ sở hạ tầng vật lý mới: tỷ lệ băm được tập trung trên đám mây, và các thiết bị đầu cuối chỉ là điểm truy cập. Mặt khác, trí tuệ thể hiện lại hoàn toàn khác; nó là một hệ thống vật lý tích hợp phần cứng, thuật toán, nhận thức hoàn cảnh và hệ thống vận hành.
  • Mặc dù hầu hết các robot đã đạt được những tiến bộ vượt bậc, chúng vẫn còn "bị giới hạn trong một không gian làm việc duy nhất" và gặp khó khăn trong việc hoàn thành nhiệm vụ phức tạp và liên tục trên nhiều không gian và phương thức khác nhau.
  • Đối với trí tuệ thể hiện, "khoảnh khắc ChatGPT" giống một phép ẩn dụ vay mượn hơn là một con đường có thể sao chép. Nếu các mô hình lớn chứng minh sức mạnh bùng nổ của thuật toán, thì trí tuệ thể hiện sẽ kiểm tra sức chịu đựng của toàn bộ hệ thống công nghiệp.

Trong số nhiều nhánh của trí tuệ nhân tạo, trí tuệ thể hiện qua cơ thể là một trong những hướng đi được nhắc đến nhiều nhất trong năm qua.

Từ robot công nghiệp đến robot dịch vụ, từ xe tự lái đến robot hình người, mỗi lộ trình công nghệ đều được kỳ vọng sẽ trở thành một "cổng thông minh đa năng" theo định kỳ.

Tuy nhiên, không giống như cuộc cách mạng phần mềm dựa trên thuật toán, nó luôn bị chậm lại bởi những trở ngại của thế giới thực.

Nếu chỉ xem các video được công khai, câu chuyện phổ biến về trí tuệ thể hiện hầu như hoàn toàn bị chi phối bởi cùng một loạt hình ảnh tương tự: robot chạy ổn định hơn, nắm bắt chính xác hơn, di chuyển mượt mà hơn và thực hiện nhiệm vụ phức tạp hơn. Nguồn tài trợ đang tăng nhanh, các mô hình đang được cải tiến, và trí tuệ thể hiện dường như đang trên đà tăng mạnh mẽ.

Những thành công được lặp đi lặp lại, những thất bại bị loại bỏ — bên ngoài phòng thí nghiệm, một câu chuyện khác tồn tại: chi phí triển khai, tính ổn định và độ phức tạp trong bảo trì tiếp tục kéo dài thời gian thương mại hóa.

Ngày 10 tháng 2, sự kiện ngày hội công nghệ mở cửa đầu tiên của Force Intelligence đã được tổ chức tại Trung tâm Triển lãm Khu Trình diễn Đổi mới Quốc gia Zhongguancun ở Bắc Kinh.

ForceMachine đã ra mắt ba sản phẩm cốt lõi: DM0, một mô hình robot hiện đại; Dexbotic 2.0, một khung phát triển robot hiện đại; và DFOL, một quy trình sản xuất hàng loạt ứng dụng robot hiện đại. Đây cũng là lần đội ngũ cốt lõi của ForceMachine cùng nhau xuất hiện trước công chúng kể từ khi thành lập gần một năm trước.

Tại "Diễn đàn bàn tròn Trí tuệ nhân tạo vật lý thế hệ tiếp theo" diễn ra hôm đó, năm vị khách mời đến từ ngành công nghiệp, giới học thuật và nghiên cứu đã dành gần nửa thời gian để thảo luận về một câu hỏi:

Khi nào thì trí tuệ thể hiện trong ChatGPT sẽ xuất hiện?

Khoảnh khắc Trí tuệ Thể hiện của ChatGPT — đây là một khái niệm tổng hợp kết hợp những đột phá công nghệ, trải nghiệm sản phẩm và trí tưởng tượng kinh doanh. Nó đề cập đến cả bước tiến vượt bậc về khả năng của mô hình và một kỳ vọng: giống như ChatGPT, nó cần được người dùng không chuyên về kỹ thuật nhanh chóng hiểu và sử dụng với chi phí thấp, đồng thời đạt được sự phổ biến rộng rãi.

Nó mang đến một sự lạc quan và hứng khởi nhất định về mặt công nghệ. Sau tất cả, mô hình lớn này đã nhanh chóng được đưa từ phòng thí nghiệm đến tay hàng trăm triệu người dùng trên toàn thế giới sau khi ChatGPT ra mắt, hoàn thành một bước nhảy vọt rõ rệt.

Mọi người thường tự hỏi liệu trí tuệ nhân tạo cũng sẽ trải qua một bước đột phá tương tự khi nó có một cơ thể - một thực thể có thể đi lại, nắm bắt và thao tác với thế giới vật chất.

Thành công của ChatGPT nằm ở khả năng cung cấp trải nghiệm người dùng chi phí thấp, độ ổn định cao và khả năng tái tạo: bất kỳ ai cũng có thể mở trình duyệt, gõ một câu và nhận được kết quả trong vòng vài giây. Tính năng "sẵn sàng sử dụng" này đã giúp nó trở thành một công cụ được sử dụng rộng rãi.

Quan trọng hơn, sự phát triển mạnh mẽ của các mô hình quy mô lớn gần như hoàn toàn dựa vào cơ sở hạ tầng vật lý mới: tỷ lệ băm được tập trung trên đám mây, và các thiết bị đầu cuối chỉ là điểm truy cập. Đối với ngành công nghiệp này, đây là một bước nhảy vọt điển hình theo mô hình "tối giản tài sản".

Trí tuệ thể hiện qua cơ thể hoàn toàn khác biệt. Đó là một hệ thống vật lý tích hợp phần cứng, thuật toán, nhận thức hoàn cảnh, và các hệ thống vận hành và bảo trì.

Wang Zhongyuan, hiệu trưởng Học viện Trí tuệ Nhân tạo Bắc Kinh, cho rằng rằng ngay cả khi khả năng của mô hình được cải thiện, chúng ta vẫn còn rất xa so với thời điểm ChatGPT của trí tuệ thể hiện. "Đặc biệt là sau khi triển khai các mô hình trí tuệ thể hiện và các thiết bị phần cứng thực tế, chúng tôi nhận thấy vẫn còn một khoảng cách đáng kể giữa điều này và các ứng dụng quy mô lớn mà chúng ta thực sự hy vọng."

Khoảng cách này bắt nguồn từ những bất định vốn có của thế giới vật lý—liệu mặt đất có bằng phẳng hay không, liệu ánh sáng có thay đổi hay không, liệu có những dung sai nhỏ trong các bộ phận hay không, liệu các cảm biến có bị lão hóa hay không… bất kỳ biến số nào cũng có thể dẫn đến thất bại nhiệm vụ.

Đây là lý do tại sao, ở giai đoạn hiện tại, trí tuệ thể hiện vẫn đang trong trạng thái "có thể chứng minh" chứ không phải "có thể nhân rộng hàng loạt": một thành công đơn lẻ không đồng nghĩa với một thành công mang tính hệ thống.

Quan trọng hơn, cùng một robot có thể có những hành vi hoàn toàn khác nhau ở những thời điểm và địa điểm khác nhau. Điều này có nghĩa là nó không thể cung cấp trải nghiệm đồng nhất và dễ dự đoán cho tất cả người dùng như ChatGPT. Và bản chất của "khoảnh khắc" phụ thuộc chính xác vào sự biến đổi có thể cảm nhận được một cách tập thể này.

Wang Yu, giáo sư biên chế tại Khoa Kỹ thuật Điện tử thuộc Đại học Thanh Hoa, cho rằng rằng mặc dù hầu hết các robot đã đạt được những tiến bộ vượt bậc, chúng vẫn "bị giới hạn trong một phạm vi làm việc duy nhất" và gặp khó khăn trong việc hoàn thành nhiệm vụ liên tục và phức tạp trên nhiều không gian và chế độ khác nhau.

Ông thậm chí còn đề xuất một ý tưởng Sự lật đổ: thiết kế nhà ở trong tương lai có thể cần phải tích hợp yếu tố "thích ứng với robot". Nói cách khác, thay vì "yêu cầu" robot phải thích nghi với hoàn cảnh sống hỗn loạn của con người, tốt hơn hết là nên để các tòa nhà và cơ sở hạ tầng chủ động tối ưu hóa cho máy móc.

Công ty Snow Leopard Finance cho rằng rằng con đường này không xa lạ trong lịch sử công nghiệp—dây chuyền lắp ráp, thang máy và cửa tự động đều liên quan đến việc thay đổi không gian trước rồi mới giải phóng giá trị của tự động hóa. Trí tuệ thể hiện cũng có thể đòi hỏi một "kỹ thuật hoàn cảnh" tương tự.

Quan điểm của Wang Yu cũng cho thấy sự khác biệt lớn giữa các mô hình lớn và trí tuệ thể hiện: các mô hình lớn hoạt động trong một thế giới kỹ thuật số được tiêu chuẩn hóa cao, trong khi trí tuệ thể hiện phải dấn thân vào một thế giới vật lý được thiết kế cho con người, chứ không phải máy móc. Thế giới thứ nhất giống như một bàn cờ với những quy tắc rõ ràng, trong khi thế giới thứ hai giống như một vùng hoang dã ồn ào.

Vậy chính xác thì khoảnh khắc ChatGPT nên được định nghĩa như thế nào?

Theo Jiang Daxin, người sáng lập kiêm CEO của Jieyue Xingchen, một tính năng quan trọng là xử lý không cần dữ liệu huấn luyện (zero-shot processing). "Xử lý không cần dữ liệu huấn luyện cho phép khái quát hóa. Chỉ cần đưa ra bất kỳ hướng dẫn nào, thậm chí là hướng dẫn mà nó chưa từng thấy trước đây, nó đều có thể trả lời câu hỏi. Điều này hoàn toàn khác với xử lý ngôn ngữ tự nhiên truyền thống, đó là lý do tại sao mọi người lại hào hứng với ChatGPT đến vậy."

So sánh xử lý ngôn ngữ tự nhiên và trí tuệ thể hiện, Jiang Daxin tin rằng việc đạt được "khoảnh khắc ChatGPT" trong trí tuệ thể hiện sẽ khó khăn hơn. Ông giải thích thêm rằng sự khái quát hóa của trí tuệ thể hiện liên quan đến nhiều khía cạnh như kịch bản, nhiệm vụ và mục tiêu, và hiện vẫn chưa có sự đồng thuận về việc xác định "bước đột phá" ở khía cạnh nào.

Một bước đột phá về công nghệ đơn thuần không nhất thiết đồng nghĩa với một bước ngoặt trong sản phẩm hoặc ngành công nghiệp. Sự không phù hợp này chính là lý do tại sao "khoảnh khắc ChatGPT" được thảo luận nhiều lần trong lĩnh vực trí tuệ thể hiện, nhưng vẫn rất khó đạt được.

Khi ngay cả tiêu chuẩn về "thành công" cũng không thể thống nhất, thì "khoảnh khắc" đương nhiên trở thành một lối nói hoa mỹ mơ hồ.

Các doanh nhân thực sự tập trung vào các ứng dụng thương mại đang chuyển sang một định nghĩa thực tế hơn. Tang Wenbin, đồng sáng lập kiêm CEO của Yuanli Lingji, hình dung thời điểm ChatGPT trở thành hiện thực là khi nó trở thành một công cụ hữu ích, đáng tin cậy và có thể định lượng được về lợi tức đầu tư (ROI)(ROI).

Tang Wenbin thẳng thắn thừa nhận: "Mặc dù ngành công nghiệp này đang rất sôi động và phát triển mạnh mẽ, nhưng năng lực trí tuệ tổng thể (thể hiện qua cơ thể) của chúng ta thực chất vẫn còn ở giai đoạn sơ khai."

Gao Jiyang, người sáng lập kiêm CEO của Xinghaitu, đã chỉ ra từ góc độ Chuỗi ngành rằng mô hình lớn "chính là mô hình". Thiết bị đầu cuối của mô hình ngôn ngữ lớn là điện thoại di động và máy tính, và kênh truyền tải là mạng xã hội. Khi mô hình đã sẵn sàng, toàn bộ chuỗi thương mại hóa và công nghiệp hóa sẽ ngay lập tức được thiết lập. Tuy nhiên, chuỗi trí tuệ nhân tạo lại cực kỳ dài, từ Chuỗi cung ứng và lắp ráp máy móc hoàn chỉnh đến vòng lặp dữ liệu khép kín và dịch vụ hậu mãi, trong khi thuật toán thực chất là mắt xích có chu kỳ lan truyền ngắn hơn.

Điều này có nghĩa là tốc độ thương mại hóa trí tuệ thể hiện cũng mang những đặc điểm của ngành sản xuất: thu hồi vốn chậm, chi phí thất bại cao, và bất kỳ sự cố nào ở bất kỳ khâu nào cũng sẽ làm tăng rủi ro tổng thể. Những đột phá trong một công nghệ đơn lẻ khó có thể thúc đẩy thương mại hóa toàn bộ hệ thống. "Từ góc độ dây chuyền sản xuất việc kinh doanh, thời điểm ChatGPT đối với trí tuệ thể hiện là thời điểm chúng ta thực sự thấy được giá trị thương mại của nó trong một số phạm vi giới hạn nhất định," Gao Jiyang cho biết.

Đối với trí tuệ thể hiện, "khoảnh khắc ChatGPT" giống như một phép ẩn dụ vay mượn hơn là một con đường có thể sao chép.

Bước ngoặt thực sự đối với trí tuệ thể hiện có thể không phải là một phép màu công nghệ thu hút sự chú ý trên toàn quốc, mà chính là ngày nó âm thầm trở thành một sự hiện diện không thể thiếu nhưng không được bàn luận trong các nhà máy, nhà kho và khu công nghiệp.

Nhưng trước khi giai đoạn cuối cùng đến, quá trình trưởng thành của nó sẽ giống như sự phát triển của cơ sở hạ tầng—chậm, âm thầm, nhưng không thể thiếu.

Nếu các mô hình quy mô lớn chứng minh sức mạnh bùng nổ của thuật toán, thì trí tuệ thể hiện sẽ kiểm tra sức chịu đựng của toàn bộ hệ thống công nghiệp.

Trong cuộc đua marathon không có "phép màu" này, người chiến thắng có thể không phải là người sở hữu thuật toán thông minh nhất, mà là người hiểu rõ nhất về Chuỗi cung ứng, có thể vận hành vòng lặp khép kín trên thiết bị thực tế tốt nhất và sẵn sàng dấn thân vào các tình huống cụ thể nhất.

Bài viết này được đăng tải từ tài khoản WeChat chính thức "Snow Leopard Finance" (ID: xuebaocaijingshe) , tác giả: Cao Quanjing, biên tập viên: Huang Yuntao, với sự cho phép của 36Kr.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận