Làm thế nào trí tuệ thể hiện có thể đạt đến "khoảnh khắc ChatGPT"? Trưởng khoa Học viện Trí tuệ Nhân tạo, một giáo sư Đại học Thanh Hoa, và ba nhà sáng lập đã thảo luận về vấn đề này.

Bài viết này được dịch máy
Xem bản gốc

Văn bản | Fuchong

Su Jianxun biên tập

Trí tuệ thể hiện đang chờ đợi "khoảnh khắc ChatGPT" của riêng mình. Tuy nhiên, vẫn còn nhiều bất đồng trong ngành về định nghĩa cụ thể của khoảnh khắc này.

Mới đây, tại diễn đàn bàn tròn Ngày hội Công nghệ Tình báo Lực lượng Vũ trang, năm người hành nghề đã chia sẻ nhận xét về vấn đề này. Họ là:

Wang Yu, giáo sư biên chế tại Khoa Kỹ thuật Điện tử, Đại học Thanh Hoa.

Wang Zhongyuan, Giám đốc Học viện Trí tuệ Nhân tạo Bắc Kinh

Jiang Daxin, Người sáng lập & Giám đốc điều hành của Jieyue Xingchen

Gao Jiyang, Người sáng lập & Giám đốc điều hành của Xinghai Chart

Tang Wenbin, đồng sáng lập và CEO của Yuanli Lingji

Jiang Daxin, người sáng lập kiêm CEO của Jieyue Xingchen, là người đầu tiên đề xuất định nghĩa tiêu chuẩn về "khoảnh khắc ChatGPT", đó là "khả năng khái quát hóa không cần mẫu" - ngay cả khi được cung cấp các hướng dẫn chưa từng thấy trước đây, AI vẫn có thể trả lời câu hỏi và hoàn thành nhiệm vụ- đây chính xác là khả năng của các mô hình ngôn ngữ quy mô lớn.

Tuy nhiên, Jiang Daxin ngay lập tức chỉ ra rằng vì sự khái quát hóa trí tuệ thể hiện liên quan đến nhiều khía cạnh hơn như kịch bản, nhiệm vụ và đối tượng được điều khiển, nên robot vẫn rất khó đạt được tiêu chuẩn này.

Là CEO của một công ty khởi nghiệp về robot, Gao Jiyang giải thích thêm về những khó khăn trong việc thương mại hóa trí tuệ thể hiện: các mô hình ngôn ngữ lớn có thể được "coi như sản phẩm", với điện thoại di động và máy tính là thiết bị đầu cuối và Internet là kênh; tuy nhiên, trí tuệ thể hiện phải trải qua một Chuỗi công nghiệp dài hơn - máy móc hoàn chỉnh, Chuỗi cung ứng, dữ liệu máy thực, giao hàng ngoại tuyến, không được thiếu bất kỳ yếu tố nào.

Dựa trên những vấn đề cần giải quyết đã nêu ở trên, Tang Wenbin, đồng sáng lập kiêm CEO của Yuanli Lingji, đã đề xuất một "khoảnh khắc ChatGPT của trí tuệ thể hiện" khả thi hơn: trước tiên, giải quyết tất cả các vấn đề trong đó một vòng lặp khép kín trong một kịch bản giới hạn, và tính toán lợi tức đầu tư (ROI).

Lý lẽ của ông rất đơn giản: ChatGPT liên tục chứng minh tính hữu dụng của các mô hình ngôn ngữ như những công cụ; để sự thay đổi này xảy ra, trí tuệ thể hiện cũng phải chuyển mình từ một món đồ chơi và dự án nghiên cứu thành một thứ gì đó hữu ích.

Do đó, bàn tròn này đã đạt được sự đồng thuận sơ bộ về "hướng phát triển hiện tại của trí tuệ thể hiện": trước khi theo đuổi khả năng khái quát hóa mạnh mẽ hơn, chúng ta nên thử nghiệm trước một kịch bản cụ thể, để robot tạo ra vòng quay dữ liệu thực tế trong công việc thực tế, và sau đó sử dụng dữ liệu để đưa trở lại mô hình và quá trình lặp lại hệ thống.

Quan điểm này cũng giải thích con đường mà đơn vị tổ chức diễn đàn bàn tròn lần , Force Intelligence, đã lựa chọn: trước khi guồng máy dữ liệu hoạt động, cần phải có một tiêu chuẩn thống nhất để đánh giá hiệu quả của các thiết bị thực tế. Do đó, trước khi phát hành mô hình và thiết bị thực tế của riêng mình, Force Intelligence đã hợp tác với HuggingFace để khởi động chương trình đánh giá hiệu quả thiết bị thực tế "RoboChallenge".

Được thành lập vào tháng 3 năm 2025, Yuanli Lingji do Tang Wenbin, cựu đồng sáng lập Megvii Technology, sáng lập. Đội ngũ nòng cốt của công ty cũng bao gồm một số cựu thành viên chủ chốt của Megvii. Chỉ trong chưa đầy một năm, Yuanli Lingji đã huy động được gần 1 tỷ nhân dân tệ vốn đầu tư, với các cổ đông bao gồm Alibaba, NIO Capital và Lenovo Capital.

Vào ngày 10 tháng 2, công ty khởi nghiệp này, được thị trường vốn ưu ái, đã đệ trình mô hình đầu tiên của mình, DM0, và mô hình này đã đứng đầu bảng xếp hạng RoboChallenge với 2,4 tỷ tham số. Tất nhiên, câu hỏi đã được đặt ra – "Liệu người khởi xướng tiêu chuẩn đánh giá có thể đồng thời là đối thủ cạnh tranh?" Tang Wenbin đã giải đáp những câu hỏi này tại diễn đàn bàn tròn , trình bày chi tiết về những cân nhắc khi công bố tiêu chuẩn đánh giá trước khi ra mắt mô hình, tầm quan trọng của việc thử nghiệm trên thiết bị thực tế và các thắc mắc từ ngành công nghiệp.

Dưới đây là nội dung của cuộc thảo luận bàn tròn lần , do tác giả biên soạn:

△ Khách mời tham dự diễn bàn tròn, ảnh: Force Intelligence

Người dẫn chương trình: Từ góc nhìn toàn cầu, những phương pháp công nghệ chủ đạo nào đang được áp dụng cho mô hình trí tuệ thể hiện của chúng ta, và hiện tại chúng ta đang ở giai đoạn nào?

Wang Zhongyuan: Đằng sau sự hào hứng xung quanh trí tuệ thể hiện, tôi thấy nhiều mối lo ngại tiềm ẩn. Mặc dù phần cứng đang phát triển nhanh chóng, nhưng vẫn còn sê-ri vấn đề cần giải quyết, chẳng hạn như hoạt động liên tục và ổn định, bảo mật và thời lượng pin.

Về mô hình, mặc dù chúng tôi đã phát hành sê-ri mô hình tích hợp trong năm qua, nhưng chúng tôi cảm thấy vẫn còn khá xa so với thời điểm hiện tại để có được ChatGPT tích hợp . Đặc biệt là sau khi các mô hình thông minh tích hợp và phần cứng được triển khai trên các thiết bị thực tế, chúng tôi nhận thấy vẫn còn một khoảng cách đáng kể giữa chúng và các ứng dụng quy mô lớn mà chúng tôi thực sự kỳ vọng.

Hiện nay, phương pháp tiếp cận công nghệ đối với các mô hình thể hiện vẫn đang trong giai đoạn phát triển. Các phương pháp thường được thảo luận bao gồm mô-đun mô-đun như VLM có điều khiển, VLA đầu cuối và mô hình thế giới đang phổ biến hiện nay. Tuy nhiên, tôi cho rằng những phương pháp này còn rất xa so với giai đoạn mà chúng ta có thể tự hào nói rằng trí tuệ thể hiện đã đạt được một bước đột phá hoàn toàn.

Do đó, rất có thể những gì chúng ta sẽ thấy tiếp theo là việc giải quyết từng kịch bản một bằng cách sử dụng VLA và học tăng cường. Chúng ta sẽ bắt đầu bằng việc thực hiện công việc thực tế, tích lũy thêm dữ liệu trên các thiết bị thực để tạo thành dữ liệu, và sau đó cuối cùng giải quyết vấn đề khái quát hóa.

Wang Yu: Tôi tập trung nhiều hơn vào phần cứng, bao gồm tỷ lệ băm, khung phần mềm, điện toán biên và cơ sở hạ tầng. Theo quan điểm của tôi, mặc dù các ứng dụng robot hiện nay đã có những tiến bộ vượt bậc, nhưng chúng vẫn bị giới hạn trong một môi trường làm việc duy nhất. Về cơ bản, việc phối hợp các chức năng não bộ và tủy sống để hoàn thành một nhiệm vụ dài hơn một chút, trải rộng trên nhiều giác quan, trở nên khá khó khăn.

Nhóm chúng tôi thảo luận về việc robot thực sự nên làm bao nhiêu việc. Ví dụ, nhiệm vụ dọn dẹp nhà cửa không chỉ đơn thuần là gấp quần áo; mà còn là việc robot quan sát tổng thể tình trạng của ngôi nhà, tìm ra cách thức cần dọn dẹp, và sau đó bắt đầu thực hiện từng bước một. Mục tiêu cuối cùng là dọn dẹp toàn bộ ngôi nhà một cách kỹ lưỡng, đây là một nhiệm vụ rất khó khăn.

Dĩ nhiên, mô hình cần phải mang tính đột phá, nhưng tôi cũng đang tự hỏi liệu chính tòa nhà có cần phải thay đổi để xử lý nhiệm vụ phức tạp như vậy hay không. Tôi xuất thân từ lĩnh vực phần cứng, vì vậy đôi khi tôi nghĩ về việc liệu kiến ​​trúc có nên được điều chỉnh cho phù hợp với tương lai có robot hay không, vì ban đầu nó chỉ được thiết kế cho con người. Giống như các hệ thống kết nối phương tiện với mọi thứ (V2X), chúng ta cũng có thể tạo ra cơ sở hạ tầng để hỗ trợ robot.

Người dẫn chương trình: Giáo sư Wang đang nói về việc các tiêu chuẩn nhà ở thế hệ tiếp theo của chúng ta có thể tích hợp robot như thế nào. Vì chúng ta đã đề cập đến cơ sở hạ tầng, thưa Giáo sư Wang, ông nghĩ gì về những điểm mạnh và điểm yếu hiện tại của Trung Quốc và Thung lũng Silicon trong lĩnh vực trí tuệ thể hiện?

Wang Yu: Hoa Kỳ đã bắt đầu sớm hơn về mặt mô hình và dữ liệu , và đã có một số khoản đầu tư và đột phá trong ứng dụng. Tuy nhiên, khi nói đến việc triển khai, tôi tin chắc rằng Trung Quốc có thể bắt kịp nhanh chóng, đặc biệt là khi Trung Quốc đã đầu tư mạnh hơn Hoa Kỳ vào khía cạnh hiện thân.

Nhiều người cho rằng công nghệ thể hiện là một bong bóng, nhưng cá nhân tôi nghĩ rằng việc chúng ta cuối cùng đã tìm ra hướng đi là một điều tốt, và cường độ đầu tư của Trung Quốc còn lớn hơn cả Hoa Kỳ. Điều này là do toàn bộ Chuỗi của Trung Quốc Chuỗi hoàn thiện. Nếu chúng ta mở rộng thêm nhiều ứng dụng và tăng cường đầu tư vào các mô hình và ứng dụng, có thể chúng ta sẽ đạt được những đột phá trong lĩnh vực công nghệ thể hiện nhanh hơn Hoa Kỳ.

Hơn nữa, tôi cảm thấy hiện nay đang có sự hợp tác ngày càng tăng giữa giới học thuật và công nghiệp ở Trung Quốc, giống như những gì tôi đang làm ở đây. Không phải là các giáo sư chỉ ngồi trong văn phòng đọc tài liệu và nghiên cứu, mà là ngành công nghiệp gặp vấn đề và sau đó hợp tác với các viện nghiên cứu. Cá nhân tôi cho rằng cách tiếp cận hợp tác này đang dần phù hợp với mô hình của Mỹ, nơi ngành công nghiệp, giới học thuật và các viện nghiên cứu cùng nhau hợp tác để thúc đẩy các công nghệ ứng dụng.

Người dẫn chương trình: Chúng tôi đã quan sát thấy một hiện tượng. Trận Super Bowl, thường được coi là sự kiện tương đương với dạ hội Tết Nguyên đán của Mỹ, có rất nhiều hoạt động quảng bá cho chương trình Thạc sĩ Quản trị Kinh doanh (LLM). Tuy nhiên, tại dạ hội Tết Nguyên đán của Trung Quốc, hầu như tất cả mọi người trên sân khấu đều là robot. Giáo sư Zhong Yuan, ông có ý kiến ​​gì về vấn đề này?

Wang Zhongyuan: Cho phép tôi chia sẻ hai câu chuyện ngắn mà tôi đã nghe được.

Câu chuyện đầu tiên là một giai thoại nhỏ mà tôi được nghe kể lại từ một nhà đầu tư. Các nhà đầu tư Mỹ trong lĩnh vực trí tuệ thể hiện thường tìm kiếm các thành viên người Trung Quốc trong đội ngũ khởi nghiệp. Cho rằng sự hiện diện của các thành viên người Trung Quốc đảm bảo tiềm năng thành công của công ty khởi nghiệp trong lĩnh vực trí tuệ thể hiện.

Một câu chuyện khác là khi chúng tôi đang phát triển mô hình trí tuệ thể hiện, một khía cạnh rất khó khăn là việc thường xuyên xảy ra lỗi phần cứng. Khi phần cứng bị hỏng, quá trình sửa chữa thường mất đến hai tuần. Tuy nhiên, chúng tôi được biết rằng ở Mỹ, việc sửa chữa phần cứng robot có thể mất đến ba tháng, điều này ngay lập tức khiến chúng tôi cảm thấy thoải mái hơn rất nhiều.

Do đó, một mặt, chúng ta có thể thấy rằng Trung Quốc có lợi thế trong sản xuất, điều này là một lợi thế cho chúng ta trong lĩnh vực trí tuệ thể hiện. Mặt khác, toàn bộ ngành công nghiệp vẫn đang ở giai đoạn đầu, và mọi người đều đang trong giai đoạn phát triển và cải tiến nhanh chóng, vì vậy còn lâu mới có thể xác định ai hơn ai kém hơn.

Người dẫn chương trình: Chúng ta đã thảo luận về chỉ báo"nội dung Trung Quốc" cho tinh thần khởi nghiệp dựa trên sự tương tác vật lý ở Mỹ. Nhìn vào toàn bộ ngành công nghiệp AI, một cột mốc quan trọng là "khoảnh khắc ChatGPT". Vậy, cho rằng ông, "khoảnh khắc ChatGPT cho trí tuệ nhân tạo dựa trên sự tương tác vật lý" là gì? Ông Jiang Daxin, người đã đạt được những thành công đáng kể, ông có hiểu biết sâu sắc hơn về "khoảnh khắc ChatGPT" không?

Jiang Daxin: Chúng ta hãy bắt đầu bằng việc định nghĩa "khoảnh khắc ChatGPT". Tôi nghĩ tính năng nổi bật nhất là "không cần dữ liệu mẫu". Nó khái quát hóa mà không cần bất kỳ dữ liệu mẫu nào; với bất kỳ hướng dẫn nào, ngay cả những hướng dẫn mà nó chưa từng thấy trước đây, AI ​​đều có thể trả lời câu hỏi. Điều này hoàn toàn khác với xử lý ngôn ngữ tự nhiên truyền thống, đó là lý do tại sao "khoảnh khắc ChatGPT" lại thú vị đến vậy.

Tuy nhiên, nếu so sánh ngôn ngữ tự nhiên và trí tuệ thể hiện, tôi nghĩ rằng "khoảnh khắc ChatGPT của trí tuệ thể hiện" sẽ khó xảy ra hơn.

Đầu tiên, về định nghĩa của chính vấn đề, tôi nghĩ rằng sự khái quát hóa trí tuệ thể hiện có thể được định nghĩa từ nhiều khía cạnh khác nhau. Các khía cạnh khái quát hóa khác nhau dẫn đến việc thiếu sự đồng thuận giữa nhiều người về "khoảnh khắc ChatGPT của trí tuệ thể hiện".

Chiều thứ nhất là sự khái quát hóa của kịch bản, chẳng hạn như đó là kịch bản khép kín, bán khép kín hay hoàn toàn mở; chiều thứ hai là nhiệm vụ, chẳng hạn như nhiệm vụ điều hướng, nhiệm vụ cầm nắm hoặc công việc nhà; chiều thứ ba là sự khái quát hóa của mục tiêu, chẳng hạn như ngay cả một hành động cầm nắm đơn giản, vật thể được cầm nắm có thể được chia thành vật thể cứng và vật thể mềm.

Thứ hai, xét từ góc độ kỹ thuật, trí tuệ thể hiện liên quan đến thị giác máy tính, nhưng vẫn còn thiếu sự đồng thuận về một số vấn đề cơ bản. Ví dụ, thị giác nên được mã hóa như thế nào, quá trình huấn luyện trước tự giám sát nên được thực hiện ra sao, và suy luận nên được tiến hành như thế nào trong không gian 3D? Tôi nghĩ rằng những vấn đề này vẫn cần những đột phá trước khi chúng ta có thể đạt được tiến độ như ChatGPT.

Người dẫn chương trình: Định nghĩa rất quan trọng đối với "những khoảnh khắc trí tuệ thể hiện trong ChatGPT". Vậy hai vị khách mời, những người đang nói về trí tuệ thể hiện, định nghĩa khoảnh khắc trí tuệ thể hiện trong ChatGPT như thế nào?

Gao Jiyang: Tôi nghĩ đây là một vấn đề đặc biệt đáng để thảo luận. Tôi nghĩ chúng ta có thể đang gặp phải một vấn đề cơ bản hơn, đó là mặc dù cả ngành công nghiệp trí tuệ thể hiện và mô hình ngôn ngữ đều bắt nguồn từ những đột phá sáng tạo trong công nghệ AI, nhưng chúng lại khá khác biệt khi xét đến từng ngành cụ thể.

Trí tuệ thể hiện có một chuỗi dài hơn, từ phát triển công nghệ đến lập kế hoạch sản phẩm và thương mại hóa. Nó liên quan đến Chuỗi cung ứng linh kiện và dữ liệu ở cả thượng nguồn và hạ nguồn, và dữ liệu cho trí tuệ thể hiện trước đây chưa từng có. Sau đó là phát triển thuật toán. Hơn nữa, rõ ràng là các kênh và thiết bị đầu cuối khác với các mô hình ngôn ngữ lớn. Các mô hình ngôn ngữ lớn được phân phối thông qua điện thoại di động và máy tính, và các kênh của chúng là mạng xã hội.

Do đó, bạn sẽ thấy rằng mắt xích khan hiếm nhất, và duy nhất còn thiếu, trong toàn bộ chuỗi ngành công nghiệp dành cho các mô hình ngôn ngữ lớn chính là bản thân mô hình đó . Vì vậy, mô hình chính là sản phẩm; một khi mô hình tốt, toàn bộ chuỗi thương mại hóa và công nghiệp hóa mới bắt đầu hình thành.

Trong các lĩnh vực đã đề cập trước đó, trí tuệ thể hiện đang đối mặt với những thách thức trong Chuỗi cung ứng và sản xuất linh kiện. Nếu không có hệ thống hoàn chỉnh, sẽ thiếu dữ liệu thực tế đáng tin cậy. Thiết bị đầu cuối cho trí tuệ thể hiện chính là robot, điều này đòi hỏi phải phát triển các kênh ngoại tuyến.

Quay trở lại câu hỏi trước đó, liên quan đến định nghĩa về "khoảnh khắc ChatGPT của trí tuệ thể hiện", tôi cho rằng rằng từ góc độ dây chuyền sản xuất việc kinh doanh, đó nên là khoảnh khắc mà chúng ta thực sự thấy được giá trị thương mại của nó trong một số phạm vi giới hạn nhất định.

Tôi nghĩ năm 2026 sẽ là một năm thay đổi, bởi vì toàn bộ máy móc và Chuỗi cung ứng đã trải qua nhiều thay đổi sau hai năm chuẩn bị. Chúng ta cũng có rất nhiều dữ liệu , và việc đưa vào sử dụng các mô hình, thuật toán, học tăng cường trong huấn luyện sau, VLA trong huấn luyện trước, và Mô hình Thế giới gần đây đều mang lại nhiều thay đổi mới cho khả năng khái quát hóa của huấn luyện trước và tỷ lệ thành công của huấn luyện sau.

Do đó, tôi tin rằng năm nay là năm mà các ứng dụng cần phải hoàn thiện chu trình. Trong nửa đầu năm ngoái (2025), chúng ta đã thấy rõ sự phát triển của trí tuệ nhân tạo đã bắt đầu, và trong nửa cuối năm 2025, trí tuệ nhân tạo đã tăng tốc đáng kể. Chúng ta có thể tham khảo số lượng mô hình mã nguồn mở trong cộng đồng mã nguồn mở như một chỉ báo quan trọng.

Năm 2026 sẽ là năm bùng nổ của công nghệ thông minh. Sự tăng trưởng này chắc chắn sẽ dẫn đến những tác động lan tỏa trong một số lĩnh vực ứng dụng, đồng thời ảnh hưởng đến Chuỗi cung ứng và toàn bộ quy trình sản xuất thiết bị. Đặc biệt, Trung Quốc mạnh hơn đáng kể so với Hoa Kỳ, với chu kỳ sản xuất nhanh hơn từ 5 đến 10 lần và chi phí thấp hơn từ 5 đến 10 lần, như đã đề cập trước đó.

Tang Wenbin: Tôi nghĩ "khoảnh khắc ChatGPT" của Jiang Daxin có yêu cầu rất cao; đây đã là một khoảnh khắc của Trí tuệ Nhân tạo Tổng quát (AGI). Hôm nay, chúng ta hãy cùng suy nghĩ về cú sốc lớn nhất mà ChatGPT mang lại cho chúng ta. Trước đây chúng ta coi nó như một món đồ chơi, nhưng vào thời điểm đó, chúng ta cho rằng nó là một công cụ; nó đã trở thành thứ có thể sử dụng được.

Do đó, định nghĩa của tôi về "Khoảnh khắc Trí tuệ Thể hiện của ChatGPT" là khoảnh khắc khi nó trở nên hữu ích và đáng tin cậy. Điều này vẫn quay trở lại với mục tiêu mà công ty chúng ta muốn hướng tới.

Định nghĩa về "hữu ích" của chúng tôi rất đơn giản: nó có thể được sử dụng trong một phạm vi giới hạn. Nhưng để thực sự giải quyết tất cả các vấn đề trong một vòng lặp khép kín, chúng ta cần phải tính toán rõ ràng lợi tức đầu tư (ROI). Chỉ khi tính toán rõ ràng ROI thì nó mới có thể được áp dụng hàng loạt.

Chỉ khi nào đáp ứng được định nghĩa hữu ích như vậy, chúng ta mới thực sự có thể biến một món đồ chơi, hay một dự án nghiên cứu, thành một công cụ. Tôi cho rằng đó chính là thời điểm của "Trí tuệ thể hiện ChatGPT". Tôi nghĩ rằng khả năng của các mô hình hiện tại đã tiến bộ rất đáng kể, vì vậy thời điểm đó không còn xa nữa.

Tất nhiên, sau thời điểm ChatGPT, sẽ có thời điểm DeepSeek, tức là khi công nghệ này thực sự trở nên phổ biến. Ngày nay, robot thông minh có thể siết chặt ốc vít trong nhà kho và nhà máy, nhưng tôi nghĩ công chúng nói chung chưa thực sự cảm nhận được điều đó. Có lẽ thời điểm DeepSeek sẽ là lúc mọi người đều cảm nhận được. Còn về việc chuyển từ logistics công nghiệp sang các ứng dụng thương mại và đến tay người tiêu dùng, thời điểm đó sẽ đến muộn hơn một chút, nhưng tôi nghĩ nó không còn quá xa nữa.

Người dẫn chương trình: Trong thời gian làm việc tại Megvii, đội ngũ cốt lõi đứng sau Force Intelligence đã trải qua kỷ nguyên 1.0 của AI. Giờ đây, chúng ta đã bước vào kỷ nguyên của trí tuệ thể hiện. Thay vì phát hành một mô hình ngay từ đầu, các bạn đã phát hành RoboChallenge trước tiên như một tiêu chuẩn đánh giá. Vậy, các bạn đã tiếp cận vấn đề này như thế nào?

Tang Wenbin: Mô hình là một sản phẩm; kết quả của nó, bao gồm mô hình, thuật toán, kiến ​​trúc và dữ liệu, đều liên tục thay đổi. Hiện nay, vẫn còn thiếu một kiến ​​trúc kỹ thuật hoàn chỉnh, dù là về dữ liệu, phần cứng thân thiện với người dùng như Dean Zhong Yuan đã đề cập, hay các tiêu chuẩn đánh giá.

Trong ngành công nghiệp trí tuệ nhân tạo hiện nay, tất cả chúng ta những người làm việc với thuật toán đều biết rằng nếu không biết cách đánh giá nó, chắc chắn bạn không thể cải thiện nó. Hiện nay, các tiêu chuẩn đánh giá mà chúng ta có thể sử dụng có thể là LIBERO, SimplerEnv và RoboTwin, nhưng quy mô của chúng tương đối nhỏ. Nhiều tiêu chuẩn đã được kiểm tra và tinh chỉnh kỹ lưỡng, nhưng liệu điểm số 99.mấy đó có phản ánh đúng khả năng thực sự hiện tại? Rõ ràng là không.

Do đó, chúng tôi tin rằng chúng ta vô cùng cần những đánh giá thực tế quy mô lớn dựa trên thế giới vật chất để định hướng cho tương lai.

ForceMed đã đầu tư rất nhiều công sức vào việc xây dựng cơ sở hạ tầng trên nền tảng robot Dexbotic của chúng tôi, với hy vọng sẽ sớm ra mắt một số tính năng và đóng góp cho ngành công nghiệp. Mặc dù chúng tôi là những người khởi xướng RoboChallenge, nhưng tất cả mọi người, bao gồm cả Trưởng khoa Zhong Yuan, Gao Jiyang và Giáo sư Wang từ Đại học Thanh Hoa, đều đang cùng nhau tham gia đánh giá, với hy vọng rằng nhiều người trong ngành sẽ cùng tham gia quảng bá cuộc thi này.

Người dẫn chương trình: Một số khách mời của chúng ta hôm nay là đối tác của RoboChallenge. Là một trong những công ty đầu tiên tham gia, Xinghai Map đã quyên tặng phần cứng cho RoboChallenge. Lý do đằng sau việc này là gì?

Gao Jiyang: Nhưng các tiêu chuẩn đánh giá thực sự hướng đến ứng dụng và mang tính thực tiễn phải dựa trên các thiết bị thực tế.

Tôi nghĩ toàn bộ quá trình phát triển ChatGTP hoặc các mô hình ngôn ngữ đều được thúc đẩy bởi nhu cầu thương mại. Có một nhu cầu rất lớn trong ba lĩnh vực chính: Trí tuệ nhân tạo, Lập trình và ChatBot.

Nhìn lại trí tuệ thể hiện qua hành động, chúng ta sẽ thấy sự hình thành các danh mục theo chiều dọc trong tương lai. Những danh mục theo chiều dọc này phải xuất phát từ nhu cầu thực tế. Những nhu cầu thực tế này cần được phản ánh trong việc đánh giá các thiết bị thực tế để tạo ra một hoàn cảnh công bằng và mang tính lặp lại cho các công ty nghiên cứu và phát triển cũng như những người có nhu cầu trong tương lai.

Trí tuệ nhân tạo (AI) vẫn chủ yếu là một ngành khoa học mang tính thử nghiệm. Nó có những nguyên tắc và cơ sở toán học nhất định, nhưng cuối cùng, nhiều điều vẫn cần được kiểm chứng. "Kiểm chứng" đòi hỏi phản hồi, và phản hồi đòi hỏi sự đánh giá. Một chỉ báo rất quan trọng quyết định sự thành công của một công ty hoặc tổ chức, bao gồm cả AI và các lĩnh vực khác, là hiệu quả lặp lại của nó. Do đó, chúng tôi cố gắng bằng mọi cách để cải thiện hiệu quả lặp lại này và chất lượng phản hồi. Đó là lý do tại sao tôi hoàn toàn đồng ý và ủng hộ RoboChallenge khi đồng nghiệp cấp cao của tôi đề cập đến việc muốn tham gia.

Vì chúng tôi có hệ thống đánh giá nội bộ riêng, nơi mọi người đều trải qua 10 kịch bản khác nhau. Tôi nghĩ chúng ta cũng nên có một tiêu chuẩn áp dụng chung cho toàn ngành, và thậm chí có thể thu hút cả giới học thuật để liên kết tốt hơn giữa ngành và giới học thuật.

Người dẫn chương trình: Cuộc thi RoboChallenge rất quan trọng, nhưng thể thức ban đầu của nó hơi lạ. Nó giống như việc các sinh viên xuất sắc tự tạo ra câu hỏi kiểm tra của riêng mình rồi tự làm bài kiểm tra. Giáo sư Wang đánh giá hành vi này của sinh viên như thế nào? (Ghi chú của biên tập viên: Điều này đề cập đến Yuanli Lingji, vừa là đơn vị khởi xướng tiêu chuẩn đánh giá Benchmark, vừa là công ty tham gia đánh giá và đạt được kết quả tốt.)

Wang Yu: Tôi nghĩ mô hình học tập có thể thay đổi trong tương lai. Có thể không nhất thiết phải là giáo viên giảng dạy; sinh viên có thể tự học. Đây là điều chúng tôi đã thảo luận với các đồng nghiệp tại trường đại học gần đây. Sự phát triển trong tương lai của các trường đại học có thể không thực sự xoay quanh việc giáo viên giảng dạy các lớp học. Giáo viên có thể chỉ có mặt để ra đề thi, nhưng nguồn cảm hứng cho các câu hỏi thi có thể đến từ sinh viên, và điều đó không có vấn đề gì.

Trở lại vấn đề chính, chúng tôi thực sự đã làm rất tốt ở Bắc Kinh khi tổ chức Cuộc thi Robot Yizhuang. Chúng tôi có hai hội nghị và một cuộc thi, bao gồm một cuộc chạy marathon, một hội nghị về robot và một cuộc thi thể thao. Ban đầu, trọng tâm là kiểm tra khả năng vật lý của robot, nhưng giờ đây chúng tôi đang dần bổ sung thêm một số bài kiểm tra liên quan đến trí thông minh.

Tuy nhiên, phương pháp này thường không được thực hiện thường xuyên, có thể chỉ một hoặc lần một năm. Vì vậy, tôi thực sự đánh giá cao khả năng tiến hành thử nghiệm trên thiết bị thực tế bất cứ lúc nào, bất cứ nơi đâu, trong một hoàn cảnh và kịch bản thử nghiệm tương đối công bằng.

Tôi nghĩ việc biến hoạt động trực tuyến, tần suất cao hoặc mọi lúc mọi nơi này thành hiện thực chắc chắn là điều đáng để tiếp tục phát triển.

Thực tế có hơn chục "sinh viên giỏi" (người tham gia) đang cùng nhau xây dựng nền tảng RoboChallenge này. Tất cả mọi người trên nền tảng này đều hướng đến lợi ích cộng đồng và họ cạnh tranh trong hoàn cảnh này.

Việc trình bày nó theo một hình thức có lợi cho cộng đồng hơn là điều chúng ta có thể tiếp tục thảo luận. Xây dựng một tổ chức vì lợi ích cộng đồng vốn dĩ tốn rất nhiều thời gian. Tuy nhiên, từ khi thành lập đến việc thử nghiệm thực tế lần, đến việc mọi người cùng đóng góp vào tất cả các kịch bản khác nhau—bao gồm cả ngành công nghiệp, robot và giới học thuật cùng nhau định nghĩa các kịch bản này—và sau đó là cách tạo ra một hệ sinh thái mã nguồn mở hoàn toàn, toàn bộ quá trình này sẽ là một cú hích lớn cho toàn ngành. Do đó, tôi nghĩ đây chắc chắn là điều đáng để tiếp tục nghiên cứu.

Tang Wenbin: Tôi xin được xen vào. Thực tế là chúng tôi đã thảo luận vấn đề này nội bộ khi phát hành lần hình DM0. RoboChallenge được phát hành chung với Hugginface, và mặc dù nhiều đơn vị khác đã tham gia, chúng tôi vẫn là đơn vị khởi xướng. Vì vậy, chúng tôi đã tranh luận khá lâu về việc ForceMage có nên gửi mô hình của riêng mình và có nên công bố kết quả hay không. Chúng tôi đã có một cuộc tranh luận sôi nổi và nhiều ý kiến ​​khác nhau.

Wang Yu: OpenAI cũng có các tiêu chuẩn đánh giá riêng và họ công bố kết quả sau khi thử nghiệm. Tôi không nghĩ có sự mâu thuẫn nào trong đó.

Tang Wenbin: Vì OpenAI cũng đã làm điều tương tự nên chúng tôi khá thoải mái với việc đó. Lần, yêu cầu của chúng tôi đối với đội ngũ là mã nguồn mở phải thật kỹ lưỡng. Chúng tôi muốn đảm bảo rằng bất cứ ai tải xuống mã nguồn, mô hình DM0 và Dexbotic (khung phát triển) của chúng tôi đều có thể trực tiếp gửi bài dự thi RoboChallenge và nhận được điểm số hiện tại. Đây là vấn đề rất minh bạch đối với chúng tôi, vì vậy mọi người chỉ cần làm một cách cởi mở và trung thực.

Người dẫn chương trình: Chúng ta hãy kết thúc bằng một vài câu hỏi mang tính dự đoán. Nhìn về năm 2026, những phát triển hoặc nhiệm vụ nào được mong đợi nhất trong lĩnh vực trí tuệ thể hiện, và kết quả nào sẽ được mong đợi nhất?

Wang Yu: Từ góc nhìn của Khoa Kỹ thuật Điện tử, tôi thực sự hy vọng sẽ phát triển một hệ thống cộng tác giữa đám mây, thiết bị biên và máy móc, có thể chuyển đổi kiến ​​trúc và xây dựng cơ sở hạ tầng cho một hoàn cảnh cộng sinh giữa máy móc và con người. Tôi nghĩ rằng một nguyên mẫu của giải pháp này có thể xuất hiện trong năm nay, và sau đó chúng ta có thể cùng nhau thảo luận.

Wang Zhongyuan: Mặc dù tôi đặt kỳ vọng cao vào phần cứng và các mẫu mã, nhưng điều tôi mong chờ nhất trong năm 2026 có lẽ là các tiêu chuẩn.

Vì tôi cho rằng hệ sinh thái hiện tại, bao gồm các tiêu chuẩn phần cứng, tiêu chuẩn dữ liệu và tiêu chuẩn đầu ra mô hình, còn rất rời rạc, nên tôi thực sự mong chờ những đột phá về tiêu chuẩn trong năm 2026, điều này có thể thúc đẩy mạnh mẽ sự phát triển của toàn ngành.

Vì Zhiyuan đã tham gia RoboChallenge, tôi thực sự rất ấn tượng. Khi trò chuyện với Wenbin, chúng tôi đã bàn về dữ liệu mọi người tự thu thập dữ liệu riêng, thậm chí cả định dạng và mã nguồn cũng không nhất quán. Điều này dẫn trực tiếp đến việc các mô hình rất khó kiểm chứng nhiều lần. Thành thật mà nói, chúng tôi đã thử tải xuống và kiểm chứng nhiều mô hình mới được phát hành trong và ngoài nước, và thấy việc triển khai chúng khá khó khăn. Nguyên nhân chủ yếu là do tiêu chuẩn của mọi người không thống nhất.

Vào năm 2026, vì Học viện Trí tuệ Nhân tạo và Trí tuệ Thể hiện cũng tham gia ủy ban tiêu chuẩn, nên rất có khả năng chúng ta sẽ dẫn đầu trong việc phát triển các tiêu chuẩn cho trí tuệ thể hiện.

Jiang Daxin: Tôi rất ấn tượng với những chia sẻ của Wenbin. Nếu chúng ta có thể đạt được khả năng khái quát hóa không cần huấn luyện trong bất kỳ tình huống nào, bất kỳ nhiệm vụ và bất kỳ mục tiêu nào, đó sẽ là "khoảnh khắc AGI".

Năm 2026, tôi mong chờ nhất sự hợp tác giữa Force Machines và Leap Star, để hiện thực hóa khoảnh khắc ChatGPT mà Wenbin đã đề cập: khả năng hoàn thành nhiệm vụ một cách đáng tin cậy và hiệu quả.

Nếu Wenbin cảm thấy nhiệm vụ này chưa đủ thách thức, thì chúng ta sẽ đạt được cột mốc ChatGPT trong nửa đầu năm và cột mốc DeepSeek trong nửa cuối năm.

Gao Jiyang: Tôi nghĩ chúng ta vẫn kỳ vọng sẽ thấy một lộ trình tăng trưởng rõ ràng về năng suất vào năm 2026. Sau đó, trong vòng hai năm, chúng ta hy vọng sẽ thấy một kịch bản duy nhất đạt được bán ra hàng chục nghìn đơn vị. Tôi nghĩ đây là điều mà toàn ngành đang rất cần.

Tang Wenbin: Mục tiêu của tôi nhỏ hơn một chút so với Gao Jiyang. Tôi hy vọng sẽ thấy một nghìn thiết bị hoạt động liên tục trong một kịch bản.

Điều tôi muốn nói ở đây là vận hành liên tục là điều quan trọng nhất, và không nên thực hiện điều đó bằng cách thêm quá nhiều kịch bản. Vấn đề không phải là thêm nhiều hơn. Nếu một nghìn thiết bị hoạt động liên tục trong một kịch bản, thì đến một mức độ nào đó, chúng ta đã hoàn thành một vòng khép kín ở quy mô của kịch bản đó. Tôi nghĩ chúng ta có cơ hội vào năm 2026.

Nguồn ảnh bìa | Được tạo bằng AI

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận