Robot của Google hiện có thể suy nghĩ, tìm kiếm trên web và tự học các thủ thuật mới

avatar
Decrypt
09-28
Bài viết này được dịch máy
Xem bản gốc

Tuần này, Google DeepMind đã ra mắt hai mô hình AI nhằm mục đích giúp robot thông minh hơn bao giờ hết. Thay vì tập trung vào việc theo dõi các bình luận, Gemini Robotics 1.5 được cập nhật và Gemini Robotics-ER 1.5 đi kèm cho phép robot suy nghĩ về các vấn đề, tìm kiếm thông tin trên internet và truyền đạt kỹ năng giữa các robot khác nhau.

Theo Google, những mô hình này đánh dấu "bước nền tảng có thể điều hướng sự phức tạp của thế giới vật chất bằng trí thông minh và sự khéo léo"

"Gemini Robotics 1.5 đánh dấu một cột mốc quan trọng hướng tới việc giải quyết AGI trong thế giới vật lý", Google cho biết trong thông báo. "Bằng cách giới thiệu các khả năng của tác nhân, chúng tôi đang vượt ra khỏi những mô hình phản ứng với các lệnh và tạo ra các hệ thống thực sự có thể suy luận, lập kế hoạch, chủ động sử dụng công cụ và khái quát hóa."

Và thuật ngữ “tổng quát hóa” này rất quan trọng vì các mô hình gặp khó khăn khi sử dụng nó.

Robot được trang bị những mô hình này giờ đây có thể xử lý các nhiệm vụ như phân loại quần áo theo màu sắc, đóng gói vali dựa trên dự báo thời tiết tìm thấy trên mạng, hoặc kiểm tra quy định tái chế tại địa phương để vứt rác đúng cách. Giờ đây, với tư cách là con người, bạn có thể tự hỏi: "Ồ, vậy thì sao?". Nhưng để làm được điều này, máy móc cần một kỹ năng gọi là khái quát hóa - khả năng áp dụng kiến ​​thức vào các tình huống mới.

Robot và các thuật toán nói chung thường gặp khó khăn với vấn đề này. Ví dụ, nếu bạn dạy một mô hình gấp một chiếc quần, nó sẽ không thể gấp một chiếc áo phông trừ khi các kỹ sư đã lập trình trước từng bước.

Các mô hình mới đã thay đổi điều đó. Chúng có thể nhận biết tín hiệu, đọc môi trường, đưa ra những giả định hợp lý và thực hiện các tác vụ nhiều bước mà trước đây nằm ngoài tầm với - hoặc ít nhất là cực kỳ khó khăn - đối với máy móc.

Nhưng tốt hơn không có nghĩa là hoàn hảo. Ví dụ, trong một thí nghiệm, nhóm nghiên cứu đã cho robot xem một bộ đồ vật và yêu cầu chúng bỏ chúng vào đúng thùng rác. Robot đã sử dụng camera để nhận dạng trực quan từng món đồ, tìm kiếm hướng dẫn tái chế mới nhất của San Francisco trên mạng, rồi tự động đặt chúng vào đúng nơi cần đến, giống như cách người dân địa phương vẫn làm.

Quá trình này kết hợp tìm kiếm trực tuyến, nhận thức trực quan và lập kế hoạch từng bước - đưa ra các quyết định dựa trên ngữ cảnh vượt xa khả năng của những robot cũ. Tỷ lệ thành công được ghi nhận là từ 20% đến 40%; không lý tưởng, nhưng đáng ngạc nhiên đối với một mô hình chưa bao giờ có thể hiểu được những sắc thái đó.

Google biến robot thành siêu robot như thế nào

Hai mô hình này phân chia công việc. Gemini Robotics-ER 1.5 hoạt động như một bộ não, xác định những gì cần phải xảy ra và lập kế hoạch từng bước. Nó có thể gọi Google Tìm kiếm khi cần thông tin. Khi đã có kế hoạch, nó sẽ chuyển các lệnh bằng ngôn ngữ tự nhiên cho Gemini Robotics 1.5, bộ phận xử lý các chuyển động vật lý thực tế.

Nói về mặt kỹ thuật, Gemini Robotics 1.5 mới là mô hình ngôn ngữ-thị giác-hành động (VLA) biến thông tin và hướng dẫn trực quan thành lệnh vận động, trong khi Gemini Robotics-ER 1.5 mới là mô hình ngôn ngữ-thị giác (VLM) tạo ra các kế hoạch nhiều bước để hoàn thành nhiệm vụ.

Ví dụ, khi một robot phân loại quần áo, nó tự động suy luận thông qua nhiệm vụ bằng một chuỗi suy nghĩ: hiểu rằng "phân loại theo màu sắc" nghĩa là quần áo trắng sẽ được bỏ vào một thùng và quần áo màu sẽ được bỏ vào một thùng khác, sau đó phân tích các chuyển động cụ thể cần thiết để nhặt từng món đồ. Robot có thể giải thích lý do bằng tiếng Anh đơn giản, giúp việc ra quyết định trở nên dễ dàng hơn.

CEO Google, Sundar Pichai, cũng đồng tình với X, lưu ý rằng các mô hình mới sẽ cho phép robot suy luận tốt hơn, lập kế hoạch trước, sử dụng các công cụ kỹ thuật số như tìm kiếm và chuyển giao kiến ​​thức từ loại robot này sang loại robot khác. Ông gọi đây là "bước tiến lớn tiếp theo của Google hướng tới những robot đa năng thực sự hữu ích".

Các mô hình Gemini Robotics 1.5 mới sẽ cho phép robot suy luận tốt hơn, lập kế hoạch trước, sử dụng các công cụ kỹ thuật số như Tìm kiếm và chuyển giao kiến ​​thức từ loại robot này sang loại robot khác. Bước tiến lớn tiếp theo của chúng tôi hướng tới những robot đa năng thực sự hữu ích — bạn có thể thấy robot suy luận như thế nào… pic.twitter.com/kw3HtbF6Dd

– Sundar Pichai (@sundarpichai) Ngày 25 tháng 9 năm 2025

Bản phát hành này đặt Google vào vị trí nổi bật cùng với các nhà phát triển như Tesla, Figure AI và Boston Dynamics, mặc dù mỗi công ty có những cách tiếp cận khác nhau. Tesla tập trung vào sản xuất hàng loạt cho các nhà máy của mình, với lời hứa của Elon Musk rằng sẽ có hàng nghìn chiếc vào năm 2026. Boston Dynamics tiếp tục vượt qua giới hạn của khả năng vận động của robot với Atlas lộn ngược. Trong khi đó, Google đặt cược vào AI giúp robot có thể thích ứng với mọi tình huống mà không cần lập trình cụ thể.

Thời điểm rất quan trọng. Các công ty robot Mỹ đang thúc đẩy một chiến lược robot quốc gia, bao gồm việc thành lập một văn phòng liên bang tập trung vào việc thúc đẩy ngành công nghiệp này, trong bối cảnh Trung Quốc đang đặt AI và robot thông minh lên hàng ưu tiên quốc gia. Trung Quốc là thị trường lớn nhất thế giới về robot làm việc trong nhà máy và các môi trường công nghiệp khác, với khoảng 1,8 triệu robot hoạt động vào năm 2023, theo Liên đoàn Robot Quốc tế có trụ sở tại Đức.

Cách tiếp cận của DeepMind khác với lập trình robot truyền thống, nơi các kỹ sư tỉ mỉ mã hóa từng chuyển động. Thay vào đó, các mô hình này học hỏi từ việc trình diễn và có thể thích ứng tức thời. Nếu một vật thể trượt khỏi tay robot hoặc ai đó di chuyển vật gì đó giữa chừng, robot sẽ tự động điều chỉnh mà không hề bị gián đoạn.

Các mô hình này được xây dựng dựa trên công trình trước đó của DeepMind từ tháng 3, khi robot chỉ có thể xử lý các nhiệm vụ đơn lẻ như mở khóa túi hoặc gấp giấy. Giờ đây, chúng đang xử lý những chuỗi nhiệm vụ mà con người khó có thể làm được - chẳng hạn như đóng gói hành lý phù hợp cho một chuyến đi sau khi xem dự báo thời tiết.

Đối với các nhà phát triển muốn thử nghiệm, có một phương pháp tiếp cận phân chia về tính khả dụng. Gemini Robotics-ER 1.5 đã ra mắt hôm thứ Năm thông qua API Gemini trong Google AI Studio, nghĩa là bất kỳ nhà phát triển nào cũng có thể bắt đầu xây dựng với mô hình lý luận. Mô hình hành động, Gemini Robotics 1.5, vẫn chỉ dành riêng cho các đối tác "được chọn" (có thể là "giàu có").

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
47
Thêm vào Yêu thích
17
Bình luận