Amazon vẫn được coi là một phần chậm chạp trong cuộc đua phát triển trí tuệ nhân tạo tiên tiến, nhưng nó đã âm thầm tạo ra một phòng thí nghiệm đang thiết lập các kỷ lục về hiệu suất AI. Phòng thí nghiệm AGI SF của Amazon, nằm ở San Francisco và dành riêng để xây dựng trí tuệ nhân tạo tổng quát, hay AI vượt quá khả năng của con người, đã tiết lộ những kết quả đầu tiên của mình ngày hôm nay: Một mô hình AI mới có khả năng cung cấp năng lực cho một số tác nhân AI tiên tiến nhất hiện có.
Mô hình mới, được gọi là Amazon Nova Act, vượt trội hơn các mô hình của OpenAI và Anthropic ở một số điểm chuẩn được thiết kế để đánh giá trí thông minh và năng lực của các tác nhân AI, Amazon cho biết. Trên các điểm chuẩn GroundUI Web và ScreenSpot, Amazon Nova Act hoạt động tốt hơn Claude 3.7 Sonnet và Tác nhân Sử dụng Máy tính OpenAI. Một phần quan trọng trong kế hoạch cạnh tranh trên thị trường AI của Amazon là tập trung xây dựng các tác nhân, và khả năng của mô hình mới phản ánh nỗ lực của họ trong việc xây dựng một thế hệ công cụ có thể đáp ứng được những tiêu chuẩn tốt nhất hiện có.
"Tôi tin rằng đơn vị tính toán cơ bản trong tương lai sẽ là một lệnh gọi đến một tác nhân [AI] khổng lồ," David Luan, người đứng đầu phòng thí nghiệm AGI SF của Amazon, cho biết. Ông trước đây là phó chủ tịch kỹ thuật tại OpenAI và sau đó đồng sáng lập Adept, một startup tiên phong trong công việc về các tác nhân AI, trước khi gia nhập Amazon vào năm 2024 khi gã thương mại điện tử này nắm cổ phần trong công ty.
Hầu hết các phòng thí nghiệm AI hàng đầu hiện nay đều tập trung vào việc xây dựng các tác nhân AI ngày càng có năng lực. Việc làm cho AI thành thạo các hành động độc lập, cũng như khả năng giao tiếp, hứa hẹn sẽ làm cho công nghệ này hữu ích và có giá trị hơn. Tuy nhiên, sự chuyển đổi từ trò chuyện sang hành động vẫn còn đang trong quá trình phát triển.
Trong sáu tháng qua, OpenAI, Anthropic, Google và những công ty khác đã chứng minh các tác nhân duyệt web thực hiện các hành động đáp ứng một lời nhắc. Nhưng phần lớn, những tác nhân này vẫn còn không đáng tin và dễ bị sai lệch bởi các yêu cầu mở.
Luan cho biết mục tiêu của Amazon là xây dựng các tác nhân AI đáng tin cậy hơn là ấn tượng. Điều ngăn cản các tác nhân không phải là nhu cầu về "nhiều bản demo thú vị hoạt động 60% thời gian, mà là vấn đề Waymo," ông nói, đề cập đến việc các xe tự lái cần được đào tạo để xử lý các trường hợp ngoại lệ không thường xuyên trước khi có thể lăn bánh không giám sát.
Nhiều tác nhân được xây dựng bằng cách kết hợp các mô hình ngôn ngữ lớn với nhiều quy tắc do con người viết để ngăn chúng lệch khỏi hướng, nhưng cũng làm cho hành vi của chúng trở nên mỏng manh. Amazon Nova Act là phiên bản của mô hình tự phát triển mạnh nhất của công ty, Amazon Nova, đã nhận được đào tạo bổ sung để giúp nó đưa ra quyết định về các hành động cần thực hiện và thời điểm thực hiện. Nói chung, Luan cho biết, các mô hình AI gặp khó khăn trong việc quyết định khi nào nên can thiệp vào một nhiệm vụ.
Để cải thiện khả năng tác nhân của Nova, Amazon đang sử dụng học tăng cường, một phương pháp đã giúp các mô hình AI khác mô phỏng tốt hơn khả năng suy luận.
Amazon cũng đang lấy cảm hứng từ các robot vật lý với các mô hình mới của mình. Nhóm của Laun đang làm việc với một nhóm khác tại Amazon ở San Francisco do Pieter Abbeel, giáo sư tại Đại học California, Berkeley, lãnh đạo, người nghiên cứu về việc tìm các ứng dụng AI cho robotics. Abbeel, một nhân viên OpenAI ban đầu khác, đã gia nhập Amazon vào tháng 8 năm 2024 sau khi đầu tư vào startup của ông, Covariant. Amazon được định vị tốt để tiến bộ trong lĩnh vực robotics với số lượng lớn robot đã triển khai tại các trung tâm logistics của mình.
Việc phát hành Amazon Nova Act cho thấy Amazon có thể trở thành một đối thủ bất ngờ trong cuộc đua tạo ra các tác nhân phần mềm hữu ích. Công ty đã chậm chạp trong việc đáp ứng ChatGPT, nhưng gần đây đã cho thấy dấu hiệu của việc tập hợp lại. Vào tháng Hai, công ty đã công bố phiên bản mới của trợ lý giọng nói Alexa với khả năng hội thoại được cải thiện cũng như khả năng tự động hóa một số nhiệm vụ web.
Một Use Case mà Amazon đã trích dẫn là Alexa giúp đặt dịch vụ sửa chữa cho một chiếc lò nướng bị hỏng. Luan cho biết các khả năng tác nhân mới của Alexa đã được phát triển bởi nhóm của ông.
Như WIRED đã tiết lộ vào tháng Mười năm ngoái, Amazon cũng đã nghiên cứu về cách thức các tác nhân có thể cải thiện thương mại điện tử bằng cách tự động hóa quá trình tìm kiếm và mua sắm. Các kỹ sư của Amazon cho biết một tác nhân như vậy có thể chủ động thêm các mặt hàng vào giỏ hàng của người dùng dựa trên sở thích và thói quen của họ.
Ngoài việc giới thiệu mô hình mới, Amazon hôm nay đã công bố Bộ phát triển phần mềm (SDK) được thiết kế để giúp các kỹ sư máy tính dễ dàng sử dụng Amazon Nova Act để xây dựng các tác nhân phần mềm. SDK cho phép các nhà phát triển cung cấp cho tác nhân của mình các hướng dẫn cụ thể để giúp chúng điều hướng trên internet được xây dựng cho người dùng. Ví dụ, một tác nhân có thể được hướng dẫn "không chấp nhận việc bán bảo hiểm bổ sung" khi đặt xe thuê.
Cuối cùng, Luan cho biết, các tác nhân của Amazon sẽ trở nên đủ thông minh để không sa vào việc bán bổ sung. "Nova Act thực sự giống như bước đầu tiên trong tầm nhìn đó," ông nói.




