Anthropic muốn AI Agent của mình điều khiển máy tính của bạn

avatar
WIRED
9 giờ trước
Bài viết này được dịch máy
Xem bản gốc

Mất một thời gian để mọi người thích nghi với ý tưởng về các bot trò chuyện dường như có tâm trí riêng của chúng. Bước nhảy vào vùng đất mới có thể liên quan đến việc tin tưởng trí tuệ nhân tạo để kiểm soát máy tính của chúng ta.

Anthropic, một đối thủ đang lên của OpenAI, hôm nay đã thông báo rằng họ đã dạy mô hình AI Claude của mình thực hiện một loạt các tác vụ trên máy tính, bao gồm tìm kiếm trên web, mở các ứng dụng và nhập văn bản bằng chuột và bàn phím.

"Tôi nghĩ rằng chúng ta sẽ bước vào một kỷ nguyên mới, nơi một mô hình có thể sử dụng tất cả các công cụ mà bạn sử dụng như một cá nhân để hoàn thành các nhiệm vụ," Jared Kaplan, giám đốc khoa học trưởng tại Anthropic và là giáo sư phó tại Đại học Johns Hopkins, nói.

Kaplan đã trình diễn cho WIRED một video trước đó, trong đó một phiên bản "có tác nhân" - hoặc sử dụng công cụ - của Claude đã được yêu cầu giúp lập kế hoạch cho một chuyến đi xem bình minh tại Cầu Cổng Vàng với một người bạn. Đáp lại lời nhắc, Claude đã mở trình duyệt web Chrome, tìm kiếm thông tin liên quan trên Google, bao gồm địa điểm lý tưởng để xem và thời gian tối ưu để có mặt tại đó, sau đó sử dụng một ứng dụng lịch để tạo một sự kiện để chia sẻ với một người bạn (Nó không bao gồm thêm hướng dẫn, chẳng hạn như đường đi nào để đến đó trong thời gian ngắn nhất.)

Trong một demo thứ hai, Claude được yêu cầu xây dựng một trang web đơn giản để quảng bá bản thân. Trong một khoảnh khắc siêu thực, mô hình đã nhập một lời nhắc văn bản vào giao diện web của chính nó để tạo ra mã cần thiết. Sau đó, nó sử dụng Visual Studio Code, một trình chỉnh sửa mã phổ biến do Microsoft phát triển, để viết một trang web đơn giản và mở một terminal văn bản để khởi động một máy chủ web đơn giản để kiểm tra trang web. Trang web cung cấp một trang đích có chủ đề những năm 1990 cho mô hình AI. Khi người dùng yêu cầu nó sửa lỗi trên trang web kết quả, mô hình quay lại trình chỉnh sửa, xác định đoạn mã gây lỗi và xóa nó.

Mike Krieger, giám đốc sản phẩm trưởng tại Anthropic, cho biết công ty hy vọng rằng những gọi là tác nhân AI sẽ tự động hóa các nhiệm vụ văn phòng thông thường và giải phóng mọi người để họ có thể năng suất hơn trong các lĩnh vực khác. "Bạn sẽ làm gì nếu bạn loại bỏ một số giờ sao chép và dán hoặc bất cứ điều gì bạn đang làm?" anh nói. "Tôi sẽ đi chơi guitar nhiều hơn."

Anthropic đang cung cấp các khả năng tác nhân thông qua giao diện lập trình ứng dụng (API) của mình cho mô hình ngôn ngữ lớn đa phương thức mạnh nhất của họ, Claude 3.5 Sonnet, từ hôm nay. Công ty cũng đã công bố một phiên bản mới và cải thiện của một mô hình nhỏ hơn, Claude 3.5 Haiku, hôm nay.

Các demo về tác nhân AI có thể trông rất ấn tượng, nhưng việc khiến công nghệ hoạt động đáng tin cậy và không gây phiền toái hoặc tốn kém trong cuộc sống thực là một thách thức. Các mô hình hiện tại có thể trả lời câu hỏi và trò chuyện với kỹ năng gần như con người và là cốt lõi của các bot trò chuyện như ChatGPT của OpenAI và Gemini của Google. Chúng cũng có thể thực hiện các tác vụ trên máy tính khi được đưa ra một lệnh đơn giản bằng cách truy cập màn hình máy tính cũng như các thiết bị nhập như bàn phím và bàn di chuột hoặc thông qua các giao diện phần mềm cấp thấp.

Anthropic cho biết Claude vượt trội hơn các tác nhân AI khác trên nhiều thước đo chính, bao gồm SWE-bench, đo lường kỹ năng phát triển phần mềm của một tác nhân và OSWorld, đánh giá khả năng sử dụng hệ điều hành máy tính của một tác nhân. Các tuyên bố này vẫn chưa được xác minh độc lập. Anthropic cho biết Claude thực hiện các tác vụ trong OSWorld chính xác 14,9% số lần. Điều này thấp hơn nhiều so với con người, những người thường đạt khoảng 75%, nhưng cao hơn đáng kể so với các tác nhân tốt nhất hiện tại, bao gồm GPT-4 của OpenAI, thành công khoảng 7,7% số lần.

Anthropic cho biết một số công ty đang thử nghiệm phiên bản tác nhân của Claude. Điều này bao gồm Canva, sử dụng nó để tự động hóa các tác vụ thiết kế và chỉnh sửa và Replit, sử dụng mô hình này cho các công việc lập trình. Những người dùng sớm khác bao gồm The Browser Company, AsanaNotion.

Ofir Press, một nhà nghiên cứu sau tiến sĩ tại Đại học Princeton đã giúp phát triển SWE-bench, cho biết các tác nhân AI có xu hướng thiếu khả năng lập kế hoạch xa và thường gặp khó khăn trong việc khôi phục sau các lỗi. "Để chứng minh rằng chúng hữu ích, chúng ta phải đạt được hiệu suất mạnh mẽ trên các thử nghiệm khó và thực tế," ông nói, như lập kế hoạch đáng tin cậy cho một loạt các chuyến đi cho người dùng và đặt vé cho tất cả các chuyến đi cần thiết.

Kaplan lưu ý rằng Claude đã có thể khắc phục một số lỗi một cách đáng ngạc nhiên. Khi gặp lỗi terminal khi cố gắng khởi động một máy chủ web, ví dụ, mô hình biết cách sửa lại lệnh của mình để khắc phục. Nó cũng đã tìm ra rằng nó phải bật các pop-up khi gặp phải một ngõ cụt khi duyệt web.

Nhiều công ty công nghệ hiện đang cạnh tranh để phát triển các tác nhân AI vì họ đuổi theo thị phần và danh tiếng. Thực tế, có thể không lâu nữa nhiều người dùng sẽ có các tác nhân trong tầm tay. Microsoft, đã đổ hơn 13 tỷ đô la vào OpenAI, cho biết họ đang thử nghiệm các tác nhân có thể sử dụng máy tính Windows. Amazon, đã đầu tư mạnh vào Anthropic, đang khám phá cách các tác nhân có thể đề xuất và cuối cùng mua hàng cho khách hàng của họ.

Sonya Huang, một đối tác tại công ty đầu tư mạo hiểm Sequoia chuyên về các công ty AI, cho biết với tất cả sự phấn khích xung quanh các tác nhân AI, hầu hết các công ty thực sự chỉ đang đổi tên các công cụ được hỗ trợ bởi AI. Nói chuyện với WIRED trước tin tức của Anthropic, cô nói rằng công nghệ này hoạt động tốt nhất hiện nay khi được áp dụng trong các lĩnh vực hẹp như công việc liên quan đến lập trình. "Bạn cần chọn những không gian vấn đề mà nếu mô hình thất bại, điều đó cũng được," cô nói. "Đó là những không gian vấn đề nơi các công ty bản địa thực sự tác nhân sẽ xuất hiện."

Một thách thức chính với AI tác nhân là các lỗi có thể nghiêm trọng hơn nhiều so với một câu trả lời bot lộn xộn. Anthropic đã áp đặt một số ràng buộc nhất định đối với những gì Claude có thể làm, ví dụ như hạn chế khả năng sử dụng thẻ tín dụng của một người để mua đồ.

Nếu các lỗi có thể được tránh đủ tốt, Press của Đại học Princeton nói, người dùng có thể học cách nhìn nhận AI - và máy tính - theo một cách hoàn toàn mới. "Tôi rất phấn khích về kỷ nguyên mới này," ông nói.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
1
Thêm vào Yêu thích
1
Bình luận