Thứ khiến cửa sổ trò chuyện ChatGPT bị lỗi chính là "chuột".

Bài viết này được dịch máy
Xem bản gốc

Tại San Francisco năm 1968, nhà khoa học máy tính Douglas Engelbart đã giới thiệu một loài mới với thế giới tại một sự kiện ra mắt sau này được biết đến với tên gọi "The Mother of All Demos" (Mẹ của mọi màn trình diễn), trên tay ông là một chiếc hộp gỗ nhỏ có hai bánh xe kim loại.

Đó là lần con người công khai sử dụng chuột để điều khiển con trỏ kỹ thuật số trên màn hình. Trong những thập kỷ sau đó, mũi tên nhỏ bé này trở nên phổ biến rộng rãi. Nó xuất hiện trên phần mềm văn phòng, giao diện trò chơi, cửa sổ trình duyệt và vô số bảng tính, trở thành công cụ dẫn đường quen thuộc nhưng thầm lặng nhất của nhân loại khi chúng ta bước vào thế giới kỹ thuật số.

Tuy nhiên, trong nửa thế kỷ qua, tỷ lệ băm, hình thức và các kịch bản ứng dụng của máy tính hầu như đã thay đổi, nhưng bản chất của con trỏ chuột hầu như không thay đổi: nó biết tọa độ của mình trên màn hình, biết tọa độ X và Y, nhưng không biết bạn đang trỏ vào một dòng mã, một hóa đơn hay một bức ảnh phong cảnh.

Đối diện những điểm ảnh liên tục nhấp nháy, nó chỉ có thể thực hiện những thao tác rất cơ bản: nhấn, kéo và chờ lần nhấn tiếp theo.

Hôm nay, Google sẽ tái tạo lại con trỏ chuột với Gemini .

Tại sự kiện Android Show vừa kết thúc, Google đã trình bày gần như toàn bộ kế hoạch của mình liên quan đến Android, trí tuệ nhân tạo (AI) và hệ sinh thái phần cứng. Trong đó, một tính năng mới có tên " Magic Pointer " (Con trỏ thần kỳ)赋予 con trỏ chuột "mắt" và "não".

Ý định của Google rất rõ ràng: tương tác AI trong tương lai không nên dựa vào những lời nhắc dài dòng, mà chỉ cần chỉ vào màn hình và nói, "Di chuyển cái này sang đó," giống như trong đời thực. Vậy câu hỏi đặt ra là, khi con trỏ chuột cuối cùng học được cách "hiểu" màn hình, nó sẽ dẫn dắt tương tác giữa người và máy tính đến đâu?

Mũi tên AI có mắt mở này có thể làm được gì?

Để hiểu được tầm quan trọng của công nghệ này, trước tiên chúng ta phải xem xét khía cạnh khó khăn nhất của các công cụ AI hiện nay: chi phí tương tác.

Trong vài năm qua, khả năng của các mô hình ngôn ngữ quy mô lớn đã tăng vọt, nhưng rào cản gia nhập để sử dụng chúng vẫn còn cao. Để AI hiểu chính xác ý định, người dùng buộc phải học một "kỹ thuật từ khóa gợi ý" phức tạp: thiết lập nhân vật, thêm bối cảnh và giới hạn định dạng đầu ra. Việc viết những bài luận ngắn vài trăm từ cho một yêu cầu đơn giản là điều phổ biến.

Hơn nữa, các công cụ AI điển hình thường chạy trên các trang web hoặc cửa sổ ứng dụng riêng biệt, thường xuyên làm gián đoạn quy trình làm việc của người dùng. Ví dụ, khi bạn đang đọc một tệp PDF 50 trang và muốn AI tạo biểu đồ, bạn thường cần thực hiện các bước sau: chụp ảnh màn hình -> lưu -> mở trình duyệt -> truy cập trang web của AI -> tải ảnh lên -> nhập từ khóa yêu cầu.

Google gọi thao tác chuyển đổi giữa các ứng dụng rườm rà này là "các đường vòng AI". Kiểu chuyển đổi này không chỉ kém hiệu quả mà còn dễ làm gián đoạn sự tập trung của người dùng, hay còn gọi là trạng thái "dòng chảy".

Để đạt được mục tiêu này, nguyên tắc tương tác đầu tiên của Google là "dòng chảy". Trong nguyên mẫu con trỏ AI thử nghiệm của họ, khả năng của AI không còn bị giới hạn ở một ứng dụng hoặc trang web cụ thể, mà được gắn liền với con trỏ chuột, sẵn sàng được sử dụng bất cứ lúc nào.

Phương pháp kích hoạt cũng được tối giản hóa : không cần phải nhớ bất kỳ phím tắt nào; chỉ cần "lắc" chuột, giao diện AI sẽ tự động xuất hiện dựa trên nội dung đang được di chuột, cung cấp các gợi ý thao tác theo ngữ cảnh cao. Chọn một hình ảnh sẽ hỏi bạn có muốn "so sánh" hay không; di chuột qua một đoạn văn sẽ chủ động đưa ra các giải pháp chỉnh sửa.

Toàn bộ quá trình không cần hướng dẫn và hoàn toàn dựa vào trực giác. Hãy cùng xem xét một vài tình huống cực kỳ trực quan:

Đầu tiên, đó là hình thức mô tả hình ảnh tối ưu nhất.

Khi xem ảnh phong cảnh thành phố dạng hoạt hình, chuột truyền thống chỉ cho phép bạn nhấn và phóng to. Nhưng giờ đây, bạn chỉ cần di chuột AI đến một tòa nhà ở bối cảnh bức ảnh và nói vào micro, "Di chuyển yếu tố này của hình ảnh đến đây."

Không cần phải giải thích "nơi này" là ai, hay mô tả hình dáng của tòa nhà. Con trỏ AI sẽ trực tiếp hiểu điểm ảnh bạn đang chỉ vào, xác định phần tử tương ứng và di chuyển thành công.

Trước đây, chuột chỉ có thể cho hệ thống biết "tôi đã nhấp chuột vào đâu"; giờ đây, nó đã bắt đầu cho hệ thống biết "tôi đang muốn nói đến cái gì".

Thứ hai, hãy sử dụng ít từ ngữ mở đầu hơn và nhiều lời dẫn dắt tự nhiên hơn.

Khi bạn nhìn lên một công thức làm bánh cực kỳ phức tạp trên trang web, bạn không cần phải sao chép và dán, cũng không cần phải viết những câu như "Vui lòng nhân đôi tất cả lượng nguyên liệu trong công thức sau." Bạn chỉ cần bôi đen đoạn văn bản đó và nói một cách tự nhiên, "Nhân đôi lượng 'những thứ này'."

Chỉ trong nháy mắt, trí tuệ nhân tạo đã viết lại một công thức nấu ăn mới dành riêng cho bạn ngay tại chỗ.

Thứ ba, chuyển đổi các điểm ảnh thành các thực thể tương tác.

Đối với máy tính, màn hình chỉ là vài triệu điểm ảnh phát sáng. Nhưng con trỏ AI có thể biến những điểm ảnh tĩnh đó thành những thực thể sống động.

Ví dụ, bạn đang xem một vlog du lịch, và một nhà hàng trông tuyệt vời bất ngờ xuất hiện trong video. Bạn tạm dừng video, di chuột đến nhà hàng đó, và video vốn dĩ tĩnh lặng trước đó lập tức biến thành một địa điểm thực tế, có thể tương tác, với đường dẫn đặt chỗ của nhà hàng hiện lên bên cạnh.

Ví dụ, bạn tình cờ chụp ảnh một mẩu giấy ghi chú đầy những nét vẽ nguệch ngoạc, và chỉ với một cú nhấp chuột, mực vẽ sẽ biến thành một danh sách việc cần làm được đánh dấu tích. Bạn có nhận thấy điều gì không? Trước đây, bạn phải tìm kiếm AI; giờ đây, AI theo sát chuột của bạn và ngoan ngoãn đến ngay dưới đầu ngón tay bạn.

Loại bỏ các lời nhắc của AI, quay trở lại với trực giác của con người.

Khi xem xét kỹ hơn, công cụ giao tiếp mạnh mẽ nhất của nhân loại thực chất lại là đại từ nhân xưng.

Khi bạn và các đồng nghiệp đang ngồi trước màn hình để chỉnh sửa thiết kế, bạn sẽ không bao giờ nói bằng giọng rõ ràng, rành mạch rằng: "Vui lòng di chuyển hình chữ nhật màu xanh ở góc trên bên trái màn hình (X:120, Y:350) sang phải 50 pixel." Thay vào đó, bạn chỉ cần chỉ vào màn hình và nói:

"Dịch chuyển cái này sang phải một chút và pha loãng nó đi."

"Nhà hàng đó trông đẹp quá, làm sao để đến đó được?"

Thông báo lỗi này trong mã nguồn có nghĩa là gì?

Trong cuộc sống hàng ngày, chúng ta phụ thuộc rất nhiều vào "cái này" và "cái kia". Cử chỉ kết hợp với ngôn ngữ nói tối thiểu là mã giao tiếp hiệu quả nhất của con người. Lý do là vì chúng ta sống trong cùng một không gian vật lý và chia sẻ cùng một bối cảnh thị giác.

Google đã nắm bắt được điểm này một cách tinh tế và chắt lọc nó thành một nguyên tắc sản phẩm: Hãy tận dụng sức mạnh của "Cái này" và "Cái kia".

Thay vì ép buộc con người phải học các khung từ ngữ gợi ý phức tạp, chúng ta nên làm điều ngược lại: loại bỏ công việc khó nhọc là thể hiện ý định khỏi chúng ta và để máy móc thích nghi với những "cử chỉ" lười biếng và bản năng nhất của con người.

Tin vui là phương thức tương tác này đã được triển khai. Gemini trên trình duyệt Chrome là ứng dụng đầu tiên hỗ trợ tính năng này bắt đầu từ hôm nay; dòng sản phẩm máy tính xách tay Googlebook mới ra mắt của Google đã tích hợp trực tiếp "Magic Pointer" vào hệ điều hành, bao gồm tất cả các ứng dụng.

Tham vọng của GoogleBook không chỉ dừng lại ở một con chuột. Google định nghĩa dòng sản phẩm này là "người bạn đồng hành hoàn hảo cho điện thoại Android".

Tương tự như tính năng phản chiếu màn hình iPhone của Apple, người dùng có thể dễ dàng chiếu các ứng dụng Android lên màn hình chính Google Book, chạy chúng ở tỷ lệ khung hình gốc và tự do điều hướng giữa các thiết bị trong trình quản lý tập tin, hoàn toàn phá vỡ rào cản hệ sinh thái giữa điện thoại, máy tính bảng và máy tính xách tay. Hơn nữa, Gemini có thể tạo các tiện ích động tùy chỉnh trên màn hình chính khi cần (chẳng hạn như thẻ thông tin chuyến bay theo thời gian thực của hành khách).

Về thiết kế phần cứng, tất cả các mẫu Googlebook tích hợp dải đèn "Glowbar" trên thân máy, giúp bạn dễ dàng phân biệt chúng với Chromebook truyền thống hoặc máy tính xách tay chạy Windows chỉ bằng một cái nhìn.

Lô máy tính xách tay Google đầu tiên sẽ được sản xuất bởi Acer, Asus, Dell, HP và Lenovo, và dự kiến ​​sẽ có mặt trên thị trường vào mùa thu năm nay.

Điều thú vị là Samsung lại vắng mặt trong danh sách này. Các báo cáo gần đây cho thấy Samsung có thể đang chuẩn bị ra mắt một chiếc laptop Galaxy chạy hệ điều hành mới của Google, và sự kiện Unpacked tiếp theo của hãng được đồn đoán sẽ diễn ra vào ngày 22 tháng 7.

Về phần lõi vận hành cốt lõi, mặc dù Google không nêu tên, nhưng sự nhấn mạnh xuyên suốt bài viết vào "một hệ điều hành hiện đại được sinh ra cho trí tuệ nhân tạo" và sự tích hợp độ sâu giữa Android và ChromeOS đều hướng đến hệ thống "Aluminum" đã được đồn đoán từ lâu.

Điều này có nghĩa là trí tuệ nhân tạo (AI) đang dần trở thành một phần cơ sở hạ tầng ở cấp độ hệ điều hành. Và khi AI thực sự trở thành con trỏ chuột của bạn, nó sẽ có quyền can thiệp vào mọi thứ — những gì bạn thấy chính là những gì bạn nhận được, những gì bạn trỏ vào chính là những gì bạn điều khiển.

Tương tác giữa trí tuệ nhân tạo và máy tính đang đứng trước ngã rẽ.

Nhìn lại năm 1968, con chuột máy tính đầu tiên làm kinh ngạc cả thế giới có một chức năng vô cùng đơn giản: theo dõi vị trí. Trong suốt năm mươi năm qua, chuột máy tính đã được cải tiến với bánh xe cuộn, nút bên hông, thậm chí cả quạt và tạ, nhưng linh hồn của nó vẫn là một trang giấy trắng: nó đánh dấu chính xác tọa độ, nhưng không bao giờ có thể hiểu được ý nghĩa đằng sau những tọa độ đó.

Con trỏ AI của Google đã đạt được một bước tiến chưa từng có trong lịch sử tương tác: nó không chỉ biết bạn đang ở đâu mà còn biết bạn đang ở đâu.

Trong năm qua, vô số công ty khởi nghiệp đã huy động được vốn và tranh giành nhau để tạo ra "cổng thông tin siêu việt tiếp theo cho kỷ nguyên AI". Tất cả đều tập trung cao độ vào tính chân thực của hộp thoại và sự phức tạp của quy trình làm việc của trợ lý ảo. Nhưng Google lần đã cho toàn bộ ngành công nghiệp một bài học cay đắng:

Công nghệ tốt nhất là gì? Đó là ảnh hưởng tinh tế, lan tỏa. Hộp trò chuyện không bao giờ là hình thức cuối cùng của trí tuệ nhân tạo; chúng chỉ là một sự thỏa hiệp trong giai đoạn chuyển tiếp. Trí tuệ nhân tạo tốt nhất nên hoạt động ngầm, trở thành cơ sở hạ tầng được tích hợp vào các hoạt động hàng ngày của bạn, chứ không chỉ là một ứng dụng riêng biệt cần phải mở ra.

Từ giao diện dòng lệnh (CLI) với chữ đen trên nền trắng, đến giao diện người dùng đồ họa (GUI) với nhấn chuột, và sau đó là thao tác vuốt trên màn hình cảm ứng trong kỷ nguyên di động (NUI), các mô hình ngôn ngữ lớn đã đưa chúng ta trở lại thời kỳ giao tiếp bằng bàn phím trong vài năm qua, khiến vô số người phải chịu đựng chứng "lo lắng khi gõ lệnh".

Nhưng sau ngày hôm nay, chúng ta biết rằng đó chỉ là một sự chuyển hướng trước bình minh. Trí tuệ nhân tạo thực sự hữu ích cuối cùng phải học cách suy nghĩ như con người: hiểu từng ánh nhìn của bạn và nắm bắt từng câu lệnh "đặt cái này ở đó" mà bạn nói.

Cách đây 58 năm, khi Douglas Engelbart cầm con chuột gỗ đơn giản đó, ước mơ lớn nhất của ông là "nâng cao trí thông minh của con người".

Năm mươi tám năm sau, khi trí tuệ nhân tạo được tích hợp vào công nghệ cổ xưa này, máy móc cuối cùng cũng bắt đầu thực sự "hiểu" thế giới. Kỷ nguyên của những kỹ sư chỉ biết làm theo thao tác nhanh đang đi đến hồi kết, và vòng lặp khép kín tối ưu của tương tác giữa con người và máy tính sẽ có một bước tiến lịch sử với mỗi từ ngữ mơ hồ như "cái này" và "cái kia".

Đây là đường dẫn trải nghiệm:

https://aistudio.google.com/apps/bundled/ai-pointer-create?showPreview=true&showAssistant=true&fullscreenApplet=true

https://aistudio.google.com/apps/bundled/ai-pointer-find?showPreview=true&showAssistant=true&fullscreenApplet=true

Bài viết này được đăng tải từ tài khoản chính thức WeChat "APPSO" , do Discover Tomorrow's Products biên soạn và được xuất bản với sự cho phép của 36Kr.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận