Gần một thập kỷ trước, Google đã giới thiệu một tính năng có tên Now on Tap trong Android Marshmallow—chạm và giữ nút home và Google sẽ hiển thị thông tin ngữ cảnh hữu ích liên quan đến nội dung trên màn hình. Nói về một bộ phim với một người bạn qua tin nhắn? Now on Tap có thể cung cấp cho bạn thông tin chi tiết về tiêu đề mà không cần phải rời khỏi ứng dụng nhắn tin. Nhìn vào một nhà hàng ở Yelp? Điện thoại có thể hiển thị các đề xuất OpenTable chỉ bằng một cú chạm.
Tôi mới ra trường và những cải tiến này mang lại cảm giác thú vị và kỳ diệu—khả năng hiểu những gì trên màn hình và dự đoán những hành động bạn có thể muốn thực hiện mang lại cảm giác hướng tới tương lai. Đó là một trong những tính năng Android yêu thích của tôi. Nó dần dần biến thành Google Assistant, tính năng này rất tuyệt vời nhưng không hoàn toàn giống nhau.
Hôm nay, tại hội nghị nhà phát triển I/O của Google ở Mountain View, California, các tính năng mới mà Google đang giới thiệu trong hệ điều hành Android của mình giống như Now on Tap cũ—cho phép bạn khai thác thông tin theo ngữ cảnh xung quanh bạn để giúp việc sử dụng điện thoại của bạn trở nên thoải mái Bit dễ dàng hơn. Ngoại trừ lần này, các tính năng này được hỗ trợ bởi những tiến bộ có giá trị trong một thập kỷ trong các mô hình ngôn ngữ lớn.
Dave Burke, phó chủ tịch kỹ thuật trên Android, nói với tôi qua cuộc gọi điện video trên Google Meet: “Tôi nghĩ điều thú vị là giờ đây chúng tôi có công nghệ để tạo ra những trợ lý thực sự thú vị”. “Chúng ta cần có một hệ thống máy tính có thể hiểu được những gì nó nhìn thấy và tôi không nghĩ hồi đó chúng ta có công nghệ để làm tốt điều đó. Bây giờ chúng tôi làm.”
Tôi đã có cơ hội nói chuyện với Burke và Sameer Samat, chủ tịch hệ sinh thái Android tại Google, về những điểm mới trong thế giới Android, trợ lý AI mới của công ty Gemini và tất cả những gì nó có ý nghĩa đối với tương lai của hệ điều hành này. Samat gọi những bản cập nhật này là “cơ hội ngàn năm có một để hình dung lại những gì điện thoại có thể làm và suy nghĩ lại về toàn bộ Android”.
Nó bắt đầu với Circle to Search, đây là cách mới của Google để tiếp cận Tìm kiếm trên thiết bị di động. Giống như trải nghiệm Now on Tap, Circle to Search—mà công ty đã ra mắt cách đây vài tháng —có tính tương tác cao hơn là chỉ nhập vào hộp tìm kiếm. (Theo đúng nghĩa đen, bạn Circle những gì bạn muốn tìm kiếm trên màn hình.) Burke nói: “Đó là một cách tìm kiếm rất trực quan, thú vị và hiện đại… Nó cũng trẻ trung hơn vì sử dụng rất thú vị”.
Samat tuyên bố Google đã nhận được phản hồi tích cực từ người tiêu dùng, nhưng tính năng mới nhất của Circle to Search đặc biệt nhận được từ phản hồi của sinh viên . Circle để tìm kiếm giờ đây có thể được sử dụng cho các bài toán vật lý và toán học khi người dùng khoanh tròn chúng—Google sẽ đưa ra hướng dẫn từng bước để hoàn thành bài toán mà người dùng không cần rời khỏi ứng dụng giáo trình.
Samat nói rõ rằng Gemini không chỉ đưa ra câu trả lời mà còn chỉ cho học sinh cách giải quyết vấn đề. Cuối năm nay, Circle to Search sẽ có thể giải quyết các vấn đề phức tạp hơn như sơ đồ và đồ thị. Tất cả điều này đều được hỗ trợ bởi các mô hình LearnLM của Google, được tinh chỉnh cho mục đích giáo dục.
Gemini là trợ lý AI của Google, về nhiều mặt đang làm lu mờ Google Assistant. Thực sự—khi bạn kích hoạt Trợ lý Google trên hầu hết các điện thoại Android hiện nay, sẽ có một tùy chọn để thay thế nó bằng Gemini . Vì vậy, một cách tự nhiên, tôi hỏi Burke và Samat liệu điều này có nghĩa là Trợ lý đang hướng đến Nghĩa địa của Google hay không.
Samat nói: “Cách nhìn nhận vấn đề này là Gemini là một trải nghiệm được chọn tham gia trên điện thoại”. “Tôi nghĩ rõ ràng theo thời gian , Gemini ngày càng tiến bộ và phát triển hơn. Chúng tôi không có bất cứ điều gì để thông báo hôm nay, nhưng có một sự lựa chọn cho người tiêu dùng nếu họ muốn sử dụng trợ lý hỗ trợ AI mới này. Họ có thể dùng thử và chúng tôi nhận thấy mọi người đang làm điều đó và chúng tôi nhận được rất nhiều phản hồi tuyệt vời.”
Tại I/O, các bản cập nhật cho Gemini trên Android nhằm giúp nó nhận biết ngữ cảnh tốt hơn, giống như Now on Tap gần một thập kỷ trước. Cuối năm nay, bạn sẽ có thể tạo hình ảnh bằng Gemini và kéo và thả chúng vào các ứng dụng như Gmail hoặc Google Messages. Burke cho tôi xem một ví dụ về việc Gemini tạo ra hình ảnh quần vợt với dưa chua; anh ấy đang trả lời tin nhắn của ai đó về việc chơi bóng ném . Anh ấy ca ngợi Gemini— ứng dụng xuất hiện dưới dạng lớp phủ trên ứng dụng nhắn tin — đã yêu cầu ứng dụng này tạo hình ảnh, sau đó kéo một hình ảnh và thả nó vào cuộc trò chuyện.
Sau đó, anh ấy đưa lên YouTube một video về luật chơi ném bóng. Hãy gọi cho Gemini khi đang xem và bạn sẽ thấy lời nhắc “Hỏi video này”. Điều này cho phép bạn thuê Gemini tìm thông tin cụ thể trong video mà không cần tự mình xem xét kỹ lưỡng toàn bộ nội dung. (Ai có thời gian cho việc đó?) Burke hỏi về một quy tắc ném bóng cụ thể và Gemini nhanh chóng đưa ra câu trả lời dựa trên video. Chức năng “tóm tắt” này là đặc điểm nổi bật của nhiều công cụ AI—tóm tắt các tệp PDF, video, bản ghi nhớ và tin bài (yay).
Nói về tệp PDF, bạn sẽ sớm có thể đính kèm tệp PDF cho Gemini (sẽ có lời nhắc “Hỏi bản PDF này”) và Gemini có thể cung cấp thông tin cụ thể, giúp bạn không cần phải cuộn qua nhiều trang. Burke cho biết những tính năng này sẽ được triển khai cho hàng triệu thiết bị trong vài tháng tới, mặc dù tính năng PDF sẽ chỉ khả dụng cho người dùng Gemini Advanced — những người trả phí đăng ký 20 USD mỗi tháng để truy cập các khả năng tiên tiến của các mô hình AI của Google.
Nhìn chung, Gemini sẽ hiển thị nhiều “gợi ý năng động” hơn dựa trên những gì đang diễn ra trên màn hình. Chúng sẽ bật lên ngay phía trên lớp phủ Gemini khi bạn kích hoạt trợ lý.
Gemini Nano là mô hình ngôn ngữ lớn của Google hỗ trợ các tính năng chọn lọc trên thiết bị trên một số điện thoại nhất định, như dòng Pixel 8 , dòng Samsung Galaxy S24 và thậm chí cả Pixel 8A mới. Việc chạy các tính năng này dưới dạng tính năng trên thiết bị có nghĩa là dữ liệu không cần phải gửi lên đám mây, giúp các tính năng này trở nên riêng tư hơn. Họ thậm chí có thể làm việc ngoại tuyến.
Nano hiện hỗ trợ các tính năng như Tóm tắt trong ứng dụng Ghi âm của Google, tóm tắt các bản ghi âm và Trả lời thông minh trong các ứng dụng nhắn tin chọn lọc, cung cấp nhiều câu trả lời tự động theo ngữ cảnh hơn cho tin nhắn. Phiên bản mới hơn của mẫu máy này— Gemini Nano với tính năng đa phương thức — sẽ ra mắt trong năm nay, bắt đầu với điện thoại Pixel. Nó Bit khó nghe nhưng ít nhiều có nghĩa là Gemini Nano sẽ có thể làm được nhiều việc hơn là chỉ xử lý văn bản.
Burke nói: “Đó là mô hình có 3,8 tỷ tham số và là mô hình đa phương thức—đây là mô hình đa phương thức được tích hợp sẵn trên thiết bị đầu tiên”. “Nó rất mạnh mẽ. Về điểm chuẩn học thuật, nó đạt khoảng 80% Gemini 1.0, một con số khá tuyệt vời đối với một mô hình nhỏ.”
Mẫu này hiện sẽ hỗ trợ tính năng trình đọc màn hình TalkBack hiện có của Google trên Android, giúp người dùng khiếm thị và thị lực kém hiểu được nội dung trên màn hình. Gemini Nano được cho là sẽ cung cấp những mô tả phong phú hơn và chính xác hơn về nội dung trong mỗi hình ảnh. Google cho biết trung bình người dùng TalkBalk nhìn thấy “90 hình ảnh không được gắn nhãn mỗi ngày”, nhưng Gemini có thể lấp đầy khoảng trống vì nó có thể hình dung và hiểu các hình ảnh trên màn hình và mô tả chúng ngay cả khi người dùng ngoại tuyến.
Google đã sử dụng nhiều tính năng thông minh AI của mình trong vài năm qua để cải thiện công nghệ sàng lọc cuộc gọi nhằm hạn chế các cuộc gọi tự động và Gemini Nano với Multimodality sẽ sớm giúp bạn tránh các vụ lừa đảo qua điện thoại—trong thời gian thực. Một tính năng mới có tên là Phát hiện lừa đảo sẽ giúp Gemini lắng nghe các cuộc điện thoại của bạn và nếu nó nhận ra một số cụm từ hoặc yêu cầu nhất định từ người ở đầu bên kia, nó sẽ đưa ra cảnh báo rằng bạn có thể đang thực hiện một cuộc gọi lừa đảo. . Burke cho biết mô hình này đã được đào tạo dựa trên dữ liệu từ các trang web như BanksNeverAskThat.com để tìm hiểu những điều mà ngân hàng sẽ không hỏi bạn—và những điều mà những kẻ lừa đảo thường yêu cầu. Anh ấy cho biết tất cả quá trình nghe và phát hiện này đều diễn ra trên thiết bị nên nó mang tính riêng tư. Chúng ta sẽ biết thêm về “tính năng chọn tham gia” này vào cuối năm nay.
Điều bất thường là Google cho biết họ sẽ tiết lộ một vài tính năng mới của Android vào ngày mai thay vì nén tất cả nội dung mới vào các thông báo ngày hôm nay, vì vậy hãy chú ý theo dõi để biết thêm.
Với sự gia tăng của các thiết bị phần cứng AI đang cạnh tranh để thay thế điện thoại thông minh của bạn—và cuộc thảo luận về các giao diện tạo ra ít ứng dụng hơn —Tôi đã hỏi Samat rằng anh ấy thấy Android sẽ thay đổi như thế nào trong 5 năm tới. Anh ấy rất vui khi thấy sự đổi mới từ các công ty mới và hiện tại đang thử những điều mới—và rằng Google cũng đang “thử rất nhiều thứ trong nội bộ”. Nhưng anh ấy đã so sánh mọi thứ với lĩnh vực ô tô.
Nếu bạn mua một chiếc ô tô, bạn sẽ mong đợi một số tính năng tiêu chuẩn nhất định, chẳng hạn như vô lăng. Nhưng với AI, một bước nhảy vọt lớn sẽ là loại bỏ những tính năng đó—không có vô lăng, không có giao diện. “Một số người sẽ phấn khích vì điều đó, một số người sẽ không hào hứng vì điều đó.” Anh ấy tin rằng một số chức năng nhất định mà chúng ta thực hiện trên điện thoại sẽ hỗ trợ nhiều hơn bao giờ hết với sự trợ giúp của AI—và chúng ta có thể mong đợi một số tính năng sẽ được thay thế theo cách đó.
“Khi điều đó tiếp tục, những gì chúng tôi sẽ tìm thấy—và chúng tôi đã thấy điều này trong thử nghiệm của chính mình—là có những cơ hội để chuyển đổi giao diện người dùng về cơ bản ở một số khu vực nhất định mà nó chuyển sang dạng 'OK, điều đó thực sự hữu ích, ' đến 'Trên thực tế, cần có một cách hoàn toàn mới để thực hiện việc này.' Đó là điều thú vị và thú vị lúc này. Đây là khoảng thời gian tuyệt vời để làm việc với công nghệ này.”