Ứng dụng mới nhất của Google cho phép điện thoại của bạn chạy AI trong túi của bạn—Hoàn toàn ngoại tuyến

avatar
Decrypt
06-04
Bài viết này được dịch máy
Xem bản gốc

Google vừa phát hành một ứng dụng mới mà không ai yêu cầu nhưng lại được mọi người muốn dùng thử.

AI Edge Gallery, được ra mắt lặng lẽ vào ngày 31 tháng 5, đưa trí tuệ nhân tạo trực tiếp vào điện thoại thông minh của bạn—không cần đám mây, không cần internet và không chia sẻ dữ liệu của bạn với máy chủ của Big Tech.

Ứng dụng thử nghiệm—được phát hành theo giấy phép Apache 2.0 , cho phép bất kỳ ai sử dụng nó cho hầu hết mọi thứ—có sẵn trên GitHub, bắt đầu với nền tảng Android . Phiên bản iOS sẽ sớm ra mắt.

Nó chạy các mô hình như Gemma 3n của Google hoàn toàn ngoại tuyến, xử lý mọi thứ từ phân tích hình ảnh đến viết mã chỉ bằng phần cứng của điện thoại.

Và nó thực sự tốt một cách đáng ngạc nhiên.

Ứng dụng này hiện nhắm đến các nhà phát triển và bao gồm ba tính năng chính: AI Chat để trò chuyện, Ask Image để phân tích hình ảnh và Prompt Lab để thực hiện các tác vụ một lần như viết lại văn bản.

Người dùng có thể tải xuống các mô hình từ các nền tảng như Hugging Face, mặc dù lựa chọn vẫn giới hạn ở các định dạng như Gemma-3n-E2B và Qwen2.5-1.5 B.

Người dùng Reddit ngay lập tức đặt câu hỏi về tính mới lạ của ứng dụng này và so sánh nó với các giải pháp hiện có như PocketPal.

Một số người nêu lên mối lo ngại về bảo mật , mặc dù việc lưu trữ ứng dụng trên GitHub chính thức của Google phản bác lại các khiếu nại về mạo danh. Chưa có bằng chứng nào về phần mềm độc hại xuất hiện.

Chúng tôi đã thử nghiệm ứng dụng trên Samsung Galaxy S24 Ultra bằng cách tải xuống cả mẫu Gemma 3 lớn nhất và nhỏ nhất hiện có.

Mỗi mô hình AI là một tệp độc lập chứa tất cả "kiến thức" của nó—hãy nghĩ về nó như việc tải xuống một Snapshot nhanh được nén về mọi thứ mà mô hình đã học được trong quá trình đào tạo, thay vì một cơ sở dữ liệu khổng lồ về các sự kiện như ứng dụng Wikipedia địa phương. Mô hình Gemma 3 lớn nhất có sẵn trong ứng dụng là khoảng 4,4 GB, trong khi mô hình nhỏ nhất là khoảng 554 MB.

Sau khi tải xuống, không cần thêm dữ liệu nào nữa - mô hình chạy hoàn toàn trên thiết bị của bạn, trả lời các câu hỏi và thực hiện các tác vụ chỉ bằng những gì nó đã học được trước khi phát hành.

Ngay cả khi suy luận trên CPU tốc độ thấp, trải nghiệm vẫn tương đương với những gì GPT-3.5 mang lại khi ra mắt: không nhanh như các mẫu máy lớn hơn, nhưng chắc chắn là có thể sử dụng được.

Mẫu Gemma 3 1B nhỏ hơn đạt tốc độ vượt quá 20 token mỗi giây, mang lại trải nghiệm mượt mà với độ chính xác đáng tin cậy dưới sự giám sát.

Điều này quan trọng khi bạn ngoại tuyến hoặc xử lý dữ liệu nhạy cảm mà bạn không muốn chia sẻ với Google hoặc thuật toán đào tạo của OpenAI, vì chúng sử dụng dữ liệu của bạn theo mặc định trừ khi bạn chọn không tham gia.

Suy luận GPU trên mô hình Gemma nhỏ nhất mang lại tốc độ điền trước ấn tượng trên 105 token mỗi giây, trong khi suy luận CPU quản lý 39 token mỗi giây. Đầu ra Token —tốc độ mô hình tạo ra phản hồi sau khi suy nghĩ—trung bình đạt khoảng 10 token mỗi giây trên GPU và bảy trên CPU.

Khả năng đa phương thức hoạt động tốt trong quá trình thử nghiệm.

Ngoài ra, có vẻ như suy luận của CPU trên các mô hình nhỏ hơn mang lại kết quả tốt hơn suy luận của GPU, mặc dù điều này có thể chỉ là giai thoại; tuy nhiên, điều này đã được quan sát thấy trong nhiều thử nghiệm khác nhau.

Ví dụ, trong một nhiệm vụ thị giác, mô hình suy luận của CPU đã đoán chính xác tuổi của tôi và vợ tôi trong một bức ảnh thử nghiệm: tôi cuối 30 tuổi, cô ấy cuối 20 tuổi.

Suy luận GPU được cho là tốt hơn đã đoán sai tuổi của tôi, đoán rằng tôi đang ở độ tuổi 20 (mặc dù vậy, tôi sẽ tin vào "thông tin" này hơn là sự thật bất cứ lúc nào.)

Các mô hình của Google có kiểm duyệt chặt chẽ, nhưng vẫn có thể bẻ khóa cơ bản với nỗ lực tối thiểu.

Không giống như các dịch vụ tập trung cấm người dùng cố gắng vượt rào, các mô hình cục bộ không báo cáo lại về lời nhắc của bạn, do đó, sử dụng các kỹ thuật bẻ khóa có thể là một biện pháp tốt mà không gây rủi ro cho đăng ký của bạn hoặc yêu cầu các mô hình cung cấp thông tin mà các phiên bản bị kiểm duyệt sẽ không cung cấp.

Có hỗ trợ mô hình của bên thứ ba nhưng còn hạn chế.

Ứng dụng này chỉ chấp nhận tệp .task, không phải định dạng .safetensor được nhiều đối thủ cạnh tranh như Ollama hỗ trợ.

Điều này hạn chế đáng kể các mô hình khả dụng và mặc dù có những phương pháp để chuyển đổi tệp .safetensor thành .task nhưng không phải ai cũng có thể làm được.

Việc xử lý mã hoạt động khá tốt, mặc dù các mô hình chuyên biệt như Codestral sẽ xử lý các tác vụ lập trình hiệu quả hơn Gemma 3. Một lần nữa, phải có phiên bản .task dành cho nó, nhưng nó có thể là một giải pháp thay thế rất hiệu quả.

Đối với các tác vụ cơ bản, chẳng hạn như diễn đạt lại, tóm tắt và giải thích các khái niệm, các mô hình hoạt động hiệu quả mà không cần gửi dữ liệu đến máy chủ của Samsung hoặc Google.

Vì vậy, người dùng không cần phải cấp quyền truy cập vào dữ liệu đầu vào, bàn phím hoặc bảng tạm của mình cho các công ty công nghệ lớn vì phần cứng của họ sẽ tự xử lý mọi công việc cần thiết.

Cửa sổ ngữ cảnh của 4096 mã thông báo có vẻ bị giới hạn theo tiêu chuẩn năm 2025, nhưng lại phù hợp với chuẩn mực của hai năm trước.

Các cuộc trò chuyện diễn ra tự nhiên trong những hạn chế đó. Và đây có lẽ là cách tốt nhất để định nghĩa trải nghiệm.

Nếu bạn đang chạy một mô hình AI trên điện thoại thông minh, ứng dụng này sẽ mang đến cho bạn trải nghiệm tương tự như những gì ChatGPT ban đầu cung cấp về tốc độ và độ chính xác của văn bản—cùng một số ưu điểm như đa phương thức và xử lý mã.

Nhưng tại sao bạn lại muốn chạy phiên bản chậm hơn, kém hơn của AI yêu thích trên điện thoại, chiếm nhiều dung lượng lưu trữ và khiến mọi thứ trở nên phức tạp hơn là chỉ cần gõ ChatGPT.com?

Quyền riêng tư vẫn là tính năng quan trọng nhất. Ví dụ, nhân viên y tế xử lý dữ liệu bệnh nhân, nhà báo ngoài thực địa hoặc bất kỳ ai xử lý thông tin bí mật hiện có thể truy cập vào các chức năng AI mà không cần dữ liệu rời khỏi thiết bị của họ.

“Không cần internet” có nghĩa là công nghệ này có thể hoạt động ở những vùng xa xôi hoặc khi đang di chuyển, với mọi phản hồi chỉ được tạo ra từ kiến ​​thức hiện có của mô hình tại thời điểm nó được đào tạo.

Tiết kiệm chi phí tăng lên nhanh chóng. Các dịch vụ AI đám mây tính phí theo mức sử dụng, trong khi các mô hình cục bộ chỉ yêu cầu sức mạnh xử lý của điện thoại. Các doanh nghiệp nhỏ và người đam mê có thể thử nghiệm mà không phải tốn chi phí liên tục. Nếu bạn chạy một mô hình cục bộ, bạn có thể tương tác với mô hình đó nhiều như bạn muốn mà không cần sử dụng hạn ngạch, tín dụng hoặc đăng ký và không phải chịu bất kỳ khoản thanh toán nào .

Cải thiện độ trễ có thể nhận thấy rõ. Không có chuyến khứ hồi máy chủ có nghĩa là phản hồi nhanh hơn cho các ứng dụng thời gian thực, chẳng hạn như chatbot hoặc phân tích hình ảnh. Điều đó cũng có nghĩa là chatbot của bạn sẽ không bao giờ ngừng hoạt động .

Nhìn chung, đối với các tác vụ cơ bản, điều này có thể quá đủ cho bất kỳ người dùng nào, trong khi các phiên bản miễn phí của ChatGPT, Claude , Gemini , Meta , RekaMistral cung cấp giải pháp sao lưu tốt khi cần tính toán nặng hơn.

Tất nhiên, đây sẽ không phải là sự thay thế cho chatbot kết nối internet yêu thích của bạn trong thời gian tới. Có một số thách thức trong việc áp dụng sớm.

Vẫn còn lo ngại về tình trạng hao pin, đặc biệt là với các mẫu lớn hơn; tính phức tạp của quá trình thiết lập có thể làm nản lòng những người dùng không rành về kỹ thuật; sự đa dạng của các mẫu máy không đáng kể so với các dịch vụ đám mây và quyết định không hỗ trợ các mô hình .safetensor (chiếm gần 100% tất cả các LLM được tìm thấy trên internet) của Google là điều đáng thất vọng.

Tuy nhiên, bản phát hành thử nghiệm của Google báo hiệu sự thay đổi trong triết lý triển khai AI. Thay vì buộc người dùng phải lựa chọn giữa AI mạnh mẽ và quyền riêng tư, công ty cung cấp cả hai, ngay cả khi trải nghiệm vẫn chưa hoàn toàn như mong đợi.

AI Edge Gallery mang đến trải nghiệm hoàn hảo đáng ngạc nhiên cho bản phát hành alpha. Quá trình tối ưu hóa của Google chứng minh việc tạo ra giao diện người dùng có lẽ là tốt nhất hiện có để chạy các mô hình AI cục bộ.

Việc bổ sung hỗ trợ .safetensor sẽ mở khóa hệ sinh thái rộng lớn của các mô hình hiện có, biến một ứng dụng tốt thành một công cụ thiết yếu cho người dùng AI coi trọng quyền riêng tư.

Biên tập bởi Josh QuittnerSebastian Sinclair

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận