Apple lần đầu tiên công bố chi tiết về mẫu máy tự phát triển của mình, tiết lộ cách tạo ra trí thông minh của Apple và cách sử dụng nó ngay cả khi không có GPT-4o

avatar
36kr
06-12
Bài viết này được dịch máy
Xem bản gốc

Hội nghị Apple ngày hôm qua mới đi được nửa chặng đường, thuật ngữ Apple Intelligence đã lọt vào danh sách tìm kiếm nóng.

Tại buổi họp báo, Apple chính thức thông báo sẽ bắt tay với OpenAI và GPT-4o sẽ chính thức được tích hợp vào hệ thống thông minh của Apple.

Mặc dù giám đốc điều hành Apple Craig Fedrighi tuyên bố trước công chúng rằng OpenAI chỉ là một trong những ứng cử viên được lựa chọn nhưng sự hợp tác tưởng chừng như hoàn hảo này cũng không thể thoát khỏi sự “chọn lọc” và “chê bai” của thế giới bên ngoài.

Ngay cả Musk cũng đến tham gia cuộc vui. Đầu tiên, ông đưa ra đánh giá không tốt về việc bảo vệ quyền riêng tư của Apple, sau đó ông nói một cách gay gắt rằng ông sẽ cấm các thiết bị của Apple. về vụ kiện của OpenAI và CEO Sam Altman.

Ngoài ra, một số cư dân mạng chú ý đã phát hiện ra rằng phiên bản mới của Siri dường như có thể đọc được tất cả các ứng dụng trên điện thoại. Sự thật là gì? Bạn cũng có thể đọc blog mới nhất của Apple. Có lẽ có câu trả lời ẩn trong đó.

Mô hình thiết bị-đám mây lai, 3 tỷ tham số phía thiết bị có những điều bất ngờ

Trí thông minh của Apple đi theo con đường hai chân, cụ thể là mô hình phía máy khách và mô hình đám mây lớn.

Không cần phải nói, mô hình đám mây lớn rất lớn và phức tạp, nó cần được chạy trên máy chủ chip của Apple và cũng có thể xử lý nhiệm vụ chuyên nghiệp và phức tạp hơn.

Đối với model phía thiết bị, Apple Smart có một model có thông số xấp xỉ 3B. Ở Trung Quốc, nơi thường dao động quanh mức 7B, các thông số 3B của Apple có vẻ hơi thấp.

Nói chung, xét đến khả năng tính toán và không gian lưu trữ hạn chế của các thiết bị đầu cuối thì càng nhiều tham số thì khả năng học của mô hình càng mạnh. Model end-to-side của Apple dù chỉ có thông số 3B nhưng cũng là chuẩn mực để "tạo ra sự khác biệt lớn".

Trong suốt năm qua, chúng tôi đã chứng kiến ​​nhiều trường hợp như thế này đã vi phạm “Luật mở rộng quy mô”.

Đơn cử như mẫu Phi-3-mini mới nhất của Microsoft dám thách thức người anh em 7B của mình với thông số chỉ 3,8B. Hoặc Gemini Nano chạy trên Google Pixel 8 Pro chỉ có lần lượt là 1,8B (Nano-1) và 3,25B (Nano-2).

So với việc cạnh tranh trên giấy tờ, ưu tiên của Apple là tập trung vào trải nghiệm của người dùng.

Blog tiết lộ rằng Apple đã sử dụng nhiều ví dụ thực tế để kiểm tra hiệu quả thực tế của mô hình, từ phân loại, hỏi đáp, suy luận toán học, đến hỏi đáp mở, bảo mật, tóm tắt và viết.

Hơn nữa, ngay cả khi phải cạnh tranh với các mẫu máy như Phi-3-mini, Gemma-7B, Mistral-7B,… dưới sự bình chọn của các “giám khảo” con người thì các mẫu máy cuối của Apple cũng được kỳ vọng sẽ là tốt nhất.

Việc Apple theo đuổi AI không chỉ dễ sử dụng mà còn an toàn.

Ví dụ: khi kiểm tra khả năng xử lý nội dung có hại, chủ đề nhạy cảm và độ chính xác thực tế, các mô hình cơ bản của Apple cũng đã nỗ lực rất nhiều và tỷ lệ vi phạm thấp hơn nhiều so với hầu hết các mô hình.

Là gã khổng lồ với hơn 2,2 tỷ thiết bị đang hoạt động, Apple dường như chỉ có những lựa chọn ngày càng thấp khi nói đến tỷ lệ vi phạm. Điều này thực sự phù hợp với các biện pháp bảo mật nhất quán của Apple.

Nó phải biết bạn và dựa trên bối cảnh cá nhân của bạn, chẳng hạn như cuộc sống hàng ngày, các mối quan hệ, giao tiếp của bạn, v.v., tất cả đều nằm ngoài phạm vi của trí tuệ nhân tạo. Đây là trí tuệ cá nhân và bước đi lớn tiếp theo của Apple.

Mặc dù nhận xét của Cook không đề cập đến quyền riêng tư bằng lời nói, nhưng vẫn có những điểm nhấn về quyền riêng tư giữa các dòng.

Nếu AI trở thành "bộ não thứ hai" của chúng ta thì việc bảo vệ quyền riêng tư không thể và không thể chỉ là một vật trang trí. Kế hoạch mà Apple đưa ra là trí thông minh của Apple phải bám sâu vào iPhone, iPad và Mac. Đây không phải là một chức năng hay dịch vụ mà phải trở thành một phần của hệ thống.

Nhưng chính vì điều này mà Musk tuyên bố rằng nếu Apple tích hợp ChatGPT ở cấp độ hệ thống, ông sẽ cấm nhân viên mang iPhone vào Tesla.

Tuy nhiên, bạn có thể không cần quá lo lắng về vấn đề này. Mô hình đằng sau điện thoại thông minh của Apple chủ yếu được chia thành ba lớp.

Mô hình cục bộ: Chủ yếu là mô hình 3B nhỏ đã được tinh chỉnh, dành riêng cho nhiệm vụ như tổng hợp và đánh bóng. Với sự hỗ trợ của adapter, khả năng của nó không hề yếu.

Điện toán đám mây sở hữu tư nhân: Nếu mô hình cục bộ không đáp ứng được yêu cầu sẽ được chuyển lên đám mây để tính toán. Apple đảm bảo crypto đầu cuối để bảo vệ quyền riêng tư và bảo mật dữ liệu của người dùng

LLM của bên thứ ba: được sử dụng để trò chuyện hỏi đáp kiến ​​thức chung. Các ứng dụng như Siri được kết nối với các mô hình bên ngoài như GPT-4o.

Nói cách khác, về cơ bản Apple coi mô hình ChatGPT của OpenAI như một plug-in và cũng có thể hợp tác với các mô hình khác. Nếu mô hình tự phát triển của Apple đủ mạnh, Apple đương nhiên có thể loại bỏ hoàn toàn LLM của bên thứ ba.

Ngoài ra, blog cũng đề cập rằng hệ thống thông minh của Apple còn bao gồm các mô hình khác, chẳng hạn như mô hình có thể giúp lập trình viên viết mã bằng Xcode và mô hình phổ biến giúp người dùng thể hiện ý tưởng của mình một cách trực quan và thú vị hơn khi nhắn tin.

Trí thông minh của Apple được tạo ra như thế nào

Nếu muốn tạo ra video trên máy tính thì bạn cần cài đặt thêm một số ứng dụng. Trong thế giới mô hình AI, nguyên tắc tương tự cũng áp dụng cho các “bộ điều hợp” được sử dụng đằng sau các mô hình của Apple.

Nói một cách đơn giản, bộ chuyển đổi là một tập hợp nhỏ các tỷ trọng mô hình, tương đương với một plug-in nhỏ cho phép mô hình thích ứng nhanh chóng với nhiệm vụ khác nhau.

Ví dụ: phần tóm tắt về mô hình xử lý email và thông báo trông giống nhau, nhưng trên thực tế có nhiều khác biệt nhỏ, vì vậy Apple đã thêm một bộ chuyển đổi có tên LoRA vào mô hình để có thể hoàn thành loại nhiệm vụ này tốt hơn.

Apple cũng đặc biệt chọn lọc 750 bản tóm tắt khác nhau để kiểm tra hiệu quả thực tế và nhận thấy rằng model sử dụng bộ chuyển đổi hoạt động tốt hơn các model khác.

Bí quyết của Apple là chỉ điều chỉnh các bộ điều hợp này mà không chạm vào "cài đặt gốc" của mẫu cơ sở. Ưu điểm của việc này là mô hình vẫn giữ được kiến ​​thức rộng ban đầu trong khi có thể học một số kỹ năng đặc biệt thông qua bộ chuyển đổi.

Quan trọng hơn, mỗi bộ chuyển đổi không chiếm nhiều diện tích. Dù mô hình có bộ não mô hình với 3 tỷ thông số thì nó cũng chỉ chiếm vài chục nghìn tỷ "tế bào não".

Để mô hình có thể học tốt, chất lượng dữ liệu là rất quan trọng.

Apple áp dụng chiến lược kết hợp khi đào tạo mô hình, chọn đào tạo bằng dữ liệu được chú thích thủ công và dữ liệu do chính Apple tạo ra.

Để đào tạo các mô hình cơ bản này, Apple sử dụng một số dữ liệu được cấp phép cụ thể, bao gồm một số dữ liệu được chọn đặc biệt để nâng cao các chức năng cụ thể của mô hình cũng như dữ liệu công khai được thu thập từ Internet bằng trình thu thập dữ liệu web AppleBot.

Apple cũng nhấn mạnh rằng trong quá trình đào tạo các mô hình cơ bản này, Apple đã không sử dụng thông tin cá nhân của người dùng hoặc bất kỳ dữ liệu tương tác nào của người dùng và thậm chí còn đặc biệt chú ý sử dụng các bộ lọc để xóa thông tin cá nhân được công bố trực tuyến.

Trong quá trình đào tạo, Apple đã phát triển hai phương tiện kỹ thuật mới để nâng cao hiệu quả của mô hình:

Cụ thể, phương pháp đầu tiên là trong quá trình đào tạo, Apple sẽ yêu cầu mô hình tham khảo ý kiến ​​của một số "giáo viên" này sẽ giúp mô hình đưa ra lựa chọn khi gặp phải những tình huống không chắc chắn.

Kỹ thuật thứ hai được gọi là học tăng cường dựa trên phản hồi của con người (RLHF), sử dụng chiến lược tối ưu hóa đặc biệt và thuật toán loại bỏ một lần để điều chỉnh mô hình để mô hình có thể ước tính tốt hơn liệu đầu ra của nó có chính xác hay không.

Thông qua hai phương pháp này, độ chính xác của mô hình khi thực hiện nhiệm vụ đã được cải thiện rất nhiều và nó có thể học nhanh hơn và chính xác hơn. Để giải quyết vấn đề hạn chế về tài nguyên điện thoại di động và máy chủ đám mây, Apple cũng đã sử dụng một số thủ thuật mới:

  • Grouped-query-attention: Tối ưu hóa cách mô hình xử lý văn bản
  • Từ vựng đầu vào và đầu ra được chia sẻ: mô hình khách hàng có 49k mã thông báo, mô hình đám mây có 100k mã thông báo và chứa nhiều từ vựng liên quan đến ngôn ngữ và công nghệ hơn
  • Xếp chồng bit thấp: Giảm áp lực lên nguồn và bộ nhớ của điện thoại di động đồng thời cho phép mô hình chạy nhanh hơn
  • Chiến lược cấu hình kết hợp: Các chiến lược sử dụng cấu hình 2 bit và 4 bit có thể duy trì độ chính xác tương tự như các mô hình mà không cần nén ngay cả trong không gian hạn chế
  • Công cụ Talaria: Giúp mô hình chọn “tốc độ truyền” phù hợp nhất
  • Lượng tử hóa kích hoạt và nhúng lượng tử hóa: làm cho bộ nhớ đệm khóa-giá trị trên công cụ thần kinh linh hoạt và hiệu quả hơn

Với việc triển khai các chiến lược tối ưu hóa này, hiệu suất của mẫu iPhone 15 Pro của Apple rất ấn tượng. Thời gian xử lý mỗi mã thông báo chỉ là 0,6 mili giây và có thể tạo ra 30 mã thông báo mỗi giây.

Đó chưa phải là tất cả. Apple còn “giấu” một số thủ thuật để tạo ra token nhanh hơn, nhưng Apple không tiết lộ nhiều trong blog của mình.

Trên thực tế, sự ra mắt của điện thoại thông minh Apple không phải là quá sớm nhưng cũng không phải là quá muộn.

Gần đây, trong khi các nhà sản xuất Android khác đang phi nước đại trên đường đua điện thoại di động AI được một hoặc hai năm thì Apple dường như chỉ lặng lẽ quan sát từ bên lề.

Nhưng đừng quên, với tư cách là nhà sản xuất kịch bản tiêu dùng thiết bị đầu cuối hàng đầu thế giới, mọi động thái của Apple đều chạm đến nhịp đập của thị trường. Tóm lại, trong kịch bản triển khai AI thực tế, Apple là người không thể thiếu.

Điều này giống như việc đặt tên AI là Apple Intelligence, nhìn lên như là một “từ đồng âm”khéo léo nhưng xét ở góc độ sâu hơn, khi Apple Intelligence được tích hợp vào hệ sinh thái của Apple thì bản thân nó đã là biểu tượng của sức mạnh và sự tự tin.

Tất nhiên, trước đó, cho dù đó là sự cạnh tranh giữa các nhà sản xuất trên con đường AI hay những vấn đề khó tránh khỏi về quyền riêng tư, tôi quan tâm hơn đến việc ai sẽ có được chức năng AI của Apple tại Trung Quốc?

Văn bản blog gốc: https://machinelearning.apple.com/research/introducing-apple-foundation-models

Bài viết này xuất phát từ tài khoản công khai WeChat "APPSO" (ID: appsolution) , tác giả: Mo Chongyu và 36 Krypton được xuất bản với sự cho phép.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận