Công ty Google đã mở mã nguồn cho mô hình nhỏ mạnh mẽ nhất ở phía máy khách: với 2B tham số, nó đã vượt qua GPT-3.5-Turbo, chạy rất nhanh trên iPhone 15 Pro.

avatar
36kr
08-01
Bài viết này được dịch máy
Xem bản gốc

Vào cuối tháng 6 năm nay, Google mã nguồn mở phiên bản 9B và 27B của sê-ri model Gemma 2. Kể từ khi ra mắt, phiên bản 27B đã nhanh chóng trở thành một trong những model mở có thứ hạng cao nhất trên đấu trường mô hình lớn LMSYS Chatbot Arena. vượt trội hơn cả hai trong nhiệm vụ đối thoại thực tế. Các mô hình có kích thước gấp đôi thậm chí còn hoạt động tốt hơn.

Hôm nay, chỉ hơn một tháng đã trôi qua. Dựa trên việc theo đuổi AI có trách nhiệm, Google đã quan tâm nhiều hơn đến tính an toàn và khả năng tiếp cận của sê-ri mô hình này và đã đạt được sê-ri kết quả mới.

Lần, Gemma 2 không chỉ có phiên bản " Gemma 2 2B " nhẹ hơn mà còn xây dựng mô hình phân loại nội dung bảo mật " ShieldGemma " và công cụ diễn giải mô hình " Gemma Scope ". chi tiết như sau:

Gemma 2 2B mang đến sự cân bằng mạnh mẽ giữa hiệu suất và hiệu quả với các cải tiến bảo mật tích hợp;

ShieldGemma được xây dựng trên Gemma 2 và dùng để lọc đầu vào và đầu ra của các mô hình AI nhằm đảm bảo an toàn cho người dùng;

Gemma Scope cung cấp cái nhìn sâu sắc tuyệt vời về hoạt động bên trong mô hình của bạn.

Trong đó, Gemma 2 2B chắc chắn là "gây chói mắt nhất". Kết quả của nó trên đấu trường mô hình lớn LMSYS Chatbot Arena rất bắt mắt: nó ghi được 1130 điểm chỉ với 2 tỷ thông số, cao hơn GPT-3.5-Turbo ( 0613) và Mixtral-8x7b.

Điều này cũng có nghĩa là Gemma 2 2B sẽ là sự lựa chọn tốt nhất cho các dòng máy end-side.

Awni Hannun, nhà khoa học nghiên cứu thuộc đội ngũ, đã cho thấy Gemma 2 2B chạy trên iPhone 15 pro, sử dụng phiên bản lượng tử hóa 4 bit và kết quả cho thấy tốc độ khá nhanh.

Ngoài ra, Gemma 2 2B cũng có thể dễ dàng trả lời câu hỏi “ai lớn hơn, 9,9 hay 9,11?” mà nhiều mẫu lớn đã lật tẩy cách đây không lâu.

Nguồn ảnh: https://x.com/tuturetom/status/1818823253634564134

Đồng thời, cũng có thể thấy một xu hướng từ hiệu năng mạnh mẽ của Google Gemma 2 2B, đó là các mẫu máy “nhỏ” dần có được sự tự tin và lợi thế về hiệu năng để cạnh tranh với các mẫu máy cỡ lớn hơn.

Xu hướng này cũng đã thu hút sự chú ý của một số người trong ngành, chẳng hạn như Jia Yangqing, một nhà khoa học trí tuệ nhân tạo có tiếng và là người sáng lập Lepton AI, đã đưa ra quan điểm: Là kích thước mô hình của các mô hình ngôn ngữ lớn (LLM). đi theo con đường cũ của CNN?

Trong kỷ nguyên ImageNet, chúng tôi thấy kích thước tham số tăng trưởng nhanh chóng và sau đó chúng tôi chuyển sang các mô hình nhỏ hơn, hiệu quả hơn. Điều này diễn ra trước thời của LLM, điều mà nhiều người trong chúng ta có thể đã quên.

Buổi bình minh của các mô hình lớn: Chúng tôi bắt đầu với AlexNet (2012) làm cơ sở và sau đó trải qua khoảng 3 năm tăng trưởng quy mô mô hình. VGGNet (2014) có thể gọi là mô hình mạnh mẽ cả về hiệu suất lẫn quy mô.

Thu nhỏ mô hình: GoogLeNet (2015) giảm kích thước mô hình xuống 100 lần từ cấp GB xuống cấp MB trong khi vẫn duy trì hiệu suất tốt. Công việc tương tự như SqueezeNet (2015) và những công việc khác cũng theo xu hướng tương tự.

Cân bằng hợp lý: Các tác phẩm sau này như ResNet (2015), ResNeXT (2016), v.v., vẫn duy trì kích thước mô hình ở mức vừa phải. Lưu ý rằng chúng tôi thực sự rất vui khi sử dụng nhiều tỷ lệ băm hơn nhưng điều quan trọng không kém là các tham số phải hiệu quả.

Học tập trên thiết bị? MobileNet (2017) là một nỗ lực đặc biệt thú vị của Google, có quy mô nhỏ nhưng hiệu suất tuyệt vời. Tuần trước, một người bạn của tôi đã nói với tôi rằng "Chà, chúng tôi vẫn đang sử dụng MobileNet vì tính năng tuyệt vời của nó là tính linh hoạt trên thiết bị". Có, nhúng nhúng thực sự hữu ích.

Cuối cùng, Jia Yangqing hỏi, "LLM sẽ đi theo xu hướng tương tự chứ?"

Hình ảnh từ bài báo "Khảo sát về mạng lưới thần kinh tích chập hiệu quả và tăng tốc phần cứng" của Ghimire et al.

Gemma 2 2B vượt qua GPT-3.5 Turbo

Gia đình Gemma 2 đã có thêm mẫu Gemma 2 2B được mọi người rất mong đợi. Google sử dụng phần cứng TPU v5e tiên tiến để đào tạo trên 2 nghìn tỷ mã thông báo khổng lồ.

Mô hình nhẹ này được chắt lọc từ một mô hình lớn hơn và cho kết quả rất tốt. Do kích thước nhỏ nên nó đặc biệt phù hợp cho các ứng dụng trên thiết bị và có thể có tác động đáng kể đến AI di động và điện toán ranh giới.

Trên thực tế, mô hình Gemma 2 2B của Google vượt trội hơn các chatbot AI lớn trong bảng xếp hạng Chatbot Arena Elo Score, chứng tỏ tiềm năng của các mô hình ngôn ngữ nhỏ hơn, hiệu quả hơn. Biểu đồ bên dưới cho thấy hiệu suất vượt trội của Gemma 2 2B so với các mẫu có tiếng như GPT-3.5 và Llama 2, thách thức quan niệm "càng lớn càng tốt".

Ưu đãi của Gemma 2 2B:

Hiệu suất xuất sắc: Cung cấp hiệu suất tốt nhất trong cùng quy mô, vượt qua các mô hình mã nguồn mở khác cùng loại;

Triển khai linh hoạt và tiết kiệm chi phí: Chạy hiệu quả trên nhiều loại phần cứng, từ thiết bị biên và máy tính xách tay đến triển khai đám mây như Vertex AI và Google Kubernetes Engine (GKE). Để tăng thêm tốc độ, mô hình được tối ưu hóa bằng thư viện NVIDIA TensorRT-LLM và có sẵn dưới dạng NVIDIA NIM. Ngoài ra, Gemma 2 2B tích hợp hoàn hảo với Keras, JAX, Hugging Face, NVIDIA NeMo, Ollama, Gemma.cpp và MediaPipe sắp ra mắt để đơn giản hóa việc phát triển;

Mã nguồn mở và dễ dàng truy cập: Nó có thể được sử dụng cho cả ứng dụng nghiên cứu và thương mại và vì nó đủ nhỏ nên thậm chí có thể chạy trên cấp miễn phí GPU T4 của Google Colab, giúp việc thử nghiệm và phát triển trở nên dễ dàng hơn bao giờ hết.

Bắt đầu từ hôm nay, người dùng có thể tải xuống tỷ trọng mô hình từ Kaggle, Hugging Face và Vertex AI Model Garden. Người dùng cũng có thể dùng thử các tính năng của nó trong Google AI Studio.

Tải địa chỉ tỷ trọng: https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f

Sự xuất hiện của Gemma 2 2B thách thức quan điểm chủ đạo trong lĩnh vực phát triển trí tuệ nhân tạo cho rằng mô hình càng lớn thì hiệu suất càng tốt. Thành công của Gemma 2 2B cho thấy các kỹ thuật đào tạo phức tạp, kiến ​​trúc hiệu quả và dữ liệu chất lượng cao có thể bù đắp cho việc thiếu số tham số thô. Bước đột phá này có thể gây ra những hậu quả sâu rộng cho lĩnh vực này, có khả năng chuyển trọng tâm từ việc cạnh tranh các mô hình ngày càng lớn hơn sang cải tiến các mô hình nhỏ hơn, hiệu quả hơn.

Sự phát triển của Gemma 2 2B cũng nhấn mạnh tầm quan trọng tăng trưởng của kỹ thuật nén và chưng cất mô hình. Bằng cách chắt lọc kiến ​​thức một cách hiệu quả từ các mô hình lớn hơn thành các mô hình nhỏ hơn, các nhà nghiên cứu có thể tạo ra các công cụ AI dễ tiếp cận hơn mà không làm giảm hiệu suất. Phương pháp này không chỉ giảm yêu cầu tính toán mà còn giải quyết mối lo ngại về tác động hoàn cảnh của việc đào tạo và chạy các mô hình AI lớn.

ShieldGemma: công cụ phân loại bảo mật tiên tiến nhất

Báo cáo kỹ thuật: https://storage.googleapis.com/deepmind-media/gemma/shieldgemma-report.pdf

ShieldGemma là một bộ công cụ phân loại bảo mật nâng cao được thiết kế để phát hiện và giảm thiểu nội dung có hại trong đầu vào và đầu ra của mô hình AI, giúp các nhà phát triển triển khai mô hình một cách có trách nhiệm.

ShieldGemma được thiết kế đặc biệt để nhắm vào bốn khu vực nguy hiểm chính:

lời nói căm thù

Quấy rối

Nội dung khiêu dâm

Nội dung nguy hiểm

Các trình phân loại mở này bổ sung cho bộ phân loại bảo mật hiện có trong Bộ công cụ AI có trách nhiệm.

Với ShieldGemma, người dùng có thể tạo các ứng dụng AI an toàn hơn và tốt hơn

Hiệu suất SOTA: Với tư cách là công cụ phân loại bảo mật, ShieldGemma đã đạt đến cấp độ dẫn đầu ngành;

Có nhiều kích cỡ khác nhau: ShieldGemma cung cấp nhiều mẫu mã khác nhau để phù hợp với các nhu cầu khác nhau. Mô hình 2B rất phù hợp cho nhiệm vụ phân loại trực tuyến, trong khi phiên bản 9B và 27B cung cấp hiệu suất cao hơn cho các ứng dụng ngoại tuyến trong đó độ trễ ít đáng lo ngại hơn.

Như được hiển thị trong bảng bên dưới, các mẫu ShieldGemma (SG) (2B, 9B và 27B) hoạt động tốt hơn tất cả các mẫu cơ bản, bao gồm cả GPT-4.

Gemma Scope: Làm cho mô hình trở nên minh bạch hơn

Gemma Scope nhằm mục đích giúp cộng đồng nghiên cứu AI khám phá cách xây dựng hệ thống AI dễ hiểu và đáng tin cậy hơn. Nó cung cấp cho các nhà nghiên cứu và nhà phát triển sự minh bạch chưa từng có trong quá trình ra quyết định đằng sau các mô hình Gemma 2. Gemma Scope giống như một chiếc kính hiển vi mạnh mẽ sử dụng bộ mã hóa tự động thưa thớt (SAE) để phóng đại hoạt động bên trong của một mô hình, giúp diễn giải dễ dàng hơn.

Báo cáo kỹ thuật của Gemma Scope: https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf

SAE giúp người dùng phân tích thông tin phức tạp được Gemma 2 xử lý và mở rộng nó thành một dạng dễ phân tích và dễ hiểu hơn, để các nhà nghiên cứu có thể thu được nhận xét sâu sắc có giá trị về cách Gemma 2 nhận dạng các mẫu, xử lý thông tin và cuối cùng là đưa ra dự đoán.

Đây là lý do tại sao Gemma Scope lại mang tính đột phá:

SAE mở: Hơn 400 SAE miễn phí bao gồm tất cả các cấp độ của Gemma 2 2B và 9B;

Bản demo tương tác: Khám phá các khả năng của SAE và phân tích hành vi của mô hình mà không cần viết mã trên Neuronpedia;

Kho lưu trữ dễ sử dụng: Cung cấp mã và ví dụ về tương tác SAE và Gemma 2.

Liên kết tham khảo:

https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/

Bài viết này xuất phát từ tài khoản công khai WeChat "Machine Heart" và được xuất bản với sự cho phép từ 36Kr.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận