Mô hình AI mới Gemma 3 của Google tỏa sáng cho các nhà văn sáng tạo, nhưng lại Short ở những nơi khác

avatar
Decrypt
03-13
Bài viết này được dịch máy
Xem bản gốc
Dưới đây là bản dịch tiếng Việt của văn bản trên:

Vào thứ Ba, Google đã phát hành Gemma 3, một mô hình AI nguồn mở dựa trên Gemini 2.0 có sức mạnh đáng ngạc nhiên so với kích thước của nó.

Mô hình đầy đủ chạy trên một GPU đơn, tuy nhiên các tiêu chuẩn đánh giá của Google cho thấy nó có tính cạnh tranh đủ để đối đầu với các mô hình lớn hơn yêu cầu nhiều năng lực tính toán hơn đáng kể.

Gia đình mô hình mới, mà Google cho biết đã "được thiết kế cùng với gia đình các mô hình tiên phong Gemini," có bốn kích thước khác nhau từ 1 tỷ đến 27 tỷ tham số.

Google định vị nó như một giải pháp thực tế cho các nhà phát triển cần triển khai AI trực tiếp trên các thiết bị như điện thoại, máy tính xách tay và máy trạm.

"Đây là những mô hình nguồn mở, di động và được phát triển có trách nhiệm nhất của chúng tôi cho đến nay," Clement Farabet, Phó Chủ tịch Nghiên cứu tại Google DeepMind, và Tris Warkentin, Giám đốc tại Google DeepMind, viết trong một thông báo vào thứ Tư.

Mặc dù có kích thước tương đối khiêm tốn, Gemma 3 đã vượt qua các mô hình lớn hơn bao gồm Llama-405B của Meta, DeepSeek-V3, Qwen 2.5 Max của Alibaba và o3-mini của OpenAI trên bảng xếp hạng LMArena.

Phiên bản điều chỉnh 27B đã đạt 1339 trên Elo rating Chatbot Arena LMSys, đặt nó trong số 10 mô hình hàng đầu.

Gemma 3 cũng đa phương thức - nó xử lý văn bản, hình ảnh và thậm chí là video ngắn trong các phiên bản lớn hơn.

Cửa sổ ngữ cảnh mở rộng của nó lên đến 128.000 token (32.000 cho phiên bản 1B) vượt xa giới hạn 8.000 token của Gemma 2 trước đây, cho phép nó xử lý và hiểu nhiều thông tin hơn một lần.

Phạm vi toàn cầu của mô hình mở rộng đến hơn 140 ngôn ngữ, với 35 ngôn ngữ được hỗ trợ ngay từ đầu. Điều này đặt nó thành một lựa chọn khả thi cho các nhà phát triển xây dựng ứng dụng cho khán giả quốc tế mà không cần các mô hình riêng biệt cho các khu vực khác nhau.

Google tuyên bố gia đình Gemma đã có hơn 100 triệu lượt tải về kể từ khi ra mắt vào năm ngoái, với các nhà phát triển tạo ra hơn 60.000 biến thể.

"Gemmaverse" - một hệ sinh thái toàn diện được xây dựng xung quanh gia đình mô hình Gemma - bao gồm các phiên bản tùy chỉnh cho Đông Nam Á, Bulgaria và một mô hình chuyển đổi văn bản sang âm thanh tùy chỉnh có tên OmniAudio.

Các nhà phát triển có thể triển khai các ứng dụng Gemma 3 thông qua Vertex AI, Cloud Run, Google GenAI API hoặc trong các môi trường cục bộ, cung cấp sự linh hoạt cho các yêu cầu về cơ sở hạ tầng khác nhau.

Chúng tôi đã thử nghiệm Gemma 3 qua một loạt các bài kiểm tra thực tế để đánh giá hiệu suất của nó trong các nhiệm vụ khác nhau. Dưới đây là những gì chúng tôi đã tìm thấy trong mỗi lĩnh vực.

Chúng tôi đã ngạc nhiên trước khả năng viết sáng tạo của Gemma 3. Mặc dù chỉ có 27 tỷ tham số, nó đã vượt qua Claude 3.7 Sonnet, người mới đây đã đánh bại Grok-3 trong các bài kiểm tra viết sáng tạo của chúng tôi. Và nó đã thắng một cách dễ dàng.

Gemma 3 đã tạo ra câu chuyện dài nhất trong tất cả các mô hình chúng tôi đã thử, ngoại trừ Longwriter, mô hình được thiết kế đặc biệt cho các câu chuyện dài.

Chất lượng không bị hy sinh vì số lượng - bài viết rất hấp dẫn và độc đáo, tránh được những mở đầu máy móc mà hầu hết các mô hình AI thường có.

Gemma cũng rất giỏi trong việc tạo ra những thế giới chi tiết và sống động với sự liên kết chặt chẽ trong câu chuyện. Tên nhân vật, địa điểm và mô tả đều phù hợp tự nhiên trong bối cảnh câu chuyện.

Đây là một điểm cộng lớn đối với các nhà văn sáng tạo vì các mô hình khác đôi khi nhầm lẫn các tham chiếu văn hóa hoặc bỏ qua những chi tiết nhỏ này, khiến cho sự hấp dẫn bị phá vỡ. Gemma 3 duy trì tính nhất quán贯穿suốt.

Định dạng câu chuyện dài hơn cho phép sự phát triển tự nhiên của câu chuyện với những chuyển tiếp mượt mà giữa các phân đoạn. Mô hình rất giỏi trong việc mô tả hành động, cảm xúc, suy nghĩ và đối thoại theo cách tạo ra một trải nghiệm đọc đáng tin cậy.

Khi được yêu cầu đưa ra một kết thúc bất ngờ, nó đã làm được điều đó mà không phá vỡ logic nội bộ của câu chuyện. Tất cả các mô hình khác cho đến nay đều có xu hướng làm hỏng một chút khi cố gắng kết thúc câu chuyện. Nhưng không phải Gemma.

Đối với các nhà văn sáng tạo tìm kiếm một trợ lý AI có thể giúp với các dự án tiểu thuyết an toàn, Gemma 3 dường như là ứng cử viên hàng đầu hiện tại.

Bạn có thể đọc lời nhắc và tất cả các phản hồi trong kho lưu trữ GitHub của chúng tôi.

Mặc dù khả năng viết sáng tạo của nó rất xuất sắc, Gemma 3 gặp khó khăn đáng kể với các nhiệm vụ phân tích tài liệu.

Chúng tôi đã tải lên một tài liệu 47 trang của IMF vào Google AI Studio, và mặc dù hệ thống đã chấp nhận tệp, mô hình không thể hoàn thành phân tích của nó, bị treo ở giữa nhiệm vụ. Nhiều lần thử đều cho kết quả giống nhau.

Chúng tôi đã thử một cách tiếp cận thay thế đã hoạt động với Grok-3, sao chép và dán nội dung tài liệu trực tiếp vào giao diện, nhưng vẫn gặp phải cùng vấn đề.

Mô hình đơn giản không thể xử lý và tóm tắt nội dung dài.

Đáng chú ý rằng hạn chế này có thể liên quan đến việc triển khai AI Studio của Google hơn là một khuyết điểm vốn có trong mô hình Gemma 3 itself.

Chạy mô hình cục bộ có thể mang lại kết quả tốt hơn cho phân tích tài liệu, nhưng người dùng phụ thuộc vào giao diện chính thức của Google sẽ có khả năng gặp phải những hạn chế này, ít nhất là hiện tại.

Trong một tính năng độc đáo trong các giao diện trò chuyện AI, Google AI Studio cung cấp bộ lọc nội dung rất nghiêm ngặt có thể truy cập thông qua một loạt các thanh trượt.

Chúng tôi đã thử nghiệm ranh giới của Gemma bằng cách yêu cầu lời khuyên đáng ngờ cho các tình huống phi đạo đức giả định (lời khuyên quyến rũ một phụ nữ đã có gia đình), và mô hình đã kiên quyết từ chối tuân thủ. Tương tự, khi được yêu cầu tạo nội dung người lớn cho một tiểu thuyết giả tưởng, nó từ chối tạo ra bất cứ điều gì mang tính gợi cảm.

Những nỗ lực của chúng tôi để điều chỉnh hoặc vượt qua các bộ lọc kiểm duyệt này bằng cách tắt các thông số của Google không thực sự hoạt động.

Các "cài đặt an toàn" của Google AI Studio lý thuyết kiểm soát mức độ hạn chế của mô hình khi nó đến với việc tạo nội dung có thể bị coi là quấy rối, ngôn ngữ thù địch, tình dục hoặc nguy hiểm.

Ngay cả khi tất cả các hạn chế được tắt, mô hình vẫn kiên quyết từ chối tham gia vào các cuộc trò chuyện chứa các yếu tố gây tranh cãi, bạo lực hoặc gây tổn thương - ngay cả khi những điều này rõ ràng là cho mục đích sáng tạo giả tưởng.

Cuối cùng, các biện pháp kiểm soát thực sự không có tác dụng gì.

Những người hy vọng làm việc với các chủ đề nhạy cảm, ngay cả trong các bối cảnh sáng tạo hợp pháp, có thể cần tìm cách để giải phóng mô hình hoặc soạn thảo các lời nhắc rất cẩn thận.

Nhìn chung, các hạn chế nội dung của Gemma 3 đối với những người sẵn sàng sử dụng Studio của Google dường như tương đương với những của ChatGPT, đôi khi thậm chí còn quá nghiêm ngặt tùy thuộc vào trường hợp sử dụng.

Những người sẵn sàng đi cục bộ sẽ không gặp những vấn đề đó. Đối với những người cần một giao diện AI tốt và một mô hình ít bị kiểm duyệt hơn, lựa chọn tốt nhất dường như là Grok-3 có ít hạn chế hơn. Tất cả các mô hình đóng khác cũng đều từ chối.

Bạn có thể đọc lời nhắc và tất cả các phản hồi trong kho lưu trữ GitHub của chúng tôi.

Gemma 3 có bản chất đa phương thức, có nghĩa là nó có thể xử lý và hiểu hình ảnh một cách bản địa mà không cần dựa vào một

Khu vực:
Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận