Mã nguồn mở Llama 3 của Meta đã bắt kịp OpenAI

avatar
WIRED
04-26
Bài viết này được dịch máy
Xem bản gốc

Jerome Pesenti có một số lý do để ăn mừng quyết định của Meta vào tuần trước về việc phát hành Llama 3 , một mô hình ngôn ngữ lớn mã nguồn mở mạnh mẽ mà bất kỳ ai cũng có thể tải xuống, chạy và xây dựng trên đó.

Pesenti từng là phó chủ tịch trí tuệ nhân tạo tại Meta và cho biết ông thường thúc đẩy công ty xem xét việc phát hành công nghệ của mình cho người khác sử dụng và phát triển. Nhưng lý do chính để anh vui mừng là công ty khởi nghiệp mới của anh sẽ có quyền truy cập vào một mô hình AI mà anh cho rằng có sức mạnh rất gần với trình tạo văn bản hàng đầu trong ngành của OpenAI là GPT-4 , nhưng vận hành rẻ hơn đáng kể và cởi mở hơn với sự giám sát và sửa đổi từ bên ngoài. .

Pesenti nói: “Việc phát hành vào thứ Sáu tuần trước thực sự giống như một yếu tố thay đổi cuộc chơi. Công ty mới của anh, Sizzle , một gia sư AI, hiện đang sử dụng GPT-4 và các mô hình AI khác, cả đóng và mở, để tạo ra các bộ vấn đề và chương trình giảng dạy cho học sinh. Các kỹ sư của ông đang đánh giá liệu Llama 3 có thể thay thế mô hình của OpenAI trong nhiều trường hợp hay không.

Câu chuyện của Sizzle có thể báo trước một sự thay đổi lớn hơn trong cán cân quyền lực trong AI. OpenAI đã thay đổi thế giới với ChatGPT, tạo ra làn sóng đầu tư vào AI và thu hút hơn 2 triệu nhà phát triển sử dụng API đám mây của mình. Nhưng nếu các mô hình nguồn mở tỏ ra có tính cạnh tranh, các nhà phát triển và doanh nhân có thể quyết định ngừng trả tiền để truy cập mô hình mới nhất từ ​​OpenAI hoặc Google và sử dụng Llama 3 hoặc một trong những mô hình nguồn mở ngày càng mạnh mẽ khác đang xuất hiện.

“Đây sẽ là một cuộc đua ngựa thú vị,” Pesenti nói về sự cạnh tranh giữa các mô hình mở như Llama 3 và các mô hình đóng như GPT-4 và Gemini của Google.

Mô hình trước đây của Meta, Llama 2, vốn đã có ảnh hưởng, nhưng công ty cho biết họ đã làm cho phiên bản mới nhất trở nên mạnh mẽ hơn bằng cách cung cấp cho nó lượng lớn dữ liệu đào tạo chất lượng cao hơn, với các kỹ thuật mới được phát triển để lọc ra nội dung dư thừa hoặc bị cắt xén và chọn ra nội dung tốt nhất. hỗn hợp các tập dữ liệu để sử dụng.

Pesenti cho biết việc chạy Llama 3 trên nền tảng đám mây như Fireworks.ai chỉ tốn 1/20 chi phí truy cập GPT-4 thông qua API. Ông nói thêm rằng Llama 3 có thể được cấu hình để phản hồi các truy vấn cực kỳ nhanh chóng, đây là một điểm cân nhắc quan trọng đối với các nhà phát triển tại các công ty như của ông, những công ty dựa vào việc khai thác các mô hình từ các nhà cung cấp khác nhau. “Đó là sự cân bằng giữa độ trễ, chi phí và độ chính xác,” ông nói.

Các mô hình mở dường như đang giảm ở mức ấn tượng. Một vài tuần trước, tôi đã đến thăm công ty khởi nghiệp Databricks để chứng kiến ​​những giai đoạn cuối cùng của nỗ lực xây dựng DBRX , một mô hình ngôn ngữ được xây dựng trong thời gian ngắn là mô hình mở tốt nhất hiện nay. Vương miện đó bây giờ là của Llama 3. Ali Ghodsi, Giám đốc điều hành của Databricks, cũng mô tả Llama 3 là “sự thay đổi trò chơi” và cho biết mô hình lớn hơn “đang tiến gần đến chất lượng của GPT 4—điều đó tạo ra sân chơi bình đẳng giữa LLM nguồn mở và nguồn đóng”.

Llama 3 cũng cho thấy tiềm năng tạo ra các mô hình AI nhỏ hơn để chúng có thể chạy trên phần cứng kém mạnh mẽ hơn. Meta đã phát hành hai phiên bản của mô hình mới nhất của mình, một phiên bản có 70 tỷ tham số—một thước đo các biến mà nó sử dụng để học từ dữ liệu huấn luyện—và một phiên bản khác có 8 tỷ tham số. Model nhỏ hơn đủ nhỏ gọn để chạy trên máy tính xách tay nhưng có khả năng vượt trội, ít nhất là trong thử nghiệm của WIRED.

Hai ngày trước khi Meta phát hành, Mistral , một công ty AI của Pháp được thành lập bởi cựu sinh viên nhóm Pesenti tại Meta, Mixtral 8x22B có nguồn mở . Nó có 141 tỷ thông số nhưng chỉ sử dụng 39 tỷ thông số cùng một lúc, một thiết kế được biết đến là sự kết hợp của các chuyên gia. Nhờ thủ thuật này, mô hình này có khả năng hoạt động tốt hơn đáng kể so với một số mô hình lớn hơn nhiều.

Meta không phải là gã khổng lồ công nghệ duy nhất phát hành AI nguồn mở. Tuần này Microsoft đã phát hành Phi-3-mini và Apple đã phát hành OpenELM , hai mẫu ngôn ngữ nhỏ nhưng có khả năng sử dụng miễn phí và có thể chạy trên điện thoại thông minh.

Những tháng tới sẽ cho thấy liệu Llama 3 và các mô hình mở khác có thực sự có thể thay thế các mô hình AI cao cấp như GPT-4 đối với một số nhà phát triển hay không. Và thậm chí AI nguồn mở mạnh mẽ hơn nữa sắp ra mắt. Công ty đang nghiên cứu một phiên bản khổng lồ với 400 tỷ tham số của Llama 3 mà giám đốc khoa học AI Yann LeCun cho rằng sẽ là một trong những phiên bản có năng lực nhất trên thế giới.

Tất nhiên tất cả sự cởi mở này không hoàn toàn là lòng vị tha. Giám đốc điều hành Meta Mark Zuckerberg cho biết việc mở rộng các mô hình AI cuối cùng sẽ mang lại lợi ích cho công ty bằng cách giảm chi phí cho các công nghệ mà công ty dựa vào, chẳng hạn như bằng cách tạo ra các công cụ và dịch vụ tương thích mà Meta có thể sử dụng cho chính nó. Anh ấy không nói rằng việc ngăn chặn OpenAI, Microsoft hoặc Google thống trị lĩnh vực này cũng có thể mang lại lợi ích cho Meta.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
1
Thêm vào Yêu thích
Bình luận