Chuỗi nam châm Llama 3.1 bị rò rỉ từ trước, ngôi vương mẫu mã mã nguồn mở đổi chủ chỉ sau một đêm, GPT-4o bị vượt qua

avatar
36kr
07-23
Bài viết này được dịch máy
Xem bản gốc

Lịch sử lặp lại một lần nữa, Llama 3.1 405B bị rò rỉ từ trước!

Hiện nay, thông tin về điểm chuẩn và Chuỗi nam châm đã lan rộng.

Ngoài 405B lớn nhất, Meta cũng đã nâng cấp các mẫu 8B và 70B được phát hành vào đầu tháng 5 lần , đồng thời tăng thời lượng ngữ cảnh lên 128K.

Tại thời điểm này, phiên bản mô hình đã chính thức được lặp lại từ Llama 3 đến Llama 3.1.

Theo thông tin được cung cấp bởi magnet Chuỗi, kích thước model mới là 763,48GiB (khoảng 820GB).

Qua “bài test Benchmark” bị rò rỉ có thể thấy ngay cả mẫu nhỏ 8B cũng có thể chơi tốt, hiệu năng của mẫu 70B có thể đuổi kịp GPT-4o trên nhiều benchmark.

Các nhà phát triển đã rất tức giận sau khi nhìn thấy kết quả thử nghiệm, Giám đốc điều hành Topology Aidan McLau đã thốt lên——

Nếu điểm chuẩn của Llama 3-405B là đúng thì nó sẽ

- Trở thành người mẫu giỏi nhất thế giới

- Có thể điều chỉnh cho mọi người

- Rẻ hơn GPT-4o!

Giám đốc điều hành HyperWriteAI Matt Schumer dự đoán: Nó chắc chắn sẽ trở thành SOTA trong mô hình mã nguồn mở. (Ngay cả 70B cũng có thể cạnh tranh với GPT-4o, chưa kể đây là trước khi có lệnh tinh chỉnh.)

Hãy tưởng tượng một mô hình cấp GPT-4o chạy ở tốc độ 330 mã thông báo mỗi giây và rẻ hơn 10 lần. Điều này thì thú vị.

Ngày mai sẽ là một ngày hoang dã!

Và lời nói của Tiêu Zha ám chỉ sự xuất hiện của 405B - ​​khoảnh khắc yên tĩnh trước tuần định mệnh.

Nhiều cư dân mạng đang hỏi OpenAI trực tuyến: Khi nào mẫu mới sẽ ra mắt?

Gia đình Llama 3.1, ra mắt vào ngày mai

Theo thẻ mô hình bị rò rỉ, Llama 3.1 sẽ được phát hành vào ngày 23.

Các giấy phép là "Giấy phép thương mại tùy chỉnh" và "Giấy phép cộng đồng Llama 3.1".

Thẻ mẫu bị rò rỉ: https://pastebin.com/9jGkYbXY

Cụ thể, sê-ri Llama 3.1 mô hình lớn đa ngôn ngữ là tập hợp các mô hình tổng quát được tinh chỉnh và đào tạo trước, bao gồm ba kích thước tham số 8B, 70B và 405B.

Các model chỉ có văn bản Llama 3.1 (8B, 70B, 405B) sau khi tinh chỉnh hướng dẫn, tối ưu hóa cho các trường hợp sử dụng hội thoại đa ngôn ngữ.

Ngoài tiếng Anh, nó có thể hỗ trợ 7 ngôn ngữ, bao gồm tiếng Đức, tiếng Pháp, tiếng Ý, tiếng Bồ Đào Nha, tiếng Hindi, tiếng Tây Ban Nha và tiếng Thái.

Theo báo cáo, các khả năng mới của Llama 3.1 bao gồm ngữ cảnh dài hơn, hỗ trợ đầu vào và đầu ra đa ngôn ngữ cũng như tích hợp các nhà phát triển với các công cụ của bên thứ ba.

Điểm chuẩn

Biểu đồ điểm chuẩn trên GitHub (hiện là 404) cho thấy hiệu suất tuyệt vời của Llama 3.1 trong bài kiểm tra điểm chuẩn.

Cụ thể, trong đánh giá benchmark của mô hình benchmark pre-training, Llama 3.1 405B lập kỷ lục mới nhất ở nhiệm vụ tổng quát, lý luận kiến ​​thức và đọc hiểu.

Đặc biệt ở điểm chuẩn phân khu MMLU và SQuAD, sự cải thiện là rõ ràng nhất.

Đồng thời, phiên bản thông số Llama 3.1 8B và 70B đã được cải thiện đôi chút so với Llama 3. Tuy nhiên, ở một số chỉ báo, 70B Llama 3.1 không bằng thế hệ trước.

Ngoài ra, trong mô hình tinh chỉnh lệnh, có thể thấy Llama 3.1 405B mạnh hơn mô hình được huấn luyện trước. Trong lý luận, mã hóa, toán học, sử dụng công cụ và điểm chuẩn đa ngôn ngữ, họ đã nghiền nát phiên bản 8B và 70B được tinh chỉnh.

Các mẫu tinh chỉnh Llama 3.1 8B và 70B cũng cải thiện đáng kể hiệu suất trong nhiều nhiệm vụ khả năng.

Một số cư dân mạng đã tổng hợp điểm chuẩn của các mẫu xe hàng đầu khác Qua so sánh, có thể thấy Claude 3.5 Sonnet chính là vua của mọi điểm chuẩn.

Phiên bản tinh chỉnh Llama 3.1 405B là phiên bản tốt nhất chỉ trên benchmark toán học MMLU Pro, đánh bại tất cả các mẫu máy lớn với số điểm 73,3%.

Ngoài ra, 405B ngang bằng với GPT-4o về các điểm chuẩn GPQA (Kiến thức và lý luận chuyên môn cấp độ sau đại học), Toán học, DROP (Đọc hiểu), MGSM (Toán học đa ngôn ngữ), HumanEval (Lập trình) và BBH (Đánh giá kiến ​​thức) .

Hơn nữa, 405B vượt trội đáng kể so với mẫu mini GPT-4o mới nhất.

Llama 3.1 là mô hình ngôn ngữ tự hồi quy sử dụng kiến ​​trúc Transformer được tối ưu hóa. Phiên bản điều chỉnh sử dụng SFT và RLHF để phù hợp với sở thích của con người về độ an toàn.

Đối với các mẫu sê-ri Llama 3.1, số lượng mã thông báo chỉ đề cập đến dữ liệu đào tạo trước.

Tất cả các phiên bản mô hình đều sử dụng Chú ý truy vấn được nhóm (GQA) để cải thiện mở rộng suy luận.

Dữ liệu đào tạo mã thông báo 15T

Giống như Llama 3, Llama 3.1 được đào tạo trước trên khoảng 15 nghìn tỷ token từ các nguồn có sẵn công khai.

Dữ liệu tinh chỉnh bao gồm các bộ dữ liệu hướng dẫn có sẵn công khai cũng như hơn 25 triệu mẫu tổng hợp và dữ liệu đào tạo trước có sẵn cho đến tháng 12 năm 2023.

Có sẵn cho nghiên cứu thương mại

Llama 3.1 hỗ trợ nhiều hoàn cảnh ngôn ngữ cho mục đích thương mại và nghiên cứu.

Các mô hình chỉ có văn bản được tinh chỉnh với các hướng dẫn phù hợp với trợ lý trò chuyện, trong khi các mô hình được đào tạo trước có thể được điều chỉnh cho phù hợp với nhiều nhiệm vụ tạo ngôn ngữ tự nhiên khác nhau. Bộ sưu tập mô hình Llama 3.1 cũng hỗ trợ tận dụng đầu ra mô hình của nó để cải thiện các mô hình khác, bao gồm tạo dữ liệu tổng hợp và chắt lọc mô hình.

Vi phạm luật và quy định sử dụng, chính sách sử dụng cũng như các ngôn ngữ bị cấm và hỗ trợ của cộng đồng Llama 3.1 nằm ngoài phạm vi.

Và đội ngũ nhấn mạnh rằng ngoài 8 ngôn ngữ được hỗ trợ, Llama 3.1 còn được đào tạo trên nhiều ngôn ngữ hơn. Các nhà phát triển có thể tinh chỉnh nó và áp dụng nó cho các ngôn ngữ khác, miễn là tuân thủ các chính sách như giấy phép cộng đồng và việc sử dụng phải an toàn và có trách nhiệm.

39,3 triệu giờ đào tạo GPU

Trong quá trình đào tạo trước, Meta sử dụng thư viện đào tạo tùy chỉnh, cụm GPU tùy chỉnh Meta và cơ sở hạ tầng sản xuất. Tinh chỉnh, chú thích và đánh giá cũng được thực hiện trên cơ sở hạ tầng sản xuất.

Đào tạo đã sử dụng tổng cộng 39,3 triệu giờ tính toán GPU và loại phần cứng là H100-80GB (TDP là 700W).

Thời gian đào tạo là tổng thời gian GPU cần thiết để đào tạo từng model và mức tiêu thụ điện năng là công suất điện cao nhất của từng thiết bị GPU, được điều chỉnh theo hiệu quả sử dụng điện năng.

Tổng lượng phát thải khí nhà kính theo địa điểm từ khóa đào tạo ước tính là 11.390 tấn carbon dioxide tương đương (CO2eq).

Meta nhấn mạnh rằng họ đã duy trì lượng phát thải khí nhà kính bằng không kể từ năm 2020 và 100% điện năng được tạo ra từ các nguồn tài nguyên tái tạo, do đó tổng lượng phát thải khí nhà kính dựa trên tiêu chuẩn thị trường là 0 tấn carbon dioxide tương đương.

rủi ro đáng kể

Meta cũng đã tiến hành thử nghiệm rủi ro lớn.

Bao gồm tính hữu ích của CBRNE (Vật liệu Hóa học, Sinh học, Phóng xạ, Hạt nhân và Chất nổ), an toàn cho trẻ em và các cuộc tấn công mạng.

Về các cuộc tấn công mạng, đội ngũ đã điều tra xem liệu LLM có thể cải thiện khả năng của con người trong nhiệm vụ hacker hay không, bao gồm cấp độ kỹ năng và tốc độ.

Nghiên cứu tập trung vào đánh giá khả năng LLM được sử dụng làm tác nhân tự trị trong các hoạt động tấn công mạng, đặc biệt là khi bị tấn công bởi ransomware.

Mục tiêu chính là đánh giá liệu các mô hình này có thể thực hiện hiệu quả các cuộc tấn công mạng phức tạp như các tác nhân độc lập mà không cần sự can thiệp của con người hay không.

Cư dân mạng đang rán nồi và chứng kiến ​​lại lịch sử

Sau khi Chuỗi nam châm được tung ra, cư dân mạng thiếu kiên nhẫn đã bắt đầu tải xuống trực tiếp, nhưng việc này có thể sẽ mất nhiều thời gian.

Một số cư dân mạng đang chờ đợi Llama 3.1 405B ra mắt vào ngày mai và chứng kiến ​​lại lịch sử!

Khoảng cách giữa các mô hình mã nguồn mở và nguồn đóng đã được thu hẹp lại.

Có người còn thử nghiệm câu hỏi bẫy kinh điển "Ai lớn hơn, 9,11 hay 9,9?", và Llama 3,1-405B thực sự đã trả lời đúng.

Đối với "GPU kém", 820GB là quá bất đắc dĩ để chạy trên notebook.

Tham khảo:

https://x.com/bindureddy/status/1815443198459990098

https://x.com/kimmonismus/status/1815314833236984274

https://x.com/mattshumer_/status/1815453195717742838

https://x.com/swishfever/status/1815512729286815756

Bài viết này xuất phát từ tài khoản công khai WeChat "Xin Zhiyuan" , tác giả: Xinzhiyuan, 36 Krypton được xuất bản với sự cho phép.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận