Đã kích hoạt huấn luyện fp8, cải thiện "thời gian đến GPT-2" thêm +4,3%, giảm xuống còn 2,91 giờ. Cũng cần lưu ý rằng nếu bạn sử dụng giá phiên bản spot 8XH100, việc tái tạo GPT-2 này thực sự chỉ tốn khoảng 20 đô la. Vì vậy, đây là một tin tuyệt vời - GPT-2 (cách đây 7 năm): quá nguy hiểm để thả ra. GPT-2 (hôm nay): MNIST mới! :) Chắc chắn việc này có thể hoàn thành trong thời gian dưới 1 giờ. Vài lời nữa về fp8, nó phức tạp Bit tôi dự đoán và tôi mất khá nhiều thời gian để tìm ra cách sử dụng nó, thậm chí bây giờ tôi vẫn chưa chắc chắn 100% liệu đó có phải là một ý tưởng hay hay không vì nó nhận được ít sự hỗ trợ hơn. Trên lý thuyết, fp8 trên H100 có hiệu suất FLOPS gấp đôi, nhưng trên thực tế thì thấp hơn nhiều. Chúng ta không hoàn toàn bị giới hạn bởi khả năng tính toán trong quá trình huấn luyện thực tế, có thêm chi phí phát sinh từ việc chuyển đổi tỷ lệ, các GEMM không đủ lớn trên thang đo GPT-2 để bù đắp rõ ràng cho chi phí phát sinh, và tất nhiên - ở độ chính xác thấp hơn, chất lượng của mỗi bước cũng nhỏ hơn. Đối với công thức chia tỷ lệ theo hàng, đường cong mất mát của fp8 so với bf16 khá gần nhau nhưng tốc độ tổng thể chậm hơn. Đối với việc chia tỷ lệ theo tensor, các đường cong mất mát tách biệt hơn (nghĩa là mỗi bước đều có chất lượng kém hơn), nhưng ít nhất giờ đây chúng ta cũng có được tốc độ nhanh hơn (~7,3%). Bạn có thể đơn giản là cải thiện hiệu năng bằng cách tăng khoảng thời gian huấn luyện (huấn luyện nhiều bước hơn, nhưng mỗi bước sẽ nhanh hơn) và hy vọng rằng về tổng thể bạn sẽ đạt được kết quả tốt hơn. Trong trường hợp này và nhìn chung, Bit khi thử nghiệm với các công thức và khoảng thời gian huấn luyện này, cho đến nay tôi đã đạt được tốc độ tăng khoảng 5%. Torchao trong bài báo của họ báo cáo tốc độ huấn luyện fp8 của Llama3-8B là 25% (so với khoảng 7,3% của tôi mà không tính đến khả năng), gần hơn với những gì tôi hy vọng ban đầu, mặc dù Llama3-8B là một mô hình lớn hơn nhiều. Đây có lẽ chưa phải là kết thúc của câu chuyện fp8. Có thể cải thiện mọi thứ bằng cách lựa chọn chính xác các lớp cần áp dụng nó và cẩn thận hơn với các thông số toán học trên toàn mạng.
Bài viết này được dịch máy
Xem bản gốc

Andrej Karpathy
@karpathy
02-01
nanochat can now train GPT-2 grade LLM for <<$100 (~$73, 3 hours on a single 8XH100 node).
GPT-2 is just my favorite LLM because it's the first time the LLM stack comes together in a recognizably modern form. So it has become a bit of a weird & lasting obsession of mine to train

Từ Twitter
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận
Chia sẻ
Nội dung liên quan





