avatar
Sriram Krishnan
299,279 người theo dõi trên Twitter
Theo dõi
bitter-lesson-pilled. personal views only. White House/official: @skrishnan47
Bài đăng
avatar
Sriram Krishnan
02-04
Đã kích hoạt huấn luyện fp8, cải thiện "thời gian đến GPT-2" thêm +4,3%, giảm xuống còn 2,91 giờ. Cũng cần lưu ý rằng nếu bạn sử dụng giá phiên bản spot 8XH100, việc tái tạo GPT-2 này thực sự chỉ tốn khoảng 20 đô la. Vì vậy, đây là một tin tuyệt vời - GPT-2 (cách đây 7 năm): quá nguy hiểm để thả ra. GPT-2 (hôm nay): MNIST mới! :) Chắc chắn việc này có thể hoàn thành trong thời gian dưới 1 giờ. Vài lời nữa về fp8, nó phức tạp Bit tôi dự đoán và tôi mất khá nhiều thời gian để tìm ra cách sử dụng nó, thậm chí bây giờ tôi vẫn chưa chắc chắn 100% liệu đó có phải là một ý tưởng hay hay không vì nó nhận được ít sự hỗ trợ hơn. Trên lý thuyết, fp8 trên H100 có hiệu suất FLOPS gấp đôi, nhưng trên thực tế thì thấp hơn nhiều. Chúng ta không hoàn toàn bị giới hạn bởi khả năng tính toán trong quá trình huấn luyện thực tế, có thêm chi phí phát sinh từ việc chuyển đổi tỷ lệ, các GEMM không đủ lớn trên thang đo GPT-2 để bù đắp rõ ràng cho chi phí phát sinh, và tất nhiên - ở độ chính xác thấp hơn, chất lượng của mỗi bước cũng nhỏ hơn. Đối với công thức chia tỷ lệ theo hàng, đường cong mất mát của fp8 so với bf16 khá gần nhau nhưng tốc độ tổng thể chậm hơn. Đối với việc chia tỷ lệ theo tensor, các đường cong mất mát tách biệt hơn (nghĩa là mỗi bước đều có chất lượng kém hơn), nhưng ít nhất giờ đây chúng ta cũng có được tốc độ nhanh hơn (~7,3%). Bạn có thể đơn giản là cải thiện hiệu năng bằng cách tăng khoảng thời gian huấn luyện (huấn luyện nhiều bước hơn, nhưng mỗi bước sẽ nhanh hơn) và hy vọng rằng về tổng thể bạn sẽ đạt được kết quả tốt hơn. Trong trường hợp này và nhìn chung, Bit khi thử nghiệm với các công thức và khoảng thời gian huấn luyện này, cho đến nay tôi đã đạt được tốc độ tăng khoảng 5%. Torchao trong bài báo của họ báo cáo tốc độ huấn luyện fp8 của Llama3-8B là 25% (so với khoảng 7,3% của tôi mà không tính đến khả năng), gần hơn với những gì tôi hy vọng ban đầu, mặc dù Llama3-8B là một mô hình lớn hơn nhiều. Đây có lẽ chưa phải là kết thúc của câu chuyện fp8. Có thể cải thiện mọi thứ bằng cách lựa chọn chính xác các lớp cần áp dụng nó và cẩn thận hơn với các thông số toán học trên toàn mạng. twitter.com/karpathy/status/20...
SAGA
8.81%
avatar
Sriram Krishnan
01-29
Nội dung chủ đề
Tiếp nối bài đăng xuất sắc của @karpathy về tình trạng của các mô hình lập trình. Quá trình lập trình cá nhân của tôi trong hơn 20 năm đã thay đổi từ việc viết rất nhiều mã mỗi ngày đến việc hầu như không viết mã nào, và giờ đây đột nhiên có thể tạo ra rất nhiều mã bằng cách sử dụng LLM. Trong kỳ nghỉ lễ, tôi đã xây dựng một trò chơi chiến lược thời gian thực (RTS) kiểu "Sims" cho các con dựa trên gia đình mình. Mẹo nhỏ: các con bạn sẽ thích thú khi tạo ra phiên bản trò chơi điện tử của bạn làm những điều xấu hổ hết lần này đến lần khác. Là một người chưa từng lập trình đồ họa 2D/logic trò chơi cơ bản, tôi đã rất ngạc nhiên khi có thể xây dựng trong một giờ những thứ mà trước đây tôi phải mất hàng tuần, và sau đó kết hợp các đề xuất từ ​​các con ("bố đi vệ sinh nhiều hơn" / "các con được ăn vặt nhiều hơn") chỉ trong vài giây. Tôi nhận thấy quy trình lập trình của mình hiện nay khác biệt đáng kể so với vài năm trước. Tôi thấy mình bị cuốn vào một lượng lớn mã mà tôi không viết và phải hiểu/gỡ lỗi/điều chỉnh, rồi lại để mô hình tự hoạt động. Như @karpathy đã nói, đây là một sự nâng cấp vượt bậc so với chỉ vài tháng trước, khi bạn phải tự viết hầu hết mã code.
ARC
0%
loading indicator
Loading..