Sriram Krishnan

Sriram Krishnan

299,279 người theo dõi trên Twitter

Theo dõi

bitter-lesson-pilled. personal views only. White House/official: @skrishnan47

Bài đăng

Sriram Krishnan

Chúc mừng @jordihays và @johncoogan. Tôi đã biết cả hai người từ lâu và tất cả thành công của họ đều hoàn toàn xứng đáng với những nỗ lực mà họ đã bỏ ra. Họ đã rất nghiêm túc với ý tưởng của mình và tạo ra một điều kỳ diệu.

Sriram Krishnan

Thật sự rất hào hứng với sự ra mắt của Gemma 4 từ @demishassabis và nhóm DeepMind. Các mô hình mã nguồn mở là một mặt trận quan trọng để phương Tây dẫn đầu và đây là một sự bổ sung rất quan trọng cho nỗ lực này. Rất mong chờ được thấy các nhà phát triển ở Thung lũng Silicon và trên toàn thế giới có thể xây dựng được những gì bằng cách sử dụng công nghệ này. twitter.com/sriramk/status/203...

Sriram Krishnan

Nội dung chủ đề

Bài viết hay từ @boazbaraktcs / Tôi đồng ý với nhiều điểm trong bài này.

Sriram Krishnan

Chính quyền Trump đang dốc toàn lực để GIÀNH CHIẾN THẮNG trong cuộc đua trí tuệ nhân tạo – vì sự thịnh vượng, an ninh của nước Mỹ và một kỷ nguyên mới của sự phát triển toàn cầu. 🇺🇸🚀 Để đạt được những mục tiêu này cần một khuôn khổ chính sách quốc gia hợp lý: giải phóng ngành công nghiệp Mỹ để phát triển mạnh mẽ, đồng thời đảm bảo TẤT CẢ người dân Mỹ đều được hưởng lợi.

Sriram Krishnan

Dự án cuối tuần. Thực hiện phân tích ngược và viết lại bằng Rust trò chơi Contra của NES, chỉ sử dụng các mô hình mới nhất. - Tôi thực sự kinh ngạc về những gì mình đã đạt được mà không hề biết gì về phân tích ngược. Các mô hình *rất* tốt cho việc phân tích ngược. - Tôi vẫn cần phải đưa ra ý kiến khi rõ ràng một hướng đi là bế tắc hoặc để thử một phương án thay thế hiển nhiên. Ví dụ: "tìm kiếm trên web xem có ai khác đã phân tích ngược các kho dữ liệu âm thanh chưa". - Thành công lớn nhất là khi tôi có thể thiết lập một vòng lặp tự động. Việc thiết lập "chụp ảnh màn hình từ trình giả lập và so sánh với bản dựng hiện tại rồi giảm thiểu sự khác biệt" chạy qua đêm đã giúp tôi tiến bộ vượt bậc.

Sriram Krishnan

Tôi nhớ mình đã bỏ học để xem trận đấu này. Từ chỗ nghĩ "chắc chắn thua ngay hiệp này" đến "khoan đã..." rồi đến chiến thắng không tưởng. Một trong những kỷ niệm thể thao yêu thích nhất thời thơ ấu của tôi. twitter.com/sriramk/status/203...

Sriram Krishnan

Bên lề Hội nghị thượng đỉnh #IndiaAIImpactSummit2026, @orfonline và @CarnegieIndia đã tổ chức một cuộc họp kín với @sriramk, Cố vấn chính sách cấp cao về Trí tuệ nhân tạo tại Nhà Trắng. Cuộc trò chuyện đã thảo luận về bối cảnh trí tuệ nhân tạo đang phát triển, các ưu tiên chiến lược quan trọng và các hướng hợp tác trong một hệ sinh thái đang thay đổi nhanh chóng.

Sriram Krishnan

Đã kích hoạt huấn luyện fp8, cải thiện "thời gian đến GPT-2" thêm +4,3%, giảm xuống còn 2,91 giờ. Cũng cần lưu ý rằng nếu bạn sử dụng giá phiên bản spot 8XH100, việc tái tạo GPT-2 này thực sự chỉ tốn khoảng 20 đô la. Vì vậy, đây là một tin tuyệt vời - GPT-2 (cách đây 7 năm): quá nguy hiểm để thả ra. GPT-2 (hôm nay): MNIST mới! :) Chắc chắn việc này có thể hoàn thành trong thời gian dưới 1 giờ. Vài lời nữa về fp8, nó phức tạp Bit tôi dự đoán và tôi mất khá nhiều thời gian để tìm ra cách sử dụng nó, thậm chí bây giờ tôi vẫn chưa chắc chắn 100% liệu đó có phải là một ý tưởng hay hay không vì nó nhận được ít sự hỗ trợ hơn. Trên lý thuyết, fp8 trên H100 có hiệu suất FLOPS gấp đôi, nhưng trên thực tế thì thấp hơn nhiều. Chúng ta không hoàn toàn bị giới hạn bởi khả năng tính toán trong quá trình huấn luyện thực tế, có thêm chi phí phát sinh từ việc chuyển đổi tỷ lệ, các GEMM không đủ lớn trên thang đo GPT-2 để bù đắp rõ ràng cho chi phí phát sinh, và tất nhiên - ở độ chính xác thấp hơn, chất lượng của mỗi bước cũng nhỏ hơn. Đối với công thức chia tỷ lệ theo hàng, đường cong mất mát của fp8 so với bf16 khá gần nhau nhưng tốc độ tổng thể chậm hơn. Đối với việc chia tỷ lệ theo tensor, các đường cong mất mát tách biệt hơn (nghĩa là mỗi bước đều có chất lượng kém hơn), nhưng ít nhất giờ đây chúng ta cũng có được tốc độ nhanh hơn (~7,3%). Bạn có thể đơn giản là cải thiện hiệu năng bằng cách tăng khoảng thời gian huấn luyện (huấn luyện nhiều bước hơn, nhưng mỗi bước sẽ nhanh hơn) và hy vọng rằng về tổng thể bạn sẽ đạt được kết quả tốt hơn. Trong trường hợp này và nhìn chung, Bit khi thử nghiệm với các công thức và khoảng thời gian huấn luyện này, cho đến nay tôi đã đạt được tốc độ tăng khoảng 5%. Torchao trong bài báo của họ báo cáo tốc độ huấn luyện fp8 của Llama3-8B là 25% (so với khoảng 7,3% của tôi mà không tính đến khả năng), gần hơn với những gì tôi hy vọng ban đầu, mặc dù Llama3-8B là một mô hình lớn hơn nhiều. Đây có lẽ chưa phải là kết thúc của câu chuyện fp8. Có thể cải thiện mọi thứ bằng cách lựa chọn chính xác các lớp cần áp dụng nó và cẩn thận hơn với các thông số toán học trên toàn mạng. twitter.com/karpathy/status/20...

Sriram Krishnan

Nội dung chủ đề

Tiếp nối bài đăng xuất sắc của @karpathy về tình trạng của các mô hình lập trình. Quá trình lập trình cá nhân của tôi trong hơn 20 năm đã thay đổi từ việc viết rất nhiều mã mỗi ngày đến việc hầu như không viết mã nào, và giờ đây đột nhiên có thể tạo ra rất nhiều mã bằng cách sử dụng LLM. Trong kỳ nghỉ lễ, tôi đã xây dựng một trò chơi chiến lược thời gian thực (RTS) kiểu "Sims" cho các con dựa trên gia đình mình. Mẹo nhỏ: các con bạn sẽ thích thú khi tạo ra phiên bản trò chơi điện tử của bạn làm những điều xấu hổ hết lần này đến lần khác. Là một người chưa từng lập trình đồ họa 2D/logic trò chơi cơ bản, tôi đã rất ngạc nhiên khi có thể xây dựng trong một giờ những thứ mà trước đây tôi phải mất hàng tuần, và sau đó kết hợp các đề xuất từ các con ("bố đi vệ sinh nhiều hơn" / "các con được ăn vặt nhiều hơn") chỉ trong vài giây. Tôi nhận thấy quy trình lập trình của mình hiện nay khác biệt đáng kể so với vài năm trước. Tôi thấy mình bị cuốn vào một lượng lớn mã mà tôi không viết và phải hiểu/gỡ lỗi/điều chỉnh, rồi lại để mô hình tự hoạt động. Như @karpathy đã nói, đây là một sự nâng cấp vượt bậc so với chỉ vài tháng trước, khi bạn phải tự viết hầu hết mã code.

Sriram Krishnan

Nếu ngành công nghiệp AI cần một MVP (Sản phẩm khả thi tối thiểu) cho tháng vừa qua, tôi sẽ đề cử @AndyMasley Anh ấy gần như một mình thực hiện các phép tính và báo cáo thực tế để chống lại những trò lừa bịp xung quanh vấn đề nước và trung tâm dữ liệu.

Loading..