Sriram Krishnan

Sriram Krishnan

299,279個推特粉絲

關注

bitter-lesson-pilled. personal views only. White House/official: @skrishnan47

動態

Sriram Krishnan

恭喜@jordihays 和 @johncoogan！我認識他們很久了，他們付出了那麼多努力，取得今天的成就實至名歸。他們認真對待一個想法，最終創造出了奇蹟。

Sriram Krishnan

非常興奮地看到 @demishassabis 和 DeepMind 團隊發布了 Gemma 4。開源模型是西方需要保持領先的關鍵領域，而 Gemma 4 的發布無疑是這項努力的重要一步。期待看到矽谷乃至全球的開發者們能夠利用 Gemma 4 建構出怎樣的應用。 twitter.com/sriramk/status/203...

Sriram Krishnan

@boazbaraktcs 的帖子寫得很好，我非常同意其中的大部分觀點。

Sriram Krishnan

川普政府全力以赴，力求在人工智慧競賽中勝出——為了美國的繁榮、安全以及人類繁榮的新時代。 🇺🇸🚀 實現這些目標需要一個務實的國家政策框架：釋放美國產業的潛力，使其蓬勃發展，同時確保所有美國人都能從中受益。

Sriram Krishnan

週末項目：用最新的模擬器模型，對NES上的《魂鬥羅》進行逆向工程，並用Rust語言重寫。 ——我簡直不敢相信自己竟然在對逆向工程一竅不通的情況下取得了如此大的進展。這些模擬器在逆向工程方面*非常*出色。 ——我仍然需要在發現某個路徑是死路或者嘗試其他顯而易見的替代方案時提供一些建議。例如，“在網上搜索其他已經對音效數據庫進行過逆向工程的人”。 ——最大的收穫是能夠設置一個自動化循環。設置“從模擬器中截取屏幕截圖，並將其與當前版本進行比較，然後縮小差異”的程序在夜間運行，這讓我取得了巨大的進步。

Sriram Krishnan

我記得當時為了看這場比賽翹課了。比賽過程跌宕起伏，從“這局肯定要輸”到“等等……”，最後竟然奇蹟般地贏了。這是我童年最美好的體育回憶之一。 twitter.com/sriramk/status/203...

Sriram Krishnan

在#IndiaAIImpactSummit2026峰會期間，@orfonline 和 @CarnegieIndia 與白宮人工智慧高級政策顧問 @sriramk 舉行了一場閉門簡報會。會談探討了人工智慧領域不斷演變的格局、關鍵策略重點以及在快速變化的生態系統中合作的途徑。

Sriram Krishnan

啟用 fp8 訓練後，“GPT-2 訓練時間”提升了 4.3%，現在只需 2.91 小時。另外值得一提的是，如果使用 8 倍 H100 實例價格，復現 GPT-2 的成本實際上只需約 20 美元。這令人振奮—— GPT-2（7 年前）：發佈風險太大。 GPT-2（今天）：新的 MNIST 數據集！:) 肯定能遠低於 1 小時。關於 fp8，我再補充幾句。它比我預想的要複雜一些，我花了一段時間才最終決定採用它，即使現在，由於 fp8 的整體支持度較低，我仍然不能完全確定它是否是個好主意。理論上，H100 上的 fp8 浮點運算能力是 2 倍，但實際上卻遠低於此。在實際訓練過程中，我們並非完全受限於計算能力，額外的尺度轉換會帶來額外的開銷，GEMM 模型在 GPT-2 規模下還不夠大，不足以明顯抵消這些開銷，當然，精度越低，每一步的質量就越小。對於逐行縮放方案，FP8 和 BF16 的損失曲線非常接近，但網絡步進速度較慢。對於逐張縮放方案，損失曲線的差異更大（即每一步的質量都更差），但至少我們現在獲得了速度提升（約 7.3%）。你可以通過增加訓練週期（訓練更多步，但每一步速度更快）來簡單地恢復性能，並希望最終網絡性能能夠提升。在這種情況下，經過對這些方案和訓練週期的調整，目前我最終獲得了約 5% 的速度提升。 Torchao 在他們的論文中報告稱，Llama3-8B 的 FP8 訓練速度提升了 25%（相比之下，我未考慮模型容量的情況下提升了約 7.3%），這更接近我最初的預期，儘管 Llama3-8B 的模型規模要大得多。這可能並非 FP8 的終結。通過精確選擇應用 FP8 的層，並更謹慎地處理網絡中的數值，應該可以進一步提升性能。 twitter.com/karpathy/status/20...

Sriram Krishnan

基於 @karpathy 關於編碼模型現狀的精彩文章。我個人20多年的編碼歷程，從曾經每天編寫大量代碼，到幾乎不寫代碼，再到如今突然能夠使用LLMS生成大量代碼。假期裡，我根據自己家庭的情況，為孩子們製作了一款類似《模擬人生》的RTS遊戲。友情提示：孩子們會很樂意一遍又一遍地在遊戲中扮演你做各種尷尬的事情。作為一個從未編寫過2D圖形/基本遊戲邏輯的人，我驚訝地發現，我竟然只用了一個小時就完成了原本需要幾周才能完成的工作，而且還能在幾秒鐘內將孩子們的建議（“讓爸爸多去幾次洗手間”/“給孩子們多一些零食”）融入其中。我驚訝地發現，我現在的編碼工作流程與幾年前截然不同。我發現自己經常要面對大量並非我編寫的代碼，需要去理解、調試、引導，然後再回到模型自動運行的階段。正如 @karpathy 所說，這比幾個月前的情況有了巨大的提升，那時候大部分代碼都是你自己寫的。

Sriram Krishnan

如果人工智慧產業需要選出上個月的MVP（最有價值產品），我會提名@AndyMasley。他幾乎憑藉一己之力完成了實際的計算和報告工作，以反駁圍繞水資源和數據中心的騙局。

Loading..