Sriram Krishnan

Sriram Krishnan

299,279个推特粉丝

关注

bitter-lesson-pilled. personal views only. White House/official: @skrishnan47

动态

Sriram Krishnan

恭喜@jordihays 和 @johncoogan！我认识他们很久了，他们付出了那么多努力，取得今天的成就实至名归。他们认真对待一个想法，最终创造出了奇迹。

Sriram Krishnan

非常兴奋地看到 @demishassabis 和 DeepMind 团队发布了 Gemma 4。开源模型是西方需要保持领先的关键领域，而 Gemma 4 的发布无疑是这项努力的重要一步。期待看到矽谷乃至全球的开发者们能够利用 Gemma 4 建构出怎样的应用。 twitter.com/sriramk/status/203...

Sriram Krishnan

@boazbaraktcs 的帖子写得很好，我非常同意其中的大部分观点。

Sriram Krishnan

川普政府全力以赴，力求在人工智慧竞赛中胜出——为了美国的繁荣、安全以及人类繁荣的新时代。 🇺🇸🚀 实现这些目标需要一个务实的国家政策框架：释放美国产业的潜力，使其蓬勃发展，同时确保所有美国人都能从中受益。

Sriram Krishnan

周末项目：用最新的模拟器模型，对NES上的《魂斗罗》进行逆向工程，并用Rust语言重写。 ——我简直不敢相信自己竟然在对逆向工程一窍不通的情况下取得了如此大的进展。这些模拟器在逆向工程方面*非常*出色。 ——我仍然需要在发现某个路径是死路或者尝试其他显而易见的替代方案时提供一些建议。例如，“在网上搜索其他已经对音效数据库进行过逆向工程的人”。 ——最大的收获是能够设置一个自动化循环。设置“从模拟器中截取屏幕截图，并将其与当前版本进行比较，然后缩小差异”的程序在夜间运行，这让我取得了巨大的进步。

Sriram Krishnan

我记得当时为了看这场比赛翘课了。比赛过程跌宕起伏，从“这局肯定要输”到“等等……”，最后竟然奇迹般地赢了。这是我童年最美好的体育回忆之一。 twitter.com/sriramk/status/203...

Sriram Krishnan

在#IndiaAIImpactSummit2026峰会期间，@orfonline 和 @CarnegieIndia 与白宫人工智慧高级政策顾问 @sriramk 举行了一场闭门简报会。会谈探讨了人工智慧领域不断演变的格局、关键策略重点以及在快速变化的生态系统中合作的途径。

Sriram Krishnan

启用 fp8 训练后，“GPT-2 训练时间”提升了 4.3%，现在只需 2.91 小时。另外值得一提的是，如果使用 8 倍 H100 实例价格，复现 GPT-2 的成本实际上只需约 20 美元。这令人振奋—— GPT-2（7 年前）：发布风险太大。 GPT-2（今天）：新的 MNIST 数据集！:) 肯定能远低于 1 小时。关于 fp8，我再补充几句。它比我预想的要复杂一些，我花了一段时间才最终决定采用它，即使现在，由于 fp8 的整体支持度较低，我仍然不能完全确定它是否是个好主意。理论上，H100 上的 fp8 浮点运算能力是 2 倍，但实际上却远低于此。在实际训练过程中，我们并非完全受限于计算能力，额外的尺度转换会带来额外的开销，GEMM 模型在 GPT-2 规模下还不够大，不足以明显抵消这些开销，当然，精度越低，每一步的质量就越小。对于逐行缩放方案，FP8 和 BF16 的损失曲线非常接近，但网络步进速度较慢。对于逐张缩放方案，损失曲线的差异更大（即每一步的质量都更差），但至少我们现在获得了速度提升（约 7.3%）。你可以通过增加训练周期（训练更多步，但每一步速度更快）来简单地恢复性能，并希望最终网络性能能够提升。在这种情况下，经过对这些方案和训练周期的调整，目前我最终获得了约 5% 的速度提升。 Torchao 在他们的论文中报告称，Llama3-8B 的 FP8 训练速度提升了 25%（相比之下，我未考虑模型容量的情况下提升了约 7.3%），这更接近我最初的预期，尽管 Llama3-8B 的模型规模要大得多。这可能并非 FP8 的终结。通过精确选择应用 FP8 的层，并更谨慎地处理网络中的数值，应该可以进一步提升性能。 twitter.com/karpathy/status/20...

Sriram Krishnan

基于 @karpathy 关于编码模型现状的精彩文章。我个人20多年的编码历程，从曾经每天编写大量代码，到几乎不写代码，再到如今突然能够使用LLMS生成大量代码。假期里，我根据自己家庭的情况，为孩子们制作了一款类似《模拟人生》的RTS游戏。友情提示：孩子们会很乐意一遍又一遍地在游戏中扮演你做各种尴尬的事情。作为一个从未编写过2D图形/基本游戏逻辑的人，我惊讶地发现，我竟然只用了一个小时就完成了原本需要几周才能完成的工作，而且还能在几秒钟内将孩子们的建议（“让爸爸多去几次洗手间”/“给孩子们多一些零食”）融入其中。我惊讶地发现，我现在的编码工作流程与几年前截然不同。我发现自己经常要面对大量并非我编写的代码，需要去理解、调试、引导，然后再回到模型自动运行的阶段。正如 @karpathy 所说，这比几个月前的情况有了巨大的提升，那时候大部分代码都是你自己写的。

Sriram Krishnan

如果人工智慧产业需要选出上个月的MVP（最有价值产品），我会提名@AndyMasley。他几乎凭借一己之力完成了实际的计算和报告工作，以反驳围绕水资源和数据中心的骗局。

Loading..