最爱吃兽奶的兔🐰的想法

03-30

谷歌 TPU 能撼动英伟达吗？周末健身时听了硅谷 101 关于谷歌 TPU 工程师的采访揭秘，感觉很有意思。听完后有了一些新的认识和思考，总结原文核心观点，并记录自己的想法。 1️⃣ 播客中的结论（另有详细 AI 文字版本总结，较长见图 2） 1） Gemini 有个很反直觉的特性：用的人越多，速度越快。这是 TPU 架构决定的。并行计算 + 复用缓存机制，刚好把算力打满的时候效率最高。当然，双刃剑的另一面也出现了。去年 Gemini 3 发布，GPT 大批用户涌入，服务频繁崩溃…… 本质原因就是 TPU 产能跟不上，扩容没追上用户增速。 2）英伟达 GPU vs 谷歌 TPU，各有各的护城河。英伟达的优势在软件：CUDA 生态太成熟，通用性强，改不动。谷歌 TPU 的优势在软硬件结合：跑特定大模型算法时，性能可以直接碾压英伟达。苹果已经成为 TPU 第一大买家，Anthropic 也在大量采购。理由很简单：不想把鸡蛋全放在英伟达一个篮子里。 3) 台积电的护城河比想象的还要深。不管是英伟达、谷歌、苹果……所有芯片全得靠台积电做，台积电的工艺和良品率水平没有第二家可以替代。更离谱的是台积电产能根本不够用，各大厂商都在排队抢。卖铲子是稳，我也会坚定看好和持有台积电。 4）TPU 类似于是把算法放进硬件，有点像用 ASIC 挖矿的感觉。 GPU 是通用的，TPU 是定制的。谷歌芯片团队需要提前一两年向台积电下单，这意味着他们现在做的芯片，是为两年后的 AI 算法设计的。所以谷歌的 AI 团队和芯片团队必须深度绑定，今天押注的算法方向，决定了两年后芯片能不能用上。押对了是降维打击，押错了两年全打水漂。而这层约束对于英伟达来说无需面对。 2️⃣ 说点个人想法所谓软硬件结合，就是通用硬件设计能力不够，或者成本过高，干脆直接为某一类算法设计硬件。就硬件设计水平来讲是比不上通用硬件的。英伟达为什么不做 NPU/TPU？因为没法扩大自己的优势。太多厂商能做了，大家都做就和手机厂商一样。举个栗子🌰：基本上安卓机都有了红外遥控，也就是万能遥控功能，苹果为什么不做？这个功能难吗？不难；客户有需求吗，有。那为什么苹果为什么不做呢？我想商品形态可能真不一定是「完全由需求」决定的。如果两个集合，相同元素占比越大，越没有辨识度。想想我们对手机的印象：苹果/ 非苹果。如果用安卓，大部分人是不在乎小米，oppo，vivo，华为的，因为他们同质化太高了，用户粘性相对低。类比计算器和计算机的区别，计算机是通用计算，计算器就是特定计算。计算器的功耗当然低了，只能做特定计算。 TPU 相对于英伟达的 GPU 没有硬件设计壁垒。只是在想办法降本。同时，通过降本赚的盆满钵满的公司是很少的，提出新概念，开辟新方向的才能起飞，也容易炒概念。目前的神经网络计算主要就是张量计算，卷成本对于英伟达来讲是下下策。因此不能单独地看 TPU 是怎么说自己的优势的。单从 Google 的角度来看，做 TPU 是最好的选择。但是从英伟达的角度来看，打成本战是下下策。因为英伟达已经掌握了先发优势，英伟达的 cuda 生态，以及英伟达的顶尖 gpu 设计能力。 Google 做不了 GPU ？肯定不是。摩尔都能做，谷歌怎么可能做不了，多出点钱还怕挖不到人吗？芯片的前期投入太大了，如果 Google 一开始做 GPU 没人用，就会面临本都收不回来的情况。同规模下，Google 做 TPU 成本比 GPU 低，还能打包出售自己的 Gemini，属于上策。

来自推特

免责声明：以上内容仅为作者观点，不代表Followin的任何立场，不构成与Followin相关的任何投资建议。

喜欢