谷歌 TPU 能撼动英伟达吗?
周末健身时听了硅谷 101 关于谷歌 TPU 工程师的采访揭秘,感觉很有意思。
听完后有了一些新的认识和思考,总结原文核心观点,并记录自己的想法。
1️⃣ 播客中的结论
(另有详细 AI 文字版本总结,较长见图 2)
1) Gemini 有个很反直觉的特性:用的人越多,速度越快。
这是 TPU 架构决定的。并行计算 + 复用缓存机制,刚好把算力打满的时候效率最高。
当然,双刃剑的另一面也出现了。
去年 Gemini 3 发布,GPT 大批用户涌入,服务频繁崩溃…… 本质原因就是 TPU 产能跟不上,扩容没追上用户增速。
2)英伟达 GPU vs 谷歌 TPU,各有各的护城河。
英伟达的优势在软件:CUDA 生态太成熟,通用性强,改不动。
谷歌 TPU 的优势在软硬件结合:跑特定大模型算法时,性能可以直接碾压英伟达。
苹果已经成为 TPU 第一大买家,Anthropic 也在大量采购。
理由很简单:不想把鸡蛋全放在英伟达一个篮子里。
3) 台积电的护城河比想象的还要深。
不管是英伟达、谷歌、苹果……所有芯片全得靠台积电做,台积电的工艺和良品率水平没有第二家可以替代。
更离谱的是台积电产能根本不够用,各大厂商都在排队抢。
卖铲子是稳,我也会坚定看好和持有台积电。
4)TPU 类似于是把算法放进硬件,有点像用 ASIC 挖矿的感觉。
GPU 是通用的,TPU 是定制的。
谷歌芯片团队需要提前一两年向台积电下单,这意味着他们现在做的芯片,是为两年后的 AI 算法设计的。
所以谷歌的 AI 团队和芯片团队必须深度绑定,今天押注的算法方向,决定了两年后芯片能不能用上。
押对了是降维打击,押错了两年全打水漂。
而这层约束对于英伟达来说无需面对。
2️⃣ 说点个人想法
所谓软硬件结合,就是通用硬件设计能力不够,或者成本过高,
干脆直接为某一类算法设计硬件。
就硬件设计水平来讲是比不上通用硬件的。
英伟达为什么不做 NPU/TPU?
因为没法扩大自己的优势。太多厂商能做了,大家都做就和手机厂商一样。
举个栗子🌰:
基本上安卓机都有了红外遥控,也就是万能遥控功能,
苹果为什么不做?
这个功能难吗?不难;
客户有需求吗,有。
那为什么苹果为什么不做呢?
我想商品形态可能真不一定是「完全由需求」决定的。
如果两个集合,相同元素占比越大,越没有辨识度。
想想我们对手机的印象:苹果/ 非苹果。
如果用安卓,大部分人是不在乎小米,oppo,vivo,华为的,
因为他们同质化太高了,用户粘性相对低。
类比计算器和计算机的区别,计算机是通用计算,计算器就是特定计算。
计算器的功耗当然低了,只能做特定计算。
TPU 相对于英伟达的 GPU 没有硬件设计壁垒。
只是在想办法降本。
同时,通过降本赚的盆满钵满的公司是很少的,提出新概念,开辟新方向的才能起飞,也容易炒概念。
目前的神经网络计算主要就是张量计算,
卷成本对于英伟达来讲是下下策。
因此不能单独地看 TPU 是怎么说自己的优势的。
单从 Google 的角度来看,做 TPU 是最好的选择。
但是从英伟达的角度来看,打成本战是下下策。
因为英伟达已经掌握了先发优势,英伟达的 cuda 生态,以及英伟达的顶尖 gpu 设计能力。
Google 做不了 GPU ?
肯定不是。
摩尔都能做,谷歌怎么可能做不了,多出点钱还怕挖不到人吗?
芯片的前期投入太大了,如果 Google 一开始做 GPU 没人用,就会面临本都收不回来的情况。
同规模下,Google 做 TPU 成本比 GPU 低,还能打包出售自己的 Gemini,
属于上策。


来自推特
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论
分享
