Openai搞的這個Cerebras 芯片比較有意思😅
1. 晶圓級尺寸 (Wafer-Scale):世界上最大的芯片,有多大呢,臉盤那麼大.😅
晶體管數量: 擁有 4 萬億個晶體管(作為對比,H100 只有 800 億個)
2. 極高的片上內存帶寬 (On-chip SRAM)
這是 Cerebras 吊打 GPU 的核心武器。
消除瓶頸: 在傳統的 GPU 架構中,模型計算時需要在顯存(HBM)和計算核心(Core)之間頻繁搬運數據,這產生了巨大的能耗和延遲。(內存計算會稀釋HBM增長率,但蛋糕足夠大,同時SRAM的成本也很高,前期對三星海力士美光三巨頭威脅不大)
全片上存儲: Cerebras 擁有高達 44GB 的片上 SRAM 內存,帶寬達到了每秒 21 PB (PetaBytes)。這意味著模型的大部分權重可以完全存儲在芯片內部,讀寫速度比 GPU 的顯存快上千倍,從而實現了 OpenAI 模型那樣的“秒速”推理。
3. 極簡的編程與擴展
單機即集群: 由於芯片本身足夠大,一個 Cerebras 節點(CS-3)的算力就相當於幾十個甚至上百個傳統的 GPU 節點。
無需切分模型: 開發者不需要像在 GPU 集群上那樣,把一個大模型拆分成很多份並考慮複雜的跨服務器通訊(Model Parallelism)。在 Cerebras 看來,整個模型就在“一塊”芯片上跑。
4. 針對大語言模型 (LLM) 的稀疏優化
處理零值: AI 模型中有很多權重是“零”(稀疏性),傳統 GPU 依然會對這些零進行無效計算。Cerebras 芯片內置了稀疏計算引擎,能夠直接跳過零值,從而進一步榨取性能。