Openai搞的這個Cerebras 芯片比較有意思😅 1. 晶圓級尺寸 (Wafer-Scale):世界上最大的芯片,有多大呢,臉盤那麼大.😅 晶體管數量: 擁有 4 萬億個晶體管(作為對比,H100 只有 800 億個) 2. 極高的片上內存帶寬 (On-chip SRAM) 這是 Cerebras 吊打 GPU 的核心武器。 消除瓶頸: 在傳統的 GPU 架構中,模型計算時需要在顯存(HBM)和計算核心(Core)之間頻繁搬運數據,這產生了巨大的能耗和延遲。(內存計算會稀釋HBM增長率,但蛋糕足夠大,同時SRAM的成本也很高,前期對三星海力士美光三巨頭威脅不大) 全片上存儲: Cerebras 擁有高達 44GB 的片上 SRAM 內存,帶寬達到了每秒 21 PB (PetaBytes)。這意味著模型的大部分權重可以完全存儲在芯片內部,讀寫速度比 GPU 的顯存快上千倍,從而實現了 OpenAI 模型那樣的“秒速”推理。 3. 極簡的編程與擴展 單機即集群: 由於芯片本身足夠大,一個 Cerebras 節點(CS-3)的算力就相當於幾十個甚至上百個傳統的 GPU 節點。 無需切分模型: 開發者不需要像在 GPU 集群上那樣,把一個大模型拆分成很多份並考慮複雜的跨服務器通訊(Model Parallelism)。在 Cerebras 看來,整個模型就在“一塊”芯片上跑。 4. 針對大語言模型 (LLM) 的稀疏優化 處理零值: AI 模型中有很多權重是“零”(稀疏性),傳統 GPU 依然會對這些零進行無效計算。Cerebras 芯片內置了稀疏計算引擎,能夠直接跳過零值,從而進一步榨取性能。

來自推特
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論
分享






