北京時間昨天晚上,在 X 上,有網友稱 AWS、谷歌雲、Azure 和 Cloudflare 同一時間發生了中斷。
宕機追蹤網站 Down Detector 網站顯示,太平洋夏時令時間上午 11:30 左右,Google Cloud 報告了超過 13000 起事件。
截至週四太平洋夏時令上午 11:49,雲計算巨頭微軟 Azure 在 Down Detector 上記錄了約 1000 份 中斷報告,到太平洋時間下午 12:49,報告數量下降到 251 份。
差不多同一時間,AWS 在 Down Detector 上記錄了約 5000 份 中斷報告。
但微軟和 AWS 其狀態頁面顯示沒有問題。
據 Down for Everyone 網站數據顯示,Character AI 於週四太平洋夏時令上午 11:19 已收到約 4000 份中斷報告。
此外,ChatGPT 的創建者 OpenAI 表示,它遇到了一些與單點登錄“和其他登錄方式”相關的問題。該公司在一篇社交媒體帖子中表示,其“工程團隊正在努力緩解這些問題”。此外,有網友曝出 Claude Sonnet 4(Cursor)和 Gemini Pro 也出現了很多錯誤。
谷歌雲服務全球癱瘓 3 小時
在所有中斷服務中,谷歌雲服務在全球範圍內宕機最嚴重,導致谷歌旗下和第三方應用程序以及平臺等許多其他服務出現一系列中斷。
當時,宕機追蹤網站 Down Detector 的峰值開始飆升。Down Detector 網站顯示,太平洋夏時令時間上午 11:30 左右,Google Cloud 報告了超過 13000 起事件,不過到下午早些時候,這一數字已大幅下降。
谷歌表示,由於身份和訪問管理服務(IAM)問題,GCP(谷歌雲平臺)的多個產品受到影響,包括 Gmail、 Google Calendar、Google Chat、Google Cloud Search、Google Docs、Google Drive、Google Meet、Google Tasks 以 及 Google Voice。多個 Workspace 產品也遇到了服務問題。
谷歌雲的狀態頁面顯示: “我們的多款 GCP 產品遇到了服務問題” ,並指出服務中斷始於太平洋夏時令時間上午 10:51。“我們的工程團隊正在繼續調查此問題。”
十幾分鍾後,谷歌表示,客戶“仍在遭受不同程度的影響”,工程師正在努力恢復服務,但公司尚未確定修復的預計時間。
隨後,經過快速的修復,太平洋夏時令下午 12 點 41 分,谷歌在谷歌雲狀態頁面上表示,“我們的工程師已經找到了根本原因並採取了適當的緩解措施。雖然我們的工程師已確認除 us-central1 之外的所有位置的底層依賴關係均已恢復,但我們注意到,客戶在各個 Google Cloud 產品上仍會受到不同程度的影響。所有相關工程團隊均已積極參與並致力於服務恢復。我們還沒有全面恢復服務的預計到達時間。我們將在太平洋夏令時間 2025 年 6 月 12 日星期四 13:30 之前提供最新詳細信息。”
太平洋夏時令下午 14:00 點時,谷歌又在谷歌雲狀態頁面上更新了最新進展。
谷歌表示:“我們已在 us-central1 和美國多個地區針對該問題實施了緩解措施,並看到了恢復的跡象。我們已收到來自內部監控和客戶的確認,表明谷歌雲產品在多個地區也正在恢復,在 us-central1 和美國多個地區也出現了一些恢復的跡象,”谷歌雲表示,預計恢復將在一小時內完成。
太平洋夏時令下午 15:16 ,谷歌雲表示:“截至太平洋夏令時間 13:45,大多數 Google Cloud 產品已完全恢復。”
但仍然有一部分產品沒有恢復服務,包括 Google Cloud Dataflow: 由於積壓問題正在逐步清除,客戶在使用 Dataflow 操作時可能會遇到延遲;Vertex AI 在線預測:客戶在使用 Model Garden 中的某些模型時可能會繼續遇到 5xx 錯誤增多的情況;個性化服務健康:個性化服務健康的更新延遲,我們建議客戶繼續使用雲服務健康儀表板進行更新。
到了 太平洋夏時令下午 18:27,谷歌雲表示,所有服務均已恢復正常。
在主要服務經歷了近三個小時的大規模癱瘓後,不少企業因谷歌雲的宕機受到了嚴重影響。
Spotify、Cloudflare 成嚴重“受災區”
具體而言,除了谷歌旗下應用和服務外,還有誰受到了嚴重影響?
電子商務軟件供應商 Shopify 是谷歌雲的主要客戶,是這次宕機受影響最嚴重的企業之一。他們在 X 上的一篇帖子中表示,“已意識到一個影響多項服務的問題”。
太平洋夏時令下午 2:15 剛過,Spotify 的 Down Detector 報告數量激增,從那以後就一直存在問題,在最初的中斷髮生後很長時間內,報告仍在持續湧入。
從那時起,Spotify 的訪問量就一直在穩步下降,儘管在谷歌平臺基本恢復之後,Spotify 的問題也花了更長時間才得以解決。
此次 Spotify 癱瘓持續了大約 3 個小時,但此後的頹勢還持續了幾個小時。
Cloudflare 也被谷歌“害慘了”。
Cloudflare 的一位發言人在接受媒體採訪時表示:“這是一次谷歌雲中斷。Cloudflare 的少數服務使用谷歌雲,因此受到了影響。我們預計它們很快就會恢復。Cloudflare 的核心服務並未受到影響。”
至於更具體的中斷原因,Cloudflare 在發佈到 Cloudflare 狀態頁面的更新中,他們將其“關鍵 Workers KV 服務”的故障歸咎於“關鍵依賴的第三方服務中斷”。
也就是說,由於關鍵依賴的第三方發生服務中斷,所以某些依賴 KV 服務存儲和傳播信息的 Cloudflare 產品就無法使用了。
有趣的是,Cloudflare 在太平洋夏令時間 11:19發佈了有關其自身問題的消息,這表明它在谷歌向客戶通報其問題之前就已經感受到了影響。
太平洋夏令時間 12:12,Cloudflare 報告稱“服務開始恢復”,但警告稱,“隨著系統處理重試和緩存被填滿,我們預計受影響的服務仍會出現間歇性錯誤。”
Cloudflare 於太平洋時間下午 1:57(世界協調時間 UTC 20:57)在其狀態網頁上表示,“所有 Cloudflare 服務已恢復,現已全面投入運營”。
該公司表示,將繼續“關注平臺指標,以確保持續穩定”。
Cloudflare 稱,自中斷服務起,受到影響的 Cloudflare 服務包括 Access、WARP、Realtime、Workers AI、Stream、Cloudflare 儀表板的部分內容和 AutoRAG。
Cloudflare 是一家主要的網絡安全和內容分發網絡提供商。週四,該公司股價下跌了 5%。
剛剛,Cloudflare CTO Dane Knecht 在 X 發帖就此次中斷事件向客戶致歉,並表示將很快發佈完整的事後分析報告。
“我們讓 Cloudflare 客戶失望了 。我們的 Workers KV 服務發生故障,依賴該服務的下游產品也出現了故障。我們將很快發佈完整的事後分析報告。
我知道,此類事件對於世界各地的團隊開展工作和服務客戶而言,有著真實而嚴重的影響。
除了此次事件的具體細節外,事後分析還將詳細說明我們如何移除此故障案例。我們將竭盡全力糾正此問題,並對今天造成的問題深表歉意。”
為什麼會宕機?
谷歌此次宕機事件影響範圍非常廣,多家軟件服務公司和 AI 企業受到影響。因此谷歌此次宕機發生的原因成為了公眾關注的重點,並在 Hacker News、X 等平臺上引發熱議。
在 Hacker News 上,有用戶猜測,是谷歌一個名為 Chemist 的服務出現了故障。
“看起來是谷歌的一項名為 Chemist 的服務出現了故障。該服務負責檢查多項關鍵策略,包括項目狀態、激活狀態、濫用狀態、計費狀態、服務狀態、位置限制、VPC 服務控制以及 SuperQuota 等。這一故障完全解釋了用戶遇到的 ‘可見性檢查(API)失敗’ 和 ‘無法加載策略’ 錯誤提示,同時也導致了大量相關服務受到影響。”
有網友對上述觀點表示贊同,“多個互聯網服務都癱瘓了,不僅僅是 GCP。Chemist 服務可能主要受到外部影響,所以故障才會蔓延到其內部的 GCP 網絡服務。”
在 X 上,Uber 前員工 Gergely 在谷歌宕機的兩天就發現了不正常,他發現多個平臺和服務出現了不同程度的服務中斷。
“ChatGPT/OpenAI 宕機 3 小時;Heroku 宕機 4 小時(連狀態頁面都宕機了!);NVIDIA 開發文檔也宕機了(運行在 Heroku 上);Pipedrive (CRM) 問題 4 小時;還有什麼宕機了……這些有什麼關聯嗎?4 小時前就出事了……”
在 GCP 和 Cloudflare 同時宕機後他也表示不可思議。
“Cloudflare 真是令人驚訝。他們從來沒出過宕機事故:整個基礎設施都設計得非常有彈性,而且 DDoS 攻擊也能輕鬆應對。但現在 GCP 嚴重宕機和 Cloudflare 嚴重宕機同時發生!之前從未見過這種情況。據我所知,他們的基礎設施完全獨立。”
對於谷歌此次中斷造成其他公司服務癱瘓一事,《The Register》認為,這是 由多米諾骨牌效應引發的:谷歌服務中斷,Cloudflare 也隨之癱瘓,最終 Cloudflare 的客戶也陷入困境。
此外,除了對谷歌雲宕機的原因和帶來的影響的討論外,還有用戶表示,如果不是此次谷歌和 Cloudflare 同時宕機,人們怎麼會想到,Cloudflare 對谷歌雲的依賴會這樣大。
“這確實非常令人驚訝,許多與大型雲提供商競爭的 CF 產品,竟然如此依賴 GCP。”
也有用戶表示,這種情況其實也正常,底層基礎設施供應商們之間都是相互依賴的。
“全球約有 20-25 家核心 IaaS 提供商,它們之間很可能存在某種程度的相互依存關係。從 Cloudflare 的立場來看,他們顯然將此視為行業常態。而本次事件的事後分析,正是為了驗證和確保這種依賴關係的可控性。”
還有人對這種大型雲廠商之間的相互依賴表示擔憂:
“有一天,Cloudflare 將依賴於 GCP,GCP 將依賴於 Cloudflare,AWS 將依賴於兩者之一的在線狀態,而 Cloudflare 也將依賴於 AWS,互聯網將崩潰,沒有人知道如何重新啟動它。”
在 Hacker New 評論區還出現了一條有意思的網友調侃,“這時候真的太需要人工智能出場了”!
2025 年 6 月 12 日發生宕機前 be like:“AI,有沒有搞錯?噗!AI 一整個就是個幻覺中心,它們永遠取代不了我!”2025 年 6 月 12 日發生宕機後 be like:“你說啥,不能靠 AI 啦?你真當我們是牛馬啊!”
又是降本增效來“背鍋”?
由托馬斯·庫裡安 (Thomas Kurian) 領導的雲計算部門近年來一直是谷歌增長最快的部門之一,並受益於市場對人工智能產品和服務的需求。
但此次宕機事件對谷歌來說是一個不小的挫折,該公司正試圖在雲基礎設施領域與規模更大的競爭對手亞馬遜網絡服務 (AWS) 和微軟 Azure 保持同步。
谷歌的狀態頁面顯示,此次事件已導致其在美國、歐洲和亞洲的 13 個雲服務出現問題。其他似乎遭遇中斷的網絡服務包括 AWS 的 Twitch,CoreWeave 的 Weights & Biases、Elastic、GitLab、LangChain,微軟的 GitHub、Replit 和 Intuit 的 Mailchimp。
據 CNBC 二月份報道, Alphabet 一直在大幅削減開支,對銷售、客戶體驗、內部交易和市場推廣團隊進行裁員。
上週,有消息稱,谷歌已向其美國多個部門的員工推出自願離職計劃。
這引發了人們對其是否會為了削減成本而進一步裁員的擔憂。據 CNBC 報道,這項“自願離職計劃”面向多個關鍵領域的員工,包括知識與信息(K&I)、中央工程、市場營銷、研究和傳播。據報道,擁有約 2 萬名員工的 K&I 團隊於去年 10 月進行了重組,之後谷歌高管尼克·福克斯接任該團隊負責人。
據知情人士和 CNBC 看到的內部信件稱,一些受影響員工的職位將被轉移到印度和墨西哥城。
該公司確認,這些調整包括在美國其他地區和海外整合或開放職位。該公司補充說,雲計算部門最大的員工隊伍仍然在美國,這一點不會改變。
裁員人數尚不清楚,但該公司表示裁員人數很少,並且該公司將繼續招聘關鍵的銷售和工程職位。
參考鏈接:
https://status.cloud.google.com/incidents/ow5i3PPK96RduMcb1SsW#2c2sBHWU84yPDJ8y1ar4
https://www.tomsguide.com/news/live/spotify-down-live-updates-6-12-outage
https://news.ycombinator.com/item?id=44260810
https://www.cnbc.com/2025/06/12/google-cloud-and-other-internet-services-are-reporting-outages.html
https://www.cloudflarestatus.com/incidents/25r9t0vz99rp
本文來自微信公眾號“AI前線”,作者:冬梅,36氪經授權發佈。





