Đêm qua theo giờ Bắc Kinh, vào lúc X, một số cư dân mạng cho biết AWS, Google Cloud, Azure và Cloudflare bị gián đoạn cùng một lúc.
Theo trang theo dõi sự cố Down Detector, Google Cloud báo cáo hơn 13.000 sự cố vào khoảng 11:30 sáng theo giờ PDT.
Tính đến 11:49 sáng theo giờ PDT thứ năm, gã khổng lồ điện toán đám mây Microsoft Azure đã ghi nhận khoảng 1.000 báo cáo mất điện trên Down Detector, giảm còn 251 báo cáo vào 12:49 chiều theo giờ PDT.
Cùng thời điểm đó, AWS đã ghi nhận khoảng 5.000 báo cáo mất điện trên Down Detector.
Nhưng trang trạng thái của Microsoft và AWS không hiển thị vấn đề gì.
Theo dữ liệu Down for Everyone, Character AI đã nhận được khoảng 4.000 báo cáo về sự cố mất điện tính đến 11:19 sáng theo giờ PDT thứ năm.
Ngoài ra, OpenAI, đơn vị sáng tạo ra ChatGPT, cho biết họ đã gặp phải một số vấn đề với chức năng đăng nhập một lần "và các phương thức đăng nhập khác". Công ty cho biết trong một bài đăng trên mạng xã hội rằng "đội ngũ kỹ sư của họ đang nỗ lực để giảm thiểu những vấn đề này". Ngoài ra, một số cư dân mạng tiết lộ rằng Claude Sonnet 4 (Cursor) và Gemini Pro cũng có nhiều lỗi.
Dịch vụ Google Cloud bị tê liệt trên toàn thế giới trong 3 giờ
Trong số tất cả các sự cố ngừng hoạt động, Google Cloud là sự cố ngừng hoạt động nghiêm trọng nhất trên toàn thế giới, dẫn đến sê-ri sự cố ngừng hoạt động của nhiều dịch vụ khác bao gồm các ứng dụng và nền tảng của Google và bên thứ ba.
Vào thời điểm đó, các đợt tăng đột biến trên trang web theo dõi sự cố Down Detector bắt đầu tăng vọt. Vào khoảng 11:30 sáng theo giờ PDT, Google Cloud báo cáo hơn 13.000 sự cố, theo trang web Down Detector, mặc dù con số đó đã giảm đáng kể vào đầu giờ chiều.
Google cho biết do sự cố với dịch vụ Quản lý danh tính và quyền truy cập (IAM), nhiều sản phẩm GCP (Google Cloud Platform) đã bị ảnh hưởng, bao gồm Gmail, Google Calendar, Google Chat, Google Cloud Search, Google Docs, Google Drive, Google Meet, Google Tasks và Google Voice. Nhiều sản phẩm Workspace cũng gặp sự cố về dịch vụ.
"Chúng tôi đang gặp sự cố dịch vụ trên nhiều sản phẩm GCP", trang trạng thái của Google Cloud cho biết, lưu ý rằng sự cố ngừng hoạt động bắt đầu lúc 10:51 sáng theo giờ PDT . "Đội ngũ kỹ thuật của chúng tôi đang tiếp tục điều tra sự cố này".
Mười hai phút sau, Google cho biết khách hàng "vẫn đang gặp phải các mức độ ảnh hưởng khác nhau" và các kỹ sư đang nỗ lực khôi phục dịch vụ, nhưng công ty vẫn chưa xác định thời gian ước tính để khắc phục sự cố.
Sau đó, sau khi khắc phục nhanh chóng, lúc 12:41 chiều theo giờ PDT , Google đã tuyên bố trên trang trạng thái Google Cloud rằng, "Các kỹ sư của chúng tôi đã xác định được nguyên nhân gốc rễ và thực hiện các biện pháp giảm thiểu phù hợp. Mặc dù các kỹ sư của chúng tôi đã xác nhận rằng các phụ thuộc cơ bản ở tất cả các vị trí ngoại trừ us-central1 đã được khôi phục, chúng tôi lưu ý rằng khách hàng vẫn bị ảnh hưởng ở các mức độ khác nhau trên nhiều sản phẩm Google Cloud khác nhau. Tất cả đội ngũ kỹ thuật có liên quan đều đang tích cực tham gia và cam kết khôi phục dịch vụ. Chúng tôi chưa có thời gian dự kiến để khôi phục toàn bộ dịch vụ. Chúng tôi sẽ cung cấp thông tin chi tiết mới nhất trước 13:30 theo giờ PDT vào thứ năm, ngày 12 tháng 6 năm 2025."
Vào lúc 14:00 PDT , Google đã cập nhật tiến triển mới nhất trên trang trạng thái Google Cloud.
"Chúng tôi đã triển khai các biện pháp giảm thiểu sự cố tại us-central1 và nhiều khu vực của Hoa Kỳ và đang thấy dấu hiệu phục hồi. Chúng tôi đã nhận được xác nhận từ bộ phận giám sát nội bộ và khách hàng rằng các sản phẩm của Google Cloud đang phục hồi tại nhiều khu vực và đang thấy một số dấu hiệu phục hồi tại us-central1 và nhiều khu vực của Hoa Kỳ", Google Cloud cho biết, đồng thời nói thêm rằng quá trình phục hồi dự kiến sẽ hoàn tất trong vòng một giờ.
Vào lúc 15:16 chiều theo giờ PDT , Google Cloud cho biết: "Tính đến 13:45 theo giờ PDT, hầu hết các sản phẩm của Google Cloud đã được khôi phục hoàn toàn".
Tuy nhiên, vẫn còn một số sản phẩm chưa tiếp tục dịch vụ, bao gồm Google Cloud Dataflow: Khi tình trạng tồn đọng dần được xóa, khách hàng có thể gặp phải sự chậm trễ khi sử dụng các hoạt động Dataflow; Vertex AI Online Prediction: Khách hàng có thể tiếp tục gặp phải sự gia tăng lỗi 5xx khi sử dụng một số mô hình nhất định trong Model Garden; Personalized Service Health: Việc cập nhật Personalized Service Health bị chậm trễ. Chúng tôi khuyến nghị khách hàng tiếp tục sử dụng bảng điều khiển Cloud Service Health để cập nhật.
Đến 18:27 giờ PDT , Google Cloud cho biết mọi dịch vụ đã trở lại bình thường.
Sau khi các dịch vụ chính bị tê liệt trên diện rộng trong gần ba giờ, nhiều công ty đã bị ảnh hưởng nghiêm trọng do sự cố ngừng hoạt động của Google Cloud.
Spotify và Cloudflare bị ảnh hưởng nghiêm trọng
Cụ thể, ngoài các ứng dụng và dịch vụ của Google, còn ai bị ảnh hưởng nghiêm trọng?
Nhà cung cấp phần mềm thương mại điện tử Shopify, một khách hàng lớn của Google Cloud và là một trong những doanh nghiệp bị ảnh hưởng nặng nề nhất bởi sự cố lần, cho biết trong bài đăng trên X rằng họ "đã biết về sự cố ảnh hưởng đến nhiều dịch vụ".
Spotify đã chứng kiến sự gia tăng đột biến báo cáo về Down Detector ngay sau 2:15 chiều theo giờ PDT và đã gặp sự cố kể từ đó, với báo cáo tiếp tục đổ về rất lâu sau sự cố ban đầu.
Lượng truy cập vào Spotify liên tục giảm kể từ đó và mặc dù nền tảng của Google đã phục hồi phần lớn nhưng vấn đề của Spotify vẫn mất nhiều thời gian hơn để giải quyết.
Lần cố mất kết nối của Spotify kéo dài khoảng ba giờ, nhưng tình trạng suy giảm vẫn tiếp tục trong nhiều giờ nữa.
Cloudflare cũng bị Google "gây tổn hại nghiêm trọng".
Người phát ngôn của Cloudflare nói với giới truyền thông: "Đây là sự cố ngừng hoạt động của Google Cloud. Một số ít dịch vụ Cloudflare sử dụng Google Cloud và đã bị ảnh hưởng. Chúng tôi hy vọng chúng sẽ sớm được khôi phục. Các dịch vụ cốt lõi của Cloudflare không bị ảnh hưởng".
Về nguyên nhân cụ thể hơn gây ra sự cố ngừng hoạt động, Cloudflare đã quy sự cố ngừng hoạt động của "dịch vụ Workers KV quan trọng" cho "sự cố ngừng hoạt động của dịch vụ bên thứ ba phụ thuộc quan trọng" trong bản cập nhật được đăng trên trang trạng thái Cloudflare.
Nghĩa là một số sản phẩm Cloudflare dựa vào dịch vụ KV để lưu trữ và phổ biến thông tin sẽ không khả dụng do dịch vụ của bên thứ ba quan trọng bị gián đoạn.
Điều thú vị là Cloudflare đã đăng về các vấn đề của riêng mình vào lúc 11:19 PDT, cho thấy họ đã cảm nhận được tác động trước khi Google thông báo cho khách hàng về các vấn đề này.
Vào lúc 12:12 PDT, Cloudflare báo cáo rằng "dịch vụ đang bắt đầu phục hồi" nhưng cảnh báo rằng "chúng tôi dự kiến sẽ tiếp tục thấy lỗi không liên tục trên các dịch vụ bị ảnh hưởng khi hệ thống thử lại quy trình và bộ nhớ đệm đầy".
"Tất cả các dịch vụ của Cloudflare đã được khôi phục và hiện đang hoạt động hoàn toàn", Cloudflare cho biết trên trang trạng thái của mình lúc 1:57 chiều theo giờ PT (20:57 UTC).
Công ty cho biết họ sẽ tiếp tục "tập trung vào chỉ báo của nền tảng để đảm bảo sự ổn định liên tục".
Cloudflare cho biết kể từ khi sự cố xảy ra, các dịch vụ Cloudflare bị ảnh hưởng bao gồm Access, WARP, Realtime, Workers AI, Stream, một số phần của bảng điều khiển Cloudflare và AutoRAG.
Cloudflare, một nhà cung cấp mạng lưới phân phối nội dung và bảo mật web lớn, đã chứng kiến cổ phiếu của mình giảm 5% vào thứ năm.
Vừa rồi, CTO của Cloudflare là Dane Knecht đã đăng bài trên X để xin lỗi khách hàng lần sự cố mất điện và cho biết báo cáo phân tích đầy đủ sẽ sớm được công bố.
“Chúng tôi đã làm khách hàng của Cloudflare thất vọng. Dịch vụ Workers KV của chúng tôi đã thất bại, và các sản phẩm hạ nguồn phụ thuộc vào nó cũng thất bại. Chúng tôi sẽ sớm công bố báo cáo báo cáo đầy đủ sau khi chết.
Tôi biết rằng những sự kiện như thế này có tác động thực sự và nghiêm trọng đến cách đội ngũ trên toàn thế giới thực hiện công việc và phục vụ khách hàng.
Ngoài các chi tiết cụ thể của sự cố lần, biên bản khám nghiệm tử thi sẽ nêu chi tiết cách chúng tôi loại bỏ trường hợp lỗi này. Chúng tôi sẽ cố gắng hết sức để khắc phục sự cố này và xin lỗi sâu sắc vì những vấn đề chúng tôi đã gây ra ngày hôm nay.”
Tại sao nó lại xuống?
Tác động của lần của Google rất rộng, ảnh hưởng đến nhiều công ty dịch vụ phần mềm và công ty AI. Do đó, nguyên nhân khiến Google lần đã trở thành tâm điểm chú ý của công chúng và đã gây ra những cuộc thảo luận sôi nổi trên các nền tảng như Hacker News và X.
Trên Hacker News, một số người dùng suy đoán rằng dịch vụ Chemist của Google đã trục trặc.
"Có vẻ như một dịch vụ của Google có tên là Chemist đã bị lỗi. Dịch vụ này chịu trách nhiệm kiểm tra nhiều chính sách quan trọng, bao gồm trạng thái dự án, trạng thái kích hoạt, trạng thái lạm dụng, trạng thái thanh toán, trạng thái dịch vụ, hạn chế vị trí, kiểm soát dịch vụ VPC và SuperQuota. Lỗi này giải thích đầy đủ các lỗi 'Kiểm tra khả năng hiển thị (API) không thành công' và 'Không thể tải chính sách' mà người dùng gặp phải, đồng thời cũng khiến lượng lớn các dịch vụ liên quan bị ảnh hưởng."
Một số cư dân mạng đồng tình với quan điểm trên, "Nhiều dịch vụ Internet bị tê liệt, không chỉ riêng GCP. Dịch vụ Chemist có thể bị ảnh hưởng chủ yếu bởi các yếu tố bên ngoài, do đó sự cố sẽ lan sang dịch vụ mạng GCP nội bộ của nó."
Trên X, cựu nhân viên Uber Gergely đã phát hiện ra sự bất thường này hai ngày sau sự cố ngừng hoạt động của Google và ông thấy rằng nhiều nền tảng và dịch vụ có mức độ gián đoạn dịch vụ khác nhau.
“ChatGPT/OpenAI ngừng hoạt động trong 3 giờ; Heroku ngừng hoạt động trong 4 giờ (thậm chí trang trạng thái cũng ngừng hoạt động!); NVIDIA dev docs ngừng hoạt động (chạy trên Heroku); Pipedrive (CRM) ngừng hoạt động trong 4 giờ; còn gì ngừng hoạt động nữa… Điều này có liên quan không? Nó xảy ra cách đây 4 giờ…”
Ông cũng bày tỏ sự không tin sau khi GCP và Cloudflare cùng ngừng hoạt động.
“Cloudflare thật tuyệt vời. Họ không bao giờ bị mất điện: toàn bộ cơ sở hạ tầng được thiết kế để rất kiên cường và có thể xử lý các cuộc tấn công DDoS một cách dễ dàng. Nhưng giờ đây, một sự cố mất điện lớn của GCP và một sự cố mất điện lớn của Cloudflare lại xảy ra cùng một lúc! Tôi chưa từng thấy điều này trước đây. Theo như tôi biết, cơ sở hạ tầng của họ hoàn toàn độc lập.”
Liên quan đến việc lần của Google khiến dịch vụ của các công ty khác bị tê liệt, The Register cho rằng rằng điều này là do hiệu ứng domino: Dịch vụ của Google bị gián đoạn, Cloudflare bị tê liệt và cuối cùng khách hàng của Cloudflare cũng gặp rắc rối .
Bên cạnh những thảo luận về nguyên nhân và tác động của sự cố Google Cloud, một số người dùng cũng cho biết nếu Google và Cloudflare không ngừng hoạt động lần lúc, mọi người sẽ không nghĩ rằng Cloudflare lại phụ thuộc vào Google Cloud đến vậy.
“Thật sự rất đáng ngạc nhiên khi nhiều sản phẩm CF cạnh tranh với các nhà cung cấp dịch vụ đám mây lớn lại phụ thuộc nhiều vào GCP.”
Một số người dùng cũng cho biết tình huống này thực ra là bình thường vì các nhà cung cấp cơ sở hạ tầng cơ bản có sự phụ thuộc lẫn nhau.
"Có khoảng 20-25 nhà cung cấp IaaS cốt lõi trên thế giới và có khả năng có một số mức độ phụ thuộc lẫn nhau giữa họ. Theo quan điểm của Cloudflare, rõ ràng họ coi đây là chuẩn mực trong ngành. Phân tích hậu sự cố lần chính xác là để xác minh và đảm bảo khả năng kiểm soát được sự phụ thuộc này."
Những người khác bày tỏ lo ngại về sự phụ thuộc lẫn nhau giữa các nhà cung cấp dịch vụ đám mây lớn này:
“Một ngày nào đó, Cloudflare sẽ phụ thuộc vào GCP, GCP sẽ phụ thuộc vào Cloudflare, AWS sẽ phụ thuộc vào việc một trong số chúng trực tuyến, và Cloudflare sẽ phụ thuộc vào AWS, và internet sẽ bị sập, và không ai biết cách khởi động lại nó.”
Ngoài ra còn có một bình luận thú vị trong phần bình luận của Hacker New, trong đó một cư dân mạng nói đùa rằng: "Trí tuệ nhân tạo thực sự cần thiết vào thời điểm này!"
Trước sự cố mất điện vào ngày 12 tháng 6 năm 2025, hãy kiểu như: "AI, anh đùa tôi à? Pfft! AI hoàn toàn là một trung tâm ảo tưởng, chúng sẽ không bao giờ thay thế được tôi!" Sau sự cố mất điện vào ngày 12 tháng 6 năm 2025, hãy kiểu như: "Anh vừa nói gì cơ, chúng ta không thể dựa vào AI sao? Anh thực sự đối xử với chúng tôi như gia súc và ngựa vậy!"
Liệu việc cắt giảm chi phí và cải thiện hiệu quả có phải là nguyên nhân tiếp theo?
Bộ phận điện toán đám mây, do Thomas Kurian đứng đầu, là một trong những đơn vị tăng trưởng nhanh nhất của Google trong những năm gần đây và được hưởng lợi từ nhu cầu về các sản phẩm và dịch vụ trí tuệ nhân tạo.
Nhưng lần cố ngừng hoạt động này là một trở ngại đáng kể đối với Google khi công ty này đang cố gắng bắt kịp các đối thủ lớn hơn là Amazon Web Services (AWS) và Microsoft Azure trong lĩnh vực cơ sở hạ tầng đám mây.
Trang trạng thái của Google cho thấy lần cố đã gây ra sự cố cho 13 dịch vụ đám mây của họ tại Hoa Kỳ, Châu Âu và Châu Á. Các dịch vụ mạng khác dường như đã gặp sự cố bao gồm Twitch của AWS, Weights & Biases của CoreWeave, Elastic, GitLab, LangChain, GitHub của Microsoft, Replit và Mailchimp của Intuit.
CNBC đưa tin vào tháng 2 rằng Alphabet đã thực hiện các đợt cắt giảm sâu, sa thải nhân viên trong đội ngũ bán hàng, trải nghiệm khách hàng, giao dịch nội bộ và tiếp thị.
Tuần trước, có thông tin cho biết Google đã triển khai chương trình nghỉ việc tự nguyện dành cho nhân viên ở một số phòng ban tại Hoa Kỳ.
Điều này đã làm dấy lên mối lo ngại về việc liệu công ty có tiếp tục sa thải nhân viên để cắt giảm chi phí hay không. Theo CNBC, "kế hoạch chia tay tự nguyện" dành cho nhân viên ở một số lĩnh vực chính, bao gồm kiến thức và thông tin (K&I), kỹ thuật trung tâm, tiếp thị, nghiên cứu và truyền thông. Đội ngũ K&I, được cho là có khoảng 20.000 nhân viên, đã được tổ chức lại vào tháng 10 năm ngoái, sau đó giám đốc điều hành của Google là Nick Fox đã tiếp quản vị trí trưởng đội ngũ.
Theo những người hiểu rõ vấn đề này và các trao đổi nội bộ mà CNBC xem được, một số vị trí của nhân viên bị ảnh hưởng sẽ được chuyển đến Ấn Độ và Thành phố Mexico.
Công ty xác nhận rằng những điều chỉnh này bao gồm việc hợp nhất hoặc mở các vị trí ở các khu vực khác của Hoa Kỳ và nước ngoài. Công ty cho biết thêm rằng lực lượng lao động lớn nhất trong bộ phận điện toán đám mây vẫn ở Hoa Kỳ và điều đó sẽ không thay đổi.
Số lượng nhân viên bị sa thải chính xác vẫn chưa rõ, nhưng công ty cho biết số lượng này không lớn và họ vẫn tiếp tục tuyển dụng cho các vị trí bán hàng và kỹ thuật quan trọng.
Liên kết tham khảo:
https://status.cloud.google.com/incidents/ow5i3PPK96RduMcb1SsW#2c2sBHWU84yPDJ8y1ar4
https://www.tomsguide.com/news/live/spotify-down-live-updates-6-12-outage
https://news.ycombinator.com/item?id=44260810
https://www.cnbc.com/2025/06/12/google-cloud-and-other-internet-services-are-reporting-outages.html
https://www.cloudflarestatus.com/incidents/25r9t0vz99rp
Bài viết này trích từ tài khoản công khai WeChat "AI Frontline" , tác giả: Dongmei, được 36Kr xuất bản với sự cho phép.





