Cuộc khủng hoảng cơ sở hạ tầng của ngành công nghiệp crypto

Bài viết này được dịch máy
Xem bản gốc

Được viết bởi YQ



Biên soạn bởi AididiaoJP, Foresight News



Amazon Web Services lại gặp sự cố ngừng hoạt động nghiêm trọng, ảnh hưởng nghiêm trọng đến cơ sở hạ crypto. Sự cố tại Khu vực Đông Hoa Kỳ 1 của AWS (trung tâm dữ liệu Bắc Virginia) đã làm tê liệt Coinbase và hàng chục nền tảng crypto lớn khác, bao gồm Robinhood, Infura, Base và Solana .



AWS đã thừa nhận "tỷ lệ lỗi tăng cao" ảnh hưởng đến Amazon DynamoDB và EC2, cơ sở dữ liệu cốt lõi và các dịch vụ điện toán được hàng ngàn công ty tin dùng. Lần cố ngừng hoạt động này là minh chứng rõ ràng và trực tiếp cho luận điểm chính của bài viết này: việc cơ sở hạ tầng crypto phụ thuộc vào các nhà cung cấp dịch vụ đám mây tập trung tạo ra các lỗ hổng hệ thống, liên tục bộc lộ dưới áp lực.



Thời điểm này thật sự đáng báo động. Chỉ mười ngày sau khi chuỗi thanh lý 19,3 tỷ đô la phơi bày những lỗi cơ sở hạ tầng ở cấp độ sàn giao dịch, sự cố ngừng hoạt động của AWS hôm nay cho thấy vấn đề không chỉ nằm ở một nền tảng đơn lẻ mà còn lan sang cả tầng cơ sở hạ tầng đám mây nền tảng. Khi AWS gặp sự cố, tác động lan tỏa đồng thời ảnh hưởng đến sàn giao dịch tập trung, các nền tảng "phi tập trung" với các phụ thuộc tập trung, và vô số dịch vụ khác.



Đây không phải là một sự cố riêng lẻ, mà là một mô hình. Phân tích sau đây ghi lại các sự cố ngừng hoạt động tương tự của AWS vào tháng 4 năm 2025, tháng 12 năm 2021 và tháng 3 năm 2017, lần sự cố đều làm tê liệt các dịch vụ crypto lớn. Câu hỏi không phải là liệu sự cố cơ sở hạ tầng tiếp theo có xảy ra hay không, mà là khi nào và điều gì sẽ kích hoạt nó.



Sự kiện chuỗi thanh lý ngày 10-11 tháng 10 năm 2025: Một nghiên cứu điển hình



Chuỗi thanh lý diễn ra vào ngày 10-11 tháng 10 năm 2025 là một ví dụ điển hình về các hình thức sụp đổ cơ sở hạ tầng. Vào lúc 20:00 UTC, một thông báo địa chính trị quan trọng đã kích hoạt một đợt bán tháo trên toàn thị trường. Chỉ trong vòng một giờ, 6 tỷ đô la đã bị thanh lý. Vào thời điểm thị trường châu Á mở cửa, 19,3 tỷ đô la vị thế đòn bẩy đã bốc hơi trên 1,6 triệu tài khoản của các nhà giao dịch.





Hình 1: Dòng thời gian của các sự kiện chuỗi thanh lý vào tháng 10 năm 2025



Biểu đồ dòng thời gian tương tác này cho thấy sự tiến triển đáng kể của các đợt thanh lý theo giờ. 6 tỷ đô la đã bị xóa sổ chỉ trong giờ đầu tiên, tiếp theo là một giờ thứ hai thậm chí còn đáng kể hơn khi chuỗi này tăng tốc. Hình ảnh minh họa cho thấy:





  • 20:00-21:00: Tác động ban đầu - 6 tỷ đô la bị thanh lý (vùng đỏ)




  • 21:00-22:00: Thời kỳ đỉnh điểm của chuỗi - 4,2 tỷ đô la, khi API bắt đầu giảm tốc




  • 22:00-04:00: Tiếp tục suy giảm - 9,1 tỷ đô la bị thanh lý trong thị trường thanh khoản mỏng




  • Các điểm ngoặt chính: Giới hạn tỷ lệ API, rút lui nhà tạo lập thị trường và giảm bớt sổ lệnh





Quy mô của nó ít nhất lớn hơn một cấp độ so với bất kỳ sự kiện nào trước đây trên thị trường crypto và các so sánh lịch sử cho thấy bản chất hàm bậc thang của sự kiện này:





Hình 2: So sánh các sự kiện thanh lý lịch sử



Biểu đồ thanh minh họa khá rõ nét tầm quan trọng của sự kiện tháng 10 năm 2025:





  • Tháng 3 năm 2020 (COVID): 1,2 tỷ đô la




  • Tháng 5 năm 2021 (sụp đổ): 1,6 tỷ đô la




  • Tháng 11 năm 2022 (FTX): 1,6 tỷ USD




  • Tháng 10 năm 2025: 19,3 tỷ đô la, lớn hơn 16 lần so với kỷ lục trước đó





Nhưng số liệu thanh lý chỉ phản ánh một phần câu chuyện. Câu hỏi thú vị hơn liên quan đến các cơ chế: Các sự kiện thị trường bên ngoài đã kích hoạt chế độ thất bại cụ thể này như thế nào? Câu trả lời cho thấy những điểm yếu mang tính hệ thống trong thiết kế cơ sở hạ tầng sàn giao dịch tập trung và các giao thức blockchain.



Thất bại ngoài Chuỗi: kiến ​​trúc sàn giao dịch tập trung



Quá tải cơ sở hạ tầng và giới hạn tốc độ



API sàn giao dịch triển khai giới hạn tỷ lệ để ngăn chặn việc lạm dụng và quản lý tải máy chủ. Trong quá trình hoạt động bình thường, các giới hạn này cho phép các giao dịch hợp pháp đồng thời ngăn chặn các cuộc tấn công tiềm ẩn. Trong thời kỳ biến động cực độ, khi hàng nghìn nhà giao dịch cùng lúc cố gắng điều chỉnh vị thế, những giới hạn tỷ lệ này trở thành nút thắt cổ chai.



CEX giới hạn thông báo thanh lý ở mức một lệnh mỗi giây, ngay cả khi xử lý hàng nghìn lệnh mỗi giây. Điều này đã gây ra sự thiếu minh bạch trong phản ứng dây chuyền tháng 10. Người dùng không thể xác định mức độ nghiêm trọng của phản ứng dây chuyền theo thời gian thực. Các công cụ giám sát của bên thứ ba cho thấy lần trăm lệnh thanh lý mỗi phút, trong khi các nguồn dữ liệu chính thức cho thấy con số này ít hơn nhiều.



Giới hạn tốc độ API đã ngăn cản các nhà giao dịch điều chỉnh vị thế của họ trong giờ đầu tiên quan trọng. Yêu cầu kết nối bị hết thời gian chờ và việc gửi lệnh không thành công. Lệnh dừng lỗ không được thực hiện, và các truy vấn vị thế trả về dữ liệu lỗi thời. Sự tắc nghẽn cơ sở hạ tầng này đã biến một sự kiện thị trường thành một cuộc khủng hoảng vận hành.



Sàn giao dịch truyền thống cấu hình cơ sở hạ tầng của họ cho tải bình thường, thêm vào một biên độ an toàn. Tuy nhiên, tải bình thường khác biệt đáng kể so với tải căng thẳng, và khối lượng giao dịch trung bình hàng ngày không phải là yếu tố dự báo chính xác về nhu cầu căng thẳng đỉnh điểm. Trong một sự kiện lan tỏa, khối lượng giao dịch tăng vọt 100 lần hoặc hơn, và các truy vấn dữ liệu vị thế tăng 1.000 lần khi mọi người dùng đồng thời kiểm tra tài khoản của họ.





Hình 4.5: Sự cố ngừng hoạt động của AWS ảnh hưởng đến các dịch vụ crypto



Cơ sở hạ tầng đám mây tự động mở rộng đã hỗ trợ, nhưng phản hồi không đến ngay lập tức: việc tạo thêm bản sao đọc cơ sở dữ liệu mất vài phút. Việc tạo các phiên bản cổng API mới mất thêm vài phút nữa. Trong những phút đó, hệ thống tiền ký quỹ tiếp tục đánh dấu giá trị vị thế dựa trên dữ liệu giá bị lỗi từ sổ lệnh quá tải.



Lỗ hổng thao túng và định giá oracle



Trong các sự kiện thác đổ tháng 10, một lựa chọn thiết kế quan trọng trong hệ thống tiền ký quỹ đã trở nên rõ ràng: một số sàn giao dịch tính toán giá trị tài sản thế chấp dựa trên giá Thị trường Spot nội bộ thay vì nguồn cấp dữ liệu Oracle bên ngoài. Trong điều kiện thị trường bình thường, các nhà kinh doanh chênh lệch giá duy trì sự nhất quán về giá trên khắp các sàn giao dịch. Nhưng khi cơ sở hạ tầng gặp áp lực, sự kết hợp này bị phá vỡ.





Hình 3: Biểu đồ luồng thao tác Oracle



Biểu đồ tương tác này trực quan hóa vectơ tấn công gồm năm giai đoạn:





  • Bán tháo ban đầu: Áp lực bán 60 triệu đô la lên USDe




  • Thao túng giá: USDe giảm mạnh từ 1,00 đô la xuống 0,65 đô la trên một sàn giao dịch duy nhất




  • Lỗi Oracle: Hệ thống tiền ký quỹ sử dụng dữ liệu giá nội bộ bị hỏng




  • Chuỗi kích hoạt: Tài sản thế chấp bị hạ giá trị và quá trình thanh lý bắt buộc bắt đầu




  • Phóng to: 19,3 tỷ đô la thanh lý (phóng to 322 lần)





Cuộc tấn công đã khai thác việc Binance sử dụng giá Thị trường Spot cho tài sản thế chấp tổng hợp được bọc. Khi kẻ tấn công bán 60 triệu đô la USDe vào một sổ lệnh tương đối mỏng, giá spot đã giảm mạnh từ 1,00 đô la xuống còn 0,65 đô la. Hệ thống tiền ký quỹ , được cấu hình để đánh dấu tài sản thế chấp theo giá spot , đã định giá lại tất cả các vị thế được thế chấp bằng USDe xuống 35%. Điều này đã kích hoạt các lệnh gọi tiền ký quỹ và buộc hàng nghìn tài khoản phải thanh lý.



Những đợt thanh lý này đã buộc nhiều lệnh bán hơn vào cùng một thị trường thanh khoản, khiến giá càng giảm. Hệ thống tiền ký quỹ đã quan sát những mức giá thấp này và đánh dấu giá trị của nhiều vị thế hơn nữa, một vòng lặp phản hồi đã khuếch đại áp lực bán 60 triệu đô la thành 19,3 tỷ đô la thanh lý bắt buộc.





Hình 4: Vòng phản hồi chuỗi thanh lý



Sơ đồ vòng phản hồi này minh họa bản chất tự củng cố của chuỗi:



Giá giảm → kích hoạt thanh lý → buộc phải bán → giá tiếp tục giảm → [chu kỳ lặp lại]



Với một hệ thống oracle được thiết kế hợp lý, cơ chế này sẽ không hoạt động. Nếu Binance sử dụng giá trung bình theo thời gian (TWAP) trên nhiều sàn giao dịch , việc thao túng giá tức thời sẽ không ảnh hưởng đến định giá tài sản thế chấp. Nếu họ sử dụng dữ liệu giá tổng hợp từ Chainlink hoặc một oracle đa nguồn khác, cuộc tấn công sẽ thất bại.



Sự cố wBETH bốn ngày trước đã cho thấy một lỗ hổng tương tự. wBETH được cho là duy trì tỷ lệ trao đổi 1:1 với ETH. Trong sự kiện thác loạn này, thanh khoản cạn kiệt và Thị trường Spot wBETH/ETH đã giảm 20%. Hệ thống tiền ký quỹ do đó đã hạ thấp giá trị tài sản thế chấp của wBETH, dẫn đến việc thanh lý các vị thế được thế chấp hoàn toàn bằng ETH cơ sở.



Cơ chế tự động giảm đòn bẩy (ADL)



Khi không thể thực hiện thanh lý ở mức giá thị trường hiện tại, sàn giao dịch sẽ áp dụng thanh lý tự động (ADL) để phân bổ tổn thất cho các nhà giao dịch có lợi nhuận. ADL buộc các vị thế có lợi nhuận phải đóng ở mức giá hiện tại để bù đắp khoản thiếu hụt trong vị thế đã thanh lý.



Trong các sự kiện đổ vỡ tháng 10, Binance đã thực hiện ADL trên nhiều cặp giao dịch. Các nhà giao dịch nắm giữ vị thế mua có lợi nhuận đã bị thanh lý giao dịch một cách cưỡng bức, không phải do lỗi quản lý rủi ro của chính họ, mà là do vị thế của các nhà giao dịch khác bị phá sản.



ADL phản ánh một lựa chọn kiến ​​trúc cơ bản trong giao dịch phái sinh tập trung. Sàn giao dịch đảm bảo sẽ không bị lỗ. Điều này có nghĩa là tổn thất phải do một hoặc bên long bên sau đây chịu:





  • Quỹ bảo hiểm (quỹ do sàn giao dịch dành riêng để trang trải khoản thiếu hụt thanh lý)




  • ADL (Bắt buộc đóng cửa các nhà giao dịch có lợi nhuận)




  • Tổn thất xã hội hóa (phân bổ tổn thất cho tất cả người dùng)





Quy mô của quỹ bảo hiểm so với số lượng hợp đồng mở quyết định tần suất của ADL. Quỹ bảo hiểm của Binance đạt tổng cộng khoảng 2 tỷ đô la vào tháng 10 năm 2025. Con số này cung cấp mức bảo hiểm 50% so với 4 tỷ đô la số lượng hợp đồng mở trên các hợp đồng vĩnh viễn BTC, ETH và BNB. Tuy nhiên, trong các sự kiện thác đổ tháng 10, tổng số lượng hợp đồng mở trên tất cả cặp giao dịch đã vượt quá 20 tỷ đô la. Quỹ bảo hiểm đã không thể bù đắp được khoản thiếu hụt.



Sau các sự kiện liên tiếp hồi tháng 10, Binance đã thông báo rằng họ sẽ bảo lãnh ADL cho các hợp đồng BTC, ETH và BNB USDⓈ-M miễn là tổng số hợp đồng mở (open interest) vẫn dưới 4 tỷ đô la. Điều này tạo ra một cơ cấu khích lệ: sàn giao dịch có thể duy trì quỹ bảo hiểm lớn hơn để tránh ADL, nhưng điều này sẽ ràng buộc các quỹ có thể được triển khai sinh lời.



Lỗi trên Chuỗi: Những hạn chế của giao thức blockchain



Biểu đồ thanh so sánh thời gian ngừng hoạt động giữa các sự cố khác nhau:





  • Solana(tháng 2 năm 2024): 5 giờ - Nút thắt thông lượng bỏ phiếu




  • Polygon(tháng 3 năm 2024): 11 giờ - Phiên bản trình xác thực không khớp




  • Optimism(tháng 6 năm 2024): 2,5 giờ - Quá tải trình sắp xếp (airdrop)




  • Solana(tháng 9 năm 2024): 4,5 giờ - Tấn công thư rác giao dịch




  • Arbitrum(tháng 12 năm 2024): 1,5 giờ - Lỗi nhà cung cấp RPC







Hình 5: Sự cố mạng lớn - Phân tích thời lượng



Solana: Nút thắt cổ chai của sự đồng thuận



Solana đã gặp phải lần lần ngừng hoạt động trong giai đoạn 2024-2025. Lần ngừng hoạt động vào tháng 2 năm 2024 kéo dài khoảng 5 giờ, và lần ngừng hoạt động vào tháng 9 năm 2024 kéo dài 4-5 giờ. Những lần ngừng hoạt động này bắt nguồn từ cùng một nguyên nhân: mạng không thể xử lý khối lượng giao dịch trong các đợt tấn công spam hoặc các giai đoạn hoạt động quá mức.



Hình 5 Chi tiết: Sự cố mất điện của Solana (5 giờ vào tháng 2, 4,5 giờ vào tháng 9) làm nổi bật vấn đề thường xuyên về khả năng phục hồi của mạng lưới khi chịu áp lực.



Kiến trúc của Solana được tối ưu hóa về thông lượng. Trong điều kiện lý tưởng, mạng xử lý 3.000-5.000 giao dịch mỗi giây với độ chính xác chưa đến một giây. Hiệu suất này cao hơn Ethereum gấp nhiều lần. Tuy nhiên, trong các sự kiện căng thẳng, việc tối ưu hóa này tạo ra các lỗ hổng.



Sự cố ngừng hoạt động vào tháng 9 năm 2024 xuất phát từ một loạt giao dịch spam khiến cơ chế bỏ phiếu của trình xác thực bị quá tải. Trình xác thực Solana phải bỏ phiếu trên các khối để đạt được sự đồng thuận. Trong quá trình hoạt động bình thường, trình xác thực ưu tiên các giao dịch bỏ phiếu để đảm bảo tiến độ đồng thuận. Tuy nhiên, trước đây giao thức này xử lý các giao dịch bỏ phiếu như các giao dịch thông thường cho thị trường phí của mình.



Khi bộ nhớ giao dịch (mempool) chứa đầy hàng triệu giao dịch rác, trình xác thực sẽ gặp khó khăn trong việc phân phối các giao dịch bỏ phiếu. Nếu không có đủ phiếu bầu, các khối không thể được hoàn tất. Nếu không có các khối được hoàn tất, Chuỗi sẽ bị đình trệ. Người dùng có giao dịch đang chờ xử lý sẽ thấy chúng bị kẹt trong bộ nhớ. Không thể gửi giao dịch mới.



StatusGator đã ghi nhận lần Solana ngừng hoạt động dịch vụ trong giai đoạn 2024-2025, nhưng Solana chưa bao giờ chính thức thừa nhận. Điều này đã tạo ra sự bất đối xứng thông tin. Người dùng không thể phân biệt giữa các sự cố kết nối cục bộ và sự cố trên toàn mạng. Các dịch vụ giám sát của bên thứ ba cung cấp khả năng giải trình, nhưng các nền tảng nên duy trì các trang trạng thái toàn diện.



Ethereum: Phí gas bùng nổ



Ethereum đã trải qua những đợt tăng đột biến phí gas trong cơn sốt DeFi năm 2021, với các giao dịch đơn giản có phí lên tới hơn 100 đô la. Các tương tác hợp đồng thông minh phức tạp có giá từ 500 đến 1000 đô la. Những khoản phí này khiến mạng lưới không thể sử dụng cho các giao dịch nhỏ hơn và tạo điều kiện cho một hướng tấn công khác: rút MEV.





Hình 7: Chi phí giao dịch trong thời kỳ căng thẳng mạng



Biểu đồ đường này cho thấy rõ nâng cấp phí gas trên các mạng lưới trong các sự kiện căng thẳng:





  • Ethereum: 5 đô la (bình thường) → 450 đô la (tắc nghẽn đỉnh điểm) — tăng 90 lần




  • Arbitrum: 0,50 USD → 15 USD – tăng 30 lần




  • Optimism: 0,30 đô la → 12 đô la – tăng 40 lần





Hình ảnh trực quan cho thấy ngay cả các giải pháp Layer 2 cũng trải qua nâng cấp phí gas đáng kể, mặc dù ở điểm khởi đầu thấp hơn nhiều.



Giá trị rút tối đa (MEV) mô tả lợi nhuận mà trình xác thực có thể rút bằng cách sắp xếp , bao gồm hoặc loại trừ các giao dịch. MEV đặc biệt có lợi nhuận trong hoàn cảnh phí gas cao. Các nhà đầu cơ chênh lệch giá cạnh tranh để chạy trước các giao dịch DEX lớn, và các bot thanh lý cạnh tranh để trở thành người đầu tiên thanh lý các vị thế thiếu tài sản thế chấp. Sự cạnh tranh này thể hiện qua các cuộc chiến đấu thầu phí gas .



Người dùng muốn đảm bảo giao dịch của mình được xử lý trong thời gian tắc nghẽn phải trả giá cao hơn bot MEV. Điều này dẫn đến tình huống phí giao dịch vượt quá giá trị giao dịch. Bạn muốn lĩnh nhận airdrop 100 đô la? Trả 150 đô la phí gas . Cần thêm tài sản thế chấp để tránh bị thanh lý? Hãy cạnh tranh với các bot trả 500 đô la phí ưu tiên.



Giới hạn gas của Ethereum hạn chế tổng khối lượng tính toán trên mỗi khối. Trong thời gian tắc nghẽn, người dùng sẽ đấu giá để giành không gian khối khan hiếm. Thị trường phí hoạt động theo thiết kế: người trả giá cao nhất sẽ được ưu tiên. Tuy nhiên, thiết kế này khiến mạng lưới ngày càng đắt đỏ trong thời gian sử dụng cao điểm, chính xác là khi người dùng cần truy cập nhất.



Các giải pháp Layer 2 cố gắng giải quyết vấn đề này bằng cách di chuyển tính toán ra khỏi Chuỗi trong khi vẫn duy trì tính bảo mật của Ethereum thông qua quyết toán định kì . Optimism, Arbitrum và các Rollup khác xử lý hàng nghìn giao dịch ra khỏi Chuỗi và sau đó gửi bằng chứng nén lên Ethereum. Kiến trúc này giúp giảm chi phí cho mỗi giao dịch trong quá trình vận hành bình thường.



Layer 2: Nút thắt cổ chai của trình tự



Tuy nhiên, các giải pháp Layer 2 lại gây ra những điểm nghẽn mới. Optimism đã gặp sự cố ngừng hoạt động vào tháng 6 năm 2024 khi 250.000 địa chỉ cùng lúc yêu cầu airdrop . Bộ sắp xếp, thành phần sắp xếp các giao dịch trước khi gửi lên Ethereum , đã bị quá tải và người dùng không thể gửi giao dịch trong nhiều giờ.



Lần cố ngừng hoạt động này chứng minh rằng việc di chuyển tính toán ra khỏi Chuỗi không loại bỏ được các yêu cầu về cơ sở hạ tầng. Các trình tự phải xử lý các giao dịch đến, sắp xếp chúng, thực thi chúng và tạo bằng chứng gian lận hoặc bằng chứng ZK cho quyết toán toán Ethereum . Trong điều kiện lưu lượng truy cập cực lớn, các trình tự phải đối mặt với những thách thức mở rộng tương tự như blockchain độc lập.



Cần có nhiều nhà cung cấp RPC khả dụng. Nếu nhà cung cấp chính gặp sự cố, người dùng nên chuyển đổi dự phòng sang một nhà cung cấp thay thế một cách liền mạch. Trong thời gian Optimism ngừng hoạt động, một số nhà cung cấp RPC vẫn hoạt động trong khi một số khác gặp sự cố. Người dùng có ví mặc định kết nối với nhà cung cấp bị lỗi không thể tương tác với Chuỗi, mặc dù Chuỗi vẫn trực tuyến.



Sự cố ngừng hoạt động của AWS đã nhiều lần chứng minh sự tồn tại của rủi ro cơ sở hạ tầng tập trung trong hệ sinh thái crypto :





  • Ngày 20 tháng 10 năm 2025 (hôm nay): Sự cố ngừng hoạt động ở khu vực miền Đông Hoa Kỳ đã ảnh hưởng đến Coinbase, cũng như Venmo, Robinhood và Chime. AWS thừa nhận tỷ lệ lỗi tăng cao đối với các dịch vụ DynamoDB và EC2 của mình.




  • Tháng 4 năm 2025: Sự cố gián đoạn cục bộ ảnh hưởng đến Binance, Kucoin và MEXC cùng lúc. Nhiều sàn giao dịch lớn không thể hoạt động khi các thành phần lưu trữ trên AWS của họ gặp sự cố.




  • Tháng 12 năm 2021: Sự cố ngừng hoạt động ở khu vực phía đông Hoa Kỳ đã làm tê liệt Coinbase, Binance.US và sàn giao dịch " phi tập trung " dYdX trong 8-9 giờ, đồng thời ảnh hưởng đến kho hàng của Amazon và các dịch vụ phát trực tuyến lớn.




  • Tháng 3 năm 2017: Sự cố ngừng hoạt động của S3 khiến người dùng không thể đăng nhập vào Coinbase và GDAX trong năm giờ, kèm theo tình trạng mất kết nối internet trên diện rộng.





Mô hình rất rõ ràng: sàn giao dịch này lưu trữ các thành phần quan trọng trên cơ sở hạ tầng AWS. Khi AWS gặp sự cố ngừng hoạt động cục bộ, nhiều sàn giao dịch và dịch vụ lớn đồng thời không khả dụng. Người dùng không thể truy cập tiền, thực hiện giao dịch hoặc thay đổi vị thế trong thời gian ngừng hoạt động - chính xác là khi biến động thị trường có thể đòi hỏi hành động ngay lập tức.



Polygon: phiên bản đồng thuận không khớp



Polygon(trước đây là Matic) đã gặp sự cố ngừng hoạt động kéo dài 11 giờ vào tháng 3 năm 2024. Nguyên nhân gốc rễ liên quan đến sự không khớp phiên bản trình xác thực, khi một số trình xác thực chạy phiên bản phần mềm cũ hơn trong khi một số khác chạy phiên bản nâng cấp. Các phiên bản này tính toán chuyển đổi trạng thái khác nhau.



Hình 5 Chi tiết: Polygon (11 giờ) là sự cố dài nhất trong số các sự kiện chính được phân tích, làm nổi bật mức độ nghiêm trọng của lỗi đồng thuận.



Khi các trình xác thực đưa ra các kết luận khác nhau về trạng thái chính xác, sự đồng thuận sẽ thất bại và Chuỗi không thể tạo ra các khối mới vì các trình xác thực không thể thống nhất về tính hợp lệ của các khối. Điều này tạo ra bế tắc: các trình xác thực chạy các khối từ chối phần mềm cũ do các trình xác thực chạy phần mềm mới tạo ra, và các trình xác thực chạy các khối từ chối phần mềm mới do các trình xác thực chạy phần mềm cũ tạo ra.



Việc giải quyết yêu cầu phối hợp nâng cấp trình xác thực, nhưng việc phối hợp nâng cấp trình xác thực trong thời gian ngừng hoạt động sẽ mất thời gian. Mọi nhà điều hành trình xác thực phải được liên hệ, phiên bản phần mềm chính xác phải được triển khai và trình xác thực của họ phải được khởi động lại. Trong một mạng lưới phi tập trung với hàng trăm trình xác thực độc lập, việc phối hợp này có thể mất hàng giờ hoặc hàng ngày.



Hard fork thường sử dụng bộ kích hoạt Block Height . Tất cả các trình xác thực nâng cấp theo một Block Height nhất định để đảm bảo kích hoạt đồng thời, nhưng điều này đòi hỏi sự phối hợp trước. Nâng cấp gia tăng, trong đó các trình xác thực dần dần áp dụng phiên bản mới, rủi ro tạo ra sự không khớp chính xác phiên bản, có thể khiến Polygon bị sập.



Sự đánh đổi về kiến ​​trúc





Hình 6: Bộ ba Blockchain- Phi tập trung so với Hiệu suất



Biểu đồ phân tán này ánh xạ các hệ thống khác nhau thành hai chiều chính:





  1. Bitcoin: Phi tập trung cao, hiệu suất thấp




  2. Ethereum: Phi tập trung cao, hiệu suất trung bình




  3. Solana: Phi tập trung vừa phải, hiệu suất cao




  4. Binance(CEX): Phi tập trung tối thiểu, Hiệu suất tối đa




  5. Arbitrum/ Optimism: Phi tập trung, hiệu suất trung bình





Thông tin chi tiết chính: Không có hệ thống nào có thể đạt được cả phi tập trung tối đa và hiệu suất tối đa; mỗi thiết kế đều có sự đánh đổi có chủ đích cho các trường hợp sử dụng khác nhau.



Sàn giao dịch tập trung đạt được độ trễ thấp nhờ kiến ​​trúc đơn giản. Các công cụ khớp lệnh xử lý lệnh trong vài micro giây, và trạng thái được lưu trữ trong cơ sở dữ liệu tập trung. Việc thiếu giao thức đồng thuận gây ra chi phí phát sinh, nhưng sự đơn giản này lại tạo ra một điểm lỗi duy nhất. Khi cơ sở hạ tầng chịu áp lực, các lỗi liên tiếp lan truyền trong toàn bộ hệ thống được kết nối chặt chẽ.



Các giao thức phi tập trung phân phối trạng thái trên các trình xác thực, loại bỏ các điểm lỗi đơn lẻ. Chuỗi thông lượng cao duy trì đặc tính này trong thời gian ngừng hoạt động (không mất tiền, chỉ tạm thời giảm khả năng hoạt động). Tuy nhiên, việc đạt được sự đồng thuận trên các trình xác thực phân tán sẽ gây ra chi phí tính toán lớn; các trình xác thực phải đạt được thỏa thuận trước khi hoàn tất quá trình chuyển đổi trạng thái. Khi các trình xác thực chạy các phiên bản không tương thích hoặc gặp phải lưu lượng truy cập quá lớn, quá trình đồng thuận có thể tạm thời bị dừng lại.



Việc thêm bản sao giúp cải thiện khả năng chịu lỗi nhưng lại làm tăng chi phí phối hợp. Trong một hệ thống chịu lỗi Byzantine, mỗi trình xác thực bổ sung sẽ làm tăng chi phí truyền thông. Các kiến ​​trúc thông lượng cao giảm thiểu chi phí này thông qua việc tối ưu hóa giao tiếp giữa các trình xác thực, đạt được hiệu suất vượt trội nhưng dễ bị tổn thương trước một số kiểu tấn công nhất định. Các kiến ​​trúc tập trung vào bảo mật ưu tiên tính đa dạng của trình xác thực và độ mạnh của sự đồng thuận, hạn chế thông lượng ở lớp cơ sở trong khi tối đa hóa khả năng phục hồi.



Các giải pháp Layer 2 cố gắng cung cấp cả hai đặc tính này thông qua thiết kế phân lớp. Chúng kế thừa các đặc tính bảo mật của Ethereum thông qua quyết toán L1, đồng thời cung cấp thông lượng cao thông qua tính toán Chuỗi. Tuy nhiên, chúng lại tạo ra những điểm nghẽn mới ở lớp sequencer và RPC, chứng tỏ rằng sự phức tạp về kiến ​​trúc tạo ra các chế độ lỗi mới trong khi vẫn giải quyết được một số vấn đề.



Mở rộng vẫn là một vấn đề cơ bản



Những sự kiện này đã tiết lộ một mô hình nhất quán: hệ thống đã cung cấp tài nguyên cho các tải bình thường, sau đó gặp sự cố thảm khốc dưới áp lực. Solana xử lý lưu lượng truy cập thông thường một cách hiệu quả nhưng đã sụp đổ khi khối lượng giao dịch tăng 10.000%. Phí gas Ethereum vẫn ở mức hợp lý cho đến khi việc áp dụng DeFi gây ra tình trạng tắc nghẽn. Cơ sở hạ tầng của Optimism hoạt động tốt cho đến khi 250.000 địa chỉ đồng loạt yêu cầu airdrop. API của Binance hoạt động bình thường trong quá trình giao dịch bình thường nhưng bị hạn chế trong quá trình thanh lý trên chuỗi.



Các sự kiện tháng 10 năm 2025 đã cho thấy động lực này ở cấp độ sàn giao dịch. Trong quá trình hoạt động bình thường, giới hạn tỷ lệ API và kết nối cơ sở dữ liệu của Binance là đủ, nhưng trong đợt thanh lý hàng loạt, khi tất cả các nhà giao dịch cùng lúc cố gắng điều chỉnh vị thế, những giới hạn này đã trở thành một nút thắt cổ chai. Hệ thống tiền ký quỹ , được thiết kế để bảo vệ sàn giao dịch khỏi việc thanh lý bắt buộc, đã khuếch đại cuộc khủng hoảng bằng cách tạo ra những người bán bắt buộc vào thời điểm tồi tệ nhất có thể.



Tự động điều chỉnh quy mô không đủ khả năng bảo vệ chống lại sự gia tăng tải theo hàm bậc thang. Việc mở rộng động thêm máy chủ mất vài phút, và trong những phút đó, hệ thống tiền ký quỹ đánh dấu giá trị của các vị thế dựa trên dữ liệu giá bị lỗi từ sổ lệnh mỏng. Khi công suất mới được đưa vào ra mắt, phản ứng dây chuyền đã lan truyền.



Việc cung cấp quá mức tài nguyên cho các sự kiện căng thẳng hiếm gặp sẽ tốn kém chi phí trong quá trình vận hành bình thường. Các nhà điều hành sàn giao dịch tối ưu hóa cho các tải trọng thông thường, chấp nhận việc ngừng hoạt động thỉnh thoảng như một lựa chọn hợp lý về mặt kinh tế. Chi phí thời gian ngừng hoạt động được chuyển sang người dùng, những người gặp phải tình trạng thanh lý, giao dịch bị kẹt hoặc không thể tiếp cận nguồn vốn trong những biến động thị trường quan trọng.



Cải thiện cơ sở hạ tầng





Hình 8: Phân bố chế độ lỗi cơ sở hạ tầng (2024-2025)



Biểu đồ hình tròn phân tích các nguyên nhân gốc rễ cho thấy:





  • Quá tải cơ sở hạ tầng: 35% (phổ biến nhất)




  • Nghẽn mạng: 20%




  • Thất bại trong sự đồng thuận: 18%




  • Thao túng Oracle: 12%




  • Sự cố xác thực: 10%




  • Lỗ hổng hợp đồng thông minh: 5%





Một số thay đổi về kiến ​​trúc có thể làm giảm tần suất và mức độ nghiêm trọng của lỗi, mặc dù mỗi thay đổi đều có sự đánh đổi:



Tách biệt hệ thống định giá và hệ thống thanh toán bù trừ



Số báo tháng 10 một phần xuất phát từ việc kết hợp tính toán tiền ký quỹ với giá Thị trường Spot. Việc sử dụng tỷ lệ hoàn vốn cho tài sản được gói gọn thay vì giá spot có thể đã tránh được việc định giá sai của wBETH. Nhìn chung, các hệ thống quản lý rủi ro quan trọng không nên dựa vào dữ liệu thị trường có khả năng bị thao túng. Các hệ thống oracle độc ​​lập với tính năng tổng hợp đa nguồn và tính toán TWAP cung cấp nguồn dữ liệu giá mạnh mẽ hơn.



Cơ sở hạ tầng dư thừa và quá tải



Sự cố ngừng hoạt động của AWS ảnh hưởng đến Binance, Kucoin và MEXC vào tháng 4 năm 2025 đã chứng minh rủi ro của việc phụ thuộc vào cơ sở hạ tầng tập trung. Việc chạy các thành phần quan trọng trên nhiều nhà cung cấp đám mây làm tăng độ phức tạp và chi phí vận hành, nhưng lại loại bỏ nguy cơ lỗi tương quan. Mạng Layer 2 có thể duy trì nhiều nhà cung cấp RPC với khả năng tự động chuyển đổi dự phòng. Chi phí bổ sung có vẻ lãng phí trong hoạt động bình thường, nhưng nó giúp ngăn ngừa hàng giờ ngừng hoạt động trong thời gian cao điểm.



Kiểm tra căng thẳng và lập kế hoạch năng lực nâng cao



Mô hình hoạt động tốt của hệ thống cho đến khi gặp sự cố cho thấy việc kiểm tra dưới áp lực chưa đầy đủ. Việc mô phỏng tải gấp 100 lần bình thường nên là một thông lệ tiêu chuẩn; việc xác định các điểm nghẽn trong quá trình phát triển sẽ ít tốn kém hơn so với việc phát hiện chúng trong trường hợp ngừng hoạt động thực tế. Tuy nhiên, việc kiểm tra tải thực tế vẫn còn nhiều thách thức. Lưu lượng truy cập trong môi trường sản xuất thể hiện các mô hình mà các bài kiểm tra tổng hợp không thể nắm bắt đầy đủ, và hành vi của người dùng trong trường hợp ngừng hoạt động thực tế khác với trong quá trình kiểm tra.



Con đường phía trước



Dự phòng quá mức mang lại giải pháp đáng tin cậy nhất nhưng lại mâu thuẫn với khích lệ kinh tế. Việc duy trì công suất dự phòng gấp 10 lần cho các sự kiện hiếm gặp đòi hỏi chi phí hàng ngày để ngăn chặn một sự cố chỉ xảy ra một lần mỗi năm. Hệ thống sẽ tiếp tục gặp sự cố nếu không chịu đủ chi phí để biện minh cho việc dự phòng quá mức.



Áp lực pháp lý có thể buộc phải thay đổi. Nếu quy định yêu cầu thời gian hoạt động 99,9% hoặc giới hạn thời gian ngừng hoạt động ở mức chấp nhận được, sàn giao dịch sẽ cần phải dự phòng quá mức. Tuy nhiên, quy định thường đi sau thảm họa, chứ không phải ngăn chặn chúng. Sự sụp đổ của Mt. Gox năm 2014 đã dẫn đến việc Nhật Bản chính thức ban hành các quy định sàn giao dịch crypto . Chuỗi sự kiện vào tháng 10 năm 2025 có thể sẽ kích hoạt một phản ứng pháp lý tương tự. Liệu những phản ứng này có chỉ rõ kết quả (thời gian ngừng hoạt động tối đa có thể chấp nhận được, trượt giá tối đa trong quá trình thanh lý) hay cách chúng được triển khai (các nhà cung cấp oracle cụ thể, ngưỡng ngắt mạch) hay không vẫn chưa rõ ràng.



Thách thức cơ bản là các hệ thống này hoạt động liên tục trên thị trường toàn cầu, nhưng lại dựa vào cơ sở hạ tầng được thiết kế cho giờ làm việc thông thường. Khi căng thẳng ập đến lúc 2 giờ sáng, đội ngũ phải vật lộn để triển khai các bản sửa lỗi trong khi người dùng phải đối mặt với tổn thất ngày càng tăng. Các thị trường truyền thống ngừng giao dịch trong thời gian căng thẳng; thị trường crypto đơn giản là sụp đổ. Việc điều này là một tính năng hay một lỗi tùy thuộc vào quan điểm và góc nhìn.



Các hệ thống blockchain đã đạt được sự tinh vi kỹ thuật đáng kinh ngạc chỉ trong một thời gian ngắn. Việc duy trì sự đồng thuận phân tán trên hàng nghìn nút là một kỳ tích kỹ thuật thực sự. Tuy nhiên, việc đạt được độ tin cậy dưới áp lực đòi hỏi vượt qua kiến ​​trúc nguyên mẫu để hướng đến cơ sở hạ tầng cấp sản xuất. Quá trình chuyển đổi này đòi hỏi nguồn vốn và ưu tiên tính mạnh mẽ hơn tốc độ phát triển tính năng.



Thách thức nằm ở việc ưu tiên sự vững mạnh hơn tăng trưởng trong thị trường bò , khi mọi người đều kiếm được tiền và thời gian ngừng hoạt động dường như là vấn đề của người khác. Khi chu kỳ tiếp theo kiểm tra sức chịu đựng của hệ thống, những điểm yếu mới sẽ xuất hiện. Liệu ngành công nghiệp có rút kinh nghiệm từ tháng 10 năm 2025 hay lặp lại một mô hình tương tự vẫn là một câu hỏi bỏ ngỏ. Lịch sử cho thấy lỗ hổng nghiêm trọng tiếp theo sẽ được phát hiện thông qua một vụ sụp đổ trị giá hàng tỷ đô la khác trong điều kiện căng thẳng.


Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận