Mục lục lục
ToggleHét vào một dãy giá đỡ máy chủ, và đường cong giám sát trên màn hình đột nhiên tăng vọt trong cùng một giây? Theo một báo cáo của HKEPC hôm nay, một video về thí nghiệm thực tế tại trung tâm dữ liệu từ tháng 12 năm 2008, có tiêu đề "Hét trong trung tâm dữ liệu", gần đây đã lan truyền trở lại trên cộng đồng, thu hút hơn 5,3 triệu lần.
Nhân vật chính trong video là Brendan Gregg, trước đây làm việc tại Sun Microsystems và hiện là kỹ sư tại OpenAI . Video được đồng nghiệp của anh, Bryan Cantrill, tải lên; thậm chí chính Gregg cũng thừa nhận trong một cuộc phỏng vấn rằng anh gần như đã quên mất nó, chỉ nhớ lại sau khi video cũ được đăng tải lại. Đoạn clip chưa đầy hai phút này đã trở thành tài liệu giảng dạy mang tính huyền thoại trong cộng đồng kỹ sư phần cứng.
Điều gì đã xảy ra trong tiếng gầm rú đó vào năm 2008?
Địa điểm thử nghiệm là một giá đỡ JBOD (nói một cách đơn giản, đó là thiết bị lưu trữ bao gồm nhiều ổ cứng được kết nối với nhau).
Trong video, Gregg tiến đến giá đỡ và hét vào dãy ổ cứng (HDD) dày đặc. Đồng thời, các công cụ phân tích do đội ngũ SunFishworks phát triển giám sát độ trễ bên trong của từng ổ cứng trong thời gian thực (nói một cách đơn giản, đó là thời gian chờ giữa lúc ổ cứng nhận được lệnh và lúc thực sự bắt đầu đọc hoặc ghi dữ liệu).
Kết quả rất rõ ràng: khi Gregg gầm lên, độ trễ của các ổ cứng bị ảnh hưởng bởi sóng âm lập tức tăng vọt, và tốc độ đọc/ghi của chúng giảm mạnh; khi anh ta dừng lại, các đường cong từ từ trở lại bình thường. Màn hình giám sát hiển thị chính xác ổ cứng nào bị ảnh hưởng và mức độ ảnh hưởng như thế nào.

Sóng âm gây ra hiện tượng đầu từ "bị mất" như thế nào?
Tại sao lại như vậy? Bên trong một ổ cứng HDD là một thế giới thu nhỏ với độ chính xác đáng kinh ngạc: các đĩa từ làm bằng nhôm, đồng, hoặc thậm chí là gốm quay với tốc độ hàng nghìn vòng mỗi phút, trong khi các đầu đọc/ghi di chuyển ở độ cao chỉ vài nanomet so với bề mặt đĩa. Khả năng chịu lỗi của toàn bộ hệ thống gần như bằng không khi đo ở quy mô con người.
Khi một người hét lớn gần giá đỡ ổ cứng, sóng âm sẽ truyền qua không khí đến vỏ ổ cứng, sau đó xuyên qua cấu trúc vỏ vào bên trong, gây ra một sự dịch chuyển tương đối nhỏ giữa đĩa và đầu đọc/ghi. Đầu đọc/ghi phải được căn chỉnh chính xác với các rãnh dữ liệu trên đĩa trong quá trình đọc và ghi; bất kỳ sự sai lệch nhỏ nào không mong muốn cũng sẽ kích hoạt quá trình định vị lại, dẫn đến tăng độ trễ đọc/ghi và giảm thông lượng.
Mặc dù các ổ cứng HDD dùng trong trung tâm dữ liệu được trang bị thiết kế chống sốc và có khả năng chống lại một phần tiếng ồn bối cảnh hoàn cảnh (điều hòa, quạt), nhưng mức áp suất âm thanh cường độ cao đột ngột vẫn có thể vượt quá ngưỡng bảo vệ. Đây không phải là lỗi thiết kế, mà là giới hạn cấu trúc của các đĩa quay cơ học trước các định luật vật lý: đĩa dễ bị rung động, và âm thanh là sự rung động.
Một trường hợp khác, được biết đến rộng rãi hơn và thậm chí còn kỳ quặc hơn, đã đưa hiện tượng này lên hàng đầu trong một cơ sở dữ liệu chính thức về lỗ hổng an ninh mạng lần. Theo các kỹ sư của Microsoft , một đoạn trong bài hát "Rhythm Nation" năm 1989 của Janet Jackson có tần số cộng hưởng tự nhiên trùng khớp với tần số cộng hưởng cơ học của ổ cứng HDD máy tính xách tay 5400 RPM phổ biến thời bấy giờ.
Việc phát bài hát này gần một số máy tính xách tay thậm chí có thể gây ra lỗi ổ cứng và tắt hệ thống. Không chỉ trên cùng một máy tính, mà cả trên một máy tính xách tay khác đặt gần đó cũng có thể bị ảnh hưởng. Trường hợp này cuối cùng đã được chính thức ghi nhận là lỗ hổng bảo mậtCVE-2022-38392 , trở thành một kỷ lục hiếm hoi trong lịch sử bảo mật phần mềm và phần cứng về một lỗ hổng do một bài hát nổi tiếng gây ra.
17 năm sau: Trung tâm dữ liệu AI và những vấn đề chưa được giải quyết về định luật vật lý
Làn sóng trí tuệ nhân tạo hiện nay đang thúc đẩy sự mở rộng của các trung tâm dữ liệu với tốc độ chưa từng có, với nhu cầu ngày càng tăng về mật độ tính toán, mật độ lưu trữ và tính ổn định trên diện rộng.
Ổ cứng SSD (ổ cứng không có bộ phận quay, lưu trữ dữ liệu trong bộ nhớ flash) đã chứng kiến sự gia tăng đáng kể về mức độ phổ biến trong các trung tâm dữ liệu hiện đại và thị trường tiêu dùng. Chúng cung cấp tốc độ truyền dữ liệu nhanh hơn gấp mười lần so với ổ cứng HDD cơ học và hầu như hoàn toàn miễn nhiễm với sóng âm, rung động và các cú sốc vật lý: vì không có đĩa từ và không có đầu đọc, nên đương nhiên không có vấn đề về việc đầu đọc bị mất.
Tuy nhiên, ổ cứng HDD cơ học vẫn được sử dụng lượng lớn trong các kịch bản lưu trữ lạnh do lợi thế về chi phí và dung lượng đơn vị. Các tập dữ liệu thô cần thiết cho việc huấn luyện AI thường có kích thước lên đến hàng chục hoặc hàng trăm terabyte, và một phần đáng kể các tập dữ liệu này vẫn nằm trong các mảng đĩa cơ học. Điều này có nghĩa là ý kiến cho rằng "sóng âm làm chậm ổ cứng HDD" không chỉ là một giai thoại lịch sử, mà còn là một rủi ro tiềm tàng đối với cơ sở hạ tầng hiện có.
Đoạn video 17 năm tuổi này gần đây lại lan truyền mạnh mẽ, và lý do có thể là: dù trung tâm dữ liệu có hiện đại đến đâu, nó vẫn hoạt động dựa trên các định luật vật lý có thể bị phá vỡ bởi một tiếng hét.


