Сегодня ближе к концу рабочего дня случилась весьма странная авария. В одном из не самых древних и далеко не самых дешевых HP-шных серверов отказал... BackPlane! Казалось бы, при чём тут Лужков? Выглядело это забавно. Сначала разом "отвалилась" одна половина жестких дисков, а через какое-то время и вторая половина. Поскольку оперативной памяти в серванте было с хорошим запасом, он продолжал работать. И даже крутил виртуалки. Разумеется, при любой попытке обращения к дисковой подсистеме тут же происходил отказ. Но даже в таком полумёртвом состоянии он кое-как дотянул пару часов до конца дня "на пердячем паре", после чего был препарирован.
Перезагрузка не помогла. Выключение-включение тоже не помогло. Запустили фирменные диагностические утилиты от Raid-контроллера. Которые показали, что с самим контроллером всё в порядке, с дисками тоже всё в порядке. Заново инициализировали Raid (в смысле, пересобрали, а не отформатировали). Оно собралось и зажужжало. Вроде как ничего не потерялось, все данные целы, виртуалки в полном порядке. Беглая диагностика и тесты чтения ничего не выявили.
У меня только два вопроса: что это было? И стоит ли опасаться повторения банкета в ближайшем будущем?