В процессе плановых работ на одном из своих серверов обнаружил, что у него развалился mdraid, представляющий из себя зеркало из двух одинаковых SATA-дисков. SMART-диагностика на "проблемном" диске показала значение параметра "Raw_Read_Error_Rate" ажно 2293760, в то время как на "здоровом" диске он как был, так и остался нулевым.
Поскольку сервер всё равно далеко, подойти к нему физически прямо сейчас не получится. Ну я решил, и хрен бы с ним. Обновил там дистрибутив, перезагрузил машинку. Закинул проблемный диск обратно в массив.
К моему удивлению, массив перестроился нормально, в штатном режиме, никаких ошибок не выдал. Сейчас тоже всё работает нормально, массив видит оба диска, Raw_Read_Error_Rate не растёт. Остальные показания SMART в норме.
Вот я не понял: что это было?!? И что делать дальше: то ли забить, то ли вытащить из сервака "проблемный" диск и погонять его тестами? И если второе, то какими именно, как долго и в каком режиме? И что вообще искать: дефекты поверхности али сбои электроники? А может это вообще не диск, а SATA-контроллер дурит?