Будучи человеком, скептически относящимся к рекламным заявлениям производителей, я не слишком удивился тому факту, что в реальной жизни жесткие диски ломаются чаще одного раза в течение 1 млн ч работы. Зато меня немного обескуражил другой результат этих исследований. Так, проведенный специалистами из Университета Карнеги-Мелона анализ показал, что интенсивность отказов дисков SATA, а также корпоративных дисков SCSI и Fibre Channel (FC), примерно одинакова, что противоречит общепринятому мнению, о том, что надежность корпоративных дисков в полтора-два раза выше надежности их «собратьев» типа SATA.
Еще больше меня удивил рост интенсивности отказов дисков по мере их старения даже в течение интервала в пять лет, который большинство специалистов считают вполне разумным сроком эксплуатации дисков. Частота отказов дисков на четвертом и пятом годах их эксплуатации до 10 раз превышает частоту отказов, приводимую в спецификациях производителей.
Но особенно удручающее впечатление производят данные о возможных отказах дисков в сложных системах. Так, специалисты из Университета Карнеги-Мелона обнаружили, что при поломке какого-либо диска серверного кластера довольно высока вероятность отказа в ближайшие несколько часов других дисков данного кластера. Это плохая новость для тех, кто использует дисковые массивы RAID уровня 5. Дело в том, что емкость дисков растет гораздо быстрее скорости передачи информации через их интерфейсы, поэтому даже при наличии дисков «горячего» резерва процесс восстановления (rebuilt) дискового массива может затянуться на несколько часов. Если за это время выйдет из строя второй диск или возникнет неисправимая ошибка чтения, то произойдет потеря данных.
Итак, какие выводы можно сделать из этих академических исследований? Во-первых, выбирайте диски исходя из их емкости и производительности, не обращая особого внимания на заявления производителей относительно их необыкновенной надежности. Если вашему приложению требуется большое дисковое пространство и оно будет выполнять в основном последовательные операции ввода и вывода данных, то покупайте сравнительно дешевые диски SATA, ничуть не коря себя за то, что вы делаете это в ущерб надежности, ведь это не так. Во-вторых, поскольку вероятность выхода из строя нескольких дисков массива до его полного восстановления куда выше, чем предполагалось ранее, необходимо изучить возможности использования конфигурации RAID уровня 6, средств репликации данных или других решений, гарантирующих сохранность информации в случае отказа нескольких дисков. И наконец, поскольку все производители, начиная с Network Appliance и кончая AMCC, ускоряют процесс вычисления контрольных сумм в своих контроллерах RAID уровня 6, я рекомендую реализовывать этот уровень RAID во всех массивах, состоящих из дисков объемом 500 Гбайт или более.