Краткие выводы по RAID-массивам

Массивы RAID 1 и RAID 5 широко используются на серверах. Одним из слабых мест RAID-систем является ремонт. Во-первых, чтобы избежать недоступности данных во время ремонта, массив должен быть сконструирован так, чтобы отказавшие диски можно было заменять, не выключая системы. У RAID-массивов достаточно избыточности, чтобы позволить им работать в непрерывном режиме, но горячая замена дисков накладывает определенные требования на физическую и электрическую конструкцию массива и на интерфейсы, используемые при работе с дисками. Во-вторых, во время ремонта может произойти еще один отказ, поэтому время ремонта влияет на шансы потери данных: чем дольше ремонт, тем выше шансы еще одного отказа, который приведет к потере данных. Чтобы исключить вынужденное ожидание, пока оператор принесет исправный диск, в некоторые системы включаются ожидающие подключения резервы, чтобы данные могли быть тут же реконструированы, как только обнаружится отказ. Затем оператор без лишней спешки может заменить отказавшие диски. Обратите внимание, что решение, какие диски нужно заменить, принимает оператор. В роли оператора выступают люди, поэтому если они случайно удалят вместо неисправного исправный диск, это приведет к невосстанавливаемому отказу диска.

Помимо вопросов конструирования пригодной к ремонту RAID-системы, возникают вопросы о том, как с течением времени изменяется технология дисковых устройств. Хотя производители дисков заявляют об очень высоких показателях MTTF для своих продуктов, все эти показатели соответствуют вполне определенным условиям эксплуатации. Если отдельно взятый дисковый массив подвергся температурным перепадам, скажем, из-за поломки системы кондиционирования воздуха, или же он подвергся ударным нагрузкам из-за недостатков в конструкции или установки аппаратной стойки, интенсивность отказов может увеличиться в 3-6 раз. Вычисление готовности RAID-системы предполагает независимость отказов дисков, но эти отказы могут быть связаны друг с другом, поскольку повреждения из-за эксплуатационной среды вполне вероятно могут коснуться всех дисков массива. Например, последовательное чтение SATA-диска емкостью 1000 Гбайт, если не будет никаких помех, может занять почти три часа. Учитывая то, что поврежденный RAID-массив, скорее всего, продолжает обслуживать данные, реконструкция может существенно затянуться. Кроме увеличения этого времени возникает также опасение, что чтение существенно большего объема данных в процессе реконструкции будет означать увеличение шансов на невосстанавливаемый отказ чтения носителя, который может повлечь за собой утрату данных. Еще одной проблемой, связанной с одновременно возникающими отказами, является рост числа дисков в массиве и использование SATA-дисков, работающих медленнее и имеющих более высокую емкость по сравнению с обычными серверными дисками.

Следовательно, потребителей привлекает защита сразу от нескольких отказов, и поэтому возрастают предложения массивов RAID 6 в качестве дополнений и в качестве основных устройств.

Уточнение. Возникает вопрос, как зеркалирование взаимодействует с чередованием. Предположим, что у вас есть, скажем, четыре диска, на которых хранятся ценные данные и восемь физических дисков, которыми можно воспользоваться. Станете ли вы создавать четыре пары дисков, каждая из которых организована как RAID 1, а затем чередовать данные между этими четырьмя парами RAID 1? Или вы будете создавать два набора из четырех дисков, каждый из которых организован как RAID 0, а затем зеркалировать записи для обоих наборов RAID 0? В развитие терминологии RAID первое сочетание стало называться RAID 1+0, или RAID 10 («чередующееся зеркалирование»), а последнее стало называться RAID 0 + 1, или RAID 01 («зеркалированное чередование»).





Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: