Безотказность, надежность и готовность

Пользователи требуют безотказных запоминающих устройств, но как это можно определить? В компьютерной индустрии одним обращением к словарю дело не обойдется. После массы дебатов было выработано следующее стандартное определение (Laprie, 1985):

Безотказность компьютерных систем заключается в качестве предоставления услуг вызывающем доверие к той или иной службе. Предоставление системой услуг заключается в наблюдаемом реальном поведении этой системы со стороны другой системы (или систем), взаимодействующих с пользователями данной системы. У каждого компонента также есть определенное идеальное поведение, а технические требования к предоставлению услуг являются согласованным описанием ожидаемого поведения. Отказ системы возникает в том случае, когда реальное поведение отклоняется от предписанного.

Таким образом, чтобы определить безотказность, нужно обратиться к техническим требованиям ожидаемого поведения. Тогда пользователи увидят переходы системы между двумя состояниями предоставления услуг относительно технических требований к службе (сервису):

1. Предоставление услуг, когда сервис предоставляется в соответствии с требованиями.

2. Предоставление услуг, когда качество сервиса отличается от предъявляемых к нему требований.

Переходы из состояния 1 в состояние 2 вызываются отказами, а переходы из состояния 2 в состояние 1 называются восстановлениями. Отказы могут быть постоянными или периодическими. Последние являются более сложным случаем, потому что проблему труднее диагностировать, когда система колеблется между двумя состояниями. Куда проще установить причину постоянных отказов. Эти определения приводят к двум связанным с ними понятиям: надежности и готовности.

Надежность определяется продолжительностью непрерывного предоставления услуг – или, что то же самое, временем наработки на отказ. Следовательно, наработка на отказ (mean time to failure, MTTF) дисков, является показателем надежности. Родственным понятием является частота отказов за год (annual failure rate, AFR), представляющая собой процент устройств, отказ которых ожидается в течение года при заданном показателе MTTF. Перебой в эксплуатации измеряется средним временем на восстановление (mean time to repair, MTTR). Среднее время безотказной работы (mean time between failures, MTBF) является простой суммой MTTF + MTTR. Хотя термин MTBF получил довольно широкое распространение, в большинстве случаев более подходящим термином является MTTF.

Обратите внимание на то, что надежность и готовность являются количественно определяемыми оценками, а не синонимами безотказности.

Какова же причина отказов? Сводка из нескольких статей, в которой собраны данные о причинах отказов компьютерных и телекоммуникационных систем. Разумеется, весьма частой причиной отказов является человеческий фактор.

Для увеличения MTTF можно повысить качество компонентов или сконструировать системы для продолжения работы при наличии отказавших компонентов. Следовательно, отказ должен быть определен, сообразуясь с ситуацией. Отказ компонента может не привести к отказу системы. Чтобы четче обозначить эти различия, для определения отказа компонента используется термин дефект (fault). Существует три способа повышения MTTF:

1. Предотвращение дефектов. Предупреждение возникновения дефектов за счет совершенства конструкции.

2. Отказоустойчивость. Использование избыточности, применяемое главным образом к отказам аппаратуры, которое позволяет успешно завершить предоставление услуг в соответствии с предъявляемыми техническими требованиями, несмотря на возникший дефект.

Прогнозирование дефектов. Предсказание возникновения и формирования дефектов применительно к отказам оборудования и программного обеспечения, позволяющее производить замену компонента еще до возникновения дефекта.

Сокращение среднего времени на восстановление (MTTR) может поспособствовать готовности не меньше, чем увеличение наработки на отказ (MTTF). Например, инструментальные средства для обнаружения дефектов, проведения диагностики и ремонта могут помочь людям, программным средствам и оборудованию сократить время, необходимое для восстановления.





Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: