Комплексная оценка надежности сетевого кластера

Проектирование и модернизация автоматизированных информационных систем. Оценка факторов риска в корпоративных сетях. Оценка надежности программного обеспечения. Зависимость коэффициента готовности программного обеспечения от времени тестирования.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 15.08.2020
Размер файла 206,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Комплексная оценка надежности сетевого кластера

Климанов В.П., Ермаков А.А.

ANNOTATION

In given clause the mathematical model network cluster is presented, the approach to an estimation of reliability of the software network cluster is described, the complex model of reliability network cluster, considering both hardware, and program components is constructed.

ВВЕДЕНИЕ

Одной из актуальных задач, возникающих при проектировании и модернизации автоматизированных информационных систем (АИС), является задача обеспечения заданного уровня надежности. При решении такой задачи возникает возможность уже на стадии проектирования АИС оценивать уровень надежности предлагаемых схем и технологий обработки данных. Для такой оценки необходима разработка математических моделей, учитывающих особенности режима эксплуатации.

Одним из основных методов повышения надежности технических средств АИС является резервирование серверов. Резервироваться могут как отдельные элементы сервера (процессор, жесткий диск, блок питания и т.п.), так и сервер целиком -- за счет использования кластерных технологий. Помимо этого, немаловажную роль играет надежность используемого программного обеспечения.

Общим вопросам кластеризации и надежности программного обеспечения посвящено значительное количество работ. Существуют типовые схемы кластеризации, но практически не используется такая технология, как сетевая кластеризация -- это направление только начало зарождаться. Эффективное применение сетевых кластерных технологий позволяет обеспечить не только повышение надежности функционирования АИС, но и повысить их катастрофоустойчивость за счет применения сетевых (распределенных территориально) кластерных систем. В этой связи важнейшую роль играет надежность программного обеспечения, используемого как для управления кластером, так и для решения конкретных прикладных задач.

ОЦЕНКА ФАКТОРОВ РИСКА В КОРПОРАТИВНЫХ СЕТЯХ

Согласно экспертным оценкам, статистика отказов в корпоративных вычислительных системах имеет следующий вид (таблица 1).

Таблица 1

Распределение отказов в корпоративных сетях

Группа факторов

Доля от общего количества отказов, %

Отказы дисков

27

Отказы сервера или его ядра

24

Отказы в программах

22

Отказы в коммуникационном оборудовании

11

Отказы в каналах передачи данных

10

Отказы из-за ошибок персонала

6

Как видно, на сетевое оборудование приходится 21% отказов, на программное обеспечение (ПО) - 22% и на отказы в дисковых массивах - 27%. Отказы в аппаратном обеспечении серверов мы не учитываем по причине дублирования их элементов, а ошибки персонала не относятся к технической стороне вопроса.

Примером сетевой организации кластера может служить система, построенная на основе регулярной топологии «ТОР» [3]. Система включает в себя два сервера и два дисковых массива. Обмен данными между устройствами осуществляется по волоконно-оптическим сетям FDDI, замкнутым в кольца (Рис. 1). Технология FDDI сама по себе обладает высоким коэффициентом готовности. Каждый элемент кластера имеет два сетевых адаптера, обеспечивающих подключение к каждой магистрали.

Особенностью технологии FDDI является сочетание нескольких очень важных для локальных сетей свойств:

- высокая степень отказоустойчивости;

- способность покрывать значительные территории, вплоть до территорий крупных городов;

- высокая скорость обмена данными;

- возможность поддержки синхронного мультимедийного трафика;

- гибкий механизм распределения пропускной способности кольца между станциями;

- возможность работы при коэффициенте загрузки кольца близком к единице;

- возможность легкой трансляции трафика FDDI в трафики таких популярных протоколов, как Ethernet и Token Ring за счет совместимости форматов адресов станций и использования общего подуровня LLC.

Рисунок 1 Исследуемый кластер

Рассматриваемый здесь кластер сильно подвержен воздействию внешней среды, и это воздействие может происходить в любой случайный момент времени (потоки отказов и восстановлений). Каждое последующее состояние моделируемой системы зависит только от текущего состояния (в момент отказа система перестает функционировать и соответственно следующее возможное для нее состояние - только восстановление). Поэтому в данной работе для построения математической модели был выбран подход, основанный на цепях Маркова.

Исследуемая система может быть представлена многолинейной системой массового обслуживания, где количество источников заявок (отказов) соответствует количеству разных возможных отказов системы, а количество обслуживающих приборов равно соответственно количеству бригад восстановления отказов.

Данная система отказывает при 4-х обрывах кольца FDDI, обоих отказавших дисках и при отказе ПО на каждом из серверов.

ОЦЕНКА НАДЕЖНОСТИ ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ

Для начала определим надежность ПО. Ricky W. Butler и George B. Finelli в своем исследовании [1] показали, как можно оценить время тестирования ПО для достижения заданного уровня надежности. Ответ был неутешительным: для высоконадежных программ (вероятность отказа ) время тестирования может составить сотни лет.

Но при этом исследователи не дали ответа на вопрос, сколько ошибок осталось в протестированном ПО и как они будут проявляться в процессе эксплуатации. Разработанная модель лишена этого недостатка.

Для определения надежности ПО на протяжении 3-х лет проводились статистические исследования на этапах тестирования и эксплуатации ПО. В результате было установлено, что надежность ПО растет по экспоненциальному закону и напрямую зависит от количества имеющихся ошибок в программном обеспечении, которые фатальным образом влияют на работу системы. Таким образом, зависимость роста количества ошибок от времени тестирования и эксплуатации может быть представлена следующим образом:

. (1)

В данном выражении, показывает обнаруженное количество ошибок, а параметр показывает общее количество ошибок в исследуемом ПО. Для подбора коэффициентов в выражении (1) использовался метод наименьших квадратов, который позволил построить теоретическую кривую, практически не отличающуюся от экспериментальной (рис. 2).

Рисунок 2 Сопоставление теоретического и экспериментальных графиков роста надежности программного обеспечения

Здесь мы должны ввести два важных условия: во-первых, мы исходим из принципа независимости версий программного обеспечения и невнесения новых ошибок при его каждой коррекции после обнаружении отказов. Таким образом, в процессе тестирования ошибки могут только исправляться, но не могут появляться. Более подробно об этом говорится в [1].

Во-вторых, мы полагаем, что тестирование высоконадежных систем ведется на одних и тех же реальных данных, и таким образом для системы, с точки зрения входных данных, принцип работы не меняется. Таким образом, мы можем построить график роста коэффициента готовности программного обеспечения на различных этапах тестирования и эксплуатации.

Тестирование завершается по достижении требуемого уровня надежности. Прогнозируемая зависимость коэффициента готовности программного обеспечения от времени тестирования (эксплуатации) представлена на рис. 3.

Рисунок 3 Зависимость коэффициента готовности программного обеспечения от времени тестирования (эксплуатации)

НАДЕЖНОСТЬ АППАРАТНОГО ОБЕСПЕЧЕНИЯ

программный обеспечение информационный сеть

С течением времени надежность аппаратуры падает. По мнению аналитиков компании Intel, оптимальный срок эксплуатации серверного и сетевого оборудования составляет 3 года. Изменение надежности аппаратного обеспечения мы можем оценить на основе математического моделирования. Математическая модель надежности аппаратного обеспечения создана с помощью системы уравнений Колмогорова, при анализе возможных состояний системы в цепи Маркова [3]. Примером математической модели надежности подсистемы обмена данными является граф переходов из состояния в состояние, представленный на рис.4.

Для полной потери работоспособности данного кластера (рис.1) необходимо разорвать FDDI кольца в точках 1, 2, 3 и 4. Исходный поток отказов имеет интенсивность л для всех возможных переходов из состояния в состояние, а интенсивность восстановления равна м. Восстановление повреждений в нашем случае будет проводиться 4 бригадами восстановления, так как по результатам исследования [3] установлено, что наибольшая надежность достигается при максимальном числе бригад восстановления.

В данном случае модель надежности аппаратной части сетевого кластера имеет 17 возможных состояний. Граф переходов представлен на рис. 4.

Рисунок 4 Граф переходов для исследования надежности сетевой подсистемы данного кластера

Далее на основе графа переходов составлены уравнения Колмогорова, решение которых дает возможность вычислить надежность аппаратной части сетевой подсистемы.

Аналогичным образом вычислена надежность дисковой подсистемы.

Результаты моделирования показывают, что в рассматриваемом случае надежность аппаратуры будет убывать (рис. 5).

Рисунок 5 Падение коэффициента готовности аппаратуры от времени эксплуатации

КОМПЛЕКСНАЯ ОЦЕНКА НАДЕЖНОСТИ СЕТЕВОГО КЛАСТЕРА

Так как для комплексной оценки надежности сетевого кластера мы учитываем три составляющие (отказы в дисковых массивах, отказы сетевого оборудования, отказы программного обеспечения), то для учета их совместного воздействия на работу системы на каждую составляющую в модели в соответствии с таблицей 1 введены весовые коэффициенты 0,386, 0,3 и 0.314 соответственно.

Результаты комплексного моделирования надежности сетевого кластера представлены на рис. 6.

Рисунок 6 Зависимость коэффициента готовности исследуемой системы от времени эксплуатации

Анализ результатов моделирования (рис.6.) приводит к следующим выводам:

- в начале жизненного цикла, когда программное обеспечение активно тестируется, (из него быстро удаляются ошибки) и его надежность резко растет, а надежность аппаратуры еще высока, общая надежность системы - возрастает;

- затем, когда программное обеспечение практически оттестировано, для комплексного показателя надежности наступает период стабилизации с тенденцией к уменьшению надежности из-за более быстрого старения дискового массива по сравнению с сетью связи;

- дальнейшее старение дискового массива и элементов сети связи приводит к более резкому уменьшению надежности. Это происходит из-за постоянных отказов дисков и сети. Спад коэффициента готовности на этом этапе жизненного цикла уже не в состоянии компенсировать возрастающие показатели надежности программного обеспечения;

- наиболее высокие показатели надежности для рассматриваемого сетевого кластера находятся в интервале от 100 до 500 дней интенсивной эксплуатации.

Следует отметить, что рассмотренный график является частным случаем общей задачи, в других обстоятельствах график будет выглядеть иначе.

ЗАКЛЮЧЕНИЕ

В рамках данной статьи была успешно решена задача комплексной оценки надежности сетевого кластера, учитывающая как надежность аппаратного, так и программного обеспечения. Была создана новая модель оценки надежности программного обеспечения, позволяющая оценивать надежность на основании статистики проявления ошибок во время тестирования и эксплуатации. Важно отметить, что разработанная модель позволяет анализировать различные варианты поведения системы, они задаются путем ввода экспертных оценок.

ЛИТЕРАТУРА

1. Butler, R.W. The Infeasibility of Quantifying the Reliability of Life-Critical Real-Time Software [Text] / Ricky W. Butler, George B. Finelli // NASA Research Center, 1993.

2. Miller, D. Making statistical inferences about software reliability / D. Miller // NASA Contractor Report 4197, Nov. 1988.

3. Климанов, В.П. Модели оценки надежности кластерной системы специального назначения [Текст] / В.П. Климанов, М.В. Сутягин, А.А. Ермаков [и др.] // Электронный журнал «Вычислительные сети. Теория и практика». Москва, 2003.

4. Гленфорд, М. Надёжность программного обеспечения [Текст] / Майерс Гленфорд; пер. с англ. Ю. Ю. Галимова. М.: Мир, 1980. 360 с. ил.

Размещено на Allbest.ru

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.