Администрирование информационных систем

Сравнение эффективности нескольких популярных алгоритмов распознавания электрокардиосигналов, используемых в машинном обучении. Смешанная гауссовская модель (GMM). Вероятностные кластерные назначения. Задача обучения с учителем. Влияние объема выборки.

Рубрика Программирование, компьютеры и кибернетика
Вид контрольная работа
Язык русский
Дата добавления 01.09.2018
Размер файла 637,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

ФГБОУ ВО

Уфимский государственный авиационный технический университет

Кафедра вычислительной математики и кибернетики

ПОЯСНИТЕЛЬНАЯ ЗАПИСКА

к курсовой работе

по Администрированию информационных систем

Группа МО - 408 Ф.И.О.

Студент Рысаева Э.Р.

Консультант

Принял Абдрахманова Р.П.

Уфа 2018 г.

Федеральное агентство по образованию

Государственное образовательное учреждение высшего образования

«УФИМСКИЙ ГОСУДАРСТВЕННЫЙ АВИАЦИОННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ»

Кафедра вычислительной математики и кибернетики

наименование кафедры

ЗАДАНИЕ

На курсовую работу по дисциплине «Администрирование информационных систем»

Студент Рысаева Э.Р. Группа МО - 408

Консультант______________________

Ф.И.О. номер акад.гр. Ф.И.О.

1. Тема курсовой работы

Распознавание электрокардиосигналов

наименование темы

2. Основное содержание:

Целью курсовой работы является сравнение эффективности нескольких популярных алгоритмов распознавания электрокардиосигналов, используемых в машинном обучении.

2. Требования к оформлению

3.1. Пояснительная записка должна быть оформлена в редакторе Microsoft Word в соответствии с требованиями __________________________________________________________________

ЕСКД, ЕСПД,ГОСТ, СТП и др.

В пояснительной записке должны (могут) содержаться следующие разделы:

1. Постановка задачи;

2. Обзор подходов к решению задачи, сравнительный анализ;

3. Разработка алгоритма;

4. Реализация алгоритма;

5. Оценка результатов.

3.2. Графическая часть должна содержать: -

Дата выдачи 5.02.18_______ Дата окончания 10.04.18_____

Руководитель ___________________

Подпись

1. Постановка задачи

Дано:

Имеются алгоритмы распознавания электрокардиограмм: алгоритм без учителя - смешанная гауссовская модель (Gaussian Mixture Models) и алгоритм распознавания с учителем - случайный лес (Random forests).

Требуется:

Произвести результаты сравнения точности и эффективности распознавания электрокардиограмм различными методами, выполненные на двух выборках (PTB и ECG-ID Database).

2. Обзор и анализ существующих в настоящее время подходов и методов решения

Алгоритм без учителя - смешанная гауссовская модель (Gaussian Mixture Models).

Обучение без учителя

В этом случае, как следует из названия, алгоритмам обучаются самостоятельно.

Приведем пример: Допустим, есть страница в социальной сети. Тогда, наверняка есть и «друзья», которые связаны. У друзей есть свои друзья и т.д.

Имея схему взаимосвязей и некоторую информацию по всем людям, возможно выявить какие-то общности которые всех их связывают. Это могут быть, например, общие учебные заведения, место проживания, общие онлайн - игры, в которые они играют, общие интересы и прочее. То есть мы можем выделить некоторые общности, или группы, или, как еще их называют, кластеры, о которых мы даже и не догадывались, соответственно и не могли обучить их нахождению свой алгоритм.

Cмешанная гауссовская модель

Смешанная гауссовская модель (GMM) пытается найти смесь многомерных гауссовых вероятностных распределений, которые наилучшим образом моделируют любой входной набор данных. В простейшем случае GMM можно использовать для нахождения кластеров (объединение нескольких однородных элементов, которое может рассматриваться как самостоятельная единица, обладающая определёнными свойствами):

от sklearn.mixture импорт GMM

gmm = GMM ( n_components = 4 ) . fit ( X )

labels = gmm . предсказать ( X )

plt . разброс ( X [:, 0 ], X [:, 1 ], c = метки , s = 40 , cmap = 'viridis' );

также можно найти вероятностные кластерные назначения - в Scikit - узнайте, что это делается с использованием метода predict_proba . Это возвращает матрицу размера [n_samples, n_clusters] которая измеряет вероятность того, что любая точка принадлежит данному кластеру:

probs = gmm . pred_proba ( X )

print ( probs [: 5 ] . round ( 3 ))

Мы можем визуализировать эту неопределенность, например, делая размер каждой точки пропорциональной определенности ее предсказания; глядя на следующий рисунок, мы видим, что именно точки на границах между кластерами отражают эту неопределенность кластеризации:

размер = 50 * проб . max ( 1 ) ** 2 # square подчеркивает различия

plt . разброс ( X [:, 0 ], X [:, 1 ], c = метки , cmap = 'viridis' , s = size );

Алгоритм с учителем - случайный лес (Random forests).

Обучение с учителем

Множество X -- объекты, наблюдения, примеры, ситуации, входы (samples) -- пространство признаков Множество Y -- ответы, отклики, «метки», выходы (responses) Имеется некоторая зависимость (детерминированная или вероятностная), позволяющая по x ? X предсказать y ? Y . т. е. если зависимость детерминированная, существует функция f ? : X > Y .

Задача обучения с учителем: восстановить (аппроксимировать) зависимость, т. е. построить функцию (решающее правило ) f : X > Y , по новым объектам x ? X предсказывающую y ? Y : y = f ( x ) ? f ? ( x ).

Случайный лес

Random forests [Breiman, 2001] Ансамбль параллельно обучаемых «независимых» деревьев решений. Независимое построение определенного количества M (например, 500) деревьев: Генерация случайной подвыборки из обучающей выборки (50-70% от размера всей обучающей выборки) и построение дерева решений по данной подвыборке (в каждом новом узле дерева переменная для разбиения выбирается не из всех признаков, а из случайно выбранного их подмножества небольшой мощности).

begin RandomForests

for m = 1, 2, . . . , M

begin

По обучающей выборке построить бутстрэп-выборку

Построить дерево fm, рекурсивно применяя следующую процедуру,

пока не будет достигнут минимальный размер sz:

begin

Построить случайный набор из p признаков

Выбрать из него лучшую переменную и построить 2 дочерних узла

end

end

Для задачи восстановления регрессии return f = 1M M?m=1 fm

Для задачи классификации return f = argmax k M ? m=1 I(fm = k)

end

Для задачи восстановления регрессии, например, p = vd, sz = 3

Для задачи классификации, например, p = d/3, sz = 1

Random forest: 500 деревьев.

3. Сравнительный анализ алгоритмов

Распознавание электрокардиосигналов

В таблице 1 приводятся результаты сравнения точности распознавания электрокардиограмм разными методами, выполненные на двух выборках (PTB и ECG-ID Database) Здесь и далее, кроме отдельно оговоренных случаев, признаки были получены с использованием метода бутстреп (статистический метод, позволяющий рассчитать такие показатели, как стандартная ошибка и доверительный интервал путем повторного извлечения выборок из имеющегося набора данных).

Таблица 1

Точность распознавания электрокардиограмм различными методами машинного обучения

Выше было сказано, что наиболее информативными оказались два признака -- значения амплитуды в S- и T-областях кардиоцикла. В таблице 2 приведены сведения о сравнении точности распознавания ЭКГ при использовании двух и восьми признаков, полученных без использования бутстрепа и с использованием бутстрепа. Использовалась выборка из 51 здорового испытуемого из базы данных PTB. Данные были очищены от артефактов в ручную.

Таблица 2.

Сравнение точности распознавания при использовании двух и восьми признаков (51 здоровый испытуемый, база данных PTB)

Из таблицы видно, что бутстреп повышает качество распознавания и что при его применении достаточно двух признаков при использовании алгоритма Случайный лес. Кроме того, можно сказать, что при ручном отсеивании артефактов точность распознавания повышается.

Сравнение точности распознавания электрокардиограмм здоровых и больных испытуемых

Сравнили точность распознавания электрокардиограмм 51 здорового испытуемого с ЭКГ 51 испытуемого из смешанной группы (и здоровые и больные, взятые в случайной пропорции) из базы данных PTB (таблица 3).

Таблица 3.

Сравнение точности распознавания различных групп испытуемых

(51 человек, база данных PTB)

гауссовский электрокардиосигнал алгоритм

Из таблицы 2 видно, что в случае со здоровыми испытуемыми точность распознавания методом смешанных гауссовских моделей несколько выше.

Влияние объема выборки

Нами была проведена оценка влияния объема выборки на точность распознавания ЭКГ

(таблица 4). При том использовалась база данных PTB. Количество испытуемых варьировало в пределах от 10 до 290.

Таблица 4.

Влияние объема выборки на точность распознавания (база данных PTB)

Из таблицы 4 видно, что точность распознавания методом смешанных гауссовских моделей с увеличением объема выборки выходит на плато (0,8).

Влияние времени распознавания

Мы провели оценку влияния продолжительности регистрации ЭКГ на точность распознавания. Время регистрации варьировало в пределах от 10 секунд до 3-х минут.

Таблица 5.

Влияние времени на точность распознавания ЭКГ (база данных PTB, 51 здоровый испытуемый)

Из таблицы 5 видно, что время влияет незначительно.

Вывод

В данной курсовой работе было произведено сравнение эффективности двух методов машинного обучения - смешанные гауссовские модели и метод случайных лесов выявил преимущество метода случайных лесов.

Выяснилось, что большое влияние на точность распознавания оказывает качество

используемой аппаратуры. Результаты распознавания образцов базы данных PhysikalischTechnische Bundesanstalt оказались значительно выше, по сравнению с базой данных ECG-ID Database.

Было установлено, что точность распознавания ЭКГ здоровых испытуемых несколько

выше аналогичного показателя для смешанной группы.

Выяснилось, что точность распознавания методом смешанных гауссовских моделей с

увеличением объема выборки выходит на плато (0,8).

Было показано, что время снятия ЭКГ влияет на точность распознавания незначительно. Минимальная продолжительность измерений находится на уровне 10 секунд.

Список литературы

1. http://roboschool.org/docs/robo16/Materials/Day-1/Day-1-ml_hpc2016.pdf2.

2. http://robotosha.ru/algorithm/machine-learning-supervised-unsupervised.html

3. Fratini A., Sansone M., Bifulco P and Cesarelli M. Individual identification via electrocardiogram analysis. BioMed Eng OnLine (2015) 14:78 DOI 10.1186/s12938-015-0072-y

4. Shen T-W, Tompkins WJ, Hu YH. Implementation of a one-lead ECG human identification system on a normal population. J Eng Comput Innov. 2011;2(1):12-21.

5. Lourenco A, Silva H, Fred A. ECG-based biometrics: a real time classification approach. In: IEEE international workshop on machine learning for signal processing (MLSP), 2012. 2012. p.1-6.

Размещено на Allbest.ru

...

Подобные документы

  • Диагностический анализ изучения алгоритмов обучения нейронных сетей "с учителем". Сбор входных и выходных переменных для наблюдений и понятие пре/пост процессирования. Подготовка и обобщение многослойного персептрона, модель обратного распространения.

    курсовая работа [249,3 K], добавлен 22.06.2011

  • Кластерные системы, структура и параметры Beowulf. Анализ целесообразности обучения будущих учителей сетевому администрированию и выбор виртуальной машины для обучения. Инструкции по работе с программным обеспечением. Контрольно-измерительные материалы.

    дипломная работа [875,8 K], добавлен 06.01.2009

  • Нормальный алгоритм Маркова. Тезис Маркова и машина Тьюринга. Гипотеза теории алгоритмов. Алгоритмически неразрешимые проблемы. Задача эквивалентности двух слов в ассоциативном исчислении. Задача распознавания выводимости. Линейная оценка сложности.

    методичка [57,0 K], добавлен 06.07.2009

  • Методы предобработки изображений текстовых символов. Статистические распределения точек. Интегральные преобразования и структурный анализ. Реализация алгоритма распознавания букв. Анализ алгоритмов оптического распознавания символов. Сравнение с эталоном.

    курсовая работа [2,1 M], добавлен 20.09.2014

  • Оптико-электронная система идентификации объектов подвижного состава железнодорожного транспорта. Автоматический комплекс распознавания автомобильных номеров. Принципы и этапы работы систем оптического распознавания. Особенности реализации алгоритмов.

    дипломная работа [887,3 K], добавлен 26.11.2013

  • Обзор новых информационных технологий в обучении в высших учебных заведениях. Методы и способы применения мультимедиа технологий при чтении лекций. Внедрение информационных систем в классические библиотеки. Характеристика обучающих систем в ДонТУ.

    реферат [216,9 K], добавлен 10.02.2012

  • Основные цели и задачи построения систем распознавания. Построение математической модели системы распознавания образов на примере алгоритма идентификации объектов военной техники в автоматизированных телекоммуникационных комплексах систем управления.

    дипломная работа [332,2 K], добавлен 30.11.2012

  • Основные понятия теории распознавания образов и ее значение. Сущность математической теории распознавания образов. Основные задачи, возникающие при разработке систем распознавания образов. Классификация систем распознавания образов реального времени.

    курсовая работа [462,2 K], добавлен 15.01.2014

  • Задача о кратчайшем пути как одна из важнейших классических задач теории графов. Общий обзор трех наиболее популярных алгоритмов для решения задачи о кратчайшем пути. Написание программы, которая реализует алгоритм Дейкстры и алгоритм Форда-Беллмана.

    курсовая работа [2,1 M], добавлен 23.06.2014

  • Анализ физических предпосылок селекции движущихся малоразмерных наземных целей по спектральным параметрам. Разработка алгоритмов обнаружения МНЦ и повышения эффективности их распознавания в интересах радиолокационных станций разведки и целеуказания.

    дипломная работа [830,3 K], добавлен 28.04.2009

  • Обзор математических методов распознавания. Общая архитектура программы преобразования автомобильного номерного знака. Детальное описание алгоритмов: бинаризация изображения, удаление обрамления, сегментация символов и распознавание шаблонным методом.

    курсовая работа [4,8 M], добавлен 22.06.2011

  • Искусственные нейронные сети как одна из широко известных и используемых моделей машинного обучения. Знакомство с особенностями разработки системы распознавания изображений на основе аппарата искусственных нейронных сетей. Анализ типов машинного обучения.

    дипломная работа [1,8 M], добавлен 08.02.2017

  • Описание комплекса программных модулей, предназначенного для повышения эффективности аппаратных ресурсов компьютера. Характеристика компонентов сетевых и распределенных операционных систем. Модели сетевых служб. Способы разделения приложений на части.

    презентация [1,4 M], добавлен 10.11.2013

  • Основные принципы концепции типа данных в языках программирования. Разновидности структур данных. Дискретные и непрерывные скалярные типы. Файл, последовательность, множество. Линейный список. Сложность алгоритмов. Построение рекурсивных подпрограмм.

    презентация [2,5 M], добавлен 14.10.2013

  • Способы повышения эффективности деятельности предприятия путем внедрения и использования информационных систем. Формирование технологической среды информационной системы. Модель СУЭ на основе теории управления. Уровни управленческого разнообразия.

    курсовая работа [346,2 K], добавлен 08.10.2014

  • Понятие системы распознавания образов. Классификация систем распознавания. Разработка системы распознавания формы микрообъектов. Алгоритм для создания системы распознавания микрообъектов на кристаллограмме, особенности его реализации в программной среде.

    курсовая работа [16,2 M], добавлен 21.06.2014

  • Распознавание образов - задача идентификации объекта или определения его свойств по его изображению или аудиозаписи. История теоретических и технических изменений в данной области. Методы и принципы, применяемые в вычислительной технике для распознавания.

    реферат [413,6 K], добавлен 10.04.2010

  • Методология структурного анализа и проектирования информационных систем. Базовый стандарт процессов жизненного цикла программного обеспечения. Цели и принципы формирования профилей информационных систем. Разработка идеальной модели бизнес-процессов.

    презентация [152,1 K], добавлен 07.12.2013

  • Проблемы и угрозы информационной безопасности. Защищенность информации и поддерживающей инфраструктуры от случайных или преднамеренных посторонних воздействий. Средства защиты информационных систем. Метод SSL-шифрования информации, типы сертификатов.

    презентация [280,0 K], добавлен 10.11.2013

  • Электронная почта – средство обмена информацией; администрирование почтового сервера. Протоколы принудительной доставки почты. Создание и настройка виртуального сервера, параметры его конфигурации. Управление входящими сообщениями и почтовыми ящиками.

    презентация [296,8 K], добавлен 10.11.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.