Методы дискриминантного анализа

Классификация цветов ириса, исследование размеров чашелистиков и лепестков для отнесения к одному из трех типов. Оценка дисперсии и ковариации величин. Установка кодов для группировки переменных. Понятие и методы получения апостериорных вероятностей.

Рубрика Программирование, компьютеры и кибернетика
Вид лабораторная работа
Язык русский
Дата добавления 01.09.2017
Размер файла 697,8 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://allbest.ru

Методы дискриминантного анализа

Краткие теоретические сведения

В модуле Discriminant analysis (Дискриминантный анализ) реализовано два общих метода дискриминантного анализа: стандартный и пошаговый (включения и исключения). Данные методы дискриминантного анализа аналогичны методам множественной регрессии. В случае двух групп методом наименьших квадратов строится регрессионная прямая (зависимая переменная - номер группы, все остальные переменные - независимые). Если групп несколько, то можно представить себе, что вначале строится дискриминация между группами 1 и 2, затем между 2 и 3, и так далее.

В пошаговом методе модель строится последовательно по шагам. Для метода включения Statistica 6 на каждом шаге оценивает вклад в функцию дискриминации не включенных в модель переменных. Переменная, дающая наибольший вклад, включается в модель, далее система переходит к следующему шагу. Если применяется так называемый пошаговый метод исключения, то вначале в модель включаются все переменные, затем производится их последовательное исключение.

Близкими к методам дискриминантного анализа являются методы дисперсионного анализа, кластерного и факторного анализов, а так же, как уже говорилось, методы множественной регрессии. Отличие кластерного анализа от дискриминантного в том, что в нем заранее не фиксировано число групп (кластеров).

Дискриминантный анализ «работает» при выполнении ряда предположений.

Предположение о том, что наблюдаемые величины - измеряемые характеристики объекта - имеют нормальное распределение. Это предположение следует проверять. В модуле имеются специальные опции, позволяющие быстро построить гистограммы. Следует заметить, что умеренные отклонения от этого предположения не являются фатальными.

Предполагается, что дисперсии и ковариации наблюдаемых переменных в разных классах однородны (отличие между классами имеется только в средних). Умеренные отклонения от этого предположения также допустимы.

Методы, реализованные в модуле, являются линейными. Функции классификации и дискриминантные функции являются линейными комбинациями наблюдаемых величин.

Сделаем важное замечание о проверке предположений анализа. Дискриминантный анализ может быть проведен и когда основные предположения не выполняются (предположение о нормальности и равенстве ковариационных матриц). Задача состоит в интерпретации результатов. В конечном счете, наиболее важным критерием правильности построенного классификатора является практика. И если окажется, что в результате построен классификатор, «работающий» на практике, то это будет достижением.

В связи с этим рекомендуется проводить проверку с разумной степенью точности, сосредоточив основные усилия на построении модели.

Классификация цветов ириса

Знакомство с возможностями проведения дискриминантного анализа в системе Statistica 6 лучше всего начать с разбора апробированного примера. Таким примером является классический пример Фишера - анализа цветков ириса.

Задача состоит в том, чтобы по результатам измерения длины и ширины чашелистиков и лепестков цветков ириса отнести ирис к одному из трех типов: SETOSA, VERSICOL, VIRGINIC.

Данные для этого примера имеются в файле Irisdat.sta. В файле содержатся результаты измерений 150 цветков ириса, по 50 каждого типа.

Шаг 1. Нажмите кнопку Open Data (Открыть данные) и откройте файл данных Irisdat.sta из каталога Examples (Примеры на диске С). Следующий файл данных появится на экране (рисунок 1).

Рисунок 1 - Файл данных Iris.sta

Шаг 2. Из Переключателя модулей Statistica откройте стартовую панель модуля Discriminate function analysis (Дискриминантный функциональный анализ) (рисунки 2, 3).

Рисунок 2 - Запуск модуля Дискриминантный анализ

Рисунок 3 - Стартовая панель модуля Дискриминантный анализ

Шаг 3. Сделайте установки, как показано на рисунке 3. Для этого нажмите кнопку Variables (Переменные) и выберите переменные для анализа. В качестве Grouping variable (Группирующая переменная) выберите переменную Iristype (Тип ириса) (рисунок 4).

В качестве Independent variables (Независимые переменные) выберите переменные Sepallen, Sepalwid, Petallen, Petalwid (Длина чашелистника, ширина чашелистника, длина лепестка, ширина лепестка) (рисунок 4). Нажмите кнопку ОK.

Выполните установку Codes for grouping variable (Коды для группировки переменных) (рисунок 5). Нажмите кнопку ОK.

Рисунок 4 - Установка переменных (Variables)

Рисунок 5 - Установка кодов для группировки переменных

Шаг 4. Нажмите кнопку ОK и откройте диалоговое окно Model Definition (Определение модели) (рисунок 6).

Рисунок 6 - Окно определения модели дискриминантного анализа

Шаг 5. Сделайте установки, как показано на рисунке 6. Нажмите кнопку OK и запустите вычислительную процедуру, реализующую пошаговый метод включения.

Шаг 6. Всесторонне просмотрите итоги в диалоговом окне Discriminant Function Analysis Results (Результаты дискриминантного анализа) (рисунок 7).

Рисунок 7 - Окно результатов дискриминантного анализа данных из файла Iris.sta

Информационная часть окна сообщает, что использовано:

ь Stepwise analysis (Пошаговый анализ), Step 4 Final step (4 шага);

ь Number of variables in the model (Число переменных в модели): 4;

ь Last variable entered (Последняя включенная переменная): Sepallen, соответствующее значение статистики F-критерия (F(2, 144) = 4,72), уровень значимости р < 0,01;

ь Wilks lambda (Значение лямбды Уилкса): 0,02;

ь approx. F (4,292) = 199,14 (Приближенное значение F- статистики), связанной с лямбдой Уилкса;

ь р - уровень значимости F-критерия для значения 199,14;

ь значения статистики лямбда Уилкса лежат в интервале 0 - 1.

Значения статистики Уилкса, лежащие около нуля, свидетельствуют о хорошей дискриминации. Значения статистики Уилкса, лежащие около единицы, свидетельствуют о плохой дискриминации.

Иными словами, это можно выразить следующим образом: если значения лямбды Уилкса близки к нулю, то мощность дискриминации (мощность = 1 - вероятность ошибки) близка к 1, если лямбда Уилкса близка к единицы, то мощность близка к нулю.

Шаг 7. Нажмите кнопку Variables in the model (Переменные, включенные в модель). На экране появится итоговая таблица анализа (рисунок 8).

дисперсия ковариация апостериорный ирис

Рисунок 8 - Итоговая таблица анализа данных из файла Iris.sta

Шаг 8. Просмотрите разделение групп на графике.

Рисунок 9 - Разделение трех типов ириса

Для этого инициируйте кнопку Perform Canonical analysis (Канонический анализ). В появившемся диалоговом окне Canonical Analysis (канонический анализ) нажмите кнопку Scatterplot of canonical scores (Диаграмма рассеяния канонических значений). На экране появится следующий график (рисунок 9).

Шаг 9. Просмотрите функции классификации. В диалоговом окне Результаты дискриминантного анализа нажмите кнопку Classification functions (Функции классификации) (рисунок 10).

Рисунок 10 - Функции классификации, построенные пошаговым Forward stepwise (методом вперед)

С помощью этих функций можно вычислить классификационные значения (метки) для вновь наблюдаемых цветков по формулам:

SETOSA = -16,43*Sl+23,69*Sw-17,4*Pl+23,54*Pw-86,31;

VERSICOL = 5,21*Sl+7,07*Sw-6,43*Pl+15,70*Pw-72,85;

VIRGINIC = 12,76*Sl+3,69*Sw-21,08*Pl+12,5*Pw-104,37,

где:

- Sl - Sepallen;

- Sw - Sepalwid;

- Pl - Petallen;

- Pw - Petalwid.

Пусть вы имеете новый цветок со значениями: Sepallen, Sepalwid, Petallen, Petalwid.

К какому типу ириса его отнести? Формально следует подставить эти значения в приведенные выше формулы и вычислить классификационные значения SETOSA, VERSICOL, VIRGINIC.

Новый цветок относится к тому классу, для которого классификационное значение максимально.

Конечно, построенные классификационные функции могут быть определены в электронных таблицах как формулы, и для каждого добавленного случая по ним могут быть вычислены классификационные метки. Таким образом, каждый новый объект автоматически относится к определенному классу.

Шаг 10. Нажмите кнопку Squared Mahalanobis distance (Квадрат расстояния Махаланобиса) и вы увидите таблицу с квадратами расстояния Махаланобиса от точек (случаев) до центров групп (рисунок 11).

Рисунок 11 - Расстояния Махаланобиса для данных из файла Iris.sta

Случай относится к группе, до которой расстояние Махаланобиса минимально.

Шаг 11. Апостериорные вероятности. Рассмотрите группу опций внизу диалогового окна

Результаты дискриминантного анализа: A priori classifications probabilities (Априорные вероятности классификации). До анализа вы задаете для каждого объекта (в данном примере цветка) вероятность, с какой он принадлежит к определенному классу. После того как анализ выполнен, можно пересчитать эти вероятности и получить апостериорные вероятности классификации.

Нажав кнопку Posterior probabilities (Апостериорные вероятности), вы увидите таблицу с апостериорными вероятностями принадлежности объекта к определенному классу (рисунок 12).

Рисунок 12 - Таблица апостериорных вероятностей

Интерпретация данной таблицы очень проста. В первом столбце указан тип ириса для каждого случая.

Во втором, третьем, четвертом столбцах даны апостериорные вероятности отнесения каждого цветка к определенному типу.

Цветок относится к группе с максимальной апостериорной вероятностью.

Знаком * отмечаются неправильно классифицированные при использовании данного правила случаи (5, 9, 12). В исходной таблице (рисунок 1) необходимо внести изменения, а затем заново выполнить процедуру дискриминантного анализа.

Шаг 12. Классификация новых случаев. Не закрывая диалога

Результаты дискриминантного анализа, добавьте в таблицу исходных данных новый случай (151 строка на рисунке 13).

Рисунок 13 - Новое наблюдение в данных Iris.sta

Шаг 13. Запустите процедуру дискриминантного анализа. Для того чтобы понять, к какому классу относится этот объект, нажмите кнопку Posterior probabilities (Апостериорные вероятности), вы увидите ту же таблицу с апостериорными вероятностями, к которой будет добавлена строка (рисунок 14).

Рисунок 14 - Классификация нового наблюдения

Итак, новое наблюдение с вероятностью 0,999 можно отнести к типу SETOSA.

Задания для выполнения

1. Создайте пустую электронную таблицу Spreadsheet.sta.

2. Внесите данные для выполнения расчетов.

3. Выполните процедуры дискриминантного анализа в соответствии с порядком операций, выполненных в настоящем разделе.

4. Дайте объяснение полученным результатам.

5. Из таблицы 1 внесите новые данные.

6. Запустите процедуру дискриминантного анализа.

7. Внесите поправки в исходную таблицу, пополнив обучающую выборку новой информацией.

Таблица 1 - Классификация новых случаев

1 задание

2 задание

3 задание

Класс

1 призн.

2 призн.

3 призн.

4 призн.

Класс

1 призн.

2 призн.

Класс

1 призн.

2 призн.

1,14

1,26

0,99

2,06

0,738

0,658

36,63

31,29

0,79

0,84

1,17

2,72

0,612

0,243

24,84

19,63

1,01

1,16

1,06

1,4

0,774

0,233

17,78

13,00

0,97

1,11

0,73

0,98

0,933

0,271

5,17

1,92

Размещено на Allbest.ru

...

Подобные документы

  • Синтаксис языка РНР, его переменные и чувствительность их имен к регистру. Гибкость в отношении типов переменных, преобразование типов. Набор основных типов данных при работе с переменными. Методы передача переменных скрипту. Операторы цикла и выбора.

    дипломная работа [27,3 K], добавлен 15.04.2009

  • Изучение сущности циклических кодов - семейства помехоустойчивых кодов, включающих в себя одну из разновидностей кодов Хэмминга. Основные понятия и определения. Методы построения порождающей матрицы циклического кода. Понятие открытой системы. Модель OSI.

    контрольная работа [99,5 K], добавлен 25.01.2011

  • Классификация без обучения и кластерный анализ. Расстояние между кластерами. Функционалы качества разбиения. Иерархические кластерные процедуры. Дискриминантный анализ. Решение задач дискриминантного анализа в системе компьютерной математики Mathcad.

    курсовая работа [1,3 M], добавлен 17.09.2012

  • Основные понятия теории вероятностей. Экономика и надежность: жизненный цикл изделия, логико-вероятностная, пороговая и марковская модели. Понятие резервирования. Матричное представление избыточных кодов. Методы технической диагностики компьютеров.

    презентация [801,4 K], добавлен 19.12.2010

  • Волновые свойства света. Насыщенность или чистота тона. Законы смешивания цветов, треугольник Максвела. Поглощение или вычитание цветов. Субтактивность для двух и трех красок. Получение идеального черного цвета. Кодировка цветов в моделях RGB и CMY.

    презентация [181,5 K], добавлен 14.08.2013

  • Определение понятий кода, кодирования и декодирования, виды, правила и задачи кодирования. Применение теорем Шеннона в теории связи. Классификация, параметры и построение помехоустойчивых кодов. Методы передачи кодов. Пример построения кода Шеннона.

    курсовая работа [212,6 K], добавлен 25.02.2009

  • Этапы статистического анализа данных, приемы и методы его проведения. Ключевые положения закона больших чисел в теории вероятностей, его общий смысл. Теорема Бернулли - простейшая форма закона больших чисел. Количество данных, способы его измерения.

    реферат [112,3 K], добавлен 03.03.2014

  • Задачи оптимизации в математике и информатике. Классификация методов оптимизации. Методы с переменной метрикой. Значение функции на заданном интервале. Локальный минимум функции. Методы минимизации функции. Классификация методов многомерной оптимизации.

    курсовая работа [1,5 M], добавлен 19.06.2012

  • История применения кодов. Технология применения кодов в современных условиях. Анализ "экстремальных кодов" - кодов, границы параметров которых достигают равенства. Способность кода корректировать ошибки, ее зависимость от величины кодового расстояния.

    контрольная работа [164,9 K], добавлен 14.07.2012

  • Практическое применение индексированного цвета для разработки Web-графики. Установка параметров преобразования в индексированные цвета. Вычисление цветов для создания палитры на основе цветов, имеющихся в изображении. Прозрачные области на изображении.

    контрольная работа [544,0 K], добавлен 21.03.2012

  • Понятие и цель применения текстовых данных. Принцип кодирования азбуки Морзе. Основные методы языка высокого уровня C#. Алгоритм работы, листинг, тестирование программы для перевода текста в последовательность кодов азбуки Морзе. Руководство пользователя.

    курсовая работа [1,4 M], добавлен 15.01.2013

  • Изучение теории вероятностей и математической статистики, биноминального закона распределения дискретных величин, особенностей числовых функций. Исследование системного и прикладного обеспечения персонального компьютера, алгоритмизации, программирования.

    контрольная работа [277,8 K], добавлен 11.07.2011

  • Методы анализа данных, применяемые в диагностике. Кластерный анализ, иерархическая группировка. Система статистического анализа, язык программирования, интерфейс для связи. Установка для контроля сварных соединений. Векторы классификации для измерений.

    дипломная работа [769,3 K], добавлен 03.01.2014

  • Методы вычисления точных вероятностей в покере. Проектирование алгоритма нахождения вероятности выигрыша для нескольких игроков. Теоретический расчет вероятности выигрыша в игре. Программная оптимизация и упрощение алгоритмов вычисления вероятностей.

    курсовая работа [96,1 K], добавлен 17.06.2013

  • Постановка задачи нелинейного программирования. Критерии оптимальности в задачах с ограничениями. Задачи с ограничением в виде равенств. Метод исключения переменных. Интерпретация условий Куна-Таккера. Функции нескольких переменных. Методы прямого поиска.

    реферат [330,0 K], добавлен 29.09.2008

  • Понятие, классификация компьютерных вирусов. Описание типов вирусов-шпионов. Интернет и локальные сети (черви). Механизм распространения вредоносного программного обеспечения и методы борьбы с ним. Профилактические мероприятия. Способы решения проблемы.

    реферат [30,9 K], добавлен 13.11.2016

  • Постановка задачи численного интегрирования. Классификация методов интегрирования: методы Ньютона-Котеса; методы статистических испытаний; сплайновые методы; методы наивысшей алгебраической точности. Метод Симпсона: суть; преимущества и недостатки.

    реферат [165,3 K], добавлен 01.03.2011

  • Обзор метода стабилографического исследования, его главные этапы, оценка преимуществ и недостатков использования. Таксономия векторов заболевания "Двусторонний гонартроз второй степени". Порядок и главные принципы проведения дискриминантного анализа.

    курсовая работа [37,2 K], добавлен 13.06.2014

  • Установка с помощью технологии SELinux ограничения для демона, запущенного суперпользователем. Понятие и структура процессов в системе UNIX. Вариант редактирования исходных кодов политик, компилирования, просмотра логов и внесение изменений в код.

    курсовая работа [109,3 K], добавлен 24.06.2009

  • Циклические коды как подкласс (подмножество) линейных кодов, пошаговый алгоритм и варианты их кодирования и декодирования. Методика построения интерфейса отладочного модуля. Элементарный план и элементы отладки декодирующего модуля циклических кодов.

    лабораторная работа [133,8 K], добавлен 06.07.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.