Кластерный анализ
Визуальная кластеризация. Качество разбиения исходного множества стран методами раздельного и иерархического кластерного анализа. Кластеризация лиц Квасова, "звездные диаграммы". Расстояние между кластерами (квадраты расстояний над главной диагональю).
Рубрика | Программирование, компьютеры и кибернетика |
Вид | лабораторная работа |
Язык | русский |
Дата добавления | 01.02.2015 |
Размер файла | 59,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Национальный Исследовательский Ядерный Университет «МИФИ»
Лабораторная работа
«Кластерный анализ»
Выполнила:
Квасова Полина
1. Исходные данные
В качестве исходных были использованы данные о странах.
Таблица 1
Государства-члены |
Младенческая смертность на 1000 рождённых |
Младенческая смертность до 1 года на 1000 жив |
Младенческая смертность до 5 лет на 1000 жив |
Материнская смертность на 1000 рожд |
Продолжительность жизни |
Затраты на здравоохранение (% к ввп) |
Расходы на здравоохранение на 1 чел-ка |
|
Австралия |
2,8 |
4,1 |
5 |
6 |
82,1 |
9,1 |
6140 |
|
Антигуа и Барбуда |
5,5 |
9,2 |
10 |
75,7 |
5,2 |
681 |
||
Багамские острова |
7,7 |
13,9 |
17 |
37 |
74,9 |
7,5 |
1647 |
|
Барбадос |
9,5 |
16,9 |
18 |
52 |
75,1 |
6,3 |
938 |
|
Бахрейн |
3,6 |
8,2 |
10 |
22 |
76,5 |
3,9 |
895 |
|
Белиз |
8,6 |
15,7 |
18 |
45 |
73,7 |
5,8 |
259 |
|
Бельгия |
2,4 |
3,4 |
4 |
6 |
80,4 |
10,8 |
4711 |
|
Бутан |
21,2 |
35,7 |
45 |
120 |
67,9 |
3,8 |
90 |
|
Голландия |
2,8 |
3,4 |
4 |
6 |
81,1 |
12,4 |
5737 |
|
Гренада |
6,7 |
11,4 |
14 |
23 |
72,6 |
6,4 |
478 |
|
Дания |
2,6 |
3 |
4 |
5 |
80,1 |
11,2 |
6304 |
|
Иордания |
11,5 |
16,4 |
19 |
50 |
73,7 |
9,8 |
388 |
|
Камбоджа |
18,4 |
33,9 |
40 |
170 |
71,4 |
5,4 |
51 |
|
Канада |
3,5 |
4,7 |
5 |
11 |
81,2 |
10,9 |
5741 |
|
Кувейт |
5,5 |
9,5 |
11 |
14 |
74,4 |
2,5 |
1428 |
|
Лесото |
45,3 |
74,2 |
100 |
490 |
48,8 |
11,6 |
138 |
|
Лихтенштейн |
82,4 |
|||||||
Люксембург |
0,8 |
1,7 |
2 |
11 |
81,4 |
6,9 |
7452 |
|
Малайзия |
4,5 |
7,3 |
9 |
29 |
74,8 |
3,9 |
410 |
|
Марокко |
17,8 |
26,8 |
31 |
120 |
70,6 |
6,4 |
190 |
|
Монако |
2,1 |
3,1 |
4 |
4,4 |
6708 |
|||
Новая Зеландия |
2,8 |
4,7 |
6 |
8 |
81,2 |
10,3 |
3292 |
|
Норвегия |
1,7 |
2,2 |
3 |
4 |
81,5 |
9 |
9055 |
|
Папуа-Новая Гвинея |
24,3 |
48,4 |
63 |
220 |
62,3 |
5,2 |
114 |
|
Свазиленд |
29,5 |
55,7 |
80 |
310 |
48,9 |
8,5 |
259 |
|
Сент-Винсент и Гренадины |
14,6 |
21,1 |
23 |
45 |
72,4 |
5,2 |
340 |
|
Соломоновы Острова |
13,8 |
25,9 |
31 |
130 |
67,5 |
8 |
148 |
|
Тайланд |
8,1 |
11,4 |
13 |
26 |
74,2 |
3,9 |
215 |
|
Тонга |
6,6 |
11,1 |
13 |
120 |
72,5 |
5,4 |
238 |
|
Филиппины |
14 |
23,5 |
30 |
120 |
68,6 |
4,6 |
119 |
|
Швеция |
1,6 |
2,3 |
3 |
4 |
81,7 |
9,6 |
5319 |
|
Ямайка |
10,6 |
14,4 |
17 |
80 |
73,3 |
5,9 |
318 |
|
Япония |
1,1 |
2,2 |
3 |
6 |
83,1 |
10,1 |
4752 |
2. Визуальная кластеризация
Рисунок 1. Лица Квасова
По результатам кластеризации лиц Квасова решено выделить (4) четыре кластера:
· Вытянутое худое лицо с большим подбородком и высоким лбом - кластер №1
· Широкие скулы, очень маленький подбородок, длинный нос и маленький лоб - кластер № 2
· Небольшое лицо, пропорциональные черты лица, низко расположены уши - кластер №3
· Лицо сверху вниз расширяется (в виде груши), длинный нос - кластер №4
3. «Звездные диаграммы»
Рисунок 2
По результатам кластеризации «Звездные диаграммы» можно выделить (4) четыре кластера:
· Крупные звезды, состоящие из трех равносторонних треугольника и еще одно чуть поменьше, направлены вверх - кластер №1
· Звезда, состоящая из точки и двух остроугольных треугольников, направленных северо-запад и на юго-восток - кластер №2
· Небольшая звезда, состоящая из небольших треугольников, некоторые направлены на юго-восток - кластер №3
· Маленькая звезда из точки и линии - кластер №4
4. Кластеризация методом К-средних
Таблица 2. Стандартизированные исходные данные
Государства-члены |
Младенческая смертность на 1000 рождённых |
Младенческая смертность до 1 года на 1000 жив |
Младенческая смертность до 5 лет на 1000 жив |
Материнская смертность на 1000 рожд |
Продолжительность жизни |
Затраты на зравоохранение (% к ввп) |
Расходы на здравоохранение на 1 чел-ка |
|
Австралия |
-0,7095 |
-0,7176 |
-0,6676 |
-0,6559 |
0,9756 |
0,6971 |
1,3579 |
|
Антигуа и Барбуда |
-0,4332 |
-0,4205 |
-0,4518 |
0,2106 |
-0,7221 |
-0,5876 |
||
Багамские острова |
-0,2081 |
-0,1467 |
-0,1497 |
-0,3668 |
0,1150 |
0,1148 |
-0,2433 |
|
Барбадос |
-0,0239 |
0,028 |
-0,1065 |
-0,2269 |
0,1389 |
-0,3218 |
-0,496 |
|
Бахрейн |
-0,6276 |
-0,4787 |
-0,4518 |
-0,5066 |
0,3062 |
-1,1952 |
-0,5113 |
|
Белиз |
-0,1160 |
-0,0418 |
-0,106 |
-0,2922 |
-0,0283 |
-0,5037 |
-0,738 |
|
Бельгия |
-0,7504 |
-0,7583 |
-0,7107 |
-0,6559 |
0,772 |
1,3157 |
0,8486 |
|
Бутан |
1,1731 |
1,1231 |
1,0587 |
0,4072 |
-0,7216 |
-1,2316 |
-0,7982 |
|
Голландия |
-0,7095 |
-0,7583 |
-0,7107 |
-0,6559 |
0,856 |
1,8980 |
1,2143 |
|
Гренада |
-0,3104 |
-0,2923 |
-0,27916 |
-0,49737 |
-0,1598 |
-0,2854 |
-0,66 |
|
Дания |
-0,73 |
-0,7816 |
-0,7107 |
-0,6652 |
0,7366 |
1,4613 |
1,4164 |
|
Иордания |
0,180662 |
-0,00109 |
-0,06339 |
-0,24557 |
-0,0283 |
0,95185 |
-0,6920 |
|
Камбоджа |
0,88668 |
1,0183 |
0,8429 |
0,873508 |
-0,30330 |
-0,64935 |
-0,8121 |
|
Канада |
-0,63791 |
-0,68265 |
-0,66762 |
-0,609279 |
0,868087 |
1,35216 |
1,21574 |
|
Кувейт |
-0,43327 |
-0,40304 |
-0,40866 |
-0,581302 |
0,05528 |
-1,7047 |
-0,32142 |
|
Лесото |
3,639150 |
3,36594 |
3,432545 |
3,85773533 |
-3,00468 |
1,606899 |
-0,78118 |
|
Лихтенштейн |
1,011523 |
|||||||
Люксембург |
-0,91418 |
-0,85741 |
-0,79710 |
-0,609279 |
0,89199 |
-0,10348 |
1,82555 |
|
Малайзия |
-0,53559 |
-0,53119 |
-0,49498 |
-0,441416 |
0,10309 |
-1,19522 |
-0,68423 |
|
Марокко |
0,82529 |
0,60474 |
0,45452 |
0,407222 |
-0,39893 |
-0,2854 |
-0,76264 |
|
Монако |
-0,78116 |
-0,77586 |
-0,71078 |
-1,01326 |
1,56038 |
|||
Новая Зеландия |
-0,70953 |
-0,6826 |
-0,62446 |
-0,637256 |
0,868087 |
1,133814 |
0,342915 |
|
Норвегия |
-0,82209 |
-0,82828 |
-0,75394 |
-0,674559 |
0,90394 |
0,660728 |
2,39686 |
|
Папуа-Новая Гвинея |
1,4903857 |
1,86301 |
1,83563 |
1,339793 |
-1,39103 |
-0,72213 |
-0,78973 |
|
Свазиленд |
2,022460 |
2,2882631 |
2,569351 |
2,17910755 |
-2,99273 |
0,47877 |
-0,73805 |
|
Сент-Винсент и Гренадины |
0,49786 |
0,2726 |
0,10924 |
-0,29220 |
-0,1837 |
-0,72213 |
-0,70918 |
|
Соломоновы Острова |
0,41600 |
0,55231 |
0,45452 |
0,500479 |
-0,7694 |
0,29681 |
-0,77761 |
|
Тайланд |
-0,16723 |
-0,29235 |
-0,32234 |
-0,46939 |
0,031376 |
-1,19522 |
-0,75373 |
|
Тонга |
-0,32071 |
-0,30983 |
-0,32234 |
0,40722 |
-0,17182 |
-0,64935 |
-0,74554 |
|
Филиппины |
0,43646 |
0,4125 |
0,41136 |
0,407222 |
-0,63799 |
-0,94048 |
-0,7879 |
|
Швеция |
-0,83232 |
-0,82246 |
-0,75394 |
-0,67455 |
0,92785 |
0,87907 |
1,0653 |
|
Ямайка |
0,0885 |
-0,11759 |
-0,1497 |
0,03419 |
-0,0762 |
-0,46739 |
-0,71702 |
|
Япония |
-0,88348 |
-0,82828 |
-0,75394 |
-0,65590 |
1,0951 |
1,0610 |
0,86326 |
Рисунок 3. График средних значений переменных по каждому кластеру
Таблица 3. Расстояния между кластерами (квадраты расстояний над главной диагональю)
ClusterNumber |
Euclidean Distances between Clusters (ЕКСЕЛЬ) Distances below diagonal Squared distances above diagonal |
||||
No. 1 |
No. 2 |
No. 3 |
No. 4 |
||
No. 1 |
0,000000 |
4,350776 |
1,368761 |
1,762950 |
|
No. 2 |
2,085851 |
0,000000 |
8,022777 |
8,929783 |
|
No. 3 |
1,169941 |
2,832451 |
0,000000 |
0,295767 |
|
No. 4 |
1,327761 |
2,988274 |
0,543845 |
0,000000 |
Таблица 4. Средние значения по кластерам
Variable |
Cluster Means (ЕКСЕЛЬ) |
||||
ClusterNo. 1 |
ClusterNo. 2 |
ClusterNo. 3 |
ClusterNo. 4 |
||
Млад см на 1000 рожд |
0,103620 |
2,38400 |
-0,745353 |
-0,868139 |
|
Млад см до 1 года на 1000 жив |
0,082176 |
2,50574 |
-0,754016 |
-0,842853 |
|
Млад см до 5 лет на 1000 жив |
0,028006 |
2,61251 |
-0,699997 |
-0,775526 |
|
Материнская см на 1000 |
-0,051931 |
2,45888 |
-0,651245 |
-0,641920 |
|
Прод жизни |
-0,160575 |
-2,46282 |
0,887511 |
0,897970 |
|
Затр на зравоохр |
-0,587277 |
0,45451 |
1,224792 |
0,278620 |
|
Расх на здравоохр на 1 |
-0,659458 |
-0,76966 |
1,040575 |
2,111211 |
Состав кластеров:
Первый кластер: 12, 14, 15, 17, 28, 45, 59, 69, 84, 98, 102, 139, 148, 154, 158, 169, 189 объекты (17)
Второй кластер: 87, 123, 136 объекты (3)
Третий кластер: 1, 18, 43, 48, 71, 116, 179, 190 объекты (8)
Четвертый кластер: 93, 117 объекты (2)
Таблица 5
Case No. |
Members of Cluster Number 1 and Distances from Respective Cluster Center Cluster contains 17 cases |
|
Distance |
||
Багамские острова |
0,382180 |
|
Барбадос |
0,190795 |
|
Бахрейн |
0,520441 |
|
Белиз |
0,155889 |
|
Бутан |
0,779216 |
|
Гренада |
0,315243 |
|
Иордания |
0,591148 |
|
Камбоджа |
0,660924 |
|
Кувейт |
0,586041 |
|
Малайзия |
0,485471 |
|
Марокко |
0,438373 |
|
Гренадины |
0,199018 |
|
Соломоновы Острова |
0,530772 |
|
Тайланд |
0,363710 |
|
Тонга |
0,311378 |
|
Филиппины |
0,367790 |
|
Ямайка |
0,121855 |
Таблица 6
Case No. |
Members of Cluster Number 2 and Distances from Respective Cluster Center Cluster contains 3 cases |
|
Distance |
||
Лесото |
0,968532 |
|
Папуа-Новая Гвинея |
0,894520 |
|
Свазиленд |
0,277885 |
Таблица 7
Case No. |
Members of Cluster Number 3 and Distances from Respective Cluster Center Cluster contains 8 cases |
|
Distance |
||
Австралия |
0,236225 |
|
Бельгия |
0,091442 |
|
Голландия |
0,263455 |
|
Дания |
0,177798 |
|
Канада |
0,097636 |
|
Новая Зеландия |
0,269300 |
|
Швеция |
0,140135 |
|
Япония |
0,135709 |
Таблица 8
Case No. |
Members of Cluster Number 4 and Distances from Respective Cluster Center Cluster contains 2 cases |
|
Distance |
||
Люксембург |
0,181858 |
|
Норвегия |
0,181858 |
кластеризация диаграмма квасов
Построение дендограммы
Рисунок 4.
Заключение
В ходе выполнения данной лабораторной работы проведено разбиение исходного множества стран методами раздельного и иерархического кластерного анализа.
Можно считать, что разбиение прошло успешно, поскольку Т-критерий оказался весьма близок к единице.
Размещено на Allbest.ru
...Подобные документы
Классификация без обучения и кластерный анализ. Расстояние между кластерами. Функционалы качества разбиения. Иерархические кластерные процедуры. Дискриминантный анализ. Решение задач дискриминантного анализа в системе компьютерной математики Mathcad.
курсовая работа [1,3 M], добавлен 17.09.2012Исследование производительности труда методом компонентного и кластерного анализов. Выбор значащих главных компонент. Формирование кластеров. Построение дендрограммы и диаграммы рассеивания. Правила кластеризации в пространстве исходных признаков.
лабораторная работа [998,9 K], добавлен 25.11.2014Роль информации в мире. Теоретические основы анализа Big Data. Задачи, решаемые методами Data Mining. Выбор способа кластеризации и деления объектов на группы. Выявление однородных по местоположению точек. Построение магического квадранта провайдеров.
дипломная работа [2,5 M], добавлен 01.07.2017Сущность, структура, алгоритм функционирования самообучающихся карт. Начальная инициализация и обучение карты. Сущность и задачи кластеризации. Создание нейронной сети со слоем Кохонена при помощи встроенной в среды Matlab. Отличия сети Кохонена от SOM.
лабораторная работа [36,1 K], добавлен 05.10.2010Анализ проблем, возникающих при применении методов и алгоритмов кластеризации. Основные алгоритмы разбиения на кластеры. Программа RapidMiner как среда для машинного обучения и анализа данных. Оценка качества кластеризации с помощью методов Data Mining.
курсовая работа [3,9 M], добавлен 22.10.2012Методы обработки растровых изображений (кластеризация, пороговая и интерактивная сегментация). Разработка программного модуля для системы мониторинга биосферы и дистанционного зондирования. Создание пользовательского интерфейса программного модуля.
курсовая работа [2,2 M], добавлен 29.04.2015Основы для проведения кластеризации. Использование Data Mining как способа "обнаружения знаний в базах данных". Выбор алгоритмов кластеризации. Получение данных из хранилища базы данных дистанционного практикума. Кластеризация студентов и задач.
курсовая работа [728,4 K], добавлен 10.07.2017Содержание исходного набора данных. Основные причины возникновения выбросов. Главные алгоритмы кластеризации. Обработка и очистка файла. Описание его полей. Прямоугольная вещественнозначная матрица. Метрика Минковского. Математическое определение объекта.
курсовая работа [1,4 M], добавлен 25.10.2016Структурная диаграмма программного модуля. Нахождение суммы элементов, находящихся над главной диагональю. Реализация программного модуля: код программы; описание использованных операторов и функций. Особенности тестирования программного модуля.
курсовая работа [146,6 K], добавлен 01.09.2010Особенности кластеризации социальных сетей, методы распознавания сообществ. Особенности локального прореживания графа. Разработка рекомендаций по выбору метода кластеризации для выделенных классов задач. Оптимизация процесса дальнейшей обработки данных.
курсовая работа [1,8 M], добавлен 30.06.2017Классификация задач Data Mining. Задача кластеризации и поиска ассоциативных правил. Определению класса объекта по его свойствам и характеристикам. Нахождение частых зависимостей между объектами или событиями. Оперативно-аналитическая обработка данных.
контрольная работа [26,1 K], добавлен 13.01.2013Описание предметной области автоматизации. Программа обследования и план-график выполнения работ на предпроектной стадии. Метод группового принятия решения с помощью кластеризации экспертных оценок альтернатив. Построение диаграммы потоков данных DFD.
дипломная работа [375,8 K], добавлен 07.12.2014Постановка задачи. Математическое обоснование. Последовательность разбиений множества. Язык программирования. Реализация алгоритмов. Генерирование разбиений множества. Генерирование всех понятий.
курсовая работа [29,9 K], добавлен 20.06.2003Принципы организации и функционирования биологических нейронных сетей. Система соединенных и взаимодействующих между собой простых процессоров. Нейронные сети Маккалока и Питтса. Оценка качества кластеризации. Обучение многослойного персептрона.
курсовая работа [1,1 M], добавлен 06.12.2010Методы анализа данных, применяемые в диагностике. Кластерный анализ, иерархическая группировка. Система статистического анализа, язык программирования, интерфейс для связи. Установка для контроля сварных соединений. Векторы классификации для измерений.
дипломная работа [769,3 K], добавлен 03.01.2014Классификация задач DataMining. Создание отчетов и итогов. Возможности Data Miner в Statistica. Задача классификации, кластеризации и регрессии. Средства анализа Statistica Data Miner. Суть задачи поиск ассоциативных правил. Анализ предикторов выживания.
курсовая работа [3,2 M], добавлен 19.05.2011Алгоритмы кластеризации данных, отбора факторов, построения множественной линейной регрессии, оценки параметров процесса на скользящем постоянном интервале. Решение задач анализа данных на нейронных сетях и результаты моделирования нелинейных функций.
контрольная работа [1,5 M], добавлен 11.01.2016Понятие, виды и структура интеллектуальных поисковых систем. Российская интеллектуальная поисковая система Нигма: интерфейс и главные особенности. Математическая и химическая система Нигма. Понятие кластеризации как интеллектуального анализа данных.
презентация [291,0 K], добавлен 21.08.2011Ознакомление с элементами топологии базы геоданных. Исследование и характеристика особенностей кластерной обработки. Изучение алгоритмов, использующихся при проверке и кластеризации. Анализ процесса использования пространственных отношений объектов.
презентация [749,3 K], добавлен 18.10.2017Создание методов, оценивающих информационное содержание накопленных массивов наблюдений, проверка внутренней однородности. Пример кластерного анализа, основанного на использовании "цепочечного эффекта" для формирования однородных групп наблюдений.
презентация [6,0 M], добавлен 31.03.2011