Кластерный анализ

Визуальная кластеризация. Качество разбиения исходного множества стран методами раздельного и иерархического кластерного анализа. Кластеризация лиц Квасова, "звездные диаграммы". Расстояние между кластерами (квадраты расстояний над главной диагональю).

Рубрика Программирование, компьютеры и кибернетика
Вид лабораторная работа
Язык русский
Дата добавления 01.02.2015
Размер файла 59,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Национальный Исследовательский Ядерный Университет «МИФИ»

Лабораторная работа

«Кластерный анализ»

Выполнила:

Квасова Полина

1. Исходные данные

В качестве исходных были использованы данные о странах.

Таблица 1

Государства-члены

Младенческая смертность на 1000 рождённых

Младенческая смертность до 1 года на 1000 жив

Младенческая смертность до 5 лет на 1000 жив

Материнская смертность на 1000 рожд

Продолжительность жизни

Затраты на здравоохранение (% к ввп)

Расходы на здравоохранение на 1 чел-ка

Австралия

2,8

4,1

5

6

82,1

9,1

6140

Антигуа и Барбуда

5,5

9,2

10

75,7

5,2

681

Багамские острова

7,7

13,9

17

37

74,9

7,5

1647

Барбадос

9,5

16,9

18

52

75,1

6,3

938

Бахрейн

3,6

8,2

10

22

76,5

3,9

895

Белиз

8,6

15,7

18

45

73,7

5,8

259

Бельгия

2,4

3,4

4

6

80,4

10,8

4711

Бутан

21,2

35,7

45

120

67,9

3,8

90

Голландия

2,8

3,4

4

6

81,1

12,4

5737

Гренада

6,7

11,4

14

23

72,6

6,4

478

Дания

2,6

3

4

5

80,1

11,2

6304

Иордания

11,5

16,4

19

50

73,7

9,8

388

Камбоджа

18,4

33,9

40

170

71,4

5,4

51

Канада

3,5

4,7

5

11

81,2

10,9

5741

Кувейт

5,5

9,5

11

14

74,4

2,5

1428

Лесото

45,3

74,2

100

490

48,8

11,6

138

Лихтенштейн

82,4

Люксембург

0,8

1,7

2

11

81,4

6,9

7452

Малайзия

4,5

7,3

9

29

74,8

3,9

410

Марокко

17,8

26,8

31

120

70,6

6,4

190

Монако

2,1

3,1

4

4,4

6708

Новая Зеландия

2,8

4,7

6

8

81,2

10,3

3292

Норвегия

1,7

2,2

3

4

81,5

9

9055

Папуа-Новая Гвинея

24,3

48,4

63

220

62,3

5,2

114

Свазиленд

29,5

55,7

80

310

48,9

8,5

259

Сент-Винсент и Гренадины

14,6

21,1

23

45

72,4

5,2

340

Соломоновы Острова

13,8

25,9

31

130

67,5

8

148

Тайланд

8,1

11,4

13

26

74,2

3,9

215

Тонга

6,6

11,1

13

120

72,5

5,4

238

Филиппины

14

23,5

30

120

68,6

4,6

119

Швеция

1,6

2,3

3

4

81,7

9,6

5319

Ямайка

10,6

14,4

17

80

73,3

5,9

318

Япония

1,1

2,2

3

6

83,1

10,1

4752

2. Визуальная кластеризация

Рисунок 1. Лица Квасова

По результатам кластеризации лиц Квасова решено выделить (4) четыре кластера:

· Вытянутое худое лицо с большим подбородком и высоким лбом - кластер №1

· Широкие скулы, очень маленький подбородок, длинный нос и маленький лоб - кластер № 2

· Небольшое лицо, пропорциональные черты лица, низко расположены уши - кластер №3

· Лицо сверху вниз расширяется (в виде груши), длинный нос - кластер №4

3. «Звездные диаграммы»

Рисунок 2

По результатам кластеризации «Звездные диаграммы» можно выделить (4) четыре кластера:

· Крупные звезды, состоящие из трех равносторонних треугольника и еще одно чуть поменьше, направлены вверх - кластер №1

· Звезда, состоящая из точки и двух остроугольных треугольников, направленных северо-запад и на юго-восток - кластер №2

· Небольшая звезда, состоящая из небольших треугольников, некоторые направлены на юго-восток - кластер №3

· Маленькая звезда из точки и линии - кластер №4

4. Кластеризация методом К-средних

Таблица 2. Стандартизированные исходные данные

Государства-члены

Младенческая смертность на 1000 рождённых

Младенческая смертность до 1 года на 1000 жив

Младенческая смертность до 5 лет на 1000 жив

Материнская смертность на 1000 рожд

Продолжительность жизни

Затраты на зравоохранение (% к ввп)

Расходы на здравоохранение на 1 чел-ка

Австралия

-0,7095

-0,7176

-0,6676

-0,6559

0,9756

0,6971

1,3579

Антигуа и Барбуда

-0,4332

-0,4205

-0,4518

0,2106

-0,7221

-0,5876

Багамские острова

-0,2081

-0,1467

-0,1497

-0,3668

0,1150

0,1148

-0,2433

Барбадос

-0,0239

0,028

-0,1065

-0,2269

0,1389

-0,3218

-0,496

Бахрейн

-0,6276

-0,4787

-0,4518

-0,5066

0,3062

-1,1952

-0,5113

Белиз

-0,1160

-0,0418

-0,106

-0,2922

-0,0283

-0,5037

-0,738

Бельгия

-0,7504

-0,7583

-0,7107

-0,6559

0,772

1,3157

0,8486

Бутан

1,1731

1,1231

1,0587

0,4072

-0,7216

-1,2316

-0,7982

Голландия

-0,7095

-0,7583

-0,7107

-0,6559

0,856

1,8980

1,2143

Гренада

-0,3104

-0,2923

-0,27916

-0,49737

-0,1598

-0,2854

-0,66

Дания

-0,73

-0,7816

-0,7107

-0,6652

0,7366

1,4613

1,4164

Иордания

0,180662

-0,00109

-0,06339

-0,24557

-0,0283

0,95185

-0,6920

Камбоджа

0,88668

1,0183

0,8429

0,873508

-0,30330

-0,64935

-0,8121

Канада

-0,63791

-0,68265

-0,66762

-0,609279

0,868087

1,35216

1,21574

Кувейт

-0,43327

-0,40304

-0,40866

-0,581302

0,05528

-1,7047

-0,32142

Лесото

3,639150

3,36594

3,432545

3,85773533

-3,00468

1,606899

-0,78118

Лихтенштейн

1,011523

Люксембург

-0,91418

-0,85741

-0,79710

-0,609279

0,89199

-0,10348

1,82555

Малайзия

-0,53559

-0,53119

-0,49498

-0,441416

0,10309

-1,19522

-0,68423

Марокко

0,82529

0,60474

0,45452

0,407222

-0,39893

-0,2854

-0,76264

Монако

-0,78116

-0,77586

-0,71078

-1,01326

1,56038

Новая Зеландия

-0,70953

-0,6826

-0,62446

-0,637256

0,868087

1,133814

0,342915

Норвегия

-0,82209

-0,82828

-0,75394

-0,674559

0,90394

0,660728

2,39686

Папуа-Новая Гвинея

1,4903857

1,86301

1,83563

1,339793

-1,39103

-0,72213

-0,78973

Свазиленд

2,022460

2,2882631

2,569351

2,17910755

-2,99273

0,47877

-0,73805

Сент-Винсент и Гренадины

0,49786

0,2726

0,10924

-0,29220

-0,1837

-0,72213

-0,70918

Соломоновы Острова

0,41600

0,55231

0,45452

0,500479

-0,7694

0,29681

-0,77761

Тайланд

-0,16723

-0,29235

-0,32234

-0,46939

0,031376

-1,19522

-0,75373

Тонга

-0,32071

-0,30983

-0,32234

0,40722

-0,17182

-0,64935

-0,74554

Филиппины

0,43646

0,4125

0,41136

0,407222

-0,63799

-0,94048

-0,7879

Швеция

-0,83232

-0,82246

-0,75394

-0,67455

0,92785

0,87907

1,0653

Ямайка

0,0885

-0,11759

-0,1497

0,03419

-0,0762

-0,46739

-0,71702

Япония

-0,88348

-0,82828

-0,75394

-0,65590

1,0951

1,0610

0,86326

Рисунок 3. График средних значений переменных по каждому кластеру

Таблица 3. Расстояния между кластерами (квадраты расстояний над главной диагональю)

ClusterNumber

Euclidean Distances between Clusters (ЕКСЕЛЬ) Distances below diagonal Squared distances above diagonal

No. 1

No. 2

No. 3

No. 4

No. 1

0,000000

4,350776

1,368761

1,762950

No. 2

2,085851

0,000000

8,022777

8,929783

No. 3

1,169941

2,832451

0,000000

0,295767

No. 4

1,327761

2,988274

0,543845

0,000000

Таблица 4. Средние значения по кластерам

Variable

Cluster Means (ЕКСЕЛЬ)

ClusterNo. 1

ClusterNo. 2

ClusterNo. 3

ClusterNo. 4

Млад см на 1000 рожд

0,103620

2,38400

-0,745353

-0,868139

Млад см до 1 года на 1000 жив

0,082176

2,50574

-0,754016

-0,842853

Млад см до 5 лет на 1000 жив

0,028006

2,61251

-0,699997

-0,775526

Материнская см на 1000

-0,051931

2,45888

-0,651245

-0,641920

Прод жизни

-0,160575

-2,46282

0,887511

0,897970

Затр на зравоохр

-0,587277

0,45451

1,224792

0,278620

Расх на здравоохр на 1

-0,659458

-0,76966

1,040575

2,111211

Состав кластеров:

Первый кластер: 12, 14, 15, 17, 28, 45, 59, 69, 84, 98, 102, 139, 148, 154, 158, 169, 189 объекты (17)

Второй кластер: 87, 123, 136 объекты (3)

Третий кластер: 1, 18, 43, 48, 71, 116, 179, 190 объекты (8)

Четвертый кластер: 93, 117 объекты (2)

Таблица 5

Case No.

Members of Cluster Number 1 and Distances from Respective Cluster Center Cluster contains 17 cases

Distance

Багамские острова

0,382180

Барбадос

0,190795

Бахрейн

0,520441

Белиз

0,155889

Бутан

0,779216

Гренада

0,315243

Иордания

0,591148

Камбоджа

0,660924

Кувейт

0,586041

Малайзия

0,485471

Марокко

0,438373

Гренадины

0,199018

Соломоновы Острова

0,530772

Тайланд

0,363710

Тонга

0,311378

Филиппины

0,367790

Ямайка

0,121855

Таблица 6

Case No.

Members of Cluster Number 2 and Distances from Respective Cluster Center Cluster contains 3 cases

Distance

Лесото

0,968532

Папуа-Новая Гвинея

0,894520

Свазиленд

0,277885

Таблица 7

Case No.

Members of Cluster Number 3 and Distances from Respective Cluster Center Cluster contains 8 cases

Distance

Австралия

0,236225

Бельгия

0,091442

Голландия

0,263455

Дания

0,177798

Канада

0,097636

Новая Зеландия

0,269300

Швеция

0,140135

Япония

0,135709

Таблица 8

Case No.

Members of Cluster Number 4 and Distances from Respective Cluster Center Cluster contains 2 cases

Distance

Люксембург

0,181858

Норвегия

0,181858

кластеризация диаграмма квасов

Построение дендограммы

Рисунок 4.

Заключение

В ходе выполнения данной лабораторной работы проведено разбиение исходного множества стран методами раздельного и иерархического кластерного анализа.

Можно считать, что разбиение прошло успешно, поскольку Т-критерий оказался весьма близок к единице.

Размещено на Allbest.ru

...

Подобные документы

  • Классификация без обучения и кластерный анализ. Расстояние между кластерами. Функционалы качества разбиения. Иерархические кластерные процедуры. Дискриминантный анализ. Решение задач дискриминантного анализа в системе компьютерной математики Mathcad.

    курсовая работа [1,3 M], добавлен 17.09.2012

  • Исследование производительности труда методом компонентного и кластерного анализов. Выбор значащих главных компонент. Формирование кластеров. Построение дендрограммы и диаграммы рассеивания. Правила кластеризации в пространстве исходных признаков.

    лабораторная работа [998,9 K], добавлен 25.11.2014

  • Роль информации в мире. Теоретические основы анализа Big Data. Задачи, решаемые методами Data Mining. Выбор способа кластеризации и деления объектов на группы. Выявление однородных по местоположению точек. Построение магического квадранта провайдеров.

    дипломная работа [2,5 M], добавлен 01.07.2017

  • Сущность, структура, алгоритм функционирования самообучающихся карт. Начальная инициализация и обучение карты. Сущность и задачи кластеризации. Создание нейронной сети со слоем Кохонена при помощи встроенной в среды Matlab. Отличия сети Кохонена от SOM.

    лабораторная работа [36,1 K], добавлен 05.10.2010

  • Анализ проблем, возникающих при применении методов и алгоритмов кластеризации. Основные алгоритмы разбиения на кластеры. Программа RapidMiner как среда для машинного обучения и анализа данных. Оценка качества кластеризации с помощью методов Data Mining.

    курсовая работа [3,9 M], добавлен 22.10.2012

  • Методы обработки растровых изображений (кластеризация, пороговая и интерактивная сегментация). Разработка программного модуля для системы мониторинга биосферы и дистанционного зондирования. Создание пользовательского интерфейса программного модуля.

    курсовая работа [2,2 M], добавлен 29.04.2015

  • Основы для проведения кластеризации. Использование Data Mining как способа "обнаружения знаний в базах данных". Выбор алгоритмов кластеризации. Получение данных из хранилища базы данных дистанционного практикума. Кластеризация студентов и задач.

    курсовая работа [728,4 K], добавлен 10.07.2017

  • Содержание исходного набора данных. Основные причины возникновения выбросов. Главные алгоритмы кластеризации. Обработка и очистка файла. Описание его полей. Прямоугольная вещественнозначная матрица. Метрика Минковского. Математическое определение объекта.

    курсовая работа [1,4 M], добавлен 25.10.2016

  • Структурная диаграмма программного модуля. Нахождение суммы элементов, находящихся над главной диагональю. Реализация программного модуля: код программы; описание использованных операторов и функций. Особенности тестирования программного модуля.

    курсовая работа [146,6 K], добавлен 01.09.2010

  • Особенности кластеризации социальных сетей, методы распознавания сообществ. Особенности локального прореживания графа. Разработка рекомендаций по выбору метода кластеризации для выделенных классов задач. Оптимизация процесса дальнейшей обработки данных.

    курсовая работа [1,8 M], добавлен 30.06.2017

  • Классификация задач Data Mining. Задача кластеризации и поиска ассоциативных правил. Определению класса объекта по его свойствам и характеристикам. Нахождение частых зависимостей между объектами или событиями. Оперативно-аналитическая обработка данных.

    контрольная работа [26,1 K], добавлен 13.01.2013

  • Описание предметной области автоматизации. Программа обследования и план-график выполнения работ на предпроектной стадии. Метод группового принятия решения с помощью кластеризации экспертных оценок альтернатив. Построение диаграммы потоков данных DFD.

    дипломная работа [375,8 K], добавлен 07.12.2014

  • Постановка задачи. Математическое обоснование. Последовательность разбиений множества. Язык программирования. Реализация алгоритмов. Генерирование разбиений множества. Генерирование всех понятий.

    курсовая работа [29,9 K], добавлен 20.06.2003

  • Принципы организации и функционирования биологических нейронных сетей. Система соединенных и взаимодействующих между собой простых процессоров. Нейронные сети Маккалока и Питтса. Оценка качества кластеризации. Обучение многослойного персептрона.

    курсовая работа [1,1 M], добавлен 06.12.2010

  • Методы анализа данных, применяемые в диагностике. Кластерный анализ, иерархическая группировка. Система статистического анализа, язык программирования, интерфейс для связи. Установка для контроля сварных соединений. Векторы классификации для измерений.

    дипломная работа [769,3 K], добавлен 03.01.2014

  • Классификация задач DataMining. Создание отчетов и итогов. Возможности Data Miner в Statistica. Задача классификации, кластеризации и регрессии. Средства анализа Statistica Data Miner. Суть задачи поиск ассоциативных правил. Анализ предикторов выживания.

    курсовая работа [3,2 M], добавлен 19.05.2011

  • Алгоритмы кластеризации данных, отбора факторов, построения множественной линейной регрессии, оценки параметров процесса на скользящем постоянном интервале. Решение задач анализа данных на нейронных сетях и результаты моделирования нелинейных функций.

    контрольная работа [1,5 M], добавлен 11.01.2016

  • Понятие, виды и структура интеллектуальных поисковых систем. Российская интеллектуальная поисковая система Нигма: интерфейс и главные особенности. Математическая и химическая система Нигма. Понятие кластеризации как интеллектуального анализа данных.

    презентация [291,0 K], добавлен 21.08.2011

  • Ознакомление с элементами топологии базы геоданных. Исследование и характеристика особенностей кластерной обработки. Изучение алгоритмов, использующихся при проверке и кластеризации. Анализ процесса использования пространственных отношений объектов.

    презентация [749,3 K], добавлен 18.10.2017

  • Создание методов, оценивающих информационное содержание накопленных массивов наблюдений, проверка внутренней однородности. Пример кластерного анализа, основанного на использовании "цепочечного эффекта" для формирования однородных групп наблюдений.

    презентация [6,0 M], добавлен 31.03.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.