Кластерный анализ

Пример решения практической задачи кластерным анализом в системе "statistica". Иерархический агломеративный метод и метрика расстояния. Задания и трудности с интерпретацией полученных результатов проведения кластеризации "Two-way joining" методом.

Рубрика Экономика и экономическая теория
Вид лабораторная работа
Язык русский
Дата добавления 27.05.2014
Размер файла 1,1 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

ЛАБОРАТОРНАЯ РАБОТА

КЛАСТЕРНЫЙ АНАЛИЗ

Пример решения практической задачи кластерным анализом в системе statistica

Рассмотрим процедуру решения практической задачи методом кластерного анализа в системе STATISTICA.

Задачей кластерного анализа является организация наблюдаемых данных в наглядные структуры. Для решения данной задачи в кластерном анализе используются следующие методы: Joining (tree clustering) (иерархические агломеративные методы или древовидная кластеризация), K - means clustering (метод К средних), Two-way joining (двувходовое объединение).

Разберем принцип проведения кластерного анализа на основе данных представленных в таблице 1 (файл date_2.sta ). В файле содержатся данные по показателю уровня жизни населения и показатели-аргументы, участвующие в классификации.

Рассмотрим процесс формирования выборок в системе STATISTICA.

1. Из переключателя модулей STATISTICA откройте модуль Cluster Analysis (Кластерный Анализ). Высветите название модуля и далее нажмите кнопку Switch to (Переключиться в) либо просто дважды щелкните мышью по названию модуля Cluster Analysis.

2. На экране появится стартовая панель модуля (рис.1) Clustering Method (методы кластерного анализа): Joining (tree clustering) (иерархические агломеративные методы или древовидная кластеризация), K - means clustering (метод К средних), Two-way joining (двувходовое объединение). Разберем каждый из этих методов.

Рис. 1. Стартовая панель модуля Clustering Method (методы кластерного анализа)

Joining (tree clustering) (иерархические агломеративные методы).

1. Откроем файл (Open Data) date_1.sta. После выбора Joining (tree clustering) и нажатия кн. ОК появляется окно Cluster Analysis: Joing (Tree Clustering) (окно ввода режимов работы для иерархических агломеративных методов) (рис. 2), в котором кн. Variables позволяет выбрать переменные участвующие в классификации. Нажмем на кн. Variables и выберем все переменные Select All . После соответствующего выбора и нажмем кн. OK

Рис.2. Cluster Analysis: Joing (Tree Clustering)

(окно ввода режимов работы для иерархических агломеративных методов) задача иерархический агломеративный кластеризация

Также можно задать Input (тип входной информации) и Cluster (режим классификации (по признакам или объектам)). Можно указать Amalgamation (linkage) rule (правило объединения) и Distance measure (метрика расстояний). Codes for grouping variable (коды для групп переменной) будут указывать количество анализируемых групп объектов. Missing data (пропущенные переменные) позволяет выбрать либо построчное удаление переменных из списка, либо заменить их на средние значения. Open Data -позволяет открыть файл с данными. Причем можно указать условия выбора наблюдений из базы данных -кн. Select Cases. Можно задавать веса переменным, выбрав их из списка -кн. W.

Проставьте значения, как показано на рисунке 2.

3. После задания всех необходимых параметров и нажатия кн. ОК будут произведены вычисления, а на экране появится окно, содержащее результаты кластерного анализа "Joining Results" рис.3.

Рис. 3. Окно, содержащее результаты кластерного анализа "Joining Results"

Вывод результатов и их анализ

Информационная часть диалогового окна Joining Results Discriminant Function Analisis Results (результаты анализа кластерных функций) сообщает, что

· Number of variables-число переменных ;

· Number of cases - число наблюдений;

· Missing data were casewise deleted - осуществлена классификация наблюдений или переменных (зависит от уровня параметра в строке Cluster в предыдущем окне настроцки.)

· Amalgation (joing) rule - правило объединения кластеров (название иерархического агломеративного метода, заданного в строке Amalgation rules, а в предыдущем окне настрйки);

· Distanse.metric is - Метрика расстояния (зависит от установки в строке Distance measure впредыдущем окне настройки.

Пользователь может вызвать на экран горизонтальную и вертикальную диаграмму (Horizontal hierachical plot или Vertical icicle plot). Наиболее традиционное - вертикальное представление. (рис.4).

Рис. 4. Vertical icicle plot

Теперь представим себе, что постепенно (очень малыми шагами) вы "ослабляете" ваш критерий о том, какие объекты являются уникальными, а какие нет. Другими словами, вы понижаете порог, относящийся к решению об объединении двух или более объектов в один кластер. В результате, вы связываете вместе всё большее и большее число объектов и агрегируете (объединяете) все больше и больше кластеров, состоящих из все сильнее различающихся элементов. Окончательно, на последнем шаге все объекты объединяются вместе. Когда данные имеют ясную "структуру" в терминах кластеров объектов, сходных между собой, тогда эта структура, скорее всего, должна быть отражена в иерархическом дереве различными ветвями. В результате успешного анализа методом объединения появляется возможность обнаружить кластеры (ветви) и интерпретировать их.

Чтобы вернуться в окно, содержащее другие результаты кластерного анализа, необходимо щелкнуть по Continue.

Щелчком мыши можно раскрыть строку Amalgamation schedule, содержащую протокол объединения кластеров. Рис.5

Рис.5 Amalgamation schedule

В заголовке указан иерархический агломеративный метод и метрика расстояния. Таблица может занимать несколько окон.

Следующей в окне результатов идет кнопка Graph of amalgamation schedule. После щелчка, раскрывается окно, содержащее ступенчатое, графическое изображение изменений расстояний при объединении кластеров рис.6.

Рис.6 Graph of amalgamation schedule

Вернувшись в основное окно результатов и классификации. Для просмотра же матрицы расстояний необходимо осуществить щелчок на строке Distance matrix (рис.7).

Рис. 7. Матрица расстояний

В основном окне результатов классификации имеется строка Save distance matrix as: (Сохранить матрицу расстояний как:) позволяющая задать имя файла, в котором будет сохранена матрица расстояний, которая в дальнейшем будет подвергнута обработке.

Cтрока Discriptive statistics содержит такие важнейшие описательные статистики, как среднее (means) и среднеквадратическое отклонение (standart deviations) для каждого наблюдения. При проведении классификации n объектов по k признакам, для пользователя представляют большой интерес значения этих показателей для каждого признака. Для того чтобы эти характеристики рассчитывались именно по признакам необходимо вернутся в основное окно настройки параметров и задать в строке Cluster значение "variables (columns)".

K - means clustering (метод К средних).

Суть этого метода состоит в следующем: исследователь заранее определяет колличество классов (k) на которые необходимо разбить имеющиеся наблюдения, и первые k - наблюдений становятся центрами этих классов. Для каждого следующего наблюдения рассчитываются расстояния до центров кластеров и данное наблюдение относится к тому кластеру, расстояние до которого было минимальным. После чего для этого кластера (в котором увеличилось количество наблюдений) рассчитывается новый центр тяжести (как среднее по каждому показателю) по всем включенным в кластер наблюдениям.

Предположим, вы уже имеете гипотезы относительно числа кластеров (по наблюдениям или по переменным). Вы можете указать системе образовать ровно три кластера так, чтобы они были настолько различны, насколько это возможно. Это именно тот тип задач, которые решает алгоритм метода K средних. В общем случае метод K средних строит ровно K различных кластеров, расположенных на возможно больших расстояниях друг от друга.

1. Из стартовой панели модуля (рис.1) Clustering Method (методы кластерного анализа) выберем K - means clustering (метод К средних). Откроем файл (Open Data) date_2.sta.

2. После нажатия кн. ОК появляется окно Cluster Analysis: K - means clustering (метод К средних) (рис. 8), в котором кн. Variables позволяет выбрать переменные участвующие в классификации. Нажмем на кн. Variables и выберем все переменные Select All .

В строке Cluster указывается как ведется классификация: при запуске установлен режим Variables (colums) - классифицируются переменные на основании их наблюдений, однако в подавляющем большинстве случаев используется режим Cases (rows) - классифицируются наблюдения. Для того чтобы включить режим Cases (rows) надо нажать на кнопку в конце строки, после чего в открывшемся окошке подвести курсор на надпись Cases (rows) и нажать левую кнопку.

Рис. 8. Cluster Analysis: K - means clustering (метод К средних)

В строке Number of iterations указывается количество итераций в расчетах кластеров. Как правило, установленных по умолчанию 10 итераций вполне достаточно. В строке Missing data устанавливается режим работы с теми наблюдениями (или переменными, если установлен режим Variables (columns) в строке Cluster) в которых пропущены данные. Если установить режим Subsituted by means (Заменять на среднее), то вместо пропущенного числа будет использовано среднее по этой переменной (или наблюдению). Переключение в режим Subsitituted by means выполняется аналогично переключениям в строке Cluster. После соответствующего выбора нажмем кн. OK. Будут произведены вычисления и появится новое окно: "K - Means Clustering Results" (рис.9).

Рис.9 K - Means Clustering Results

Вывод результатов и их анализ

В верхней части окна (в том же порядке, как они идут на экране):

· Количество переменных;

· Количество наблюдений;

· Классификация наблюдений (или переменных, зависит от установки в предыдущем окне в строке Cluster) методом K - средних;

· Наблюдения с пропущенными данными удаляются (или: изменяются средними значениями. Зависит от установки в предыдущем окне в строке Missing data).

· Количество кластеров;

· Решение достигнуто после итераций.

В нижней части окнарасположены кнопки для вывода различной информации по кластерам.

1. Analysis of Variance (анализ дисперсии). После нажатия появляется таблица (рис.10) , в которой приведена межгрупповая и внутригрупповая дисперсии. Где строки - переменные (наблюдения), столбцы - показатели для каждой переменной: дисперсия между кластерами, число степеней свободы для межклассовой дисперсии, дисперсия внутри кластеров, число степеней свободы для внутриклассовой дисперсии, F - критерий, для проверки гипотезы о неравенстве дисперсий. Проверка данной гипотезы похожа на проверку гипотезы в дисперсионном анализе, когда делается предположение о том, что уровни фактора не влияют на результат.

Рис.10 Analysis of Variance (анализ дисперсии)

2. Cluster Means & Euclidean Distances (средние значения в кластерах и евклидово расстояние). Выводятся две таблицы. В первой (рис.11) указаны средние величины класса по всем переменным (наблюдениям). По вертикали указаны номера классов, а по горизонтали переменные (наблюдения).

Во второй таблице (рис.12) приведены расстояния между классами. И по вертикали и по горизонтали указаны номера кластеров. Таким образом при пересечении строк и столбцов указаны расстояния между соответствующими классами. Причем выше диагонали (на которой стоят нули) указаны квадраты, а ниже просто евклидово расстояние.

3. Graph of means представляет собой графическое изображение (рис.13) информации содержащейся в таблице, выводимой при нажатии кнопку Analysis of Variance (анализ дисперсии). На графике показаны средние значения переменных для каждого кластера.

Рис. 13. Graph of means

По горизонтали отложены участвующие в классификации переменные, а по вертикали - средние значения переменных в разрезе получаемых кластеров.

4. Descriptive Statistics for each cluster (описательная статистика для каждого кластера). После нажатия этой кнопки выводятся окна, количество которых равно количеству кластеров. В каждом таком окне в строках указаны переменные (наблюдения), а по горизонтали их характеристики, расчитанные для данного класса: среднее, несмещенное среднеквадратическое отклонение, несмещенная дисперсия.

5. Members for each cluster & distances. Выводится столько окон, сколько задано классов. В каждом окне указывается общее число элементов, отнесенных к этому кластеру, в верхней строке указан номер наблюдения (переменной), отнесенной к данному классу и евклидово расстояние от центра класса до этого наблюдения (переменной). Центр класса - средние величины по всем переменным (наблюдениям) для этого класса.

6. Save classifications and distances. Позволяет сохранить в формате программы статистика таблицу, в которой содержатся значения всех переменных, их порядковые номера, номера кластеров к которым они отнесены, и евклидовы расстояния от центра кластера до наблюдения. Записанная таблица может быть вызвана любым блоком или подвергнута дальнейшей обработке.

Обычно, когда результаты кластерного анализа методом K средних получены, можно рассчитать средние для каждого кластера по каждому измерению, чтобы оценить, насколько кластеры различаются друг от друга. В идеале вы должны получить сильно различающиеся средние для большинства, если не для всех измерений, используемых в анализе (В нашем случае (рис.13), значения переменных пересекаются, но все же мы можем наблюдать достаточно четкие различия клачтеров. Для более отчетливой группировки следует сократить число параметров.). Значения F-статистики, полученные для каждого измерения, являются другим индикатором того, насколько хорошо соответствующее измерение дискриминирует кластеры. Так как у нас решение найдено после одной итерации (меньше чем мы задали), то можно сделать выводод о том, что итоговая конфигурация является искомой.

В системе реализованы также и другие методы кластеризации, например Two-way joining, в котором кластеризуются случаи и переменные одновременно. На рис.14 показан результат кластеризации для данных из файла date_2.sta.

Трудность с интерпретацией полученных результатов этим методом возникает вследствие того, что сходства между различными кластерами могут происходить из (или быть причиной) некоторого различия подмножеств переменных. Поэтому получающиеся кластеры являются по своей природе неоднородными. Возможно это кажется вначале немного туманным; в самом деле, в сравнении с другими описанными методами кластерного анализа (см. Объединение (древовидная кластеризация) и Метод K средних), двувходовое объединение является, вероятно, наименее часто используемым методом. Однако некоторые исследователи полагают, что он предлагает мощное средство разведочного анализа данных (за более подробной информацией вы можете обратиться к описанию этого метода у Хартигана (Hartigan, 1975)).

Рис. 14. Результат кластеризации Two-way joining методом

Варианты заданий для самостоятельных задач классификации объектов в системе statistica

Задание 1

В файле date_1.sta содержатся данные по потребление продуктов на душу населения и показатели-аргументы, участвующие в классификации.

Задача состоит в том, чтобы проверить корректность искомой конфигурации объектов следующими методами:

1. Joining (tree clustering) (иерархические агломеративные методы или древовидная кластеризация)

2. K - means clustering (метод К средних)

3. Two-way joining (двувходовое объединение).

Для метода К-средних проанализировать полученные результаты.

Номер варианта соответствует номеру строки исключаемой из таблицы данных. Т.е. исследования проводятся для всех стран, кроме той, номер строки которой соответствует вашему варианту.

Date_1.sta

Страны:

X1

X2

X3

X4

X8

X9

Россия

55

3,9

30

5

28

124

Австралия

100

2,6

47

8,2

121

87

Австрия

93

5,3

37

12

146

74

Азербайдж.

20

4,1

12,4

7,9

52

141

Армения

20

3,7

4,3

6,5

72

134

Белоруссия

72

3,6

28

5,4

38

120

Бельгия

85

6,9

48

11

83

72

Болгария

65

3

18

9,5

92

156

Великобритания

67

3,5

39

8,8

91

91

Венгрия

73

1,7

40

10,9

73

106

Германия

88

6,8

35

8,1

138

73

Греция

83

1

24

8,8

99

108

Грузия

21

3,8

36

9,8

55

140

Дания

98

5

38

10,3

89

77

Ирландия

99

3,3

31

9,6

87

102

Испания

89

0,4

26

8,95

103

72

Италия

84

2,2

27

9,6

169

118

Казахстан

61

4,2

19,2

7,2

10

191

Канада

98

3,1

44

7,4

123

77

Киргизия

46

4,1

23,5

6,7

20

134

Date_2.sta

X5

X11

X6

X7

X10

Россия

44,5

84,98

20,4

3,2

14,4

Австралия

32,5

30,58

71,4

8,5

11,6

Австрия

33,9

38,42

78,7

9,2

56,1

Азербайдж.

38,8

60,34

12,1

3,3

16,4

Армения

34,4

60,22

10,9

3,2

13,5

Белоруссия

43,6

60,79

20,4

5,4

22,4

Бельгия

41

29,82

79,7

8,3

65,5

Болгария

36,4

70,57

17,3

5,4

27,8

Великобритания

17,9

34,51

69,7

7,1

62,3

Венгрия

32,1

64,73

24,5

6

39,8

Германия

38,1

36,63

76,2

8,6

56,9

Греция

41,5

32,84

44,4

5,7

37,4

Грузия

55

62,64

11,3

3,5

18,6

Дания

36,7

34,07

79,2

6,7

54,4

Ирландия

15,8

39,27

57

6,7

64,2

Испания

40,9

28,46

54,8

7,3

22,6

Италия

49,4

30,27

72,1

8,5

46

Казахстан

38,1

69,04

13,4

3,3

7,9

Канада

27,6

25,42

79,9

10,2

25,4

Киргизия

33,2

53,13

11,2

3,4

17

Размещено на Allbest.ru

...

Подобные документы

  • Анализ гистограмм и основных показателей. Задачи на нормальное распределение. Типы анализа и принципы их проведения: кластерный, корреляционный, дисперсионный и регрессионный. Ненаправленная гипотеза о зависимости золотой медали и даты основания школы.

    курсовая работа [1,9 M], добавлен 20.09.2014

  • Решение уравнения Дынкина методом Фурье, представление общего решения в виде разложения в ряд по базисным функциям. Теоретические значения стоимости валютных опционов на основе и формулы Блэка-Шоулза. Сравнение полученных оценок и анализ результатов.

    дипломная работа [1,9 M], добавлен 28.04.2015

  • История валютной пары евро-доллар. Спектральный анализ: сущность, цели, задачи. Спектральный анализ динамики кросс-курса EUR/USD с применением экспоненциального сглаживания в пакете Statistica 6.1. Построение гистограммы значений спектральной плотности.

    курсовая работа [1,9 M], добавлен 28.12.2012

  • Общая характеристика исследуемого предприятия, структура управления, организация труда и правила безопасности. Практика проведения приемки товаров по количеству и качеству. Порядок и принципы проведения инвентаризации и оценка полученных результатов.

    отчет по практике [114,0 K], добавлен 22.02.2015

  • Определение физического износа методом эффективного возраста и методом эффективного возраста по конструктивным элементам. Формула для определения износа нормативным методом. Подробный расчет по каждому методу и согласование полученных результатов.

    курсовая работа [2,4 M], добавлен 10.05.2014

  • Содержание, предмет, принципы и задачи экономического анализа. Виды анализа, их классификация и характеристика, метод и методика проведения. Организация и информационное обеспечение анализа. Анализ производственных результатов работы предприятия.

    контрольная работа [131,9 K], добавлен 15.07.2011

  • Исследование и оценка значимости экономического анализа деятельности в управлении. Методика проведения анализ актива и пассива заданного предприятия, оценка полученных результатов. Анализ ликвидности баланса. Изменение отчета о финансовых результатах.

    контрольная работа [27,3 K], добавлен 28.12.2014

  • Общие индексы. Индексы структурных сдвигов, их значение. Отрасль как объект изучения промышленности. Промышленность как объект статистического изучения. Предмет и метод статистики промышленности. Система статистических показателей. Пример решения задачи.

    контрольная работа [707,7 K], добавлен 23.01.2009

  • Формирование матрицы исходных показателей по заработной плате в табличном процессоре SPSS for Windows ver.20.0.0. Кластерный анализ, шаги агломерации. Дендрограмма с использованием метода межгрупповых связей. Общий вид уравнения регрессии, сводка.

    контрольная работа [95,4 K], добавлен 09.10.2013

  • Определение выручки от реализации продукции и расчет влияние факторов на ее изменение методом скорректированной величины, методом цепных подстановок и индексным методом. Определение объема реализованной продукции и его изменения балансовым методом.

    задача [30,1 K], добавлен 27.04.2011

  • Метод находжения классов однородных объектов при заданном радиусе круга, используя центрографический метод поиска кластеров. Вычисление новых координат центра тяжести; поиск среднего значения по каждому наблюдаемому признаку по объектам, попавшим в круг.

    контрольная работа [927,8 K], добавлен 02.02.2014

  • Инновационно-кластерный подход к формированию промышленной плотики России и проблемы привлечения инвестиций. Изменения на валютном рынке и их влияние на экономический рост страны. Антикризисные меры мотивации бизнеса и анализ мирового финансового рынка.

    материалы конференции [4,0 M], добавлен 28.12.2010

  • Сущность и классификация издержек производства в системе управления предприятием. Маржинальный анализ динамики и структуры издержек исследуемой организации. Принципы и направления оптимизации к управлению издержками на основе полученных результатов.

    дипломная работа [1,4 M], добавлен 16.09.2016

  • Применение дисперсионного анализа для исследования влияния качественных переменных на зависимую количественную переменную. Регрессионный анализ со статистической значимостью. Процесс проведения дисперсионного, кластерного, регрессионного анализов.

    курсовая работа [498,5 K], добавлен 11.05.2022

  • Процедура и состав работ, задачи и цели проведения оценки, ее допущения и ограничивающие условия. Характеристика объекта оценки. Расчет стоимости молота ковочного методом затратного, сравнительного и доходного подходов, согласование результатов оценки.

    курсовая работа [74,4 K], добавлен 11.12.2012

  • Сущность анализа финансовых результатов, главные этапы и особенности его проведения, интерпретация полученных данных. Определение прибыли, ее классификация и факторы формирования. Показатели рентабельности и ликвидности. Расчет эффективности предприятия.

    курсовая работа [116,8 K], добавлен 08.03.2011

  • Управление энергетической системой, экологическими проектами регионов в современной РФ. Значение частно-государственного партнёрства для реализации общественно значимых проектов. Применение кластерного анализа в определении направлений развития регионов.

    реферат [24,2 K], добавлен 01.11.2009

  • Характеристика экономического анализа в управлении предприятием. Основные этапы и процедуры экономического анализа. Понятие, задачи и содержание маркетингового анализа. Сметное планирование. Задачи, стоящие перед анализом технико-организационного уровня.

    шпаргалка [61,8 K], добавлен 10.02.2011

  • Математическая модель транспортной задачи. Необходимое и достаточное условие разрешимости транспортной задачи. Понятие потенциала и цикла. Методы построения начального опорного решения. Анализ применения транспортных задач для решения экономических задач.

    курсовая работа [792,9 K], добавлен 03.02.2016

  • Оценка финансовых результатов ООО "Эталон", двухфакторная модель прогнозирования банкротства: характеристика предприятия, его структура, предмет деятельности, основные задачи. Анализ бухгалтерского баланса и денежных потоков прямым и косвенным методом.

    контрольная работа [219,9 K], добавлен 19.04.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.