Кластерный анализ

Кластерный анализ как совокупность методов, позволяющих классифицировать многомерные наблюдения, условия и возможности его применения, преимущества. Этапы и трудности его реализации, интерпретация полученных результатов. Расчет евклидового расстояния.

Рубрика Математика
Вид статья
Язык русский
Дата добавления 17.07.2018
Размер файла 18,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Кластерный анализ

Кластерный анализ - это совокупность методов, позволяющих классифицировать многомерные наблюдения. Он не накладывает ограничения на представление исследуемых объектов, позволяет анализировать показатели различных типов данных (интервальным данным, частотам, бинарным данным). Большое достоинство кластерного анализа в том, что он позволяет производить разбиение объектов не по одному параметру, а по целому набору признаков. Кроме того, кластерный анализ в отличие от большинства математико-статистических методов не накладывает никаких ограничений на вид рассматриваемых объектов, и позволяет рассматривать множество исходных данных практически произвольной природы. При этом необходимо помнить, что переменные должны измеряться в сравнимых шкалах. Кластерный анализ позволяет рассматривать достаточно большой объем информации и резко сокращать, сжимать большие массивы социально-экономической информации, делать их компактными и наглядными.

Кластерный анализ представляет собой класс методов, используемых для классификации объектов или событий в относительно однородные группы, которые называются кластерами. Объекты в каждом кластере должны быть похожи между собой и отличаться от других объектов в других кластерах. Его также называют классификационным. В случае если кластерный анализ использовать именно таким образом, то он становится частью факторного анализа, так как уменьшают число объектов, а не число переменных, сгруппировывая их в меньшее число кластеров.

Цель кластеризации - группирование схожих объектов, в связи с этим для того, чтобы оценить, насколько они похожи или не похожи, крайне важно использовать некую измерительную единицу. Наиболее распространенный метод состоит, по сути, в том, что в качестве такой меры используют расстояние между объектами. Объекты с меньшими расстояниями между собой более похожи, чем объекты с большими расстояниями.

Существует несколько способов вычисления расстояния между объектами. Наиболее часто используют меру сходства - Евклидово расстояние или его квадрат.

Евклидово расстояние - квадратный корень из суммы квадратов разностей в значениях для каждой переменной.

Процесс кластеризации начинается с вычисления матрицы различий между группами объектов - матрицы Евклидовых расстояний, элементы которой вычисляется, исходя из матрицы Х.

Этапы выполнения кластерного анализа:

1. формулировка проблемы

2. выбор меры расстояния

3. выбор метода кластеризации

4. принятие решения о количестве кластеров

5. интерпретация и профилирование кластеров

6. оценка достоверности кластеризации

Самая важная часть формулирования проблемы кластеризации - это выбор переменных, на основе которых проводят кластеризацию.

Кластерный анализ применяется для решения широкого спектра задач. В отличие от большинства других методов многомерного анализа, кластерный анализ параллельно развивался в 52 нескольких дисциплинах (психология, биология, экономика и др.), поэтому у большинства методов существует по 2 и более названий, что существенно затрудняет взаимопонимание исследователей, в особенности, если речь идет о разных отраслях знания.

Другая проблема связана с обилием вариантов при выборе метрики и метода кластеризации, а также согласования между ними.

Выделяют две группы методов кластерного анализа: иерархические и неиерархические.

Иерархические методы могут быть агломеративными и дивизивными. Агломеративная кластеризация начинается с каждого объекта в отдельном кластере. Кластеры объединяют, группируя объекты каждый раз во все более и более крупные кластеры. Этот процесс продолжают до тех пор, пока все объекты не станут членами одного единственного кластера. Разделяющая, или дивизивная, кластеризация начинается со всех объектов, сгруппированных в единственном кластере. Кластеры делят до тех пор, пока каждый объект не окажется в отдельном кластере.

Основными методами иерархического кластерного анализа являются метод ближнего соседа, метод полной связи, метод средней связи и метод Варда. Существуют также центроидные методы и методы, использующие медиану, но их применение может привести к некоторым весьма нежелательным последствиям.

Методы связи - агломеративные методы иерархической кластеризации, которые объединяют объекты в кластер, исходя из вычисленного расстояния между ними. В основе полного метода лежит максимальное расстояние между объектами, или правило дальнего соседа. В этом методе расстояние между двумя кластерами вычисляют как расстояние между двумя их самыми удаленными точками.

В методе средней связи расстояние между двумя кластерами определяют как среднее значение всех расстояний, измеренных между объектами двух кластеров, при этом в каждую пару входят объекты из разных кластеров. Метод средней связи использует информацию обо всех расстояния между парами, а не только минимальное или максимальное расстояние. По этой причин обычно предпочитают использовать именно этот метод.

В центроидных методах расстояние между двумя кластерами представляет собой расстояние между их центроидами. Центроидный метод - дисперсионный метод иерархической кластеризации.

Каждый раз объекты группируют и вычисляют новый центроид. Изо всех иерархических методов методы средней связи и Варда показывают наилучшие результаты по сравнению с другими методами.

Неиерархических методов больше, хотя работают они на одних и тех же принципах. По сути, они представляют собой итеративные методы дробления исходной совокупности. В процессе деления формируются новые кластеры, и так до тех пор, пока не будет выполнено правило остановки. Между собой методы различаются выбором начальной точки, правилом формирования новых кластеров и правилом остановки. Чаще всего используется алгоритм К - средних. Он подразумевает, что аналитик заранее фиксирует количество кластеров в результирующем разбиении.

Метод К - средних - метод, который вначале определяет центр кластера, а затем группирует все объекты в пределах заданного от центра порогового значения. Эти методы включают последовательный пороговый метод, параллельный пороговый метод и оптимизирующее распределение.

Однако, во многих задачах даже после того, как правило, остановки рекомендовало нам прекратить дальнейшие вычисления, нет оснований считать, что полученное решение является адекватным. Результаты процедуры кластерного анализа обязательно требуют проверки с помощью формальных и неформальных тестов. Говоря о формальных статистиках, следует рекомендовать рассчитать значение статистики «С». Неформальная проверка результатов кластерного анализа включает в себя такие процедуры, как анализ результатов, полученных на подвыборках, кросс-проверка на «внешних» данных, вменение порядка наблюдений, удаление небольшого количества наблюдений и повторение кластерного анализа на коротких выборках и т.д.

Список литературы

кластерный многомерный евклидовый расстояние

1. Аблеева, А.М. Формирование фонда оценочных средств в условиях ФГОС [Текст] / А.М. Аблеева, Г.А. Салимова // Актуальные проблемы преподавания социально-гуманитарных, естественно - научных и технических дисциплин в условиях модернизации высшей школы: материалы международной научно-методической конференции, 4-5 апреля 2014 г. / Башкирский ГАУ, Факультет информационных технологий и управления. - Уфа, 2014. - С. 11-14.

2. Ганиева, А.М. Статистический анализ занятости и безработицы [Текст] / А.М. Ганиева, Т.Н. Лубова // Актуальные вопросы экономико-статистического исследования и информационных технологий: сб. науч. ст.: посвящается к 40-летию создания кафедры «Статистики и информационных систем в экономике» / Башкирский ГАУ. - Уфа, 2011. - С. 315-316.

3. Гатауллина Л.Р., Сафиуллин А.Р. Кластерный анализ при разработке промышленного профиля территории // Экономика и предпринимательство. - 2013. - №8.

4. Исмагилов, Р.Р. Творческая группа - эффективная форма организации научных исследований в высшей школе [Текст] / Р.Р. Исмагилов, М.Х. Уразлин, Д.Р. Исламгулов // Научно-технический и научно-образовательный комплексы региона: проблемы и перспективы развития: материалы научно-практической конференции / Академия наук РБ, УГАТУ. - Уфа, 1999. - С. 105-106.

5. Исламгулов, Д.Р. Компетентностный подход в обучении: оценка качества образования [Текст] / Д.Р. Исламгулов, Т.Н. Лубова, И.Р. Исламгулова // Современный научный вестник. - 2015. - Т. 7. - №1. - С. 62-69.

6. Исламгулов, Д.Р. Научно-исследовательская работа студентов - важнейший элемент подготовки специалистов в аграрном вузе [Текст] / Д.Р. Исламгулов // Проблемы практической подготовки студентов в вузе на современном этапе и пути их решения: сб. материалов науч.-метод. конф., 24 апреля 2007 года / Башкирский ГАУ. - Уфа, 2007. - С. 20-22.

7. Лубова, Т.Н. Основа реализации федерального государственного образовательного стандарта - компетентностный подход [Текст] / Т.Н. Лубова, Д.Р. Исламгулов, И.Р. Исламгулова // БЪДЕЩИТЕ ИЗСЛЕДОВАНИЯ - 2016: Материали за XII Международна научна практична конференция, 15-22 февруари 2016. - София: Бял ГРАД-БГ ООД, 2016. - Том 4 Педагогически науки. - C. 80-85.

8. Лубова, Т.Н. Новые образовательные стандарты: особенности реализации [Текст] / Т.Н. Лубова, Д.Р. Исламгулов // Современный научный вестник. - 2015. - Т. 7. - №1. - С. 79-84.

9. Лубова, Т.Н. Организация самостоятельной работы обучающихся [Текст] / Т.Н. Лубова, Д.Р. Исламгулов // Реализация образовательных программ высшего образования в рамках ФГОС ВО: материалы Всероссийской научно-методической конференции в рамках выездного совещания НМС по природообустройству и водопользованию Федерального УМО в системе ВО. / Башкирский ГАУ. - Уфа, 2016. - С. 214-219.

10. Лубова, Т.Н. Основа реализации федерального государственного образовательного стандарта - компетентностный подход [Текст] / Т.Н. Лубова, Д.Р. Исламгулов, И.Р. Исламгулова // Современный научный вестник. - 2015. - Т. 7. - №1. - С. 85-93.

11. Орехов Н.А. Математические методы и модели в экономике / Н.А. Орехов, А.Г. Левин, Е.А. Горбунов. - М.: ЮНИТИ-ДАНА, 2904. - 302 с.

12. Саубанова, Л.М. Уровень демографической нагрузки [Текст] / Л.М. Саубанова, Т.Н. Лубова // Актуальные вопросы экономико-статистического исследования и информационных технологий: сб. науч. ст.: посвящается к 40-летию создания кафедры «Статистики и информационных систем в экономике» / Башкирский ГАУ. - Уфа, 2011. - С. 321-322.

13. Суслов С.А. Кластерный анализ: сущность, преимущества и недостатки // Вестник НГИЭИ. - 2010. - №1.

14. Фахруллина, А.Р. Статистический анализ инфляции в России [Текст] / А.Р. Фахруллина, Т.Н. Лубова // Актуальные вопросы экономико-статистического исследования и информационных технологий: сб. науч. ст.: посвящается к 40-летию создания кафедры «Статистики и информационных систем в экономике» / Башкирский ГАУ. - Уфа, 2011. - С. 323-324.

15. Фархутдинова, А.Т. Рынок труда в Республике Башкортостан в 2012 году [Электронный ресурс] / А.Т. Фархутдинова, Т.Н. Лубова // Студенческий научный форум. Материалы V Международной студенческой электронной научной конференции: электронная научная конференция (электронный сборник). Российская академия естествознания. 2013.

Размещено на Allbest.ru

...

Подобные документы

  • Классификация методов кластеризации и их характеристика. Метод горной кластеризации в Matlab. Возможная область применения кластеризации в различных предметных областях. Математическое описание метода. Пример использования метода на реальных данных.

    реферат [187,0 K], добавлен 28.10.2010

  • Подходы к оценке кредитного риска: недостатки методик Базеля II. Модели оценки: качество и прозрачность методик, структура данных. Скоринговые методики, кластерный и дискриминантный анализ, нейронные сети и дерево классификаций, data mining и регрессии.

    курсовая работа [3,3 M], добавлен 21.08.2008

  • Рассмотрение понятия и сущности математического моделирования. Сбор данных результатов единого государственного экзамена учеников МБОУ "Лицей №13" по трем предметам за 11 лет. Прогнозирование результатов экзамена на 2012, 2013, 2014 учебные годы.

    курсовая работа [392,4 K], добавлен 19.10.2014

  • Формирование линеаризованного узлового уравнения разработка и транспонированной матрицы, сопротивлений ветвей и узловых проводимостей. Методика и этапы решения системы линеаризованных узловых уравнений методом Зейделя, анализ полученных результатов.

    задача [144,6 K], добавлен 10.08.2013

  • Построение приближающей функции, используя исходные данные, с помощью методов Лагранжа, Ньютона и Эйткена (простая и упрощенная форма реализации). Алгоритм вычисления интерполяционного многочлена. Сравнение результатов реализации методов в среде Mathcad.

    курсовая работа [299,3 K], добавлен 30.04.2011

  • Методика расчета скалярного произведения заданных векторов. Расчет определителей и рангов матриц, нахождение обратных матриц. Разрешение уравнений по методу Крамера, обратной матрицы, а также встроенной функции lsolve. Анализ полученных результатов.

    лабораторная работа [86,8 K], добавлен 13.10.2014

  • Понятие и отличительные особенности численных методов решения, условия и возможности их применения. Оптимизация функции одной переменной, используемые методы и закономерности их комбинации, сравнение эффективности. Сущность и разновидности интерполяции.

    реферат [273,3 K], добавлен 29.06.2015

  • Описание подходов к построению динамической модели технологического процесса, этапы и направления данного процесса, ее конкретное представление. Аппроксимация заданных уравнений и оценка полученных результатов, решение и математическое значение.

    контрольная работа [92,9 K], добавлен 11.03.2015

  • Случайный процесс в теории вероятностей. Математическое ожидание и дисперсия. Многомерные законы распределения. Вероятностные характеристики "входной" и "выходной" функций. Сечение случайной функции. Совокупность случайных величин, зависящих от параметра.

    курсовая работа [1,8 M], добавлен 23.12.2012

  • Математическое ожидание случайной величины как ее характеристическая функция, определение ее свойств и признаков, расчет производных. Теоремы Хелли, особенности и направления их практического применения, условия и возможности расчета заданных функций.

    курсовая работа [856,7 K], добавлен 30.01.2014

  • Оценка надежности аналитической методики. Дисперсионный анализ результатов опытов и аппроксимация результатов эксперимента. Расчет линейного уравнения связи. Определение полного квадратного уравнения. Вычисление типа и объема химического реактора.

    курсовая работа [229,2 K], добавлен 06.01.2015

  • Сущность и графическое представление методов решения нелинейных уравнений вида F(x)=0. Особенности метода хорд, бисекции, простой итерации, касательных и секущих. Проверка результатов с помощью встроенных функций и оценка точности полученных значений.

    контрольная работа [316,1 K], добавлен 09.11.2010

  • Использование численных методов, позволяющих найти приближенное значение определенного интеграла с заданной точностью. Анализ формул трапеции и параболы (Симпсона). Основной принцип построения формул приближенного вычисления определенного интеграла.

    презентация [96,6 K], добавлен 18.09.2013

  • Методы решения систем линейных алгебраических уравнений, их характеристика и отличительные черты, особенности и сферы применения. Структура метода ортогонализации и метода сопряженных градиентов, их разновидности и условия, этапы практической реализации.

    курсовая работа [197,8 K], добавлен 01.10.2009

  • Ознакомление с механизмом проверки гипотезы для случая единственной выборки, двух и нескольких независимых выборок. Проверка совпадений карт, выбор фильмов разных жанров. Обоснование результатов, полученных после проверки статистических гипотез.

    курсовая работа [726,2 K], добавлен 26.02.2015

  • Генеральная совокупность подлежащих изучению объектов или возможных результатов наблюдений, производимых в одинаковых условиях над одним объектом. Описание наблюдаемых значений случайной величины Х. Характеристика статистической функции распределения.

    курсовая работа [216,5 K], добавлен 03.05.2011

  • Создание программы на языке матрично-ориентированной системы Mat LAB. Особенности математической интерпретации метода. Оценка влияния величины шага интегрирования и начальных значений на качество и точность вычислений. Анализ полученных результатов.

    курсовая работа [459,0 K], добавлен 27.04.2011

  • Свойства примитивных конечных разрешимых произведений N-разложимых групп. Условия факторизуемости проекторов конечных разрешимых произведений N-разложимых групп для случая. Порядок определения приложений полученных результатов для классических формаций.

    дипломная работа [239,8 K], добавлен 14.12.2009

  • Основные этапы обработки данных натуральных наблюдений методом математической статистики. Оценка полученных результатов, их использование при принятии управленческих решений в области охраны природы и природопользования. Проверка статистических гипотез.

    практическая работа [132,1 K], добавлен 24.05.2013

  • Этапы статической обработки результатов экспериментальных исследований. Расчет числа приложения нагрузок от воздушных судов на отдельном участке аэродромного покрытия. Определение статического коэффициента условий работы жестких аэродромных покрытий.

    курсовая работа [329,2 K], добавлен 19.03.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.