Кластерный анализ

Определение понятия кластерного анализа – одного из новейших математико-статистических методов. Исследование математического аппарата кластерного анализа. Ознакомление с Евклидовым расстоянием. Рассмотрение простого алгоритмов кластерного анализа.

Рубрика Экономико-математическое моделирование
Вид практическая работа
Язык русский
Дата добавления 09.10.2014
Размер файла 33,6 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Министерство образования и науки, молодежи и спорта Украины

Харьковский национальный университет имени В.Н. Каразина

Геолого-географический факультет

Кафедра гидрогеологии

Практическая работа

по математической статистике и обработке геологической информации

по теме: «Кластерный анализ»

Выполнила студентка группы ГЗ-21

Шевченко А.

Проверила старший преподаватель

Жемерова В.А.

2013

Понятие о кластерном анализе.

Кластерный анализ - один из новейших математико-статистических методов, получивших распространение благодаря развитию компьютерных технологий и формализованных программ расчетов. Его цель -- классификация, другими словами - типологическая группировка совокупностей массовых явлений на основе множества признаков.

Методы кластерного анализа можно применять в различных ситуациях, которые встречаются как в научных, так и прикладных исследованиях. Например:

классификация как необходимый предварительный этап статистической обработки многомерных данных;

классификация в задачах оптимального регулирования и планирования,

классификация в задачах прогнозирования экономико-социальных ситуаций или отдельных показателей.

Само название метода происходит от того же корня, что и слово «класс», «классификация». Английское слово «the cluster» имеет значения: группа, пучок, куст, то есть объединение каких-то однородных явлений.

Все задачи кластерного анализа можно подразделить на два типа в зависимости от объема совокупности классифицируемых наблюдений:

к первому типу относятся задачи классификации сравнительно небольших по объему совокупности наблюдений, состоящих не более чем из нескольких десятков наблюдений (например, классификация стран, городов, предприятий, типов технологических процессов);

ко второму типу относятся задачи классификации достаточно больших массивов многомерных наблюдений (например, классификация семей, промышленных изделий).

С точки зрения информации об окончательном числе классов, на которое требуется разбить исследуемую совокупность объектов, задачи кластерного анализа можно подразделить на три типа:

число кластеров заранее задано;

число кластеров неизвестно и подлежит определению;

число кластеров неизвестно, но его определение и не входит в условие задачи, требуется построить так называемое иерархическое дерево исследуемой совокупности.

В соответствии с разделением задач кластерного анализа можно выделить три основных типа процедур кластерного анализа:

а) процедуры иерархические, предназначены в основном для решения задач типа 3; кластерный евклид математический статистический

б) процедуры параллельные, реализуемые с помощью алгоритмов, на каждом шаге которых одновременно используются все имеющиеся наблюдения;

в) процедуры последовательные, реализуемые с помощью алгоритмов, на каждом шаге которых используется лишь небольшая часть наблюдений, а также результат разбиения на предыдущем шаге.

Математический аппарат кластерного анализа.

Каждая единица совокупности в кластерном анализе считается «точкой в признаковом пространстве». Значение каждого из признаков у данной единицы совокупности служит ее координатой в этом «пространстве» по аналогии с координатами точки в нашем реальном трехмерном пространстве. Таким образом, «признаковое пространство» - это область варьирования всех признаков совокупности изучаемых явлений. Если мы уподобим это пространство нашему пространству, имеющему Евклидову метрику, то получим возможность измерять «расстояния» между точками признакового пространства. Эти расстояния называют «Евклидовыми». Их вычисляют по тем же правилам, как и в обычной Евклидовой геометрии. На плоскости (то есть в «двухмерном пространстве») расстояние между точками А и В равно, как показано на рисунке, корню квадратному из суммы квадратов разностей параметров рассматриваемых точек по осям координат - на основании знаменитой теоремы Пифагора.

Размещено на http://www.allbest.ru/

Рис. 1 Евклидово расстояние

В многомерном признаковом пространстве расстояние между точками р и q с «К» координатами (то есть индивидуальными значениями К признаков) определяется как:

Размещено на http://www.allbest.ru/

(1)

Совершенно очевидно, что нельзя суммировать квадраты отклонений одной и точки от другой в абсолютных значениях разнокачественных признаков. Необходимо сначала выразить различия между единицами совокупности по каждому признаку в каком-то относительном безразмерном показателе. В качестве такого показателя часто применяют «нормированную разность», то есть величину:

Размещено на http://www.allbest.ru/

(2)

Иначе говоря, нормированная разность есть отношение абсолютной разности значений j - того признака у единиц совокупности с номерами p и q к среднему квадратическому отклонению этого признака. Знаки нормированных разностей не имеют значения, так как «расстояния» в признаковом пространстве - скалярная, а не векторная величина.

С учетом сказанного о необходимости нормировать разности значений разнокачественных признаков, расстояние между любыми единицами совокупности, то есть точками в признаковом пространстве, выраженное формулой (1), следует переписать как:

Размещено на http://www.allbest.ru/

(3)

Существует много достаточно сложных по алгоритму методик кластерного анализа и родственных ему, но иначе называющихся методов: «Распознавание образов», «Многомерная автоматизированная группировка и классификация». Однако можно привести один из простейших алгоритмов кластерного анализа. Этапы методики (алгоритм):

Вычисление средних величин каждого из группировочных признаков xj по совокупности.

Вычисление средних квадратических отклонений каждого из группировочных признаков уxj по совокупности.

Вычисление матриц нормированных разностей по каждому из группировочных признаков.

Вычисление Евклидовых расстояний между каждой парой сочетаний единиц совокупности по формуле (3).

Выбор наименьшего из Евклидовых расстояний.

Объединение единиц совокупности с наименьшим Евклидовым расстоянием между ними в один кластер.

Вычисление новых, усредненных значений всех группировочных признаков для объединенного кластера.

Вычисление новых нормированных разностей признаков между объединенным кластером и остальными единицами, и включение этих различий в матрицы вместо значений объединившихся единиц совокупности.

Вычисление новых Евклидовых расстояний объединенного кластера от остальных единиц или кластеров.

Выбор наименьшего из Евклидовых расстояний.

11-16 - повторение операций 6-10 и так далее.

Объединение в кластеры прекращается, когда все Евклидовы расстояния между оставшимися кластерами, превысят заданную критическую величину rmax. Завершение объединения в кластеры может быть осуществлено не при достижении r max, а при достижении заданного числа кластеров (типов). Так поступают, если число таких типических кластеров известно заранее или предполагается некоторой гипотезой.

В нормально распределенной совокупности нормированная разность в среднем равна единице. В такой совокупности средняя величина Евклидова расстояния должна быть, поэтому, равна корню квадратному из числа группировочных признаков К. В таком случае, в качестве предельной величины расстояния для продолжения объединения кластеров, можно принять эту величину среднего расстояния.

На семинарском занятии: метод последовательной кластеризации, основанный на евклидовой метрике, причем число кластеров будет заранее неизвестно и подлежит определению.

Список литературы

Айвазян С.А., Бежаева З.И., Староверов О.В. Классификация многомерных наблюдений. -- М.: Изд-во «Статистика», 1974. -- 238с.

Елисеева И.И., Юзбашев М.М. Общая теория статистики. -- М., 1995

Кириченко Н., Ивантер А. Крупнейшие банки России: итоги кризиса // Эксперт, 1996, № 38 (57), с. 26-47

Мандель И. Д. Кластерный анализ. -- М.: Финансы и статистика, 1988.

М.М. Юзбашев, Н. Н. Соколова. Основы кластерного анализа. Лекция / Приморский с. х. Институт. -- Уссурийск, 1990. -23 с.

Котлер Ф. Основы маркетинга

Дьякова Е.Б. Формирование и оценка налогового потенциала региона (на примере Волгоградской области): Автореф. дис. канд. экон. наук. -- Волгоград., 2002. 25 с.

Размещено на Allbest.ru

...

Подобные документы

  • Цели сегментации рынка в маркетинговой деятельности. Сущность кластерного анализа, основные этапы его выполнения. Выбор способа измерения расстояния или меры сходства. Иерархические, неиерархические методы кластеризации. Оценка надежности и достоверности.

    доклад [214,7 K], добавлен 02.11.2009

  • Выполнение кластерного анализа предприятий с помощью программы Statgraphics Plus. Построение линейного уравнения регрессии. Расчет коэффициентов эластичности по регрессионным моделям. Оценка статистической значимости уравнения и коэффициента детерминации.

    задача [1,7 M], добавлен 16.03.2014

  • Построение типологических регрессий по отдельным группам наблюдений. Пространственные данные и временная информация. Сферы применения кластерного анализа. Понятие однородности объектов, свойства матрицы расстояний. Проведение типологической регрессии.

    презентация [322,6 K], добавлен 26.10.2013

  • Характеристика строительной отрасли Краснодарского края. Прогноз развития жилищного строительства. Современные методы и инструментальные средства кластерного анализа. Многомерные статистические методы диагностики экономического состояния предприятия.

    дипломная работа [2,4 M], добавлен 20.07.2015

  • Завдання та етапи кластерного аналізу, вимоги до інформації. Приклад класифікації економічних об'єктів за допомогою алгоритму кластерного аналізу, методи перевірки стійкості кластеризації, інтерпретація результатів аналізу та побудування дендрограми.

    реферат [311,2 K], добавлен 15.07.2011

  • Основные показатели финансового состояния предприятия. Кризис на предприятии, его причины, виды и последствия. Современные методы и инструментальные средства кластерного анализа, особенности их использования для финансово-экономической оценки предприятия.

    дипломная работа [1,4 M], добавлен 09.10.2013

  • Элементы математического анализа: производная, определенный интеграл и ряды. Арифметические операции и функции комплексной переменной. Основные понятия и определения теории вероятности, статистики и комбинаторики. Законы распределения вероятностей.

    методичка [2,9 M], добавлен 05.07.2010

  • Основная терминология, понятие и методы факторного анализа. Основные этапы проведения факторного анализа и методика Чеботарева. Практическая значимость факторного анализа для управления предприятием. Метода Лагранжа в решении задач факторного анализа.

    контрольная работа [72,9 K], добавлен 26.11.2008

  • Обоснование решений в конфликтных ситуациях. Теория игр и статистических решений. Оценка эффективности проекта по критерию ожидаемой среднегодовой прибыли. Определение результирующего ранжирования критериев оценки вариантов приобретения автомобиля.

    контрольная работа [99,9 K], добавлен 21.03.2014

  • Зміст і мета кластеризації. Переваги її застосування перед іншими методами класифікації даних. Ієрархічні і неієрархічні методи кластерного аналізу. Приклад вертикальної дендрограми. Алгоритми найближчого і дальнього сусіда. Схема ітеративного методу.

    контрольная работа [2,4 M], добавлен 12.06.2019

  • Основные задачи оценки экономических явлений и процессов. Проведение детерминированного факторного анализа и приемы математического моделирования факторной системы. Суть метода последовательного элиминирования факторов. Оперативный контроль затрат.

    шпаргалка [1,1 M], добавлен 08.12.2010

  • Моделирование. Детерминизм. Задачи детерминированного факторного анализа. Способы измерения влияния факторов в детерминированном анализе. Расчёт детерминированных экономико-математических моделей и методов факторного анализа на примере РУП "ГЗЛиН".

    курсовая работа [246,7 K], добавлен 12.05.2008

  • Дисперсионный анализ - исследование причин отклонений фактических затрат от нормативных. Схемы организации исходных данных с двумя и более факторами. Формулы расчета межгрупповой и внутригрупповой дисперсии. Задачи двухфакторного дисперсионного анализа.

    курсовая работа [1,0 M], добавлен 16.01.2013

  • Характеристика простых и сложных систем, их основные признаки. Общие принципы и этапы экономико-математического моделирования. Назначение рабочего этапа системного анализа - выявление ресурсов и процессов, композиция целей, формулирование проблемы.

    контрольная работа [47,7 K], добавлен 11.10.2012

  • Теоретические основы прикладного регрессионного анализа. Проверка предпосылок и предположений регрессионного анализа. Обнаружение выбросов в выборке. Рекомендации по устранению мультиколлинеарности. Пример практического применения регрессионного анализа.

    курсовая работа [1,2 M], добавлен 04.02.2011

  • Области применения системного анализа, его место, роль, цели и функции в современной науке. Понятие и содержание методик системного анализа, его неформальные методы. Особенности эвристических и экспертных методов исследования и особенности их применения.

    курсовая работа [78,8 K], добавлен 20.05.2013

  • Стратегічний розвиток підприємства в умовах ринкової економіки. Загальна фінансово-економічна характеристика ДП "ХЕМЗ". Моделі прогнозування фінансових і виробничих процесів на підприємстві. Оцінка організації методом кластерного аналізу. Охорона праці.

    дипломная работа [673,6 K], добавлен 09.11.2013

  • Практика применения эконометрических методов выходит за границы классической математико-статистической теории. Схема последовательного анализа А. Вальда или схема оценивания степени полинома в регрессии путем последовательной проверки адекватности модели.

    реферат [64,9 K], добавлен 08.01.2009

  • Упорядкування одиниць сукупності за допомогою інтегральних оцінок. Багатовимірне ранжування у системі Statistica. Формування однорідних одиниць сукупності за допомогою кластерного аналізу. Порядок об’єднання в кластери через опцію Amalgamation schedule.

    контрольная работа [1,8 M], добавлен 08.12.2010

  • Методология анализа сложных объектов, изучения и познания процессов. Основные принципы системного подхода к анализу проблем и основные понятия о системах. Декомпозиция, анализ подпроблем и их решение, выявление альтернатив и выбор оптимальных решений.

    контрольная работа [47,5 K], добавлен 04.08.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.