Основные задачи и этапы кластерного анализа

Кластерный анализ как многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и упорядочивающая их в однородные группы. Однородность и полнота - требования, предъявляемые к данным кластерного анализа.

Рубрика Экономико-математическое моделирование
Вид статья
Язык русский
Дата добавления 25.07.2018
Размер файла 37,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru

Размещено на http://www.allbest.ru

Кластерный анализ - многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы.

Термин кластерный анализ (впервые ввел Tryon, 1939) в действительности включает в себя набор различных алгоритмов классификации. Общий вопрос, задаваемый исследователями во многих областях, состоит в том, как организовать наблюдаемые данные в наглядные структуры, т.е. развернуть таксономии. Например, биологи ставят цель разбить животных на различные виды, чтобы содержательно описать различия между ними. В соответствии с современной системой, принятой в биологии, человек принадлежит к приматам, млекопитающим, амниотам, позвоночным и животным. Заметьте, что в этой классификации, чем выше уровень агрегации, тем меньше сходства между членами в соответствующем классе. Человек имеет больше сходства с другими приматами (т.е. с обезьянами), чем с "отдаленными" членами семейства млекопитающих (например, собаками) и т.д.

Кластерный анализ выполняет следующие основные задачи:

· Разработка типологии или классификации.

· Исследование полезных концептуальных схем группирования объектов.

· Порождение гипотез на основе исследования данных.

· Проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.

Независимо от предмета изучения применение кластерного анализа предполагает следующие этапы:

· Отбор выборки для кластеризации. Подразумевается, что имеет смысл кластеризовать только количественные данные.

· Определение множества переменных, по которым будут оцениваться объекты в выборке, то есть признакового пространства.

· Вычисление значений той или иной меры сходства (или различия) между объектами.

· Применение метода кластерного анализа для создания групп сходных объектов.

· Проверка достоверности результатов кластерного решения.

Можно встретить описание двух фундаментальных требований предъявляемых к данным - однородность и полнота. Однородность требует, чтобы все кластеризуемые сущности были одной природы, описывались сходным набором характеристик. Если кластерному анализу предшествует факторный анализ, то выборка не нуждается в «ремонте» - изложенные требования выполняются автоматически самой процедурой факторного моделирования (есть ещё одно достоинство - z-стандартизация без негативных последствий для выборки; если её проводить непосредственно для кластерного анализа, она может повлечь за собой уменьшение чёткости разделения групп). В противном случае выборку нужно корректировать

Техника кластеризации применяется в самых разнообразных областях. Хартиган (Hartigan, 1975) дал прекрасный обзор многих опубликованных исследований, содержащих результаты, полученные методами кластерного анализа. Например, в области медицины кластеризация заболеваний, лечения заболеваний или симптомов заболеваний приводит к широко используемым таксономиям. В области психиатрии правильная диагностика кластеров симптомов, таких как паранойя, шизофрения и т.д., является решающей для успешной терапии. В археологии с помощью кластерного анализа исследователи пытаются установить таксономии каменных орудий, похоронных объектов и т.д. Известны широкие применения кластерного анализа в маркетинговых исследованиях. В общем, всякий раз, когда необходимо классифицировать "горы" информации к пригодным для дальнейшей обработки группам, кластерный анализ оказывается весьма полезным и эффективным

На первом шаге, когда каждый объект представляет собой отдельный кластер, расстояния между этими объектами определяются выбранной мерой. Однако когда связываются вместе несколько объектов, возникает вопрос, как следует определить расстояния между кластерами? Другими словами, необходимо правило объединения или связи для двух кластеров. Здесь имеются различные возможности: например, вы можете связать два кластера вместе, когда любые два объекта в двух кластерах ближе друг к другу, чем соответствующее расстояние связи. Другими словами, вы используете "правило ближайшего соседа" для определения расстояния между кластерами; этот метод называется методом одиночной связи. Это правило строит "волокнистые" кластеры, т.е. кластеры, "сцепленные вместе" только отдельными элементами, случайно оказавшимися ближе остальных друг к другу. Как альтернативу вы можете использовать соседей в кластерах, которые находятся дальше всех остальных пар объектов друг от друга. Этот метод называется метод полной связи. Существует также множество других методов объединения кластеров, подобных тем, что были рассмотрены.

Существует около 100 разных алгоритмов кластеризации, однако, наиболее часто используемые - иерархический кластерный анализ и кластеризация методом k-средних.

Поясним суть кластерного анализа, не прибегая к строгой терминологии: допустим, Вы провели анкетирование сотрудников и хотите определить, каким образом можно наиболее эффективно управлять персоналом. То есть Вы хотите разделить сотрудников на группы и для каждой из них выделить наиболее эффективные рычаги управления. При этом различия между группами должны быть очевидными, а внутри группы респонденты должны быть максимально похожи.

Для решения задачи предлагается использовать иерархический кластерный анализ. В результате мы получим дерево, глядя на которое мы должны определиться на сколько классов (кластеров) мы хотим разбить персонал. Предположим, что мы решили разбить персонал на три группы, тогда для изучения респондентов, попавших в каждый кластер получим табличку примерно следующего содержания.

кластерный статистический выборка

Табл. 1

Поясним, как сформирована приведенная выше таблица:

В первом столбце расположен номер кластера - группы, данные по которой отражены в строке. Например, первый кластер на 80% составляют мужчины. 90% первого кластера попадают в возрастную категорию от 30 до 50 лет, а 12% респондентов считает, что льготы очень важны. И так далее.

Попытаемся составить портреты респондентов каждого кластера.

Первая группа - в основном мужчины зрелого возраста, занимающие руководящие позиции. Соцпакет их не интересует. Они предпочитают получать хорошую зарплату, а не помощь от работодателя.

Группа два наоборот отдает предпочтение соцпакету. Состоит она, в основном, из людей "в возрасте", занимающих невысокие посты. Зарплата для них безусловно важна, но есть и другие приоритеты.

Третья группа наиболее "молодая". В отличие от предыдущих двух, очевиден интерес к возможностям обучения и профессионального роста. У этой категории сотрудников есть хороший шанс в скором времени пополнить первую группу.

Таким образом, планируя кампанию по внедрению эффективных методов управления персоналом, очевидно, что в нашей ситуации можно увеличить соцпакет у второй группы в ущерб, к примеру, зарплате. Если говорить о том, каких специалистов следует направлять на обучение, то можно однозначно рекомендовать обратить внимание на третью группу.

Таким образом, спектр применений кластерного анализа очень широк: его используют в археологии, медицине, психологии, химии, биологии, государственном управлении, филологии, антропологии, маркетинге, социологии и других дисциплинах. Однако универсальность применения привела к появлению большого количества несовместимых терминов, методов и подходов, затрудняющих однозначное использование и непротиворечивую интерпретацию кластерного анализа.

Список литературы

1. Лубова, Т.Н. Многомерные статистические методы: учебное пособие / Т.Н. Лубова ; М-во сел. хоз-ва РФ, Башкирский ГАУ. - Уфа: Изд-во БГАУ, 2015. - 64 с.

2. Лубова, Т.Н. Теория вероятностей и математическая статистика: учебное пособие / Т.Н. Лубова ; М-во сел. хоз-ва РФ, Башкирский ГАУ. - Уфа: Изд-во БашГАУ, 2015. - 163 с.

3. Исламгулов, Д.Р. Применение корреляционного анализа в агрономии / Д.Р. Исламгулов, Т.Н. Лубова // Уральский научный вестник. - 2016. - Т. 4. - № 3. - С. 142-147.

4. Лубова, Т.Н. Принципы статистического прогнозирования при разработке инновационной стратегии региона / Т.Н. Лубова // Экономика, экология и общество России в 21-м столетии: Сборник научных трудов: 11-й Международной научно-практической конференции, 19-21 мая 2009 г. / Санкт-Петербургский государственный политехнический университет. - С.-Петербург, 2009. - С. 155-156.

5. Лубова, Т.Н. Многомерная классификация регионов Приволжского федерального округа по уровню финансовой безопасности / Т.Н. Лубова // Конкурентоспособность региона в условиях экологических и демографических ограничений: Материалы межрегиональной научно-практической конференции. - Улан-Уде: Изд-во БНЦ СО РАН, 2009. - с. 149-159.

6. Лубова, Т.Н. Классификация регионов Российской Федерации методом кластерного анализа / Т.Н. Лубова // Образование, наука, практика: инновационный аспект: Сб. материалов международной научно-практической конференции, посвященной памяти профессора А.Ф. Блинохватова. - Пенза: РИО ПГСХА, 2008. - С.379-381.

7. Лубова, Т.Н. Межрегиональный рейтинговый анализ инновационной активности регионов Приволжского федерального округа / Т.Н. Лубова // Актуальные проблемы гуманитарных и естественных наук. - 2009. - № 7-1. - С. 107-111.

8. Лубова, Т.Н. Межрегиональный сравнительный анализ показателей финансовой безопасности Приволжского федерального округа / Т.Н. Лубова // Молодой ученый. - 2009. - № 5. - С. 53-60.

9. Лубова, Т.Н. Проблемы реализации инновационной политики / Т.Н. Лубова // Проблемы и перспективы социально-экономической политики и рынка труда России II Всероссийская научно-практическая конференция, декабрь 2007 г.: сборник статей под. ред. А.Н. Ананьева. Пенза, 2007, с. 52-54.

10. Лубова, Т.Н. Межрегиональный рейтинговый анализ инновационной активности регионов Приволжского федерального округа / Т.Н. Лубова // Новые направления в решении проблем АПК на основе современных ресурсосберегающих, инновационных технологий. Материалы Международной научно-практической конференции, посвященной 65-летию Победы в Великой Отечественной войне, Волгоград 26-28 января 2010г. Том 2. - Волгоград: ИПК «Нива», 2010. - с. 213-216.

11. Лубова, Т.Н. Особенности анализа инновационной активности вузов региона / Т.Н. Лубова // Наука и образование в развитии промышленной, социальной и экономической сфер регионов России: II Всероссийские научные Зворыкинские чтения. Сб. тез. докладов II Всероссийской межвузовской научной конференции (Муром, 5.02.2010г.). - Муром: изд. Полиграфический центр МИ ВлГУ, 2010. - c. 61-63.

12. Исламгулов, Д.Р. Особенности новых образовательных стандартов / Д.Р. Исламгулов, Т. Н. Лубова // Современное вузовское образование: теория, методология, практика: материалы Междунар. учеб.-метод. конф., 21-22 марта 2013 г. / Башкирский ГАУ. - Уфа, 2013. - С. 14-15.

13. Лубова, Т.Н. Особенности, задачи и проблемы внедрения модульно-рейтинговой системы / Т.Н. Лубова, Д.Р. Исламгулов // Современное вузовское образование: теория, методология, практика: материалы Междунар. учеб.-метод. конф., 21-22 марта 2013 г. / Башкирский ГАУ. - Уфа, 2013. - С. 10-13.

Размещено на Allbest.ru

...

Подобные документы

  • Цели сегментации рынка в маркетинговой деятельности. Сущность кластерного анализа, основные этапы его выполнения. Выбор способа измерения расстояния или меры сходства. Иерархические, неиерархические методы кластеризации. Оценка надежности и достоверности.

    доклад [214,7 K], добавлен 02.11.2009

  • Построение типологических регрессий по отдельным группам наблюдений. Пространственные данные и временная информация. Сферы применения кластерного анализа. Понятие однородности объектов, свойства матрицы расстояний. Проведение типологической регрессии.

    презентация [322,6 K], добавлен 26.10.2013

  • Выполнение кластерного анализа предприятий с помощью программы Statgraphics Plus. Построение линейного уравнения регрессии. Расчет коэффициентов эластичности по регрессионным моделям. Оценка статистической значимости уравнения и коэффициента детерминации.

    задача [1,7 M], добавлен 16.03.2014

  • Характеристика строительной отрасли Краснодарского края. Прогноз развития жилищного строительства. Современные методы и инструментальные средства кластерного анализа. Многомерные статистические методы диагностики экономического состояния предприятия.

    дипломная работа [2,4 M], добавлен 20.07.2015

  • Завдання та етапи кластерного аналізу, вимоги до інформації. Приклад класифікації економічних об'єктів за допомогою алгоритму кластерного аналізу, методи перевірки стійкості кластеризації, інтерпретація результатів аналізу та побудування дендрограми.

    реферат [311,2 K], добавлен 15.07.2011

  • Теоретические основы прикладного регрессионного анализа. Проверка предпосылок и предположений регрессионного анализа. Обнаружение выбросов в выборке. Рекомендации по устранению мультиколлинеарности. Пример практического применения регрессионного анализа.

    курсовая работа [1,2 M], добавлен 04.02.2011

  • Статистический анализ по выборке. Проведение регрессионного анализа исходных данных и выбор аналитической формы записи производственной функции. Выполнение экономического анализа в выбранной регрессионной модели на основе коэффициентов эластичности.

    курсовая работа [2,2 M], добавлен 22.07.2015

  • Основные показатели финансового состояния предприятия. Кризис на предприятии, его причины, виды и последствия. Современные методы и инструментальные средства кластерного анализа, особенности их использования для финансово-экономической оценки предприятия.

    дипломная работа [1,4 M], добавлен 09.10.2013

  • Основная терминология, понятие и методы факторного анализа. Основные этапы проведения факторного анализа и методика Чеботарева. Практическая значимость факторного анализа для управления предприятием. Метода Лагранжа в решении задач факторного анализа.

    контрольная работа [72,9 K], добавлен 26.11.2008

  • Методология анализа сложных объектов, изучения и познания процессов. Основные принципы системного подхода к анализу проблем и основные понятия о системах. Декомпозиция, анализ подпроблем и их решение, выявление альтернатив и выбор оптимальных решений.

    контрольная работа [47,5 K], добавлен 04.08.2010

  • Дисперсионный анализ - исследование причин отклонений фактических затрат от нормативных. Схемы организации исходных данных с двумя и более факторами. Формулы расчета межгрупповой и внутригрупповой дисперсии. Задачи двухфакторного дисперсионного анализа.

    курсовая работа [1,0 M], добавлен 16.01.2013

  • Разработка и принятие правильного решения как задачи работы управленческого персонала организации. Деревья решений - один из методов автоматического анализа данных, преимущества их использования и область применения. Построение деревьев классификации.

    контрольная работа [91,6 K], добавлен 08.09.2011

  • Общее понятие, основные цели и задачи дисперсионного анализа. Компоненты изменчивости и методы их определения. Однофакторный дисперсионный анализ, его графическое изображение и области применения. Перечень формул вычисления для двухфакторного анализа.

    презентация [576,2 K], добавлен 22.03.2015

  • Мета кластерного аналізу: поняття, алгоритм, завдання. Головні особливості процедури Мак-Кіна. Графік середніх значень за трьома кластерами. Метод К-методів, переваги та недоліки використання. Поняття про сіткові алгоритми кластеризації (grid-based).

    реферат [238,3 K], добавлен 27.05.2013

  • Многомерный статистический анализ. Математические методы построения оптимальных планов сбора, систематизации и обработки данных. Геометрическая структура многомерных наблюдений. Проверка значимости уравнения регрессии. Кластерный и факторный анализ.

    курсовая работа [2,6 M], добавлен 10.03.2011

  • Факторный анализ. Задачи факторного анализа. Методы факторного анализа. Детерминированный факторный анализ. Модели детерминированного факторного анализа. Способы оценки влияния факторов детерминированном факторном анализе. Стохастический анализ.

    курсовая работа [150,0 K], добавлен 03.05.2007

  • Задачи и этапы проведения корреляционного анализа, экономическая интерпретация его результатов. Критерии качественной и количественной однородности исходных данных: среднеквадратическое отклонение и коэффициент вариации. Показатели оценки уравнения связи.

    контрольная работа [76,9 K], добавлен 12.11.2013

  • Основные задачи оценки экономических явлений и процессов. Проведение детерминированного факторного анализа и приемы математического моделирования факторной системы. Суть метода последовательного элиминирования факторов. Оперативный контроль затрат.

    шпаргалка [1,1 M], добавлен 08.12.2010

  • Общие принципы системного анализа. Основные этапы построения эконометрических моделей и использования их для прогнозирования. Экстраполяция трендов и ее использование в анализе. Правила составления информации подсистем. Модель "спрос-предложение".

    реферат [190,5 K], добавлен 24.01.2011

  • Изучение методов моделирования и анализа панельных данных. Построение ABC-XYZ классификации среди данных широкой номенклатуры по товарным запасам торгового предприятия. Виды исходных данных и построение на их основе модели регрессии по панельным данным.

    курсовая работа [363,2 K], добавлен 23.02.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.