Кластерный анализ
Определение задач и основных этапов применения кластерного анализа. Использование методов иерархического агломеративного семейства при анализе результатов социологических исследований. Определение типов входных данных, целей и методов кластеризации.
Рубрика | Математика |
Вид | реферат |
Язык | русский |
Дата добавления | 07.11.2018 |
Размер файла | 39,6 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
МИНИСТЕРСТВО СЕЛЬСКОГО ХОЗЯЙСТВА РФ
ФГБОУ ВО «ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ СЕВЕРНОГО ЗАУРАЛЬЯ»
АГРОТЕХНОЛОГИЧЕСКИЙ ИНСТИТУТ
КАФЕДРА ЭКОЛОГИИ И РАЦИОНАЛЬНОГО ПРИРОДОПОЛЬЗОВАНИЯ
Реферат
По дисциплине: Математическое моделирование процессов в компонентах природы
Тема: Кластерный анализ
Руководитель: Малышкин Николай Георгиевич
к.с.н., доцент
Исполнитель: Коваленко Евгения Валерьевна
Группа М-ПР 11 очн.
Тюмень, 2018 г.
Содержание
кластеризация кластерный метод анализ
Введение
1. Задачи и условия
2. Анализ и интерпретация его результатов
3. Типология задач кластеризации
3.1 Типы входных данных
3.2 Цели кластеризации
3.3 Методы кластеризации
4. Формальная постановка задачи кластеризации
5. Применение
5.1 В биологии
5.2 В информатике
Заключение
Литература
Введение
Кластерный анализ (англ. Data clustering) -- задача разбиения заданной выборки объектов (ситуаций) на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Задача кластеризации относится к статистической обработке, а также к широкому классу задач обучения без учителя. Кластерный анализ -- это многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы (кластеры) (Q-кластеризация, или Q-техника, собственно кластерный анализ). Кластер -- группа элементов, характеризуемых общим свойством, главная цель кластерного анализа -- нахождение групп схожих объектов в выборке (примечание 1). Спектр применений кластерного анализа очень широк: его используют в археологии, медицине, психологии, химии, биологии, государственном управлении, филологии, антропологии, маркетинге, социологии и других дисциплинах. «Тематика исследований варьирует от анализа морфологии мумифицированных грызунов в Новой Гвинее до изучения результатов голосования сенаторов США, от анализа поведенческих функций замороженных тараканов при их размораживании до исследования географического распределения некоторых видов лишая в Саскачеване» (примечание 1). Однако универсальность применения привела к появлению большого количества несовместимых терминов, методов и подходов, затрудняющих однозначное использование и непротиворечивую интерпретацию кластерного анализа.
1. Задачи и условия
Кластерный анализ выполняет следующие основные задачи:
· Разработка типологии или классификации.
· Исследование полезных концептуальных схем группирования объектов.
· Порождение гипотез на основе исследования данных.
· Проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.
Независимо от предмета изучения применение кластерного анализа предполагает следующие этапы:
§ Отбор выборки для кластеризации.
§ Определение множества переменных, по которым будут оцениваться объекты в выборке.
§ Вычисление значений той или иной меры сходства между объектами.
§ Применение метода кластерного анализа для создания групп сходных объектов.
§ Проверка достоверности результатов кластерного решения.
Кластерный анализ предъявляет следующие требования к данным:
· показатели не должны коррелировать между собой
· показатели должны быть безразмерными
· распределение показателей должно быть близко к нормальному
· показатели должны отвечать требованию «устойчивости», под которой понимается отсутствие влияния на их значения случайных факторов
· выборка должна быть однородна, не содержать «выбросов».
Если кластерному анализу предшествует факторный анализ, то выборка не нуждается в «ремонте» -- изложенные требования выполняются автоматически самой процедурой факторного моделирования (есть ещё одно достоинство -- z-стандартизация без негативных последствий для выборки; если её проводить непосредственно для кластерного анализа, она может повлечь за собой уменьшение чёткости разделения групп). В противном случае выборку нужно корректировать.
2. Анализ и интерпретация его результатов
При анализе результатов социологических исследований рекомендуется осуществлять анализ методами иерархического агломеративного семейства, а именно методом Уорда, при котором внутри кластеров оптимизируется минимальная дисперсия, в итоге создаются кластеры приблизительно равных размеров. Метод Уорда наиболее удачен для анализа социологических данных. В качестве меры различия лучше квадратичное евклидово расстояние, которое способствует увеличению контрастности кластеров. Главным итогом иерархического кластерного анализа является дендрограмма или «сосульчатая диаграмма». При её интерпретации исследователи сталкиваются с проблемой того же рода, что и толкование результатов факторного анализа -- отсутствием однозначных критериев выделения кластеров. В качестве главных рекомендуется использовать два способа -- визуальный анализ дендрограммы и сравнение результатов кластеризации, выполненной различными методами. Визуальный анализ дендрограммы предполагает «обрезание» дерева на оптимальном уровне сходства элементов выборки. «Виноградную ветвь» (терминология Олдендерфера М. С. и Блэшфилда Р. К.) целесообразно «обрезать» на отметке 5 шкалы Rescaled Distance Cluster Combine, таким образом будет достигнут 80 % уровень сходства. Если выделение кластеров по этой метке затруднено (на ней происходит слияние нескольких мелких кластеров в один крупный), то можно выбрать другую метку. Такая методика предлагается Олдендерфером и Блэшфилдом.
Теперь возникает вопрос устойчивости принятого кластерного решения. По сути, проверка устойчивости кластеризации сводится к проверке её достоверности. Здесь существует эмпирическое правило -- устойчивая типология сохраняется при изменении методов кластеризации. Результаты иерархического кластерного анализа можно проверять итеративным кластерным анализом по методу k-средних. Если сравниваемые классификации групп респондентов имеют долю совпадений более 70 % (более 2/3 совпадений), то кластерное решение принимается.
Проверить адекватность решения, не прибегая к помощи другого вида анализа, нельзя. По крайней мере, в теоретическом плане эта проблема не решена. В классической работе Олдендерфера и Блэшфилда «Кластерный анализ» подробно рассматриваются и в итоге отвергаются дополнительные пять методов проверки устойчивости: 1) кофенетическая корреляция -- не рекомендуется и ограниченна в использовании; 2) тесты значимости (дисперсионный анализ) -- всегда дают значимый результат; 3) методика повторных (случайных) выборок, что, тем не менее, не доказывает обоснованность решения; 4) тесты значимости для внешних признаков пригодны только для повторных измерений; 5) методы Монте-Карло очень сложны и доступны только опытным математикам.
3. Типология задач кластеризации
3.1 Типы входных данных
· Признаковое описание объектов. Каждый объект описывается набором своих характеристик, называемых признаками. Признаки могут быть числовыми или нечисловыми.
· Матрица расстояний между объектами. Каждый объект описывается расстояниями до всех остальных объектов обучающей выборки.
3.2 Цели кластеризации
· Понимание данных путём выявления кластерной структуры. Разбиение выборки на группы схожих объектов позволяет упростить дальнейшую обработку данных и принятия решений, применяя к каждому кластеру свой метод анализа (стратегия «разделяй и властвуй»).
· Сжатие данных. Если исходная выборка избыточно большая, то можно сократить её, оставив по одному наиболее типичному представителю от каждого кластера.
· Обнаружение новизны (англ. novelty detection). Выделяются нетипичные объекты, которые не удаётся присоединить ни к одному из кластеров.
В первом случае число кластеров стараются сделать поменьше. Во втором случае важнее обеспечить высокую степень сходства объектов внутри каждого кластера, а кластеров может быть сколько угодно. В третьем случае наибольший интерес представляют отдельные объекты, не вписывающиеся ни в один из кластеров.
Во всех этих случаях может применяться иерархическая кластеризация, когда крупные кластеры дробятся на более мелкие, те в свою очередь дробятся ещё мельче, и т. д. Такие задачи называются задачами таксономии.
Результатом таксономии является древообразная иерархическая структура. При этом каждый объект характеризуется перечислением всех кластеров, которым он принадлежит, обычно от крупного к мелкому.
Классическим примером таксономии на основе сходства является биноминальная номенклатура живых существ, предложенная Карлом Линнеем в середине XVIII века. Аналогичные систематизации строятся во многих областях знания, чтобы упорядочить информацию о большом количестве объектов.
3.3 Методы кластеризации
· K-средних (K-means)
· Графовые алгоритмы кластеризации
· Статистические алгоритмы кластеризации
· Алгоритмы семейства FOREL
· Иерархическая кластеризация или таксономия
· Нейронная сеть Кохонена
· Ансамбль кластеризаторов
· Алгоритмы семейства КRAB
· EM-алгоритм
· Алгоритм, основанный на методе просеивания
4. Формальная постановка задачи кластеризации
Пусть -- множество объектов, -- множество номеров (имён, меток) кластеров. Задана функция расстояния между объектами . Имеется конечная обучающая выборка объектов . Требуется разбить выборку на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из объектов, близких по метрике , а объекты разных кластеров существенно отличались. При этом каждому объекту приписывается номер кластера .
Алгоритм кластеризации -- это функция , которая любому объекту ставит в соответствие номер кластера . Множество в некоторых случаях известно заранее, однако чаще ставится задача определить оптимальное число кластеров, с точки зрения того или иного критерия качества кластеризации.
Кластеризация (обучение без учителя) отличается от классификации (обучения с учителем) тем, что метки исходных объектов изначально не заданы, и даже может быть неизвестно само множество .
Решение задачи кластеризации принципиально неоднозначно, и тому есть несколько причин:
· не существует однозначно наилучшего критерия качества кластеризации. Известен целый ряд эвристических критериев, а также ряд алгоритмов, не имеющих чётко выраженного критерия, но осуществляющих достаточно разумную кластеризацию «по построению». Все они могут давать разные результаты.
· число кластеров, как правило, неизвестно заранее и устанавливается в соответствии с некоторым субъективным критерием.
· результат кластеризации существенно зависит от метрики, выбор которой, как правило, также субъективен и определяется экспертом.
5. Применение
5.1 В биологии
В биологии кластеризация имеет множество приложений в самых разных областях. Например, в биоинформатике с помощью нее анализируются сложные сети взаимодействующих генов, состоящие порой из сотен или даже тысяч элементов. Кластерный анализ позволяет выделить подсети, узкие места, концентраторы и другие скрытые свойства изучаемой системы, что позволяет в конечном счете узнать вклад каждого гена в формирование изучаемого феномена.
5.2 В информатике
Группирование результатов поиска: Кластеризация используется для «интеллектуального» группирования результатов при поиске файлов, веб-сайтов, других объектов, предоставляя пользователю возможность быстрой навигации, выбора заведомо более релевантного подмножества и исключения заведомо менее релевантного -- что может повысить юзабилити интерфейса по сравнению с выводом в виде простого сортированного по релевантности списка.
Clusty[1] -- кластеризующая поисковая машина компании Vivнsimo
Nigma -- российская поисковая система с автоматической кластеризацией результатов
Quintura -- визуальная кластеризация в виде облака ключевых слов
Сегментация изображений (image segmentation): Кластеризация может быть использована для разбиения цифрового изображения на отдельные области с целью обнаружения границ (edge detection) или распознавания объектов.
Интеллектуальный анализ данных (data mining): Кластеризация в Data Mining приобретает ценность тогда, когда она выступает одним из этапов анализа данных, построения законченного аналитического решения. Аналитику часто легче выделить группы схожих объектов, изучить их особенности и построить для каждой группы отдельную модель, чем создавать одну общую модель для всех данных. Таким приемом постоянно пользуются в маркетинге, выделяя группы клиентов, покупателей, товаров и разрабатывая для каждой из них отдельную стратегию.
Заключение
Наступивший XXI век стал этапным для проникновения новых информационных технологий и создаваемых на их основе высокопроизводительных компьютерных систем во все сферы человеческой деятельности - управление, производство, науку, образование и т.д. Кластерный анализ параллельно развивался в нескольких направлениях, таких как биология, психология, др., поэтому у большинства методов существует по два и более названий. Это существенно затрудняет работу при использовании кластерного анализа. Кластеризация служит для объединения больших объемов данных в группы (кластеры), которые характеризуются тем, что элементы внутри каждой группы имеют больше «сходства» между собой, чем между элементами соседних кластеров. В целом, все методы кластеризации можно подразделить на иерархические и неиерархические. Последние чаще всего используются при анализе больших объемов данных, т.к. они обладают большей скоростью.
Литература
1. Бухштабер В.М. Прикладная статистика: классификация и снижение размерности /1. Айвазян С. А., В.М. Бухштабер, И.С. Енюков, Л.Д. Мешалкин. Финансы и статистика, 1989.
2. Журавлев, Ю.И. Распознавание. Математические методы. Программная система. Практические применения /Ю.И. Журавлев, В.В. Рязанов, О.В. Сенько. Фазис, 2006.
3. Хайдуков Д. С. Применение кластерного анализа в государственном управлении// Философия математики: актуальные проблемы. М.: МАКС Пресс, 2009.
4. Шлезингер М., Главач В. Десять лекций по статистическому и структурному распознаванию. Киев: Наукова думка, 2004.
5. Шуметов В. Г. Шуметова Л. В. «Кластерный анализ: подход с применением ЭВМ». ОрелГТУ, Орел, 2000. 118 с.
6. Электронный учебник по статистике. Москва, StatSoft. WEB: www.statsoft.ru/home/textbook/default.htm.
Размещено на Allbest.ru
...Подобные документы
Классификация методов кластеризации и их характеристика. Метод горной кластеризации в Matlab. Возможная область применения кластеризации в различных предметных областях. Математическое описание метода. Пример использования метода на реальных данных.
реферат [187,0 K], добавлен 28.10.2010Оптимизация как раздел математики, ее определение, сущность, цели, формулировка и особенности постановки задач. Общая характеристика различных методов математической оптимизации функции. Листинг программ основных методов решения задач оптимизации функции.
курсовая работа [414,1 K], добавлен 20.01.2010Анализ исследований в области лечения диабета. Использование классификаторов машинного обучения для анализа данных, определение зависимостей и корреляции между переменными, значимых параметров, а также подготовка данных для анализа. Разработка модели.
дипломная работа [256,0 K], добавлен 29.06.2017Общее понятие о дисперсионном анализе, его сущность и значение. Использование INTERNET и компьютера для проведения дисперсионного анализа, особенности работы в среде MS Excel. Примеры применения однофакторного и двухфакторного дисперсионного анализа.
курсовая работа [820,4 K], добавлен 17.02.2013Изучение прямых методов решения вариационных и краевых задач математического анализа. Основные идеи методов Ритца и Галеркина для нахождения приближенного обобщенного решения задачи минимизации функционала. Особенности, сходство и отличие данных методов.
презентация [187,9 K], добавлен 30.10.2013Понятие доверительного интервала, сущность и определение критерия согласия Пирсона. Особенности точечного оценивания неизвестных параметров, основные требования к оценкам и статистикам. Характеристика классической линейной модели регрессионного анализа.
дипломная работа [440,4 K], добавлен 23.07.2013Изучение методов определения основных показателей надежности изделий на основные экспериментальных данных. Статистическая оценка интенсивности отказов и плотности их распределения. Определение функции надежности изделия (вероятности безотказной работы).
лабораторная работа [237,5 K], добавлен 10.04.2019Рассмотрение понятия и сущности математического моделирования. Сбор данных результатов единого государственного экзамена учеников МБОУ "Лицей №13" по трем предметам за 11 лет. Прогнозирование результатов экзамена на 2012, 2013, 2014 учебные годы.
курсовая работа [392,4 K], добавлен 19.10.2014Изучение нестандартных методов решения задач по математике, имеющих широкое распространение. Анализ метода функциональной, тригонометрической подстановки, методов, основанных на применении численных неравенств. Решение симметрических систем уравнений.
курсовая работа [638,6 K], добавлен 14.02.2010Характеристика основных методов определения высоты физических тел: с помощью вращающейся планки, теней предмета и человека, зеркала, чертежного прямоугольного треугольника. Суть каждого из методов, обоснование расчетов и используемых материалов.
презентация [69,9 K], добавлен 17.04.2011Этапы статической обработки результатов экспериментальных исследований. Расчет числа приложения нагрузок от воздушных судов на отдельном участке аэродромного покрытия. Определение статического коэффициента условий работы жестких аэродромных покрытий.
курсовая работа [329,2 K], добавлен 19.03.2013Формирование функции Лагранжа, условия Куна и Таккера. Численные методы оптимизации и блок-схемы. Применение методов штрафных функций, внешней точки, покоординатного спуска, сопряженных градиентов для сведения задач условной оптимизации к безусловной.
курсовая работа [1,8 M], добавлен 27.11.2012Проектирование методов математического моделирования и оптимизации проектных решений. Использование кусочной интерполяции при решении задач строительства автомобильных дорог. Методы линейного программирования. Решение специальных транспортных задач.
методичка [690,6 K], добавлен 26.01.2015Рассмотрение основных методов решения школьных задач на движение двух тел в разных и одинаковых направлениях: анализ и синтез, сведение к ранее решенным, математическое моделирование (знаковые, графические модели), индукция, исчерпывающая проба.
презентация [11,8 K], добавлен 08.05.2010Сравнительный анализ численных методов решения систем линейных алгебраических уравнений. Вычисление определителей и обратных матриц. Реализация методов в виде машинных программ на языке высокого уровня и решение задач на ЭВМ. Модификации метода Гаусса.
реферат [85,2 K], добавлен 04.03.2011Определение и анализ многошаговых методов, основы их построения, устойчивость и сходимость. Постановка задачи Коши для обыкновенных дифференциальных уравнений. Метод Адамса, значение квадратурных коэффициентов. Применение методов прогноза и коррекции.
контрольная работа [320,8 K], добавлен 13.03.2013Возникновение науки исследования операций и особенности применения операционных методов. Отделение формы задачи от ее содержания с помощью процесса абстракции. Классы задач. Некоторые математические методы, используемые для получения решений на моделях.
реферат [17,7 K], добавлен 27.06.2011Основные этапы обработки данных натуральных наблюдений методом математической статистики. Оценка полученных результатов, их использование при принятии управленческих решений в области охраны природы и природопользования. Проверка статистических гипотез.
практическая работа [132,1 K], добавлен 24.05.2013Теория случайных графов, модели сетей (графы Барабаши-Альберт, Эрдеша-Реньи, Уотса-Строгатса и др.) Разработка ускоренного алгоритма калибровки больших сетей по коэффициенту кластеризации на языке Java в среде Eclipse. Анализ экспериментальных данных.
дипломная работа [2,0 M], добавлен 19.11.2013Понятие, виды и методы планирования экспериментальных исследований. Предварительная обработка экспериментальных данных, компьютерные методы статистической обработки и анализ результатов пассивного эксперимента, оценка погрешностей результатов наблюдений.
книга [3,1 M], добавлен 13.04.2009