Актуальные проблемы кластерного анализа
Задачи и этапы кластерного анализа. Цели кластеризации для выработки рекомендаций. Сравнительный анализ иерархических и неиерархических методов кластеризации. Обзор существующих систем кластеризации, сеточные алгоритмы. Выбор языка программирования.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 21.05.2016 |
Размер файла | 187,6 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Алгоритм BIRCH + k-means хорошо показал себя на тестовых данных об автомобилях. В тестовый набор были включены 1400 наборов данных по 90 атрибутов без пропуска. В результате кластеризации автомобили были разбиты на 5 кластеров в которых можно было проследить соотношение стоимости автомобиля его характеристикам.
Библиотека так же хорошо работает на данных о страховой стоимости, или для выделения групп в маркетинговых исследованиях. Но все же самым главным в реализации кластеризации является правильное понимание области данных экспертом, формирующим исходную выборку. Правильно предоставленные данные могут давать незначительные отклонения при ошибочно выбранных начальных параметров алгоритмов. Представленные алгоритмы хорошо выделяют выбросы и аномалии. Так в случае с кластеризацией грибов, многие объекты имели пропущенный атрибут, но это всё равно не повлияло на результат работы в следствии устройства структуры алгоритма, работающей непосредственно с параметрами кластера, а не самими объектами.
Заключение
В результате дипломного проектирования были рассмотрены методы кластерного анализа, популярные продукты для кластеризации данных и их применение. На основании чего было установлено, что множество систем реализованы под конкретные задачи. Во время разработки библиотеки были рассмотрены методы, применяемые в современных системах, из которых выбрались 3 основных метода из разных групп. Реализация методов была успешно проведена в с применением фреймворка Qt на языке С++. Для меня встала задача не только кластеризации, но и разработки модуля для проведения экспертных оценок на основании пользовательских запросов. Данная задача была решена при помощи введения системы ценовых моделей как в «ручном», так и в «автоматическом» режимах. После применения ценовых моделей формировалась итоговая таблица взвешенных атрибутов непосредственно к которым применялся один из выбранных алгоритмов кластеризации. После успешной кластеризации формируется таблица атрибутов кластеров на основании которой пользователь может делать запросы, в которых предоставляя вектор с полной информацией, мог узнать к какому кластеру наиболее вероятно может быть отнесен данный объект. Либо при введении кластера с неполной информацией, происходит соотнесение его с наиболее вероятным кластером, и на основании содержащихся там элементов происходит прогнозирование неизвестного атрибута на основании среднего значения.
В итоге была реализована библиотека, которую можно применять в больших системах для проведения анализа данных и поиска неочевидных связей.
Список использованной литературы
1. ССБТ. Ультразвук. Общие требования безопасности.ГОСТ 12.1.001-89
2. Санитарные нормы. Гигиенические нормы инфразвука на рабочих местах.СН № 2274-80
3. ССБТ. Шум. Общие требования безопасности. ГОСТ 12.1.003-83 (1999)
4. ССБТ. Средства ми методы защиты от шума. КлассификацияГОСТ 12.1.029-80 (2001)
5. СНиП Защита от шума.СНиП 11-12-77
6. ССБТ. Шум. Допустимые уровни в жилых и общественных зданиях.ГОСТ 12.1.036-81 (2001)
7. ССБТ. Методы измерения шума на рабочих местахГОСТ 12.1.050-86 (2001)
8. ССБТ. Средства защиты рук от вибрации.ГОСТ 12.4.002-97
9. ССБТ. Вибрация Средства измерения и контроля вибрации на рабочих местах. Технические требования.ГОСТ 12.4.012-83 (1986)
10. Трудовой кодекс Российской Федерацииот 30.12.2001 г. 197-ФЗ
11. ССБТ. Общие требования к системе управления охраной труда в организации.ГОСТ Р 12.0.006-2002
12. ССБТ. Опасные и вредные производственные факторы. Термины и определения.ГОСТ 12.0.002-80*
13. ССБТ. Опасные и вредные производственные факторы. Классификация.ГОСТ 12.0.003-74 (99)
14. ССБТ. Электробезопасность. Термины и определения.ГОСТ 12.1.009-76 (1999)
15. ССБТ. Электробезопасность. Предельно допустимые значения напряжений прикосновения и токов.ГОСТ 12.1.038-82
16. ССБТ. Электробезопасность. Защитное заземление. Зануление.ГОСТ 12.1.030-81 (2001)
17. ССБТ. Электробезопасность. Общие требования и номенклатура видов защиты.ГОСТ 12.1.019-96
18. ПУЭ (правила устройства электроустановок), утверждены приказом Минэнерго России от 9.04.2003 г. № 150
19. Санитарные правила и нормы. Гигиенические требования к естественному, искусственному и совмещенному освещению жилых и общественных зданий.СанПиН 2.2.1/2.1.1.1278-03
20. Санитарные правила и нормы. Искусственное освещение.СНиП 11-4-79
21. ССБТ. Лампы электрические. Требования безопасности.ГОСТ 12.2.0ССБТ. Ультразвук. Общие требования безопасности ГОСТ 12.1.001-89 (1999)
22. Правила технической эксплуатации электроустановок потребителей, утверждены Министерством энергетики 13 января 2003 г., №6
23. Санитарные правила и нормы. Гигиенические требования к микроклимату производственных помещений СанПиН 2.2.4.548-96
24. Гигиенические требования к аэроионному составу воздуха производственных и общественных помещений.СанПиН 2.2.4.1294-03
25. ССБТ. Воздух рабочей зоны. Требования к методикам измерения концентрации вредных веществ.ГОСТ 12.1.016-79 (2001)
26. ССБТ. Вредные вещества. Классификация и общие требования безопасности.ГОСТ 12.1.007-82 (1999)
27. ССБТ. Общие санитарно-гигиенические требования к воздуху санитарной зоны.ГОСТ 12.1.005-88 (2001)
28. И. А. Чубукова Data Mining - Интернет-университет информационных технологий, Бином. Лаборатория знаний ISBN 978-5-94774-819-2; 2008 г.
29. Тоби Сегаран (пер. А. Слинкин) Программируем коллективный разум (Programming Collective Intelligence) Символ-Плюс ISBN 978-5-93286-119-6, 5-93286-119-3, 0-596-52932-5; 2008 г.
30. Дюк В., Самойленко А. Data Mining: учебный курс (+CD). - СПб.: Изд. Питер, 2001. - 368 с.
31. Гудков А. А. Известия Пензенского государственного педагогического университета им. В.Г. Белинского 2007
32. Питер Морвиль, Луис Розенфельд (пер. С. Маккавеев, Е. Смогайлов) Информационная архитектура в Интернете (Information Architecture for the World Wide Web) ISBN 978-5-93286-164-6, 978-0-596-52734-1; 2010 г.
33. Х. Марманис, Д. Бабенко (пер. М. Низовец) Алгоритмы интеллектуального Интернета. Передовые методики сбора, анализа и обработки данных (Algorithms of the Intelligent Web) Символ-Плюс, ISBN 978-5-93286-186-8, 978-1-933988-66-5; 2011 г.
34. Sudipto Guha, Rajeev Rastogi, Kyuseok Shim ROCK A Robust Clustering Algorithm for Categorical Attributes 0-7965-0071-4/99 1999 IEEE
35. Н. Паклин. «Кластеризация категорийных данных: масштабируемый алгоритм CLOPE». Ссылка: http://www.basegroup.ru/library/analysis/clusterization/clope/
36. Н. Паклин «Алгоритмы кластеризации на службе Data Mining». Ссылка: http://www.basegroup.ru/clusterization/datamining.htm
37. Tian Zhang, Raghu Ramakrishnan, Miron Livny «BIRCH: An Efficient Data Clustering Method for Very Large Databases». Электронное издание.
38. Daniel Fasulo «An Analysis Of Recent Work on Clustering Algorithms». Электронное издание
39. Фредерик Брукс Мифический человеко-месяц, или Как создаются программные системы Символ-Плюс ISBN 5-93286-005-7, 0-201-83595-9; 2010 г.
40. Dr. Winston W. Rovce ANAGING THE DEVELOPMENT OF LARGE SOFTWARE SYSTEMS http://www.cs.umd.edu/class/spring2003/cmsc838p/Process/waterfall.pdf
41. Критика известных экспертов PMI концепции "водопада" в PMBOK 3 http://www.microsoftproject.ru/articles.phtml?aid=158#agile
Размещено на Allbest.ru
...Подобные документы
Роль информации в мире. Теоретические основы анализа Big Data. Задачи, решаемые методами Data Mining. Выбор способа кластеризации и деления объектов на группы. Выявление однородных по местоположению точек. Построение магического квадранта провайдеров.
дипломная работа [2,5 M], добавлен 01.07.2017Сущность и понятие кластеризации, ее цель, задачи, алгоритмы; использование искусственных нейронных сетей для кластеризации данных. Сеть Кохонена, самоорганизующиеся нейронные сети: структура, архитектура; моделирование кластеризации данных в MATLAB NNT.
дипломная работа [3,1 M], добавлен 21.03.2011Анализ проблем, возникающих при применении методов и алгоритмов кластеризации. Основные алгоритмы разбиения на кластеры. Программа RapidMiner как среда для машинного обучения и анализа данных. Оценка качества кластеризации с помощью методов Data Mining.
курсовая работа [3,9 M], добавлен 22.10.2012Исследование производительности труда методом компонентного и кластерного анализов. Выбор значащих главных компонент. Формирование кластеров. Построение дендрограммы и диаграммы рассеивания. Правила кластеризации в пространстве исходных признаков.
лабораторная работа [998,9 K], добавлен 25.11.2014Основы для проведения кластеризации. Использование Data Mining как способа "обнаружения знаний в базах данных". Выбор алгоритмов кластеризации. Получение данных из хранилища базы данных дистанционного практикума. Кластеризация студентов и задач.
курсовая работа [728,4 K], добавлен 10.07.2017Особенности кластеризации социальных сетей, методы распознавания сообществ. Особенности локального прореживания графа. Разработка рекомендаций по выбору метода кластеризации для выделенных классов задач. Оптимизация процесса дальнейшей обработки данных.
курсовая работа [1,8 M], добавлен 30.06.2017Обзор методов реализации алгоритмов искусственного интеллекта. Примеры интеллектуальных систем, основанных на алгоритмах самообучения и кластеризации данных. Создание общей структурной схемы. Выбор языков программирования и инструментальных средств.
дипломная работа [1,6 M], добавлен 20.08.2017Алгоритмы кластеризации данных, отбора факторов, построения множественной линейной регрессии, оценки параметров процесса на скользящем постоянном интервале. Решение задач анализа данных на нейронных сетях и результаты моделирования нелинейных функций.
контрольная работа [1,5 M], добавлен 11.01.2016Содержание исходного набора данных. Основные причины возникновения выбросов. Главные алгоритмы кластеризации. Обработка и очистка файла. Описание его полей. Прямоугольная вещественнозначная матрица. Метрика Минковского. Математическое определение объекта.
курсовая работа [1,4 M], добавлен 25.10.2016Понятие, виды и структура интеллектуальных поисковых систем. Российская интеллектуальная поисковая система Нигма: интерфейс и главные особенности. Математическая и химическая система Нигма. Понятие кластеризации как интеллектуального анализа данных.
презентация [291,0 K], добавлен 21.08.2011Классификация задач DataMining. Создание отчетов и итогов. Возможности Data Miner в Statistica. Задача классификации, кластеризации и регрессии. Средства анализа Statistica Data Miner. Суть задачи поиск ассоциативных правил. Анализ предикторов выживания.
курсовая работа [3,2 M], добавлен 19.05.2011Разработка самообучающейся интеллектуальной информационной системы для анализа кредитоспособности заемщика и оценки кредитных рисков на основе подхода иммунокомпьютинга. Применение процедур кластеризации, классификации и формирования оценок рисков.
курсовая работа [822,3 K], добавлен 09.06.2012Увеличение надежности информационных систем с помощью резервирования и повышения вероятности безотказной работы элементов. Применение кластеризации как альтернативы симметричным мультипроцессорным системам по производительности и коэффициенту готовности.
курсовая работа [401,9 K], добавлен 18.06.2015Исследование общих сведений о медицинских экспертных системах, способных заменить специалиста-эксперта в разрешении проблемной ситуации. Обучение искусственных нейронных сетей в программе Statistica 7. Обзор программной реализации модуля кластеризации.
дипломная работа [5,9 M], добавлен 14.06.2012Разработка приложения, целью которого ставится преобразование черно-белых полутоновых изображений в цветные. Обзор методики обработки изображения, способов преобразования изображения с помощью нейронной сети. Описания кластеризации цветового пространства.
дипломная работа [6,3 M], добавлен 17.06.2012Ознакомление с элементами топологии базы геоданных. Исследование и характеристика особенностей кластерной обработки. Изучение алгоритмов, использующихся при проверке и кластеризации. Анализ процесса использования пространственных отношений объектов.
презентация [749,3 K], добавлен 18.10.2017Сравнительный анализ существующих разработок сайтов СМИ. Обзор двух продуктов компании FarbaSite CMS и Joomla CMS, которые содержат модуль "Электронный дневник". Проектирование и подключение базы данных. Выбор языка программирования клиентской части.
дипломная работа [1,2 M], добавлен 21.05.2013Сущность, структура, алгоритм функционирования самообучающихся карт. Начальная инициализация и обучение карты. Сущность и задачи кластеризации. Создание нейронной сети со слоем Кохонена при помощи встроенной в среды Matlab. Отличия сети Кохонена от SOM.
лабораторная работа [36,1 K], добавлен 05.10.2010Описание функциональных возможностей технологии Data Mining как процессов обнаружения неизвестных данных. Изучение систем вывода ассоциативных правил и механизмов нейросетевых алгоритмов. Описание алгоритмов кластеризации и сфер применения Data Mining.
контрольная работа [208,4 K], добавлен 14.06.2013Сущность и основные задачи биомедицинской кибернетики. Особенности текущего момента развития ИТ в области наук о жизни. Применение кластерного анализа в процессе наблюдения за состоянием пациентов. Изучение требований к подготовке врачей-кибернетиков.
презентация [5,1 M], добавлен 08.08.2013