Актуальные проблемы кластерного анализа

Задачи и этапы кластерного анализа. Цели кластеризации для выработки рекомендаций. Сравнительный анализ иерархических и неиерархических методов кластеризации. Обзор существующих систем кластеризации, сеточные алгоритмы. Выбор языка программирования.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 21.05.2016
Размер файла 187,6 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Алгоритм BIRCH + k-means хорошо показал себя на тестовых данных об автомобилях. В тестовый набор были включены 1400 наборов данных по 90 атрибутов без пропуска. В результате кластеризации автомобили были разбиты на 5 кластеров в которых можно было проследить соотношение стоимости автомобиля его характеристикам.

Библиотека так же хорошо работает на данных о страховой стоимости, или для выделения групп в маркетинговых исследованиях. Но все же самым главным в реализации кластеризации является правильное понимание области данных экспертом, формирующим исходную выборку. Правильно предоставленные данные могут давать незначительные отклонения при ошибочно выбранных начальных параметров алгоритмов. Представленные алгоритмы хорошо выделяют выбросы и аномалии. Так в случае с кластеризацией грибов, многие объекты имели пропущенный атрибут, но это всё равно не повлияло на результат работы в следствии устройства структуры алгоритма, работающей непосредственно с параметрами кластера, а не самими объектами.

Заключение

В результате дипломного проектирования были рассмотрены методы кластерного анализа, популярные продукты для кластеризации данных и их применение. На основании чего было установлено, что множество систем реализованы под конкретные задачи. Во время разработки библиотеки были рассмотрены методы, применяемые в современных системах, из которых выбрались 3 основных метода из разных групп. Реализация методов была успешно проведена в с применением фреймворка Qt на языке С++. Для меня встала задача не только кластеризации, но и разработки модуля для проведения экспертных оценок на основании пользовательских запросов. Данная задача была решена при помощи введения системы ценовых моделей как в «ручном», так и в «автоматическом» режимах. После применения ценовых моделей формировалась итоговая таблица взвешенных атрибутов непосредственно к которым применялся один из выбранных алгоритмов кластеризации. После успешной кластеризации формируется таблица атрибутов кластеров на основании которой пользователь может делать запросы, в которых предоставляя вектор с полной информацией, мог узнать к какому кластеру наиболее вероятно может быть отнесен данный объект. Либо при введении кластера с неполной информацией, происходит соотнесение его с наиболее вероятным кластером, и на основании содержащихся там элементов происходит прогнозирование неизвестного атрибута на основании среднего значения.

В итоге была реализована библиотека, которую можно применять в больших системах для проведения анализа данных и поиска неочевидных связей.

Список использованной литературы

1. ССБТ. Ультразвук. Общие требования безопасности.ГОСТ 12.1.001-89

2. Санитарные нормы. Гигиенические нормы инфразвука на рабочих местах.СН № 2274-80

3. ССБТ. Шум. Общие требования безопасности. ГОСТ 12.1.003-83 (1999)

4. ССБТ. Средства ми методы защиты от шума. КлассификацияГОСТ 12.1.029-80 (2001)

5. СНиП Защита от шума.СНиП 11-12-77

6. ССБТ. Шум. Допустимые уровни в жилых и общественных зданиях.ГОСТ 12.1.036-81 (2001)

7. ССБТ. Методы измерения шума на рабочих местахГОСТ 12.1.050-86 (2001)

8. ССБТ. Средства защиты рук от вибрации.ГОСТ 12.4.002-97

9. ССБТ. Вибрация Средства измерения и контроля вибрации на рабочих местах. Технические требования.ГОСТ 12.4.012-83 (1986)

10. Трудовой кодекс Российской Федерацииот 30.12.2001 г. 197-ФЗ

11. ССБТ. Общие требования к системе управления охраной труда в организации.ГОСТ Р 12.0.006-2002

12. ССБТ. Опасные и вредные производственные факторы. Термины и определения.ГОСТ 12.0.002-80*

13. ССБТ. Опасные и вредные производственные факторы. Классификация.ГОСТ 12.0.003-74 (99)

14. ССБТ. Электробезопасность. Термины и определения.ГОСТ 12.1.009-76 (1999)

15. ССБТ. Электробезопасность. Предельно допустимые значения напряжений прикосновения и токов.ГОСТ 12.1.038-82

16. ССБТ. Электробезопасность. Защитное заземление. Зануление.ГОСТ 12.1.030-81 (2001)

17. ССБТ. Электробезопасность. Общие требования и номенклатура видов защиты.ГОСТ 12.1.019-96

18. ПУЭ (правила устройства электроустановок), утверждены приказом Минэнерго России от 9.04.2003 г. № 150

19. Санитарные правила и нормы. Гигиенические требования к естественному, искусственному и совмещенному освещению жилых и общественных зданий.СанПиН 2.2.1/2.1.1.1278-03

20. Санитарные правила и нормы. Искусственное освещение.СНиП 11-4-79

21. ССБТ. Лампы электрические. Требования безопасности.ГОСТ 12.2.0ССБТ. Ультразвук. Общие требования безопасности ГОСТ 12.1.001-89 (1999)

22. Правила технической эксплуатации электроустановок потребителей, утверждены Министерством энергетики 13 января 2003 г., №6

23. Санитарные правила и нормы. Гигиенические требования к микроклимату производственных помещений СанПиН 2.2.4.548-96

24. Гигиенические требования к аэроионному составу воздуха производственных и общественных помещений.СанПиН 2.2.4.1294-03

25. ССБТ. Воздух рабочей зоны. Требования к методикам измерения концентрации вредных веществ.ГОСТ 12.1.016-79 (2001)

26. ССБТ. Вредные вещества. Классификация и общие требования безопасности.ГОСТ 12.1.007-82 (1999)

27. ССБТ. Общие санитарно-гигиенические требования к воздуху санитарной зоны.ГОСТ 12.1.005-88 (2001)

28. И. А. Чубукова Data Mining - Интернет-университет информационных технологий, Бином. Лаборатория знаний ISBN 978-5-94774-819-2; 2008 г.

29. Тоби Сегаран (пер. А. Слинкин) Программируем коллективный разум (Programming Collective Intelligence) Символ-Плюс ISBN 978-5-93286-119-6, 5-93286-119-3, 0-596-52932-5; 2008 г.

30. Дюк В., Самойленко А. Data Mining: учебный курс (+CD). - СПб.: Изд. Питер, 2001. - 368 с.

31. Гудков А. А. Известия Пензенского государственного педагогического университета им. В.Г. Белинского 2007

32. Питер Морвиль, Луис Розенфельд (пер. С. Маккавеев, Е. Смогайлов) Информационная архитектура в Интернете (Information Architecture for the World Wide Web) ISBN 978-5-93286-164-6, 978-0-596-52734-1; 2010 г.

33. Х. Марманис, Д. Бабенко (пер. М. Низовец) Алгоритмы интеллектуального Интернета. Передовые методики сбора, анализа и обработки данных (Algorithms of the Intelligent Web) Символ-Плюс, ISBN 978-5-93286-186-8, 978-1-933988-66-5; 2011 г.

34. Sudipto Guha, Rajeev Rastogi, Kyuseok Shim ROCK A Robust Clustering Algorithm for Categorical Attributes 0-7965-0071-4/99 1999 IEEE

35. Н. Паклин. «Кластеризация категорийных данных: масштабируемый алгоритм CLOPE». Ссылка: http://www.basegroup.ru/library/analysis/clusterization/clope/

36. Н. Паклин «Алгоритмы кластеризации на службе Data Mining». Ссылка: http://www.basegroup.ru/clusterization/datamining.htm

37. Tian Zhang, Raghu Ramakrishnan, Miron Livny «BIRCH: An Efficient Data Clustering Method for Very Large Databases». Электронное издание.

38. Daniel Fasulo «An Analysis Of Recent Work on Clustering Algorithms». Электронное издание

39. Фредерик Брукс Мифический человеко-месяц, или Как создаются программные системы Символ-Плюс ISBN 5-93286-005-7, 0-201-83595-9; 2010 г.

40. Dr. Winston W. Rovce ANAGING THE DEVELOPMENT OF LARGE SOFTWARE SYSTEMS http://www.cs.umd.edu/class/spring2003/cmsc838p/Process/waterfall.pdf

41. Критика известных экспертов PMI концепции "водопада" в PMBOK 3 http://www.microsoftproject.ru/articles.phtml?aid=158#agile

Размещено на Allbest.ru

...

Подобные документы

  • Роль информации в мире. Теоретические основы анализа Big Data. Задачи, решаемые методами Data Mining. Выбор способа кластеризации и деления объектов на группы. Выявление однородных по местоположению точек. Построение магического квадранта провайдеров.

    дипломная работа [2,5 M], добавлен 01.07.2017

  • Сущность и понятие кластеризации, ее цель, задачи, алгоритмы; использование искусственных нейронных сетей для кластеризации данных. Сеть Кохонена, самоорганизующиеся нейронные сети: структура, архитектура; моделирование кластеризации данных в MATLAB NNT.

    дипломная работа [3,1 M], добавлен 21.03.2011

  • Анализ проблем, возникающих при применении методов и алгоритмов кластеризации. Основные алгоритмы разбиения на кластеры. Программа RapidMiner как среда для машинного обучения и анализа данных. Оценка качества кластеризации с помощью методов Data Mining.

    курсовая работа [3,9 M], добавлен 22.10.2012

  • Исследование производительности труда методом компонентного и кластерного анализов. Выбор значащих главных компонент. Формирование кластеров. Построение дендрограммы и диаграммы рассеивания. Правила кластеризации в пространстве исходных признаков.

    лабораторная работа [998,9 K], добавлен 25.11.2014

  • Основы для проведения кластеризации. Использование Data Mining как способа "обнаружения знаний в базах данных". Выбор алгоритмов кластеризации. Получение данных из хранилища базы данных дистанционного практикума. Кластеризация студентов и задач.

    курсовая работа [728,4 K], добавлен 10.07.2017

  • Особенности кластеризации социальных сетей, методы распознавания сообществ. Особенности локального прореживания графа. Разработка рекомендаций по выбору метода кластеризации для выделенных классов задач. Оптимизация процесса дальнейшей обработки данных.

    курсовая работа [1,8 M], добавлен 30.06.2017

  • Обзор методов реализации алгоритмов искусственного интеллекта. Примеры интеллектуальных систем, основанных на алгоритмах самообучения и кластеризации данных. Создание общей структурной схемы. Выбор языков программирования и инструментальных средств.

    дипломная работа [1,6 M], добавлен 20.08.2017

  • Алгоритмы кластеризации данных, отбора факторов, построения множественной линейной регрессии, оценки параметров процесса на скользящем постоянном интервале. Решение задач анализа данных на нейронных сетях и результаты моделирования нелинейных функций.

    контрольная работа [1,5 M], добавлен 11.01.2016

  • Содержание исходного набора данных. Основные причины возникновения выбросов. Главные алгоритмы кластеризации. Обработка и очистка файла. Описание его полей. Прямоугольная вещественнозначная матрица. Метрика Минковского. Математическое определение объекта.

    курсовая работа [1,4 M], добавлен 25.10.2016

  • Понятие, виды и структура интеллектуальных поисковых систем. Российская интеллектуальная поисковая система Нигма: интерфейс и главные особенности. Математическая и химическая система Нигма. Понятие кластеризации как интеллектуального анализа данных.

    презентация [291,0 K], добавлен 21.08.2011

  • Классификация задач DataMining. Создание отчетов и итогов. Возможности Data Miner в Statistica. Задача классификации, кластеризации и регрессии. Средства анализа Statistica Data Miner. Суть задачи поиск ассоциативных правил. Анализ предикторов выживания.

    курсовая работа [3,2 M], добавлен 19.05.2011

  • Разработка самообучающейся интеллектуальной информационной системы для анализа кредитоспособности заемщика и оценки кредитных рисков на основе подхода иммунокомпьютинга. Применение процедур кластеризации, классификации и формирования оценок рисков.

    курсовая работа [822,3 K], добавлен 09.06.2012

  • Увеличение надежности информационных систем с помощью резервирования и повышения вероятности безотказной работы элементов. Применение кластеризации как альтернативы симметричным мультипроцессорным системам по производительности и коэффициенту готовности.

    курсовая работа [401,9 K], добавлен 18.06.2015

  • Исследование общих сведений о медицинских экспертных системах, способных заменить специалиста-эксперта в разрешении проблемной ситуации. Обучение искусственных нейронных сетей в программе Statistica 7. Обзор программной реализации модуля кластеризации.

    дипломная работа [5,9 M], добавлен 14.06.2012

  • Разработка приложения, целью которого ставится преобразование черно-белых полутоновых изображений в цветные. Обзор методики обработки изображения, способов преобразования изображения с помощью нейронной сети. Описания кластеризации цветового пространства.

    дипломная работа [6,3 M], добавлен 17.06.2012

  • Ознакомление с элементами топологии базы геоданных. Исследование и характеристика особенностей кластерной обработки. Изучение алгоритмов, использующихся при проверке и кластеризации. Анализ процесса использования пространственных отношений объектов.

    презентация [749,3 K], добавлен 18.10.2017

  • Сравнительный анализ существующих разработок сайтов СМИ. Обзор двух продуктов компании FarbaSite CMS и Joomla CMS, которые содержат модуль "Электронный дневник". Проектирование и подключение базы данных. Выбор языка программирования клиентской части.

    дипломная работа [1,2 M], добавлен 21.05.2013

  • Сущность, структура, алгоритм функционирования самообучающихся карт. Начальная инициализация и обучение карты. Сущность и задачи кластеризации. Создание нейронной сети со слоем Кохонена при помощи встроенной в среды Matlab. Отличия сети Кохонена от SOM.

    лабораторная работа [36,1 K], добавлен 05.10.2010

  • Описание функциональных возможностей технологии Data Mining как процессов обнаружения неизвестных данных. Изучение систем вывода ассоциативных правил и механизмов нейросетевых алгоритмов. Описание алгоритмов кластеризации и сфер применения Data Mining.

    контрольная работа [208,4 K], добавлен 14.06.2013

  • Сущность и основные задачи биомедицинской кибернетики. Особенности текущего момента развития ИТ в области наук о жизни. Применение кластерного анализа в процессе наблюдения за состоянием пациентов. Изучение требований к подготовке врачей-кибернетиков.

    презентация [5,1 M], добавлен 08.08.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.