Применение деревьев принятия решений при определении шаблонов данных информационных систем
Методы разработки алгоритмов обнаружения знаний в базах данных как базового подхода выделения значимых образцов (шаблонов) в структуре больших наборов данных. Две группы алгоритмов обнаружения знаний. Подход в области обнаружения знаний в базах данных.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 29.12.2020 |
Размер файла | 939,6 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Применение деревьев принятия решений при определении шаблонов данных информационных систем
Усов Алексей Евгеньевич,
ведущий архитектор
Варламов Александр Александрович,
старший архитектор
Бабкин Олег Вячеславович,
старший архитектор
Дос Евгений Владимирович,
архитектор;
Мостовщиков Дмитрий Николаевич,
старший архитектор, системный интегратор «Li9 Technology Solutions»
г. Райли
Аннотация
база шаблон алгоритм
Рассмотрены методы разработки алгоритмов обнаружения знаний в базах данных как базового подхода выделения значимых образцов (шаблонов) в структуре больших наборов данных. В рамках разработанной методологии выделены две группы алгоритмов обнаружения знаний: кластеризация объектов, классы которых изначально не определены, и методы индуктивного обучения, в рамках которых на основе заданного набора классов определяется принадлежность к ним объекта исследования. Предложен оригинальный подход в области обнаружения знаний в базах данных, в основу которого положены методы классификации, что базируются на таком средстве поддержки принятия решений, как дерево принятия решений. Разработанная методика позволяет проводить анализ как на основе заданных шаблонов классификации данных, так и выделять новые признаки информационных объектов исследуемого набора и его классов, включая признаки высокого порядка, как, например, сходство между классами, характеристики классов и потенциальные ошибки представленного набора данных.
Ключевые слова: информационные системы, методы классификации, обнаружение знаний в базах данных, дерево принятия решений, C4.5, ID3, FTree.
Abstract
Application of decision trees at defining information system patterns
Usov Aleksey Yevgenyevich - Lead Systems Architect;
Varlamov Aleksandr Aleksandrovich - Senior Solution Architect;
Babkin Oleg Vyacheslavovich - Senior System Architect;
Dos Evgeniy Vladimirovich - System Architect;
Mostovshchikov Dmitriy Nikolayevich - Senior System Architect,
IT integrator «LI9 technology solutions», Raleigh, United States of America
Methods for the development of knowledge discovery algorithms in databases are considered as a basic approach of significant samples detection at big data sets. Within the framework of the developed methodology, two groups of knowledge detection algorithms are distinguished: clustering objects with undefined classes and methods of inductive learning for determined objects by given set of classes. An original approach in the field of knowledge discovery at databases is proposed, which is based on classification methods based on a decision support tool such as a decision tree. The developed technique allows analyzing both on the basis of predetermined data classification patterns and highlighting new features of information objects of the data set and its classes, including patterns of a higher order, such as the similarity between classes, characteristics of classes and potential errors of the presented data set.
Keywords: information systems, classification methods, databases' knowledge discovery, decision tree, C4.5, ID3, FTree.
Основная часть
Методика обнаружения знаний в базах данных (KD: Knowledge Discovery) может быть определена как процесс выделения актуальных шаблонов при нейросетевом анализе больших наборов данных [1]. На сегодняшний день KD лежит в основе построения методов управления с прогнозирующими моделями, как наиболее продуктивного метода работы с базами данных, полученными в результате широкомасштабного исследования. В рамках данной работы, тем не менее, предлагается разделять задачи анализа данных и прогнозирования, и в соответствии с данным подходом строить математические модели KD. Это позволит увеличить эффективность анализа через соотнесение исполняемого алгоритма и класса задачи, что обуславливает актуальность исследования проведенного в рамках данной работы.
Анализ последних исследований и публикаций в данной области показал приоритет использования при кластеризации алгоритмов обучения без учителя (unsupervised learning), которые группируют объекты предметной области (domain objects) по признаку их сходства [2], что соответствует парадигме индуктивного обучения. Кроме того были рассмотрены методы подразумевающие наличие предварительной информации об оптимальной стратегии кластеризации, например, заданное количество кластеров на основе которых нейросетевые алгоритмы определяют их центроиды и границы [3].
Наиболее широко используемым методом индуктивного обучения является средство поддержки принятия решений, известное как дерево принятия решений (decision tree). Данный подход можно разделить на две базовые группы:
• деревья классификации (classification trees), где прогнозируемым результатом работы алгоритма (например, ID3 [4] или его расширенная версия C4.5 [5], где выбор атрибута происходит на основании нормализованного прироста информации) является выделение классов данных;
• деревья регрессии, где прогнозируемый результат работы алгоритма (алгоритм CART [6]) может быть представлен в числовой форме.
При этом построение деревьев классификации рассматривается как более сложная и значимая задача индуктивного обучения [7]. Большая часть работ в этой области посвящена построению прогностических моделей, в то время как более важным является выделение ключевых атрибутов объектов набора данных [8, 9]. Процесс классификации может быть рассмотрен прохождение пути от корня дерева принятия решений к листьям [10], которое содержит значения атрибутов. В работе [11], тем не менее, предлагается данный подход предлагается расширить в рамках KD, таким образом, все узлы дерева помимо листьев содержат наборы примеров классов. Соответственно, прохождение от корня к узлу определяет уровень сходства классов. Предложенная методология анализа
FTree (Filtered Tree) берет за основу алгоритм для роста дерева принятия решений (ID3, C4.5 или др.) с помощью которого производится анализ формы дерева. При этом остается возможность заложить в модель предварительный набор знаний.
Целью работы, таким образом, стала разработка методики получения точной модели предметной области на основе методов индуктивного обучения и деревьев принятия решений, которая производит анализ наибольшего числа объектов предметной области.
Методология построения дерева принятия решений при построении моделей мониторинга информационных систем
Дерево принятия решений в общем случае может быть представлен как ориентированный ациклический граф (DAG: Directed Acyclic Graph). Что касается структуры данного графа, следует отметить, что все его узлы, помимо корня имеют одно входящее ребро, а у корня, соответственно нет входящего ребра [1]. Аналогично, узлы без исходящих ребер называются листьями, а все остальные узлы - внутренними узлами. Эффективность алгоритма дерева принятия решений определяется через эффективность проведения классификации на основе данной структуры в отношении объектов, которые не входят в обучающий набор.
Пример построения алгоритма дерева принятия решений показан на рис. 1 и рис. 2. В качестве объекта моделирования была выбрана базовая схема системы выявления кибер-угроз (IDS: Intrusion Detection System) распределенной информационной системы (рис. 1).
Рис. 1. Базовая схема системы выявления кибер-угроз распределенной информационной системы
На рис. 1 наглядно представлены фундаментальные основы работы комплекса IDS, схема включает в себя весь набор ключевых элементов, которые отвечают за мониторинг и блокировку потенциальных кибер-угроз инфраструктуры распределенной информационной системы, как внутренних, так и внешних. Тем не менее, такая схема не является интуитивно понятной для неспециалиста в данной области, например, научного сотрудника, который на основе математического моделирования хочет определить эффективность работы комплекса и подготовить рекомендации для его усовершенствования или масштабирования. Для решения поставленной задачи может быть предложено построить алгоритм дерева принятия решений (рис. 2).
Рис. 2. Алгоритм дерева принятия решений системы выявления кибер-угроз
Корнем дерева принятия решений, представленного на рис. 2, является «канал передачи данных» а листьями - «регистрация» и «блокировка». Как можно видеть, построение дерева принятия решений происходит через разделения базового набора элементов на подмножества атрибутов, которые далее рекурсивно разделяются на меньшие подмножества-домены до тех пор, пока анализ не позволит выйти на листья дерева принятия решений. Все доменные объекты должны быть представлены с помощью пар атрибут-значение (на уровне классификации или числовой оценки). Наиболее репрезентативный атрибут представленного алгоритма «скрытый канал», он позволяет провести однозначную классификацию программного кода как кибер-угрозы для информационного ресурса. Во всех остальных случаях, соответственно, подмножество должно быть разбито на меньшие подмножества. Такой подход в значительной мере упрощает схему IDS, но при этом он может быть положен в основу алгоритмов моделирования широкого спектра задач по оценке мониторинга и защиты распределенных информационных систем
1. Оптимизация методов математического моделирования алгоритмов дерева принятия решений
Как было показано в предыдущем разделе, ключевая задача, которая решается при построении алгоритмом деревьев принятия решений - это выбор оптимального атрибута для разделения узла. Эффективность решения данной задачи определяет эффективность дерева принятия решений, равно как и его структуру. На сегодняшний день в данной области широко используется универсальный подход [12], который базируется на оценке уровня беспримесности узла (NID: node impurity degree).
Так, например, соотнесение уровня беспримесности узла Тп по отношению к уровню беспримесности его дочерних узлов Тп k Є (Тп 1; ТпЛ) относительно атрибута аь который для узла Тп, соответственно, может принимать К значений, что позволяет определить эффективность разбиения узла на подмножество, рассчитывается как:
где TV/.D () - функция оценки уровня беспримесности узла, а N U М () определяет количество примеров, связанных с узлом.
Как можно видеть, в рамках данного подхода есть возможность построить алгоритмы деревьев регрессии на основе коэффициента Джини G (Тп, С), который определяет разницу между распределением вероятности значений атрибутов Рпс Ј [Рп^ РпС}.
где С, таким образом, определяет полный набор меток класса.
Аналогичным образом при построении деревьев классификации в качестве функции оценки уровня беспримесности узла при соотнесении уровня беспримесности отдельного узла по отношению к уровню беспримесности его дочерних узлов можно использовать показатель энтропии С (Тп):
Как можно видеть, в рамках данного определения 8 (ai) может быть описана, как прирост информации (information gain).
Разработка метода построения деревьев классификации на основе оценки уровня беспримесности узла и показателя энтропии
Развитие метода построения деревьев классификации на основе оценки уровня беспримесности узла и показателя энтропии возможно при подборе более релевантного атрибута. Так, например, подход может заключаться в соотнесении разбиения и атрибута, на основе которого было проведено данное разбиение. Оптимальным атрибутом является тот, который вызывает разбиение, соответствующее правильному разбиению из обучающего набора соответствующему этому узлу. При этом выбирается нормированная метрика на основе энтропии, определенная в множестве разбиений. Энтропия разбиения, таким образом, может быть определена как неопределенность соответствия случайно выбранного объекта определенному классу.
Рассмотрим разбиение, описываемое через R Е {R1,… R…R,} конечного множества элементов базы данных D. В таком случае энтропия Н () множества разбиений R, которое определяется через мощность | Ri | (соответственно, мощность множества элементов базы данных равна | D |) может быть рассчитана на основе следующей системы уравнений:
При этом расстояние между двумя разбиениями (например, Д 6 {Д г,… Д;,… Д;} и 5 6 {5!,… 5 j,… 5у} в данном случае определяется как:
причем Н (Д | 5), Н (5 | Д) и Н (Д П 5) определяются через систему уравнений:
Данный математический аппарат может быть положен в основу построения дерева решений (рис. 3):
• работа с заданным набором базы знаний;
• работа с атрибутами, значения которых не заданы;
• масштабируемость структуры дерева знаний.
В области информационных технологий, и в частности в области построения алгоритмов мониторинга распределенных информационных систем существуют базы знаний, которые могут быть использованы при построении деревьев принятия решений. При этом в базовой схеме построения алгоритмов деревьев принятия решений не используются заданные набором базы знаний, поэтому подходы в могут разниться от использования данных наборов для определения атрибутов разбиения до их применения в построении модели организации структуры доменов.
Что касается работы с атрибутами, значения которых не заданы, то в данном случае также есть несколько подходов. Наиболее эффективным методом является рассмотрение статистической выборки и выделение наиболее часто встречающихся значений атрибута среди объектов, принадлежащих к соответствующему классу. В рамках данной работы также рассматривается подход, при котором таких атрибутов независимо от основного дерева принятия решений, с целью исключить ошибки при классификации. Это существенно увеличивает надежность и продуктивность средств мониторинга сетевых ресурсов распределенной информационной системы, но при этом является достаточно ресурсоемким подходом.
Рис. 3. Схема разработки деревьев классификации на основе оценки уровня беспримесности узла и показателя энтропии
Изначально на уровне математической модели подразумевалось, что структура дерева принятия решений должна быть фиксирована, в то время как в области анализа информационных систем в большинстве случаев возникает необходимость масштабирования данных алгоритмов в режиме реального времени. В данной работе предлагается использовать:
• методики SPRINT и CART [14], которые включают в себя создание списков атрибутов на этапе предварительной обработки всего множества информационных объектов при работе с деревьями регрессии;
• алгоритмы фреймворка RainForest, где используются как AVC-наборы, связывающие каждую пару атрибут-значение с меткой класса, так и AVC-группы, которые являются группами AVC-наборов, связанных с узлами дерева принятия решений [15].
Таким образом, была разработана комплексная методология построения алгоритмов деревьев принятия решений, которые могут быть поставлены за основу математического моделирования широкого спектра задач, связанных с мониторингом информационных систем.
В результате проведенного анализа была разработана методология построения алгоритмов деревьев принятия решений в частности предложены:
1. обобщенная схема построения деревьев классификации;
2. математический аппарат классификации на основе оценки уровня беспримесности узла и показателя энтропии;
3. подходы, которые включают в себя работу с заданным набором базы знаний, работу с атрибутами, значения которых не заданы и масштабируемость структуры дерева знаний.
Было показано, что данная методология может быть использована при моделировании задач, связанных с анализом распределенных информационных систем.
Список литературы /References
1. Maimon О. and Rokach L., editors. Data Mining and Knowledge Discovery Handbook, 2nd ed. Springer, 2010.
2. Luo J., Wu, Q. & Zhu L., 2013. Object-oriented full-time domain moving object data model. Journal of Computer Applications, 33 (4), 1015-1017. doi:10.3724/spj.1087.2013.01015.
3. RajamohamedR. & Manokaran J., 2017. Improved credit card churn prediction based on rough clustering and supervised learning techniques. Cluster Computing, 21 (1), 65-77. doi:10.1007/s10586-017-0933-1.
4. Zenghong W., Yufen C. & Jun Z., 2010. Adaptive rules mining in ACVis based on ID3 algorithm in decision tree. 2010 The 2nd Conference on Environmental Science and Information Application Technology. doi:10.1109/esiat.2010.5568899.
5. Symbology of the Logical Decision Tree, 2017. Decision-Making Management, 99-100. doi:10.1016/b978-0-12-811540-4.09979-8.
6. Radoglou-Grammatikis P.I. & Sarigiannidis P.G., 2018. An Anomaly-Based Intrusion Detection System for the Smart Grid Based on CART Decision Tree. 2018 Global Information Infrastructure and Networking Symposium (GIIS). doi:10.1109/giis.2018.8635743.
7. Pazzani M.J. Knowledge discovery from data? IEEE Intelligent Systems, 15 (2):10-13, 2000.
8. Armengol Е. Building partial domain theories from explanations. Knowledge Intelligence, 2/08:19-24, 2008.
9. Armengol Е. and Plaza Е. Discovery of toxicological patterns with lazy learning. In V. Palade,
R.J. Howlett and L. Jain, editors, KES-2003, number 2774 in Lecture Notes in Artificial Intelligence. Pages 919-926. Springer, 2003.
10. Armengol Е. Usages of generalization in CBR. In R.O. Weber and M.M. Richter, editors, ICCBR-2007. Case-based Reasoning and Development, number 4626 in Lecture Notes in Artificial Intelligence, pages 31-45. Springer-Verlag, 2007.
11. Armengol Е., Garda-Cerdana А. and Dellunde Р. Experiences Using Decision Trees for Knowledge Discovery. Springer International Publishing AG, 2017.
12. Moulana M. & Hussain M.A., 2016. An Optimized Decision Trees Approach for Knowledge Discovery Using Orthogonal Radom Matrix Projection with Outlier Detection. International Journal of Database Theory and Application, 9 (3), 87-94. doi:10.14257/ijdta.2016.9.3.10.
13. Lopez R. de Mantaras. A distance-based attribute selection measure for decision tree induction. Machine Learning, 6:81-92, 1991.
14. Shafer J.C., Agrawal R. and Mehta М. Sprint: A scalable parallel classifier for data mining. InVLDB, pages 544-555, 1996.
15. Gehrke J., Ramakrishnan R. and Ganti V. RainForest - a framework for fast decision tree construction of large datasets. Data Mining and Knowledge Discovery, 4 (2/3): 127-162, 2000.
Размещено на Allbest.ru
...Подобные документы
Основы для проведения кластеризации. Использование Data Mining как способа "обнаружения знаний в базах данных". Выбор алгоритмов кластеризации. Получение данных из хранилища базы данных дистанционного практикума. Кластеризация студентов и задач.
курсовая работа [728,4 K], добавлен 10.07.2017Data Mining как процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации). Его закономерности и этапы реализации, история разработки данной технологии, оценка преимуществ и недостатков, возможности.
эссе [36,8 K], добавлен 17.12.2014Фрагментарная обработка больших объектов в мультимедийных базах данных (прямой доступ к отдельным фрагментам хранимого объекта). Двухуровневое разбиение полей большого размера. Древовидное представление данных. Части объекта, определяемые поддеревом.
презентация [93,4 K], добавлен 11.10.2013Концепции хранилищ данных для анализа и их составляющие: интеграции и согласования данных из различных источников, разделения наборов данных для систем обработки транзакций и поддержки принятия решений. Архитектура баз для хранилищ и витрины данных.
реферат [1,3 M], добавлен 25.03.2013Понятие информационных систем и принципы их проектирования. Изучение различных методов извлечения знаний, построение оптимальной информационной системы Data Mining, позволяющей разбивать набор данных, представленных реляционными базами данных на кластеры.
аттестационная работа [4,7 M], добавлен 14.06.2010Эволюция концепций баз данных. Требования, которым должна удовлетворять организация базы данных. Модели представления данных. Язык SQL как стандартный язык баз данных. Архитектуры баз данных. Среда Delphi как средство для разработки СУБД.
дипломная работа [278,9 K], добавлен 26.11.2004Обзор существующих алгоритмов для обнаружения лиц. Выравнивание лица с помощью разнообразных фильтров. Использование каскадного классификатора Хаара для поиска лиц на изображении. Распознавание лиц людей с использованием локальных бинарных шаблонов.
дипломная работа [332,4 K], добавлен 30.09.2016Описание функциональных возможностей технологии Data Mining как процессов обнаружения неизвестных данных. Изучение систем вывода ассоциативных правил и механизмов нейросетевых алгоритмов. Описание алгоритмов кластеризации и сфер применения Data Mining.
контрольная работа [208,4 K], добавлен 14.06.2013Общая характеристика экспертных программ как систем искусственного интеллекта. Описание реализации в реляционной системе управления базами данных. Рассмотрение особенностей интеграции объектных таблиц принятия решения в проект по распознаванию символов.
дипломная работа [662,5 K], добавлен 20.07.2015Типы изображений (черно-белые, полутоновые, цветные) и их форматы. Устройства, создающие цифровые изображения, и их параметры. Применение и характеристики методов сжатия изображений. Поиск по содержимому в базах данных изображений. Структуры баз данных.
презентация [360,4 K], добавлен 11.10.2013База знаний - структурированная информация из области знаний для использования кибернетическим устройством (человеком). Классификация, структура, формат представления знаний, интеллектуальные системы поиска информации. Базы знаний на примере языка Пролог.
презентация [51,3 K], добавлен 17.10.2013Совершенствование технологий записи и хранения данных. Специфика современных требований к переработке информационных данных. Концепция шаблонов, отражающих фрагменты многоаспектных взаимоотношений в данных в основе современной технологии Data Mining.
контрольная работа [565,6 K], добавлен 02.09.2010Реализация алгоритма верификации данных; разработка программы обнаружения аномальных данных в одномерных выборках. Характеристика методов D-статистики, Титьена-Мура, диаграммы "Ящик с усами"; обеспечение эффективности оценок статистических данных.
курсовая работа [2,5 M], добавлен 27.05.2013Построение инфологической концептуальной модели предметной области. Структура базы данных Microsoft Office Access. Формы, запросы и отчеты. Создание форм, запросов и отчетов в базах данных. Схема данных физической и логической сущности в Erwin 4.0.
курсовая работа [5,1 M], добавлен 13.12.2011Проектирование системы принятия решения для аттестации знаний абитуриента на основе тестирования. Особенности создания базы данных и плана перевозок с минимизацией затрат. Разработка информационно-логической модели предметной области "Книга" с атрибутами.
курсовая работа [7,9 M], добавлен 10.10.2012Основные модели представления знаний. Системы поддержки принятия решений. Диаграмма UseCase. Разработка базы данных на основе трех моделей: продукционные правила, семантическая сеть, фреймовая модель. Программная реализация системы принятия решений.
курсовая работа [715,1 K], добавлен 14.05.2014Рассмотрение понятия и истории возникновения систем поддержки принятия решения. Приспособленность информационных систем к задачам повседневной управленческой деятельности. Понятие термина "интеллектуальный анализ данных". Методика извлечения знаний.
реферат [79,8 K], добавлен 14.04.2015Работа с хранящейся в базах данных информацией. Язык описания данных и язык манипулирования данными. Распространение стандартизованных языков. Структурированный язык запросов SQL. Язык запросов по образцу QBE. Применение основных операторов языка.
презентация [76,2 K], добавлен 14.10.2013Рассмотрение проблемы обеспечения санкционированности использования информации в базах данных (защита данных от нежелательной модификации, уничтожения, заражения программами-вирусами) и юридического регулирования безопасности на примере СУБД Ms SQL.
курсовая работа [50,4 K], добавлен 30.03.2010Сущность и функциональные особенности баз данных, их классификация и типы, внутренняя структура и элементы. Модели данных, хранящихся в базах: иерархическая, сетевая, реляционная, многомерная, объектно-ориентированная. Виды запросов и типы таблиц.
дипломная работа [66,7 K], добавлен 06.01.2014