Подходы к извлечению ассоциативных правил для анализа данных в нечетко-генетических системах
Извлечение ассоциативных правил для систем гибридного искусственного интеллекта. Обработка больших массивов значений. Изучение методов интеллектуального анализа нечетких данных: с предопределенными функциями принадлежности, алгоритмами на основе Apriori.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 12.01.2018 |
Размер файла | 26,6 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http: //www. allbest. ru/
Ростовский государственный университет путей сообщения
Подходы к извлечению ассоциативных правил для анализа данных в нечетко-генетических системах
М.П. Кобурнеева, Е.В. Климанская
Аннотация
В статье рассматриваются подходы к извлечению ассоциативных правил для систем гибридного искусственного интеллекта. Рассматривается известный алгоритм извлечения правил Apriori, который может применяться для обработки больших массивов количественных значений. В статье приводятся современные методы интеллектуального анализа нечетких данных: с предопределенными функциями принадлежности, алгоритмами на основе Apriori, которые обеспечивают легкий способ анализа и описания нечетких ассоциативных правил. Для работы с большими данными особенно подходящими являются алгоритмы на основе FP-деревьев. Подробно рассмотрены четыре типа нечетких генетических алгоритмов, позволяющих найти как функции принадлежности, так и нечеткие ассоциативные правила.
Ключевые слова: нечетко-генетические системы, гибридные интеллектуальные системы, ассоциативные правила, извлечение данных, интеллектуальный анализ данных
Введение
гибридный искусственный интеллект алгоритм
Системы гибридного искусственного интеллекта получают все большее распространение, в частности для извлечения закономерностей из больших массивов, состоящих из частично структурированных данных. Среди современного направления поисковой оптимизации наиболее современными являются генетические алгоритмы [1], искусственные нейронные сети [2] и когнитивные модели [3].
Наиболее востребованной задачей интеллектуального анализа данных является извлечение ассоциативных правил из нечетких данных Ассоциативное правило (АП) может быть представлено как “Х > Y”, где X и Y это наборы элементов. Например, при анализе покупательского поведения, это правило означает что если набор элементов X покупают, то набор элементов Y покупают так же хорошо. Широко известный подход для анализа ассоциативных правил - это Apriori-алгоритм [4], который состоит из трех этапов: 1) генерация наборов-кандидатов; 2) нахождение большого набора данных над данной минимальной поддержкой, подсчет минимальной поддержки; 3) включение ассоциативных правил над данным минимальным доверием.
Поскольку традиционные ассоциативные правила учитывают отношения между элементами, их также называют бинарными ассоциативными правилами.
Поскольку теория нечетких множеств обладает хорошей способностью обрабатывать количественные значения и представлять лингвистический смысл, а генетические алгоритмы хорошо подходят для оптимизации решений, то сравнительно недавно были предложены системы гибридного интеллекта, которые совмещают в себе положительные стороны обеих вышеперечисленных методов из теории искусственного интеллекта.
В работе предлагается подробное обсуждение наиболее современных методов извлечения ассоциативных правил для гибридных систем, а именно нечетко-генетических систем искусственного интеллекта.
1. Обзор задачи извлечения ассоциативных правил
Существующие подходы могут быть представлены в виде двух групп: с единичной минимальной поддержкой и множественной минимальной поддержкой. Под поддержкой в данном случае подразумевается некоторое пороговое граничное числовое значение. Такие методы впервые были представлены Агравалом [4] и Лью [5]. Затем несколько исследователей расширили эти подходы таксономией [6] и примерами, использующими количественные значения извлекаемые из баз данных [7]. Таким образом. данные подходы могут быть разделены на два класса:
алгоритмы нечеткого интеллектуального анализа данных (НИАД) с единичной минимальной поддержкой (SMSFM от single-minimum support fuzzy-mining)
алгоритмы нечеткого интеллектуального анализа данных с множественной минимальной поддержкой (MMSFM от multiple-minimum support fuzzy-mining).
Для методов группы SMSFM все элементы используют только одну минимальную поддержку для суждения об их важности для нечетких АП. Впрочем, при использовании этих алгоритмов, могут быть утрачены некоторые правила и элементы, значения которых проходят по верхней границе. Для преодоления этого недостатка были предложены подходы группы с MMSFM. Их главная идея заключается в том, чтобы каждый элемент имел свою величину минимальной поддержки для отражения их собственной важности.
Кроме того, поскольку элементы могут быть с таксономией, были предложены некоторые алгоритмы для разработки нечетких обобщенных АП и нечеткие многоуровневых АП.
Помимо Apriori алгоритма для разработки нечетких часто встречающихся (или популярных) элементов в виде уровней, Хан Джиавей [8] представил алгоритм frequent-pattern-tree (FP-tree, “дерево популярных предметных наборов”) и алгоритм FP-growth (адапт. русский перевод как “выращивание популярных предметных наборов”) для получения часто встречающихся наборов элементов из двоичных баз данных без генерации кандидатов. Метод состоит из двух этапов:
Сначала, при создании структуры FP-дерева, сохраняются только популярные единичные элементы;
Затем получают нечеткие популярные элементы из построенной структуры дерева FP.
Для такого типа разработки нечетких данных с концепцией дерева обработка обычно сложна из-за нечетких операторов, и, следовательно, в узлах дерева должна храниться дополнительная информация. Пападимитриу [9] предложил алгоритм нечеткого FP-tree (FFPT), чтобы найти нечеткие ассоциативные правила, основанные на подходе pattern-growth с механизмом, подобным FP. Лин [10] также предложил несколько различных древовидных структур для создания нечетких популярных наборов предметов.
2. Методы извлечения ассоциативных правил в условиях неизвестной функции принадлежности нечетких данных
Алгоритмы интеллектуального анализа нечетких данных, упомянутые выше, предполагают, что функции принадлежности (ФП) уже известны заранее. Однако формы ФП могут оказывать решающее влияние на конечные результаты анализа. Разработка эффективных подходов к получению как соответствующих ФП, так и нечетких АП является задачей нетривиальной и актуальной. Одним из наиболее перспективных подходов к извлечению знаний о ФП в качестве задачи оптимизации являются генетические алгоритмы (ГА). Проблема поиска ФП и нечетких АП с ГА в иностранной научной литературе называется проблемой генетического нечеткого анализа (GFM, genetic-fuzzy mining). Способы обработки массивов данных можно разделить на два варианта:
1) обработку всех элементов вместе, комплексный подход (Integrated Genetic-Fuzzy Mining Problem for Items, IGFM);
2) обработку элементов по отдельности, подход «разделяй и властвуй» (Divide-and-Conquer Genetic-Fuzzy Mining Problem, DGFM).
Поэтому, в зависимости от типов проблем с нечеткими данными и способов обработки элементов, проблему GFM можно разделить на четыре типа, которые далее описываются достаточно подробно.
1. Комплексный подход к алгоритму нечеткого генетического анализа для элементов с единичной минимальной поддержкой (IGFM-SMS).
Подход IGFM-SMS предполагает наличие только одной минимальной поддержки для всех элементов. При этом ФП для всех элементов кодируются в единую хромосому, а затем выводится в генетические алгоритмы. Наконец, производные функции принадлежности используются для управления нечеткими ассоциативными правилами. Было опубликовано несколько подходов к решению проблемы IGFM-SMS. Например, Хун [11] предложил генетически-нечеткий алгоритм интеллектуального анализа данных для извлечения как АП, так и ФП из количественных транзакций. Кайя [12] предложил использовать генетические алгоритмы для функций принадлежности и нечетких правил, попытавшись вывести функции принадлежности, которые могли бы достичь максимума эффективности в пределах заданного пользователем интервала минимально поддерживаемых значений. Мэтьюс [13] затем принял во внимание временную концепцию и предложил разработку временного АП с лингвистческим представлением 2-кортежей.
2. Комплексный подход к алгоритму нечеткого генетического анализа для элементов с множественными минимальными поддержками (IGFM-MMS).
В этом подходе учитывается, что различные элементы могут иметь различные свойства. Таким образом, для отражения их важности необходимы разные критерии. Например, предположим, что в наборе данных есть несколько дорогостоящих элементов, они редко покупаются из-за их высоких цен, и, таким образом, их значения поддержки являются низкими. Однако менеджер может еще быть заинтересован в этих продуктах из-за их высокой прибыли.
3. Подход “разделяй и властвуй” для элементов с единичной минимальной поддержкой (DGFM-SMS).
Преимущества IGFM в том, что они просты в использовании и с небольшими ограничением на функции пригодности GA. Однако, если количество элементов велико, для алгоритмов IGFM может потребоваться слишком много времени, чтобы найти решение близкое к оптимальному, потому что хромосома длинная. Стратегия «разделяй и властвуй» может использоваться, когда в GFM принимается только приблизительная функция пригодности. Например, когда количество больших одноэлементных наборов используются в оценке пригодности, стратегия "разделяй и властвуй" становится отличным выбором для решения этой проблемы, поскольку каждый элемент обрабатывается индивидуально.
4. Подход “разделяй и властвуй” для элементов с множественной минимальной поддержкой (DGFM-MMS).
В данном случае, проблема может рассматриваться как комбинация IGFM-MMS и DGFM-SMS. Таким образом, структура проблемы DGFM-MMS может быть легко разработана из предыдущих рамок для IGFM-MMS и DGFM-SMS. Поскольку DGFM-MMS является сложным алгоритмом, есть весьма ограниченное количество источников по теме нахождения минимальных поддержек и ФП элементов для нечетких АП. Так как в практических задачах количество АП велико и не может быть легко закодировано в хромосоме, большинство предложенных методов сначала изучали ФП для элементов, а затем, в соответствии с полученными ФП выводили нечеткие АП.
В соответствии с типами правил подходы так же можно разделить на четыре типа, включая нечеткие АП, нечеткие обобщенные АП, нечеткое взвешенное АП и нечеткое временное АП. В предыдущих подходах больше внимания уделяется нечетким АП и взвешенным нечетким АП.
На первом этапе генетический процесс используется для получения функций принадлежности для нечетких значений. На втором этапе нечеткие ассоциативные правила запускаются методом нечеткого поиска на основе производных функций принадлежности.
Заключение
В данной статье был проведен сравнительный анализ подходов к извлечению знаний, в данном случае ассоциативных правил из массивов частично структурированных данных. Среди них были методы, основанные на Apriori алгоритме, на алгоритме FP-деревьев и генетическом алгоритме. Главная идея этих подходов сосредоточена на применении теории нечетких множеств для обработки количественных значений. В подходах на основе Apriori количественные значения преобразуются в нечеткие множества в соответствии с предопределенными функциями принадлежности. Затем создаются нечеткие популярные наборы элементов и нечеткие АП на основе процесса выполнения алгоритма Apriori. Время выполнения такого анализа довольно продолжительно. Более быстрый вариант основан на алгоритме FP-tree. В целом функции принадлежности могут предоставляться экспертами, однако это не всегда применимо. Для автоматического получения соответствующих функций принадлежности предлагается использование нечетких генетических алгоритмов. Определены четыре типа подходов к нечеткому генетическому анализу, включая IGFM-SMS, IGFM-MMS, DGFM-SMS и DGFM-MMS.
Работа выполнена при финансовой поддержке РФФИ, проект № 16-01-00597-а.
Литература
1. Гладков Л.А., Курейчик В.В., Курейчик В.М. Генетические алгоритмы. М.: ФИЗМАТЛИТ, 2010. 368 с.
2. Пучков Е.В. Сравнительный анализ алгоритмов обучения искусственной нейронной сети // Инженерный вестник Дона, 2013, №4. URL: ivdon.ru/ru/magazine/archive/n4y2013/2135
3. Гинис Л.А. Развитие инструментария когнитивного моделирования для исследования сложных систем // Инженерный вестник Дона, 2013, № 3, URL: ivdon.ru/ru/magazine/archive/n3y2013/1806
4. Agrawal, R., Imielinski, T., Swami, A. Database mining: A performance perspective. IEEE Trans. Knowl. Data Eng. 5, 1993. pp. 914-925
5. Liu, B., Hsu, W., Ma, Y. Mining association rules with multiple minimum supports. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,1999. pp. 337-341
6. Tseng, M.C., Li, W.Y. Efficient mining of generalized association rules with non-uniform minimum support. Data Knowl. Eng. 62(1), 2007. рр. 41-64
7. Lee, Y.C., Hong, T.P., Wang, T.C. Multi-level fuzzy mining with multiple minimum supports. Expert Syst. Appl. 34(1), 2008, pp. 459-468
8. Han, J., Pei, J., Yin, Y., Mao, R. Mining frequent patterns without candidate generation: a frequent-pattern tree approach. Data Min. Knowl. Disc. 8, 2004, pp.53-87
9. Papadimitriou, S., Mavroudi, S.: The frequent fuzzy pattern tree. The WSEAS International Conference on Computers, 2005, рр.145-166
10. Lin, C.W., Hong, T.P., Lu, W.H. An efficient tree-based fuzzy data mining approach. Int. J. Fuzzy Syst. 12, 2010. pp. 150-157
11. Hong, T.P., Chen, C.H., Wu, Y.L., Lee, Y.C. A GA-based fuzzy mining approach to achieve a trade-off between number of rules and suitability of membership functions. Soft Comput. 10 (11), 2006. pp. 1091-1101
12. Kaya, M. Multi-objective genetic algorithm based approaches for mining optimized fuzzy association rules. Soft Comput. 10(7), 2006, pp. 578-586
13. Matthews, S.G., Gongora, M.A., Hopgood, A.A., Ahmadi, S. Temporal fuzzy association rule mining with 2-tuple linguistic representation. The IEEE International Conference on Fuzzy Systems, 2012. pp. 1-8
References
1. Gladkov L.A., Kurejchik V.V., Kurejchik V.M. Geneticheskie algoritmy. [Genetic Algorithms] M.: FIZMATLIT, 2010. р.368
2. Puchkov E.V. Inћenernyj vestnik Dona (Rus), 2013, №4. URL: ivdon.ru/ru/magazine/archive/n4y2013/2135
3. Ginis L.A. Inћenernyj vestnik Dona (Rus), 2013, №3. URL: ivdon.ru/ru/magazine/archive/n3y2013/1806
4. Agrawal, R., Imielinski, T., Swami, A. IEEE Trans. Knowl. Data Eng. 5, 1993. pp. 914-925
5. Liu, B., Hsu, W., Ma, Y. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 1999. pp. 337-341
6. Tseng, M.C., Li, W.Y. Data Knowl. Eng. 62(1), 2007, рр. 41-64
7. Lee, Y.C., Hong, T.P., Wang, T.C. Expert Syst. Appl. 34(1), 2008, pp. 459-468
8. Han, J., Pei, J., Yin, Y., Mao, R. Data Min. Knowl. Disc. 8, 2004, pp.53-87
9. Papadimitriou, S., Mavroudi, S. The WSEAS International Conference on Computers, 2005, рр. 145-166.
10. Lin, C.W., Hong, T.P., Lu, W.H. Int. J. Fuzzy Syst. 12, 2010, pp. 150-157
11. Hong, T.P., Chen, C.H., Wu, Y.L., Lee, Y.C. A GA-based fuzzy mining approach to achieve a trade-off between number of rules and suitability of membership functions. Soft Comput. 10 (11), 2006, pp. 1091-1101.
12. Kaya, M. Multi-objective genetic algorithm based approaches for mining optimized fuzzy association rules. Soft Comput. 10(7), 2006, pp. 578-586.
13. Matthews, S.G., Gongora, M.A., Hopgood, A.A., Ahmadi, S. The IEEE International Conference on Fuzzy Systems, 2012, pp. 1-8.
Размещено на Allbest.ru
...Подобные документы
Классификация задач Data Mining. Задача кластеризации и поиска ассоциативных правил. Определению класса объекта по его свойствам и характеристикам. Нахождение частых зависимостей между объектами или событиями. Оперативно-аналитическая обработка данных.
контрольная работа [26,1 K], добавлен 13.01.2013APRIORI - масштабируемый алгоритм поиска ассоциативных правил. Создание официального информационного портала для студенческого совета УлГУ "Династия". Принципы построение и создания хранилища данных. Перенос информационного портала на сервер ulsu.ru.
курсовая работа [1,5 M], добавлен 21.12.2015Эволюция систем искусственного интеллекта. Направления развития систем искусственного интеллекта. Представление знаний - основная проблема систем искусственного интеллекта. Что такое функция принадлежности и где она используется?
реферат [49,0 K], добавлен 19.05.2006Создание структуры интеллектуального анализа данных. Дерево решений. Характеристики кластера, определение групп объектов или событий. Линейная и логистическая регрессии. Правила ассоциативных решений. Алгоритм Байеса. Анализ с помощью нейронной сети.
контрольная работа [2,0 M], добавлен 13.06.2014Обработка текстовых данных, хранящихся в файле. Задачи и алгоритмы обработки больших массивов действительных и натуральных чисел. Практические задачи по алгоритмам обработки данных. Решение задачи о пяти ферзях. Программа, которая реализует сортировку Шел
курсовая работа [29,2 K], добавлен 09.02.2011Описание функциональных возможностей технологии Data Mining как процессов обнаружения неизвестных данных. Изучение систем вывода ассоциативных правил и механизмов нейросетевых алгоритмов. Описание алгоритмов кластеризации и сфер применения Data Mining.
контрольная работа [208,4 K], добавлен 14.06.2013Исследование основных отличий ассоциативных массивов от массивов скаляров. Разработка библиотеки классов. Выбор языка программирования. Сравнение языка C++ с Delphi, Java и JavaScript. Изучение методики тестирования и структуры тестового приложения.
практическая работа [390,2 K], добавлен 06.01.2013Разработка программ на языке Turbo Pascal на основе использования массивов данных. Особенности хранения данных, способы объявления переменных, действия над элементами массивов, их ввод и вывод. Практическое применение одномерных и многомерных массивов.
методичка [17,8 K], добавлен 25.11.2010Разработка комплекса интеллектуального анализа данных, получаемых в процессе работы коммерческого предприятия розничной торговли. Исследование стационарности ассоциаций, выявление частоты появления ассоциаций. Скрипты для создания баз данных и таблиц.
курсовая работа [706,3 K], добавлен 07.08.2013Понятие искусственного интеллекта как свойства автоматических систем брать на себя отдельные функции интеллекта человека. Экспертные системы в области медицины. Различные подходы к построению систем искусственного интеллекта. Создание нейронных сетей.
презентация [3,0 M], добавлен 28.05.2015Общая характеристика дисциплины "Основы искусственного интеллекта". Ее предмет, цели и задачи. Особенности и расшифровка ряда понятийных терминов, характеризующих сущность кибернетики. Методы и алгоритмы анализа данных для получения знаний и обучения.
презентация [10,9 K], добавлен 03.01.2014Классификация задач DataMining. Создание отчетов и итогов. Возможности Data Miner в Statistica. Задача классификации, кластеризации и регрессии. Средства анализа Statistica Data Miner. Суть задачи поиск ассоциативных правил. Анализ предикторов выживания.
курсовая работа [3,2 M], добавлен 19.05.2011Сбор ключевой статистики по интерфейсам, проведение аналитики и выдвижение гипотез по улучшению продукта. Рассмотрение методов анализа данных на базе конкретного проекта. Расположение инструментов на экране и порядок взаимодействия с ними у пользователя.
курсовая работа [664,7 K], добавлен 01.01.2018"Наивная" модель прогнозирования. Прогнозирование методом среднего и скользящего среднего. Метод опорных векторов, деревьев решений, ассоциативных правил, системы рассуждений на основе аналогичных случаев, декомпозиции временного ряда и кластеризации.
курсовая работа [2,6 M], добавлен 02.12.2014Параметры автомобиля, используемые в экспертной системе. Задание нечетких и лингвистических переменных, виды термов. Список правил для функционирования системы, результаты анализа ее работы. Применение алгоритма Мамдани в системах нечеткой логики.
курсовая работа [1,5 M], добавлен 10.02.2013Характеристика сущности искусственного интеллекта. Проблема создания искусственного интеллекта. Базовые положения, методики и подходы построения систем ИИ (логический, структурный, эволюционный, имитационный). Проблемы создания и реализация систем ИИ.
реферат [43,1 K], добавлен 19.07.2010Этапы статистического анализа данных, приемы и методы его проведения. Ключевые положения закона больших чисел в теории вероятностей, его общий смысл. Теорема Бернулли - простейшая форма закона больших чисел. Количество данных, способы его измерения.
реферат [112,3 K], добавлен 03.03.2014Изучение основных средств обеспечения гибкости моделей в системе КОМПАС-3D. Изучение метода создания ассоциативных чертежей по твердотельным параметрическим моделям. Характеристика видов параметризации. Понятие вида чертежа. Управление состоянием видов.
презентация [1,6 M], добавлен 25.06.2013Применение методов искусственного интеллекта и современных компьютерных технологий для обработки табличных данных. Алгоритм муравья, его начальное размещение и перемещение. Правила соединения UFO-компонентов при моделировании шахтной транспортной системы.
дипломная работа [860,8 K], добавлен 23.04.2011Метод анализа иерархий. Система для хранения больших объемов информации является база данных. База данных в наибольшей степени удовлетворяет всем выделенным критериям. Она обеспечивает быстрый поиск нужной информации (оперативность).
контрольная работа [326,9 K], добавлен 10.06.2004