Нечеткие гибридные системы в задачах интеллектуального анализа данных
Построение средств интеллектуального анализа данных для нечетких реляционных серверов. Задачи кластеризации и выявления зависимостей в форме нечетких продукций. Гибридный алгоритм использования нечеткой нейронной сети в качестве DM для реляционных данных.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 17.01.2018 |
Размер файла | 43,6 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Нечеткие гибридные системы в задачах интеллектуального анализа данных
Введение
нечеткий реляционный сервер гибридный
В настоящее время применение методов анализа данных часто бывает затруднено тем, что часто для конкретной задачи из какой либо предметной области выборка характеризуется не числовым характером атрибутов. В частности, в макроэкономических, социологических, маркетинговых, медицинских базах данных широко используется лингвистическая форма представления данных. Для оперирования подобными данными необходимо организовать среду хранения нечетких атрибутов. В настоящее время существует ряд теоретических и практических разработок, позволяющих создавать хранилища данных с нечеткими атрибутами. Это отражено в работах Дидьера Дюбуа Дюбуа Д., 1990 , Мичинори Наката (Michiori Nakata), Генри Прада (Henri Prade) Eufit'98 1998 , в которой исследуется нахождение элементов, с достаточно важными характеристиками; Ж.К.Куберо (J.C.Cubero), Ф.Куенца (F.Cuenca), И.Бланко (I.Blanco), М.А.Вила (M.A.Vila) IFSA'97, 1997 , где рассматриваются неполные функциональные зависимости в сравнении с нахождением знаний в базах данных; исследования Греда Вагнера (Gred Wagner) Eufit'98 1998 , связаны с логической перестройкой нечеткого обращения в базах данных и логических программах; М.А.Вила (M.A.Vila), Ж.К.Куберо (J.C.Cubero), О.Понс (O.Pons), Дж.М.Медина (J.M.Medina) , где исследуются запросы в объектно-ориентированных нечетких базах данных; Анны Изабель Агуилера Фарако (Ana Isabel Aguilera Faraco) и Леонида Жозе Тинео Родригаса (Leonid Jose Tineo Rodriguez) Eufit'98 1998 , в которой разработана нечеткая дедуктивная модель и доведена до реального воплощения; Горбоконенко Е.А. Горбоконенко Е.А. 2000a; 2000b, 2001, где предложена и реализована нечеткая реляционная модель данных.
Несмотря на значительные результаты достигнутые в интеллектуальном анализе данных остается ряд нерешенных задач. Так, использование не числовых атрибутов, в том числе нечетких, не поддержано разработанными методами анализа.
1. Формализованная постановка задачи нечеткой кластеризации
Пусть исследуемая совокупность представляет собой конечное множество элементов , которое получило название множество объектов кластеризации. В рассмотрение вводиться конечное множество признаков или атрибутов , каждый из которых количественно представляет некоторое свойство или характеристику элементов рассматриваемой проблемной области. При этом - общее количество объектов данных, а - общее количество измеримых признаков.
Далее предполагается, что для каждого из объектов кластеризации некоторым образом измерены все признаки множества в некоторой количественной шкале. Тем самым, каждому из элементов поставлен в соответствие некоторый вектор , где - количественное значение признака для объекта . Для определенности будем предполагать, что все принимают действительные значения. Векторы значений признаков удобно представлять в виде матрицы данных размерности каждая строка которой равна значению вектора .
Задача нечеткого кластерного анализа формулируется следующим образом: на основе исходных данных определить такое нечеткое разбиение или нечеткое покрытие множества на заданное число нечетких кластеров которое доставляет экстремум некоторой целевой функции среди всех нечетких разбиений или экстремум целевой функции среди всех нечетких покрытий. Для решения задачи требуется дополнительно уточнить вид целевой функции и тип искомых нечетких кластеров (поиск нечеткого разбиения или покрытия).
2. Модель и реализация нечеткого реляционного сервера данных
Предложена нечеткая реляционная модель данных, определены следующие требования и ограничения к модели.
Пусть схемой отношения R называется конечное множество имен атрибутов {A1, A2, …, An}. Каждому имени атрибута Ai ставится множество Di, называемое доменом атрибута Ai, 1 Ј--i--Ј--n. Домены являются произвольными непустыми конечными или счетными множествами. И пусть D = <D1, D2 , …,Dn>.
Домен атрибута реляционного отношения будем называть нечетким, если для него определены:
1. имя атрибута Ai;
2. универсальное множество X;
3. терминальное множество значений T, представляющих собой нечеткие метки.
Нечетким отношением будем называть конечное множество отображений {t1, t2, …, tp} из R в D, если хотя бы одно ti ? Di и Di - нечеткий домен.
Модель рассчитана на представление нечетких чисел; следовательно, доменом атрибута нечеткого числа является множество действительных чисел. Нечеткое число определяется на основе:
1. функции принадлежности;
2. лингвистической оценки.
Под лингвистической оценкой будем понимать одно из возможных значений лингвистической переменной, которое определяется соответствующим термом.
3. Гибридный алгоритм нечеткой кластеризации
Для эффективной кластеризации предлагается следующий алгоритм:
1. Новая функция оценки сепарабельности и компактности.
2. Алгоритм кластеризации. Многошаговый maxnim.
С помощью Maxmin метода производится инциализация разбиений путем разделения объектов настолько, насколько это возможно. Затем, путем оптимизации находится локальный оптимум. Каждый центр кластера используется в качестве начальной точки. Затем переход на следующую итерацию. Алгоритм выполняется до сходимости алгоритма или пока не будет достигнуто заданное количество итераций.
После нахождения оптимального решения для выбранного количества кластеров с, с помощью алгоритма объединения находим разбиение с-1.
Из множества существующих алгоритмов кластеризации лишь несколько ориентированны на кластеризацию плотных скоплений точек. Эти методы предполагают, что пользователем задано число кластеров и/или некоторые пороговые значения, изменение которых сильно влияет на результат.
1. Предлагается новая функция оценки, которая пригодна для использования даже при очень большом количестве кластеров.
2. Предлагается новый гибридный алгоритм кластеризации. В данном алгоритме применяется оптимизированный maxmin метод в сочетании со стратегией слияния таким образом, что всегда возможно сформировать оптимальные варианты для переменного количества кластеров. Затем с помощью функции оценки, которая основана на мерах сепарабельности и компактности, выбирается оптимальный вариант кластеризации.
Гибридный алгоритм кластеризации включает в себя следующие шаги.
Вход: множество данных , maxnum - максимальное количество кластеров.
Выход: Оптимальное множество кластеров .
Шаг 1. , , . Случайным образом выбирается объект в качестве точки старта . Выполняется многошаговый maxmin алгоритм с параметрами для поиска оптимального множества кластеров для . Вычисляется функция оценки для .
Шаг 2. Выполняется алгоритм слияния для получения множества кластеров , выбирается центр в качестве точки старта , , . Выполняется многошаговый maxmin алгоритм с параметрами для поиска оптимального множества кластеров для . Вычисляется функция оценки для и принимается как . Если , тогда , , . Повтор шага 2, пока .
Шаг 3. Вывод: - оптимальное множество кластеров.
Данный алгоритм имеет ряд преимуществ перед другими алгоритмами кластеризации.
Сравнение алгоритмов кластеризации. Табл. 1
Алгоритм |
Применимость к сильно сгруппированным данным |
Необходимость указания количества кластеров |
Чувствительность к входным параметрам |
Применимость к неравномерно распределенным данным |
|
Гибридный алгоритм |
Да |
Нет |
Нет |
Да |
|
k-средних |
Да |
Да |
Да |
Да |
|
Субстрактивный |
Да |
Нет |
Да |
Нет |
|
Maxmin |
Да |
Нет |
Да |
Да |
|
Fuzzy c-means |
нет |
да |
Да |
Да |
4. Результат кластеризации социологической базы данных
В 2000 году институтом социально-экономических проблем народонаселения при российской академией наук была разработана анкета «Социально-экономическое положение населения России». Анкета имеет такие разделы, как «Общие данные», «Занятость», «Социальная мобильность», «Социальное положение», «Политическая активность», «Социально-демографический состав домохозяйства», «Уровень жизни домохозяйства», «Расходы», «Имущество», «Жилищные условия», «Личное подсобное хозяйство (для сельских жителей), дачный, огородный участок (для горожан)». Выборка данных для анализа представлена результатами проведения анкетирования в г. Димитровград Ульяновской области.
Целью данной анкеты являлось изучение социально-экономического положения населения России. Эти данные необходимы для корректировки экономической политики России, разработки рекомендаций по мерам, направленным на повышение уровня жизни российских граждан. Анкета состоит из 129 пунктов (438 вопросов). Для проведения опроса случайным образом были отобраны 1080 человек. На некоторые из вопросов нельзя дать четких ответов, например, вопрос №46 «Как часто Вы работаете дома по вечерам и в Ваши выходные дни?». Варианты ответов: часто, редко, никогда. Кластеризация таких данных сложна, так как при делении на классы необходимо объединять различные лингвистические метки. Данные, полученные на основе анкетирования, были погружены в нечеткий реляционный сервер данных. В результате были получены данные, пригодные для автоматизированной обработки информации с помощью DM. Нечетким меткам были поставлены в соответствие функции принадлежности
Табл.2Функции принадлежности.
OBJ_NAME |
FE_NAME |
FN_STRING |
|
ЗДОРОВЬЕ |
ОТЛИЧНОЕ |
0.00/3+1.00/4 |
|
ЗДОРОВЬЕ |
ОЧЕНЬ_ПЛОХОЕ |
1.00/0+0.00/1 |
|
ЗДОРОВЬЕ |
ПЛОХОЕ |
0.00/0+1.00/1+0.00/2 |
|
СЛОЙ |
ВЕРХНИЙ_СЛОЙ |
0.00/4+1.00/5+0.00/6 |
|
СЛОЙ |
СРЕДНИЙ_СЛОЙ |
0.00/2+1.00/3+0.00/4 |
|
СЛОЙ |
ЭЛИТА |
0.00/5+1.00/6 |
|
СЛОЙ |
СОЦИАЛЬНОЕ_ДНО |
1.00/0+0.00/1 |
Данные были погружены в нечеткий сервер данных и проанализированы с помощью разработанного DM.
По результатам анализа можно сделать вывод о выделении кластера, представители которого имеют две квартиры и большую жилплощадь. Также можно отметить, что они более приспособлены к экономической ситуации, верят в себя и часто работают дома. Причем денежные поступления у них не больше чем у остальных. Похоже, что они после школы начали работать и преуспели в профессиональном плане.
Причиной отсутствия четкого разделения между социальными слоями общества являются особенности исходных данных, рассмотренные ниже. Как показывает результат, подавляющее большинство людей относят себя к среднему социальному классу. К высшему классу отнесли себя менее 1% опрошенных.
При кластеризации по субъективным атрибутам получаем следующие результаты, приведенные на рис. 1
Рис. 1 Результаты кластеризации
Явно выделяется класс людей среднего положения, нормально обеспеченных, хорошо знающих свое дело, хорошо приспособленных и верящих в то, что положение в стране не ухудшится. Представители третьего класса считают, что положение их семьи и уровень обеспечения низкий, приспособленность к ситуации очень низкая, причем они знают, что их состояние полностью определяется их собственными усилиями. Свою квалификацию оценивают как низкую и думают, что жизнь ухудшится. Второй класс похож на третий с той разницей, что его представители считают себя немного более приспособленными, уверены в свой квалификации, хотя и не верят в свои силы.
Заключение
С использованием математического аппарата, описанного выше, был реализован DM для реляционных баз данных с нечеткими атрибутами. Программный продукт позволяет производить кластеризацию нечетких данных и выявлять зависимости в виде нечетких продукций. Представленный алгоритм позволяет проводить кластеризацию сильно сгруппированных и неравномерно распределенных данных, нечувствителен к входным параметрам и не требует указания количества кластеров. Разработанный программный продукт может быть эффективно использован для обработки социологических, медицинских, макроэкономических, маркетинговых и других баз данных, которые предполагают хранение данных в виде лингвистических меток и нечетких атрибутов.
Список литературы
1.IFSA'97, 1997 1 IFSA'97. Prague. Seventh International Fuzzy System Association World Congress. University of Economics Prague
2.Fuzzy Structures, 1997 2 Tatra Mountaints. Mathematical Publications. Fuzzy Structures. Current Trends Volume 13 1997
3.Eufit'98 1998 3 Eufit'98 6th European Congress on Intelligent Techniques and Soft Computing ELITE - European Laboratory for Intelligent Techniques Engineering. Hrsg. Von Prof. Dr. Dr. h. c. Hans-Jurgen Zimmermann. - Aachen: Mainz, 1998 ISBN3-89653-500-5
4.Горбоконенко Е.А. 2000a 4 Горбоконенко Е.А., Ярушкина Н.Г. Представление нечеткой информации в СУБД. Труды 7-ой национальной конференции по искусственному интеллекту - М.: издательство физ.-мат. литературы, 2000, с. 479-484
5.Горбоконенко Е.А. 2000b 5 Горбоконенко Е.А. FuzzyData Manager. Регистрационный номер в Информационно-библиотечном фонде Российской Федерации 50200100422.
6.Горбоконенко Е.А 2001 6 ., Ярушкина Н.Г. Применение нечеткой СУБД в САПР. Труды конгресса «Искусственный интеллект в XXI веке». Научное издание. - М.: Издательство Физико-математической литературы, 2001г.
7.Городецкий В.И 2002a 7. Современное состояние технологии извлечения знаний из баз и хранилищ данных (Часть1) Новости ИИ, 2002, №3
8.Городецкий В.И. 2002b 8 Современное состояние технологии извлечения знаний из баз и хранилищ данных (Часть2) Новости ИИ, 2002, №4
9.Дюбуа Д., 1990 9 Дюбуа Д Прад А. Теория возможностей. Приложения к представлению знаний в информатике.: Пер. с фр. - М.: Радио и связь, 1990: 288 с.
10. Ярушкина Н.Г 15 Ярушкина Н.Г. Основы теории нечетких и гибридных систем. М.: Финансы и статистика, 2004, 320 с.
Размещено на Allbest.ru
...Подобные документы
Разработка комплекса интеллектуального анализа данных, получаемых в процессе работы коммерческого предприятия розничной торговли. Исследование стационарности ассоциаций, выявление частоты появления ассоциаций. Скрипты для создания баз данных и таблиц.
курсовая работа [706,3 K], добавлен 07.08.2013Создание структуры интеллектуального анализа данных. Дерево решений. Характеристики кластера, определение групп объектов или событий. Линейная и логистическая регрессии. Правила ассоциативных решений. Алгоритм Байеса. Анализ с помощью нейронной сети.
контрольная работа [2,0 M], добавлен 13.06.2014Методы статического и динамического анализа зависимостей по данным для последовательных программ. Разработан и реализован алгоритм гибридного анализа, объединяющий достоинства обоих методов. Статическая библиотека представления базы данных САПФОР.
дипломная работа [169,6 K], добавлен 21.11.2010Сущность и понятие кластеризации, ее цель, задачи, алгоритмы; использование искусственных нейронных сетей для кластеризации данных. Сеть Кохонена, самоорганизующиеся нейронные сети: структура, архитектура; моделирование кластеризации данных в MATLAB NNT.
дипломная работа [3,1 M], добавлен 21.03.2011Основы проектирования реляционных баз данных. Схема взаимосвязей моделей и представлений сложной системы в процессе объектно-ориентированного анализа. Примеры графического изображения конкретных классов. Представление об информационной модели данных.
презентация [1,6 M], добавлен 14.10.2013Сущность и характеристика реляционных баз данных, предъявляемые к ним требования. Имена и виды полей, их свойства. Классификация и структура метаданных. Понятие главной и дочерней таблиц, ссылочной целостности. Типы индексов, порядок сортировки записей.
курсовая работа [323,4 K], добавлен 09.01.2013Эволюция концепций баз данных. Требования, которым должна удовлетворять организация базы данных. Модели представления данных. Язык SQL как стандартный язык баз данных. Архитектуры баз данных. Среда Delphi как средство для разработки СУБД.
дипломная работа [278,9 K], добавлен 26.11.2004Интеллектуальный анализ данных как метод поддержки принятия решений, основанный на анализе зависимостей между данными, его роль, цели и условия применения. Сущность основных задач интеллектуального анализа: классификации, регрессии, прогнозирования.
контрольная работа [25,8 K], добавлен 08.08.2013Анализ реляционных баз данных и способов манипулирования ими. Основные понятия баз данных, архитектура СУБД, модели данных. Модель сущность-связь, характеристика связей, классификация сущностей, структура первичных и внешних ключей, целостности данных.
курсовая работа [166,6 K], добавлен 18.07.2012Проблема применения методов прогнозирования кадровой работы на основе использования компьютерных технологий. Концепция банка данных, сущность и функции. Отличие реляционных и объектно-ориентированных баз данных. Организация и технология обработки данных.
реферат [1,0 M], добавлен 23.09.2014Определение архитектуры реляционных СУБД. Рассмотрение кластеризации как основного способа минимизации числа дисковых операций ввода-вывода данных. Применение индексов для повышения производительности SQL-запросов. Процесс кэширования в базах данных.
курсовая работа [61,1 K], добавлен 15.07.2012Проектирование базы данных "Хозяйственный учет футбольного клуба". Основные принципы построения, использования и оптимизации реляционных баз данных. Анализ предметной области. Использование ER-диаграмм, минимизация зависимостей, построение запросов.
дипломная работа [856,5 K], добавлен 21.06.2010Содержание исходного набора данных. Основные причины возникновения выбросов. Главные алгоритмы кластеризации. Обработка и очистка файла. Описание его полей. Прямоугольная вещественнозначная матрица. Метрика Минковского. Математическое определение объекта.
курсовая работа [1,4 M], добавлен 25.10.2016Основные понятия и классификация систем управления базами данных. Модели организации данных. Проектирование реляционных баз данных. Основные особенности создания и использования баз данных для информационного обеспечения управленческой деятельности.
курсовая работа [2,0 M], добавлен 20.01.2013Исследование производительности труда методом компонентного и кластерного анализов. Выбор значащих главных компонент. Формирование кластеров. Построение дендрограммы и диаграммы рассеивания. Правила кластеризации в пространстве исходных признаков.
лабораторная работа [998,9 K], добавлен 25.11.2014Базы данных с двумерными файлами и реляционные системы управления базами данных (СУБД). Создание базы данных и обработка запросов к ним с помощью СУБД. Основные типы баз данных. Базовые понятия реляционных баз данных. Фундаментальные свойства отношений.
реферат [57,1 K], добавлен 20.12.2010Цели проектирования баз данных (БД). Возникающие в процессе проектирования БД проблемы, особенности из разрешения в процессе нормализации отношений. Понятие функциональных зависимостей. Нормальные формы, обоснованные функциональными зависимостями.
контрольная работа [193,1 K], добавлен 21.06.2016Основные этапы систем нечеткого вывода. Правила нечетких продукций, используемые в них. Нечеткие лингвистические высказывания. Определение алгоритмов Цукамото, Ларсена, Сугено. Реализации нечеткого вывода Мамдани на примере работы уличного светофора.
курсовая работа [479,6 K], добавлен 14.07.2012Проектирование реляционных баз данных. Основные типы модулей. Исходное отношение, нормализация. Процесс создания базы данных в программном продукте Microsoft Access. Организация связей, обеспечение целостности данных. Формирование запросов, отчёт.
курсовая работа [3,4 M], добавлен 24.04.2014Концептуальное моделирование профессиональной среды. Создание единой информационной сети. Перечень данных необходимых для реализации функций. Проектирование реляционных баз данных. Нормализация отношений и структура файлов. Выбор средств программирования.
научная работа [20,5 K], добавлен 29.01.2009