Построение нечеткого классификатора с использованием метода субтрактивной кластеризации и последующая оптимизация его структуры для повышения интерпретируемости результатов
Характеристика и особенности процесса построения нечеткого классификатора, специфика и применение метода субтрактивной кластеризации. Нечеткий классификатор на основе субтрактивной кластеризации. Сущность оптимизации структуры нечеткого классификатора.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 17.01.2018 |
Размер файла | 106,0 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Построение нечеткого классификатора с использованием метода субтрактивной кластеризации и последующая оптимизация его структуры для повышения интерпретируемости результатов
Н.А. Новоселова
В работе описан метод построения нечеткого классификатора с использованием субтрактивной кластеризации, который позволяет получить компактную и интерпретируемую структуру классификационной модели, обладающей достаточно высокой точностью классификации. На конкретном примере рассмотрен процесс построения нечеткого классификатора.
Введение
Системы анализа данных, позволяющие генерировать множество классифицирующих правил с использованием набора данных широко используются в биологии, медицине и других областях. В последнее время широкое распространение получили нечеткие системы классификации, которые позволяют улучшить процесс классификации за счет возможности использования перекрывающихся классов, а также получить интерпретируемые результаты за счет открытой структуры нечеткой модели. Традиционно нечеткие системы строились на основе знаний экспертов в виде лингвистических высказываний. Новым направление является разработка методов построения нечетких классификаторов с использованием имеющихся числовых данных измерений. К таким методам относятся нейросетевые нечеткие методы [Nauck et al., 1999], методы генерирования нечетких классифицирующих правил на основе генетического алгоритма (ГА) [Ishibuchi et al., 1999], нечеткая кластеризация в комбинации с ГА-оптимизацией [Setnes et al., 2000]. Однако большинство разработанных методов акцентировалось на получении более точной классификации в ущерб интерпретируемости результатов. В данной статье рассматривается метод построения нечеткого классификатора с использованием результатов субтрактивной кластеризации. Использование субтрактивной кластеризации позволяет получить компактную начальную структуру нечеткого классификатора, параметры которого в дальнейшем могут быть оптимизированы с использованием обучающих алгоритмов, известных из области искусственных нейронных сетей. Использованием специальных методов оптимизации структуры нечеткого классификатора - алгоритмов отбора признаков для классификации и упрощения набора решающих правил на основе критериев сходства - позволяет в дальнейшем улучшить интерпретируемость результатов.
1. Нечеткая модель для классификации или нечеткий классификатор
Предлагаемая нечеткая модель для классификации отличается от классической и состоит из набора нечетких классифицирующих правил Ri, каждое из которых определяет принадлежность к каждому из имеющихся классов Nc с некоторой вероятностью. Предпосылки правил представляют собой нечеткие высказывания в n-мерном пространстве признаков, а следствия правил являются четкими значениями вероятностей принадлежности к классам c1,c2,…,cNc:
Ri: Если x1,k это Ai1 и … xn,k это Ain, тогда
yk=с1 с вероятностью P(c1|Ri),…, (1.1)
yk= cNc с вероятностью P(cNc|Ri), i=1,…,M,
где n - количество признаков, xk=[x1,k; x2,k;…,xn,k]T - входной вектор признаков; yk - выходы Ri-го правила, определяемые вероятностями P(cj|Ri) принадлежности к классам cj j=1,…, Nc; Ai1,…,Ain - нечеткие множества предпосылки. Для логической связки отдельных элементов предпосылки используется оператор произведения. Степень активации i-го правила вычисляется следующим образом:
. (1.2)
Подобно нечеткой модели Такаги-Сугено [Yager et al., 1984] правила нечеткой модели для классификации агрегируются с использованием нормализованного нечеткого среднего для каждого из определенных в следствиях правил классов. Выход классификатора определяется меткой класса, который имеет наивысшую активацию:
. (1.3)
Основным преимуществом представленного классификатора (1.1-1.3) является то, что нечеткая модель может состоять из некоторого числа правил превышающего количество классов и каждое правило может определять более одного класса. В разделе 3 представлен метод построения представленного выше классификатора с использованием субтрактивной кластеризации.
2. Метод субтрактивной кластеризации
Метод субтрактивной кластеризации не требует задания начального количества кластеров [Yager et al., 1984] и не является нечеткой кластеризацией, однако, его часто используют при синтезе нечетких правил из данных.
На первом шаге субтрактивной кластеризации определяют точки, которые могут быть центрами кластеров. На втором шаге для каждой такой точки рассчитывается значение потенциала, показывающего возможность формирования кластера в ее окрестности. Чем плотнее расположены объекты в окрестности потенциального центра кластера, тем выше значение его потенциала. После этого итерационно выбираются центры кластеров среди точек с максимальными потенциалами.
Для алгоритма субтрактивной кластеризации число потенциальных центров кластеров должно быть конечным. В качестве начальных центров кластеров могут быть выбраны все объекты кластеризации. Существует еще один способ инициализации потенциальных центров кластеров, состоящий в дискретизации пространства входных признаков. Для этого диапазоны значений входных признаков разбивают на несколько интервалов. Проводя через точки разбиения прямые, параллельные осям отдельных признаков, получаем гиперкуб, узлы которого и соответствуют центрам потенциальных кластеров.
Потенциалы центров кластеров рассчитываются следующим образом:
, (2.1)
где M - количество начальных центров, N - количество объектов кластеризации, Ci=(c1,i, c2,i,…, cn,i) - потенциальный центр i-го кластера, - положительная константа, - расстояние между потенциальным центром кластера Ci и объектом кластеризации Xk.
В соответствии с выражением (2.1) центром первого кластера выбирается точка с наибольшим потенциалом. Прежде, чем выбрать следующий центр кластера необходимо исключить влияние только что найденного кластера. Для этого значения потенциала для оставшихся возможных центров кластеров пересчитывается с учетом вклада центра только что найденного кластера V1:
,
где , - положительная константа.
Центр второго кластера определяется по максимальному значению обновленных потенциалов оставшихся точек. Итерационная процедура пересчета потенциалов и выделения центров кластеров продолжается до тех пор, пока максимальное значение потенциала превышает изначально заданный порог.
3. Нечеткий классификатор на основе субтрактивной кластеризации
Пусть V1, V2,…, Vc - центры кластеров, найденные в результате субтрактивной кластеризации. Каждый отдельный центр кластера является центром нечеткого правила, для которого функции принадлежности, определяющие набор нечетких множеств для каждого признака предпосылки этого правила, задаются в виде экспоненциальных функций следующим образом:
,(3.1)
где Ai,j - нечеткое множество соответствующее нечеткому правилу j для признака i, - i-ая координата вектора признаков , - i-ая координата центра кластера , - стандартное отклонение экспоненциальной функции, зависящее от кластерного радиуса Ri и постоянной величины .
Так как центры кластеров соответствуют нечетким правилам, то степень активации каждого из нечетких правил Vj определяется следующим образом:
. (3.2)
Следствия отдельных правил определяются согласно нечеткой модели (1.1), где каждое правило определяет принадлежность к каждому из имеющихся классов Nc с некоторой вероятностью. Вероятность каждого класса в следствии правила определяется согласно результатам субтрактивной кластеризации следующим образом:
.
Далее рассмотрим представление нечеткой модели классификации в виде нейронной сети (рис.1). Данное представление позволяет использовать алгоритмы обучения нейронных сетей для оптимизации параметров модели, определяемых ниже.
нечеткий классификатор кластеризация субтрактивный
Размещено на http://www.allbest.ru/
Рис. 1. Пример нечеткой модели классификации с двумя решающими правилами
Первый слой нейросетевого представления модели выполняет раздельную фаззификацию каждого признака Xi (i=1,2,…,n), определяя для каждого k-го правила вывода значение степени принадлежности нечеткому множеству Aij в соответствии с функцией принадлежности (3.1). Это параметрический слой с параметрами Vi,j, sigmai , который может быть адаптирован в процессе обучения сети. По мере настройки этих параметров, форма функции принадлежности может изменяться. Все параметры первого слоя нечеткого классификатора называются параметрами предпосылки.
Второй слой выполняет агрегирование отдельных признаков Xi, определяя результирующее значение уровня активации j-го правила вывода для вектора признаков X в соответствии с формулой (3.2). Это непараметрический слой.
Третий слой производит генерацию нормализующего сигнала, состоящего из нормализованных уровней активации отдельных правил вывода, рассчитываемого в каждом узле следующим образом:
.
Количество узлов четвертого слоя соответствует количеству классов в данных, и выход каждого из узлов обозначает степень принадлежности представленного объекта соответствующему классу. Функцией активации узлов этого слоя является сумма произведений нормализованных уровней активации каждого из правил и параметров , соответствующих вероятности отнесения объекта из кластера Vj классу ci. Параметры этого уровня также являются настраиваемыми и называются параметрами следствия.
Таким образом, параметры первого и четвертого слоев нечеткой модели в нейросетевом представлении имеют определенные значения для нечетких правил вывода «если-то» и могут настраиваться в процессе обучения сети с использованием специальных алгоритмов обучения и исходного набора входных и выходных признаков. Описание алгоритма обучения параметров нечеткой модели остается за рамками представленного в работе исследования.
4. Оптимизация структуры нечеткого классификатора
Мотивацией к использованию нечетких моделей для генерации классифицирующих правил является возможность их интерпретации. Структура нечеткой модели изначально позволяет не только получить достаточную точность классификации, но и понять принцип получения того, или иного результата. Однако для описания сложных систем количество правил, автоматически сгенерированных на данных, становится громоздким. Таким образом, для улучшения интерпретируемости результатов необходимым является оптимизация структуры классификатора, а именно использование алгоритмов отбора признаков для классификации и упрощение решающих правил на основе критериев сходства. В работе используется критерий Фишера разделимости между классами, основанный на статистических свойства классифицируемых данных [Fischer, 1936]. Алгоритм отбора признаков является пошаговой процедурой, где на каждом шаге наименее значимый признак исключается из нечеткой модели до тех пор, пока точность классификации не уменьшится более чем на заданное обычно небольшое значение. Для увеличения точности классификации на оставшемся наборе признаков повторно определяется новый классификатор с использованием субтрактивной кластеризации.
Для упрощения набора классифицирующих правил используется метод, описанный в работе [Setnes et al., 1998]. Алгоритм упрощения состоит в объединении двух наиболее подобных нечетких множеств с последующим обновлением набора правил. Процедура повторяется до тех пор, пока мера подобия превышает изначально заданный порог . Объединение нечетких множеств сокращает количество функций принадлежности, используемых в модели и, следовательно, улучшает интерпретируемость результатов. Если все нечеткие множества признака подобны универсальному множеству или если после объединения признаку соответствует только одна функция принадлежности, то данный признак может быть исключен из модели.
5. Пример использования предложенного метода
Для того чтобы проверить эффективность предложенного метода построения нечеткого классификатора с последующим его упрощением, был использован тестовый набор данных пациентов, обследуемых на предмет наличия или отсутствия сердечных заболеваний (heart dataset), заимствованный из архива баз данных для экспериментов в области машинного обучения Калифорнийского университета [UCI Machine Learning Repository]. Исследуемый набор данных состоит из 13 признаков, измеренных для 270 пациентов. Пациенты разделены на два класса: 1 - с отсутствием болезни сердца, 2 - с болезнью сердца. 150 объектов относятся к классу 1, 120 - к классу 2. С использованием описанного в данной работе метода был построен нечеткий классификатор, база правил которого соответствовала кластерам, полученным методом субтрактивной кластеризации, и состояла из 4-х правил. Точность классификации построенной нечеткой модели на обучающем множестве составила 80.4%. Структура построенной модели была достаточно сложной для интерпретации, поэтому в дальнейшем она была оптимизирована с использованием алгоритма отбора признаков и упрощения набора решающих правил на основе критериев сходства. В результате было удалено 6 признаков, причем точность классификации повысилась и стала составлять 81.5%, в то время как набор нечетких правил стал более компактным (рис.2).
В табл. 1 для двух полученных нечетких правил классификации представлены вероятности принадлежности к классам.
Рис.2. Предпосылки набора из двух нечетких правил, составляющих нечеткую модель классификации
Табл. 1.
Номер правила |
Класс 1 |
Класс 2 |
|
1 |
0.8272 |
0.1728 |
|
2 |
0.1236 |
0.8764 |
На рис.3 изображены функции принадлежности, определяющие нечеткие множества для признаков возраст, пол и боль в груди.
Рис.3. Вид двух функций принадлежности для трех признаков
Средняя точность классификации на тестовых множествах с использованием метода перекрестной проверки составила 81.3%. Таким образом, была получена удовлетворительная точность классификации, а нечеткий классификатор состоял из 2 нечетких правил с использованием 7 признаков.
Для сравнения и оценки эффективности результатов с использованием нечеткой модели были построены классические классификаторы с использованием метода дискриминантного анализа и классификационных CART-деревьев [Breiman et al., 1984]. Точность классификации объектов с использованием 7 отобранных ранее признаков методом дискриминантного анализа составила 79.6%, а полученные классификационные функции были достаточно сложными для интерпретации результатов. Классификационное CART-дерево, позволило классифицировать объекты с точностью 83%, однако количество правил, которые были выделены из структуры дерева, возросло до семи.
Заключение
В представленной работе описан метод построения нечеткого классификатора с использованием субтрактивной кластеризации, который позволяет наряду с достаточно высокой точностью классификации получить компактную и интерпретируемую начальную структуру классификационной модели, состоящей из набора нечетких правил вывода. Последующая оптимизация структуры нечеткого классификатора позволяет сократить как количество нечетких множеств для отдельных признаков, так и количество нечетких правил, сохраняя точность классификации на прежнем уровне. Оптимизация структуры достигается с использованием алгоритмов отбора признаков для классификации и упрощения набора решающих правил на основе критериев сходства. Результаты классификации с использованием нечеткого классификатора были сопоставлены с результатами, полученными методом дискриминантного анализа и с помощью классификационных CART-деревьев. В результате построенный на данных нечеткий классификатор обладал более высоким уровнем интерпретируемости полученных результатов, при этом сохраняя точность классификации несколько уступающую результатам, полученным с использованием классификационных CART-деревьев.
Список литературы
1. [Breiman et al., 1984] Breiman L., Friedman J. H., Olshen R. A. and Stone C. J.. Classification and regression trees // Monterey, Calif., U.S.A.: Wadsworth, Inc., 1984.
2. [Fischer, 1936] Fischer R. A. The use of multiple measurements in taxonomic problems // Ann. Eugenics, 1936, 7:179-188.
3. [Ishibuchi et al., 1999] Ishibuchi H., Nakashima T. and Murata T. Performance evaluation of fuzzy classifier systems for multi-dimensional pattern classification problems // IEEE Trans. on Systems, Man, and Cybernetics, Part B: Cybernetics, vol. 29, no. 5, 1999.
4. [Nauck et al., 1999] Nauck D., Kruse R. Obtaining interpretable fuzzy classification rules from medical data // Artifcial Intelligence in Medicine 16, 1999.
5. [Setnes et al., 1998] Setnes M., Babuska R., Kaymak U., van Nauta Lemke H.R. Similarity measures in fuzzy rule base simplification // IEEE Trans. SMC-B 28, 1998.
6. [Setnes et al., 2000] Setnes M., Roubos J.A. GA-fuzzy modeling and classification: complexity and performance // IEEE Trans. FS, 2000.
7. [Yager et al., 1984] Yager R., Filev D. Essentials of Fuzzy Modeling and Control // USA: John Wiley & Sons., 1984.
8. [UCI Machine Learning Repository] http://www.ics.uci.edu/~mlearn/MLRepository.
Размещено на Allbest.ru
...Подобные документы
Характеристика методов нечеткого моделирования и изучение системы кластеризации в пакетах прикладных программ. Разработка и реализация алгоритма для оптимизации базы правил нечеткого классификатора с помощью генетического алгоритма аппроксимации функции.
дипломная работа [1,9 M], добавлен 21.06.2014Основные этапы систем нечеткого вывода. Правила нечетких продукций, используемые в них. Нечеткие лингвистические высказывания. Определение алгоритмов Цукамото, Ларсена, Сугено. Реализации нечеткого вывода Мамдани на примере работы уличного светофора.
курсовая работа [479,6 K], добавлен 14.07.2012Понятие нечеткого множества и функции принадлежности. Методы дефаззификации (преобразования нечеткого множества в четкое число) для многоэкстремальных функций принадлежности. Нечеткий логический вывод. Примеры выпуклого и невыпуклого нечеткого множества.
презентация [111,7 K], добавлен 16.10.2013Особенности кластеризации социальных сетей, методы распознавания сообществ. Особенности локального прореживания графа. Разработка рекомендаций по выбору метода кластеризации для выделенных классов задач. Оптимизация процесса дальнейшей обработки данных.
курсовая работа [1,8 M], добавлен 30.06.2017Методы, системы, типы и способы проводимых измерений в автоматизированных системах медицинского обеспечения безопасности на транспорте. Проектирования нечеткого алгоритма предрейсовых медицинских осмотров на основе адаптивной сети нейро-нечеткого вывода.
дипломная работа [6,5 M], добавлен 06.05.2011Начальное представление систем нечеткого вывода: логический вывод, база знаний. Алгоритм Мамдани в системах нечеткого вывода: принцип работы, формирование базы правил и входных переменных, агрегирование подусловий, активизация подзаключений и заключений.
курсовая работа [757,3 K], добавлен 24.06.2011Сущность и понятие кластеризации, ее цель, задачи, алгоритмы; использование искусственных нейронных сетей для кластеризации данных. Сеть Кохонена, самоорганизующиеся нейронные сети: структура, архитектура; моделирование кластеризации данных в MATLAB NNT.
дипломная работа [3,1 M], добавлен 21.03.2011Исследование проблемы сравнения звуковых файлов и определение степени их схожести. Сравнение файлов с использованием метода нечеткого поиска, основанного на метрике (расстоянии) Левенштейна. Сравнение MIDI-файлов и реализация алгоритмов считывания.
курсовая работа [2,0 M], добавлен 14.07.2012Решение задач прогнозирования цен на акции "Мазут" на 5 дней, построение прогноза для переменной "LOW". Работа в модуле "Neural networks", назначение вкладок и их характеристика. Построение системы "Набор программистов" нечеткого логического вывода.
курсовая работа [3,2 M], добавлен 26.12.2016Различные методы решения задачи классификации. Нейросетевые парадигмы, методы обучения нейронных сетей, возникающие при этом проблемы и пути их решения. Описание программной реализации классификатора, его функциональные возможности и результаты обучения.
дипломная работа [1,0 M], добавлен 28.12.2015Проблема гидроакустической классификации целей как актуальная проблема современной гидроакустики. Применение нейросетевых алгоритмов и отдельных парадигм для решения научно-технических задач. Выбор структуры нейронной сети для распознавания изображений.
реферат [284,2 K], добавлен 04.05.2012Определение архитектуры реляционных СУБД. Рассмотрение кластеризации как основного способа минимизации числа дисковых операций ввода-вывода данных. Применение индексов для повышения производительности SQL-запросов. Процесс кэширования в базах данных.
курсовая работа [61,1 K], добавлен 15.07.2012Метод минимального сечения, его модификации. Граф с выраженной структурой сообществ. Иерархическая и частичная кластеризации. Случайно генерируемые графы. Оптимизация найденной структуры. Связь между количеством кластеров, модулярностью и спектром.
реферат [807,9 K], добавлен 22.10.2016Анализ проблем, возникающих при применении методов и алгоритмов кластеризации. Основные алгоритмы разбиения на кластеры. Программа RapidMiner как среда для машинного обучения и анализа данных. Оценка качества кластеризации с помощью методов Data Mining.
курсовая работа [3,9 M], добавлен 22.10.2012Основы для проведения кластеризации. Использование Data Mining как способа "обнаружения знаний в базах данных". Выбор алгоритмов кластеризации. Получение данных из хранилища базы данных дистанционного практикума. Кластеризация студентов и задач.
курсовая работа [728,4 K], добавлен 10.07.2017Изучение общероссийского классификатора объектов административно-территориального деления и основных видов экономической деятельности. Характеристика особенностей обеспечения совместимости государственных информационных систем и информационных ресурсов.
реферат [43,3 K], добавлен 06.12.2012Методика и основные этапы построения модели бизнес-процессов верхнего уровня исследуемого предприятия, его организационной структуры, классификатора. Разработка модели бизнес-процесса в IDEF0 и в нотации процедуры, применением Erwin Data Modeler.
курсовая работа [1,6 M], добавлен 01.12.2013Решение задачи аппроксимации поверхности при помощи системы нечёткого вывода. Определение входных и выходных переменных, их термы; алгоритм Сугено. Подбор функций принадлежности, построение базы правил, необходимых для связи входных и выходных переменных.
курсовая работа [1,8 M], добавлен 31.05.2014Увеличение надежности информационных систем с помощью резервирования и повышения вероятности безотказной работы элементов. Применение кластеризации как альтернативы симметричным мультипроцессорным системам по производительности и коэффициенту готовности.
курсовая работа [401,9 K], добавлен 18.06.2015Анализ способов хранения геоданных в ГИС. Разработка классификатора базы геоданных. Основные методы визуализации геоданных. Понятие, назначение и структура СПО "Локальный клиент" Системы ГИС-3D. Расчет трудоемкости разработки программного обеспечения.
дипломная работа [3,7 M], добавлен 21.06.2012