Методы, алгоритмы и программный комплекс преднастройки и оптимизации параметров нейронечёткой модели формирования баз знаний экспертных систем
Повышение точности аппроксимации экспериментальных данных при обучении нечеткой нейронной сети. Анализ методов решения задачи выделения значений лингвистической переменной (задача нечеткого гранулирования информации). Алгоритм нечеткой кластеризации.
Рубрика | Экономико-математическое моделирование |
Вид | автореферат |
Язык | русский |
Дата добавления | 28.03.2018 |
Размер файла | 234,0 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
На правах рукописи
АВТОРЕФЕРАТ
диссертации на соискание учёной степени кандидата технических наук
Методы, алгоритмы и программный комплекс преднастройки и оптимизации параметров нейронечёткой модели формирования баз знаний экспертных систем
05.13.18 - Математическое моделирование, численные методы и комплексы программ
Корнилов георгий сергеевич
Казань 2010
Работа выполнена в Казанском государственном техническом университете
им. А.Н. Туполева
Научный руководитель: доктор технических наук, профессор
Глова Виктор Иванович
Официальные оппоненты: доктор технических наук, профессор
Захаров Вячеслав Михайлович
доктор технических наук, профессор
Исмагилов Ильяс Идрисович
Ведущая организация: Новгородский государственный
университет имени Ярослава Мудрого
Защита состоится « 26 » февраля 2010 г. в 14 часов на заседании диссертационного совета Д 212.079.01 в Казанском государственном техническом университете им. А.Н. Туполева по адресу: 420111, г. Казань, ул. К. Маркса, д. 10, зал заседаний Учёного совета. Автореферат диссертации размещен на сайте Казанского государственного технического университета им. А.Н. Туполева www.kai.ru
С диссертацией можно ознакомиться в библиотеке Казанского государственного технического университета им. А.Н. Туполева.
Автореферат разослан « » 2010 г.
Учёный секретарь
диссертационного совета
доктор физико-математических наук, профессор П.Г. Данилаев
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы.
Современные информационные системы анализа больших массивов информации или управления сложными процессами невозможно представить без элементов искусственного интеллекта. Методы интеллектуального анализа данных позволяют строить эффективные модели диагностики, прогнозирования, принятия решений во многих предметных областях человеческой деятельности.
Подобные модели используются в широком классе интеллектуальных информационных систем, особенно в экспертных системах (ЭС), основным элементом которых является база знаний - модель, представленная множеством систематизированных правил, описывающих закономерности в рассматриваемой предметной области. Поэтому проектирование баз знаний является важной задачей при разработке экспертных систем.
Проведенный анализ возможностей нейронечётких модели формирования баз знаний показал, что качество обучения нечеткой нейронной сети (ННС) в значительной степени зависит от выбора количества нечетких гранул для входных лингвистических переменных (ЛП). Кроме того, для использования нечеткой информации, формализованной математическим аппаратом нечёткой логики, необходимы процедуры выбора оптимальных форм и начальной инициализации параметров соответствующих функций принадлежности. По этим причинам для повышения точности аппроксимации экспериментальных данных нечеткими правилами продукций необходим автоматический выбор оптимального количества нечётких гранул входных лингвистических переменных нечеткой нейронной сети и соответствующих форм и параметров их функций принадлежности.
Исследованию в этой области посвящены работы таких ученых как
Заде Л.А., Ванг П.П., Рознер Б.С., Студлер Дж., Парми Дж. , Хоффман Д., Поспелов Д.А., Аверкин А.Н., Финн В.К., Кобринский Б.А., Загоруйко Н.Г., Ярушкина Н.Г., Паклин Н.Б., Батыршин И.З., Глова В.И., Аникин И.В., Исмагилов И.И., Катасёв А.С. и др. Однако, несмотря на это, многие вопросы предобработки данных для повышения эффективности работы нечетких нейронных сетей при формировании баз знаний экспертных систем недостаточно рассматривались.
Таким образом, актуальной задачей является разработка эффективных алгоритмов, методики и реализующего ее программного комплекса преднастройки и оптимизации параметров нечёткой нейронной сети для формирования баз знаний экспертных систем. Решению этой задачи посвящено настоящее исследование.
Объект исследования: нейронечеткая модель формирования баз знаний экспертных систем.
Предмет исследования: методы и алгоритмы построения функций принадлежности и кластеризации экспериментальных данных.
Цель работы: повышение точности аппроксимации экспериментальных данных при обучении нечеткой нейронной сети.
Научная задача: разработка методики, формальных алгоритмов и программного комплекса преднастройки и оптимизации параметров нечеткой нейронной сети.
Достижение цели и решение задачи потребовало:
· анализа эффективности методов интеллектуального анализа данных и стратегий получения знаний для экспертных систем;
· анализа существующих методов решения задачи выделения значений лингвистической переменной (задача нечеткого гранулирования информации);
· разработки метода и алгоритма нечеткой кластеризации для определения оптимального числа градаций входных параметров нечеткой нейронной сети;
· разработки алгоритма выбора оптимальной формы и начальных параметров функций принадлежности нечетких гранул;
· программной реализации алгоритмов преднастройки и оптимизации параметров нечёткой нейронной сети;
· оценки эффективности работы методики;
· эксперимента по формированию баз знаний экспертных систем с учетом преднастройки и оптимизации параметров нейронечеткой модели.
Методы исследования - методы математического моделирования, кластерного анализа, нечёткой логики, искусственных нейронных сетей, мягких вычислений. В качестве инструментальных средств использовалась среда математического моделирования MathWorks MatLab 7 и программный комплекс формирования баз знаний экспертных систем «Нечеткая нейронная сеть».
Достоверность полученных результатов обоснована корректным использованием математических методов, строгостью доказательства теорем, результатами математического моделирования на базе профессиональной среды MathWorks MatLab 7, результатами экспериментов и испытаний, а также результатами использования материалов диссертации и разработанных программ в государственных организациях.
Научная новизна работы заключается в следующем:
· разработан метод и алгоритм нечеткой кластеризации значений входных параметров нечёткой нейронной сети, исключающий недостатки существующих алгоритмов и применимый в условиях поставленной задачи;
· разработан алгоритм выбора формы и настройки начальных параметров ФП нечетких гранул входных лингвистических переменных.
· предложена методика повышающая эффективность формирования баз знаний для использования в механизмах вывода экспертных систем;
Теоретическая значимость:
· разработаны алгоритмы преднастройки и оптимизации параметров нейронечеткой модели формирования баз знаний экспертных систем.
· доказаны теоремы для основополагающих понятий: отношение б-квази-эквивалентности, порог б-квазиэквивалентности, шкала отношения б-квазиэквивалентности.
· предложена методика, повышения точности аппроксимации экспериментальных данных при обучении нечеткой нейронной сети;
Практическая ценность диссертационной работы заключается в разработке и реализации программного комплекса методики, позволяющего повысить эффективность анализа статистических данных и формирования системы нечётко-продукционных правил баз знаний экспертных систем.
По проблеме диссертационной работы опубликовано 16 работ, в том числе, 1 статья в журнале из списка, рекомендованного ВАК России, 7 статей и 9 тезисов докладов.
Основные положения и результаты диссертации докладывались и обсуждались: на 4-й и 7-й ежегодной международной научно-практической конференции «Инфокоммуникационные технологии глобального информационного общества» (Казань, 2006, 2009); ежегодной научно-практической конференции «Наука и профессиональная деятельность» (Нижнекамск, 2008); II Всероссийской научно-практической конференции «Современная торговля: теория, методология, практика» (Казань, 2008); 9-й международной научно-технической конференции «Проблемы техники и технологии телекоммуникаций», посвященная 100-летию со дня рождения академика В.А. Котельникова, 120-летию телефонной связи в Татарстане (Казань, 2008); международной молодёжной научной конференции «XVII Туполевские чтения» (Казань, 2008); всероссийской молодежной научной конференции «Инновационные технологии в торговле и экономике» (Казань, 2008); республиканской научно-практической конференции «Проблемы анализа и моделирования региональных социально-экономических процессов» (Казань, 2009); международной конференции «Мягкие вычисления и измерения (SCM'2009)» (Cанкт-Петербург, 2009); Казанском городском семинаре «Методы моделирования» (Казань, 2009).
Реализация результатов работы. Результаты исследования:
· внедрены в опытную эксплуатацию в составе системы «Антиспам» для рабочих станций информационных систем МВД Республики Татарстан и группы компаний «Центр», решающей задачу предварительного выявления писем несанкционированной массовой рассылки;
· использованы при построении базы знаний мягкой экспертной системы диагностики развития и особенностей клинических проявлений остеохондроза поясничного отдела позвоночника в Казанской государственной медицинской академии;
· внедрены в учебный процесс Казанского государственного технического университета им. А.Н. Туполева и используются при изучении материалов следующих дисциплин «Математические основы человеко-машинных систем», «Базы знаний интеллектуальных систем», «Теория принятия решений в системах обеспечения информационной безопасности».
На защиту выносятся следующие результаты:
· алгоритмы преднастройки и оптимизации параметров нейронечёткой модели формирования баз знаний экспертных систем;
· методика преднастройки и оптимизации параметров нейронечёткой модели формирования баз знаний экспертных систем;
· программный комплекс, реализующий предложенную методику.
Структура и объём диссертации. Диссертация изложена на 144 страницах машинописного текста, содержит 50 рисунков, 5 таблиц, состоит из введения, четырёх глав, заключения, списка использованной литературы из 100 наименований на 10 страницах.
Сведения о личном вкладе автора. Разработана методика, методы и алгоритмы преднастройки и оптимизации параметров нейронечёткой модели формирования баз знаний экспертных систем, а также программный комплекс реализующий алгоритмы методики на базе нечёткой нейронной сети, проведены прикладные исследования при работе с программным комплексом для оценки эффективности использования методики в решении практических задач.
На базе нечеткой нейронной сети сформирована база знаний экспертной системы медицинской диагностики и экспертной системы «Антиспам» предварительной классификации писем несанкционированной массовой рассылки. Проведена опытная эксплуатация систем, разработан план мероприятий по внедрению в промышленную эксплуатацию.
Подготовлены обучающие выборки и проведено обучение нечеткой нейронной сети с получением системы правил. Проведен сравнительный анализ результатов работы нечеткой нейронной сети при различных подходах к настройке ее параметров - с применение методики преднастройки и оптимизации и без нее.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы проводимых исследований, сформулирована цель работы, приведена структура диссертации.
В первой главе рассматриваются вопросы и проблемы формирования баз знаний интеллектуальных человеко-машинных систем поддержки принятия решений. Описывается используемая в работе нейронечеткая модель. Актуализируется необходимость повышения эффективности нейронечеткой модели при формировании баз знаний. Ставится задача по разработке методики и алгоритмов преднастройки и оптимизации параметров нечеткой нейронной сети.
Для решения сложно формализуемых задач требуется разработка систем поддержки принятия решений - экспертных систем, основой которых является база знаний. Перед разработчиками ЭС постоянно встают проблемы «добычи» и формализации знаний, а также поиска новых способов их получения. Для этого используют извлечение, приобретение и формирование знаний.
В настоящее время для формирования баз знаний актуально создание гибридных технологий - нечетких нейронных сетей, сочетающих в себе достоинства нейросетевых моделей и нечетких систем.
Структура используемой в данной работе нечеткой нейронной сети однозначно определяется следующим множеством параметров:
1) количеством нейронов во входном слое;
2) количеством выходных нейронов;
3) числом градаций входных нейронов;
4) алгоритмом нечёткого логического вывода на следующей нечётко-продукционной модели:
(1.1)
где - множество параметров, на которые накладываются ограничения в условиях правила Rj;
- множество нечётких ограничений на параметры множества - нечётких условий антецедента правила Rj;
- веса нечётких ограничений на параметры ;
- степень достоверности сформированного правила Rj - степень уверенности эксперта в его универсальности (CERTAINTY FACTOR);
- технология, рекомендуемая к проведению при выполнении условий правила Rj.
Модель (1.1) может быть представлена в следующем виде:
Правило Rj
«ЕСЛИ есть () И
есть () И
... И
есть ()
ТО Возможно применение технологии » []
Веса нечётких ограничений антецедента правила Rj определяют важность ограничений в правиле. Численные значения весов определяются на основе лингвистической шкалы оценок, представленной в табл. 1.
Табл. 1. Значения лингвистической шкалы оценок важности условий нечётких продукционных правил и соответствующих им целочисленных эквивалентов
Лингвистическая категория |
Целочисленный эквивалент |
|
Очень слабая важность |
1 |
|
Не сильная важность |
2 |
|
Умеренная важность |
3 |
|
Важность |
4 |
|
Очень важен |
5 |
|
Чрезмерно важен |
6 |
Руководствуясь данной шкалой оценок, эксперт может оценивать важность вводимых нечётких ограничений на исходные параметры.
Проведенный в работе анализ эффективности нечеткой нейронной сети показал, что качество обучения ННС в значительной степени зависит от выбора числа нечетких гранул для входных ЛП. Увеличение количества входов нейронной сети и числа градаций входных нейронов приводит к возрастанию времени обучения сети, повышению точности аппроксимации и, соответственно, качества обучения ННС. Однако ведение слишком большого числа значений ЛП приводит к затруднению человеком выбора одного из них в некоторой ситуации. С другой стороны, необоснованное уменьшение количества значений ЛП приводит к недостаточности информации для человека при описании некоторой ситуации. Кроме того, для использования нечеткой информации, формализованной математическим аппаратом нечёткой логики, необходимы процедуры выбора оптимальных форм и преднастройки параметров соответствующих функций принадлежности (ФП). Использование той или иной ФП часто определяется спецификой решаемой задачи, а иногда и квалификацией эксперта, дающего лингвистическую оценку получаемым закономерностям. При этом важно отметить, что от того, насколько адекватно построенная функция отражает знания эксперта, зависит адекватность нечетких моделей. Критерием адекватности может служить «естественность» заключений, получаемых на основе этих моделей. Подобный критерий «естественности» является обобщением известного теста Тьюринга.
Таким образом, актуально повышение точности аппроксимации экспериментальных данных при обучении ННС путем автоматического выбора оптимального количества нечётких гранул входных ЛП нечеткой нейронной сети и соответствующих форм ФП.
Итогом первой главы является постановка задачи на разработку методики и алгоритмов преднастройки и оптимизации параметров нейронечеткой модели.
Во второй главе описывается методика преднастройки и оптимизации параметров ННС, определяющий ее алгоритм нечёткой кластеризации значений входных параметров ННС и алгоритм выбора оптимальной формы и инициализации параметров соответствующих ФП. Приведены результаты анализа существующих методов кластеризации в задаче гранулирования информации и построения функций принадлежности нечетких гранул.
Часто проблему выбора количества нечётких градаций решают эксперты. Из чисто психологических соображений они выбирают нечетное число значений лингвистической переменной, например, 3, 5, 7. При этом данный выбор происходит субъективно и не всегда отражает реальную картину.
При использовании автоматических методов выбор количества значений лингвистической переменной осуществляется на основе критерия его оптимальности. Для этого часто используют методы кластерного анализа данных. К настоящему времени для решения задачи кластеризации разработано и используется большое количество различных алгоритмов. Допущения традиционных алгоритмов кластеризации определяют следующие факторы не позволяющие в полной мере применять их в разрабатываемой методике:
Ш являются неприемлемыми априорные предположения о свойствах кластеров, принципах объединения объектов или задание количества кластеров;
Ш является неприемлемым построение алгоритма лишь на отношении точек к центрам кластеров, а не на основе взаимного расположения точек.
Ш недопустимо отсутствие понятной лингвистической интерпретации разбиений.
В связи с этим для эффективного решения задачи кластеризации значений входных параметров нечеткой нейронной сети актуальна разработка специального алгоритма, учитывающего взаимосвязь между отдельными точками данных без их привязки к центру кластера.
В основу разработанного алгоритма кластеризации положен аппарат нечетких отношений, использующий понятие отношения б-толерантности и б-квази-эквивалентности, имеющие, соответственно, смысл попарного сравнения образцов данных относительно заданного образца и межгруппового сравнения данных. Для построения семейства отношений б-квазиэквивалентности применяется последовательность методов сравнения данных, каждый из которых основывается на предыдущем и является более подходящим для непосредственного решения задачи нечеткой кластеризации.
Ш Сравнение по расстоянию между образцами данных - попарное сравнение образцов данных.
Ш Сравнение при помощи нормальных мер сходства - поочередное сравнение всех образцов данных с каждым из образцов. Результат - нечеткие множества образцов данных, близких к каждому из образцов данных.
Ш Сравнение при помощи относительных мер сходства - попарное сравнение образцов данных относительно заданного образца. Результат - степень принадлежности каждой пары образцов данных к соответствующему отношению сходства.
Ш Сравнение образцов данных при помощи отношения б-толерантности на множестве образцов данных - схожесть любых двух образцов данных относительно всех остальных образцов. Результат - степень принадлежности каждой пары образцов данных к отношению б-толерантности.
Ш Сравнение при помощи отношения б-квазиэквивалентности и шкалы отношения б-квазиэквивалентности - межгрупповое сходство данных. Результат - степень принадлежности каждой пары образцов данных к отношению
б-квазиэквивалентности.
Методом кластеризации в алгоритме является применение семейства отношений эквивалентности, каждое из которых получаются при помощи перехода от отношения а-квазиэквивалентности к отношению эквивалентности в классическом смысле использованием соответствующего уровня отношения а-квази-эквивалентности из шкалы отношения а-квазиэквивалентности. Те образцы данных, которые в соответствии с отношением а-квазиэквивалентности имеют сходство, превышающее указанный уровень, являются эквивалентными, остальные - неэквивалентными.
Разбиение по кластерам является нечетким - соответственно наличию нечеткой взаимосвязи данных. Количество разбиений является конечным и определяется мощностью (количеством уровней отношения) шкалы отношения а-квазиэквивалентности. Каждое конкретное разбиение по кластерам соответствует разбиению множества образцов данных на классы эквивалентности при некотором определенном уровне а-квазиэквивалентности.
Пусть значения входных параметров нейронной сети хi заданы на непустом множестве X и кластеризуемый объект представляет собой только один признак.
Введем основные понятия и определения.
Нормальной мерой сходства по расстоянию хq с хi будем называть такую меру, которая достигает своих граничных значений на множестве X с функцией принадлежности, определяемой следующим образом.
(1)
где , Q - количество значений входной переменной.
На основании данной меры сходства построим семейство б-толерантных отношений для определения степени схожести двух точек данных относительно некоторой заданной точки. Относительной мерой сходства двух точек данных относительно точки хi называют функцию , определяемую как:
(2)
где - нормальная мера сходства, .
Мерой сходства точек данных на множестве X называют функцию , которая определяется как
(3)
где Т - t-норма (например, min), - относительная мера сходства, , , . Полученное отношение является отношением б-толерантности на множестве X.
Транзитивным замыканием нечеткого отношения R, определенного на множестве Х, будем называть следующее нечеткое отношение:
(4)
где по цикл
Операции в формуле (4) определяются в соответствии с определениями операций над нечеткими множествами и операций композиции нечетких отношений, а именно:
где S-- T-конорма, а T -- T-норма;
где R1=R;
где S -- Т-конорма.
В работе представлено доказательство следующих теорем.
Теорема 1. Если отношение R - отношение б-толерантности, то справедливо:
Следствие 1. Отношение Ri при условии, что отношение R- отношение
б-толерантности, также является отношением б-толерантности.
Следствие 2. Для отношения R2 справедливо: если и , то Также справедливо обобщение для Ri: если то справедливо
Таким образом, очевидно, если R - отношение б-толерантности, то
Теорема 2. Транзитивное замыкание , вычисляемое как наименьшая верхняя граница объединения отношений Ri, для отношения б-толерантности R на множестве X равно отношению R|X|.
Теорема 3. Объединение отношений б-толерантности есть также отношение б-толерантности.
Следствие 3. Учитывая, что Ri является отношением б-толерантности согласно следствия 1, а также теорему 3, можно заключить, что транзитивное замыкание отношения б-толерантности также является отношением б-толерантности.
Теорема 4. Транзитивное замыкание отношения б-толерантности порождает отношение б-квазиэквивалентности на множестве X.
Порог б-квазиэквивалентности на множестве X - число при котором все элементы множества X являются б-квазиэквивалентными, а при любом данное утверждение не соблюдается.
Другими словами, порог б-квазиэквивалентности есть наибольшая нижняя граница значений степеней принадлежности отношения б-квазиэквивалентности. Число - уровень б-квазиэквивалентности.
В классической теории множеств доказана следующая теорема.
Теорема 5. Отношение эквивалентности R разбивает множество X на попарно непересекающиеся классы эквивалентных элементов таким образом, что каждый элемент Х принадлежит точно одному классу эквивалентности.
В работе представлено доказательство следующей теоремы.
Теорема 6. Задание уровня б-квазиэквивалентности порождает разбиение множества X на классы эквивалентных элементов таким образом, что каждый элемент X принадлежит точно одному классу эквивалентности.
Шкалой отношения б-квазиэквивалентности будем называть минимальный набор уровней эквивалентности , каждый из которых порождает отношение эквивалентности такое, что
Разработанный алгоритм нечеткой кластеризации можно представить в виде структурной блок-схем (рис.1).
Рассмотрим задачу выбора оптимальных форм функций принадлежности значений входных ЛП. Функции принадлежности нечеткого множества традиционно строят по экспертной информации. Существует значительное количество таких методов, которые можно разделить на две группы: прямые и косвенные.
Примерами прямых методов являются непосредственное задание ФП таблицей, графиком или формулой. В косвенных методах значения ФП выбираются таким образом, чтобы удовлетворить заранее сформулированным условиям. Экспертная информация - это лишь исходная информация для построения функции.
Недостатком обеих групп методов является большая доля субъективизма. Иной подход к построению ФП основывается на параметрической идентификации нечетких моделей по экспериментальным данным «входы - выход». Использование такого подхода снимает субъективизм построения функций, однако взамен требует обучающей выборки с представительными примерами «входы - выход». Кроме того, ФП одинаковых по смыслу нечетких множеств получаются разными в результате идентификации различных зависимостей «входы - выход».
аппроксимация нейронный сеть
Рис. 1. Блок-схема алгоритма нечеткой кластеризации
Таким образом, для построения ФП входных параметров ННС актуальна разработка специального алгоритма, обеспечивающего оптимальность формы и параметров ФП и, как следствие, формирование адекватных нечетких моделей.
В данной работе предлагается новый алгоритм определения формы и начальных параметров ФП по анализу распределения экспериментальных данных. Основной идеей предлагаемого алгоритма является использование результатов кластеризации экспериментальных данных. В основу алгоритма построения ФП по распределению результатов наблюдений положен алгоритм нечеткой кластеризации. На выходе данного алгоритма определяется оптимальное количество сформированных кластеров. Тогда можно сопоставить нечеткий кластер нечеткому множеству. При этом ФП нечеткого кластера будет соответствовать искомой ФП нечеткого множества.
Пусть известны следующие числовые значения некоторого показателя . Рассмотрим задачу построения ФП по этим данным - синтез одного нечеткого множества , функция принадлежности которого соответствует пространству данных . Эта задача соответствует отображению вида:
,
где - степень принадлежности элемента нечеткому множеству , .
Тогда, зная разбиение значений рассматриваемого показателя на кластеры, центр j-го кластера можно определить как минимум суммы расстояний от всех точек до искомого центра:
где (5)
Рис. 2 иллюстрирует правило определения центра j-го кластера.
Рис. 2. Центр j-го кластера
Зная центр кластера, определяются степени принадлежности каждой точки данному кластеру по формуле:
(6)
На рис. 3 приведен результат расчета по формуле (6).
Рис. 3. Степени принадлежности точек кластеру
Найденное нечеткое множество можно аппроксимировать подходящей параметрической функцией принадлежности. Оценка точности аппроксимации определяется величиной остаточной дисперсии или ее отношением к исходной дисперсии. На практике строят несколько аппроксимаций и принимают ту, которая дает минимум указанной оценки.
В настоящее время в системах нечёткого моделирования наибольшее распространение среди экспертов получили треугольная, трапецеидальная и гауссова функции принадлежности. В предлагаемом подходе для моделирования нечётких ограничений кроме указанных трёх используются также двойная и сдвоенная гауссовы ФП, как обобщения трапецеидальной и треугольной функции соответственно.
Будем считать, что рассматриваемые наблюдения и изучаемые процессы подчиняются некоторому закону, описываемому математической моделью, и отклонения от него являются случайными. В этом случае метод наименьших квадратов является наилучшим для оценки точности аппроксимации. Используя данный метод и проводя оценку величин остаточной дисперсии, определяем форму и производим инициализацию параметров ФП, наиболее точно описывающую исходное нечеткое множество.
Таким образом, алгоритм выбора оптимальных форм и начальных параметров функций принадлежности для значений входных лингвистических переменных ННС можно представить в виде следующей блок-схемы (рис. 4).
Рис. 4. Блок-схема алгоритма выбора оптимальных форм и начальных параметров функции принадлежности
Методика преднастройки и оптимизации параметров нейронечеткой модели заключается в последовательном применении предложенных алгоритмов, позволяющих до начала работы ННС автоматически выбрать объективно оптимальное количество нечётких градаций значений входных нейронов и наилучшим образом описывающую их форму и начальные параметры функций принадлежности.
В третьей главе описывается проведение численно-параметрических исследований разработанной методики и алгоритмов с целью их апробации и оценки эффективности. Описывается реализованный в среде математического моделирования Math Works MatLab 7 программный комплекс методики. В данной среде алгоритмы были реализованы с графическим интерфейсом на встроенном языке программирования MatLab.
Проведен анализ устойчивости алгоритма нечёткой кластеризации к случайным «выбросам» в статистических данных, нетипичным и пропущенным значениям, возможным ошибкам ввода и т.п., а также анализ оптимальности его кластерного решения.
Для этого исходная выборка случайным образом делилась на две примерно равные части, проводилась кластеризация обеих частей и сравнивались полученные результаты.
Предпринимался и другой подход проверки устойчивости, предполагающий многократное размножение (дублирование) исходной выборки из N объектов, объединение всех дублированных выборок в одну большую выборку (псевдогенеральную совокупность) и случайное извлечение из нее новой выборки из N объектов. После этого проводилась кластеризация этой выборки, и сравнивались полученные результаты, извлекалась новая случайная выборка и вновь проводилась кластеризация и т.д.
Наряду с описанными способами использовался и метод сравнения результатов, полученных другими алгоритмами кластеризации. В данном случае использовался алгоритм нечётких k-средних, в сравнении с которым разработанный алгоритм кластеризации на основе аппарата нечётких отношений наглядно, посредством визуализации кластерных решений в графическом интерфейсе программного комплекса, показал устойчивость и оптимальность его кластерных решений на всех итерациях эксперимента.
Для оценки времени выполнения алгоритмов методики была вычислена общепринятая характеристика - асимптотическая временная сложность алгоритмов. Она характеризуется порядком от числа элементов для всего процесса преднастройки и оптимизации параметров нечеткой нейронной сети.
Для оценки эффективности алгоритмов методики проведены исследования на примере эконометрических данных. Были использованы данные проекта «СКРИН» Национальной ассоциации участников фондового рынка - данные более чем 400 предприятий и их бизнес-проектов с различными значениями по 27 финансовым параметрам. По распределению этих данных проведен анализ сроков окупаемости проектов и построены функции принадлежности значений соответствующей лингвистической переменной «сроки окупаемости проектов» (рис. 5).
Рис.5. Функции принадлежности лингвистической переменной «сроки окупаемости проектов»
Алгоритм кластеризации предлагаемой методики исследован при изучении «рынка эмоций» - рынка любых товаров и услуг, у которого эмоциональная составляющая стоимости во много раз выше функциональной. Для этого использованы данные опроса большого количества людей разных половых и возрастных групп из исследований агентства QUANS Research. В результате было сформировано 32 сегмента, в каждом из которых были сгруппированы покупатели со схожими потребностями. К данным сегментам в дальнейшем можно применять индивидуальные коммуникационные стратегии, способные эффективно воздействовать на покупателя.
Кроме того, для оценки эффективности методики на базе программного комплекса «Нечёткая нейронная сеть» проанализировано влияние преднастройки и оптимизации на скорость и качество обучения ННС на примере данных медицинской диагностики. Для этого использованы данные клинического, нейро-ортопедического, рентгенокомпьютернотомографического обследования 230 женщин в возрасте от 15 до 92 лет и 180 мужчин в возрасте от 16 до 81 года с различными синдромами поясничного остеохондроза. Выборка данных включала более 50000 значений количественных признаков течения остеохондроза по 79 параметрам.
При обучении нечеткой нейронной сети проводилось исследование эффективности работы методики. Оценивалось качество обучения ННС по изменению ее ошибки выхода при различных подходах к выбору числа градаций входных ЛП и форм их функций принадлежности. При использовании методики, основанной на разработанных алгоритмах, качество обучения ННС не уступало, а во многих случаях, превосходило качество обучения сети, в которой выбор числа градаций входных нейронов и форм ФП определялся субъективно экспертом. На рис. 6 и 7 представлены типовые примеры кривых зависимости ошибки выхода ННС от количества циклов ее обучения при различных подходах к выбору числа градаций входных переменных и форм их функций принадлежности.
Рис. 6. Изменение ошибки выхода сети при автоматической кластеризации значений входных параметров по предлагаемой методике
Рис. 7. Изменение ошибки выхода сети при субъективном выборе числа градаций
Из последнего графика видно, что при субъективном определении числа градаций входных переменных и форм их ФП нейронная сеть обучается нестабильно. Числовые характеристики процесса обучения приведены в табл. 2.
Табл. 2. Сравнение результатов обучения нечеткой нейронной сети
Определение числа градаций и форм ФП Параметры |
Автоматически по предлагаемой методике |
Субъективно на основе экспертной оценки |
|
Ошибка выхода |
0,072 |
0,118 |
|
Время обучения |
00:01:20 |
00:01:45 |
|
Число эпох обучения |
113447 |
165377 |
Рассмотренный пример показал, что при использовании предлагаемой методики качество обучения ННС заметно улучшилось. Это говорит о практической возможности и целесообразности использования данной методики.
В четвертой главе рассматриваются практические вопросы формирования баз знаний на примере системы предварительного выявления несанкционированной массовой рассылки электронных писем и системы медицинской диагностики. Рассматриваются этапы анализа медицинских данных на базе нечёткой нейронной сети. Приводятся примеры сформированных правил продукции в рассматриваемых предметных областях. Проведен сравнительный анализ результатов работы нечеткой нейронной сети при различных подходах к настройке ее параметров - с применением методики преднастройки и оптимизации и без нее.
Для системы предварительного выявления несанкционированной массовой рассылки (спама) сформирована база знаний. Внедрение системы на рабочих станциях корпоративной сети необходимо для выявления спама в потоках электронной почты. Система производит классификацию входящих писем и информирует пользователя о принадлежности письма к спаму, принимая решение на основании сформированной базы знаний.
Для её формирования наряду с экспертами использовалась нечёткая нейронная сеть в комплексе с разработанной методикой преднастройки и оптимизации ее параметров, с помощью которых обрабатывалась статистическая информация, представлявшая собой значения признаков пришедшего письма.
Для эксперимента было использовано пространство признаков оформления и стиля писем, форматирования и заголовков. Обучающие выборки включали в себя поля «количество адресатов», «количество замен кириллических букв на латиницу», «частота встречаемости слов верхнего регистра» и «классификатор спама». Для реализации почтового трафика при обучении ННС была использована собственная база из 500 писем, большая часть которой содержит характерные признаки спама. Обучение проводилось с использованием треугольных функций принадлежности, установленных в результате применения разработанной методики. В результате сформировано множество правил, из которых отобраны наиболее значимые, определяющие условия определения спама.
Экспертная система успешно прошла тестирование на локальной рабочей станции, этап опытной эксплуатации и внедрена в промышленную эксплуатацию в корпоративной сети МВД по Республике Татарстан. При работе система показала эффективность используемой системы классификации писем, что подтверждено процентными уровнями коэффициента ошибочного пропуска (7%), коэффициента ошибочного отказа (5%) и ошибки обобщения 16%) в сравнении с существующими системами фильтрации спама в почтовом трафике, а также работой системы без применения методики преднастройки и оптимизации параметров нейронечеткой модели формирования ее базы знаний.
Практическое использование результатов её работы позволяет:
· повышать уровень защищенности корпоративной сети и ее информации;
· сокращать время и снижать нагрузку на специалистов при анализе входящей корреспонденции и, как следствие, повысить их работоспособность.
Для проверки возможности повышения эффективности применения нечёткой нейронной сети на всех этапах медицинской диагностики использованы данные клинического, нейро-ортопедического, рентгенокомпьютернотомографического обследования женщин и мужчин в различных возрастных группах с различными синдромами поясничного остеохондроза на стационарном этапе обострения и в стадии начинающейся ремиссии. Обучение нейронной сети и обработка данных проведены на базе кафедры реабилитологии и спортивной медицины Казанской государственной медицинской академии под руководством к.м.н., доцента кафедры Подольской М.А.
В результате обучения сети на 105 обучающих выборках получено 525 правил, значимость которых оценивалась экспертами - специалистами-вертеброневрологами высокой квалификации.
Работа нечёткой нейронной сети в комплексе с методикой преднастройки и оптимизации ее параметров отвечает логике постановки диагноза экспертом и эффективно моделирует этапы его интеллектуальной деятельности. В подавляющем большинстве случаев сформированные правила совпадали с мнениями экспертов, что позволяет использовать ННС с разработанной методикой в составе экспертных диагностических систем.
Проверка разработанной методики на медицинских данных подтверждает повышение точности автоматизированного процесса диагностики. Данные вертеброневрологического анализа послужили лишь многофакторной моделью, способной описать закономерности возникновения, развития, клинических особенностей заболевания, долгосрочного прогноза состояния пациентов. Методика и нейронечеткая модель могут служить математической оболочкой, способной в короткие сроки эффективно решать сложные экспертные задачи не только медицине.
В заключение диссертационной работы сформулированы научные результаты, полученные в ходе её выполнения, намечены направления перспективных исследований.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
1) Проведен анализ эффективности методов интеллектуального анализа данных и стратегий получения знаний для экспертных систем с целью обоснования актуальности разработки новых математических методов и алгоритмов автоматизированного формирования баз знаний ЭС, а также необходимость повышения эффективности одного из таких методов - нейронечеткой модели.
2) Проанализированы существующие подходы к решению задачи выделения значений лингвистической переменной (задача нечеткого гранулирования информации). В результате анализа обоснована необходимость разработки специального алгоритма гранулирования информации.
3) Разработана методика преднастройки и оптимизации параметров нейронечёткой модели формирования баз знаний. Количество нечетких гранул входных лингвистических переменных нечеткой нейронной сети, а также формы и начальные параметры соответствующих функций принадлежности определяются на основе разработанных алгоритмов.
4) Разработан программный комплекс, реализующий методику преднастройки и оптимизации параметров нейронечёткой модели формирования баз знаний. Показана возможность использования методики в составе мягких ЭС.
5) Проведены численно-параметрические исследования оценки эффективности разработанной методики, применение которой повышает точность нечеткой аппроксимации экспериментальных данных более чем на 30%, что также подтверждается и результатами проведенной апробации.
6) Проведено обучение нечёткой нейронной сети на множестве обучающих выборок с применением методики преднастройки и оптимизации параметров сети. Методика показала свою эффективность при анализе медицинских данных и в задаче формирования правил принятия решений в системах фильтрации писем несанкционированной массовой рассылки.
ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ
В научном журнале, рекомендованном ВАК:
Глова В.И., Корнилов Г.С., Катасёв А.С. Кластеризация значений входных параметров нечеткой нейронной сети // Вестник Казанского государственного технического университета им. А.Н. Туполева, №1, 2009. С. 74-77.
В других журналах и материалах научных конференций:
Катасёв А.С., Корнилов Г.С. Катасёва Ю.С. Формирование правил принятия решений в социально-экономических системах // Материалы Республиканской научно-практич. конф. «Проблемы анализа и моделирования региональных социально-экономических процессов». Казань, 2009. С. 86-88.
Катасёв А.С., Корнилов Г.С. Методика построения функций принадлежности значений лингвистических переменных в решении задач экономики // Международная научно-практическая конференция «Проблемы социально-экономического развития города и села в условиях мирового экономического кризиса». Казань, 2009 г.: сборник докладов. С. 47-50.
Катасёв А.С., Корнилов Г.С., Аникин И.В. Адаптивная нейронечеткая модель формирования баз знаний экспертных систем // XII Международная конференция по мягким вычислениям и измерениям (SCM'2009). Санкт- Петербург, 2009 г.: сборник докладов. С. 219-222.
Корнилов Г.С. Алгоритм нечеткой кластеризации // XVI Туполевские чтения. Международная молодёжная научная конференция, Казань, 2008.: тезисы докладов, 3-й том. С. 80-81.
Корнилов Г.С. Алгоритм нечёткой кластеризации для выделения значений лингвистической переменной // Ежегодная научно-практическая конференция «Наука и профессиональная деятельность»: материалы конференции. Нижнекамск, 2008. С. 141-145.
Корнилов Г.С. Методика анализа данных на основе нечеткой кластеризации // XVII Туполевские чтения. Международная молодёжная научная конференция, Казань, 2008.: тезисы докладов, 3-й том. С. 125-126.
Корнилов Г.С. Нейронечеткая модель формирования и использования базы знаний в решении задач информационной безопасности // Инфокоммуникационные технологии глобального информационного общества: тез. докл. 4-й ежегодной международной научно-практической конференции. Казань, 2006. С. 100-104.
Корнилов Г.С., Катасёв А.С. Нечёткий кластерный анализ в задачах социально-экономического прогнозирования // Материалы Республиканской научно-практической конференции «Проблемы анализа и моделирования региональных социально-экономических процессов». Казань, 2009. С. 89-91.
Корнилов Г.С., Катасёв А.С., Аникин И.В. Методы и алгоритмы преднастройки и оптимизации параметров нечеткой нейронной сети // XII Международная конференция по мягким вычислениям и измерениям (SCM'2009). Санкт- Петербург, 2009 г.: сборник докладов. С. 223-226.
Корнилов Г.С., Катасёв А.С., Катасёва Ю.С. Выделение значений лингвистических переменных методом нечёткого кластерного анализа // II Всероссийская научно-практическая конференция «Современная торговля: теория, методология, практика»: материалы конф. Казань, 2008. С. 153-156.
Корнилов Г.С., Катасёв А.С., Катасёва Ю.С. Математические методы в исследовании рыночной корзины покупателя // Материалы Всероссийской Молодежной научной конференции «Инновационные технологии в торговле и экономике». Казань, 2008. С. 103-104.
Корнилов Г.С., Катасёв А.С., Катасёва Ю.С. Сегментация рынка и позиционирование товара на основе алгоритма нечеткой кластеризации // Материалы Всероссийской Молодежной научной конференции «Инновационные технологии в торговле и экономике». Казань, 2008. С. 130-131.
Корнилов Г.С., Катасёв А.С. Формирование правил принятия решений по обеспечению информационной безопасности в инфокоммуникационных сетях // 9-я международная научно-техническая конференция «Проблемы техники и технологии телекоммуникаций», посвященная 100-летию со дня рождения академика В.А. Котельникова, 120-летию телефонной связи в Татарстане: материалы конференции. Казань, 2008. С. 441-442.
Аникин И.В., Корнилов Г.С., Катасёв А.С. Интеллектуальная система управления внутренними рисками информационной безопасности в компьютерных сетях // XII Международная конференция по мягким вычислениям и измерениям (SCM'2009). Санкт- Петербург, 2009 г.: сборник докладов. С. 129-132.
Корнилов Г.С., Катасёв А.С., Насыров Р.И. Адаптивная нейронечеткая модель формирования баз знаний экспертных систем в решении задачи фильтрации «спама» // Инфокоммуникационные технологии глобального информационного общества: тез. докл. 7-й ежегодной международной научно-практической конференции. Казань, 2009. С. 100-104.
Формат 6084 1/16. Бумага офсетная. Печать офсетная.
Печ.л. 1,25. Усл.печ.л. 1,16. Уч.-изд.л. 1,04.
Тираж 110. Заказ Н2.
Типография Издательства Казанского государственного
технического университета
420111 Казань, К. Маркса, 10
Размещено на Allbest.ru
...Подобные документы
Описание основных положений нечеткой логики: функций принадлежности, лингвистические переменные, база правил нечетких высказываний. Деревья решений и типы решаемых задач. Степень принадлежности примеров к атрибутам. Механизмы анализа нечеткой информации.
контрольная работа [1,4 M], добавлен 30.01.2015Нечеткие множества. Основные понятия нечеткой логики, необходимые для моделирования процессов мыслительной деятельности человека. База правил. Формы многоугольных функций принадлежности. Гауссова функция. Системы нечеткого вывода в задачах управления.
реферат [844,8 K], добавлен 16.07.2016Виды задач линейного программирования и формулировка задачи. Сущность оптимизации как раздела математики и характеристика основных методов решения задач. Понятие симплекс-метода, реальные прикладные задачи. Алгоритм и этапы решения транспортной задачи.
курсовая работа [268,0 K], добавлен 17.02.2010Постановка, анализ, графическое решение задач линейной оптимизации, симплекс-метод, двойственность в линейной оптимизации. Постановка транспортной задачи, свойства и нахождение опорного решения. Условная оптимизация при ограничениях–равенствах.
методичка [2,5 M], добавлен 11.07.2010Общая схема процесса проектирования. Формализация построения математической модели при проведении оптимизации. Примеры использования методов одномерного поиска. Методы многомерной оптимизации нулевого порядка. Генетические и естественные алгоритмы.
курс лекций [853,2 K], добавлен 03.01.2016Критический путь в графе. Оптимальное распределение потока в транспортной сети. Задача линейного программирования, решаемая графическим методом. Несбалансированная транспортная задача. Численные методы решения одномерных задач статической оптимизации.
курсовая работа [314,5 K], добавлен 21.06.2014Транспортная задача линейного программирования, закрытая модель. Создание матрицы перевозок. Вычисление значения целевой функции. Ввод зависимостей из математической модели. Установление параметров задачи. Отчет по результатам транспортной задачи.
контрольная работа [202,1 K], добавлен 17.02.2010Математическая постановка и алгоритм решения транспортной задачи. Сбалансированность и опорное решение задачи. Методы потенциалов и северо-западного угла. Блок-схема. Формы входной и выходной информации. Инструкция для пользователя и программиста.
курсовая работа [113,8 K], добавлен 10.11.2008Математическая формализация оптимизационной проблемы. Геометрическая интерпретация стандартной задачи линейного программирования, планирование товарооборота. Сущность и алгоритм симплекс-метода. Постановка транспортной задачи, последовательность решения.
учебное пособие [126,0 K], добавлен 07.10.2014Построение схемы сети. Расчет интенсивностей входных потоков для каждой СМО. Проверка стационарности сети. Модель сети на языке моделирования GPSS. Сравнение расчетных и экспериментальных данных по критерию Стьюдента. Проверка адекватности модели.
контрольная работа [94,6 K], добавлен 28.07.2013Применение линейного программирования для решения транспортной задачи. Свойство системы ограничений, опорное решение задачи. Методы построения начального опорного решения. Распределительный метод, алгоритм решения транспортной задачи методом потенциалов.
реферат [4,1 M], добавлен 09.03.2011Задачи оптимизации сложных систем и подходы к их решению. Программная реализация анализа сравнительной эффективности метода изменяющихся вероятностей и генетического алгоритма с бинарным представлением решений. Метод решения задачи символьной регрессии.
диссертация [7,0 M], добавлен 02.06.2011Описание графического способа решения задачи распределения ресурсов. Определение экономического смысла двойственной задачи. Нахождение предельных полезностей товаров и их приближенного изменения. Применение модели Стоуна для расчета равновесного спроса.
контрольная работа [345,7 K], добавлен 24.03.2011Методики решения аналитической задачи оценки функционирования жилищно-коммунального хозяйства региона. Математическая модель, метод и алгоритм решения задачи планирования вывоза бытовых отходов на заводы по их переработке. Ввод дополнительной информации.
автореферат [755,5 K], добавлен 23.03.2009Графический метод решения задачи оптимизации производственных процессов. Применение симплекс-алгоритма для решения экономической оптимизированной задачи управления производством. Метод динамического программирования для выбора оптимального профиля пути.
контрольная работа [158,7 K], добавлен 15.10.2010Построение и обоснование математической модели решения задачи по составлению оптимального графика ремонта инструмента. Использование табличного симплекс-метода, метода искусственных переменных и проверка достоверности результата. Алгоритм решения задачи.
курсовая работа [693,1 K], добавлен 04.05.2011Понятия теории нечетких систем, фаззификация и дефаззификация. Представление работы нечетких моделей, задача идентификации математической модели нечеткого логического вывода. Построение универсального аппроксиматора на основе контроллера Мамдани-Сугено.
курсовая работа [897,5 K], добавлен 29.09.2010Основные методы решения задачи оптимального закрепления операций за станками. Разработка экономико-математической модели задачи. Интерпретация результатов и выработка управленческого решения. Решение задачи "вручную", используя транспортную модель.
курсовая работа [1,0 M], добавлен 25.01.2013Основные подходы и способы решения транспортной задачи, ее постановка и методы нахождения первоначального опорного решения. Математическая модель транспортной задачи и алгоритм ее решения методом потенциалов. Составление опорного плана перевозок.
курсовая работа [251,0 K], добавлен 03.07.2012Расчет зависимости курса акций от эффективности рынка ценных бумаг. Построение графика экспериментальных данных и модельной прямой. Нахождение значения стандартных погрешностей для определения доверительных интервалов для значений зависимой переменной.
контрольная работа [441,9 K], добавлен 13.10.2014