Нечеткий контроллер с правилами самомодификации

Использование нейросетей для управления динамическими объектами в недетерминированной среде. Реализация мягкого управления на базе топологии "Внутренний учитель", используя нечеткую логику, повышающую адаптационные свойства СУ для некритических задач.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 12.05.2017
Размер файла 171,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Кубанский Государственный Технологический Университет

НЕЧЕТКИЙ КОНТРОЛЛЕР С ПРАВИЛАМИ САМОМОДИФИКАЦИИ

Ключко Владимир Игнатьевич, д.т.н., профессор

Шумков Евгений Александрович, к.т.н.

Карнизьян Роман Оганесович, аспирант

г. Краснодар, Россия

Аннотация

В статье предложена нейро-нечеткая реализация нейросетевой топологии "Внутренний учитель"

Ключевые слова: гибридная нейронечеткая сеть, нейронная сеть, обучение с подкреплением, политика самообучения, ANFIS, адаптивный критик

The article proposes the implementation of neuro-fuzzy neural network topology of "Internal Teacher"

Keywords: hybrid neural-network, neural network, reinforcement learning, ANFIS, self-learning policy, adaptive critic

Введение

В настоящее время стали популярны реализации систем управления объектами на базе топологий с подкреплением [2], в частности все большее развитие получают адаптивные критики [8,9], а также системы с различными реализациями Q - обучения [11]. При этом существует большое количество топологий на все случаи жизни, как адаптивных критиков, так и систем на базе Q - обучения, в частности приведем следующий список: DHP, GDHP, ADHPD, ADGDHP, GIFACL, FACL, Q - Хемминг, Dyna - Q, Q - Kohonen network, CMLP, HQ и т.д.[6, 8,9,10,11,12]. Каждая из топологий имеет свою область применения и нет ни одной универсальной [2,6]. Также у каждой топологии имеется свои достоинства и недостатки. Одной из попыток создать универсальную топологию для создания систем управления на основе обучения с подкреплением, является разработка нейросетевой топологии "Внутренний учитель" [2,3,6]. Рассмотрим дальнейшее развитие данной топологии.

Классическая топология "Внутренний учитель"

Для топологии "Внутренний учитель" используются две основные компоненты - Решатель и Учитель. Подобную функциональную схему можно найти еще в работе 1971 года [1]. Предложенная в [3] топология "Внутренний учитель" состоит из нескольких структурных компонент (см. Рисунок 1). Управляющая компонента системы - "Решатель". Она получает вектор состояния объекта и среды и формирует на выходе управляющий вектор. Вектор состояния среды формируется сенсорной компонентой. Вектор управляющего воздействия отрабатывает моторная компонента. Наиболее важная часть системы - "Учитель", компонента обучения. Компонента обучения оценивает состояние среды на предмет изменения характера воздействия на объект, и если это имеет место быть, то Учитель вмешивается в управление, перенастраивая правила управления или же вообще изменяя их. При этом Учитель в режиме первоначального обучения формирует специального вида управляющие воздействия, позволяющие быстро и полно изучить среду. Таким способом система управления (далее СУ) на базе данной топологии меняет стратегию управления. На вход Учитель получает данные обратной связи от внешней среды и историю управления объекта управления.

В качестве компоненты обратной связи используется коэффициент эффективности (далее КЭ По сути - модифицированное подкрепление.):

,

где i - номер кванта времени (итерации, одного законченного цикла управления), для которого вычисляется коэффициент; - безразмерный показатель полезной деятельности, произведенной объектом; - безразмерный показатель затраченных ресурсов.

КЭ записан в обобщенном виде и вычисляется по вектору состояния среды и состояния объекта управления. Для использования описываемой топологии в конкретных применениях КЭ должен записываться в частном виде. КЭ обрабатывается и вычисляется в компоненте обратной связи (БКЭ - блок коэффициента эффективности на Рисунке 1).

СУ должна максимизировать коэффициент эффективности, реализуя цели управления. КЭ используется для выявления изменения стратегии поведения улучшившего или ухудшившего общую оценку работы. КЭ является основным источником информации для построения эффективной схемы самообучения. При этом КЭ вычисляется на основе обработки сведений о внешней среде, объекте, и о характере взаимодействия объекта со средой.

Также для СУ на базе "Внутреннего учителя" вводятся адаптационные параметры - АП (один или несколько), регулируя которые можно добиться изменения работы Решателя. АП либо непосредственно входят в вектор подаваемый на вход Решателя, либо влияют на изменение обучающей выборки для Решателя.

В общем случае количество правил самообучения Учителя определяется по формуле:

где - глубина временного погружения по КЭ и - глубина временного погружения по АП, то есть за сколько предыдущих временных итераций учитывать КЭ и АП.

Правила самообучения Обычно трактуются, как "политика самообучения" (англ. self-modifying policies - SMP). учителя изменяют адаптационные параметры и сформулированы следующим образом:

· если снизилось значение КЭ, то изменяем АП в противоположном направлении от предыдущих изменений;

· если значение КЭ выросло, то продолжаем изменять АП в направлении от предыдущих изменений;

· если значение не изменилось, то в зависимости от КЭ, либо оставляем текущие правила (если КЭ устраивает), либо хаотически изменяем применяемое правило.

Рисунок 1. Топология "Внутренний учитель"

Подробно со стандартной топологии "Внутренний учитель" ознакомится в работах [2,6], а также в патенте РФ G 06 F 9/00 № 2266558.

Нейро-нечеткая топология "Внутренний учитель"

Предложим нейро-нечеткую реализацию компоненты Учитель. Пусть характеристики работы системы - коэффициент эффективности и адаптационный параметр рассматриваются, как нечеткие переменные с лингвистическими значениями: снизился, не_изменился и увеличился Ничто не мешает увеличить количество лингвистических значений, например, использовать такие: сильно снизился, снизился, не изменился, увеличился, сильно увеличился.. Тогда нечеткие правила работы Учителя будут следующими (для и ):

ЕСЛИ = снизился И = снизился И = снизился, ТО = увеличить

ЕСЛИ = снизился И = не изменился И = снизился, ТО = увеличить

ЕСЛИ = снизился И = увеличился И = снизился, ТО = снизить

и т.д. (в данном случае 27 правил).

Функции формы для правил можно задавать несколькими способами, но предпочтительней использовать трапециевидную или гауссовую функции принадлежности.

Пусть и . Входными переменными будут значения , и . Выходом компоненты Учитель будет переменная .

Обозначим через - - функцию формы для выражения = снизился, - для = снизился, - для = снизился. Аналогично введем функцию : для = не изменился, для = не изменился и для = не изменился. Также введем функцию : для = увеличился, для = увеличился и для = увеличился.

Для выхода введем функции = снизился, = не изменился, = увеличился. Система нечеткого вывода по Цукамото будет следующая. Для четких значений , и определим релевантность правил :

….

Выходы по каждому правил определяются с помощью обратных функций принадлежности правых частей правил:

Тогда общий выход системы нечетких правил будет

Реализуем приведенные правила самообучения Учителя с помощью нейро - нечеткой топологии ANFIS [7]. Схема приведена на Рисунке 2.

Слой 1 предназначен для вычисления степени на узлах, с которыми заданные входы удовлетворяют функциям принадлежности, ассоциированных с этими узлами.

Слой 2 предназначен для вычисления силы правил для каждого узла. При этом выход верхнего нейрона равен , второго сверху и т.д. Все узлы обозначены как , так как можно выбрать любую -норму для моделирования логического И [7].

Слой 3 предназначен для нормализации силы правил:

Рисунок 2. Учитель на базе ANFIS

Слой 4 вычисляет произведение нормализованной силы правил и индивидуального выхода соответствующего правила:

…..

Слой 5 вычисляет выход сети (на единственном нейроне):

Следующим шагом является обучение созданной сети. Дл обучения гибридной сети ANFIS используют алгоритм обратного распространения ошибки [7]. Обычно число правил жестко задается сверху. Пусть будет правил и будем использовать нечеткий вывод по Цукамото (Tsukamoto). При этом обучение разбивается на следующие этапы:

1. назначить начальные значения весов и параметров;

2. на вход ANFIS подать входные сигналы из обучающей выборки. При этом выбирается случайным образом;

3. рассчитать выходные значения во всех слоях;

4. рассчитать ошибку на выходе ANFIS как

(после некоторого числа итераций необходимо считать также ошибку по пакетному способу и если ошибка меньше заданной, то остановить обучение);

5. модифицировать параметры функций формы по формулам:

для выходных переменных

и т.д.

Для обучения можно использовать также алгоритм RProp [4].

Заключение

нейросеть управление топология логика

Таким образом, используя нечеткую логику можно реализовать мягкое (нечеткое) управление на базе топологии "Внутренний учитель". Использование нечеткой логики в данном случае позволяет для некритических задач повысить адаптационные свойства СУ. Предложенная топология сочетает в себе преимущества, как нейронных, так и нечетких систем. Возможность использования нечеткой логики в топологии "Внутренний учитель" также говорит об универсальности топологии.

Литература

1. Мкртчян С.О. Нейроны и нейронные сети. - М.: Энергия, 1971. - 232 с.

2. Стасевич В.П. Анализ и адаптивное управление в недетерминированных средах на основе самообучения. 2007. 170 с.

3. Стасевич В.П., Воротников С.А. Использование нейросетевых структур для управления динамическими объектами в недетерминированной среде // Экстремальная робототехника: Материалы XII Научно-технической конференции. - Санкт-Петербург: СПбГТУ, 2002.

4. Хайкин С. Нейронные сети: полный курс. 2-е изд.: Пер. с. англ. - М.: Издательский дом "Вильямс", 2006 - 1104 с.

5. Шумков Е.А. Обучение и самообучение в адаптивных системах управления / Е.А. Шумков, В.П. Стасевич, В.Н. Зуева / / Известия вузов Северо-Кавказский регион. Технические науки. Новочеркасск, 2006. - №2. - с. 84 - 86.

6. Шумков Е.А. Система поддержки принятия решений предприятия на основе нейросетевых технологий. 2004. 158 с.

7. Ярушкина Н.Г. Основы теории нечетких и гибридных систем: Учеб. Пособие. - М.: Финансы и статистика. 2004. 320 с.

8. Balakrishnan S.N. and Biega V. "Adaptive Critic Based Neural Networks for Control," in Proc. Am. Contr. Conf., Seattle, WA, June 1995, pp. 335-339.

9. Prokhorov D., Wanch D. Adaptive critic designs. IEEE transactions on Neural Networks, September 1997, pp. 997-1007.

10. Sutton R.S., Reinforcement Learning. Boston: MA: Kluwer Academic, 1996.

11. Watkins C., Dayan P. Q - learning. // Machine Learning, vol. 8, pp. 279 - 292. 1992.

12. Wiering M, Schmidhuber J. HQ - learning. Adaptive behavior, 6(2):219 - 246, 1998.

Размещено на Allbest.ru

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.