Использование нейронной сети для стабилизации положения подвижных элементов в среде OpenAI

Особенности использования нейронной сети для стабилизации положения подвижных элементов в среде OpenAI. Знакомство с решением задачи стабилизации положения подвижных элементов в технических системах. Рассмотрение этапов проектирования нейронной сети.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 19.02.2019
Размер файла 994,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Использование нейронной сети для стабилизации положения подвижных элементов в среде OpenAI

В статье описано решение задачи стабилизации положения подвижных элементов в технических системах. Реализована нейронная сеть с различными вариантами персептрона средствами языка Python, библиотеки tensorflow [1] и её расширения tflearn. Проведена имитация процесса стабилизации положения подвижного элемента технической системы в среде OpenAI средствами библиотеки gym [2]. Сформированы наборы данных для обучения нейронной сети, проведено обучение и тестирование нейронной сети средствами языка Python и библиотеки gym. В результате тестирования даны рекомендации по выбору архитектуры нейронной сети для разработки систем стабилизации подвижных объектов.

Данная работа выполнена в рамках курсового проекта по дисциплине «Machine learning. Обучающиеся технические системы», научный руководитель - д.ф.-м.н., профессор Л.И. Воронова [3].

Постановка задачи

Разработчикам современных мобильных роботов, инженерам на некоторых предприятиях и др. необходимо решать задачу стабилизации положения и автоматического удерживания равновесия разрабатываемых систем [4]. При решении данной задачи используются современные методы принятия решений и интеллектуального анализа данных.

Разработка системы управления (СУ) таким объектом возможна как на аппаратном, так и на программном уровне. Классическим примером является замкнутая система автоматического регулирования, воздействующая на объект на основе информации о состоянии объекта, получаемой по контуру обратной связи.

Современный уровень робототехники характеризуется разработкой цифровых СУ, в том числе и для систем стабилизации подвижных объектов. Такие СУ могут иметь гибкую структуру, являются кроссплатформенными, лёгкими в разработке и настройке по сравнению с аналоговыми СУ. Программное обеспечение таких СУ позволяет реализовать методы машинного обучения: дерево решений, случайный лес, нейронные сети, кластеризация и др.

Разрабатываемый алгоритм может быть использован в подсистеме для промышленных фрезерных станков с числовым программным управлением (ЧПУ) для стабилизации резца, что поможет повысить качество изделия [5].

Инструментарий Gym

Gym - это инструментарий для разработки и сравнения алгоритмов обучения. Его библиотека gym представляет собой набор тестовых задач -- сред, которые можно использовать для разработки алгоритмов обучения. Эти среды имеют общий интерфейс, позволяющий писать общие алгоритмы[2].

Инструментарий gym предоставляет собой имитацию более 2,5 тысяч вариантов окружающей среды, каждая из которых может использоваться для разработки алгоритма обучения.

В библиотеке Gym есть среда CartPole-v1 (рис. 1), представляющая собой тележку, на которой балансирует шест. Управление тележкой происходит при помощи функции step(), которая имеет единственный входной аргумент: 0 или 1, что соответствует передвижению тележки влево или вправо соответственно.

Рисунок 1. Окно среды CartPole-v1 [2]

Функция step()возвращает три значения:

• Наблюдение (observation): специфичный для окружающей среды объект - в данном случае - положение тележки.

• Награда (reward): вознаграждение, полученное в результате предыдущего действия. Масштаб варьируется в зависимости от среды, но цель всегда состоит в том, чтобы увеличить награду. Программа увеличивает количество очков на 25 единиц за каждую секунду незавершенной игры.

• Завершение (done): информация о том, нужно ли перезапускать среду. Критическое отклонение шеста от нормального положения (больше 15 градусов) [2].

В начальный момент времени, когда шест находится в исходном состоянии, система принимает решение, в какую сторону подвинуть тележку. После этого система получает данные о передвижении тележки на предыдущем шаге и принимает решение о следующем действии (рис.2).

Рисунок 2. Пример принятия решения

нейронный стабилизация сеть

Если шест не отклонен от нормального положения в сторону более чем на 15 градусов, возвращаемая булева переменная done принимает значение false и работа алгоритма продолжается. Как только переменная done возвращает значение true, игра заканчивается (рис.3).

Рисунок 3. Пример завершения игры

Генерация обучающего набора данных

Для обучения нейронной сети необходимо подготовить обучающий набор данных. Созданная функция random_starts() запускает среду и в случайном порядке смещает тележку влево или вправо, пока работа алгоритма не будет завершена значением переменной done.

Создаются массивы training_data и accepted_scores. В массив training_data записывается информация обо всех передвижениях тележки во время генерации тренировочных данных. Однако если записывать абсолютно все перемещения тележки, то туда попадут и данные, непригодные для обучения. Например, если при старте среды шест сразу отклонился от нормали более чем на 15 градусов и завершил работу алгоритма (рис.3).

Для решения проблемы создан массив accepted_scores. Эмпирическим путем установлено, что набор данных можно считать подходящим для обучения, если перемещения тележки позволили получить награду в 50 очков и более.

При генерации обучающего набора данных, в среде проводится 10 тысяч тренировочных запусков, в результате которых в массив training_data записываются только запуски, набравшие более 50 очков.

Проектирование нейронной сети для автоматического удержания равновесия объекта

Как правило, нейронные сети могут иметь различную архитектуру: сверточные, рекуррентные нейронные сети и персептрон. Для решения задачи принятия решения на основе изменяющихся входных данных можно использовать персептрон.

Для реализации нейронной сети используются язык программирования Python, библиотека tensorflow и её расширение tflearn [1]. Tensorflow - одна из наиболее распространенных библиотек для машинного обучения. Tensorflow обладает обширной документацией, что существенно упрощает процесс обучения нейронной сети и её дальнейшее использование. Tflearn - модульная библиотека глубокого обучения, построенная поверх tensorflow, которая содержит все базовые учебные функции.

Библиотека tensorflow позволяет разработчику упростить построение нейронной сети, благодаря встроенным функциям.

Подбор оптимальной модели персептрона возможен эмпирическим путем, поэтому в качестве исходной модели использован персептрон с одним скрытым слоем (рис.4).

В качестве входных данных выступают положение шеста, предыдущее положение шеста и положение тележки. В качестве выходных данных - решение, в какую сторону сдвинуть тележку.

Рисунок 4. Персептрон с одним скрытым слоем

Для оценки эффективности модели персептрона, создан массив Score, в котором хранятся все полученные в ходе тестирования очки. После тестирования находится среднее арифметическое значение элементов массива Score, которое и будет рассматриваться как эффективность.

Далее происходит обучение нейронной сети в 5 эпох при помощи функции train_model(), показанной на рисунке 5.

Рисунок 5. Функция обучения нейронной сети

В ходе тестирования персептрона с одним скрытым слоем был получен график зависимости среднего результата от количества нейронов в скрытом слое, показанный на рисунке 5.

Рисунок 6. График зависимости среднего результата

Как видно из графика, добавление нейронов на скрытый слой после 100 не изменяет результат. Для увеличения показателей принято решение изменить структуру персептрона, добавив больше скрытых слоёв. Протестировано много видов многослойного персептрона и самые показательные результаты показаны в Табл.1.

Таблица 1. Варианты моделей персептрона

нейронный стабилизация сеть

где:

• Средний результат - среднее количество очков набранных за время тестирования

• L1..L5 - количество скрытых слоёв;

• число на пересечении - количество нейронов на каждом скрытом слое.

При использовании трёх скрытых слоёв с количеством нейронов L1/L2/L3 получен самый низкий средний результат - 10 очков.

При увеличении количества нейронов, результат заметно улучшился, но наиболее эффективным оказался способ, в котором происходит увеличение количества скрытых слоёв и нейронов.

В результате была сформирована модель из 5 скрытых слоёв, с количеством нейронов 128/128/128/128/128. Однако такая модель не позволяла получить более 326 очков.

Модель персептрона с 5 скрытыми слоями и количеством нейронов

128/256/512/256/128 показала наиболее эффективный результат. Итоговая модель показана на рисунке 6.

Рисунок 7. Итоговая модель многослойного персептрона

Заключение

нейронный стабилизация сеть

В статье была решена актуальная проблема контроля равновесия элементов мобильных и человекоподобных роботов. Проблема решена при помощи технологий машинного обучения, а именно использования одного из видов нейронных сетей - персептрона. Для реализации персептрона была использована библиотека tensorflow и её расширение tflearn. Обучение сети проводилось в среде OpenAI с использованием библиотеки Gym.

В ходе тестирования различных вариантов персептрона наилучший результат был достигнут при использовании многослойного персептрона с 5 скрытыми слоями.

Разработанная нейронная сеть может быть использована в реальных системах для стабилизации подвижных частей, гашения вибрации объектов с помощью подвижных механизмов.

Список источников и литературы

1.Открытая библиотека машинного обучения TensorFlow [Электронный ресурс]. - Режим доступа: https://www.tensorflow.org/(дата обращения: 09.12.2018)

2.Открытая библиотека машинного обучения Gym.OpenAI [Электронный

ресурс]. - Режим доступа: http://gym.openai.com/ (дата обращения: 09.12.2018)

3.Воронова Л.И., Воронов В.И. Machine Learning: Регрессионные методы интеллектуального анализа данных: учебное пособие - МТУСИ, 2017 - 81 с.

4.Юревич Е.И. Основы робототехники. - 4 изд. - СПб.: БХВ-Петербург, 2018.

5.Гаранин В.Н., Гришкевич А.А. Способ подвижного взаимодействия фрезерного инструмента с приводом механизма резания станка // Древообрабатывающая промышленность. - 2015. - С. 155-156.

6.Воронов В.И., Воронова Л.И., Генчель К.В. Применение параллельных алгоритмов в нейронной сети для распознавания жестового языка // Актуальные проблемы инфотелекоммуникаций в науке и образовании (АПИНО 2018). VII Международная научнотехническая и научно-методическая конференция. Сборник научных статей. В 4-х томах. Под редакцией С.В. Бачевского. - СПб.: СПбГУТИ им. проф. М.А. Бонч-Бруевича, 2018. - С. 207212.

Размещено на Allbest.ru

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.