Нейронные сети обратного распространения ошибки

Изучение архитектуры сетевого соединения. Нейронные сети обратного распространения ошибки. Исследование алгоритма градиентного спуска. Использование векторной арифметики для понимания принципов обучения нейросети обратного распространения ошибки.

Рубрика Экономико-математическое моделирование
Вид статья
Язык русский
Дата добавления 28.05.2017
Размер файла 109,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Нейронные сети обратного распространения ошибки

Д.Е. Романов

Идея искусственных нейронных сетей (ИНС) возникла, как попытка описать процессы восприятия информации, происходящие в мозге человека. Как и мозг человека, ИНС состоит из множества соединенных друг с другом элементов - нейронов, которые имитируют нейроны головного мозга.

Существуют различные принципы построения сетей, или иначе, их архитектуры. Применительно к нейросетям иногда употребляется термин цитоархитектоника. Классическим примером архитектуры сети является нейросеть, в которой нейроны расположены по слоям и выходы одного слоя являются входами следующего. Однако, встречаются сети и с более сложной цитоархитектоникой, например, рекурсивные сети. В этой статье будут рассматриваться только многослойные сети прямого распространения, т.е. сети, в которых возбуждение передается лишь в одном направлении последовательно, от слоя к слою.

Одной из моделей многослойной нейросети являются сети обратного распространения ошибки. Свое название эта модель сети получила благодаря специфическому алгоритму обучения. Рассматриваемый во многих источниках, он приведен слишком детально, что порой затрудняет восприятие сути алгоритма. Цель данной статьи - показать преимущество использования векторной арифметики для понимания принципов обучения нейросети обратного распространения ошибки. Кроме того, это позволяет нагляднее представить принцип функционирования многослойных нейросетей вообще.

ошибка нейронный сеть арифметика

Рис. 1 Схема нейрона

Из рис. 1 видно, что искусственный нейрон, так же, как и живой, состоит из синапсов, связывающих входы нейрона с ядром; ядро нейрона, которое осуществляет обработку входных сигналов и аксона, который связывает нейрон с нейронами следующего слоя. Каждый синапс имеет вес, который определяет, насколько соответствующий вход нейрона влияет на его состояние. Коль скоро нейрон получает на свои входы суммарный сигнал, превышающий некоторое пороговое значение, на его аксоне формируется выходной сигнал.

Таким образом, выход нейрона имеет следующий вид:

,

где - т.н. активационная функция,

- вес -го синапса,

а - значение -го входа нейрона.

Наиболее часто в качестве активационной функции используется сигмоид, который имеет следующий вид:

Основное достоинство этой функции в том, что она дифференцируема на всей оси абсцисс и имеет очень простую производную:

При уменьшении параметра сигмоид становится более пологим, вырождаясь в горизонтальную линию на уровне 0,5 при . При увеличении сигмоид все больше приближается к функции единичного скачка [1].

Как уже было сказано, здесь будут рассматриваться только многослойные нейросети. Такая сеть строится из нескольких слоев нейронов. В пределах слоя нейроны не связаны, однако между соседними слоями нейроны соединяются по принципу «каждый с каждым» так, что выходы предыдущего слоя являются входами следующего. Если же нужно подчеркнуть отсутствие связи между какими-либо нейронами, то просто полагают вес данного синапса равным нулю.

Рис. 2 Многослойная нейросеть

Следует остановиться на том, что понимают под слоем сети. В результате неразвитой терминологии нейронных сетей прошлых лет, резкой критики и непонимания задач исследования нейросетей, а иногда и ложного освещения прессой, изначальный смысл этого понятия исказился. В разных трактовках одна и та же сеть может называться и однослойной, и многослойной [2]. Здесь стоит вспомнить, что входной слой состоит, по сути, из нейронов-рецепторов, а однослойная сеть, состоящая лишь из таких нейронов, будет бесполезна. Поэтому следует рассматривать сети, состоящие как минимум из двух слоев - клеток-рецепторов и нейронов выходного слоя.

Однако, как легко заметить, на первом слое никакой обработки информации не происходит. Поэтому удобнее считать лишь те слои нейронов, на которых происходит суммация возбуждения. В этом случае упомянутую выше двухслойную сеть следует называть однослойной.

Для того чтобы сеть могла функционировать, ее необходимо обучить. Одним из алгоритмов обучения сетей является метод обратного распространения ошибки. Впервые этот метод был описан в 1974 г. А.И. Галушкиным, а также независимо и одновременно Полем Дж. Вербосом. Далее существенно развит в 1986 г. Дэвидом И. Румельхартом, Дж. Е. Хинтоном и Рональдом Дж. Вильямсом и независимо и одновременно С. И. Барцевым и В.А. Охониным (Красноярская группа). Это итеративный градиентный алгоритм, который используется с целью минимизации ошибки работы нейронной сети и получения желаемого выхода [3].

Существенным условием применимости метода является дифференцируемость активационной функции.

По сути, задача обучения НС сводится к нахождению некой функциональной зависимости

,

где - входной, а - выходной векторы. В общем случае такая задача при ограниченном наборе входных данных имеет бесконечное множество решений [1]. Для ограничения пространства поиска при обучении ставится задача минимизации целевой функции ошибки НС, которая находится, к примеру, по методу наименьших квадратов:

где

- значение -го выхода нейросети,

- целевое значение -го выхода,

- номер последнего слоя.

Обучение нейросети производится методом градиентного спуска [4, с. 108], т.е. на каждой итерации изменение веса производится по формуле

,

где

- параметр, определяющий скорость обучения,

- номер слоя.

Последняя задача сводится к вычислению частных производных

.

Это легко сделать явно, раскрывая производную сложной функции. Для последнего уровня запись будет выглядеть следующим образом:

.

Т.к. по определению

, ,

то входит как множитель только в выражение . Это можно видеть из рис. 3.

Рис. 3

Тогда очевидно, что при .

Остается рассмотреть лишь случай .

.

Напомним также, что все нам известны (они получены при предъявлении обучаемого образа). Если сеть однослойная, то остается лишь скорректировать веса согласно формуле

.

В противном случае необходимо продолжить вычисление

.

Для этого воспользуемся полученными выше результатами. Обозначим через вектор с координатами

.

Тогда, к примеру,

,

или в векторном виде

(1)

Вычислим

.

Аналогично раскроем производную сложной функции

,

.

Законность изменения порядка суммирования и дифференцирования непосредственно следует из линейности оператора дифференцирования. В итоге:

.

Легко заметить, что

,

Поэтому

,

или в векторной записи

, (2)

где под звездочкой понимается покоординатное умножение векторов. Обозначая через выражение, стоящее в квадратных скобках, можно последовательно найти все

.

Объединяя формулы (1) и (2), легко получить рекурсивную процедуру вычисления всех (однако, как легко заметить, никакого «обратного распространения ошибки» не происходит, а название метода связано лишь с тем, что коррекцию весов матриц на каждом уровне удобнее производить, двигаясь от самого последнего уровня).

Стоит отметить, что эта процедура позволяет выполнить лишь один шаг алгоритма градиентного спуска. Выбор параметра скорости обучения на каждом шаге можно осуществлять различными способами, например, из условия максимального убывания функции ошибки, или же считать постоянным, а шаги градиентного спуска выполнять до достижения некоторой степени точности решения одного примера. Но, вообще говоря, задача выбора размера шага является сложной и нетривиальной. Например, если размер шага фиксирован и очень мал, то сходимость будет слишком медленная; если же он фиксирован и слишком велик, то может возникнуть т.н. паралич сети (т.е. состояние, когда сеть теряет способность к обучению) или постоянная неустойчивость. В теоретическом отношении эта проблема изучена достаточно плохо [3]. Поэтому, как правило, параметры обучения сети подбираются экспериментально до достижения приемлемого результата распознавания образов.

Литература

1. http://www.basegroup.ru/library/analysis/neural/math/

2. http://ru.wikipedia.org/wiki/Персептрон

3. http://ru.wikipedia.org/wiki/Метод_обратного_распространения_ошибки

4. Лесин В.В., Лисовец Ю.П. Основы методов оптимизации.-М.: Изд-во МАИ, 1998.-344с. с ил.

Размещено на Allbest.ru

...

Подобные документы

  • Значения переменных, важных в процессе принятия решений. Разработка методов прогнозирования. Основной принцип работы нейросимулятора. Зависимость погрешностей обучения и обобщения от числа нейронов внутренних слоев персептрона. Определение ошибки сети.

    презентация [108,5 K], добавлен 14.08.2013

  • Динамика распространения безналичных платежей с использованием банковских карт и региональные специфики рынка эквайринга в России. Построение эконометрических моделей для выявления факторов, влияющих на скорость и уровень распространения инноваций.

    дипломная работа [1,2 M], добавлен 17.10.2016

  • Порядок построения линейного регрессионного уравнения, вычисление его основных параметров и дисперсии переменных, средней ошибки аппроксимации и стандартной ошибки остаточной компоненты. Построение линии показательной зависимости на поле корреляции.

    контрольная работа [75,1 K], добавлен 29.01.2010

  • Базовые понятия искусственного нейрона: структура, активационные функции, классификация. Изучение преимуществ нейронных сетей, позволяющих эффективно строить нелинейные зависимости, более точно описывающие наборы данных, чем линейные методы статистики.

    реферат [88,7 K], добавлен 17.05.2010

  • Определение роли индексов потребительских цен в экономике. Нейронные сети и их применение в прогнозировании. Определение долгосрочной оценки паритета покупательной способности по странам, денежно-кредитной политики по установлению процентных ставок.

    презентация [108,3 K], добавлен 14.08.2013

  • Возможные ошибки спецификации модели. Симптомы наличия ошибки спецификации первого типа. Проблемы с использованием замещающих переменных. Построение функции Кобба-Дугласа. Проверка адекватности модели. Переменные социально-экономического характера.

    презентация [264,5 K], добавлен 19.01.2015

  • Макроэкономический, торговый и финансовый каналы кризисных явлений в экономике. Результат оценки каналов распространения финансовых кризисов для группы стран. Анализ совокупности показателей - потенциальных предвестников возникновения кризиса в Украине.

    контрольная работа [296,2 K], добавлен 29.09.2013

  • Составление модели для прогнозирования курса доллара. Создание оптимально работающей нейросети для прогнозирования курсов доллара. Использование метода скользящих окон. Определение количества нейронов на внутреннем слое, выполнение обучения сети.

    презентация [78,1 K], добавлен 14.08.2013

  • Исследование методов сетевого планирования и управления. Изучение правил изображения последовательных и параллельных работ, нумерации событий. Описание тупиков и замкнутых циклов в сети. Построение и оптимизация сетевого графика. Параметры сетевой модели.

    реферат [712,0 K], добавлен 13.01.2014

  • Изучение на практике современных методов управления и организации производства, совершенствование применения этих методов. Описание ориентированной сети, рассчет показателей сети для принятия управленческих решений. Проблема выбора и оценка поставщика.

    курсовая работа [137,6 K], добавлен 21.08.2010

  • История возникновения и развития нейронной сети, ее значение и применение. Реализация приложения, позволяющего определить фигуры изображенные пользователем на панели приложения. Создание однослойной нейронной сети (персептрон) с возможностью её обучения.

    курсовая работа [860,1 K], добавлен 13.07.2012

  • Построение схемы сети. Расчет интенсивностей входных потоков для каждой СМО. Проверка стационарности сети. Модель сети на языке моделирования GPSS. Сравнение расчетных и экспериментальных данных по критерию Стьюдента. Проверка адекватности модели.

    контрольная работа [94,6 K], добавлен 28.07.2013

  • Обзор корреляционного поля. Доверительные интервалы регрессии. Оценка качества линейной модели прогнозирования. Проверка ее на соответствие условиям теоремы Гаусса-Маркова. Точечный и интервальный прогнозы. Нахождение средней ошибки аппроксимации.

    контрольная работа [47,9 K], добавлен 09.08.2009

  • Исследование изменения во времени курса акций British Petroleum средствами эконометрического моделирования с целью дальнейшего прогноза с использованием компьютерных программ MS Excel и Econometric Views. Выбор оптимальной модели дисперсии ошибки.

    курсовая работа [1,2 M], добавлен 14.06.2011

  • Потенциальная возможность математического моделирования любых экономических объектов и процессов. Методы минимизации, связанные с вычислением градиента. Суть метода градиентного спуска. Анализ симплекс-таблицы. Построение экономико-математической модели.

    курсовая работа [998,7 K], добавлен 01.10.2011

  • Характеристика способов определения средней арифметической вариационного дискретного ряда без испытуемого элемента. Анализ этапов расчета квадратичной ошибки коэффициента корреляции. Рассмотрение основных особенностей отбора факторных признаков.

    контрольная работа [164,3 K], добавлен 18.10.2013

  • Построение доверительного интервала для коэффициента регрессии. Определение ошибки аппроксимации, индекса корреляции и F-критерия Фишера. Оценка эластичности изменения материалоемкости продукции. Построение линейного уравнения множественной регрессии.

    контрольная работа [250,5 K], добавлен 11.04.2015

  • Построение уравнения множественной регрессии в линейной форме, расчет интервальных оценок его коэффициентов. Создание поля корреляции, определение средней ошибки аппроксимации. Анализ статистической надежности показателей регрессионного моделирования.

    контрольная работа [179,4 K], добавлен 25.03.2014

  • Исследование системы методов планирования и управления разработкой проектов путем применения сетевых графиков. Правила построения сетевого графа. Расчет параметров и анализ сетей случайной структуры. Определение дисперсии ожидаемого выполнения проекта.

    курсовая работа [265,3 K], добавлен 31.05.2013

  • Проведение корреляционно-регрессионного анализа в зависимости выплаты труда от производительности труда. Построение поля корреляции, выбор модели уравнения и расчет его параметров. Вычисление средней ошибки аппроксимации и тесноту связи между признаками.

    практическая работа [13,1 K], добавлен 09.08.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.