Анализ градиента для нейронных сетей с вейвлет-разложением целевого вектора
Анализ градиента для некоторых случаев нейронных сетей с вейвлет-разложением целевого вектора – нового типа нейронной сети, специализированного на распознавании речи и преобразовании сигнала, позволяющего ускорить обучение по сравнению с перцептроном.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 28.05.2017 |
Размер файла | 94,9 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Ставропольский государственный университет
Анализ градиента для нейронных сетей с вейвлет-разложением целевого вектора
Астапов К.А.
г. Ставрополь
Аннотация
В данной статье предлагается анализ градиента для некоторых случаев нейронных сетей с вейвлет и вейвлет-подобным разложением целевого вектора - нового типа нейронной сети, специализированного на распознавании речи и преобразовании сигнала, и позволяющего ускорить скорость и качество обучения по сравнению со стандартным перцептроном. Посредством этого анализа показывается, что в достаточно широких рамках нейронные сети с вейвлет-разложением целевого вектора эффективнее стандартного многослойного перцептрона.
Актуальность. Искусственные нейронные сети (ИНС) с вейвлет-разложением целевого вектора (НСВЦ) созданы авторами для задач распознавания речи и используются в этой области, хотя могут быть применены для широкого круга задач, подразумевающих преобразование одного сигнала (в значении - система отсчётов некоторой функции) в другой сигнал (другую систему отсчётов некоторой функции). На эффективность применения нейросетей, и особенно нейрогибридов, указывали многие авторы, например, [1,2]. Так же существует множество работ, обсуждающих и доказывающих высокую эффективность вейвлет-методов для фонемного распознавания [3], особенно следует упомянуть биологическую аналогию вейвлет-обработки звукового сигнала, описанную у Добеши [4]. Таким образом, многочисленные источники подтверждают актуальность использования нейровейвлетных гибридов для задач распознавания речи.
Нейронные сети с вейвлет-разложением целевого вектора. НСВЦ являются специализированным типом нейронных сетей, преобразующих один сигнал (под сигналом здесь и далее имеется в виду система отсчётов некоторой функции, удовлетворяющая условию теоремы Котельникова) в другой сигнал. Их практическая эффективность обусловлена тем, что рассматривая множество выходных сигналов обучающей выборки (далее будем называть их целевыми векторами) с помощью вейвлет-разложения находятся спектральные диапазоны, в которых локализован сигнал, и спектральные области, не значащие для решения, исключаются из области поиска [5]. Исключение производится с помощью проецирования значений нейросети на области спектральной локализации нейронной сети, причём сам процесс проецирования производится за счёт модуля обратного вейвлет-разложения выходного сигнала многослойного перцептрона автоматически. Следует отметить, что вейвлет-разложение целевого вектора многослойного перцептрона и обратное данному вейвлет-разложению преобразование фактических выходных значений многослойного перцептрона являются взаимозаменяемыми операциями.
Так как модуль обратного вейвлет-разложения реализован в нейронном базисе, это позволяет говорить о новой нейронной структуре на базе перцептрона - НСВЦ. Более подробно об этих ИНС можно прочитать в работах авторов ([5,6]). Здесь отметим лишь, что данная структура построена по предложенному авторами принципу локализации решения, в соответствии с которым подбирается преобразование выходных векторов выборки, которое позволяет обнаружить и использовать диапазоны локализации данных векторов (фактически это означает построение грубой модели целевых значений выборки) и выходные значения ИНС проецируются на данные диапазоны, что позволяет сузить область поиска решения, а значит, уменьшить вероятность попадания в локальные максимумы, скорость и точность обучения.
Анализ градиента нейронных сетей с вейвлет-разложением целевых значений. Пусть модуль обратной вейвлет-декомпозиции осуществляет преобразование, обратное вейвлет-преобразованию, заданному двумя зеркльно-квадратурными FIR фильтрами G и H, определяемыми коффициентами hi и gi.
В этом случае вейвлет-разложение может быть реализовано последовательным применением свёрток
и .
Пусть дана обучающая выборка , i=1,2,…,imax где вектора равны , , и вейвлет преобразование F, преобразующее вектор в набор коэффициентов :, j=1,2,…,jmax, l=1,2,…,lmax, где l - номер уровня вейвлет-разложения, а j - номер коэффициента на данном уровне вейвлет-разложения. Компонент обучающей пары будем называть целевым компонентом или целевым вектором. Тогда:
1. Целевые компоненты пар-примеров обучающей выборки подвергаются вейвлет-разложению.
2. На каждом уровне l вейвлет разложения по всей выборке выбираются минимальные и максимальные значения
, (1)
. (2)
3. Те же самые операции (п.1 и п.2) проводятся над контрольной выборкой. Результатом являются контрольные минимальные и максимальные значения и .
4. Если контрольный максимум не превосходит максимум обучающей выборки более чем на заданную константу точности ,, а минимум обучающей выборки не превосходит контрольный минимум более чем ту же , , то можно говорить о корректности выбранных минимальных и максимальных значений для данной задачи.
5. Диапазонами частотной локализации будут области для каждого уровня l вейвлет-разложения.
Данный алгоритм дан здесь в виде инициализации ИНС, но практически возможно не инициализировать величины Il, Sl, а корректировать их в процессе предъявления обучающих примеров.
НСВЦ состоит из двух модулей - многослойного перцептрона (на месте которого, в принципе, может быть любая нейронная сеть, построенная в соответствии с парадигмой "обучение с учителем") и модуля обратной вейвлет-проекции. Значения многослойного перцептрона принципиально ограничены (обычно в диапазонах [-1;1] и [0;1]). Процесс проецирования выходных значений перцептрона, соответствующих l-му уровню масштаба вейвлет-разложения на область частотной локализации будет сдвиг и масштабирование области значений нейронной сети на область частотной локализации. Обозначим верхнее значение, принимаемое входами ИНС будет S, а нижнее I.
Проецирование значений перцептрона на диапазоны частотной локализации решения осуществляется следующим образом:
. (3)
Рассмотрим влияние масштабирования на градиент. Введём следующие обозначения:
E - ошибка слоя. - l-й компонент.
- целевая функция.
dj - желаемый выходной сигнал j-го нейрона слоя
yj - выходное значение, в общем случае y(0,1).
xi - входное значение.
wij - вес, связывающий i-й вход с j-м выходом.
- взвешенная сумма i-го нейрона, t-го слоя.
Согласно метода распространения ошибки, имеют место следующие формулы:
(4)
, (5)
.(6)
(7)
Где - скорость обучения.
(8)
Пусть D(x) - функция, которая позволяет найти производную активационной функции f по её значению
Т.е. если
То (9)
такими функциями, будут, например
(10)
для униполярной функции и
(11)
для биполярной функции
Рассмотрим для простоты случай биполярной функции.
(12)
Проанализируем влияние масштабирования на компонент градиента.
Пусть выход yj во всех ситуациях не превосходит . Иными словами,
(13)
Тогда, с учётом того, что нейронная сеть с униполярной функцией активации выходного слоя выдаёт значения в области (0,1) мы можем промасштабировать выход, увеличив его в раз. Для этого достаточно промасштабировать соответствующий целевой вектор. Для этого введём замену переменной
Соответственно,
Тогда, для масштабированного выхода получаем
(14)
(15)
Используя 10 выводим
(16)
(17)
Введём величину М как отношение к :
. (18)
С помощью несложных расчётов приходим к формуле
. (19)
Собственно, анализ выражения 16 сводится к анализу множителя
. (20)
Этот множитель отображает участок биполярной(логистической) сигмоиды на отрезке в полноценную сигмоиду на отрезке . При этом
(21)
Исследуем свойства множителя M.
(22)
. (23)
С учётом того, что k>1, множитель всегда отрицательный, проверяя знаки производной в окрестностях особых точек, видим, что M имеет единственный экстремум - максимум в точке y=0.
Таким образом мы пришли к важному выводу: в случае биполярной функции её градиент в k раз больше при y=0, а далее монотонно убывает при и . Мы используем эту особенность для выбора оптимального коэффициента k (см. ниже).
Для дальнейших рассуждений нам понадобиться вычислить отрезок, на котором больше единицы, т.е. найти то множество y, на котором градиент
.
Исходя из монотонного убывания M(y) на отрицательной и положительной полуосях для нахождения этого множества нам достаточно найти такие y, при которых M(y)=1.
. (24)
Итак, мы вычислили, что при
.
Обозначим такую величину, что . Тогда
. (25)
Подберём коэффициент масштабирования таким образом, чтобы
, (26)
где - максимальное значение y, причём
=.
При этом условии будет верно (необходимо помнить, что сигмоидальная функция не принимает значения своего супремума и инфинума), или, что равносильно
, (27)
для всех значений ограниченной величины y.
Так как
, (28)
, (29)
что возможно если
, (30)
Итак, при коэффициенте масштабирования
градиент целевой функции больше на всей области значений нейронной сети, что ускоряет обучение ИНС.
Обобщим теперь изложенное в предыдущем пункте на случай вейвлет-преобразования.
Вейвлет-преобразование известно своими сжимающими свойствами, что проявляется в том, что при вейвлет-разложении достаточно широкого класса сигналов коэффициенты высокой детализации обычно близки к нулю. Это свойство используют для сжатия информации с потерями, отбрасывая коэффициенты и получая приближённую модель сигнала.
Как уже говорилось выше, мы рассматриваем узкий случай применения нейронных сетей: когда результатом работы нейронной сети является временной сигнал, а точнее - отсчёты некоторой временной функции.
В этом случае, если искомый сигнал (систему отсчётов функции) разложить с помощью вейвлет-преобразования, и коэффициенты этого вейвлет-преобразования по абсолютной величине малы, то выгоднее искать вейвлет-образ, а не сам сигнал. Причём эффективность возрастает при уменьшении величины коэффициентов. Интуитивно очевидно, что чем больше сигнал можно сжать при помощи выбранного вейвлет-преобразования, тем меньше коэффициенты вейвлет-образа, и тем эффективнее использование НСВЦ. Иными словами, степень сжимаемости сигнала можно считать мерой эффективности нейронной сети с вейвлет-разложением сигнала.
Представим это интуитивное понимание в более формализованном виде:
Теорема об эффективности нейронных сетей с вейвлет-разложением цели.
Пусть
1) дана система из 2k отсчётов f1(t0), f2(t0), f3(t0), …, некоторой функции f(t). Причём
.
2) Пусть этой системе отсчётов соответствует вейвлет-образ из n уровней разложения и 2k коэффициентов. Обозначим его коэффиценты как ,, где при j<n+1 - детализирующие коэффициенты вейвлет-образа, а - приближённая ("огрублённая") версия сигнала fi.
3) Введём величины
(31)
и
; (32)
Тогда
если среди коэффициентов существуют такие , что ,
то
градиент построенной на данном вейвлет-разложении нейронной сети с вейвлет-разложением цели больше по абсолютному значению, чем градиент соответствующей базовой ИНС (ИНС, на основе которой построена НСВЦ).
Покажем это.
Градиент целевой функции базовой нейронной сети
(33)
Градиент целевой функции НСВЦ
(34)
Пусть
.
Тогда из формул 18,20,21
, (35)
где
. (36)
При этом из соотношения 30 и утверждения 3 теоремы следует что для любых kj, yj, удовлетворяющих условию задачи,
. (37)
(38)
Что и требовалось доказать.
Выводы
нейронный вейвлет перцептрон обучение
Нами показано, что при нахождении областей частотной локализации и проецировании значений нейронной сети на область локализации решения, в достаточно широких рамках можно добиться увеличения градиента (по сравнению с той же ИНС без частотной локализации и модуля обратной вейвлет-проекции), а следовательно, скорости сходимости нейронной сети.
Литература
1. Tebelskis, J. Speech Recognition using Neural Networks: PhD thesis … Doctor of Philosophy in Computer Science/ Joe Tebelskis; School of Computer Science, Carnegie Mellon University.- Pittsburgh, Pennsylvania, 1995.- 179 c.
2. Handbook of neural network signal processing/ Edited by Yu Hen Hu, Jenq-Neng Hwang.- Boca Raton; London; New York, Washington D.C.: CRC press, 2001.- 384c.
3. Ф.Г. Бойков Применение вейвлет-анализа в задачах автоматического распознавания речи: Дис. … кандидата физико-математических наук: 05.13.18/ Фёдор Геннадьевич Бойков.- М, 2003.- 111 с.
4. Добеши И. Десять лекций по вейвлетам.- Ижевск: НИЦ "Регулярная и хаотическая динамика", 2001.- 464 с.
5. Астапов К.А. Применение вейвлет-преобразования для сокращения области значения искусственных нейронных сетей на примере задачи распознавания речи// Астапов Константин Андреевич. // Электронный научно-инновационный журнал "Инженерный вестник Дона: электронное научное издание № ГОС. РЕГИСТРАЦИИ 0420900096, Ростов-на-Дону: . - 2009. - №1. - регистрационный номер статьи.
6. Червяков Н.И., Астапов К.А. Использование вейвлетов для улучшения параметров нейронных сетей в задачах распознавания речи. // Червяков Николай Иванович; Астапов Константин Андреевич. //Инфокоммуникационные технологии - N° 4. - 2008. - Самара: Издательство ПГУТИ, 2008. - с. - с. 9-12.
Размещено на Allbest.ru
...Подобные документы
Понятие искусственного нейрона и искусственных нейронных сетей. Сущность процесса обучения нейронной сети и аппроксимации функции. Смысл алгоритма обучения с учителем. Построение и обучение нейронной сети для аппроксимации функции в среде Matlab.
лабораторная работа [1,1 M], добавлен 05.10.2010Общие сведения о принципах построения нейронных сетей. Искусственные нейронные системы. Математическая модель нейрона. Классификация нейронных сетей. Правила обучения Хэбба, Розенблатта и Видроу-Хоффа. Алгоритм обратного распространения ошибки.
дипломная работа [814,6 K], добавлен 29.09.2014Прогнозирование на фондовом рынке с помощью нейронных сетей. Описание типа нейронной сети. Определение входных данных и их обработка. Архитектура нейронной сети. Точность результата. Моделирование торговли. Нейронная сеть прямого распространения сигнала.
дипломная работа [2,7 M], добавлен 18.02.2017Математическая модель искусственной нейронной сети. Структура многослойного персептрона. Обучение без учителя, методом соревнования. Правило коррекции по ошибке. Метод Хэбба. Генетический алгоритм. Применение нейронных сетей для синтеза регуляторов.
дипломная работа [1,5 M], добавлен 17.09.2013Рост активности в области теории и технической реализации искусственных нейронных сетей. Основные архитектуры нейронных сетей, их общие и функциональные свойства и наиболее распространенные алгоритмы обучения. Решение проблемы мертвых нейронов.
реферат [347,6 K], добавлен 17.12.2011Способы применения технологий нейронных сетей в системах обнаружения вторжений. Экспертные системы обнаружения сетевых атак. Искусственные сети, генетические алгоритмы. Преимущества и недостатки систем обнаружения вторжений на основе нейронных сетей.
контрольная работа [135,5 K], добавлен 30.11.2015Математическая модель нейронной сети. Однослойный и многослойный персептрон, рекуррентные сети. Обучение нейронных сетей с учителем и без него. Алгоритм обратного распространения ошибки. Подготовка данных, схема системы сети с динамическим объектом.
дипломная работа [2,6 M], добавлен 23.09.2013Анализ применения нейронных сетей для прогнозирования ситуации и принятия решений на фондовом рынке с помощью программного пакета моделирования нейронных сетей Trajan 3.0. Преобразование первичных данных, таблиц. Эргономическая оценка программы.
дипломная работа [3,8 M], добавлен 27.06.2011Понятие и свойства искусственных нейронных сетей, их функциональное сходство с человеческим мозгом, принцип их работы, области использования. Экспертная система и надежность нейронных сетей. Модель искусственного нейрона с активационной функцией.
реферат [158,2 K], добавлен 16.03.2011Особенности нейронных сетей как параллельных вычислительных структур, ассоциируемых с работой человеческого мозга. История искусственных нейронных сетей как универсального инструмента для решения широкого класса задач. Программное обеспечение их работы.
презентация [582,1 K], добавлен 25.06.2013Описание технологического процесса напуска бумаги. Конструкция бумагоделательной машины. Обоснование применения нейронных сетей в управлении формованием бумажного полотна. Математическая модель нейрона. Моделирование двух структур нейронных сетей.
курсовая работа [1,5 M], добавлен 15.10.2012Возможности программ моделирования нейронных сетей. Виды нейросетей: персептроны, сети Кохонена, сети радиальных базисных функций. Генетический алгоритм, его применение для оптимизации нейросетей. Система моделирования нейронных сетей Trajan 2.0.
дипломная работа [2,3 M], добавлен 13.10.2015Применение вейвлет-преобразования для сжатия и обработки медицинских сигналов и изображений. Разработка алгоритма автоматизированного выделения PQRST-признаков в сигнале электрокардиограмм с помощью вейвлет-инструментария математического пакета Matlab.
дипломная работа [4,6 M], добавлен 16.07.2013Математические модели, построенные по принципу организации и функционирования биологических нейронных сетей, их программные или аппаратные реализации. Разработка нейронной сети типа "многослойный персептрон" для прогнозирования выбора токарного станка.
курсовая работа [549,7 K], добавлен 03.03.2015Технологии решения задач с использованием нейронных сетей в пакетах расширения Neural Networks Toolbox и Simulink. Создание этого вида сети, анализ сценария формирования и степени достоверности результатов вычислений на тестовом массиве входных векторов.
лабораторная работа [352,2 K], добавлен 20.05.2013Способы применения нейронных сетей для решения различных математических и логических задач. Принципы архитектуры их построения и цели работы программных комплексов. Основные достоинства и недостатки каждой из них. Пример рекуррентной сети Элмана.
курсовая работа [377,4 K], добавлен 26.02.2015Нейронные сети как средство анализа процесса продаж мобильных телефонов. Автоматизированные решения на основе технологии нейронных сетей. Разработка программы прогнозирования оптово-розничных продаж мобильных телефонов на основе нейронных сетей.
дипломная работа [4,6 M], добавлен 22.09.2011Искусственные нейронные сети как одна из широко известных и используемых моделей машинного обучения. Знакомство с особенностями разработки системы распознавания изображений на основе аппарата искусственных нейронных сетей. Анализ типов машинного обучения.
дипломная работа [1,8 M], добавлен 08.02.2017Простейшая сеть, состоящая из группы нейронов, образующих слой. Свойства нейрокомпьютеров (компьютеров на основе нейронных сетей), привлекательных с точки зрения их практического использования. Модели нейронных сетей. Персептрон и сеть Кохонена.
реферат [162,9 K], добавлен 30.09.2013Применение нейрокомпьютеров на российском финансовом рынке. Прогнозирование временных рядов на основе нейросетевых методов обработки. Определение курсов облигаций и акций предприятий. Применение нейронных сетей к задачам анализа биржевой деятельности.
курсовая работа [527,2 K], добавлен 28.05.2009