Пластичность многослойных модульных нейронных сетей
Характеристики нейронных многослойных сетей. Математические эквиваленты нейрофизиологических понятий параметрической и топологической пластичности. Связь степени параметрической пластичности нейронной сети с числом независимо распознаваемых образов.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 17.01.2018 |
Размер файла | 483,7 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
УДК 007:159.955:519.72
Пластичность многослойных модульных нейронных сетей
Дорогов А.Ю.
Для оценки уровня «интеллекта» многослойных искусственных модульных нейронных сетей предлагается использовать известное из биологии понятие пластичности нейронной сети. В применении к искусственным нейронным сетям пластичность можно трактовать как способность нейронной сети к обучению. Чем выше пластичность нейронной сети, тем лучших результатов следует ожидать от ее использования на множестве задач. В статье определены математические эквиваленты нейрофизиологических понятий параметрической и топологической пластичности. Показана связь степени параметрической пластичности нейронной сети с числом независимо распознаваемых образов и размером обучающей выборки. Приведены расчетные формулы параметрической и топологической пластичности, и даны рекомендации по выбору структурных характеристик нейронных многослойных сетей. Рассмотрены примеры.
Искусственные нейронные сети возникли как грубое подобие нейронных сетей живой природы, от биологических нейронов они унаследовали принцип суммирования входных воздействий и нелинейный закон формирования результата обработки, а от структурной организации биологической сети - принцип многослойности. В тот период (начало датируется 1943 годом [1].) эта модель соответствовала текущему уровню знаний о строении биологических нейронных сетей и была наиболее подходящей для экспериментов с искусственными нейронными сетями. Полносвязанные многослойные сети прямого распространения, созданные на основе данной модели нашли впоследствии широкое применение в задачах распознавания образов, аппроксимации функций, системах адаптивного управления и во многих других прикладных областях.
В последних декадах прошлого века в результате нейрофизиологических исследований были получены новые данные об организации и функционировании нейронных сетей. Оказалось, что одним из принципиально новых фактов является модульность биологических нейронных сетей [2]. В результате было детально обосновано представление о модульной организации центральных нервных структур как универсальном принципе функционирования высоконадежных пластичных конструкций мозга [3].
В технических приложениях принцип модульности кроме мотивов биологического подобия имеет ряд предпосылок технологического характера к ним относятся:
Полносвязанные сети потенциально обладают максимальной пластичностью, однако с увеличением размерности обрабатываемых данных быстро растет число вычислительных операций. «Проклятие размерности» препятствует реализации больших и сверхбольших полносвязанных сетей. В то же время реальные данные, как правило, имеют внутреннею структуру, что снижает требования к пластичности сети, поэтому возможности полносвязанной сети часто оказываются избыточными. Реализация модульности ухудшает пластичность сети, но позволяет существенно сократить число вычислительных операций.
Модульность нейронной сети позволяет выполнить иерархическую декомпозицию сложной задачи в ряд более простых подзадач, а соответствующая структура сети может быть оптимизирована под конкретную задачу.
Техническая реализация больших и сверхбольших нейронных сетей на современных универсальных компьютерах по необходимости имеет модульную распределенную структуру, поскольку технически невозможно реализовать сверхбольшую нейронную сеть на одном процессоре.
При программной реализации быстродействие модульных сетей может варьироваться в широких пределах в зависимости от выбранной структуры. Это качество делает перспективным использование модульных нейронных сетей в системах реального времени при реализации на обычных универсальных компьютерах или контроллерах с универсальной архитектурой.
Использование технологии сверхбольших интегральных схем (СБИС) для реализации нейронных сетей приводит к необходимости разделения нейронных сетей на однородные фрагменты. Размер фрагмента определяется площадью кристалла, энергопотреблением, числом внешних выводов, причем последний аспект в настоящее время приобрел решающее значение.
В нейробиологии и технических приложениях существуют сходные понятия модульностти. Под нейронными модулями понимают морфологически обособленные группы нейронов, которые взаимодействуют между собой через внешние рецепторные и аксоновые поля. Скрытые нейроны модулей обрабатывают информацию, поступающую через входное рецепторное поле модуля, и формируют реакцию в выходном аксоновом поле модуля. Поскольку, модульность в нейронную сеть привносится принятым правилом морфологического обособления, то возможно множество вариантов модульного представления для одной и той же нейронной сети. Правило формирования модульной структуры во многом определяет методы исследования модульной нейронной сети, многообразие правил препятствует созданию общей теории модульных сетей. В данной работе будет рассмотрен вариант модульного обособления, которое задано условием: нейронные модули не пересекаются по одноименным терминальным полям. Это правило позволяет предложить наиболее простые модели и методы исследования модульных сетей. Практически все иные варианты модульного обособления сетей могут быть покрыты данным вариантом, может быть с некоторым избытком в исходном описании, что впоследствии компенсируется упрощением методов анализа. Полагая, что вся обработка данных сосредоточена в нейронных модулях, а межмодульные связи транслируют информацию без искажений, приходим к иньективности межмодульных связей.
При выборе структуры модульной нейронной сети, возникает вопрос априорной оценки ее качественных характеристик. Очевидно, для каждой прикладной области существует свой набор оценочных критериев. Тем не менее, можно выделить критерии, общие для различных приложений. Одним из которых может служить способность нейронной сети к обучению. Способность к обучению целесообразно оценивать числом независимых настроек существующих в нейронной сети. Эта величина, как правило, меньше чем полное количество синаптических весов, (исключением является однослойный персептрон, для которого соблюдается равенство). В механике для оценки числа независимых координат используется понятие «число степеней свободы». Близкую аналогию можно провести и для нейронных сетей. Нейронную сеть прямого распространения является нелинейным оператором, осуществляющим преобразование входного вектора в выходной. Полное множество операторов, отображающих входное пространство признаков к выходному пространству образов, образует многомерное операторное пространство, в котором каждый оператор нейронной сети можно интерпретировать как некоторую материальную точку. Изменение синаптических весов нейронной сети приводит к перемещению точки-оператора в пространстве операторов. Класс операторов, порождаемый изменением синаптических весов, образует многомерную поверхность в пространстве операторов. Поверхность характеризуется размерностью, которая считается равной максимальной размерности ее касательного пространства. Эта характеристика является прямым математическим эквивалентом понятия «числа степеней свободы». В пределах малой окрестности касательного операторного пространства все операторы нейронной сети можно рассматривать как линейные, поэтому исходная нелинейная задача сводится к исследованию пластичности перестраиваемых линейных операторов.
В линейном варианте многослойная нейронная сеть эквивалентна произведению линейных операторов. К этому классу относятся также быстрые перестраиваемые преобразования, обладающие структурой подобной структуре быстрого преобразования Фурье [4,5,6] В преобразованиях данного типа, каждый оператор-сомножитель представляется слабозаполненной матрицей с большим числом нулевых элементов. В 1971г. в работе [7] Andrews H.C. и Caspari K.L для оценки глубины класса перестраиваемых преобразований впервые ввели понятие числа степеней свободы, но допустили ошибки в теоретическом принципе их расчета. Авторы полагали, что для вычисления числа степеней свободы достаточно пересчитать все ненулевые коэффициенты слабозаполненных матриц, однако они не учли взаимные зависимости между коэффициентами, которые порождаются произведением слабозаполненных матриц при формировании перестраиваемого преобразования. Быстрые перестраиваемые преобразования являются частным вариантом более широкого класса слабосвязанных сетей, теоретические основы расчета числа степеней свободы слабосвязанных многослойных сетей рассматривались в работе [8]. В настоящее время неизвестен способ вычисления оценки пластичности для нейронных сетей с произвольной структурой, однако, для сетей прямого распространения с модульной организацией такую оценку можно получить для ряда практически важных случаев. Теоретическая база методов оценки параметрической пластичности модульных сетей рассматривались в работе [9]. Для многослойных полносвязанных нейронных сетей степень параметрической пластичности является достаточной оценкой адаптационных возможностей. Однако, если сеть не полносвязанна и наделена некоторой внутренней структурой, то возникает топологическая составляющая пластичности. Известным структурированным вариантом многослойных нейронных сетей является класс ядерных сетей [10]. Идеология ядерных сетей основана на понятии нейронного ядра. Нейронное ядро можно рассматривать как однослойный персептрон малой размерности. В многослойной сети нейронные ядра локализуются в пределах нейронного слоя и имеют непересекающиеся рецепторные поля. На рис.1 (слева) показан пример двухслойной ядерной нейронной сети, состоящей из двух нейронных слоёв, каждой вершине графа соответствует один нейрон. В любом слое можно выделить группы нейронов, которые имеют общее рецепторное поле. Такие группы в дальнейшем называются нейронными ядрами. На уровне структурных представлений нейронное ядро характеризуется размерностью рецепторного поля и числом входящих в него нейронов, т.е. определяется парой чисел , где - размерность рецепторного поля, а - число нейронов в данном ядре (размерность аксонового поля). Для ядерной нейронной сети достаточным структурным описанием может служить ориентированный граф, в котором каждая вершина соответствует одному нейронному ядру, а дуги отвечают операторам межъядерных связей. Такой граф является структурной моделью ядерной сети (см. рис.1 справа). На графе структурной модели показаны веса вершин и веса дуг. Вес вершины определяется структурной характеристикой ядра , а вес дуги равен рангу проектирующего оператора межъядерной связи. Обратный переход от структурной модели к топологической реализации неоднозначен, что можно трактовать как свойство топологической пластичности ядерной нейронной сети. Степень топологической пластичности в данной работе предлагается оценивать мощностью множества топологических реализаций. Каждое нейронное ядро можно рассматривать как нейронный модуль, с простейшей организацией, а ядерные сети как вариант модульных многослойных сетей. В данной работе будут рассмотрены методы оценки параметрической и топологической пластичности многослойных модульных нейронных сетей.
Рис. 1. Ядерная нейронная сеть
Размерность касательного пространства. Обозначим через пространство признаков, а через пространство образов. Пусть нелинейный оператор, осуществляющий отображение пространств , с набором изменяемых параметров . В координатном операторном пространстве положение операторной точки задается набором скалярных нелинейных функций . Будем полагать, что функции являются непрерывными и существуют частные производные . Тогда для произвольной элементарной вариации параметров, возможное перемещение операторной точки будет принадлежать касательной плоскости и определяться полными дифференциалами по координатам :
.
Параметры будут зависимы, если существует такая их нетривиальная вариация, при которой положение операторной точки не меняется ( т.е. для любых ). В матричном выражении этому условию отвечает наличие нетривиальных решений однородной системы уравнений:
,
где - матрица, составленная из частных производных (матрица Якоби). Если существуют ненулевые решения системы, то их совокупность образует подпространство размерности , где - ранг матрицы Якоби. В этом случае, только - параметров являются независимыми. В геометрической интерпретации значение ранга матрицы Якоби равно размерности касательного пространства к операторной поверхности в данной точке. Согласно введенному определению, число степеней свободы нелинейного перестраиваемого оператора определяется правилом:
.
Матрица Якоби многослойной нейронной сети. При гладких функциях активации многослойная нейронная сеть локально подобна произведению линейных операторов, и может быть представлена в виде произведения матриц, следующим выражением
, (1)
где каждая матрица-сомножитель соответствует одному нейронному слою. Варьируемыми параметрами в данном случае являются все элементы матриц-сомножителей. Пусть - некоторая матрица. Обозначим через вариацию этой матрицы. Варьируя выражение (1) получим
(2)
Разворачивая по столбцам, представим матрицы в виде векторов-столбцов и определим вектор как прямую сумму векторов . Тогда векторная вариация операторной матрицы запишется в виде , где матрица Якоби представляется в блочном виде: . Определим вид блоков в данной матрице. Любое слагаемое суммы (2) можно представить в виде . Где и матрицы сомножители, которые индивидуальны для каждого слагаемого, например , … По правилу матричного произведения элементы матрицы связаны с элементами матриц сомножителей соотношением:
.
Разворачивая по столбцам матрицы и , из данного соотношения получим, что элементы матричного блока будут определяться выражением
.
Это выражение соответствует кронекеровскому произведению [11] матриц . В частности имеем:
, …, . (3)
Пример. На рис.2 показана двухслойная нейронная сеть с одним нейронном в первом слое и двумя - во втором. Матрица линеаризованного оператора данной сети определяется выражением:
Рис. 2. Двухслойная нейронная сеть
.
В соответствии с (3) матрица Якоби будет иметь вид:
.
Нетрудно вычислить, что левый угловой минор третьего порядка для данной матрицы равен , и может быть выбран отличным от нуля при ненулевых параметрах. В то же время определитель всей матрицы равен нулю при любом наборе параметров. Следовательно, максимальный ранг матрицы Якоби равен 3, т.е. данная нейронная сеть имеет три степени свободы.
Данный метод расчета числа степеней свободы, предполагает аналитическое вычисление определителя матриц, и поэтому практически не применим при высокой размерности. Необходима другая техника расчета, которая будет рассмотрена в последующих разделах данной статьи.
Структурная модель нейронной сети. Сгруппируем нейроны многослойной нейронной сети в модули по общности рецепторного поля. Например, для сети показанной на рис.2 модульное представление будет иметь вид, показанный на рис.3.
Рис. 3. Структурная модель
Этот граф представляет собой структурную модель нейронной сети, характеристики которой заданы весами ее вершин и дуг. Всегда можно полагать, что нелинейность и вариабельность параметров являются прерогативой нейронных модулей, а все межмодульные связи линейны, инъективны и не изменяется при обучении нейронной сети. Структурную модель можно рассматривать как описание класса возможных параметрически различных вариантов нейронной сети или как высокоуровневое описание операторной поверхности.
Оператор нейронной сети, заданный на векторных пространствах реализует отображение . Известно [12], что полное операторное пространство изоморфно тензорному произведению . В общем случае операторная поверхность неоднородна и может иметь различные размерности касательного пространства в разных точках. Гладкая поверхность, которая в каждой точке имеет одинаковую размерность касательного пространства, называется многообразием [13]. Понятно, что для каждой структурной модели существует предельное операторное многообразие, обладающее максимальным значением размерности касательного пространства. Это многообразие будем называть эквифинальным. Таким образом, для оценки степени пластичности необходимо определить размерность эквифинального многообразия. В процессе обучения нейронная сеть дрейфует по операторному пространству, и в каждой точке траектории набор параметров можно рассматривать как текущее состояние эволюционирующей сети. Будем говорить, что сеть находится в эквифинальном положении, если ее операторная точка принадлежит эквифинальному многообразию. Очевидно, что эквифинальное многообразие имеет максимальное пересечение с операторным пространством . Данное условие можно использовать для определения понятия относительной эквифинальности: нейронная сеть эквифинальна по отношению к подпространствам и , если ее операторная точка принадлежит многообразию имеющему максимальное пересечение с операторным подпространством . Из иньективности межмодульных связей, индуктивно следует, что если нейронная сеть находится в эквифинальном положении, то каждый нейронный модуль эквифинален к своему пространственному окружению. Максимальное пространственное окружение для нейронного модуля определяется его размерностями . В общем случае для операторного ранга модуля выполнено условие
Операторное многообразие нейронного модуля. Рассмотрим нейронный модуль, у которого вариации синаптических весов ограничены условием: при любом допустимом наборе параметров ранг модуля не превышает значения . Будем считать, что собственные пространства окружения нейронного модуля. Понятно, что эквифинальному многообразию модуля будет отвечать полный класс линейных отображений ранга . По теореме о структуре линейного отображения [14] для каждого оператора ранга существуют такие прямые разложения пространств
, (4)
что изоморфно и имеет размерность равную , - составляет ядро отображения, а - коядро. Для параметрически варьируемого нейронного модуля существует множество разложений вида (4), отличающихся друг от друга выбором пары . Рассмотрим подмножество операторов , для которых подпространства фиксированы. Из разложения (4) видно, что подмножество операторов представляет собой объединение подмножества операторов ранга , осуществляющих отображения из пространства в и из в . На языке тензорных произведений это можно записать следующим образом:
. (5)
Откуда следуя правилу вычисления размерности объединения пространств [14] получим:
. (6)
Пересечением операторных множеств является подмножество отображений из подпространства в поэтому . Если обозначить , , то из (6) будем иметь
. (7)
Выражение (5) для каждой фиксированной пары задает координатное отображение пространства размерности на эквифинальное многообразие , определяя, таким образом, одну из карт [13] многообразия. Множество карт формирует атлас многообразия который полностью описывает эквифинальную поверхность.
Двойственное функционирование. Обозначим через множество всех операторов инволюций Однозначный оператор инволюции соответствует обратному оператору. [15] ранга действующих из пространства в пространство . Разложение (4) симметрично, для класса прямых и инволютивных операторов, поэтому множество также представляет собой эквифинальное многообразие и существует естественный изоморфизм , который задается совпадением пар для карт и . Данный изоморфизм является выражением двойственности в представлении нейронного модуля. Принцип двойственности используется при построении алгоритмов обучения нейронной сети. Прямое отображение связано с обработкой данных, а двойственное - с распространением ошибок обучения. Поэтому при исследовании нейронных сетей наряду с прямой моделью всегда следует рассматривать двойственную модель. Двойственная структурная модель может быть получена из прямой обращением стрелок и заменой прямых операторов на их инволюции (см. рис. 4).
Рис. 4. Двойственная структурная модель
Физически реализуемые нейронные модули двойственного функционирования способны выполнять только однозначные прямые и обратные отображения, поэтому карта операторного многообразия, определяемая выражением (5), трансформируется к виду:
.
Поскольку существует изоморфизм , то число степеней свободы остается прежним, но интерпретируется теперь как суммарное число степеней свободы физически реализуемых прямой и двойственной нейронных сетей, при этом изоморфизм выражает условие системной целостности нейронного модуля.
Относительная эквифинальность. Пусть в терминальных пространствах нейронного модуля выделены подпространства и размерности и . Модуль двойственного функционирования занимает эквифинальное положение относительно подпространств , если операторное пересечение максимально по размерности. Карта эквифинального многообразия выполняет декомпозицию подпространств в прямую сумму , так что существует изоморфизм и . Значение ранга назовем действующим рангом нейронного модуля. Из (7) следует, что размерность карты эквифинального положения равна:
(8)
Эту величину можно назвать действующим числом степеней свободы. Из условия максимальности пересечения следует, что . Символ «» здесь и далее обозначает логическую операцию нахождения минимума. Значение определяет размерность выходного образа в прямом модуле, а величина размерность выходного образа в двойственном модуле эквифинального положения. Модуль назовем нормальным относительно окружения , если и абсолютно нормальными, если . Условие нормальности определяет границу допустимости известного коннекционистского принципа «поведение сети определяется ее связями».
Для модульной сети задача расчета степени пластичности разделяется на две подзадачи: в первой требуется определить эффективную пластичность отдельных модулей в составе сети, а во второй используя полученные данные и информацию о структуре связей определить пластичности всей сети.
Влияние модулей. Рассмотрим модульную сеть двойственного функционирования в эквифинальном положении. Выделим в сети некоторый модуль ранга , и будем полагать, что его параметры варьируются, в то время как параметры всех остальных модулей зафиксированы. Поскольку модуль находится в составе сети, то размерности пространств входных сигналов для прямого и двойственного модуля в общем случае меньше размерностей модуля по входу и выходу. Обозначим через размерности сигнальных пространств на входах прямого и двойственного модуля и через - их образы на выходе модуля (см. рис. 5).
Рис. 5. Нейронный модуль двойственного функционирования
Поскольку размерность образа не превышает ранга модуля, то очевидно и . На основании (8) действующее число степеней свободы модуля равно
,
где - действующий ранг. Подобным образом, выделяя и поодиночно варьируя остальные модули, получим, что вклад всех модулей в общее число степеней свободы сети будет определяться суммой .
Влияние связей. Инъективные межмодульные связи устанавливают точное и однозначное отображение между терминальными зажимами нейронных модулей. Связи всегда фиксированы и не изменяются при обучении. Выделим одиночную связь ранга , действующую между модулями и . Обозначим через и размерности сигнальных пространств на выходах прямой и двойственной связи см. рис. 6). Поскольку размерность образов не превышает ранга связи, то имеет место
и
Каждая фиксированная межмодульная связь уменьшает общее количество степеней свободы сети на величину равную
.
Поскольку связи независимы, то общее уменьшение числа степеней свободы за счет действия связей будет равно сумме аналогичных выражений по всем связям. Таким образом, формула расчета числа степеней свободы для всей модульной сети будет иметь вид:
.
Рис. 6. Прямая и двойственная связь
В случае если все модули нормальны, то:
. (9)
Этими формулами можно воспользоваться, если удается определить все значения и в эквифинальном положении нейронной сети. Эта задача не тривиальна и в настоящее время ее общее решение не известно. Однако для ряда частных случае эти значения определяются достаточно просто.
Пластичность многослойной нейронной сети. На рис. 7 показаны прямая и двойственная структурные модели многослойной нейронной сети. Обозначим через размерности сигнальных подпространств на входах нейронных модулей в прямой сети и через размерности подпространств на входах модулей в двойственной сети. Полагая, что все модули находятся в эквифинальном положении относительно сигнальных подпространств можно записать:
Рис. 7. Многослойная нейронная сеть двойственного функционирования
, .
Действующий ранг каждого модуля равен , а действующее число степеней свободы равно: . Каждая связь уменьшает общее число степеней свободы на величину . Таким образом, общее число степеней свободы многослойной сети будет равно
.
Рассмотрим вариант сети, когда все модули абсолютно нормальны. В этом случае , , , полагая и , получим следующие рекуррентные формулы
, .
Поскольку при нормальных модулях то расчетная формула примет вид:
Рис. 8. Обобщенная структурная модель двухслойной модульной нейронной сети
. (10)
Для структурной модели показанной на рис. 2 структурные характеристики имеют следующие значения , , , , , , , . Подставляя в (10) получим .
Двухслойная модульная сеть. Рассмотрим пластичность двухслойной модульной сети. Обобщенная структурная модель сети показана на рис. 8.
Поскольку все межмодульные связи считаются точными и однозначными, то имеют место соотношения:
, , , ,
где число модулей в первом и во втором слое, - размерность входа сети, - размерность выхода. Ограничимся случаем, когда все модули нормальны, тогда
, .
Размерности сигнальных пространств прямой и двойственной сети определяются выражениями:
, ,
, ,
,
.
Пластичность нейронной сети в соответствии с (9) будет определяться выражением
, (11)
где , .
Подставив значения переменных состояния в (11) окончательно получим
.
В приложениях для двухслойной сети обычно выполнены условия: , . В этом случае
, ,
и тогда расчетная формула примет вид:
.
Например, для двухслойной модульной сети структурная модель, которой показана на рис.1 число степеней свободы будет равно
.
Аппроксимация экспериментальных данных. Как правило, экспериментальные данные представлены в виде таблицы наблюдений. Каждое наблюдение отображается одной строкой таблицы, и выражает актуализацию некоторого допустимого внутреннего состояния объекта в заданном пространстве признаков. Физические ограничения эксперимента обычно не позволяют провести наблюдения всех возможных состояний объекта, поэтому таблица данных представляет собой некоторую ограниченную выборку из генеральной совокупности возможных наблюдений. Естественными требованиями к выборке являются полнота (по отношению к применяемому набору информативных признаков) и представительность (по отношению к проявлению структурных ограничений объекта). Будем полагать, что объект исследования обладает неизменяемой структурой и характеризуется устойчивым функционированием. Поведение такого рода объекта можно описать многомерным отображением , где входной и выходной векторы признаков. Таблица наблюдений , включающая наблюдений, представляет собой набор строк , которые будем рассматривать как обучающее множество нейронной сети. Длина каждой строки равна , где и размерности векторов и соответственно. Цель состоит в том, чтобы с помощью нейронной сети прямого распространения аппроксимировать поведение объекта, т.е. подобрать такой оператор нейронной сети который с некоторой точностью моделирует отображение . В общем случае возможности нейронной сети недостаточны для адекватного моделирования поведения объекта, поэтому, комбинации, некоторых, наблюдений нейронная будет воспринимать как противоречия. Реально можно говорить только об аппроксимации некоторого подмножества из генеральной совокупности наблюдений объекта. Дадим понятию противоречия математическую формулировку.
Будем говорить, что подмножество векторов не противоречит множеству , если для всех отображение является однозначным.
Можно поставить задачу аппроксимации обратного отображения , в этом случае понятие противоречия вводится дуальным образом:
2) Будем говорить, что подмножество векторов не противоречит множеству , если для всех отображение является точным. Подмножества векторов которое одновременно удовлетворяет обоим условиям назовем абсолютно не противоречивым подмножеством генеральной совокупности.
Рассмотрим линейную модель экспериментальных данных [16], которая описывается тройкой , где и представляют собой линейные векторные пространства, а класс линейных отображений, определяющий множество объектов. Каждому объекту соответствует фиксированное линейное отображение . Поскольку любой объект наблюдения из класса линейных считается допустимым то класс изоморфен тензорному произведению пространств и , таким образом: . Тензорное произведение является линейным пространством, поэтому в рамках данной модели можно говорить о пространстве объектов наблюдения. Выделим некоторое подмножество объектов наблюдения , для которых существует общее абсолютно непротиворечивое подмножество . Понятно, что состоит из всех биекций ,т.е. из множества невырожденных линейных преобразований. По теореме о структуре линейного отображения для каждого существуют такие прямые разложения пространств и , что подпространство является ядром отображения, - коядром, а подпространства и (изоморфные друг другу) имеют размерность равную рангу линейного отображения . Поскольку непротиворечивое подмножество является общим, то класс включает в себя все отображения ранга с общим ядром . Сумма отображений из класса и умножение их на скаляр также являются отображениями с ядром . Это означает, что класс объектов наблюдения с общим структурным свойством: образует векторное подпространство в пространстве объектов наблюдения .
Нетрудно видеть, что класс представляет собой объединение подклассов осуществляющих отображение векторов из пространства в и из в . Оба указанных класса отображений имеют ранг и ядро . В тензорной нотации это можно записать как:
.
Данное соотношение устанавливает гомеоморфизм пары в пространство , и определяет таким образом карту многообразия. Объединение всех возможных множеств (карт) по всем парам задает, многообразие объектов наблюдения с изоморфными непротиворечивыми множествами. Размерность многообразия совпадает с размерностью одиночной карты. Обозначим через , а через , тогда из (1) будем иметь
.
Любая реальная таблица наблюдений конечна и содержит ограниченную выборку . Обозначим через - линейную оболочку векторов , а через линейную оболочку векторов . Для построенной модели выборку назовем представительной, если , и выборка содержит вектора образующие базисы подпространств и .
Предположим, что нейронная сеть обучается по представительной выборке наблюдений. Размерность многообразия операторов нейронной сети равно ее числу степеней свободы . Необходимым условием того, что нейронная сеть способна аппроксимировать объект многообразия является выполнение условия
.
Из данного неравенства можно определить число независимых наблюдений, которые могут быть точно аппроксимированы нейронной сетью.
Таблица
Входной вектор |
Выходной вектор |
|||||||||||||||
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
|
1 |
-1 |
1 |
-1 |
1 |
-1 |
1 |
-1 |
0 |
1 |
0 |
0 |
0 |
0 |
0 |
0 |
|
1 |
1 |
-1 |
-1 |
1 |
1 |
-1 |
-1 |
0 |
0 |
1 |
0 |
0 |
0 |
0 |
0 |
|
1 |
-1 |
-1 |
1 |
1 |
-1 |
-1 |
1 |
0 |
0 |
0 |
1 |
0 |
0 |
0 |
0 |
|
1 |
1 |
1 |
1 |
-1 |
-1 |
-1 |
-1 |
0 |
0 |
0 |
0 |
1 |
0 |
0 |
0 |
|
1 |
-1 |
1 |
-1 |
-1 |
1 |
-1 |
1 |
0 |
0 |
0 |
0 |
0 |
1 |
0 |
0 |
|
1 |
1 |
-1 |
-1 |
-1 |
-1 |
1 |
1 |
0 |
0 |
0 |
0 |
0 |
0 |
1 |
0 |
|
1 |
-1 |
-1 |
1 |
-1 |
1 |
1 |
-1 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
1 |
Эксперимент. Экспериментальная проверка результатов была выполнена для двухслойной полносвязанной сети. Сеть обучалась к набору примеров представленных в таблице. Каждая строка таблицы содержит входной и выходной вектор данных. Набор входных векторов образует ортогональный базис Адамара, а набор выходных векторов - ортогональный унитарный код. Для полносвязанной двухслойной нейронной сети формула расчета числа степеней свободы имеет вид:
,
где - размерности сети (в данном случае ), - число нейронов в первом слое. В эксперименте использовалась нейронная сеть с сигмоидными функциями активации в первом слое и линейными во втором. В процессе эксперимента для каждого значения - определялся размер выборки, к которому сеть «идеально» обучалась (с ошибкой равной заданной точности обучения). Результаты эксперимента (см. рис. 9) показывают хорошее согласие с теорией. Фактически сеть аппроксимирует несколько лучше, чем ожидалось, что объясняется тем, что при теоретическом анализе не учитывались нелинейные свойства сети и наличие дополнительных входов смещений.
Топологическая пластичность. Степень топологической пластичности будем оценивать мощностью множества топологических реализаций, отвечающих данной структурной модели.
Рис. 9. Зависимость аппроксимирующей способности двухслойной нейронной сети от числа нейронов в первом слое
Рассмотрим метод расчета степени топологической пластичности на примере двухслойной ядерной нейронной сети (см. рис.1). Очевидно, что каждому нейронному слою сети соответствует пара множеств , где - множество рецепторов слоя, а - множество нейронов. Топологию нейронной сети можно задать через топологию нейронных ядер и топологию межслойного перехода. Топология нейронного ядра определяется топологией его рецепторного и аксонового полей. Топологии рецепторных полей первого слоя и топологии аксоновых полей последнего поля не зависят от межслойных связей и поэтому могут быть рассмотрены отдельно. Рассмотрим вначале топологии рецепторных полей первого слоя. Нейронные ядра делят рецепторное поле первого слоя на непересекающиеся подмножества:
..
где - размерность рецепторного поля ядра . Все множество топологий рецепторного поля можно получить, произвольным образом выбирая разбиения множества на подмножеств размером , . Будем считать, что две топологии рецепторных полей совпадают, если они имеют одинаковый состав подмножеств . Пронумеруем все рецепторы нейронного слоя числами от до . Тогда разбиению рецепторного поля слоя по нейронным ядрам будет соответствовать разбиение числового множества так, что , а переход от одной топологии к другой можно рассматривать как перестановку на этом числовом множестве. Обозначим через упорядоченный набор чисел и будем называть его композицией разбиения. Перестановки образуют симметрическую группу порядка , а множество различающихся топологий представляет собой орбиту композиции . Длину орбиты можно вычислить по формуле расчета числа «перестановок с повторениями» [17]. Таким образом, число различных топологий будет равно:
пластичность нейронный сеть
.
Для расчетов обычно используют информационную меру
(12)
которая называется информацией разбиения [18]. Аналогичные рассуждения для аксоновых полей выходного слоя приводят к выражению:
, (13)
где - количество ядер в слое , - композиция разбиения аксонового поля слоя , - число нейронов в выходном слое.
Рассмотрим теперь топологию межслойного перехода. Обозначим через
ранговую матрицу, определяющую межслойные связи. Поскольку рецепторные поля не пересекаются, то
.
Топология аксоновых полей слоя и топология рецепторных полей слоя взаимозависимы, что обусловлено наличием связей между ними. Можно предложить следующий алгоритм построения зависимых топологий. Разместим числовое множество в виде матрицы
,
которая подобна ранговой матрице в том смысле, что для элементов матрицы выполняются условия .
Если собрать все подмножества по строкам, то получим разбиение числового множества, определяющее топологию аксоновых полей слоя . Аналогично объединение подмножеств по столбцам определяет топологию рецепторного поля слоя . Очевидно, что перестановки элементов в пределах подмножеств не изменяют топологию межслойного перехода. Взаимную топологическую зависимость будем трактовать как пересечение композиций смежных полей. Вновь используя формулу расчета числа «перестановок с повторениями», получим информационную меру:
, (14)
которая определяет длину орбиты топологий межслойного перехода. Суммируя выражения (12), (13), (14), окончательно получим следующую информационную оценку степени топологической пластичности двухслойной сети:
В качестве примера выполним расчет для структуры нейронной сети, показанной на рис.1.
,
,
.
Таким образом, степень топологической пластичности для данной структурной модели будет равна .
Для аналитического анализа степени топологической пластичности удобно использовать приближенные асимптотические выражения, основанные на известной формуле Стирлинга для факториалов:
, где .
Используя это приближение для выражения (12), получим:
,
где - энтропия разбиения. Аналогично из формул (13), (14) будем иметь:
, .
На основе полученных выражений нетрудно определить условия, при которых топологическая пластичность максимальна. Поскольку функция энтропии принимает максимальные значения при равенстве слагаемых суммы, то максимум пластичности будет достигнут при выполнении условий:
для любых . Следовательно
, , .
Для рассмотренного примера . Подставляя эти значения в полученные формулы, будем иметь: . Откуда степень пластичности для всей сети будет равна . Это значение может служить верхней оценкой достижимой топологической пластичности для данной структурной модели.
Пластичность нейронных сетей является подходящей мерой для оценки уровня «интеллекта» нейронной сети. Можно сказать, что качество одной нейронной сети лучше другой, если первая при прочих равных условиях обладает лучшей пластичностью.
Представленные в данной работе методы оценки параметрической и топологической пластичности позволяют сравнивать между собой нейронные сети, используя априорно известные структурные характеристики нейронных сетей, что может служить основой для разработки методов структурного синтеза нейронных сетей с заданными показателями качества.
Список литературы
1. Нейрокомпьютеры и их применение. Книга 5. Нейронные сети: история развития теории. / Под. Ред. А.И. Галушкина, Я.З. Цыпкина.- М.: Радиотехника, 2001.-840с.
2. Маункасл В. Организующий принцип функции мозга - элементарный модуль и распределенная система // Дж. Эдельман, В. Маункасл. Разумный мозг: Кортикальная организация и селекция групп в теории высших функций головного мозга./ Пер. с англ. Н.Ю. Алексеенко; под ред. Е.К. Соколова.- М.: Мир, 1981.- 133с.
3. Коган А.Б. Функциональная организация нейронных механизмов мозга.- Л.: Медицина, 1979.- 228с.
4. Andrews H.C., Caspari K.L. A General Techniques for Spectral Analysis // IEEE. Tr. Computer.- 1970.-Vol C-19.-Jan, No 1.-P.16-25.
5. Солодовников А.И.,Спиваковский А.М. Основы теории и методы спектральной обработки информации.- Л., 1986.- 272с.
6. Лабунец В.Г. Единый подход к алгоритмам быстрых преобразований // Применение ортогональных методов при обработке сигналов и анализа систем: Межвуз. Сб.- Свердловск: Уральск. Политехн. Ин-т.- 1980.- С.4-14.
7. Andrews H.C., Caspari K.L. Degrees of Freedom and Modular Structure in Matrix Multiplication // IEEE. Tp. Compt.-1971.- Vol. C-20.-feb.-P.113-141.
8. Дорогов А.Ю., Алексеев А.А. Пластичность многослойных слабосвязанных нейронных сетей // Нейрокомпьютеры: разработка и применение №11, 2001, с.22-40.
9. Дорогов А.Ю. Применение модальных множеств для структурного анализа модульных систем // Моделирование неравновесных систем - 2001: Материалы IV Всероссийского семинара / Под общ. ред. А.Н. Горбаня. Красноярск: ИПЦ КГТУ, 2001, с. 37-41.
10. Дорогов А.Ю., Алексеев А.А.. Нейронные сети с ядерной организацией. // Оборонная техника. 1998. №7-8. С.43-46.
11. Белман Р. Введение в теорию матриц. - М.: Наука, 1976.-352с.
12. Ефимов Н.В, Розендорн Э.Р. Линейная алгебра и многомерная геометрия. - М.: Наука , 1970.- 528c.
13. Фоменко А.Т. Наглядная геометрия и топология. Математические образы в реальном мире.- М.: ЧеРо, 1998.- 416с.
14. Кострикин А.И., Манин Ю.М.. Линейная алгебра и геометрия.- М.: Наука, 1986.-304с.
15. Гисин В.Б., Цаленко М.Ш. Алгебраическая теория систем и ее приложения // Системные исследования. Методологические проблемы. Ежегодник 1984.- М.: Наука.- С.130-151.
16. Дорогов А.Ю. Алгебраические модели экспериментальных данных для нейросетевой аппроксимации // Труды 7-й Всероссийской конференции «Нейрокомпьютеры и их применение» с международным участием «НКП-2001». Москва 14-16 февраля 2001г. С.629-633.
17. Ежов И.И., Скороход А.В., Ядренко М.И.. Элементы комбинаторики. М.: Наука, 1977. 80с.
18. Гоппа В.Д.. Введение в алгебраическую теорию информации. М.: Наука. Физматлит, 1995. 112с.
Размещено на Allbest.ru
...Подобные документы
Понятие искусственного нейрона и искусственных нейронных сетей. Сущность процесса обучения нейронной сети и аппроксимации функции. Смысл алгоритма обучения с учителем. Построение и обучение нейронной сети для аппроксимации функции в среде Matlab.
лабораторная работа [1,1 M], добавлен 05.10.2010Общие сведения о принципах построения нейронных сетей. Искусственные нейронные системы. Математическая модель нейрона. Классификация нейронных сетей. Правила обучения Хэбба, Розенблатта и Видроу-Хоффа. Алгоритм обратного распространения ошибки.
дипломная работа [814,6 K], добавлен 29.09.2014Способы применения технологий нейронных сетей в системах обнаружения вторжений. Экспертные системы обнаружения сетевых атак. Искусственные сети, генетические алгоритмы. Преимущества и недостатки систем обнаружения вторжений на основе нейронных сетей.
контрольная работа [135,5 K], добавлен 30.11.2015Математические модели, построенные по принципу организации и функционирования биологических нейронных сетей, их программные или аппаратные реализации. Разработка нейронной сети типа "многослойный персептрон" для прогнозирования выбора токарного станка.
курсовая работа [549,7 K], добавлен 03.03.2015Технологии решения задач с использованием нейронных сетей в пакетах расширения Neural Networks Toolbox и Simulink. Создание этого вида сети, анализ сценария формирования и степени достоверности результатов вычислений на тестовом массиве входных векторов.
лабораторная работа [352,2 K], добавлен 20.05.2013Понятие и свойства искусственных нейронных сетей, их функциональное сходство с человеческим мозгом, принцип их работы, области использования. Экспертная система и надежность нейронных сетей. Модель искусственного нейрона с активационной функцией.
реферат [158,2 K], добавлен 16.03.2011Особенности нейронных сетей как параллельных вычислительных структур, ассоциируемых с работой человеческого мозга. История искусственных нейронных сетей как универсального инструмента для решения широкого класса задач. Программное обеспечение их работы.
презентация [582,1 K], добавлен 25.06.2013Описание технологического процесса напуска бумаги. Конструкция бумагоделательной машины. Обоснование применения нейронных сетей в управлении формованием бумажного полотна. Математическая модель нейрона. Моделирование двух структур нейронных сетей.
курсовая работа [1,5 M], добавлен 15.10.2012Анализ применения нейронных сетей для прогнозирования ситуации и принятия решений на фондовом рынке с помощью программного пакета моделирования нейронных сетей Trajan 3.0. Преобразование первичных данных, таблиц. Эргономическая оценка программы.
дипломная работа [3,8 M], добавлен 27.06.2011Возможности программ моделирования нейронных сетей. Виды нейросетей: персептроны, сети Кохонена, сети радиальных базисных функций. Генетический алгоритм, его применение для оптимизации нейросетей. Система моделирования нейронных сетей Trajan 2.0.
дипломная работа [2,3 M], добавлен 13.10.2015Рост активности в области теории и технической реализации искусственных нейронных сетей. Основные архитектуры нейронных сетей, их общие и функциональные свойства и наиболее распространенные алгоритмы обучения. Решение проблемы мертвых нейронов.
реферат [347,6 K], добавлен 17.12.2011Способы применения нейронных сетей для решения различных математических и логических задач. Принципы архитектуры их построения и цели работы программных комплексов. Основные достоинства и недостатки каждой из них. Пример рекуррентной сети Элмана.
курсовая работа [377,4 K], добавлен 26.02.2015Нейронные сети как средство анализа процесса продаж мобильных телефонов. Автоматизированные решения на основе технологии нейронных сетей. Разработка программы прогнозирования оптово-розничных продаж мобильных телефонов на основе нейронных сетей.
дипломная работа [4,6 M], добавлен 22.09.2011Простейшая сеть, состоящая из группы нейронов, образующих слой. Свойства нейрокомпьютеров (компьютеров на основе нейронных сетей), привлекательных с точки зрения их практического использования. Модели нейронных сетей. Персептрон и сеть Кохонена.
реферат [162,9 K], добавлен 30.09.2013Математическая модель искусственной нейронной сети. Структура многослойного персептрона. Обучение без учителя, методом соревнования. Правило коррекции по ошибке. Метод Хэбба. Генетический алгоритм. Применение нейронных сетей для синтеза регуляторов.
дипломная работа [1,5 M], добавлен 17.09.2013Применение нейрокомпьютеров на российском финансовом рынке. Прогнозирование временных рядов на основе нейросетевых методов обработки. Определение курсов облигаций и акций предприятий. Применение нейронных сетей к задачам анализа биржевой деятельности.
курсовая работа [527,2 K], добавлен 28.05.2009Прогнозирование на фондовом рынке с помощью нейронных сетей. Описание типа нейронной сети. Определение входных данных и их обработка. Архитектура нейронной сети. Точность результата. Моделирование торговли. Нейронная сеть прямого распространения сигнала.
дипломная работа [2,7 M], добавлен 18.02.2017Математическая модель нейронной сети. Однослойный и многослойный персептрон, рекуррентные сети. Обучение нейронных сетей с учителем и без него. Алгоритм обратного распространения ошибки. Подготовка данных, схема системы сети с динамическим объектом.
дипломная работа [2,6 M], добавлен 23.09.2013Исследование задачи и перспектив использования нейронных сетей на радиально-базисных функциях для прогнозирования основных экономических показателей: валовый внутренний продукт, национальный доход Украины и индекс потребительских цен. Оценка результатов.
курсовая работа [4,9 M], добавлен 14.12.2014Принципы и система распознавание образов. Программное средство и пользовательский интерфейс. Теория нейронных сетей. Тривиальный алгоритм распознавания. Нейронные сети высокого порядка. Подготовка и нормализация данных. Самоорганизующиеся сети Кохонена.
курсовая работа [2,6 M], добавлен 29.04.2009