Способ формирования "модифицированной целевой матрицы" для нейросетевого классификатора с целью повышения эффективности распределения объектов
Рассмотрение способов построения целевых массивов данных для целевых массивов нейросетевых классификаторов. Методика использования при обучении нейросетевых классификаторов "модифицированной целевой матрицы", состоящей из "матриц схожести классов".
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 27.02.2019 |
Размер файла | 48,6 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
УДК 004.032.26
Способ формирования "модифицированной целевой матрицы" для нейросетевого классификатора с целью повышения эффективности распределения объектов
Перехожев В.А.
В статье рассмотрены способы построения целевых массивов данных для целевых массивов нейросетевых классификаторов. Предлагается использовать при обучении нейросетевых классификаторов «модифицированную целевую матрицу», состоящую из «матриц схожести классов».
Ключевые слова: способ, распознавание, целевые массивы, матрицы схожести классов.
In the given work are considered a various ways of construction of target files data for neural network classifiers. Offered to use a modified target matrix at training of neural network classifiers, consisting of «matrixes of similarity of classes».
Key words: Way, recognition, target files, matrixes of similarity of classes
В настоящее время при построении систем классификации объектов наряду с классическими методами стали широко использоваться нейронные сети (НС). Поэтому, совершенствование способов применения НС при построении нейросетевых классификаторов с целью повышения вероятности разделения объектов на классы является актуальной задачей научных исследований. нейросетевой классификатор матрица
К основным преимуществам использования нейросетевых технологий можно отнести:
возможность воспроизводить сложные нелинейные зависимости, не поддающиеся аналитическому описанию, при ограниченном количестве априорных данных об исследуемом объекте;
возможность преодоления «проклятия размерности», обусловленного тем, что моделирование нелинейных явлений аналитическими методами в случае большого числа переменных требует огромного количества вычислительных ресурсов;
использование при подготовке НС алгоритмов обучения и самообучения;
высокое быстродействие, обусловленное параллельной обработкой информации на большом количестве однотипных маломощных вычислительных элементов [1].
Использование НС широко описано в ряде публикаций [1,2,3,4,5,6]. Основные преимущества НС являются прямым следствием возможности параллельной обработки информации и способности НС обучаться (самообучаться), т.е. производить обобщение информации. Поэтому применительно к НС удобнее оперировать понятием обобщающая способность нейронной сети. Одной из ключевых проблем в теории обучения НС является определение оптимального способа управления обобщающей способностью НС.
Модель обучения НС состоит из трех взаимосвязанных компонентов. В математических терминах они описываются следующим образом:
Среда. Она представляет собой z векторов x, с фиксированной, но неизвестной функцией распределения вероятности F(x);
Учитель. Учитель генерирует z желаемых откликов d для каждого из входных векторов x, полученных из внешней среды, в соответствии с условной функцией распределения F(x/d). Желаемый отклик d и входной вектор x связаны следующей функциональной зависимостью:
, (1)
где х - шум, т. е. изначально предполагается «зашумленность» данных учителя;
Обучаемая машина. Нейронная сеть способна реализовать множество функций отображения «вход - выход», описываемых следующей формулой:
, (2)
где y - фактический отклик, генерируемый обучаемой машиной в ответ на входной сигнал x; w - набор свободных параметров (синаптических весов), выбранных из пространства параметров W, соответствующего нейронной сети заданной архитектуры и выбранным параметрам ее настройки.
Задача состоит в выборе (построении) конкретной функции F(x,w), которая оптимально аппроксимирует ожидаемый отклик d. Выбор, в свою очередь, основывается на множестве S независимых, равномерно распределенных примеров обучения T, описываемых функциональной зависимостью:
(3)
Каждая пара выбирается машиной из множества T с некоторой обобщенной функцией распределения вероятности FX,D(x,d). Принципиальная возможность обучения с учителем зависит от ответа на следующий вопрос: содержат ли примеры из обучающего множества достаточно информации для создания обучаемой машины обладающей хорошей обобщающей способностью [6]?
Если создание обучающей базы данных (составления совокупности векторов x), при рассмотрении задачи обучения с учителем, зависит от количества и качества априорной информации, то массив откликов d формируется разработчиком классификатора в соответствии с определяемым количеством классов [3,4].
Существуют различные способы построения обучающих и целевых матриц. В работах [2,3,4,5] предлагается следующий подход к формированию баз данных для обучения НС. На вход НС подают K предварительно сформированных векторов, состоящих из совокупности нормированных цифровых значений используемых признаков, по B для каждого распознаваемого класса. Например, при распознавании пяти классов воздушных объектов (ВО) K=5B. Число векторов в обучающем массиве для каждого ВО выбирается с учетом необходимости обучения ИНС на максимально возможном числе совокупностей используемых признаков одного ВО при различных ракурсах локации, а также с учетом вычислительных возможностей конкретного нейрочипа. Вместе с обучающим массивом векторов совокупности используемых признаков, на этапе подготовки НС, предъявляются целевые вектора. Число целевых векторов совпадает с числом векторов совокупности используемых признаков. Целевые вектора являются двоичными, т.е. состоят из единиц и нулей. Число элементов каждого из K целевых векторов совпадает с числом классов. Причем структура целевых векторов для каждого из классов одинакова. Например, при классификации пяти классов ВО и наличии для каждого класса 1000 обучающих векторов общее число векторов обучения и целевых векторов составит по 5000. Для первого класса, целевые вектора будут иметь структуру вида «1 0 0 0 0», для второго класса - «0 1 0 0 0» и т. д.
Структура целевой матрицы представлена на рисунке 1(а). При предъявлении сети обучающих и целевых векторов в ИНС начинается формирование матрицы весовых коэффициентов таким образом, чтобы при подаче на ее вход вектора совокупности используемых признаков одного из L классов на ее выходе сформировался двоичный вектор максимально близкий к целевому вектору именно этого класса.
Рисунок 1 - Структура модифицированной целевой матрицы а) типовая целевая матрица б) модифицированная целевая матрица
Функции распределения значений признаков разных классов пересекаются в различной степени. И разумно предполагать, что некоторые обучающие вектора принадлежащие к разным классам, имеют схожую структуру (по характеристикам используемых признаков). В процессе обучения они могут иметь взаимоисключающие целевые вектора, которые не учитывают степень «схожести» обучающих векторов. Можно заключить, что еще в процессе обучения вносится шум (х), т.е. изначально производится запланированное «зашумление» данных учителя. Это не может не влиять на качество обучения НС и на конечный результат (правильную классификацию объектов с заданной вероятностью).
Для устранения данного влияния предлагается формировать «модифицированную целевую матрицу». Модифицированная целевая матрица состоит из L «матриц схожести классов» (по количеству классов), каждая из которых формируются специально обученной НС. Для формирования каждой из «матриц схожести» предлагается использовать НС одинаковой архитектуры.
Для формирования «матрицы схожести» первого класса, производится обучение НС выбранной архитектуры обучающими матрицами остальных классов без обучающей матрицы первого класса. После обучения данной НС на нее подается обучающая выборка первого класса. Обучающая выборка первого класса является для данной сети неизвестной. Обученная сеть формирует матрицу решений (откликов), в которой для каждого из классов, участвовавших в обучении, видна степень схожести с первым классом.
Формируется первая составная часть «модифицированной целевой матрицы». Количество столбцов равно количеству обучающих векторов первого класса, а количество строк - количеству определяемых классов. Первая строка, соответствующая первому классу, заполняется единицами, а остальные строки формируются с помощью «матрицей схожести» первого класса. Таким образом, получается первая из L частей модифицированной целевой матрицы. Затем подготавливаются остальные части «модифицированной целевой матрицы». После формирования «модифицированной целевой матрицы» происходит обучение НС выбранной архитектуры. Структура модифицированной целевой матрицы представлена на рисунке 1(б). Для проверки эффективности и целесообразности использования «модифицированной целевой матрицы» было проведено исследование методом математического моделирования. Была составлена обучающая база данных с условным разделением на семь классов. Количество используемых признаков в каждом обучающем векторе было равно трем. Общее количество обучающих векторов было равно 825564. Архитектура нейронной сети: трехслойная сеть с прямой передачей сигнала; первый (входной) слой - 3 нейрона, функция активации 'tansig'; второй (скрытый) слой - 7 нейронов, функция активации 'purelin'; третий (выходной) слой - 7 нейронов функция активации 'tansig'; диапазон изменения входных значений от 0 до 1; критерии обучения (параметры, при достижении заданного значения которых прекращается обучение нейронной сети) - mse (среднеквадратичная ошибка) и количество эпох обучения.
Обучение указанной НС производилось двумя способами: с использованием одного из известных способов построения целевой матрицы (рис. 1, а); с использованием модифицированной целевой матрицы (рис.1, б).
После обучения по каждому их вариантов НС выбранной архитектуры производилась классификация ВО на основе тестовой базы данных. Тестовая база данных состояла из 7000 тестовых векторов (по 1000 для каждого класса). Промежуточные данные характеристик обучения и результаты классификации приведены в таблице 1.
Таблица 1. Промежуточные данные характеристик обучения и результаты классификации
Количество «эпох» обучения |
Mse в конце обучения |
Pср. расп. (средняя вероятность правильного распознавания 7 классов) |
||
Нейронная сеть обученная по варианту (а) |
10000 |
0,4689 |
0,46189 |
|
Нейронная сеть обученная по варианту (б) |
10000 |
0,2903 |
0,52614 |
Результаты математического моделирования подтвердили повышение вероятности правильной классификации объектов при обучении нейросетевого классификатора на основе модифицированной целевой матрицы. Средняя вероятность правильной классификации повысилась на 13%. Это подтверждает целесообразность использования предложенного способа для формирования целевых баз данных и последующего обучения нейросетевых классификаторов.
Литература
1. Медведев В. С., Потемкин В. Г. Нейронные сети MATLAB 6. М., Диалог МИФИ, 2002. 496 с.
2. Татузов А. Л. Нейронные сети в задачах радиолокации. М., Радиотехника, 2009. С. 310-318.
3. Патент на полезную модель № 77980. МПК7 G 01 S 13/90. Радиолокационная станция с инверсным синтезирование апертуры и двухуровневым нейросетевым распознаванием целей. Митрофанов Д. Г., Сафонов А. В., Гаврилов А. Д., Бортовик В. В., Прохоркин А.Г. Заявка № 2008126417 от 1.07.2008. Опубликовано 10.11.2008. Бюлл. № 31.
4. Патент на полезную модель № 91185. МПК7 G 01 S 13/90. Устройство двухуровневого нейросетевого распознавания воздушных объектов по совокупности признаков. Перехожев В. А., Митрофанов Д. Г., Сафонов А. В., 2009125287 от 02.07.2009 г. Опубликовано 27.01.2010. Бюл. №3.
5. Круглов В.В. Нейро-нечеткие методы классификации. - М.: Горячая линия - Телеком, 2004.С. 5-105.
6. Саймон Хайкин. Нейронные сети полный курс. Москва, Санкт-Перпербург, Киев., Издательский дом «Вильямс», 2006. 1103 с.
Размещено на Allbest.ru
...Подобные документы
Основные операции над матрицами. Формирование матрицы из файла. Ввод матрицы с клавиатуры. Заполнение матрицы случайными числами. Способы формирования двухмерных массивов в среде программирования С++. Произведение определенных элементов матрицы.
курсовая работа [537,0 K], добавлен 02.06.2015Разработка программ на языке Turbo Pascal на основе использования массивов данных. Особенности хранения данных, способы объявления переменных, действия над элементами массивов, их ввод и вывод. Практическое применение одномерных и многомерных массивов.
методичка [17,8 K], добавлен 25.11.2010Реализация различных методов сортировки. Алгоритмические языки программирования. Обработка большого числа единообразно организованных данных. Алгоритмы сортировки массивов. Анализ проблем реализации и использования различных видов сортировок массивов.
курсовая работа [640,3 K], добавлен 07.07.2011Алгоритм по обработке массивов таким образом, чтобы группы, состоящие из трех или более подряд стоящих нулей, были переписаны в начало массива. Сортировка полученных массивов методом всплывающего пузырька. Вывод на дисплей монитора обновленной матрицы.
курсовая работа [300,1 K], добавлен 30.08.2011Структура – это объединение одного либо более объектов (переменных, массивов, указателей, других структур). Понятие структурной переменной. Создание массивов структур. Использование вложенных структур в виде элементов массивов person, date, pibm.
лабораторная работа [17,6 K], добавлен 15.07.2010Понятие массива и правила описания массивов в программах на языке С. Рассмотрение основных алгоритмов обработки одномерных массивов. Примеры программ на языке С для всех рассмотренных алгоритмов. Примеры решения задач по обработке одномерных массивов.
учебное пособие [1,1 M], добавлен 22.02.2011Ознакомление с основными понятиями и организацией ввода-вывода, обработкой массивов. Описание одномерных и двумерных массивов. Описание строк и операции с ними. Комбинированный тип данных - записи. Характеристика записей, использующих вариантную часть.
реферат [84,6 K], добавлен 09.02.2011Изучение общероссийского классификатора объектов административно-территориального деления и основных видов экономической деятельности. Характеристика особенностей обеспечения совместимости государственных информационных систем и информационных ресурсов.
реферат [43,3 K], добавлен 06.12.2012Исследование основных отличий ассоциативных массивов от массивов скаляров. Разработка библиотеки классов. Выбор языка программирования. Сравнение языка C++ с Delphi, Java и JavaScript. Изучение методики тестирования и структуры тестового приложения.
практическая работа [390,2 K], добавлен 06.01.2013Разработка эскизного и технического проектов программы преобразования заданной матрицы в ортогональную матрицу. Сравнивание транспонированной матрицы с обратной с целью проверки ортогональности. Выбор состава технических и программных средств реализации.
курсовая работа [52,1 K], добавлен 09.12.2014Составление процедуры для матрицы, разложения матрицы на множители, решения системы линейных уравнений, нахождения определителя матрицы и матрицы с транспонированием. Суть метода квадратного корня. Разложение матрицы на множители. Листинг программы.
лабораторная работа [39,4 K], добавлен 18.09.2012Классификация информации как неотъемлемая часть информационного обеспечения управления, без которой невозможно эффективно и оперативно осуществлять управленческую деятельность. Категории классификаторов ТЭСИ и их статус (международные, общероссийские).
курсовая работа [57,2 K], добавлен 14.12.2010Алгебра матриц: задание численных и символьных элементов вектора и матрицы с и без применения шаблонов, использование векторных и матричных операторов и функций. Операции умножения и деления вектора и матрицы друг на друга и на скалярные числа.
практическая работа [107,0 K], добавлен 05.12.2009Разработка методики оценки кредитоспособности индивидуальных предпринимателей с использованием нейросетевых технологий. Оптимизация и упрощение нейронной сети. Экономическая эффективность инвестиций в разработанную интеллектуальную информационную систему.
дипломная работа [2,6 M], добавлен 29.06.2012Изучение понятия и основных видов массивов. Ввод массива с клавиатуры и вывод на экран. Сортировка массивов. Метод простых обменов (пузырьковая сортировка). Сортировка простым выбором и простым включением. Решение задач с использованием массивов Паскаля.
курсовая работа [82,1 K], добавлен 18.03.2013Широкое использование компьютерных и информационных технологий. Концепции типов данных. Алгоритмы сортировки одномерных массивов. Описание двумерного массива Паскаля. Методы доступа к элементам массивов. Индексные, динамические и гетерогенные массивы.
курсовая работа [66,3 K], добавлен 07.12.2010Общие сведения о языке С++. Операции и выражения, стандартные функции и структура программы. Использование функций при программировании на С++. Основные алгоритмы обработки массивов. Статические и динамические матрицы. Организация ввода-вывода в C++.
учебное пособие [6,7 M], добавлен 28.03.2014Работа с массивами, их ввод и вывод, организация программ циклической структуры. Способы описания и использования массивов, алгоритмы их сортировки, сортировка выбором и вставками. Алгоритмы поиска элемента в неупорядоченном и упорядоченном массивах.
лабораторная работа [14,2 K], добавлен 03.10.2010Определение информационных и технических ресурсов, объектов ИС подлежащих защите. Представление элементов матрицы. Внедрение и организация использования выбранных мер, способов и средств защиты. Осуществление контроля целостности и управление системой.
контрольная работа [498,3 K], добавлен 26.06.2014Аппаратные и программные RAID-массивы. Расчет объема массива. Временные затраты на расчет и запись контрольных сумм. Пример распределения файлов по JBOD-массиву. Вероятности отказа каждого диска в массиве. Сравнение стандартных уровней RAID-массивов.
курсовая работа [3,0 M], добавлен 28.03.2011