Классификация и анализ объектов для адаптивного распознавания в видеопотоке на основе нейронных сетей

Исследование применения классификации и анализа объектов на основе нейронных сетей в задачах распознавания объектов в видеопотоке. Разработка и реализация алгоритма обучения нейронных сетей для реализации механизмов классификации объектов в видеопотоке.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 10.12.2019
Размер файла 2,1 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

ПРАВИТЕЛЬСТВО РОССИЙСКОЙ ФЕДЕРАЦИИ

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ

ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ

«НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ

«ВЫСШАЯ ШКОЛА ЭКОНОМИКИ»

Московский институт электроники и математики им. А.Н. Тихонова

Выпускная квалификационная работа

Классификация и анализ объектов для адаптивного распознавания в видеопотоке на основе нейронных сетей

«Компьютерные системы и сети»

Цветков Александр Владимирович

Научный руководитель

Доцент М.С. Акатов

Задание

на выполнение магистерской диссертации

Тема работы

Классификация и анализ объектов для адаптивного распознавания в видеопотоке на основе нейронных сетей.

Цель работы

Исследование применения классификации и анализа объектов на основе нейронных сетей в задачах распознавания объектов в видеопотоке

Формулировка задания

Для достижения поставленной цели необходимо выполнить следующие задачи:

- изучить научные работы по направлению обучения глубоких полных сверточных нейронных сетей;

- разработать и реализовать алгоритм обучения нейронных сетей для реализации механизмов классификации объектов в видеопотоке;

- оценить эффективность разработанного алгоритма;

- написать отчет о проделанной работе.

3. Стадии разработки:

выбор инструментальных средств разработки прототипа;

исследование научной области компьютерного зрения;

описание общих требований к разрабатываемой системе, формул расчета используемых метрик точности и полноты классификации;

разработка алгоритма;

тестирование алгоритма.

Аннотация

Мир спорта состоит из быстрых и сложных событий, анализ которых необходим для получения сводной аналитики, для проверки стратегий и выявления новых талантов. И получение полезной аналитики требует вложения большого количества ручной работы. В данной работе предлагается использование сегментационной полной сверточной нейронной сети для предобработки кадров, который позволяет повысить точность детекции футбольных игроков в видеопотоке. Данный подход позволяет по выделенной информации автоматически генерировать визуальную аналитику, чтобы помочь тренерам и рекрутерам выявить наиболее перспективные таланты.

Annotation

The world of sports consists of quick and complex events, the analysis of which is necessary to obtain consolidated analytics, to test strategies and identify new talents. And getting useful analytics requires investing a lot of manual work. In this paper, we propose the use of a segmentation full convolutional neural network for pre-processing frames, which allows to increase the accuracy of detection of football players in the video stream. This approach allows for the extracted information to automatically generate visual analytics to help coaches and recruiters identify the most promising talents.

Оглавление

Введение

Глава 1. Постановка цели и задачи

Глава 2. Обзор существующих решений

Глава 3. Глубокие нейронные сети

3.1 История

3.2 Архитектура и преимущества CNN

Глава 4. Детекция

4.1 R-CNN

4.2 SPP-net

4.3 Fast R-CNN

4.4 Faster R-CNN

Глава 5. Сегментация: Mask-RCNN

Глава 5. Описание модели

Глава 6. Результаты экспериментов

Заключение

Список литературы

Введение

Определение следующего поколения звезд спорта является важной частью роли и обязанностей тренера. Выявление талантов традиционно основывалось на просмотре спортсменов в пробной игре или на тренировке, в которой игроки стремятся произвести впечатление на тренеров. Такой подход к отбору или найму талантов не основан на научных доказательствах, а скорее представляет собой субъективное, а потому предвзятое представление тренера об идеальном игроке, которое может привести к повторяющимся ошибочным суждениям и ограниченной согласованности [15] [5] [25].

Компьютерное зрение и анализ изображений становятся все более и более важными в спортивной аналитике, науке об анализе и моделировании процессов, лежащих в основе спортивных событий. Спорт с широким освещением в СМИ создает потребность в систематическом обзоре и объективной оценке результатов как отдельных спортсменов, так и команд. Компьютерное зрение также используется за кулисами, в таких областях, как обучение и инструктаж, а также помощь судье во время игры. На сегодняшний день большинство приложений для обеспечения спортивного анализа и обучения игроков из видео выполняются вручную. Это требует много часов, потраченных на просмотр видео и комментирование их.

Таким образом, данная область является хорошим выбором для дальнейшего исследования, ведь данная инициатива может являться вполне полезной для выявления талантов и в помощи тренерскому и рекрутерскому составам в поиске потенциально талантливых игроков. Основная предпосылка выявления и найма талантов заключается в выявлении и отборе наиболее перспективных молодых спортсменов с потенциалом преуспеть и стать успешным профессиональным спортсменом. В командных видах спорта, таких как футбол, идентификация талантов является сложным процессом из-за различных качеств, связанных с эффективностью, которые включают личные и тактические характеристики. Личные атрибуты относятся к тому, насколько хорошо игрок может владеть мячом, а тактические атрибуты - к тому, насколько успешно игрок передает мяч товарищам по команде и адаптируется к различным стратегиям.

Значительные усилия были приложены к созданию алгоритмов и компьютерных систем для отслеживания объектов в видео, в том числе в спорте. Тем не менее, отслеживание объектов остается сложной задачей, и точность различных подходов зависит от количества объектов и сложности сцены. Алгоритмы компьютерного зрения используют комбинации различных подходов, таких как извлечение признаков, классификация, сегментация и отслеживание объектов, вычитание фона для обнаружения и отслеживания объектов и др.

Надежность алгоритмов часто очень чувствительна к освещению и условиям окружающей среды в исходном сигнале, сигналом в данном случае является видеопоток. В наружных сценариях, таких как игра на открытом футбольном поле, эти параметры трудно контролировать.

Для получения сопоставимых результатов и повторяемых экспериментов на одних и тех же данных часто предоставляются наборы данных, которые можно использовать для проверки предложенных алгоритмов или механизмов. Множество наборов данных для различных целей в мультимедийных исследованиях уже существует, например, коллекция TrecVid, где представлены как видео, так и аннотации к ним [9]. Тем не менее, существует несколько наборов данных для исследований в области мультимедиа и компьютерного зрения в области футбола. Семинары по визуальному наблюдению и оценке эффективности слежения и наблюдения (VS-PETS) в течение нескольких лет обеспечивали качественные наборы данных с видео в открытом пространстве и разметку для размещения объектов, включая один для футбольных сценариев [2]. Предоставленный набор данных является довольно примитивным, так как в данном наборе видео снимаются с помощью трех камер, расположенных в разных углах стадиона, охватывающих только части поля. В набор данных VS-PETS также включены обучающие данные для использования в моделях определения фона и данные для тестирования алгоритмов отслеживания. К сожалению, в наборах данных отсутствуют многие значения, которые являются необходимыми для успешного обучения детектора. Во-первых, аннотации игроков предоставляются только для одной камеры. Во-вторых, расположение камер не относится к обычным вещательным видео, где видео обычно записываются из центра одной стороны поля. Кроме того, D'Orazio и др. [4] предоставляют набор данных для футбола с видео, записанным с использованием трех HD-камер, размещенных по обе стороны поля, но аннотации для игроков выполняются вручную и доступны только для двух минут игры.

Также есть большое количество открытых наборов данных с записями трансляций футбольных матчей, однако эти данные имеют некоторое количество изъянов: трансляционная видеозапись является вырезкой из видеопотока получаемого с панорамной камеры, которая снимает все поле сразу, и, далее, операторы или алгоритмы компьютерного зрения, в зависимости от зоны интереса, режут посредством увеличения и отдаления исходный поток, основное внимание уделяя игрокам с мячом; эти данные не могут быть использованы на первых этапах обучения модели, так как они не являются аннотированными. Но данные наборы могут быть очень полезны для проверки гипотез более поздних стадий обучения нейронной сети, а также являются постоянно пополняемым источником разнообразия внешних факторов, как например освещение, погодные условия и др.

Была разработана система анализа в реальном времени. Система состоит из обученной нейронной модели, на вход которой подаются изображения из видеопотока трансляции. Система собирает позиционные данные для каждого игрока в течение всего матча. Эти данные могут быть доступны для различных целей, таких как обработка телевизионного вещания, мобильные приложения и профессиональный анализ. В частности, обработанные данные отслеживания дают важную информацию для оценки физической и тактической производительности, так необходимой для тренеров. Кроме того, в отличие от коммерческих систем, целевой вариант использования распространяется на отслеживание на любом футбольном поле, будь то тренировочное поле, небольшие стадионы или выездные матчи. Таким образом, разработка представленной платформы была обусловлена ??следующими целями проектирования:

- Мобильность: можно быстро настроить и откалибровать систему в любом месте, будь то стадион, тренировочная площадка или закрытое поле.

- Низкая стоимость. Требования к оборудованию невелики, поскольку используется только вычислительно нетребовательные нейронные сети.

- Точность: современные методы распознавания образов обеспечивают точное обнаружение и классификацию.

В нашем примере приложения решаются следующие задачи: детекция и сегментация частей футбольного поля; детекция футбольных игроков на футбольном поле; распознавание детектированных футболистов; отображение пространственного расположения объектов на схему футбольного поля. Далее представляется сравнительное исследование, которое обосновывает выбор дизайна для модулей сегментации и детекции.

Глава 1. Постановка цели и задачи

В качестве одной из фундаментальных проблем компьютерного зрения обнаружение объектов способно предоставить ценную информацию для семантического понимания изображений и видео и связано со многими приложениями, включая классификацию изображений [5], [6], анализ поведения человека [7], распознавание лиц [8] и автономное вождение [9], [10].

Задача определения объекта обнаружения состоит в том, чтобы определить, где объекты находятся на данном изображении (локализация объекта) и к какой категории принадлежит каждый объект (классификация объектов). Таким образом, конвейер традиционных моделей обнаружения объектов в основном можно разделить на три этапа: выбор информативного региона, выделение признаков и классификация.

Благодаря ситуации чрезвычайного интереса исследователей к глубоким нейронным сетям (DNN) в последние годы - задачи компьютерного зрения получили очень много различных реализаций[6], так в задаче детекции, при использовании DNN более значительный выигрыш достигается с введением концепции регионов интереса на основе сверточных нейронных сетей (R-CNN) [15]. DNN, или наиболее представительные CNN, действуют совершенно иначе, чем традиционные подходы. Они имеют более глубокую архитектуру, способную изучать более сложные зависимости, чем мелкие.

Также выразительность и надежность алгоритмов обучения позволяют изучать информативные представления объектов без необходимости проектирования параметризации вручную [26]. Со времени предложения R-CNN было предложено множество улучшенных моделей, включая Fast R-CNN, который совместно оптимизирует задачи регрессии классификации и ограничивающего прямоугольника [16], Faster R-CNN, который использует дополнительную подсеть для генерации предложений по регионам [18] и YOLO, которая осуществляет обнаружение объектов посредством регрессии с фиксированной сеткой [17]. Все они дают различные степени улучшения производительности обнаружения по сравнению с первичным R-CNN и делают более точным обнаружение объектов в режиме реального времени.

Данные архитектуры являются крайне точными, но данная точность достигается если использовать их на данных близких к тем, на которых модель обучалась. В случае применения модели R-CNN, обученной на датасете COCO(больше 200 тысяч размеченных изображений с 1,5 миллионами объектов из 80 классов) к кадрам видео трансляции - детекция футбольных игроков происходит с большой погрешностью, причиной которой является “незнание” сети данных целевого домена. На рис. 1 и 2 изображены результаты работы R-CNN с кадром исходного размера и с обрезанием и масштабированием. Можно увидеть, что модель детектирует футболистов при использовании увеличения, так как ей вполне знакомы объекты класса “человек”(“person” на изображении) из обучающего датасета COCO, однако при передаче модели кадра исходного размера - детекций верных почти не происходит.

распознавание видеопоток нейронная сеть

Рисунок 1. Результат детекции модели R-CNN COCO с использованием кадра исходного размера.

Рисунок 2. Результат детекции модели R-CNN COCO с использованием увеличения и обрезания кадра.

Таким образом увеличения точности детекции моделью можно достичь изменением масштаба и обрезанием кадра. Также для нас не являются интересными участки кадра, на которых нет поля, так как они не обладают релевантной для решения задачи детекции футбольных игроков на поле информацией.

Обрезание лишней информации на кадре предлагается выполнять благодаря нахождению на изображении границ поля и его частей и их сегментация. Так как видеозапись производится с одной панорамной статичной камеры, то задачу сегментации частей поля не обязательно решать на каждом кадре, а достаточно решить раз и далее, раз в какое-то определенное количество кадров, например раз в 30 секунд, выполнять проверочную работу для корректировки масок сегментации в случае небольшого движения камеры, например шатания. Благодаря тому что данная задача является подготовительной для данных, а также по той причине, что части поля не так сложно определимы, в связи с их специальным визуальным выделением белой краской на зеленой траве, то не требуется использовать сложных вычислительно нейронных сегментационных сетей.

Обрезанная зона поля подается основной модели для получения предсказаний положений футбольных игроков.

Далее возможно совместить сегментационные маски частей поля и детектированные положения игроков для создания схематичного представления пространственного расположения футболистов и их передвижений.

Глава 2. Обзор существующих решений

Видеоанализ спортивных состязаний, основанный на телевизионных трансляциях, был сделан, чтобы классифицировать материал относительно вида спорта, вида с камеры (Zhang и др. 2012) и интересных событий, таких как гол или офсайд (Assfalg и др. 2003; D'Orazio и др. 2009). Тем не менее, из-за ограниченного покрытия поля, телевизионный материал не подходит для надежного отслеживания всех участников, вовлеченных в игру.

Подходы к отслеживанию игроков, основанные на конкретных настройках камеры (в основном в контексте футбола), рассматриваются Xinguo и Farin (2005); D'Orazio и Leo (2010). Об альтернативных системах, основанных на нескольких камерах, распределенных на стадионе, стоит ссылаться на Poppe и др. (2010); Бен Шитрит и др. (2011); Рен и др. (2010). В случае различных положений камеры на стадионе необходимо учитывать различные условия освещения, например, с помощью кумулятивной функции передачи яркости (Prosser и др. 2008). Другие заметные публикации, относящиеся к контексту нашего исследования, посвящены обнаружению и отслеживанию с использованием информации о цвете и глубине (Mun Юoz Salinas 2008), неконтролируемому извлечению представлений объектов (Liu и др. 2009) и решению задачи отслеживания с помощью графовых представлений (Figueroa и др. 2004). Важность анализа различных цветовых пространств для сегментации изображения в футбольном анализе указана Xu и др. (2004) и Vandenbroucke и др. (2003), которые представили адаптированное гибридное цветовое пространство. В качестве современного базового уровня также рассматривалась spatiograms, расширение гистограмм, предложенное в контексте отслеживания объектов на основе регионов (Birchfield и Rangarajan 2005).

Ни один из вышеупомянутых подходов не способен идентифицировать игроков лично. Они предсказывают только членство в команде. Следует отметить, что опытные люди могут идентифицировать игроков в видео, включая различные подсказки, такие как телосложение игрока, цвет кожи и волос, ход движений и положение относительно остальной части команды.

На рынке также есть коммерческие системы для анализа футбольных видеороликов, например, Tracab, AmiscoPro, Vis.Track. Они либо используют до 16 мобильных камер и стерео зрение для отслеживания или требуют нескольких постоянно установленных камер. Статистика либо записывается в реальном времени - с помощью до восьми человек-операторов - или в автономном режиме через 48 часов. Ни одна из упомянутых систем не может работать полностью автономно.

Для рассматриваемого в данной работе сценария, где визуальный облик всех игроков до матча не известен, удовлетворительного решения еще не было предложено. Стандартная установка для модулей классификации, представленная в упомянутой литературе, представляет собой процедуру автономного обучения. Коммерческие системы противодействуют этой проблеме огромными человеческими усилиями, например, вручную выбирая репрезентативные цвета во время прогрева, чтобы инициализировать модули сегментации и классификации. Такие подходы не являются ни эффективными, ни надежными.

В своем обзоре D'Orazio и Leo пришли к выводу, что «большая часть работы должна быть направлена ??на совершенствование автоматического анализа с целью сокращения ручного вмешательства и повышения их эффективности» (D'Orazio и Leo 2010). Это исследование указывает на часть машинного обучения для достижения высокой точности классификации в различных средах, при этом требуется минимальное вмешательство человека. Тем не менее, человеческое взаимодействие необходимо для:

- настройка системы и калибровка,

- наблюдение за алгоритмами машинного обучения,

- идентификация отдельных игроков, и

- разрешение конфликтов отслеживания мультиобъектов в условиях окклюзий.

Несмотря на многочисленные исследования, посвященные совершенствованию методов компьютерного зрения, вовлеченных в процесс распознавания, мало сделано в области эффективного взаимодействия человека с машиной. Цель этого взаимодействия не ограничивается дополнением более слабых частей системы операторами-людьми, но включает операторов в процесс машинного обучения для обеспечения точной и надежной работы.

Система распознавания работает в режиме реального времени, позволяет анализировать полные изображения и опирается на портативное и доступное оборудование. Используя одну статичную камеру высокого разрешения 4K, создается панорамное изображение, охватывающее все поле. На основе этого видеопотока были сгенерированы 8 классов для сегментации частей поля, а именно: full(все поле), left_field(левая половина), right_field(правая половина), center(центральный круг), l_goal_field, l_goal_field_inner, r_goal_field, l_goal_field_inner(левые и правые внутренние и внешние зоны ворот соответственно). Результат кластеризации дает возможность выделить поле на кадре для передачи детектору. Обнаружения затем классифицируются. Зона кадра определяемая ограничивающим прямоугольником объекта класса full(все поле) обрезается, к ней применяются различные трансформации представления, такие как изменение масштаба, приведение к тензору, нормализация и др.. Данные нарезки передаются модели для решения задачи детекции, что в результате позволит произвести апроксимирующий поиск позиций детектированных футболистов и создавать аналитику.

Глава 3. Глубокие нейронные сети

Перед обзором подходов к обнаружению объектов, основанных на глубоком обучении, стоит дать обзор истории глубокого обучения, а также базовой архитектуры и преимуществ CNN.

3.1 История

Глубокими моделями можно назвать нейронные сети с глубокими структурами. История нейронных сетей восходит к 1940-м годам [35], и первоначальная цель разработки состояло в том, чтобы симулировать систему человеческого мозга для принципиального решения общих проблем обучения. Первые популярные концепции появились в 1980-х и 1990-х годах благодаря предложеному алгоритма обратного распространения Hinton и др. [36]. Однако из-за переобученности, отсутствия крупномасштабных обучающих данных, ограниченной вычислительной мощности и незначительной производительности по сравнению с другими инструментами машинного обучения нейронные сети вышли из моды в начале 2000-х годов.

Глубокое обучение стало популярным с 2006 года [37] с прорывом в распознавании речи [38]. Восстановление интереса к глубокому обучению можно объяснить следующими факторами.

* Появление крупномасштабных аннотированных обучающих данных, таких как ImageNet [39], для полной демонстрации своей очень большой обучающей способности;

* Быстрое развитие высокопроизводительных параллельных вычислительных систем, таких как кластеры графических процессоров(GPU);

* Значительный прогресс в разработке сетевых структур и стратегий обучения. При неконтролируемой и послойной предварительной подготовке под руководством автоматического кодировщика (AE) [40] или ограниченной машины Больцмана (RBM - Restricted Boltzmann Machine) [41] обеспечивается хорошая инициализация. С появлением таких улучшений как регуляризация «отсева»(dropout) и увеличением количества и разнообразия данных, проблема переобучения в обучении была решена [6], [42]. С нормализацией по пакету(BN - batch normalization) обучение очень глубоких нейронных сетей становится весьма эффективным и не таких вычислительно затратным[43]. Между тем различные сетевые структуры, такие как AlexNet [6], Overfeat [44], GoogLeNet [45], VGG [46] и ResNet [47], были тщательно изучены для повышения производительности.

Что побуждает глубокое обучение оказывать огромное влияние на все академическое сообщество? Это может быть связано с вкладом группы Хинтона, чьи постоянные усилия продемонстрировали, что именно глубокое обучение принесет революционный прорыв в решении сложных задач, а не просто улучшение небольших наборов данных. Их успех является результатом обучения большой CNN на 1,2 миллионе размеченных изображений вместе с применением некоторых методов [6] (например, работа ReLU [48] и регуляризация «отсева»).

3.2 Архитектура и преимущества CNN

Типичная архитектура CNN, которая упоминается как VGG16, может быть найдена на рисунке 3. Каждый слой CNN известен как карта признаков. Карта признаков входного слоя представляет собой трехмерную матрицу интенсивности пикселей для различных цветовых каналов (например, RGB). Карта признаков любого внутреннего слоя представляет собой преобразованное многоканальное изображение, чей «пиксель» можно рассматривать как отдельная характеристика. Каждый нейрон связан с небольшой частью соседних нейронов из предыдущего слоя (рецептивное поле). Различные типы преобразований [6], [49], [50] могут выполняться на картах признаков, таких как фильтрация и объединение. Операция фильтрации (свертки) сворачивает матрицу фильтра (изученные веса) со значениями рецептивного поля нейронов и принимает нелинейную функцию (такую ??как сигмоида [51], ReLU) для получения окончательных ответов. Операция объединения(pooling), такая как объединение по максиму, среднее объединение, объединение L2 и нормализация локального контраста [52], суммирует ответы рецептивного поля в одно значение, чтобы получить более устойчивые описания функций.

Рисунок 3. Архитектура очень глубокой полностью сверточной нейронной сети VGG16

С чередованием между сверткой и пулированием создается начальная иерархия объектов, которая может быть отрегулирована под наблюдением путем добавления нескольких полностью связанных (FC - fully connected) слоев для адаптации к различным визуальным задачам. В соответствии с поставленными задачами добавляется последний слой с различными функциями активации [6], чтобы получить определенную условную вероятность для каждого выходного нейрона. И вся сеть может быть оптимизирована по целевой функции (например, среднеквадратическая ошибка или потеря кросс-энтропии) с помощью метода стохастического градиентного спуска (SGD). Типичный VGG16 имеет всего 13 сверточных слоев, 3 полно-связных слоя, 3 слоя с максимальным пулом и слой классификации Softmax. Сложные карты признаков создаются с помощью свертывающих окон фильтров 3 * 3, а разрешение карт объектов уменьшается с помощью двух слоев максимального пула. Произвольное тестовое изображение того же размера, что и обучающие образцы, может быть обработано с помощью обученной сети. Могут потребоваться операции масштабирования или обрезки, если предусмотрены разные размеры [6].

Преимущества CNN по сравнению с традиционными методами можно резюмировать следующим образом.

* Иерархическое представление признаков, представляющее собой многоуровневые представления от пиксельных до высокоуровневых семантических признаков, изучаемых иерархической многоэтапной структурой [15], [53], может быть извлечено из данных автоматически, а скрытые представления характеристик входных данных могут быть исследованы через многоуровневые нелинейные отображения.

* По сравнению с традиционными неглубокими моделями более глубокая архитектура обеспечивает экспоненциально повышенную выразительность.

* Архитектура CNN предоставляет возможность совместной оптимизации нескольких связанных задач вместе (например, Fast RCNN объединяет классификацию и регрессию ограничивающего прямоугольника в многопрофильном перелельном режиме).

* Воспользовавшись большой способностью к обучению глубоких CNN, некоторые классические проблемы компьютерного зрения могут быть преобразованы в проблемы, связанные с многомерными данными, и решены с другой точки зрения.

Благодаря этим преимуществам CNN широко применяется во многих областях исследований, таких как восстановление сверхразрешения изображений [54], [55], классификация изображений [5], [56], поиск изображений [57], [58], распознавание лиц [8], обнаружение пешеходов [59] - [61] и видеоанализ [62], [63].

Глава 4. Детекция

Обнаружение общих объектов направлено на обнаружение и классификацию существующих объектов на любом одном изображении и маркировку их прямоугольными ограничивающими границами, чтобы показать достоверность существования. Основы общих методов обнаружения объектов можно разделить на два типа (см. Рисунок 4). Один следует традиционному подходу обнаружения объектов, сначала генерируя предложения по регионам, а затем классифицируя каждое предложение по различным категориям объектов. Другой рассматривает обнаружение объекта как проблему регрессии или классификации, применяя унифицированную структуру для непосредственного достижения конечных результатов (категорий и местоположений). Методы, основанные на предложении региона, в основном включают R-CNN [15], SPP-сеть [64], Fast R-CNN [16], Faster R-CNN [18], R-FCN [65], FPN [66] и Mask R-CNN [67], некоторые из которых связаны друг с другом (например, сеть SPP модифицирует RCNN с уровнем SPP). Методы, основанные на регрессии / классификации, в основном включают MultiBox [68], AttentionNet [69], G-CNN [70], YOLO [17], SSD [71], YOLOv2 [72], DSSD [73] и DSOD [74]. Корреляции между этими двумя подходами связаны “якорями”, введенными в Faster RCNN.

Рисунок 4. Два основных подхода к решению задачи детекции: на основе предложений регионов и на основе регрессии/классификации

SPP: Spatial Pyramid Pooling [64] - объединение по пространственной пирамиде, RPN: Region Proposal Network [18] - сеть предложений регионов, FCN: Fully Convolutional Network [65] - полностью сверточная сеть.

Структура, основанная на предложении региона, представляет собой двухэтапный процесс, в некоторой степени совпадающий с механизмом внимания человеческого мозга, который вначале дает грубое сканирование всего сценария, а затем фокусируется на областях, представляющих интерес. Среди предшествующих работ [44], [75], [76] наиболее представительным является Overfeat [44]. Эта модель вставляет CNN в метод скользящего окна, который предсказывает ограничивающие прямоугольники непосредственно из местоположений самой верхней карты объектов после получения доверительных отношений с категориями базовых объектов.

4.1 R-CNN

Для извлечения функций высокого уровня важно улучшить качество возможных ограничивающих рамок и использовать глубокую архитектуру. Чтобы решить эти проблемы, Росс Гиршик в 2014 году предложил R-CNN [15] и получил среднюю среднюю точность (mAP) 53,3% с улучшением более чем на 30% по сравнению с предыдущим лучшим результатом (DPM HSC [77]) на PASCAL VOC 2012. На рисунке 4 показана блок-схема R-CNN, которая может быть разделена на три этапа следующим образом.

Рисунок 5. RCNN: регионы с CNN признаками

Генерация предложений регионов. R-CNN использует выборочный поиск [78], чтобы сгенерировать около 2 тыс. предложений для каждого изображения. Метод выборочного поиска основывается на простых группировании снизу-вверх и подсказках значимости для быстрого предоставления более точных блоков-кандидатов произвольных размеров и сокращения пространства поиска при обнаружении объектов [24], [39].

Основанное на CNN глубокое извлечение признаков. На этом этапе каждое предложение региона деформируется или обрезается в фиксированное разрешение, а модуль CNN в [6] используется для извлечения 4096-мерного признака в качестве окончательного представления. Из-за большой способности к обучению, доминирующей выразительной силы и иерархической структуры CNN можно получить высокоуровневое, семантическое и надежное представление признаков для каждого предложения региона.

Классификация и локализация. С предварительно обученными категория-специфичными линейными SVM для нескольких классов различные предложения по регионам оцениваются на основе набора положительных областей и фоновых (отрицательных) областей. Затем отмеченные области корректируются с помощью регрессии ограничивающего прямоугольника и фильтруются с помощью жадного немаксимального подавления (NMS) для получения окончательных ограничивающих прямоугольников для сохраненных местоположений объектов.

При наличии скудных или недостаточных данных с разметкой, обычно проводится предварительная подготовка. Вместо неконтролируемой предварительной подготовки [79] R-CNN сначала проводит контролируемое предварительное обучение на ILSVRC, очень большом вспомогательном наборе данных, а затем проводит точную настройку для конкретного домена. Эта схема была принята большинством последующих подходов [16], [18].

Несмотря на усовершенствования по сравнению с традиционными методами и важность для внедрения CNN в практическое обнаружение объектов, все еще есть некоторые недостатки.

* Из-за наличия слоев FC, CNN требует входное изображение фиксированного размера (например, 227 Ч 227), что напрямую приводит к пересчету всего CNN для каждого оцениваемого региона, что занимает много времени в период тестирования.

* Обучение R-CNN является многоступенчатым моделью. Сначала настраивается сверточная сеть (ConvNet) по объектным предложениям. Затем классификатор softmax, обученный путем тонкой настройки(fine tuning), заменяется SVM, чтобы соответствовать функциям ConvNet. Наконец, ограничивающие регрессоры обучаются.

* Обучение дорого в пространстве и времени. Функции извлекаются из предложений разных регионов и хранятся на диске. Обработка сравнительно небольшого учебного набора с очень глубокими сетями, например, VGG16, займет много времени. В то же время объем памяти, необходимый для этих функций, также должен вызывать беспокойство.

* Хотя выборочный поиск может генерировать предложения по регионам с относительно высоким уровнем отзыва, полученные предложения по регионам все еще являются избыточными, и эта процедура занимает много времени (около 2 секунд для извлечения предложений по 2k регионов).

Для решения этих проблем было предложено много способов. GOP [80] использует гораздо более быструю геодезическую сегментацию, чтобы заменить традиционные графовые обрезания. MCG [81] осуществляет поиск в разных масштабах изображения для нескольких иерархических сегментов и комбинаторно группирует различные области для создания предложений. Вместо выделения визуально отличных сегментов, метод граничных блоков [82] принимает идею, что объекты с большей вероятностью существуют в ограничивающих прямоугольниках с меньшим количеством контуров, перекрывающих их границы. Также некоторые исследователи пытались изменить ранжирование или усовершенствовать предварительно извлеченные предложения регионов, чтобы удалить ненужные, и получили ограниченное количество ценных предложений, таких как DeepBox [83] и SharpMask [84].

Кроме того, есть некоторые улучшения для решения проблемы неточной локализации. Чжан и соавт. [85] использовали алгоритм поиска, основанный на байесовской оптимизации, чтобы последовательно направлять регрессии различных ограничивающих блоков, и обучал классификаторы CNN для конкретных классов со структурированной потерей, чтобы явно штрафовать неточность локализации. Саурабх Гупта и соавт. улучшили обнаружение объектов для изображений RGB-D с семантически богатыми функциями изображения и глубины [86], а также получили новое геоцентрическое вложение для изображений глубины для кодирования каждого пикселя. Сочетание детекторов объектов и системы классификации суперпикселей дает многообещающий результат в задаче сегментации семантической сцены. Оуян и соавт. предложил деформируемый глубокий CNN (DeepID-Net) [87], который вводит новый слой с ограниченным по деформации пулом (def-pooling) для наложения геометрического штрафа на деформацию различных частей объекта и создает множество моделей с различными настройками. Lenc и др. [88] предоставили анализ роли генерации предложений в детекторах на основе CNN и попытались заменить этот этап схемой генерации констант и тривиальных областей. Цель достигается путем смещения выборки, чтобы сопоставить статистику истинных ограничивающих прямоугольников с кластеризацией K-средних. Однако для достижения сопоставимых результатов с результатами R-CNN требуется больше прямоугольников-кандидатов.

4.2 SPP-net

FC слои должны иметь вход фиксированного размера. Вот почему R-CNN применяет трансформации деформирования или обрезания для каждого предложение региона, чтобы получить один и тот же размер. Однако объект может существовать частично в обрезанной области, и нежелательные геометрические искажения могут быть вызваны операцией деформации. Эти потери или искажения содержимого снижают точность распознавания, особенно когда изменяются масштабы объектов.

Чтобы решить эту проблему, He и др. приняли во внимание теорию пространственного сопоставления пирамид (SPM) [89], [90] и предложил новую архитектуру CNN под названием SPP-net [64]. SPM использует несколько более мелких и более грубых масштабов, чтобы разделить изображение на несколько делений и объединить квантованные локальные объекты в представления среднего уровня.

Архитектура сети SPP для обнаружения объектов показана на рисунке 6. В отличие от R-CNN, SPP-net повторно использует карты признаков 5-го сверточного слоя (conv5) для предложений областей произвольных размеров и векторов объектов фиксированной длины. Возможность повторного использования этих карт признаков обусловлена ??тем фактом, что карты объектов не только включают в себя силу локальных откликов, но также имеют связь с их пространственным положением [64]. Слой, идущий после заключительного сверточного слоя называется пространственным пирамидальным слоем (слой SPP). Если число карт признаков в conv5 равно 256, принимая 3-уровневую пирамиду, конечный вектор признаков для каждого предложения области, полученный после слоя SPP, имеет размерность

Рисунок 6. Архитектура SPP-net

Сеть SPP не только получает лучшие результаты с правильной оценкой предложений по различным регионам в соответствующих масштабах, но также повышает эффективность обнаружения в период тестирования с распределением вычислительных затрат до уровня SPP между различными предложениями.

4.3 Fast R-CNN

Хотя сеть SPP добилась впечатляющих улучшений в точности и эффективности по сравнению с R-CNN, она все еще имеет некоторые заметные недостатки. SPP-сеть использует почти тот же многоступенчатый подход, что и R-CNN, включая извлечение функций, тонкую настройку сети, обучение SVM и установку регрессора ограничивающего блока. Таким образом, дополнительные расходы на место для хранения все еще требуются. Кроме того, сверточные уровни, предшествующие уровню SPP, не могут быть обновлены с помощью алгоритма тонкой настройки, представленного в [64]. В результате снижение точности очень глубоких сетей неудивительно. С этой целью Гиршик [16] представил многозадачную функцию потерь при классификации и регрессии ограничивающего прямоугольника и предложил новую архитектуру CNN под названием Fast R-CNN.

Архитектура Fast R-CNN показана на рисунке 7. Как и в случае с сетью SPP, все изображение обрабатывается с помощью сверточных слоев для создания карт характеристик. Затем вектор признаков фиксированной длины извлекается из каждого предложения области со слоем объединения областей интереса (RoI). Слой пула RoI является частным случаем уровня SPP, который имеет только один уровень пирамиды. Каждый вектор признаков затем подается в последовательность слоев FC, а затем, наконец, разветвляется на два выходных слоя одного уровня. Один выходной слой отвечает за получение вероятностей softmax для всех категорий C + 1 (классы объектов C плюс один класс “фон”), а другой выходной слой кодирует уточненные позиции ограничивающего прямоугольника с четырьмя действительными числами. Все параметры в этих процедурах (кроме генерации предложений по регионам) оптимизируются за счет многозадачной сквозной функции потерь.

Рисунок 7. Архитектура SPP-net

Потеря L мультизадачности определяется следующим образом, чтобы совместно обучать классификацию и регрессию ограничивающего прямоугольника.

Чтобы ускорить Fast R-CNN, необходимы еще две хитрости. С одной стороны, если обучающие образцы (то есть RoI) поступают из разных изображений, обратное распространение через уровень SPP становится крайне неэффективным. Fast R-CNN производит выборки иерархически мини-партиями, а именно по N изображениям, сначала выборка случайна, а затем R / N RoI выбирается в каждом изображении, где R представляет количество RoI. Критически важно, что вычисления и память совместно используются RoI из одного и того же изображения в прямом и обратном проходе. С другой стороны, много времени тратится на вычисление FC слоев во время прямого прохода [16]. Усеченное разложение по сингулярным значениям (SVD) [91] можно использовать для сжатия больших FC слоев и для ускорения процедуры тестирования.

В Fast R-CNN, независимо от генерации предложения региона, обучение всех сетевых уровней может быть выполнено в один этап с многозадачной функцией потерь. Это экономит дополнительные расходы на место для хранения и повышает точность и эффективность благодаря более разумным схемам обучения.

4.4 Faster R-CNN

Несмотря на попытку создания блоков-кандидатов с выборкой со смещением(bias) [88], современные сети обнаружения объектов в основном полагаются на дополнительные методы, такие как выборочный поиск и Edgebox, для создания пула кандидатов являющихся отдельными предлагаемыми регионами. Расчет предложений по региону также является узким местом в повышении эффективности. Чтобы решить эту проблему, Ren и др. представили дополнительную Региональную сеть предложений (RPN - Region Proposal Network) [18], [92], которая работает практически бесплатно, предоставляя возможности полноэкранного изображения для сети обнаружения.

RPN является полностью сверточной сетью, которая имеет возможность прогнозировать границы объекта и оценки в каждой позиции одновременно. Подобно [78], RPN берет изображение произвольного размера, чтобы сгенерировать набор прямоугольных предложений объектов. RPN работает на конкретном уровне конвенций, причем предыдущие уровни используются совместно с сетью обнаружения объектов.

Архитектура RPN показана на рисунке 6. Сеть скользит по карте характеристик объекта и использует FC слои к пространственному окну n Ч n. Низкоразмерный вектор (512-d для VGG16) получается в каждом скользящем окне и подается в два одноуровневых слоя FC, а именно слой классификации ограничительных рамок(cls) и слой их регрессии(reg). Эта архитектура реализована с помощью сверточного слоя с фильтрами n Ч n, за которым следуют два слоя свертки 1 Ч 1. Чтобы увеличить нелинейность, ReLU применяется к выходному сигналу n Ч n свертки.

Рисунок 8. RPN в Faster-RCNN. K предопределенных якорных ячеек свернуты с каждым скользящим окном для получения векторов фиксированной длины, которые принимаются cls и reg layer для получения соответствующих выходных данных.

Регрессия к истинным ограничивающим рамкам достигается путем сравнения предложений относительно ссылочных рамок (якорей). В Faster R-CNN приняты якоря 3-х масштабов и 3-х пропорций. Функция потерь аналогична (1).

С предложением Faster R-CNN архитектуры CNN, основанные на региональном предложении, для обнаружения объектов действительно могут проходить сквозную подготовку. Кроме того, частота кадров 5 FPS (кадров в секунду) на графическом процессоре достигается с помощью современной точности обнаружения объектов в PASCAL VOC 2007 и 2012. Однако альтернативный алгоритм обучения очень трудоемкий, и RPN создает объект -подобные области (включая фоны) вместо экземпляров объектов и не умеет работать с объектами экстремальных масштабов или форм.

Глава 5. Сегментация: Mask-RCNN

Mask R-CNN: Сегментация экземпляра объекта [96] является сложной задачей, которая требует обнаружения всех объектов на изображении и сегментации каждого экземпляра (семантическая сегментация [97]). Эти две задачи обычно рассматриваются как два независимых процесса. А много-классовость схемы будет демонстрировать систематические ошибки в перекрывающихся экземплярах [98]. Чтобы решить эту проблему, параллельно с существующими ветвями в Faster R-CNN для классификации и регрессии ограничивающего прямоугольника, Mask R-CNN [67] добавляет ветвь для предсказания масок сегментации от пикселя к пикселю (рисунок 9).

Рисунок 9. Архитектура Mask-RCNN

В отличие от двух других ветвей, которые неизбежно сворачиваются в короткие выходные векторы с помощью FC слоев, ветвь маски сегментации кодирует маску m Ч m для поддержания явного пространственного расположения объекта. Этот тип полностью сверточного представления требует меньше параметров, но является более точным, чем в [97]. Формально, помимо двух потерь в (1) для классификации и регрессии ограничивающего прямоугольника, определяется дополнительная потеря для ветви маски сегментации, чтобы достичь многозадачной функции потери. Эта потеря связана только с классом истины и опирается на классификационную ветвь для прогнозирования категории.

Поскольку объединение RoI, основная операция в Faster R-CNN, выполняет грубое пространственное квантование для извлечения признаков, между RoI и объектами возникает рассогласование. Это мало влияет на классификацию из-за его устойчивости к небольшим изменениям. Тем не менее, это оказывает большое негативное влияние на прогнозирование попиксельной маски. Чтобы решить эту проблему, Mask R-CNN использует простой слой без квантования, а именно RoIAlign, для точного сохранения явного пространственного попиксельного соответствия. RoIAlign достигается путем замены жесткого квантования пула RoI на билинейную интерполяцию [99], вычисляя точные значения входных объектов в четырех местах регулярной выборки в каждом бункере RoI. Несмотря на свою простоту, это, казалось бы, незначительное изменение значительно повышает точность маски, особенно при строгих метриках локализации.

Принимая во внимание структуру Faster R-CNN, ветвь маски добавляет лишь небольшую вычислительную нагрузку, а ее взаимодействие с другими задачами предоставляет дополнительную информацию для обнаружения объектов. В результате Mask R-CNN проста в реализации с многообещающими результатами сегментации экземпляров и обнаружения объектов. Одним словом, Mask R-CNN - это гибкая и эффективная структура для распознавания на уровне экземпляра, которая может быть легко обобщена для других задач (например, оценка позы человека [7]) с минимальной модификацией.

Глава 5. Описание модели

Для решения задачи детекции футболистов был построен и поочередно обучен ансамбль нейронных сетей, схема изображена на рисунке 10.

Рисунок 10. Схема взаимодействия модулей

На вход оркестру подается кадр из видео-потока, каждый кадр имеет представление в виде тензора следующих размеров - 3840 Ч 2160 Ч 3 (ширина Ч высота Ч RGB слои).

Сегментационная нейронная сеть принимает тензор размеров batch_size Ч 256 Ч 256 Ч 3, где batch_size - это количество кадров подаваемое для обработки, в нашем случае batch_size = 1.

Для решения задачи сегментации была выбрана полная сверточная сеть - Mask RCNN. Головы детекции и сегментации, принимающие на вход векторное представление “основы”, в процессе обучения “ищут” в данном представлении знакомые объекты. Основой является полная сверточная сеть, и возможно использовать различные интерпретации. Стандартной для Mask RCNN основой является остаточная сверточная нейронная сеть ResNet-50. Данная модель является сложной и хорошо апроксимирующей, однако из-за большого количества параметров также является требовательной к вычислительным мощностям. Учитывая возможность замены основы и необходимость в вычислениях в онлайн режиме, в рамках данной работы предлагается также использование легковесной мобильной полной сверточной сети - MobileNet_v2[28]. Сравнение приведено на таблице 1.

Таблица 1. Сравнение модулей извлечения признаков: ResNet-50, MobileNet_v2. Время обработки приведено при использовании платформы для искусственного интеллекта Jetson TX1.

Основа, модуль извлечения признаков

ResNet-50

MobileNet_v2

Количество параметров

Время обработки 1 изображения в пакете, мс

53.09

20.1

Время обработки 2 изображений в пакете, мс

44.84

14.58

Время обработка 4 изображения в пакете, мс

38.79

13.56

Для обучения сегментационной нейронной сети были вручную размечены 2100 изображений. Разметка производилась масок и ограничивающих прямоугольников различных частей поля. Пример разметки изображен на рисунках 11 и 12.

Рисунок 11. Разметка ограничивающих прямоугольников частей поля

Рисунок 12. Маски частей поля

Далее модели сегментации с различными модулями извлечения представления обучались в течении 300 эпох. Пример результата детекции и сегментации изображен на рисунках 13-21.

Рисунок 13. Предсказание ограничивающих прямоугольников

Рисунки 14-21. Предсказанные маски частей поля

Ограничительный прямоугольник класса full - все поле - используется для выделения зоны кадра, которая далее будет резаться и масштабироваться для подачи частей детекционной модели.

Детекция производится моделью Faster RCNN, данная модель также как и сегментационная будет использовать два вида модуля извлечения представлений - ResNet50 и MobileNet_v2.

Все детекции в отдельных частях кадра далее собирается модулем отображения объектов для дальнейшего переноса на схему футбольного поля. Пример собранного кадра с обнаруженными детекциями показан на рисунке 22.

Рисунок 22. Предсказанные положения футболистов.

Рисунки 23-24. Предсказанные детекции с классами и их представление на схеме футбольного поля.

Таким образом увеличения точности детекции моделью было достигнуто изменением масштаба и обрезанием кадра.

Глава 6. Результаты экспериментов

Для решения задачи детекции были использованы сверточные нейронные сети Faster-RCNN с ResNet-50 и MobileNet_v2 в качестве модулей извлечения особенностей. Данные модели использовались на исходном изображении без масштабирования, с наивным обрезанием на 5 частей(4 угла + центр), с наивным обрезание на 10 частей (сетка 3х3 + центр), с обрезание по детектированной части поля. Средние точности обнаружения приведены в таблице 2.

Таблица 2. Средние точности детекций(mAP - mean Average Precision) и время обработки кадра(мс). Приведено время обработки на GPU 1060ti с 4 Гб видео-памяти.

Сеть\Подход

Без масштабирования

Наивное обрезание на 5 частей

Наивное обрезание на 10 частей

Обрезание по полю

Faster-RCNN с ResNet-50

0.39 mAP

210 мс

0.82 mAP

450 мс

0.82 mAP

450 мс

0.94 mAP

325 мс

Faster-RCNN с MobileNet_v2

0.43 mAP

75 мс

0.65 mAP

115 мс

0.77 mAP

179 мс

0.91 mAP

116 мс

Из приведенной таблицы можно заметить, что использование наивного обрезание кадра увеличивает точность, при этом не требует дополнительной предобработки изображения сегментационной нейронной сетью, однако при этом данный подход не дает возможности получить представление о положении игроков на поле без понимания о границах данного поля.

Предобработка же дает прирост в точности, снижение скорости обработки и возможность полученные детекции перенести на схематичное представление футбольного поля.

С полученными предсказаниями далее возможна различная постобработка, например для получения карты владения футбольным полем или представления движения игроков по полю. См. Рисунки 25-26.

Рисунки 25-26. Путь и зона присутствия игрока за время матча.

Заключение

В данной работе были рассмотрены и проанализированы различные области компьютерного зрения, такие как классификация, детекция и сегментация. Были выведены формулы функций ошибок разных архитектур сверточный нейронных сетей. Были проанализированы алгоритмы детекции и сегментации.

Была построена система детектирования футболистов на футбольном поле в видеопотоке, с использованием сегментационной нейронной сети для получения положения поля в кадре и дальнейшего представления футболистов на схеме футбольного поля.

В течении изучения данной области рассмотренный подход зарекомендовал себя как эффективный метод сбора представления контекста из видеопотока.

Список литературы

[1] Pytorch: Tensors and dynamic neural networks in python with strong GPU acceleration https://github.com/pytorch/pytorch.

[2] M. Bertini, A. Del Bimbo, and W. Nunziati. Player identification in soccer videos. In Proceedings of the 7th ACM SIGMM International Workshop on Multimedia Information Retrieval, страницы 25-32. ACM, 2005.

...

Подобные документы

  • Искусственные нейронные сети как одна из широко известных и используемых моделей машинного обучения. Знакомство с особенностями разработки системы распознавания изображений на основе аппарата искусственных нейронных сетей. Анализ типов машинного обучения.

    дипломная работа [1,8 M], добавлен 08.02.2017

  • Первое систематическое изучение искусственных нейронных сетей. Описание элементарного перцептрона. Программная реализация модели распознавания графических образов на основе перцептрона. Интерфейс программы, основные окна. Составление алгоритма приложения.

    реферат [100,5 K], добавлен 18.01.2014

  • Нейронные сети как средство анализа процесса продаж мобильных телефонов. Автоматизированные решения на основе технологии нейронных сетей. Разработка программы прогнозирования оптово-розничных продаж мобильных телефонов на основе нейронных сетей.

    дипломная работа [4,6 M], добавлен 22.09.2011

  • Анализ применения нейронных сетей для прогнозирования ситуации и принятия решений на фондовом рынке с помощью программного пакета моделирования нейронных сетей Trajan 3.0. Преобразование первичных данных, таблиц. Эргономическая оценка программы.

    дипломная работа [3,8 M], добавлен 27.06.2011

  • Способы применения технологий нейронных сетей в системах обнаружения вторжений. Экспертные системы обнаружения сетевых атак. Искусственные сети, генетические алгоритмы. Преимущества и недостатки систем обнаружения вторжений на основе нейронных сетей.

    контрольная работа [135,5 K], добавлен 30.11.2015

  • Модели нейронных сетей и их реализации. Последовательный и параллельный методы резолюции как средства логического вывода. Зависимость между логическим следованием и логическим выводом. Применение технологии CUDA и реализация параллельного алгоритма.

    дипломная работа [1,5 M], добавлен 22.09.2016

  • Задача анализа деловой активности, факторы, влияющие на принятие решений. Современные информационные технологии и нейронные сети: принципы их работы. Исследование применения нейронных сетей в задачах прогнозирования финансовых ситуаций и принятия решений.

    дипломная работа [955,3 K], добавлен 06.11.2011

  • Описание технологического процесса напуска бумаги. Конструкция бумагоделательной машины. Обоснование применения нейронных сетей в управлении формованием бумажного полотна. Математическая модель нейрона. Моделирование двух структур нейронных сетей.

    курсовая работа [1,5 M], добавлен 15.10.2012

  • Программное обеспечение для получения исходных данных для обучения нейронных сетей и классификации товаров с их помощью. Алгоритм метода обратного распространения ошибки. Методика классификации товаров: составление алгоритма, программная реализация.

    дипломная работа [2,2 M], добавлен 07.06.2012

  • Изучение методов разработки систем управления на основе аппарата нечеткой логики и нейронных сетей. Емкость с двумя клапанами с целью установки заданного уровня жидкости и построение нескольких типов регуляторов. Проведение сравнительного анализа.

    курсовая работа [322,5 K], добавлен 14.03.2009

  • Общие сведения о принципах построения нейронных сетей. Искусственные нейронные системы. Математическая модель нейрона. Классификация нейронных сетей. Правила обучения Хэбба, Розенблатта и Видроу-Хоффа. Алгоритм обратного распространения ошибки.

    дипломная работа [814,6 K], добавлен 29.09.2014

  • Рост активности в области теории и технической реализации искусственных нейронных сетей. Основные архитектуры нейронных сетей, их общие и функциональные свойства и наиболее распространенные алгоритмы обучения. Решение проблемы мертвых нейронов.

    реферат [347,6 K], добавлен 17.12.2011

  • Применение нейрокомпьютеров на российском финансовом рынке. Прогнозирование временных рядов на основе нейросетевых методов обработки. Определение курсов облигаций и акций предприятий. Применение нейронных сетей к задачам анализа биржевой деятельности.

    курсовая работа [527,2 K], добавлен 28.05.2009

  • Диагностический анализ изучения алгоритмов обучения нейронных сетей "с учителем". Сбор входных и выходных переменных для наблюдений и понятие пре/пост процессирования. Подготовка и обобщение многослойного персептрона, модель обратного распространения.

    курсовая работа [249,3 K], добавлен 22.06.2011

  • Простейшая сеть, состоящая из группы нейронов, образующих слой. Свойства нейрокомпьютеров (компьютеров на основе нейронных сетей), привлекательных с точки зрения их практического использования. Модели нейронных сетей. Персептрон и сеть Кохонена.

    реферат [162,9 K], добавлен 30.09.2013

  • Исследование эффективности применения нейронных сетей в рамках отношений между людьми. Принцип работы с нейросимулятором. Составление обучающей выборки и проектирование персептронов. Анализ выбора супружеской пары с использованием нейросетевых технологий.

    презентация [150,8 K], добавлен 19.08.2013

  • Понятие искусственного нейрона и искусственных нейронных сетей. Сущность процесса обучения нейронной сети и аппроксимации функции. Смысл алгоритма обучения с учителем. Построение и обучение нейронной сети для аппроксимации функции в среде Matlab.

    лабораторная работа [1,1 M], добавлен 05.10.2010

  • Способы применения нейронных сетей для решения различных математических и логических задач. Принципы архитектуры их построения и цели работы программных комплексов. Основные достоинства и недостатки каждой из них. Пример рекуррентной сети Элмана.

    курсовая работа [377,4 K], добавлен 26.02.2015

  • Понятие и свойства искусственных нейронных сетей, их функциональное сходство с человеческим мозгом, принцип их работы, области использования. Экспертная система и надежность нейронных сетей. Модель искусственного нейрона с активационной функцией.

    реферат [158,2 K], добавлен 16.03.2011

  • Особенности нейронных сетей как параллельных вычислительных структур, ассоциируемых с работой человеческого мозга. История искусственных нейронных сетей как универсального инструмента для решения широкого класса задач. Программное обеспечение их работы.

    презентация [582,1 K], добавлен 25.06.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.