Распознавание лиц
Создание алгоритма и программы для распознавания лица по фотографии c использованием библиотеки OpenCV методом искусственных нейронных сетей. Алгоритм бустинга для поиска лиц. Вычисление признаков и сравнение их совокупностей между собой разными методами.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 05.03.2019 |
Размер файла | 306,3 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Министерство образования и науки Российской Федерации
Федеральное государственное бюджетное образовательное учреждение
Высшего образования
ТОМСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ СИСТЕМ УПРАВЛЕНИЯ И РАДИОЭЛЕКТРОНИКИ (ТУСУР)
Кафедра электронных приборов (ЭП)
Пояснительная записка к курсовому проекту
по дисциплине «Основы оптоинформатики»
по направлению 12.03.03 «Фотоника и оптоинформатика»
профиль «Фотоника нелинейных, волноводных и периодических структур»
Уровень бакалавриат
РАСПОЗНАВАНИЕ ЛИЦ
Выполнил студент гр. 344 А.В. Марцева
Томск 2017
Реферат
Нейронные сети, алгоритм, изображение, распознавание лиц
Целью работы является разработка алгоритма и программы для распознавания лица по фотографии c использованием ИНС.
Работа выполнена с помощью:
1. Текстового редактора Microsoft Word 2013;
2. Интегрированной среды разработки ПО Delphi 7.
The abstract
Neural networks, algorithm, image, recognition of persons
The aim of the work is the development of an algorithm and a program for face recognition from a photograph using ANN.
The work was done with the help of:
1. The text editor Microsoft Word 2013;
2. The Delphi 7 Integrated Development Environment.
Оглавление
- Введение
- 1. Классификаторы нейронных сетей
- 1.1 Искусственные нейронные сети
- 1.2 Метод опорных векторов
- 1.3 Метод Виолы-Джонса
- 2. Выравнивание лица
- 3. Вычисление и сравнение признаков
- 3.1 Метод гибкого сравнения на графах (Elastic graph matching)
- 4 Нейронные сети
- 4.1 Скрытые Марковские модели (СММ, HMM)
- 4.2 Метод главных компонент или Principal Component Analysis (PCA)
- 4.3 Active Appearance Models (AAM) и Active Shape Models (ASM)
- 4.4 Локальный бинарный шаблон (ЛБШ, Local Binary Pattern, LBP)
- 5 Практическая часть
- 5.1 Реализация алгоритма
- 5.2 Описание финального алгоритма
- 5.3 Процесс исследования
- Заключение
- Список использованной литературы
- Приложение
- Листинг
- Введение
- В современном мире для идентификации человека используются биометрические методы. Биометрией называется совокупность способов и устройств для идентификации человека, которые основаны на его уникальных физиологических или поведенческих характеристиках.
- К биометрическим методам относятся:
- дактилоскопия;
· аутентификация по радужной оболочке;
· идентификация по сетчатке глаза;
· распознавание по лицу;
· распознавание по голосу;
· распознавание по рукописному почерку;
· распознавание по клавиатурному почерку;
· термографическое наблюдение лицевых артерий и вен;
· идентификация по венам руки и др.
В настоящее время наблюдается непреходящий интерес к проблеме распознавания лиц. Распознавание лиц можно условно поделить на 2 задачи: идентификация и верификация. Задача идентификации состоит в том, чтобы сравнить захваченное лицо со всеми изображениями лиц, хранящимися в базе данных. Цель верификации состоит в том, чтобы сравнить лицо человека с фотографии кандидата, с лицом на эталонной фотографии, хранящейся в базе данных. [1]
Задача распознавания лиц актуальна как в области интеллектуальных сред, так и в системах безопасности. Например, в этом году был запущен онлайн-сервис распознавания лиц по фотографиям в интернете на основе российской технологии, разработанной N-Tech.Lab. Google также опубликовал научную работу о новой системе искусственного интеллекта FaceNet, которая распознаёт лица людей с точностью 99,63% на стандартном наборе данных LFW. Система исследователей из Facebook показала результат около 97,5%. Среди продуктов с открытым исходным кодом можно выделить OpenCV. Это библиотека алгоритмов компьютерного зрения, обработки изображений и численных алгоритмов общего назначения. Может свободно использоваться в академических и коммерческих целях -- распространяется в условиях лицензии BSD.
Распознавание человека по изображению лица имеет ряд преимуществ по сравнению с другими методами идентификации человека:
· не требуется специальное или дорогостоящее оборудование;
· не нужен физический контакт с устройствами. Не надо ни к чему прикасаться или специально останавливаться и ждать срабатывания системы. В большинстве случаев достаточно просто пройти мимо или задержаться перед камерой на небольшое время.
К недостаткам распознавания человека по изображению лица следует отнести:
· сама по себе такая система не обеспечивает 100% надёжности идентификации. Там, где требуется высокая надёжность, применяют комбинирование нескольких биометрических методов;
· распознавание лица неэффективно тогда, когда значительные изменения, например, вследствие несчастного случая, делают невозможным даже человеческую визуализацию;
· кроме того, система может ошибаться из-за ряда других факторов: признаков старения, мимики, освещения и угла зрения. [2]
В настоящее время активно используются несколько десятков компьютерных методов распознавания лиц, вот некоторые из них:
· нейронные сети;
· метод главных компонент (собственных лиц);
· локальные бинарные шаблоны;
· метод эластичных графов;
· метод, основанный на скрытых марковских моделях;
· активные модели внешнего вида;
· активные модели формы.
В своей работе я рассматриваю распознавание лиц людей с использованием локальных бинарных шаблонов (Local Binary Patterns - LBP). Оператор LBP может быть использован для поиска объекта на изображении (например, лица), а также проверки этого объекта на принадлежность некоторому классу (верификация, распознавание эмоций, пола по лицу).
Целью курсовой работы является исследование алгоритмов распознавания лиц для последующего написания своей программы для распознавания лиц. Было принято решение разработки своего ПО именно потому, что на данный момент не существует бесплатных, демонстрирующих хороший процент распознавания, систем распознавания лиц.
Для достижения поставленной цели предусмотрено решение следующих задач:
· Исследовать имеющиеся некоммерческие продукты с открытым исходным кодом.
· Исследовать использующиеся в них алгоритмы.
· На основе этих алгоритмов написать своё собственное ПО.
· Объектом исследования курсовой работы являются алгоритмы для распознавания лиц.
· Предмет исследования - исследование алгоритмов для распознавания лиц с целью написания ПО для пропускной системы предприятия.
1. Классификаторы нейронных сетей
В качестве методов исследований использовалось статистическое моделирование, компьютерная обработка изображений и компьютерное зрение.
Стоит также отметить, что самая важная задача - это выделить сильные классификаторы, так как они будут являться наиболее приоритетными для проверки выявленных признаков на изображении. Количество более слабых классификаторов стоит уменьшать за счёт их похожести друг на друга, а также удаления классификаторов, которые возникли за счёт шумовых выбросов. [3]
Основные методики выполнения данных задач:
· Искусственные нейронные сети;
· Метод главных компонент;
· Метод факторного анализа;
· Линейный дискриминантный анализ;
· Метод опорных векторов;
· Наивный Байесовский классификатор;
· Скрытые Марковские модели;
· Метод распределения;
· Разреженная сеть окон;
· Активные модели;
· Метод Виолы-Джонса и др.
Рассмотрим особенности некоторых из них.
1.1 Искусственные нейронные сети
Сегодня метод искусственных нейронных сетей является самым распространенным способом для решения задач распознавания лиц. Искусственная нейронная сеть -- это математическая модель, которая представляет собой систему соединённых и взаимодействующих между собой нейронов. Нейронные сети не программируются в привычном смысле этого слова, они обучаются. Технически обучение заключается в нахождении коэффициентов связей (синапсов) между нейронами. [4]
1.2 Метод опорных векторов
Метод опорных векторов применяется для того, чтобы уменьшить размерность пространства признаков, не приводя при этом к существенной потере информативности обучающего набора объектов. Применение метода главных компонент к набору векторов линейного пространства, позволяет перейти к такому базису пространства, что дисперсия набора будет направлена вдоль нескольких первых осей базиса, которые называются главными осями. Натянутое на полученные таким образом главные оси подпространство является оптимальным среди всех пространств в том смысле, что наилучшим образом описывает обучающий набор. Это набор алгоритмов похожий на алгоритмы вида «обучение с учителем», которые используются для классификации и регрессионного анализа. Этот метод принадлежит к семейству линейных классификаторов. В основе метода опорных векторов лежит линейное разделение классов. [5]
1.3 Метод Виолы-Джонса
Сегодня самым перспективным в плане высокой производительности, малой частоты ложных срабатываний и высоким процентом верных обнаружений лиц является метод Виолы-Джонса.
Главные принципы, на которых основан метод:
· изображения используются в интегральном представлении, это позволяет быстро найти лицо;
· используются признаки Хаара, с помощью этих признаков происходит поиск лица и его черт;
· используется бустинг для выбора наиболее подходящих признаков для искомого объекта на изображении;
· используется классификатор, который даёт ответ: лицо/не лицо;
· используются каскады признаков Хаара для быстрого отбрасывания окон, где лицо не найдено.
Классификаторы обучаются очень медленно, но лица обнаруживаются очень быстро. Алгоритм демонстрирует хорошую работу, если искомый объект находится на изображении под небольшим углом, примерно до 30 градусов. При большем угле наклона процент обнаружений намного ниже. К сожалению, это не позволяет в стандартной реализации обнаруживать повернутое лицо человека под углом больше 30 градусов, что в значительной степени затрудняет или делает невозможным использование данного алгоритма в современных системах обнаружения лиц.
Задача обнаружения лица человека на цифровом изображении выглядит следующим образом. Имеется изображение, на котором есть лицо. Оно представлено двумерной матрицей пикселов, в которой каждый пиксель имеет значение от 0 до 255 включительно, если изображение является чёрно-белым, от 0 до 2553, если изображение цветное. Алгоритм должен определить лица и пометить их -- поиск осуществляется в активной области изображения прямоугольными признаками, с помощью которых и описывается найденное лицо. Проще говоря, используется подход на основе сканирующего окна. Изображение сканируется окном поиска, а затем к каждому положению применяется классификатор.
Для того, чтобы производить какие-либо действия с данными, используется интегральное представление изображений в методе Виолы-Джонса. Интегральное представление позволяет быстро рассчитать суммарную яркость произвольной прямоугольной области на изображении, причём какого бы размера данная область не была, время расчёта константно.
Интегральное представление изображения -- это матрица, совпадающая по размерам с исходным изображением. В каждом её элементе хранится сумма яркостей всех пикселей, которые находятся выше и левее данного элемента. В стандартном методе Виолы-Джонса используются прямоугольные признаки, которые называются Хаароподобными вейвлетами. Для их вычисления используется понятие интегрального изображения, которое было рассмотрено выше. Признаки Хаара дают точечное значение перепада яркости по оси X и Y соответственно. [6]
Алгоритм сканирования окна с признаками выглядит следующим образом. Имеется исследуемое изображение, окно сканирования и используемые признаки выбраны. Затем окно сканирования начинает последовательно передвигаться по изображению с шагом в 1 ячейку окна. Сканирование производится последовательно для разных масштабов, причём масштабируется не само изображение, а сканирующее окно. Все найденные признаки попадают к классификатору, который решает - найдено лицо или нет.
Вычислять все признаки на персональных маломощных компьютерах просто нереально. Поэтому классификатор должен реагировать только на нужное подмножество признаков. Следовательно, классификатор нужно научить нахождению лиц по определённому подмножеству. Это можно сделать, обучая вычислительную машину автоматически.
В контексте алгоритма, имеется множество изображений, разделённых на классы. Задано несколько изображений, для которых известно, к какому классу они относятся, например, класс «фронтальное положение носа». Эти несколько изображений - обучающая выборка. Классовая принадлежность остальных изображений не известна. Требуется построить алгоритм, способный классифицировать произвольный объект из исходного множества. Для решения этой проблемы существует технология бустинга. Бустинг - это комплекс методов, которые способствуют повышению точности аналитических моделей. Модель, которая допускает небольшое количество ошибок классификации, называется «сильной». «Слабая» же не позволяет надёжно классифицировать и делает в работе много ошибок. [7]
Алгоритм бустинга для поиска лиц:
· Определение слабых классификаторов по прямоугольным признакам;
· Для каждого перемещения сканирующего окна вычисляется прямоугольный признак на каждом примере;
· Выбирается самый подходящий порог для каждого признака;
· Отбираются лучшие признаки и лучший порог;
· Перевзвешивается выборка.
Каскадная модель сильных классификаторов -- это дерево принятия решений, в котором каждый узел построен таким образом, чтобы обнаруживать все интересующие образы и отклонять регионы, которые не являются образами. Узлы дерева размещены таким образом, что чем узел ближе к корню дерева, тем из меньшего количества примитивов он состоит и, следовательно, требует меньше времени на принятие решения. Этот вид каскадной модели идеально подходит для обработки изображений, на которых количество детектируемых образов не велико. В данном случае метод может быстрее решить, что данный регион не содержит образ, и перейти к следующему.
В том случае, если на вход системе подаётся цветное изображение, то можно в значительной мере увеличить скорость работы алгоритма, если предварительно обработать изображение при помощи цветового кодирования. Цветовое кодирование также помогает сократить число ложных срабатываний.
Сегодня алгоритм Виолы-Джонса является самым популярным благодаря высокой точности срабатывания и высокой скорости работы. [8]
2. Выравнивание лица
После того, как лицо будет найдено на изображении (будут получены координаты верхнего левого угла, длина и ширина прямоугольника с лицом), необходимо подвергнуть изображения предобработке. С целью снижения уровня шума можно использовать разнообразные фильтры (медианный, гауссовский и пр.). Кроме того, необходимо провести процедуру нормализации изображения, т.е. кадрировать, масштабировать и довернуть до горизонтального положения линии, соединяющей центры глаз.
Хотя в данной работе теоретическому материалу о предобработке уделено мало внимания, следует отметить, что качество работы системы существенным образом зависит от предобработки входных изображений. В ходе выполнения работы было отмечено, что отсутствие этапа фильтрации приводит к снижению вероятности правильной верификации. [9]
3. Вычисление и сравнение признаков
Заключительным этапом является вычисление признаков и сравнение их совокупностей между собой. Ниже представлено описание самых популярных алгоритмов. [10]
3.1 Метод гибкого сравнения на графах (Elastic graph matching)
Суть метода состоит в том, чтобы сопоставить эластичные графы, описывающие изображения лиц. Лица представляются в виде графов со взвешенными ребрами и вершинами. На этапе распознавания эталонный граф остаётся неизменным, а другой подвергается деформации с целью наилучшей подгонки к эталонному. В системах распознавания, основанных на данном методе, графы могут представлять собой прямоугольную решетку или структуру, образованную антропометрическими точками лица.
В вершинах графа вычисляются значения признаков, обычно с помощью комплексных значений фильтров Габора или с помощью Габоровских вейвлет, которые вычисляются в определённой локальной области вершины графа посредством свертки значений яркости пикселов с Габоровскими фильрами.
Ребра графа взвешиваются расстояниями между смежными вершинами. Расстояние между двумя графами вычисляется с помощью некоторой ценовой функции деформации, которая учитывает различие между значениями признаков, вычисленными в вершинах, и степень деформации ребер графа.
Граф деформируется путем смещения каждой его вершины на некоторое расстояние в определённых направлениях относительно её исходного положения и выбора позиции вершины, при которой различие между значениями признаков в вершинах деформируемого графа и соответствующих вершинах эталонного графа будет минимальным. Данная операция выполняется для каждой из вершин графа до тех пор, пока не будет достигнуто наименьшее суммарное различие между признаками эталонного и деформируемого графов. Значение ценовой функции деформации при таком положении деформируемого графа - это мера различия между эталонным графом и входным изображением лица. Эта процедура деформации должна выполняться для всех эталонных лиц, которые имеются в базе данных системы. В результате работы данной системы распознавания мы получим эталон с наилучшим значением ценовой функции деформации. [11]
В некоторых источниках указывается 95-97%-ная эффективность распознавания даже при различной мимике на фотографиях и повороте лица до 15 градусов. Однако разработчики подобных систем заявляют о том, что для работы системы требуются большие вычислительные мощности.
4. Нейронные сети
В наши дни существует около десятка разновидностей нейронных сетей. Самой популярной разновидностью являться сеть, в основе которой лежит многослойный перцептрон. Она позволяет классифицировать входное изображение в соответствии с предварительным её обучением.
Нейронные сети обучаются на наборе обучающих примеров. Суть обучения сводится к тому, чтобы настроить веса межнейронных связей в процессе решения задачи оптимизации с использованием метода градиентного спуска. В процессе обучения нейронной сети происходит автоматическое извлечение, определение важности и построение взаимосвязей между ключевыми признаками. Предполагается, что обученная нейронная сеть сможет применить полученный во время обучения опыт на неизвестные образы за счет способностей к обобщению. [12]
Самые лучшие результаты в распознавании лиц продемонстрировала Convolutional Neural Network или сверточная нейронная сеть, которая является логическим развитием архитектур когнитрона и неокогнитрона. [13,14] Успех был достигнут за счёт учета двумерности изображения, в отличие от многослойного перцептрона.
Сверточную нейронная сеть отличают от других локальные рецепторные поля, которые обеспечивают двумерную связность нейронов, общие веса, которые обеспечивают обнаружение некоторых черт в любом месте изображения, и иерархическая организация с так называемым пространственным сэмплингом. Благодаря данным нововведениям свёрточная нейронная сеть обеспечивает некоторую устойчивость к масштабированию, смене ракурса, поворотам, смещению и некоторым другим искажениям.
Тестирование данной нейронной сети на базе данных ORL (содержит изображения лиц с небольшими изменениями масштаба, освещения, пространственными поворотами, эмоциями) показало 96%-ную точность распознавания.
Свёрточные нейронные сети стали популярными благодаря разработке DeepFace, которую позднее приобрёл Facebook. Информация об особенностях архитектуры не разглашается.
Недостатком нейронных сетей в первую очередь является их скорость обучения. Например, добавление нового эталонного лица в БД потребует полного переобучения сети на всем наборе. Данная процедура, в зависимости от объёма выборки, может занять от 1 часа вплоть до нескольких дней. Также существует несколько проблем математического характера, которые связаны с обучением. Например, выбор оптимального шага оптимизации, попадание в локальный оптимум, переобучение, трудно формализуемый этап выбора архитектуры сети (характер связей, количество слоев, нейронов) и т.д. Принимая во внимание все вышесказанное, можно заключить, что нейронная сеть - это «черный ящик» результатами работы, трудными в интерпретации. [15]
4.1 Скрытые Марковские модели (СММ, HMM)
СММ используют статистические свойства сигналов и учитывают их пространственные характеристики. Элементы модели: начальная вероятность состояний, множество наблюдаемых состояний, множество скрытых состояний, матрица переходных вероятностей. Каждому элементу соответствует своя Марковская модель. Во время распознавания объекта проверяются сгенерированные Марковские модели и ищется наибольшая из наблюдаемых вероятность того, что последовательность наблюдений для объекта сгенерирована соответствующей моделью. [16]
По состоянию на сегодня не существует коммерческого продукта с использованием НММ для распознавания лиц.
4.2 Метод главных компонент или Principal Component Analysis (PCA)
Первоначально PCA начал использоваться в статистике в целях снижения пространства признаков без значимой потери информации. В задаче распознавания лиц его используют главным образом для того, чтобы представить лицо как вектор малой размерности, который затем сравнивается с эталонными векторами из базы.
Главной целью РСА является значительное уменьшение размерности пространства признаков так, чтобы оно как можно лучше описывало «типичные» образы, принадлежащие множеству лиц. Используя этот метод можно обнаружить различную изменчивость в обучающей выборке и описать эту изменчивость в базисе нескольких ортогональных векторов (собственных векторов или Eigenface).
Набор собственных векторов, который был получен один раз на обучающей выборке, используется для кодирования остальных изображений лиц, которые можно представить взвешенной комбинацией собственных векторов. При использовании ограниченного количества собственных векторов можно получить сжатую аппроксимацию входному изображению лица, которую впоследствии можно хранить в БД, как вектор коэффициентов, который служит одновременно ключом поиска в БД. [17]
Суть РСА сводится к следующему. Сначала весь обучающий набор лиц преобразуется в общую матрицу данных, где каждая строка - это один экземпляр изображения лица. Все лица обучающего набора должны быть одной размерности и желательно с нормированной гистограммой.
Следующий шаг - это нормировка данных и приведение строк к 0-му среднему и 1-й дисперсии, затем вычисляется ковариационная матрица. Для полученной матрицы определяются собственные значения и соответствующие им собственные вектора, они же собственные лица. Затем производится сортировка собственных лиц в порядке убывания собственных значений и оставляются только первые k векторов.
РСА хорошо зарекомендовал себя в приложениях. Однако, тогда, когда на изображении лица имеются значительные изменения в выражении лица или освещённости, эффективность метода значительно падает. Это происходит из-за того, что метод главных компонент выбирает подпространство с целью максимальной аппроксимации входного набора данных, а не с целью выполнения дискриминации между классами лиц.
Для решения этой проблемы было предложено решение с использованием линейного дискриминанта Фишера (Fisherface).
Были проведены эксперименты в условиях сильного нижнего и бокового затенения изображений лиц, в которых Fisherface показал 95%-ную эффективность по сравнению с 53%-ной у Eigenface.
4.3 Active Appearance Models (AAM) и Active Shape Models (ASM)
Активные модели внешнего вида -- это статистические модели изображений, которые с помощью разных деформаций могут быть подогнаны под реальное изображение. Этот тип моделей в двумерном варианте предложил Тим Кутс и Крис Тейлор в 1998 году. Изначально ААМ применялись для того, чтобы оценить параметры изображений лиц.
ААМ содержит два типа параметров: параметры формы и параметры внешнего вида. Перед использованием модель обучают на множестве заранее размеченных изображений (размечают вручную). Каждая метка имеет свой номер и определяет характерную точку, которую модель находит во время адаптации к новому изображению. [18]
Процедура обучения активных моделей внешнего вида начинается с нормализации форм на размеченных изображениях для того, чтобы компенсировать различия в наклоне, смещении и масштабе. Для этих целей применяется Прокрустов анализ.
Активные модели внешнего вида состоят из набора параметров, одни из которых представляют форму лица, а другие задают его текстуру. При решении задачи обнаружения лица на фотографии выполняется поиск параметров, таких как форма, текстура и расположение, которые представляют синтезируемое изображение, наиболее близкое к наблюдаемому. По степени близости активных моделей внешнего вида подгоняемому изображению принимается решение о наличии либо отсутствии лица.
Суть метода Active Shape Models заключается в учете статистических связей между расположением антропометрических точек. На каждом изображении из обучающей выборки эксперт размечает расположение антропометрических точек. На каждом изображении точки нумеруются в одинаковом порядке.
Для того, чтобы привести координаты на всех изображениях к единой системе, обычно выполняется прокрустов анализ. В результате данного анализа все точки на изображении приводятся к одному масштабу и центрируются. Затем для всего набора образов высчитывается матрица ковариации и средняя форма. На основе ковариационной матрицы вычисляются собственные вектора, которые сортируются в порядке убывания соответствующих им собственных значений.
Локализации Active Shape модели на новом изображении, не входящем в обучающую выборку, осуществляется в процессе решения оптимизационной задачи.
Всё же основной целью AAM и ASM является не распознавание лиц, а локализация лица и антропометрических точек на фотографии для дальнейшей обработки. [19]
4.4 Локальный бинарный шаблон (ЛБШ, Local Binary Pattern, LBP)
LBP - это определенный вид признака, который используется для классификации или верификации в компьютерном зрении и представляет собой простой оператор. ЛБШ в первый раз были предложены в 1996 году для анализа текстуры полутоновых изображений. При этом дальнейшие исследования показали, что локальные бинарные шаблоны индифферентны к небольшим поворотам изображения и изменениям в условиях освещения.
Local Binary Pattern - это описание окрестности пикселя изображения в бинарном представлении. Базовый оператор LBP, применяемый к пикселю на изображении, использует восемь пикселей окрестности. Пиксели, значение интенсивности которых больше или равно значению интенсивности центрального пикселя, принимают значение - 1, остальные принимают значение - 0. Таким образом, результат применения базового оператора LBP к пикселю изображения - восьмиразрядный двоичный код, описывающий окрестность данного пикселя. [20]
Использование круговой окрестности и билинейной интерполяции значений интенсивностей пикселей позволяет построить ЛБШ с произвольным радиусом и количеством точек.
Некоторые двоичные коды несут в себе больше информации, чем другие. ЛБШ называется равномерным, если он содержит три или менее серий «0» и «1» (например, 00000000, 001110000 и 11100001). Равномерные локальные бинарные шаблоны определяют только важные локальные особенности изображения, например, пятна, концы линий, углы и грани. А также ЛБШ существенно экономят память.
Применяя оператор LBP к каждому пикселю, можно построить гистограмму, в которой каждому равномерному коду LBP соответствует отдельный столбец. Вдобавок к этим столбцам есть ещё один столбец, содержащий информацию обо всех неравномерных шаблонах.
Изображения лиц можно рассматривать как набор всевозможных локальных особенностей, хорошо описываемых с помощью ЛБШ. Однако гистограмма, которая была построена для всего изображения в целом, кодирует лишь наличие тех или иных локальных особенностей, но при этом не имеет абсолютно никакой информации об расположении этих особенностей на изображении. Для того, чтобы учесть такого рода информацию, изображение разбивается на прямоугольные подобласти, для каждой из которых вычисляется своя гистограмма LBP. Затем эти гистограммы конкатенируются и получается общая гистограмма, которая учитывает локальные и глобальные особенности изображения. [21]
При данном подходе для достижения лучших результатов можно изменять параметры оператора LBP и число разбиений изображения на прямоугольные подобласти.
5. Практическая часть
5.1 Реализация алгоритма
Для написания приложения был изучен рынок бесплатных продуктов с открытым исходным кодом. Наиболее оптимальным решением стало использование библиотеки OpenCV, ввиду её активной поддержки разработчиками и широких возможностей по обработке изображений. Финальная версия приложения состоит из модуля для сбора статистики и из модуля распознавания.
Модуль распознавания написан на C++ с использованием библиотеки OpenCV. В его реализации использовалось:
· каскады Хаара для поиска лиц и глаз (носа);
· методы обработки изображений из библиотеки OpenCV;
· Локальные Бинарные Шаблоны для вычисления и сравнения признаков.
В качестве входных данных использовались аргументы командной строки (путь к первому изображению, путь ко второму изображению). На выходе мы получали некую дистанцию. Чем меньше эта дистанция, тем больше «похожесть» изображений. Для сборки проекта использовался cmake.
Модуль статистики написан на Java. На вход принимает 3 аргумента: путь к модулю распознавания, путь к выборке с фотографиями, путь к файлу для записи детализированной статистики. Данная программа запускает модуль распознавания, сравнивая каждую фотографию с каждой из тестовой выборки. В итоге мы получаем csv-файл с развёрнутой статистикой и общую статистику.
Строка в csv-файле имеет вид:
label1;label2;filename1;filename2;confidence,
где label1 и label2 - это условные группы людей (1 человек - 1 группа); filename1 и filename2 - пути сравниваемых файлов; confidence - дистанция, полученная в результате сравнения (рисунок 5.1).
Рисунок 5.1. Пример с тремя строками из файла с развёрнутой статистикой (открыт и форматирован в LibreOffice Calc)
В общей статистике есть 4 числа:
· средняя дистанция при сравнении «своих» фотографий;
· средняя дистанция при сравнении «чужих» фотографий;
· среднеквадратичное отклонение при сравнении «своих» фотографий;
· среднеквадратичное отклонение при сравнении «чужих» фотографий.
Под «своими» фотографиями понимаются фотографии одного и того же человека. Под «чужими» фотографиями - фотографии разных людей. [22]
5.2 Описание финального алгоритма
Финальную версию алгоритма работы модуля распознавания можно разделить на следующие части:
· Конвертация изображения из RGB-пространства в чёрно-белое.
· Выравнивание гистограммы чёрно-белого изображения.
· Обнаружение лица.
· Обнаружение пары глаз.
· Нахождение центра глаз и выравнивание их по горизонтальной линии.
· Кадрирование согласно коэффициентам.
· Применение медианного и Гауссовского фильтров.
· Извлечение и сравнение признаков с помощью ЛБШ.
Изображение конвертировалось в чёрно-белое в первую очередь для возможности использования ЛБШ (работает только с одноканальными изображениями). Выравнивание гистограммы применялось для выравнивания яркости и повышения контрастности изображения, что положительно сказалось на результатах распознавания. Обнаружение лица на изображении осуществлялось посредством использования каскадного классификатора Хаара, обученного на фронтальных лицах (готовое решение от OpenCV). Лиц на фотографии может быть больше одного, поэтому выбирается самое большое. Для поиска глаз также использовались каскады Хаара, но обученные на глазах (также готовое решение от OpenCV). Глаза искались не на всём изображении, а только в области лица. Но несмотря на это алгоритм всё равно ошибался и мог найти более 2 глаз на лице. В связи с этим было принято решение считать за глаза только самые большие 2 глаза.
За центр глаза было принято считать точку пересечения прямых, проходящих через середины параллельных сторон квадрата, возвращаемого в результате обнаружения глаза. Выравнивание по глазам производилось таким образом, чтобы прямая, проведённая через центры глаз, была параллельна оси абсцисс. В процессе исследования было выявлено, что неплохих результатов распознавания можно достичь, если кадрировать лицо так, как показано на рисунке 3.2. Для уменьшения уровня шума использовались медианный и Гауссовский фильтры со значением радиуса окна фильтрации равным 3 пикселям. Последним шагом в распознавании является применение локальных бинарных шаблонов. Хороших результатов удалось добиться с числом точек окрестности в шаблоне ЛБШ равным 8, радиусом равным 2 и с числом разбиений изображения: 6 Ч 6.
При тестировании использовалось 12 изображений (3 человека, 4 фотографии каждого) из набора «Aberdeen» библиотеки «Psychological Image Collection at Stirling (PICS)». На всех фотографиях изображены фронтальные лица; фотографии имеют разное освещение плюс небольшие отклонения в мимике и положении лиц; фотографии каждого отдельно взятого человека сделаны примерно в одно и то же время, вследствие чего у каждого отдельно взятого человека одна и та же причёска на всех фотографиях. Эту выборку можно назвать почти «идеальной». На этой выборке финальный вариант распознавателя показал 100% результат.
Рисунок 5.2. Параметры кадрирования лица на изображении
5.3 Процесс исследования
Процесс исследования представлял из себя итеративный набор экспериментов.
Каждый эксперимент состоял из 4 фаз:
· Размышление;
· Реализация;
· Запуск;
· Анализ результатов.
В первой фазе исследовался теоретический материал (чтение научных статей, описания алгоритмов), обдумывался, в результате чего позже рождалась какая-либо идея. Во второй фазе эта идея реализовывалась в коде. Затем производился поиск ошибок в коде посредством тестирования. По завершении тестирования запускалась программа сбора статистики. Программа сбора статистики запускала модуль распознавания для пар фотографий из тестовой выборки. Каждая фотография сравнивалась с каждой 1 раз, но не сама с собой. После этого общая статистика записывалась в отдельный Excel-файл, где каждая строка - это отдельный эксперимент. Имея несколько результатов экспериментов можно было выбрать лучший и исходя из этого выбирать дальнейшее направление для исследования. Чем меньше отношение среднего среди «своих» фотографий к среднему среди «чужих», тем лучше. Файл с подробной статистикой сортировался в порядке возрастания дистанции. Идеальным результатом считалось, если максимальная дистанция сравнения фотографий одного и того же человека меньше, чем минимальная дистанция сравнения фотографий разных людей (и чем больше разница, тем лучше). Содержимое этого файла, сгенерированного финальной версией программы, запущенной на тестовой выборке, содержится в приложении Б.
В ходе всего исследования было проведено более 20 исследований, из них 14 являлись наиболее значимыми и были задокументированы (приложение А). Последний эксперимент показал наилучшие результаты и был выбран финальным. Отношение средних с результатом округления составило 0.276; максимальная дистанция у «своих» фотографий составила 23.77425, а минимальная у «чужих» - 34.00935.
На основе результатов работы финальной версии была создана процентная метрика (график 5.1). В первую очередь это было сделано для сравнения с «эталонной» коммерческой системой распознавания, разработанной компанией VisionLabs, которая возвращает результат сравнения в виде процента уверенности. Для сравнения была использована новая расширенная выборка фотографий «MUCT». Оттуда были взяты фотографии 10 людей, 3 фотографии каждого. Стратегия сравнения такая же: «каждый с каждым» (таблица 5.1).
График 5.1 - Перевод дистанции в проценты
Таблица 5.1 - Результаты работы распознавателей на расширенной выборке
Свои |
Чужие |
||||
Среднее |
у |
Среднее |
у |
||
Собственная разработка |
79.897354% |
26.323261% |
9.564245% |
9.374744% |
|
VisionLabs |
99.0138% |
3.1629694% |
6.1211834% |
15.611576% |
Для выявления процента ошибочных определений было принято, что, если дистанция при сравнении 2 изображений больше, чем 28.8918 (среднее арифметическое от максимальной дистанции у «своих» фотографий - 23.77425 и минимальной у «чужих» - 34.00935), то на изображениях разные люди, если меньше или равна, то на изображениях один и тот же человек. Так как VisionLabs возвращает процент уверенности, где 100% - это точно один и тот же человек, 0% - точно разные, серединой было принято считать 50% (таблица 3.2). Использовалась расширенная выборка.
Таблица 3.2 - Количество ошибок при распознавании на расширенной выборке (435 сравнений)
False positive |
False negative |
Всего |
||
Собственная разработка |
6/435 |
4/435 |
10/435 (~2.3%) |
|
VisionLabs |
20/435 |
0/435 |
20/435 (~4.6%) |
Процент ошибок меньше у VisionLabs.
Заключение
В ходе исследования в качестве программной базы для разработки была выбрана библиотека OpenCV.
Во время проведения экспериментов было выявлено, что на точность распознавания сильно влияет качество предобработки изображения, а именно:
· выравнивание по уровню глаз;
· кадрирование;
· использование фильтров;
· выравнивание яркости и повышение контрастности.
Также было выяснено, что использование каскадного классификатора Хаара является хорошим способом для поиска лиц на изображении, но не лучшим способом для поиска глаз. Локальные бинарные шаблоны наиболее эффективны с числом точек окрестности - 8, радиусом - 2 и с числом разбиений изображения - 6 Ч 6. Но при не фронтальном положении лица на фотографии точность распознавания заметно падает. В итоге, после всех манипуляций, связанных с предобработкой фотографий, и подбором параметров для ЛБШ, точность распознавания на расширенной тестовой выборке оказалась выше, чем у коммерческого аналога.
Список использованной литературы
1) Bedre J.S. (2012). Comparative Study of Face Recognition Techniques: A Review / J.S. Bedre, S. Sapkal // Emerging Trends in Computer Science and Information Technology. Proceedings published in International Journal of Computer Applications (IJCA), pp. 12-15.
2) Beveridge J.R. (2011). When high-quality face images match poorly. Proceedings /J.R. Beveridge, P.J. Phillips, G.H. Givens, B.A. Draper, M.N. Teli, D.S. Bolme // In: IEEE, Ninth International Conference on Automatic Face and Gesture Recognition, pp. 572-578.
3) Park U. (2009). Face Recognition: face in video, age invariance, and facial marks. Michigan State University.
4) Vasin Yu.G. (1998). Invariant methods of binary image recognition / Yu.G. Vasin, L.I. Lebedev // Pattern Recognition and Image Analysis, V. 8, No. 2., P. 172.
5) Barkan O., Weill J., Wolf L., Aronowitz H. (2013). Fast high dimensional vector multiplication face recognition / O. Barkan, J. Weill, L. Wolf, H. Aronowitz // In: ICCV, pp. 1960-1967.
6) Viola P. Robust real-time face detection / P. Viola, M.J. Jones // International Journal of Computer Vision, 2004. - V. 57. - No. 2. - P. 137-154.
7) Голубев М.Н. Использование информации о цвете в алгоритме выделения лиц на базе бустинга / М.Н. Голубев // Нейроинформатика. - Москва, 2011. - Ч. 3. - С. 55-62.
8) Turk M.A. Face Recognition Using Eigenfaces / M.A. Turk, A.P. Pentland // In: Proc. IEEE, 1991. - P. 586-591.
9) Pandya J.M. (2013). A Survey of Face Recognition approach / J.M. Pandya, D. Rathod, J.J. Jadav // International Journal of Engineering Research and Applications (IJERA), Vol.3, Issue 1, p. 632, 2013.
10) Руденко О.Г. Основы теории искусственных нейронных сетей; уч. Пособие / О.Г. Руденко, Е.В. Бодянский - Харьков: ТЕЛЕТЕХ , 2002. - 317 с.
11) Уоссермен Ф. Нейрокомпьютерная техника. Теория и практика / Ф. Уоссермен. - М.: Мир, 1992. - 184 с.
12) Fukushima, K., Miyake S. (1982). Neocognitron: a new algorithm for pattern recognition tolerant of deformations and shifts in position. Pattern Recognition / K. Fukushima, S. Miyake // Vol. 15, No 6, pp. 455-469
13) Javed M. (2013). Performance Comparison of Various Face Detection Techniques / M. Javed, B. Gupta // International Journal of Scientific Research Engineering & Technology (IJSRET), Vol.2, No.1, pp. 19 - 27.
14) Gottumukkal, R. (2004). An Improved Face Recognition Technique Based on Modular PCA Approach / R. Gottumukkal, V.K. Asari // Pattern Recognition Letters, Vol.25, pp. 429 - 436.
15) Turk M. (1991). Eigenfaces for recognition / M. Turk, A. Pentland. // Cognitive Neuroscience, pp. 72 - 86, 1991.
16) Ahonen T., Hadid A., Pietikainen M., Maenpaa T. (2004). Face recognition based on the appearance of local regions / T. Ahonen, A. Hadid, M. Pietikainen, T. Maenpaa // In: Proc. IEEE: Proceedings of the 17th International Conference on Pattern Recognition, pp. 27 - 41.
17) Ahonen T., Hadid A., Pietikainen M. (2006). Face description with Local Binary Patterns: Application to Face Recognition / T. Ahonen, A. Hadid and M. Pietikainen // Machine Vision Group, University of Oulu, Finland, pp. 1-15.
18) Taigman Y. (2011). Leveraging billions of faces to overcome performance barriers in unconstrained face recognition / Y. Taigman, L. Wolf. // Computer Vision and Pattern Recognition, pp. 1-7.
19) Alakeel A.M. (2010). A Guide to Dynamic Load Balancing in Distributed Computer Systems / Ali M. Alakeel // International Journal of Computer Science and Network Security, Vol.10 No.6, pp. 153-160.
20) Zhao W., Chellappa R., Phillips P.J., Rosenfeld A. (2003). Face recognition: A literature survey / W. Zhao, R. Chellappa, P.J. Phillips, and A. Rosenfeld // ACM Computing Surveys (CSUR), Vol. 35, No. 4, pp. 399 - 458.
Приложение А
Таблица А.1 - Общая статистика экспериментов
Свои |
Чужие |
Отношение* |
||||
Среднее |
у |
Среднее |
у |
|||
Эксперимент 1 |
24.412867 |
8.865932 |
40.494236 |
10.066717 |
0.602873 |
|
Эксперимент 2 |
23.679071 |
8.847048 |
41.14884 |
9.27761 |
0.575449 |
|
Эксперимент 3 |
31.219543 |
7.8973794 |
60.17528 |
8.19984 |
0.51881 |
|
Эксперимент 4 |
31.806816 |
7.8281226 |
59.939724 |
8.882614 |
0.530647 |
|
Эксперимент 5 |
52.95416 |
36.936806 |
86.11484 |
28.615545 |
0.614925 |
|
Эксперимент 6 |
35.83384 |
11.417789 |
73.51707 |
12.095636 |
0.487422 |
|
Эксперимент 7 |
63.631996 |
52.24717 |
136.93749 |
58.7277 |
0.464679 |
|
Эксперимент 8 |
48.609398 |
33.39628 |
109.300026 |
38.113407 |
0.444734 |
|
Эксперимент 9 |
42.02643 |
29.43545 |
95.088932 |
50.04269 |
0.44197 |
|
Эксперимент 10 |
17.993512 |
5.1304098 |
45.593776 |
6.7266456 |
0.394648 |
|
Эксперимент 11 |
19.161852 |
6.0499115 |
45.35268 |
9.456951 |
0.422508 |
|
Эксперимент 12 |
21.343697 |
9.658336 |
58.285706 |
13.159464 |
0.366191 |
|
Эксперимент 13 |
14.063918 |
5.889904 |
47.32205 |
14.01314 |
0.297196 |
|
Эксперимент 14 |
13.641985 |
5.6808805 |
49.436707 |
15.187509 |
0.275948 |
* отношение среднего по своим к среднему по чужим (чем меньше, тем лучше).
equalizeHist() |
Масштабирование |
Выравнивание |
Кадрирование |
ЛБШ |
Обрезание фотографии после обнаружения лица |
Фильтры |
||
Эксперимент 1 |
нет |
нет |
нет |
нет |
1, 8, 8х8 |
да |
нет |
|
Эксперимент 2 |
да |
нет |
нет |
нет |
1, 8, 8х8 |
да |
нет |
|
Эксперимент 3 |
да |
200х200 |
нет |
нет |
1, 8, 8х8 |
да |
нет |
|
Эксперимент 4 |
нет |
200х200 |
нет |
нет |
1, 8, 8х8 |
да |
нет |
|
Эксперимент 5 |
да |
200х200 |
По носу |
нет |
1, 8, 8х8 |
да |
нет |
|
Эксперимент 6 |
да |
200х200 |
По глазам |
нет |
1, 8, 8х8 |
да |
нет |
|
Эксперимент 7 |
да |
200х200 |
По глазам |
0.55, 0.38 |
1, 8, 8х8 |
да |
нет |
|
Эксперимент 8 |
да |
200х200 |
По глазам |
0.55, 0.38 |
2, 8, 6х6 |
да |
нет |
|
Эксперимент 9 |
да |
нет |
По глазам (улучшенное) |
0.55, 0.38 |
2, 8, 6х6 |
да |
нет |
|
Эксперимент 10 |
да |
нет |
По глазам (улучшенное) |
0.55, 0.38 |
2, 8, 6х6 |
нет |
нет |
|
Эксперимент 11 |
да |
200х200 |
По глазам (улучшенное) |
0.55, 0.38 |
2, 8, 6х6 |
нет |
нет |
|
Эксперимент 12 |
да |
нет |
По глазам (улучшенное) |
0.55, 0.38 |
2, 8, 6х6 |
нет |
Медианный, Гауссовский |
|
Эксперимент 13 |
да |
нет |
По глазам (улучшенное) |
0.89, 1.08 |
2, 8, 6х6 |
нет |
||
Эксперимент 14 |
да |
нет |
По глазам (улучшенное) |
0.89, 1.08 |
2, 8, 6х6 |
нет |
Медианный, Гауссовский |
Описание названия колонок:
· equalizeHist() - вызов данного метода из библиотеки OpenCV перед обнаружением лица. Данный метод выравнивает яркость и нормализует контрастность изображения.
· Масштабирование - масштабирует вырезанное лицо до указанного разрешения.
· Выравнивание - выравнивает изображение. Используется 4 варианта:
· Нет выравнивания
· По носу (середина носа - середина изображения после предобработки)
· По глазам (выравнивание до горизонтального положения линии, соединяющей центры глаз)
· По глазам (улучшенное) (то же самое, что и по глазам, только с некоторыми улучшениями)
· Кадрирование - кадрирование изображения по коэффициентам. Коэффициент расстояния между центрами глаз - 1. Первое число - это коэффициент расстояния от левого края изображения до центра глаза, который слева. Второе число - это коэффициент расстояния от верхнего края изображения до горизонтальной линии, соединяющей центры глаз.
· ЛБШ - параметры для ЛБШ. Первое число - радиус, второе - количество точек окрестности, третье - число разбиений изображения.
· Обрезание фотографии после обнаружения лица. «да» - фотография обрезается сразу после обнаружения лица, «нет» - фотография обрезается только после выравнивания и кадрирования.
· Фильтры - использование фильтров для уменьшения шумов после выравнивания и кадрирования изображения.
фотография лицо нейронный сеть
Приложение Б
Таблица Б.1 - Подробная статистика финального эксперимента, отсортированная в порядке возрастания дистанции
3 |
3 |
/home/mihail/diploma/aberdeen_shortened/3/alister2.jpg |
/home/mihail/diploma/aberdeen_shortened/3/alister1.jpg |
5.9136295 |
|
1 |
1 |
/home/mihail/diploma/aberdeen_shortened/1/adrian2.jpg |
/home/mihail/diploma/aberdeen_shortened/1/adrian1.jpg |
6.146455 |
|
3 |
3 |
/home/mihail/diploma/aberdeen_shortened/3/alister3.jpg |
/home/mihail/diploma/aberdeen_shortened/3/alister1.jpg |
7.275235 |
|
2 |
2 |
/home/mihail/diploma/aberdeen_shortened/2/alison2.jpg |
/home/mihail/diploma/aberdeen_shortened/2/alison1.jpg |
7.441855 |
|
3 |
3 |
/home/mihail/diploma/aberdeen_shortened/3/alister3.jpg |
/home/mihail/diploma/aberdeen_shortened/3/alister2.jpg |
8.99225 |
|
1 |
1 |
/home/mihail/diploma/aberdeen_shortened/1/adrian2.jpg |
/home/mihail/diploma/aberdeen_shortened/1/adrian3.jpg |
9.22398 |
|
2 |
2 |
/home/mihail/diploma/aberdeen_shortened/2/alison3.jpg |
/home/mihail/diploma/aberdeen_shortened/2/alison2.jpg |
9.956369 |
|
1 |
1 |
/home/mihail/diploma/aberdeen_shortened/1/adrian3.jpg |
/home/mihail/diploma/aberdeen_shortened/1/adrian1.jpg |
10.03125 |
|
2 |
2 |
/home/mihail/diploma/aberdeen_shortened/2/alison3.jpg |
/home/mihail/diploma/aberdeen_shortened/2/alison1.jpg |
10.66945 |
|
2 |
2 |
/home/mihail/diploma/aberdeen_shortened/2/alison4.jpg |
/home/mihail/diploma/aberdeen_shortened/2/alison3.jpg |
14.8844 |
|
1 |
1 |
/home/mihail/diploma/aberdeen_shortened/1/adrian3.jpg |
/home/mihail/diploma/aberdeen_shortened/1/adrian4.jpg |
15.2464 |
|
3 |
3 |
/home/mihail/diploma/aberdeen_shortened/3/alister3.jpg |
/home/mihail/diploma/aberdeen_shortened/3/alister4.jpg |
17.435001 |
|
1 |
1 |
/home/mihail/diploma/aberdeen_shortened/1/adrian2.jpg |
/home/mihail/diploma/aberdeen_shortened/1/adrian4.jpg |
18.8511 |
|
1 |
1 |
/home/mihail/diploma/aberdeen_shortened/1/adrian1.jpg |
/home/mihail/diploma/aberdeen_shortened/1/adrian4.jpg |
18.9893 |
|
2 |
2 |
/home/mihail/diploma/aberdeen_shortened/2/alison4.jpg |
/home/mihail/diploma/aberdeen_shortened/2/alison1.jpg |
19.153801 |
|
2 |
2 |
/home/mihail/diploma/aberdeen_shortened/2/alison4.jpg |
/home/mihail/diploma/aberdeen_shortened/2/alison2.jpg |
20.5807 |
|
3 |
3 |
/home/mihail/diploma/aberdeen_shortened/3/alister1.jpg |
/home/mihail/diploma/aberdeen_shortened/3/alister4.jpg |
20.9903 |
|
3 |
3 |
/home/mihail/diploma/aberdeen_shortened/3/alister2.jpg |
/home/mihail/diploma/aberdeen_shortened/3/alister4.jpg |
23.77425 |
|
2 |
1 |
/home/mihail/diploma/aberdeen_shortened/2/alison3.jpg |
/home/mihail/diploma/aberdeen_shortened/1/adrian3.jpg |
34.00935 |
|
2 |
1 |
/home/mihail/diploma/aberdeen_shortened/2/alison2.jpg |
/home/mihail/diploma/aberdeen_shortened/1/adrian1.jpg |
35.81765 |
|
2 |
1 |
/home/mihail/diploma/aberdeen_shortened/2/alison1.jpg |
/home/mihail/diploma/aberdeen_shortened/1/adrian1.jpg |
35.927803 |
|
1 |
3 |
/home/mihail/diploma/aberdeen_shortened/1/adrian4.jpg |
/home/mihail/diploma/aberdeen_shortened/3/alister4.jpg |
35.96275 |
|
2 |
1 |
/home/mihail/diploma/aberdeen_shortened/2/alison2.jpg |
/home/mihail/diploma/aberdeen_shortened/1/adrian3.jpg |
36.15985 |
|
2 |
1 |
/home/mihail/diploma/aberdeen_shortened/2/alison3.jpg |
/home/mihail/diploma/aberdeen_shortened/1/adrian1.jpg |
36.2037 |
|
2 |
1 |
/home/mihail/diploma/aberdeen_shortened/2/alison4.jpg |
/home/mihail/diploma/aberdeen_shortened/1/adrian4.jpg |
36.24445 |
|
1 |
3 |
/home/mihail/diploma/aberdeen_shortened/1/adrian1.jpg |
/home/mihail/diploma/aberdeen_shortened/3/alister1.jpg |
37.15775 |
|
2 |
1 |
/home/mihail/diploma/aberdeen_shortened/2/alison2.jpg |
/home/mihail/diploma/aberdeen_shortened/1/adrian2.jpg |
37.72155 |
|
2 |
1 |
/home/mihail/diploma/aberdeen_shortened/2/alison3.jpg |
/home/mihail/diploma/aberdeen_shortened/1/adrian2.jpg |
38.0915 |
|
2 |
1 |
/home/mihail/diploma/aberdeen_shortened/2/alison1.j... |
Подобные документы
Создание программного средства, осуществляющего распознавание зрительных образов на базе искусственных нейронных сетей. Методы, использующиеся для распознавания образов. Пандемониум Селфриджа. Персептрон Розенблатта. Правило формирования цепного кода.
дипломная работа [554,8 K], добавлен 06.04.2014Анализ существующих алгоритмов распознавания режимов работы газотурбинного двигателя. Метод группового учета аргументов, метод Байеса. Применение технологий системного моделирования на этапе проектирования интеллектуальной системы распознавания режимов.
курсовая работа [1,4 M], добавлен 11.04.2012Анализ нейронных сетей и выбор их разновидностей. Модель многослойного персептрона с обучением по методу обратного распространения ошибки. Проектирование библиотеки классов для реализации нейросети и тестовой программы, описание тестирующей программы.
курсовая работа [515,4 K], добавлен 19.06.2010Разработка алгоритма и программы для распознавания пола по фотографии с использованием искусственной нейронной сети. Создание алгоритмов: математического, работы с приложением, установки весов, реализации функции активации и обучения нейронной сети.
курсовая работа [1,0 M], добавлен 05.01.2013Обзор существующих алгоритмов для обнаружения лиц. Выравнивание лица с помощью разнообразных фильтров. Использование каскадного классификатора Хаара для поиска лиц на изображении. Распознавание лиц людей с использованием локальных бинарных шаблонов.
дипломная работа [332,4 K], добавлен 30.09.2016Первое систематическое изучение искусственных нейронных сетей. Описание элементарного перцептрона. Программная реализация модели распознавания графических образов на основе перцептрона. Интерфейс программы, основные окна. Составление алгоритма приложения.
реферат [100,5 K], добавлен 18.01.2014Принципы и система распознавание образов. Программное средство и пользовательский интерфейс. Теория нейронных сетей. Тривиальный алгоритм распознавания. Нейронные сети высокого порядка. Подготовка и нормализация данных. Самоорганизующиеся сети Кохонена.
курсовая работа [2,6 M], добавлен 29.04.2009Искусственные нейронные сети как одна из широко известных и используемых моделей машинного обучения. Знакомство с особенностями разработки системы распознавания изображений на основе аппарата искусственных нейронных сетей. Анализ типов машинного обучения.
дипломная работа [1,8 M], добавлен 08.02.2017Обзор задач, возникающих при разработке систем распознавания образов. Обучаемые классификаторы образов. Алгоритм персептрона и его модификации. Создание программы, предназначенной для классификации образов методом наименьшей среднеквадратической ошибки.
курсовая работа [645,2 K], добавлен 05.04.2015Обзор и анализ распространенных искусственных нейронных сетей. Функциональное назначение слоев сети, алгоритмы обучения. Описание функциональных возможностей разработанной программной системы. Анализ исследовательской эксплуатации и возможных применений.
дипломная работа [1,3 M], добавлен 19.05.2011Анализ основных аспектов технологии компьютерного зрения, необходимых для выполнения работы. Изучение характеристик библиотеки OpenCV, оценка актуальности работы по распознаванию жестов рук. Поэтапный отчет о работе над программным обеспечением.
курсовая работа [669,9 K], добавлен 20.05.2017Теоретические основы сверточных нейронных сетей. Исследование зависимости качества работы сети от изменения различных характеристик. Сравнение результатов работы сетей типа многослойный персептрон в определении пола и возраста человека по фотографии лица.
курсовая работа [2,5 M], добавлен 18.07.2014Понятие искусственного нейрона и искусственных нейронных сетей. Сущность процесса обучения нейронной сети и аппроксимации функции. Смысл алгоритма обучения с учителем. Построение и обучение нейронной сети для аппроксимации функции в среде Matlab.
лабораторная работа [1,1 M], добавлен 05.10.2010Разработка программной базы для исследований в области распознавания речи и поиска ключевых слов в ней. Расчет mel-фильтров. Скрытые марковские модели. Применение в алгоритме сверточного декодирования Витерби. Методы визуализации и обработки аудиоданных.
курсовая работа [1,1 M], добавлен 01.06.2015Метод главных компонент. Процесс распознавания. Ковариационная матрица, диагональная матрица собственных чисел. Использовании метрики Махаланобиса и Гауссовского распределения для оценки близости изображений. Входные вектора. Библиотека OpenCV.
статья [22,1 K], добавлен 29.09.2008Рост активности в области теории и технической реализации искусственных нейронных сетей. Основные архитектуры нейронных сетей, их общие и функциональные свойства и наиболее распространенные алгоритмы обучения. Решение проблемы мертвых нейронов.
реферат [347,6 K], добавлен 17.12.2011Методы распознавания образов (классификаторы): байесовский, линейный, метод потенциальных функций. Разработка программы распознавания человека по его фотографиям. Примеры работы классификаторов, экспериментальные результаты о точности работы методов.
курсовая работа [2,7 M], добавлен 15.08.2011Модели нейронных сетей и их реализации. Последовательный и параллельный методы резолюции как средства логического вывода. Зависимость между логическим следованием и логическим выводом. Применение технологии CUDA и реализация параллельного алгоритма.
дипломная работа [1,5 M], добавлен 22.09.2016Разработка алгоритма реализации на ЭВМ процесса поиска кратчайшего пути в графе методом Дейкстры. Программная реализация алгоритма поиска кратчайшего пути между двумя любыми вершинами графа. Проверка работоспособности программы на тестовых примерах.
реферат [929,8 K], добавлен 23.09.2013Методы предобработки изображений текстовых символов. Статистические распределения точек. Интегральные преобразования и структурный анализ. Реализация алгоритма распознавания букв. Анализ алгоритмов оптического распознавания символов. Сравнение с эталоном.
курсовая работа [2,1 M], добавлен 20.09.2014