Распознавание языка жестов на видео потоке

Рассмотрен алгоритм распознавания языка жестов на видео потоке. Подробно описан этап отслеживания движения на видео, локализация ладони и определения смены жестов. Реализация алгоритма на языке octave с использованием библиотек компьютерного зрения.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 15.01.2019
Размер файла 61,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Распознавание языка жестов на видео потоке

С.А. Землянская,

студент кафедры системного программирования СПбГУ, svetlana.zemlyanskaya@gmail.com

Статья посвящена разработанному алгоритму распознавания языка жестов на видео потоке. Подробно описан этап отслеживания движения на видео, локализация ладони и определения временных отрезков смены жестов. Приведён метод классификации на основе опорных векторов и множество признаков на которых производилась классификация жеста.

С развитием технологий размеры компьютеров, используемых в повседневной жизни, стремительно уменьшается, это приводит к необходимости разработки нового удобного способа ввода информации. Одним из наиболее заметных направлений развития области является ввод данных через визуальные системы с помощью жестов. Интерес к этому подходу связан, в первую очередь, с природным удобством использования такого интерфейса и богатством новых возможностей, которые он привносит.

На текущий момент существует множество разработок в данной области, тем не менее, нельзя считать эту тему полностью исчерпаной. Хорошие результаты достигнуты в направлениях, использующих дополнительные атрибуты при записи видео, такие как маркерные перчатки [1], дополнительные сенсоры -- несколько камер или кинект [2], позволяющие построить карту глубины и в дальнейшем работать с трехмерным изображением. Дополнительная информация повышает точность конечного результата, но увеличивает сложность ввода информации, чего хотелось избежать в текущем исследовании. Другой успешно применяемый подход -- использование цепей маркова при классификации жестов [3], даёт хорошие результаты на контрольном наборе из динамических жестов, каждый из которых представляет собой последовательный переход из одного состояния в другое. В работе в качестве итогового множества жестов были выбраны статические жесты, к которым такой подход не применим.

В ходе исследования был разработан алгоритм, позволяющий распознавать жесты на видеопотоке, снятом с одной веб камеры. Важным требованием было минимизировать ограничения на входное видео и записывающие устройства для увеличения простоты использования конечного приложения. Алгоритм был реализован на языке octave с использованием встроенных библиотек компьютерного зрения.

Постановка задачи. Целью данной работы было разработать и реализовать алгоритм, который получает на вход видеопоток, снятый с одной веб камеры, разбивает его на отдельные жесты, каждый из которых классифицирует в рамках выбранного подмножества из азбуки глухонемых. Видео может содержать разнородный фон, шумовое или повторяющееся движение на заднем плане. От требования, что бы в кадр попадала только рука было решено отказаться, в связи с тем, что оно значительно снижало удобство записи входных данных. Итоговым множеством классифицируемых жестов было выбрано подмножество латинской азбуки языка глухонемых состоящее из 6-ти букв.

Алгоритм. Входная информация - видео поток с одной вебкамеры. Видео может содержать разнородный фон и шумовые движения на заднем плане.

1. Предварительная обработка изображения

Каждый кадр переводится в бинарный и с помощью адаптивного алгоритма [4] вычитается фон. На полученой карте движения убирается шум и выделяются компоненты связности для каждой из которых считается вес.

2. Локализация ладони

Для каждой компоненты связности на кадре подсчитывается её вес до тех пор, пока значение не превысит пороговое. Считаем область наибольшей активности движения -- ладонью.

На последующих кадрах, в зависимости от того, является ли жест зафиксированным или происходит его смена, область ладони корректируется.

3. Разделение видео на жесты

В работе используется адаптивный метод вычитания фона и, как результат, резкие пики на графике постепенно затухают. Возрастание активности движения является началом смены жеста, а его затухание признак того, что жест устоялся и его можно классифицировать.

Рис. 1 Изменение веса наибольшей компоненты от времени

распознавание язык жест видео

4. Классификация жеста

В качестве признаков классификации была выбрана гистограмма направленых градиентов [5], размерность которой была уменьшена с посмощью метода главных компонент [6].

Жест классифицируется с помощью метода опорных векторов [7].

Алгоритм вычитания фона. Принцип, лежащий в основе алгоритмов вычитания фона, состоит в том, что определённый кадр или группа кадров выбирается за эталонный фон. Все последующие кадры сравниваются с ним и, если модуль разницы яркостей для пикселя превосходит порог, то пиксель считается передним планом, иначе -- фоном. В работе используется адаптивный метод основанный на смеси нормальных распределений [4].

Фоновое значение для каждого пикселя представлено в виде набора троек : веса пикселя, математического ожидания и дисперсии, вес -- представляет собой меру схожести между значением пикселя и фоном. В дальнейшем, будем называть такую тройку «процессом» пикселя. Такое представление позволяет алгоритму адаптироваться к зашумлённому фону. В текущей работе для каждого пикселя запоминается 5 его процессов, знаяения которых он принимает с течением времени.

На первом кадре видео происходит инициализация модели: [1, c, д2fix], где c -- яркость пикселя, д2fix -- выбранное начальное значение.

Для каждого последующего кадра, для каждого пикселя производится ряд шагов:

1. Измеряется различие между поступившим пикселем и его фоновыми значениями:

· Если различие меньше порога, то процесс объявляется текущим.

· Если больше, то инициализируется новый процесс и, в зависимости от количества уже созданых процессов, либо добавляется в конец набора, либо заменяется процесс с наименьшим весом. Новый процесс помечается как текущий.

2. Значения текущего процесса обновляются:

Для всех остальных процессов пикселя обновляется только вес:

где -- выбранные параметры алгоритма, влияющие на скорость адаптации.

3. Пиксель классифицируется как фоновый, если вес превышает выбранный порог и как принадлежащий переднему плану в противном случае.

Метод опорных векторов. Метод опорных векторов является алгоритмом обучения с учителем, т. е. предварительно определён рабор признаков для которых мы знаем предполагаемый результат классификации.

Классификация по этому методу происходит с помощью разделения точек различных классов гиперплоскостью [8],. Таких гиперплоскостей может быть много, поэтому в качестве меры качества выбранной задается «зазор» между классами. Если существует гиперплосость, разделяющая классы с максимальным зазором, то она называется оптимальной разделяющей гиперплоскостью, а соответствующий ей линейный классификатор называется оптимально разделяющим классификатором.

Cтроим разделяющую гиперплоскость, которая имеет вид:

w?x?b=0,

где w - перпендикуляр к разделяющей гиперплоскости.

Отдельно введём понятие «ошибка классификации» для каждого элемента - ei . Результат классификации, в таком случае, может принимать два значения: yi ? {?1, 1}.

Для нахождения максимально возможного зазора между классами при таком линейном разделении необходимо минимизировать следующую функцию:

.

Заключение

В результате проделанной работы, было написано приложение по распознаванию подмножество латинской азбуки жестов. На вход приложение получает видеопоток с одной вебкамеры, содержащий зашумлённое видео с неоднородным фоном. После обработки, видео разделяется на отдельные жесты, каждый и которых классифицируется в рамках выбранного множества жестов.

Для оценки классификации использовались три метрики: precision, recall и процент правильно классифицированных жестов:

Procent

Precision

Recall

89.44%

0.89142

0.96203

Работа выполнена при частичной финансовой поддержке РФФИ (грант № 13-07-00250-а).

Литература

1. Aran, Oya «Vision based sign language recognition: modeling and recognizing isolated signs with manual and non-manual components», 2008

2. Simon Lang «Sign Language Recognition with Kinect», 2011

3. Jцrg Zieren , Karl-friedrich Kraiss «Robust person-independent visual sign language recognition», 2005

4. Chris Stauffer , W. Eric L. Grimson «Learning Patterns of Activity Using Real-Time Tracking», 2000.

5. O. Ludwig, D. Delgado, V. Goncalves, and U. Nunes, 'Trainable «Classifier-Fusion Schemes: An Application To Pedestrian Detection», 2009

6. Karl Pearson «On Lines and Planes of Closest Fit to System of Points in Space», 1901

7. Вапник В.Н., Червоненко А.Я «Теория распознавания образов», 1974

8. Hsu, Chih-Wei; Chang, Chih-Chung; and Lin, Chih-Jen «A Prectical Guide to Support Vect Classification », 2003.

9. Воскресенский А. Л., Ильин С.Н., Zelezny «О распознавании жестов языка глухих », 2010.

10. Абакумов В.Г , Ломакина Е.Ю. «Автоматическое распознавание жестов в интеллектуальных системах », 2010.

11. Шапиро Л., Стокман Дж. С . «Компьютерное зрение », 2006.

12. Форсайт Д., Понс Ж. «Компьютерное зрение », 2004.

13. Tom M. Mitchell «Machine Learning », 1997.

14. Lemeshow, David W. Hosmer «Applied logistic regression », 2000.

15. A. Barr, Edvard A. Feigenbaum «The Handbook of Artifical Intelligence », 1990.

16. Gary Bradski, Adrian Kaehler «Learning OpenCV », 2008.

17. Simon Lang «Sign Language Recognition with Kinect», 2011

18. Navneet Dalal and Bill Triggs «Histograms of Oriented Gradients for Human Detection», 2004

Размещено на Allbest.ru

...

Подобные документы

  • Анализ основных аспектов технологии компьютерного зрения, необходимых для выполнения работы. Изучение характеристик библиотеки OpenCV, оценка актуальности работы по распознаванию жестов рук. Поэтапный отчет о работе над программным обеспечением.

    курсовая работа [669,9 K], добавлен 20.05.2017

  • Обзор рекламного ролика Vodafone "Bubbles". Слежение за точками и плоскостью в двухмерном трекинге. Трехмерный трекинг: захват движения и системы, основанные на принципе фотограмметрии. Методика создания ролика в условиях малобюджетной видео-студии.

    дипломная работа [8,6 M], добавлен 25.01.2012

  • Форматы и характеристики цифрового видео: частота кадра, экранное разрешение, глубина цвета, качество изображения. Типовый технологический процесс производства видеокомпонентов для мультимедиа продуктов с использованием программы miroVIDEO Capture.

    лекция [2,7 M], добавлен 30.04.2009

  • Основные понятия цифрового фото и видео. Достоинства и недостатки графических редакторов. Анализ школьных учебников по информатике по изучению работы с цифровым фото и видео. Анализ методических разработок. Планирование кружка "Компьютерная графика".

    курсовая работа [52,1 K], добавлен 16.07.2013

  • Порядок разработки информационной системы "Архив online-видео" для скачивания и добавления файлов, его структура и основные компоненты. Методика регистрации на сайте, просмотра, добавления и скачивания видео. Программирование администрирования сайта.

    курсовая работа [1,9 M], добавлен 04.06.2009

  • Создание титров с использованием видео-редактора Sony Vegas Pro 10.0 и графического редактора. Придание способности двигаться и видимости жизни объектам. Анимация в среде 3D Studio Max 2010. Воспроизведение визуализированной последовательности кадров.

    курсовая работа [2,0 M], добавлен 17.01.2013

  • Разработка программы на платформе Microsoft Vusial С#, реализующая ряд задач: реализация движения 3D-модели и освещения сцены, изменение вида камеры с третьего на первый и обратно при помощи клавиатуры, запись работы с моделью в видео файл фомата *.avi.

    курсовая работа [407,9 K], добавлен 07.07.2012

  • Общая характеристика видео-аудио конференции, основные сферы ее использования, режимы и способы проведения. Характеристика средств групповой обработки информации. Системы передачи данных в сети Интернет. Проведение аудио-видео конференции и криптозащита.

    дипломная работа [2,7 M], добавлен 17.07.2013

  • Понятие видео-лекции, возможности ее применения в учебно-педагогическом процессе. Положительные и отрицательные стороны самообучения. Содержание, методы, формы обучения компьютерной графике в рамках самообразования, путем использования интернет сообществ.

    курсовая работа [1,1 M], добавлен 13.12.2014

  • Сравнительный анализ функциональных возможностей десктопных видео редакторов. Функциональные возможности разрабатываемого Web-приложения. Процессы взаимодействия пользователя и системы. Выбор библиотек для обработки видео. Создание локального сервера.

    дипломная работа [1,3 M], добавлен 30.11.2016

  • Сущность и возможности языка программирования Visual Basic. Элементы управления и функции Windows API, используемые в проекте. Структуры и составные части приложения "Video2Bmp". Организация режимов работы программы: "Склейка кадров", "Создание видео".

    курсовая работа [1,0 M], добавлен 29.08.2013

  • Изучение Sony Vegas 9.0 - профессиональной программы для многодорожечной записи, редактирования и монтажа видео и аудио потоков. Инструменты редактирования, световые эффекты, переходы. Захват, импорт, экспорт видео и аудиотреков. Версия Vegas Pro.

    реферат [20,7 K], добавлен 01.05.2010

  • Представление видеоданных и способы сжатия видео. Применение двухмерного пространственного фильтра для сглаживания острых углов в предсказываемом блоке. Организация поиска по видеоданным. Непрерывное подмножество фреймов и ассоциативная карта сегментов.

    презентация [116,9 K], добавлен 11.10.2013

  • Анализ современного состояния плат оцифровки видео. Конструкция и виды видеобластеров, их установка и подключение, принцип действия и основные характеристики. Интерфейс платы видеозахвата. Примеры программного обеспечения для работы с видеобластерами.

    курсовая работа [3,2 M], добавлен 30.11.2011

  • Анализ функционирования программных систем для проведения видео и аудиоконференций. Голосовая связь (IP-телефония), сущность работы. Особенности Internet Relay Chat (IRC) - разговоров через Интернет. Преимущества использования программы ICQ (I Seek You).

    контрольная работа [713,7 K], добавлен 08.10.2010

  • Создание информационной мультимедиа системы (медиа-плеера) для презентации аудио-видео информации о факультете КТАС, представленной в специально отснятых и смонтированных avi-файлах. Разработка модуля пользовательского интерфейса, выходные данные.

    курсовая работа [41,5 K], добавлен 21.11.2014

  • Анализ программного обеспечения для работы с видео. Adobe After effects. Cinema 4D. Fusion. Nuke. Motion. Появление рекламы в Америке. Развитие видеорекламы. Разработка видеозаставки. Техническое задание заказчика. Цветовая схема. Анимация логотипа.

    дипломная работа [1,6 M], добавлен 03.05.2018

  • Методика и программы преобразования видеозаписи с аналогового носителя (ТВ-трансляция, видеокассета) или ненадёжного цифрового в набор файлов на жёстком диске компьютера. Проблемы, возникающие при построении домашней студии обработки видео, их решения.

    реферат [19,7 K], добавлен 27.02.2009

  • Изучение одной из ведущих программ для монтажа и обработки видео потока: "Virtual Dub". Установка, запуск и персональные настройки программы, описание поддерживаемых форматов. Основные функции, подключение фильтров. Сравнение с существующими аналогами.

    курсовая работа [3,5 M], добавлен 09.09.2010

  • Распространение DVD-дисков в современном мире. Физика работы привода и носители DVD. Характеристики и требования к существующим приводам. Запись и воспроизведение высококачественного видео и аудио в реальном времени. Безопасные приемы работы на ПК.

    дипломная работа [1,4 M], добавлен 26.06.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.