Розпізнавання моделі руки за допомогою засобів використання візуальної інформації

Особливість розпізнавання моделі руки за допомогою зображення відзнятого з однієї камери без додаткових датчиків глибини або далекомірів. Розгляд методу отримання моделі руки з картини середовища на основі багаторівневої згорткової нейронної мережі.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык украинский
Дата добавления 09.08.2021
Размер файла 478,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»

Розпізнавання моделі руки за допомогою засобів використання візуальної інформації

Любівий А.І. Магістер, Факультет інформатики та обчислюваної техніки,

Корнага Я.І. кандидат технічних наук, доцент кафедри технічної кібернетики

Анотація

У статті охарактеризовано проблему розпізнавання моделі руки за допомогою зображення відзнятого з однієї камери без додаткових датчиків глибини або далекомірів. Було зазначено основні властивості такої системи. Також було наголошено на важливості такої системи. Визначено властивості знаходження важливих ключових точок та частин руки на зображенні для створення прототипу образу руки. Розглянуто метод отримання моделі руки з картини середовища на основі багаторівневої згорткової нейронної мережі Convolutional Pose Machines (CPM), яка повертає heatmaps для кожної ключової точки руки, з якої потім можна визначити де знаходиться ця точка, й використовуючи ці точки, можна побудувати модель руки для подальшого розпізнавання жестів руки і поведінки руки. Також, було зазначено спосіб вирішення затухання градієнту для такої нейронної мережі.

Ключові слова: моделювання об'єктів, рука, реконструкція об'єкту, згорткові нейронні мережі.

Summary

RECOGNITION OF HAND MODEL BY USING TECHNOLOGY FOR VISUAL PROCESSING

Liubivyi A.I. Master of Department of Technical Cybernetics, National Technical University of Ukraine «Igor Sikirsky Kyiv Polytechnic Institute»

Kornaga Y.I. Candidate of Engineering Sciences, Associate Professor of the Department of Technical Cybernetics, National Technical University of Ukraine «Igor Sikirsky Kyiv Polytechnic Institute»

The article describes the problem of recognizing the model of the hand using the image taken from one camera without additional depth sensors or range finders. The main properties of such a system were noted. The importance of this system was also noted. The properties of finding important key points and parts of the hand on the picture for creating a prototype of the hand image are determined. The method of obtaining a model of a hand from a picture of the environment based on a multilevel convolutional neural network Convolutional Pose Machines (CPM) is considered. It returns confidence maps for each key point of the hand with which it can be determined where this point is located and by using these points it is possible to construct a model of the hand for further recognition of hand gestures and hand behavior. Also, a way of solving the gradient attenuation for this model problem was noted.

Keywords: object modeling, hand, object reconstruction, convolutional neural networks.

Постановка проблеми

Моделювання поведінки руки - задача, яка відіграє важливу роль, тому що руки самі по собі займають важливе місце у повсякденному житті: за допомогою їх ми взаємодіємо з навколишнім світом: ми використовуємо прилади, граємо на музикальних й інших інструментах, торкаємось речей, спілкуємось за допомогою жестів. Системи, які не можуть розпізнавати жести й поведінку руки, недостатньо взаємодіють з користувачами.

Аналіз останніх досліджень і публікацій

Існують два основних способи розпізнавання жестів й поведінки руки. Перший спосіб заснований на одяганні спеціальних електронних при- строїв(спеціальні рукавиці з датчиками), який в основному використовують в кіноіндустрії та добре працює, але є дорогим і не завжди придатний для використання в інших галузях.

Другий в основному використовує комп'ютерне бачення, яке передбачає обробку зображень за допомогою камер або інших датчиків.

За останній час якість вирішення задачі покращилась, пов'язано з новими сенсорами(Microsoft КіпесЦ але такі датчики не завжди працюють якісно в певному середовищі: під час загасання інфрачервоного проміння у воді, датчик Microsoft Kinect.

Крім цього існують способи обробки зображення з камери за допомогою засобів обробки візуальної інформації. Для цього використовують: гістограму орієнтації[1], приховану Марковську модель[2], фільтрування частинок[3], метод опорних векторів^УМ, support vector machine)[4] та інші[5][6].

Якість таких методів значно підвищилась через використання нових згорткових нейронних мереж та великої кількості нових досліджень щодо розпізнавання об'єктів. А також, через розвиток технологій та збільшення кількості даних.

Задачу розпізнавання руки визначають як задачу класифікації зображення, а саме: подається зображення або його частина на вхід нейронної мережі, й нейронна мережа визначає, що знаходиться на цьому зображенні: рука чи фон. Далі частина цього зображення, де знаходиться рука, подається на вхід іншої нейронної мережі, яка на виході отримує клас зображення, в нашому випадку - це конкретний жест руки.

Виділення невирішених раніше частин загальної проблеми й ціль статті

У даній роботі розглядається проблема розпізнавання образу руки, що знаходиться у навколишньому середовищі й може переміщуватись та взаємодіяти з ним. Такі об'єкти(руки) сприймаються навколишнім середовищем через систему обробки візуальної інформації. Розглянемо спосіб

Рис. 1. Ключові точки руки

Для детектування ключових точок використовують архітектуру Convolutional Pose Machines (CPM) [11]. CPM повертає heatmaps для кожної ключової точки. Heatmaps - це графічне представлення інформації, на якому вона виділена кольорами: холодні(не імовірні) й теплі(імовірні) ділянки положення ключових точок. За допомогою них знаходяться положення потрібних ключових то- чок[12].

CPM має неявне навчання залежностей між зображенням і виведенням зразу декількох ключових точок, тісна інтеграція між навчання й виведенням та модульний послідовний дизайн.

Диференційована архітектура, яка дозволяє проводити звичайне тренування за допомогою метода зворотного поширення помилки

CPM складаються з послідовності згорткових мереж, що неодноразово виробляють 2D heatmaps з місцезнаходженням ключової частини.

На кожному етапі CPM, отримується зображення та heatmaps, виготовлені на попередньому етапі, як вхідне. Heatmap забезпечують наступну стадію: уточнююче непараметричне кодування просторової невизначеності розташування для кожної частини, що дозволяє CPM навчитися залежностям між зображенням й взаємному розміщенні на ньому ключових точок. Замість того, щоб чітко аналізувати таку heatmap використовують графічні моделі [7, 8, 9] або спеціалізовані етапи після обробки [8, 10], навчаємо згорткові мережі, які безпосередньо працюють на проміжних heatmaps і нав- знаходження ключових точок та проведемо аналіз для побудови моделі руки(жесту).

Виклад основного матеріалу Вибір та прогнозування ключових точок Відзначимо скелетон руки, для вибору ключових точок руки використовують кінцівки пальців й суглоби, які зображенні на рисунку 1. Приклад ИеаШар наведено на рисунку 2.

Вивчають неявно знаходити залежності між зображенням просторової моделі й співвідношень між частинами.

Рис. 2. Приклад heatmap

На кожному етапі в CPM, просторовий контекст частини heatmap забезпечує сильні невідповідні сигнали на наступний етап. Як результат, кожен етап CPM створює heatmaps з більш виразними оцінками розташування кожної частини.

Позначимо розташування пікселів p-ї анатомічної точки, Yp є Z с R2 , де Z є множиною усіх (u,v) точок на картинці. Наша ціль це передбачити позиції Y = (Y1, ...YP) для кожної точки P. Так як, pose machine [11] складається з послідовності бага- токласових предикаторів, gt, що намагаються навчитися визначати позицію ключових точок на кожному рівні ієрархії. На кожному рівні ієрархії t є {1.7} , класифікатор gt намагається визначити позицію кожної ключової точки, Yp = z, V z є Z , основаному на обробці частини вхідної картинки, де знаходиться рука й інформації з попереднього рівня класифікатора. Тобто, перший рівень оброблює лише вхідну картинку, а усі інші вхідну картинку й результати попереднього рівня:

де bf (Yp = z) є оцінка прогнозована класифікатором gi для визначення p-ї ключовою точки на першому рівні отримуючи на вхід частину картинки, де знаходиться рука(1осайоп z). Відображаємо heatmaps для кожної частини картинки, де знаходиться рука г = (и, х>)т позиція на картинці , як є х к , де знаходиться рука. Де w й й є шириною й висотою картинки відповідно. Тобто: камера датчик нейронний мережа

Для зручності, позначимо набори Иеаїтарє для усіх частин, як є х к х(р+1) ( р частин плюс одна для фону).

На наступних рівня, класифікатор намагається визначити позицію, кожної ключової точки, кожної частини картинки де знаходиться рука, отримуючи на вхід частину картинки де знаходиться рука(1осаїіоп 2) , й результатів роботи попереднього рівня. Тобто:

heatmaps шляхом періодичного проміжного уточнення^].

Послідовна система прогнозування pose machine дає нам можливість забезпечити підхід до навчання таких багатошарових архітектур, що вирішує цю проблему. Кожен рівень pose machine тренується, щоб визначити heatmaps для кожної важливої точки відповідно. Ми намагаємось визначити функцію втрат на виході кожного етапу t, що мінімізує відстань l2 між прогнозованими та ідеальними heatmaps кожної ключової точки. Ідеальна heatmap для частини p, як bf- (Yp = z) , що створює гаусові піки на місцях істинного розташування кожної ключової точки p. Функція витрат, яку ми прагнемо мінімізувати на виході кожного етапу на кожному рівні, виглядатиме:

де ^і>1(. ) є heatmaps кожної ключової точки з попереднього рівня. Після роботи кожного наступного рівня, позиція кожної ключової точки все більш виражена на heatmap. Зауважимо, що частина картинки х' для кожного кроку різниться від частини картинки, яку ми використали на першому кроці.

Функція втрат й вирішення проблеми затухання градієнта

Створення кількох згорткових мереж у CPM призводить до загальної мережі з багатьма рівнями, що призводить до проблеми затухання градієнтів під час навчання. Ця проблема може виникнути, оскільки зворотні градієнти знижуються в силі, оскільки вони поширюються через багато шарів мережі. Контроль дуже глибоких мереж у проміжних шарах допомагає в навчанні, вони в основному були обмежені класифікаційними проблемами. Для структурованої проблеми прогнозування, такої як оцінка пози, CPM, природно, пропонує систематичну структуру, яка поповнює градієнти та спрямовує мережу до створення все більш точних

Використовуючи стандартний стохастичний градієнтний спуск для спільного тренування усіх рівнів мережі.

Виводи й пропозиції

Експеримент

Подали на вхід нейронної мережі картинку руки. На виході отримали 21 heatmaps з підсвіче- ними ключовими точками. На рисунку 3 вхідна картинка, та heatmaps, які підсвічують ключові точки на руці. Далі, дізнавшись ці точки, можна побудувати модель руки й визначити її жест. Наприклад, за допомогою іншої нейронної мережі або за допомогою математичного опису положення цих точок однієї відносно іншої.

Вхідне зображення

Показано, що використання Convolutional Pose Machine(CPM) для визначення heatmaps для знаходження точок руки з однієї монокамери є ба- гатообіцяючим напрямком для вирішення проблеми знаходження ключових точок руки, й подальшого їх використання для розпізнавання жестів та поведінки руки. Зокрема, вона дозволяє зменшити залежність від використання додаткових датчиків на руках(рукавиці з датчиками) або вимірюючих сенсорів(датчики глибини або далекомірів). Використання CPM дозволяє побудувати мережі різної глубини, через використання різної кількості рівнів, кожен з яких буду уточнювати положення ключових точок й також покращить тренування за допомогою поповнення градієнта кожного рівня, вирішивши проблему затухання для глибокої мережі такого типу для такої задачі.

Список літератури

1. W. T. Freeman and M. Roth, Orientation histograms for hand gesture recognition. International workshop on automatic face and gesture recognition. 1995, 12: 296-301.

2. T. Starner and A. Pentland, Real-time american sign language recognition from video using hidden markov models. Motion-Based Recognition. Springer Netherlands, 1997: 227-243.

3. L. Bretzner, I. Laptev and T. Lindeberg, Hand gesture recognition using multi-scale colour features, hierarchical models and particle filtering. Automatic Face and Gesture Recognition, 2002. Proceedings. Fifth IEEE International Conference on. IEEE, 2002: 423-428.

4. N. H. Dardas and N. D. Georganas, Real-time hand gesture detection and recognition using bag-of-features and support vector machine techniques. IEEE Transactions on Instrumentation and Measurement, 2011, 60(11): 3592-3607.

5. Y. Wu and T. S. HuangVision-based gesture recognition: A review. International Gesture Workshop. Springer Berlin Heidelberg, 1999: 103- 115.

6. S. Mitra and T. Acharya, Gesture recognition: A survey. IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), 2007, 37(3): 311-324.

7. L. Pishchulin, E. Insafutdinov, S. Tang, B. Andres, M. Andriluka, P. Gehler, and B. Schiele. Deepcut: Joint subset partition and labeling for multi person pose estimation. arXiv preprint arXiv:1511.06645, 2015

8. J. Tompson, R. Goroshin, A. Jain, Y. LeCun, and C. Bregler. Efficient object localization using convolutional networks. In CVPR, 2015. [39] J. Tompson, A. Jain, Y. LeCun, and C. Bregler. Joint training of a convolutional network and a graphical model for human pose estimation. In NIPS, 2014.

9. J. Tompson, A. Jain, Y. LeCun, and C. Bregler. Joint training of a convolutional network and a graphical model for human pose estimation. In NIPS, 2014.

A. Toshev and C. Szegedy. DeepPose: Human pose estimation via deep neural networks. In CVPR, 2013.

10. V. Ramakrishna, D. Munoz, M. Hebert, J. Bagnell, and Y. Sheikh. Pose Machines: Articulated Pose Estimation via Inference Machines. In ECCV, 2014.

11. Shih-En Wei, Varun Ramakrishna, Takeo Kanade, Yaser Sheikhn: Convolutional Pose Machines arXiv preprint arXiv: 1602.00134, 2016

Размещено на Allbest.ru

...

Подобные документы

  • Специфіка застосування нейронних мереж. Огляд програмних засобів, що використовують нейронні мережі. Побудова загальної моделі згорткової нейронної мережі. Реалізація нейромережного модулю розпізнавання символів на прикладі номерних знаків автомобілів.

    дипломная работа [3,4 M], добавлен 15.03.2022

  • Навчання штучних нейронних мереж, особливості їх використання для вирішення практичних завдань. Рецепторна структура сприйняття інформації. Перцептрон як модель розпізнавання. Задача моделювання штучної нейронної мережі з розпаралелюванням процесів.

    дипломная работа [2,8 M], добавлен 24.07.2013

  • Ознайомлення із загальною структурою системи автоматичного розпізнавання мовлення. Визначення особливостей нейронних мереж. Дослідження та характеристика процесу побудови системи розпізнавання мовлення. Вивчення специфіки прихованої моделі Маркова.

    дипломная работа [1,1 M], добавлен 25.07.2022

  • Формалізація моделі виробничої діяльності підприємства. Рішення за допомогою Excel. Алгоритм розрахунку моделі. Побудова моделі рішення за допомогою "С++". Знаходження оптимальної програми функціонування підприємства. Розробка коду програми.

    контрольная работа [720,1 K], добавлен 12.06.2015

  • Історія досліджень, пов’язаних з розпізнаванням образів, його практичне використання. Методи розпізнавання образів: метод перебору, глибокий аналіз характеристик образу, використання штучних нейронних мереж. Характерні риси й типи завдань розпізнавання.

    реферат [61,7 K], добавлен 23.12.2013

  • Комп’ютерне моделювання системи сегментації та розпізнавання облич на зображеннях. Підвищення швидкодії моделювання за кольором шкіри та покращення якості розпізнавання при застосуванні робастних boosting-методів. Розробка алгоритмів функціонування.

    дипломная работа [1,6 M], добавлен 02.07.2014

  • Огляд методів розпізнавання образів. Основні ідеї інформаційно-екстремального методу розпізнавання рукописних символів. Критерій оптимізації параметрів функціонування даної системи. Інформаційне та програмне забезпечення обробки рукописних символів.

    дипломная работа [291,0 K], добавлен 14.10.2010

  • Сегментація і нормалізація зображень. Основні функціональні можливості та режими роботи комплексу розпізнавання письмового тексту. Розробка комплексу оптичного розпізнавання символів. Шрифтові та безшрифтові алгоритми розпізнавання друкованого тексту.

    курсовая работа [1,7 M], добавлен 19.05.2014

  • Реалізація механізму роботи пекарні за допомогою засобів UML, а саме використання програмного продукту Rational Rose (об’єктно-орієнтованого засобу проектування). Проект автоматизованої моделі цього виробництва за допомогою AllFusion Process Modeler.

    курсовая работа [189,1 K], добавлен 28.04.2011

  • Модель – це прообраз, опис або зображення якогось об'єкту. Класифікація моделей за способом зображення. Математична модель. Інформаційна модель. Комп'ютерна модель. Етапи створення комп'ютерної моделі.

    доклад [11,7 K], добавлен 25.09.2007

  • Методи рішень диференційних рівнянь за допомогою мов програмування і їх графічні можливості. Аналіз динамічних та частотних властивостей електронної системи за допомогою чисельної моделі. Представлення цифрової моделі та блок-схеми алгоритму обчислень.

    практическая работа [430,6 K], добавлен 27.05.2015

  • Характеристика інструментів MatLab - пакету прикладних програм для числового аналізу. Основні функції та можливості програмного комплексу. Скриптова мова програмування. Побудова моделі штучної нейронної мережі за допомогою команди NNTool та її тестування.

    лабораторная работа [215,8 K], добавлен 11.06.2015

  • Розробка, дослідження та реалізація методів вирішення завдань аналізу, розпізнавання і оцінювання зображень як один із провідних напрямків інформатики. Класифікація та аналіз існуючих методів розпізнавання образів, переваги та недоліки їх застосування.

    статья [525,8 K], добавлен 19.09.2017

  • Розробка методів вирішення завдань аналізу, розпізнавання, оцінювання зображень як одних з провідних напрямків інформатики. Описання методу пошуку співпадіння об’єкту-цілі з міткою-прицілом на заданому відеоряді. Виявлення об’єкта на цифровому зображенні.

    статья [138,7 K], добавлен 21.09.2017

  • Алгоритм оптичного розпізнавання образів. Універсальність таких алгоритмів. Технологічність, зручність у процесі використання програми. Два класи алгоритмів розпізнавання друкованих символів: шрифтовий та безшрифтовий. технологія підготовки бази даних.

    реферат [24,5 K], добавлен 19.11.2008

  • Загальні факти про комп’ютерні ігри. Розгляд основ розробки програмного (джерельного) коду, контенту (малюнки, моделі, музика) та ігрових механік гри "Три стакани". Правила використанням засобів WinAPI. Створення математичної моделі алгоритму програми.

    курсовая работа [405,6 K], добавлен 09.06.2015

  • Побудова інформаційно-математичної моделі задачі. Визначення структури даних, розробка інтерфейсу. Складання коду програми за допомогою мови програмування Delphi 7.0. Реалізація проекту у візуальному середовищі. Інструкція з експлуатації програми.

    курсовая работа [601,3 K], добавлен 03.09.2009

  • Розробка іспитового стенда для лабораторії, визначення тривалості робіт, ресурсів на її виконання. Характеристика параметрів моделі до оптимізації. Очікувана тривалість робіт за проектом. Причини та критерії оптимізації моделі. Розрахунок бюджету проекту.

    контрольная работа [1,1 M], добавлен 09.11.2015

  • Методи побудови довірчих інтервалів для невідомої імовірності. Оцінка неоднорідності генеральної сукупності за допомогою лінійних сплайнів. Непараметричні критерії еквівалентності генеральних сукупностей за допомогою мір близькості між вибірками.

    автореферат [32,7 K], добавлен 06.04.2009

  • Создание автоматизированной информационной системы отдела приема объявлений и рекламы в группе газет "Из рук в руки": предметная область, разработка программного обеспечения и реализация; построение инфологической и даталогической моделей базы данных.

    курсовая работа [9,8 M], добавлен 11.01.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.