Обзор современного состояния области компьютерного зрения

Терминология и общая постановка задачи "Понимания изображения". Изображения различной природы и области их использования. Метод одновременной навигации и составления карты. Достоинства и недостатки свёрточных нейронных сетей. Применение CNN в задачах.

Рубрика Программирование, компьютеры и кибернетика
Вид реферат
Язык русский
Дата добавления 05.04.2016
Размер файла 5,3 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Таблица 2 - Структура сети [43]

Номер слоя

Тип

Количество и размер карт признаков

Размер ядра

0

Входной

1х65х65

-

1

Свёрточный

48х60х60

6х6

2

Подвыборки

48х30х30

2х2

3

Свёрточный

48х26х26

5х5

4

Подвыборки

48х13х13

2х2

5

Свёрточный

48х10х10

4х4

6

Подвыборки

48х5х5

2х2

7

Свёрточный

48х4х4

2х2

8

Подвыборки

48х2х2

2х2

9

Полносвязанный

100 нейронов

-

10

Полносвязанный

2 нейрона

-

Применение CNN в распознавании выражения лица

Ниже на рисунке 51 приведена структура CNN, используемая в распознавании выражения лица [42].

Рисунок 51 - CNN with feedback mechanism for rule-based analysis [42]

Проблема распознавания выражения лиц поднимается в работе Masakazu Matsugu (“Subject independent facial expression recognition with robust face detection using a convolutional neural network”):

«Facial expressions as manifestations of emotional states, in general, tend to be different among individuals. For example, smiling face as it appears may have different emotional implications for different persons in that `smiling face', perceived by others, for some person does not necessarily represent truly smiling state for that person» [42].

Существует множество различных алгоритмов распознавания выражения лица как проявления эмоционального состояния. Только малая часть из них проявляют некоторую робастность к индивидуальным особенностям выражения лиц.

«As in the previously proposed model (Matsugu, Mori, Ishii, & Mitarai, 2002), internal representation of face is provided by a hierarchically ordered set of convolutional kernels defined by the local receptive field of FD neurons. Face model is represented as a spatially ordered set of local features of intermediate complexity, such as eyes, mouth, nose, eyebrow, cheek, or else, and all of these features are represented in terms of a fixed set of lower and intermediate features. The lower and intermediate features constitute some form of a fixed set of figural alphabets in our CNN. Corresponding receptive fields for the detection of these alphabetical features are learned in advance to form a local template in the hierarchical network, and once learned, they would never be changed during possible learning phase for object recognition in upper layers». [42]

Здесь обозначение FD (feature detection) относится к слоям свёртки, а FP (feature pooling levels, то же самое, что и subsampling levels) - к слоям подвыборки.

Модель, которая предложена в этом примере, отличается от исходной модели CNN, предложенной в 1995 году (Le Cun and Bengio, 1995) [42]:

· Обучение происходит «модуль за модулем», т.е. для каждого локального класса признаков, только для свёрточных уровней выше первого;

· Слои подвыборки в этом примере обучение не проходят. Т.е. FP-нейроны выполняют или maximum value detection (max-pooling), или local averaging в своих рецептивных полях;

· Используется результат распознавания цвета кожи, который подается на вход модуля обнаружения лица в слое FD4. Область кожи получается просто через пороговую обработку (thresholding) информации об оттенках (hue data) во входном изображении.

Сеть обучается детектировать различные признаки лица и их параметры. Далее приводится ключи (сигналы), по которым происходит распознавание улыбающегося или смеющегося лица [42]:

1. Distance between endpoints of eye and mouth gets shorter (lip being raised);

2. Length of horizontal line segment in mouth gets longer (lip being stretched);

3. Length of line segments in eye gets longer (wrinkle around the tail of eye gets longer);

4. Gradient of line segment connecting the midpoint and endpoint of mouth gets steeper (lip being raised);

5. No. of step-edges in mouth get increased (teeth get appeared);

6. No. of edges in cheeks increased (wrinkle around cheeks gets grown).

Величина каждого такого ключа (сигнала) считается величиной «позитивных изменений в эмоциональном состоянии лица» (например, радостью).

“Saliency score of specific emotional state is calculated using a sort of voting scheme with the summation (with weight ) of scores for respective cues given as follows:

After the voting process, the score S is normalized and thresholded for judging the facial expression (e.g. smiling/ laughing or not)” [42].

2.5 Краткий обзор прочих областей СТЗ

В данном разделе вкратце рассмотрим текущее состояние следующих проблем:

· Human Detection, Human Pose Estimation, Human Action Detection and Prediction, Crowd Behavior, Group Analysis;

· Common Object in Context.

Данные направления составляют далеко не полный перечень существующих на текущий момент проблем компьютерного зрения.

Ко всё ещё стоящим «на повестке дня» вопросам можно отнести следующие:

· быстрый анализ видеопоследовательностей и ошеломляющие результаты, достигнутые в этой области (отслеживание множества подвижных объектов в рамках сцены, работа с видеопоследовательностями вплоть до 800fps [59]);

· вопрос единого подхода к обработке и сегментации данных (см. рисунок 52; методы разреза графов впервые позволили выполнять сегментацию на основе минимизации энергии быстро для простых энергий, однако минимизация сложных энергий пока не производится в реальном времени [59])

Рисунок 52 - Efficient Joint Segmentation, Occlusion Labeling, Stereo and Flow Estimation Koichiro Yamaguchi, David McAllester, and Raquel Urtasun, ECCV'14 [59, 9]

· ряд вопросов распознавания лиц. Несмотря на выдающиеся результаты в области распознавания лиц и визуальной биометрии (в частности, представленная NeoFace® разработка дает [61] ошибки распознавания не более 0.1-0.2%), область по-прежнему имеет проблемы с быстродействием и точностью на очень больших базах данных лиц, а также с распознаванием частично скрытых или сильно развёрнутых лиц.

и другие работы, преимущественно составляющие спектр задач «среднего уровня» обработки изображений. Этот спектр очень широк, поэтому остановимся лишь на некоторых его моментах.

Задача обнаружения отдельных людей на данный момент практически решена (рисунок 53). От неё совершается закономерный переход к следующей проблеме: прогнозирование поведение толпы (crowd behavior) и анализ поведения групп людей (group analysis) (рисунок 54).

В настоящий момент данные проблемы являются открытыми [59].

Рисунок 53 - Ten years of pedestrian detection, what have we learned?

R. Benenson. et. Al, ECCV'14 [59, 9]

Рисунок 54 - Crowd Tracking with Dynamic Evolution of Group Structures

Feng Zhu, Xiaogang Wang, and Nenghai Yu, ECCV'14 [59, 9]

На текущий момент возможно распознавание поз и динамических жестов отдельного человека (при известном типе активности, словаре поз или по примерам), однако распознавание взаимодействий двух и более людей по-прежнему остается открытой проблемой (рисунки 55, 56) [59].

Рисунок 55 - Video Action Detection with Relational Dynamic-Poselets

L. Wang, Y. Qiao, and X. Tang, ECCV'14 [59, 9]

Рисунок 56 - Action-Reaction: Forecasting the Dynamics of Human Interaction De-An Huang and Kris M. Kitani, ECCV'14 [59, 9]

Моделирование событий и процессов (group walking, group running, group merging, group splitting), построение и использование пространственно-временных логик и онтологий для анализа сложных динамических сцен является нерешенной на данный момент задачей, поскольку модели имеют слишком сложные описания очевидных для человека ситуаций (рисунок 60) [59].

Рисунок 60 - Events detection using a video-surveillance Ontology and a rule-based approach Yassine Kazi Tani, Adel Lablack, Abdelghani Ghomari and Ioan Marius Bilasco, ECCV'14 [59, 9]

Главной целью области компьютерного зрения на данный момент является распознавание визуальных образов в сложных комплексных сценах, а также распознавание образов в контексте [59]. В рамках ECCV'14 [9] представлены текущие результаты разработки Microsoft COCO (Common Object in Context) [60].

База данных проекта (на момент публикации) составляет 91 класс объектов, 2.5 миллиона размеченных примеров на 328 000 изображений, обучение и распознавание производится по неиконическим образам. Сегментация сцены на данный момент происходит не в реальном времени, а вероятности нахождения объектов по классам составляют не более 50% [59, 60].

Ю.В. Визильтер в своём обзоре [59] комментирует поставленную задачу распознавания образов в контексте:

«Распознавание образов в контексте […] более сложной задачи распознавания изображений не существует […] Если вероятности нахождения основных классов объектов на таких базах достигнут результатов человека, это будет означать практически полное семантическое распознавание изображений в автоматическом режиме.

Ожидаемый срок решения задачи - 2020-2025 гг.» [59].

ЗАКЛЮЧЕНИЕ

В настоящий момент времени область СТЗ является активно развивающейся и имеющей огромные перспективы. Несмотря на то, что большинство задач нижнего уровня обработки изображений являются уже решёнными и хорошо изученными, задачи среднего и высокого уровня по-прежнему остаются открытыми, поскольку не существует общей математической модели, которая могла бы однозначно разрешить сложности задачи «понимания изображения».

Определенный прорыв в решении задачи восстановления трёхмерной сцены из ряда двухмерных её изображений представляют такие технологии как Structure-from-Motion (SfM). Тем не менее, SfM работает не в реальном времени в виду большой вычислительной ёмкости модели. Методы одновременной навигации и составления карты (SLAM) разнообразны, и включают в себя как комбинированный анализ одометрии и изображений, полученных с лазерных дальномеров (EKF SLAM, FastSLAM), так и реконструкцию сцены напрямую из карты глубины (LSD-SLAM). Тем не менее, данные методы на данный момент тяжело применимы в динамически изменяющихся средах и имеют проблемы с пространствами больших масштабов.

Имитация зрительного внимания - также одна из динамически развивающихся областей. Карты зрительного внимания (Saliency Maps) помогают локализовать на изображениях области, представляющие потенциальный интерес. Они помогают в решении (но не решают напрямую) задачи распознавания объектов на изображении, путём уменьшения обрабатываемой области, а, следовательно, и ресурсов, необходимых на обработку.

Одну из важных ниш занимают свёрточные нейронные сети (CNN), используемые в распознавании и классификации объектов, находящихся на изображении. Несмотря на эффективность в решении ряда задач, построение и обучение CNN под определённую задачу сопряжено с рядом сложностей, таких как подбор параметров сети, составление обучающих выборок, устранение возможного переобучения сети, проблемы глубокого обучения многослойных сетей и так далее.

Задачу распознавания лиц, отдельных людей и их жестов можно считать практически на данный момент решённой, тем не менее, задачи анализа движений двух и более людей, контекстного распознавания действий в динамических сценах по-прежнему являются открытыми. Сегментация, распознавание и классификация объектов в контексте на данный момент не решена в реальном времени и дает пока что результаты, далёкие от человеческих. Как отмечает в своём докладе Ю.В. Визильтер, в данный момент эта задача является наиболее сложной из существующих проблем компьютерного зрения.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Обработка и анализ изображений в машинном зрении: курс лекций и практических занятий / Ю.В. Визильтер, С.Ю. Желтов, А.В. Бондаренко, М.В. Ососков, А.В. Моржин. - М.: Физматкнига, 2010. - 672 с.

2. Обработка и анализ цифровых изображений с примерами на LabVIEW IMAQ Vision / Ю.В. Визильтер, С.Ю. Желтов, В.А. Князь, А.Н. Ходарев, А.В. Моржин. - М.: ДМК Пресс, 2007. - 467 с.

3. Техническое зрение в системах управления мобильными объектами 2010: Труды научно-технической конференции-семинара / под ред. Р. Р. Назирова. - М.: КДУ, 2011. - Вып. 4. - 328 с.

4. Марр, Д. Зрение. Информационный подход к изучению представления и обработки зрительных сигналов / Дэвид Марр; пер. с англ. Н.Г. Гуревич. - М.: Радио и связь, 1987. - 400 с.

5. https://en.wikipedia.org/wiki/David_Marr_(neuroscientist)

6. Prince, S.J.D. Computer vision: models, learning and inference / S.J.D. Prince. - Cambridge: University Press, 2012. - 665 с.

7. Marr, D. Vision: A Computational Investigation into the Human Representation and Processing of Visual Information (Afterword by T. Poggio) / D, Marr, S. Ullman, T. Poggio. - MIT Press, 2010. - 432 p.

8. Андреев, В.П. Разработка новых принципов построения информационно-измерительных систем технического зрения мобильных роботов : дис. … д-ра техн. наук: 05.11.16 / В.П. Андреев. - М.: Изд-во МГУПИ, 2011. - 363 c.

9. ECCV'14 European Conference on Computer Vision [Электронный ресурс]. - Режим доступа: http://eccv2014.org/, свободный. - Загл. с экрана.

10. Derpanis K.G. Overview of the RANSAC Algorithm. Version 1.2. [Электронный ресурс] / K.G. Derpanis. - 2010. - Режим доступа: http://www.cse.yorku.ca/~kosta/CompVis_Notes/ransac.pdf, свободный. - Загл. с экрана.

11. Mohit, S. Monocular SLAM for Real-Time Applications on Mobile Platforms [Электронный ресурс] / S. Mohit, N. Kai-Yuan. - 2015. - Режим доступа: http://web.stanford.edu/class/cs231m/projects/final-report-shridhar-neo.pdf, свободный. - Загл. с экрана.

12. Харенко, М. Способы построения saliency map [Электронный ресурс] / М. Харенко // Video Group CS MSU Graphics & Media Lab. - Режим доступа: http://compression.ru/video/seminar/slides/2012_saliency_map_generation.pdf, свободный. - Загл. с экрана.

13. Weighted-MSE based on Saliency map for assessing video quality of H.264 video streams [Электронный ресурс] / H. Boujut, J. Benois-Pineau, O. Hadar, T. Ahmed, P. Bonnet // IS&T/SPIE Electronic Imaging, San Francisco: United States. - 2010. - Режим доступа: https://hal.inria.fr/file/index/docid/575199/filename/Weighted-MSE_based_on_Saliency_map_for_assessing_video_quality_of_H.264_video_streams_-_final.pdf, свободный. - Загл. с экрана.

14. Hou, X. Saliency Detection: A Spectral Residual Approach / X. Hou, L. Zhang // Proc. of IEEE Computer Vision and Patten Recognition, CVPR'2007. - 2007. - P. 1-8.

15. Guo, C. Spatio-temporal Saliency Detection Using Phase Spectrum of Quaternion Fourier Transform / C. Guo, Q. Ma, L. Zhang // Proc. of IEEE Computer Vision and Pattern Recognition, CVPR'2008. - 2008. - P. 1-8.

16. Achanta, R. Frequency-tuned Salient Region Detection / R. Achanta et al. // Proc. of Computer Vision and Pattern Recognition, CVPR'2009. - 2009. - P. 1597-1604.

17. Itti, L. A Saliency-based search mechanism for overt and covert shifts of visiual attention / L. Itti, C. Koch // Vision Research. - 2000. - Vol. 40. - P. 1489-1506.

18. Attention. The Saliency-Map Model [Электронный ресурс]. - Режим доступа: https://www.tu-chemnitz.de/informatik/KI/scripts/ws0910/Attention_Saliency.pdf, свободный. - Загл. с экрана.

19. Levin, D.T. Failure to detect changes to attended objects in motion pictures / D.T. Levin, D.J. Simons // Psychonomic Bulletin & Review. - 1997. - Vol. 4, Issue 4. - P. 501-506.

20. Визильтер Ю.В. Актуальные задачи и методы современного компьютерного зрения (анализ материалов конференций PCV'14 и ECCV'14) (презентация) [Электронный ресурс]. - Режим доступа: http://www.machinelearning.ru/wiki/images/e/e2/PCV_ECCV_2014_Vizilter.pdf, свободный. - Загл. с экрана.

21. Darrel, T. C280, Computer Vision, Lecture 11: Structure from Motion [Электронный ресурс] / T. Darrel. - Режим доступа: http://www.eecs.berkeley.edu/~trevor/CS280Notes/11SFM.pptx, свободный. - Загл. с экрана.

22. Кучерский Р.В. Алгоритмы локальной навигации и картографии для бортовой системы управления автономного мобильного робота / Р.В. Кучерский, С.В. Манько // Известия ЮФУ. Технические науки. - 2012. - Вып. 3. - c. 13-22.

23. Riisgaard, S. SLAM for Dummies: A Tutorial Approach to Simultaneous Localization and Mapping / S. Riisgaard, M.R. Blas. - MIT Press, 2004. - 127 p.

24. Santhanam, P.K. Simultaneous Localization & Mapping - SLAM [Электронный ресурс] / P.K. Santhanam. - Режим доступа: http://www.cse.buffalo.edy/courses/cse725/peter/Presentations/PSanthanam.ppt, свободный. - Загл. с экрана.

25. http://robocraft.ru/blog/technology/724.html

26. Карпов, Д.П. Сшивка изображений, полученных в результате аэрофотосъёмки [Электронный ресурс] / Д.П. Карпов. - СПб.: НИУ ИТМиО, 2012. - Режим доступа: http://is.ifmo.ru/projects/2012/karpov/description.pdf, свободный. - Загл. с экрана.

27. http://habrahabr.ru/post/228525/

28. Lowe, D.G. Distinctive Image Features from Scale-Invariant Keypoints / D.G. Lowe // Proc. of International Journal of Computer Vision, IJCV'2004. - 2004. - Vol. 60. - P. 91-110.

29. Lowe, D.G. Object recognition from local scale-invariant features / D.G. Lowe // Proc. of International Conference of Computer Vision, ICCV'1999. - 1999. - P. 1150-1157.

30. Bay, H. SURF: Speeded up robust features / H. Bay, T. Tuytealaars, L.V. Gool // Proc. of European Conference on Computer Vision, ECCV'2006. - 2006. - P. 404-417.

31. Khan, N. SIFT and SURF Performance Evaluation Against Various Image Deformations on Benchmark Dataset / N. Khan, B. McCane, G. Wyvill // Proc. of Digital Image Computing Techniques and Applications (DICTA). - 2011. - P. 501-506.

32. Соколов, С.М. Проблемы машинного видения в робототехнике и автоматизации производства / С.М. Соколов // Будущее прикладной математики. Лекции для молодых исследователей. Институт прикладной математики им. М.В. Келдышева РАН. - М.: URSS, 2004. - С. 343-373.

33. Гонсалес, Р. Цифровая обработка изображений / Р. Гонсалес, Р. Вудс; пер. с англ. под ред. П.А. Чочина. - М.: Техносфера, 2005. - 1072 с.

34. Lowe D.G. Fast approximate nearest neighbors with automatic algorithm configuration / D.G. Lowe, M. Muja // Proc. of International Conference on Computer Vision Theory and Applications (VISAPP). - 2009. - P. 331-340.

35. Friedman, J.H. An Algorithm for Finding Best Matches in Logarithmic Expected Time / J.H Friedman, J.L. Bentley, R.A. Finkel // Proc. of ACM Transactions on Mathematical Software (TOMS). - 1997. - Vol. 3, Issue 3. - P. 209-226.

36. Silpa-Anan, C. Optimized kd-trees for fast image descriptor matching / C. Silpa-Anan, R. Hartley // Proc. of IEEE, Computer Vision and Pattern Recognition, CVPR'2008. - 2008. - P. 1-8.

37. https://ru.wikipedia.org/wiki/Свёрточная_нейронная_сеть

38. Дорогой, Я.Ю. Архитектура обобщённых свёрточных нейронных сетей / Я.Ю. Дорогой // Вестник Национального технического университета Украины. - 2011. - № 49. - С. 229-234.

39. Солдатова, О. П. Применение свёрточной нейронной сети для распознавания рукописных цифр / О.П. Солдатова, А.А. Гаршин // Компьютерная оптика. - 2010. - Т. 34. - С. 127-129.

40. LeCun, Y. Gradient Based Learning Applied to Document Recognition / Y. LeCun, L. Bottou, P. Haffner // Proc. of IEEE. - 1998. - P. 2278-2324.

41. LeCun, Y. A theoretical framework for backpropagation / Y. LeCun // Proc. of Connectionist Models Summer School. - 1988. - P. 21-28.

42. Matsugu, M. Subject independent facial expression recognition with robust face detection using a convolutional neural network / M Matsugu, K. Mori, Y. Mitari, Y. Kaneda. - Morinosato-Wakamiya: Canon Research Center, 2003. - 908 p.

43. Нагаев, К.П. Применение свёрточных нейронных сетей для сегментации биомедицинских диагностических изображений / К.П. Нагаев // Труды Международной научно-технической конференции. - 2015. - Т. 1. - С. 344-348.

44. Борисов, Е.С. Классификатор изображений на основе свёрточной сети [Электронный ресурс] / Е.С. Борисов. - 2015. - Режим доступа: http://mechanoid.kiev.ua/ml-lenet.html#Xfukus, свободный. - Загл. с экрана.

45. Федоренко, Ю.С. Технология распознавания образов с использованием свёрточной нейронной сети [Электронный ресурс] / Ю.С. Федоренко // Инженерный Вестник, ФГБОУ ВПО «МГТУ им. Н.Э. Баумана». - 2013. - Режим доступа: http://sntbul.bmstu.ru/file/out/641033, свободный. - Загл. с экрана.

46. Deconvolutional Neural Network [Электронный ресурс]. - Режим доступа: http://habrahabr.ru/company/nordavind/blog/253859/, свободный. - Загл. с экрана.

47. Zeiler M.D. Deconvolutional Networks / M.D. Zeiler, D. Krishnan, G.W. Taylor, R. Fergus // Proc. of IEEE Computer Vision and Pattern Recognition, CVPR'2010. - 2010. - P. 2528-2535.

48. Montemerlo, M. FastSLAM: A Factored Solution to the Simultaneous Localization and Mapping Problem / M. Montemerlo, S.Thrun, D. Koller, B. Wegbreit // Proc. of the National Conference on Artificial Intellegence, AAAI'2002. - 2002. - P. 593-598.

49. Montemerlo, M. FastSLAM: A Factored Solution to the Simultaneous Localization and Mapping Problem with Unknown Data Association: doctoral dissertation / M. Montemerlo. - Pittsburg: The Robotics Institute, tech. report CMU-RI-TR-03-28, 2003. - 123 p.

50. Smith, R.C. On the Representation and Estimation of Spatial Uncertainty / R.C. Smith, P. Cheeseman // The International Journal of Robotics Research. - 1986. - Vol. 5, Issue 4. - P. 56-68.

51. Moutarlier, P. An experimental system for incremental environment modeling by an autonomous mobile robot / P. Moutarlier, R. Chatila // Proc. of 1st International Symposium on Experimental Robotics, ISER-89. - 1989. - P. 327-346.

52. Doucet, A. Rao-blackwellised particle filtering for dynamic bayesian networks / A. Doucet, N. de Freitas, K. Murphy, S. Russell // Proc. of 16st Conference on Uncertainty in Artificial Intelligence, UAI'2000. - 2000. - P. 176-183.

53. Haehnel, D. Map Building with Mobile Robots in Dynamic Environments / D. Haehnel, R. Triebel, W. Burgard, S. Thrun // Proc. of the IEEE International Conference on Robotics and Automation, ICRA'2003. - 2003. - P. 1557-1563.

54. Wang, C. Online simultaneous localization and mapping with detection and tracking of moving objects: theory and results from a ground vehicle in crowded urban areas / C. Wang, C. Thorpe, S. Thrun // Proc. of the IEEE International Conference on Robotics and Automation, ICRA'2003. - 2003. - P. 842-849.

55. Lankenau, A. Mobile robot self-localization in large-scale environments / A. Lankenau, T. Rofer // Proc. of the IEEE International Conference on Robotics and Automation, ICRA'2002. - 2002. - P. 1359-1364.

56. Техническое зрение в системах управления 2015: Тезисы научно-технической конференции / под. ред. Ю.В. Визильтера. - М.: ФГУП «ГосНИИАС». - 126 с.

57. Engel, J. LSD-SLAM: Large-Scale Direct Monocular SLAM / J. Engel, T. Schops, D. Cremers // Proc. of European Conference on Computer Vision, ECCV'2014. - 2014. - P. 834-849.

58. Engel, J. LSD-SLAM: Large-Scale Direct Monocular SLAM [Электронное издание, презентация] / J. Engel, T. Schops, D. Cremers // Proc. of European Conference on Computer Vision, ECCV'2014. - 2014. - Режим доступа: http://videolectures.net/site/normal_dl/tag=921114/eccv2014_engel_monocular_slam_01.pdf, свободный. - Загл. с экрана.

59. Визильтер, Ю.В. Подпрограмма развития технология технического зрения для создания робототехнических комплексов нового поколения: современное состояние компьютерного зрения [презентация] / Ю.В. Визильтер, С.Ю. Желтов, Н.А. Кочкин, В.В. Тарасов // Десятая Всеросийская научно-практическая конференция «Управление и обработка информации в технических системах», п. Домбай. - 2015.

60. Lin, T. Microsoft COCO: Common objects in context / T. Ling, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollar, C.L. Zitnick // Proc. of European Conference on Computer Vision, ECCV'2014. - 2014. - p. 740-755.

61. Grother, P. Face Recognition Vendor Test (FRVT): Performance of Face Identification Algorithms. NIST Interagency Report 8009 / P. Grother, M. Ngan. - NIST, 2004. - 137 p.

62. Goferman, S. Context-aware saliency detection / S. Goferman, L. Zelnik-Manor, A. Tal // Proc. of the IEEE Computer Vision and Pattern Recognition, CVPR'2010. - 2010. - P. 2376-2383.

Размещено на Allbest.ru

...

Подобные документы

  • Анализ применения нейронных сетей для прогнозирования ситуации и принятия решений на фондовом рынке с помощью программного пакета моделирования нейронных сетей Trajan 3.0. Преобразование первичных данных, таблиц. Эргономическая оценка программы.

    дипломная работа [3,8 M], добавлен 27.06.2011

  • Анализ состояния проблемы, обзор аналогов, выбор прототипов и постановка задачи. Достоинства и недостатки рассмотренных систем технического зрения. Определение формы и положения объекта в пространстве. Обоснование и разработка математического аппарата.

    дипломная работа [2,5 M], добавлен 12.06.2013

  • Понятие и свойства искусственных нейронных сетей, их функциональное сходство с человеческим мозгом, принцип их работы, области использования. Экспертная система и надежность нейронных сетей. Модель искусственного нейрона с активационной функцией.

    реферат [158,2 K], добавлен 16.03.2011

  • Способы применения нейронных сетей для решения различных математических и логических задач. Принципы архитектуры их построения и цели работы программных комплексов. Основные достоинства и недостатки каждой из них. Пример рекуррентной сети Элмана.

    курсовая работа [377,4 K], добавлен 26.02.2015

  • Оснащение робототехнических комплексов систем технического зрения. Математическая модель и векторная диаграмма дисторсии изображения. Создание эталонного изображения тестового объекта. Определение основных погрешностей формирования изображения.

    курсовая работа [1,4 M], добавлен 14.06.2014

  • Исследование задачи и перспектив использования нейронных сетей на радиально-базисных функциях для прогнозирования основных экономических показателей: валовый внутренний продукт, национальный доход Украины и индекс потребительских цен. Оценка результатов.

    курсовая работа [4,9 M], добавлен 14.12.2014

  • Способы применения технологий нейронных сетей в системах обнаружения вторжений. Экспертные системы обнаружения сетевых атак. Искусственные сети, генетические алгоритмы. Преимущества и недостатки систем обнаружения вторжений на основе нейронных сетей.

    контрольная работа [135,5 K], добавлен 30.11.2015

  • Нейрокомпьютеры и их применение в современном обществе. Некоторые характеризующие нейрокомпьютеры свойства. Задачи, решаемые с помощью нейрокомпьютеров. Типы искусственных нейронов. Классификация искусственных нейронных сетей, их достоинства и недостатки.

    курсовая работа [835,9 K], добавлен 17.06.2014

  • Разработка программы, предназначенной для сжатия или компрессии полутонового изображения международным стандартом JPEG. Описание метода JPEG, выдача результатов в виде декодированного изображения. Обзор методов компрессии полутонового изображения.

    курсовая работа [43,5 K], добавлен 14.10.2012

  • Задача анализа деловой активности, факторы, влияющие на принятие решений. Современные информационные технологии и нейронные сети: принципы их работы. Исследование применения нейронных сетей в задачах прогнозирования финансовых ситуаций и принятия решений.

    дипломная работа [955,3 K], добавлен 06.11.2011

  • Разработка приложения, целью которого ставится преобразование черно-белых полутоновых изображений в цветные. Обзор методики обработки изображения, способов преобразования изображения с помощью нейронной сети. Описания кластеризации цветового пространства.

    дипломная работа [6,3 M], добавлен 17.06.2012

  • Простейшая сеть, состоящая из группы нейронов, образующих слой. Свойства нейрокомпьютеров (компьютеров на основе нейронных сетей), привлекательных с точки зрения их практического использования. Модели нейронных сетей. Персептрон и сеть Кохонена.

    реферат [162,9 K], добавлен 30.09.2013

  • Рост активности в области теории и технической реализации искусственных нейронных сетей. Основные архитектуры нейронных сетей, их общие и функциональные свойства и наиболее распространенные алгоритмы обучения. Решение проблемы мертвых нейронов.

    реферат [347,6 K], добавлен 17.12.2011

  • Информация о графических форматах. Хранение изображения в программе. Очередь как вспомогательная структура данных. Загрузка изображения из двоичного файла. Операции с изображением. Уменьшение разрешающей способности. Увеличение размера изображения.

    курсовая работа [1,1 M], добавлен 29.06.2013

  • Методы кодирования изображения: кодированием длины серии, частотно-зависимое кодирование, метод Лемпеля-Зива. Размер строки при 16-битном цвете. Расчет размера всего исходного изображения. Примеры качественного и некачественного сжатия изображения.

    презентация [2,0 M], добавлен 22.10.2013

  • Достоинства, недостатки и применение нейронных сетей. Преимущества мозга, как вычислительного устройства, над современными вычислительными машинами. Структурные части, виды и активационные функции нейрона. Обобщенное представление искусственного нейрона.

    презентация [145,5 K], добавлен 03.01.2014

  • Применение нейрокомпьютеров на российском финансовом рынке. Прогнозирование временных рядов на основе нейросетевых методов обработки. Определение курсов облигаций и акций предприятий. Применение нейронных сетей к задачам анализа биржевой деятельности.

    курсовая работа [527,2 K], добавлен 28.05.2009

  • Описание технологического процесса напуска бумаги. Конструкция бумагоделательной машины. Обоснование применения нейронных сетей в управлении формованием бумажного полотна. Математическая модель нейрона. Моделирование двух структур нейронных сетей.

    курсовая работа [1,5 M], добавлен 15.10.2012

  • Основные направления деятельности компании Step Logic в области сетевой интеграции. Использование растрового изображения в качестве подложки. Особенности применение программы Raster Desk и PlanTracer. Отключение видимости при распознавании объекта.

    доклад [599,1 K], добавлен 04.04.2013

  • Определение понятия "пиксел", его применение в компьютерной графике, коэффициент прямоугольности изображения. Характеристика файлов с расширениями bmp, gif, jpg, png, pcx, их особенности, достоинства и недостатки. Сравнение форматов графических файлов.

    реферат [17,9 K], добавлен 05.04.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.