Главная Коллекция "Revolution" Программирование, компьютеры и кибернетика Обзор современного состояния области компьютерного зрения

Обзор современного состояния области компьютерного зрения

Терминология и общая постановка задачи "Понимания изображения". Изображения различной природы и области их использования. Метод одновременной навигации и составления карты. Достоинства и недостатки свёрточных нейронных сетей. Применение CNN в задачах.

Рубрика	Программирование, компьютеры и кибернетика
Вид	реферат
Язык	русский
Дата добавления	05.04.2016
Размер файла	5,3 M

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

Размещено на http://www.allbest.ru/

[Введите текст]

Челябинск, 2015 г.

Федеральное агенство по образованию Российской Федерации

Государственное образовательное учреждение высшего профессионального образования

«Южно-Уральский государственный университет»

(национальный исследовательский университет)

Факультет «Компьютерные технологии, управление и радиоэлектроника»

Кафедра «Автоматика и управление»

РЕФЕРАТ по дисциплине (специализации) «Современные проблемы автоматизации и управления»

«Обзор современного состояния компьютерного зрения»

АННОТАЦИЯ

Исупова Т.Д. Обзор современного состояния компьютерного зрения. - Челябинск: ЮУрГУ, КТУР-1095, 76 с., 60 ил, 2 таб., библиогр. список - 62 наим.

Цель реферата - отразить текущее состояние области компьютерного зрения и систем технического зрения.

Задачи реферата - изучить, обобщить и проанализировать текущее состояние области компьютерного зрения и систем технического зрения.

Подробно рассмотрены наиболее значимые ветви развития СТЗ: методы восстановления структуры из движения (structure-from-motion), методы одновременной навигации и составления карты (SLAM), имитация карт зрительного внимания (saliency maps), свёрточные нейронные сети (convolutional neural networks). Также сделан краткий заключительный обзор других областей.

1.1 Терминология области
1.2 Причины сложности задачи «понимания изображений»
1.3 Уровни анализа
1.4 Изображения различной природы и области их использования
1.5 Требования и задачи, предъявляемые к системам машинного зрения

2. Основные направления и перспективные разработки области компьютерного зрения и систем технического зрения

2.1 Structure-From-Motion

2.1.1 SIFT (Scale Invariant Feature Transform)
2.1.2 SURF (Speed Up Robust Feature)
2.1.3 Сравнение эффективности методов SIFT и SURF
2.1.4 Сопоставление точек интереса

2.2 SLAM (Simultaneous Localization and Mapping): метод одновременной навигации и составления карты

2.2.1 EKF SLAM (Extended Kalman Filter SLAM)
2.2.2 FastSLAM
2.2.3 LSD-SLAM: Large-Scale Direct Monocular SLAM
2.2.4 Техническое обеспечение для SLAM-навигации и перспективы метода

2.3 Карты внимания (Saliency Maps, Карты Салиентности, Имитация зрительного внимания)

2.3.1 IT-method
2.3.2 Temporal and Local Methods for Saliency Maps
2.3.3 Global Methods for Saliency Maps (SR-, PFT-, PQFT-)
2.3.4 Context-Aware Saliency Detection
2.4 Свёрточные нейронные сети (Convolution Neural Networks)
2.4.1 Арихитектура CNN
2.4.2 Достоинства и недостатки свёрточных нейронных сетей
2.4.3 Deconvolutional Neural Network (DNN)
2.4.4 Применение CNN в прикладных задачах
2.5 Краткий обзор прочих областей СТЗ
Заключение
Библиографический список

ВВЕДЕНИЕ

Зрение Материал взят с ru.wikipedia.org/wiki/Зрение_человека (зрительное восприятие) - процесс психофизиологической обработки изображения объектов окружающего мира, осуществляемый зрительной системой, и позволяющей получать представление о величине, форме (перспективе) и цвете предметов, их взаимном расположении и расстоянии между ними.

В настоящее время одним из важнейших направлений развития искусственного интеллекта является т.н. направление компьютерного зрения.

Как отмечает Ю.В. Визильтер в книге «Обработка и анализ изображений»: изображение навигация нейронный сеть

«Удивительная сложность проблемы “понимания изображения” может быть проиллюстрирована тем обстоятельством, что её интеллектуальная (алгоритмическая) составляющая оказалась более трудным “орешком”, чем традиционные задачи типа компьютерной игры в шашки или шахматы […] Компьютер, на равных играющий в шахматы с чемпионами мира, уже создан, а компьютерной программы, “понимающей” любую видимую сцену, пока нет […] Это связано, по-видимому, со сложностью основного предмета, находящегося в центре внимания данной дисциплины, а именно - двумерного изображения» [2].

В то же время, для решения многих практически важных задач машинного зрения общая проблема «понимания изображений» может быть редуцирована к гораздо более просто проблеме обнаружения и распознавания или измерения по одному или нескольким изображениям объектов, удовлетворяющих некоторому заранее известному модельному описанию [2].

Дальнейший обзор посвящен рассмотрению самой проблемы «понимания изображения», а также различных направлений в рамках области компьютерного зрения и моделей, используемых в решениях частных задач обнаружения и распознавания объектов, их измерения, реконструкции трёхмерных сцен из последовательностей изображений и навигации в них, использованию нейросетей и других методов в задачах анализа изображений.

1. ТЕРМИНОЛОГИЯ И ОБЩАЯ ПОСТАНОВКА ЗАДАЧИ «ПОНИМАНИЯ ИЗОБРАЖЕНИЯ»

Согласно теории Марра Дэвид Кортни Марр (David Courtnay Marr, 19.01.1945-17.11.1980) - британский нейробиолог. Работал в сферах психологи, нейрофизиологии и искусственного интеллекта, разрабатывая новые вычислительные модели обработки визуальной информации в мозге [5]. [5], в основе зрительного восприятия лежат процессы сбора, представления, обработки и распознавания информации, отражающей свойства наблюдаемого реального мира. Зрение представляет процесс определения по изображениям, что именно присутствует в окружающем мире и где именно оно находится; т.е. это процесс порождения по изображениям внешнего мира описания, полезного для наблюдателя и не перегруженного информацией, несущественной для него [4].

Марр отмечает, что с помощью зрения, прежде всего, осуществляется сбор и обработка информации, но зрения нельзя рассматривать «просто как некоторый процесс», поскольку, чтобы узнавать, что и где находится в окружающем мире, мозг должен обладать возможностями представлять некоторым образом всю эту информацию. Таким образом, изучение зрения не должно сводиться к изучению лишь того, как извлекать из изображений различные аспекты реального мира; оно должно также предусматривать исследование природы внутренних представлений, посредством которых мы сохраняем эту информацию, обеспечивая возможность её использования в качестве основы для принятия решений [4].

1.1 Терминология области

Для предупреждения дальнейших разночтений стоит отметить, что, поскольку область сравнительно нова, и разные авторы используют разные обозначения для одних и тех же понятий. Так, например, термин обработка изображений (по Визильтеру [1]) употребляется не как обозначение научной дисциплины, а как указатель на предметную область. Также он используется для обозначения обработки нижнего уровня. Одновременно с этим, Гонсалес Р. и Вудс Р. [33] отмечают, что «не существует общепринятой точки зрения, где заканчивается обработка изображений и начинаются другие смежные области, например, анализ изображений и машинное зрение. Зачастую, «обработка изображений» определяется как дисциплина, в которой на входе и на выходе процесса присутствуют изображения».

Нижеприведенные термины могут встречаться в литературе и как синонимы, и как обозначение различных научных дисциплин и областей.

В данном обзоре будет использоваться следующая их трактовка:

· Компьютерное зрение - научная дисциплина, изучающая теорию и базовые алгоритмы анализа изображений и сцен [1].

Конечной целью компьютерного зрения является компьютерная имитация человеческого зрения, включая обучение, способность к умозаключениям и действиям на основе наблюдаемой информации. Эта область образует одно из направлений искусственного интеллекта, целью которого является имитация интеллектуальной деятельности человека [33].

· Анализ изображений («понимание изображений») занимает промежуточное положение между обработкой изображений и компьютерным зрением [33].

· Распознавание образов - это отнесение исходных данных к определенному классу с помощью выделения существенных признаков, характеризующих эти данные, из общей массы несущественных данных см. ru.wikipedia.org/wiki/Теория_распознавания_образов.

· Машинное (техническое) зрение - комплексная технологическая область научных и инженерных знаний, охватывающая все проблемы разработки практических систем: выбор схем освещения исследуемой сцены, выбор характеристик датчиков, их количества и геометрии расположения, вопросы калибровки и ориентирования, выбор или разработка оборудования для оцифровки и процессорной обработки, разработка собственно алгоритмов и их компьютерная реализация [1]. Машинное зрение является подразделом инженерии, применяющим методы компьютерного зрения.

· Зрение роботов - более узкая область технологий машинного зрения, которая обеспечивает функционирование систем машинного зрения в условиях жёстких временных ограничений [1].

· Система технического зрения (СТЗ) - совокупность аппаратных и программных средств получения, передачи, хранения и обработки изображений (а также шлейфов данных), включая автоматически анализ изображений (например, измерение параметров объектов на изображении), формирование решений, выработку сигналов управления [8]. Термин СТЗ часто применяется как синоним систем машинного зрения [33].

1.2 Причины сложности задачи «понимания изображений»

В настоящее время не существует математического аппарата, на который могла бы опираться общая объектно-ориентированная модель данных, поэтому в каждой конкретной задаче приходится создавать язык описания объектов интереса [33].

В общих чертах можно выделить три причины сложности задачи понимания изображения [1]:

1. Разнообразие яркостно-геометрических свойств изображения;

2. Изменчивость в изображениях;

3. Информационная поддержка процесса понимания сцен.

Причина 1: разнообразие яркостно-геометрических свойств изображения

В общем случае, это многообразие «…не имеет жёсткой причинной взаимосвязи, не вытекает из действия каких-либо физических законов, позволивших бы упростить модельное описание сцены наблюдения» [1].

В книге «Computer vision: models, learning and inference» приводится следующее утверждение, наглядно иллюстрирующее суть данной проблемы:

«In a camera, the three-dimensional world is projected onto the optical surface to form the image: a two-dimensional set of measurements. Our goal is to take these measurements and use them to establish the properties of the world that created them […] the relationship between world and measurements is generally many to one: there may be many real-world configurations that are compatible with the same measurements. The chance that each of these possible worlds is present can also be described using probability» [6].

Причина 2: изменчивость в изображениях

Причиной изменения могут быть освещенность, различные отклонения форм, размеров, искажения и шумы. Из-за трёхмерной природы сцены и объектов в ней возникает фактор загораживания объектов интереса. Объекты могут быть не только загорожены, но и развернуты в пространстве. Это выдвигает тяжелые требования устойчивости работы алгоритмов в трудных условиях [1].

В общем случае модель шума неизвестна.

Следующее утверждение иллюстрирует суть проблемы: «First, the measurement process is noisy; what we observe is not the amount of light that fell on the sensor, but a noisy estimate of this quantity» [6].

Также можно отметить, что:

«…Unfortunately, modeling the shape of an object is challenging; we must account for deformations of the object, the possible absence of some parts of the object and even changes in the object topology. Furthermore, the object may be partially occluded, making it difficult to relate the shape model to the observed data» [6].

Причина 3: информационная поддержка процесса понимания сцен

Для того, чтобы система технического зрения могла «понять изображение», она должна обладать соответствующей базой знаний об окружающем мире. Организация этой базы, её наполнение, актуализация - сложные задачи. Формирование подобной «базы» в сознании человека занимает годы [1].

В простейшем случае «понимания изображения» мы устанавливаем наличие или отсутствие какого-либо признака на изображении. В таком случае мы должны знать, какие свойства кадра свидетельствуют об этом. В более сложном случае мы должны распознавать более сложные признаки, классифицировать найденные объекты и так далее, следовательно, у нас должна быть некоторая математическая модель, которая будет описывать процесс распознавания и различения одних объектов от других. Для различения объектов уже потребуются некоторые сведения о том, как эти объекты должны выглядеть - информационная поддержка в виде данных об эталонах.

Стоит отметить, что зрение человека (и прочих животных) формируется годами. Одним из подтверждений этому является тот факт, что при исправлении врожденной слепоты (например, вызванной нарушениями работы хрусталика) человек формально «видит», но не «понимает» то, что он видит. Он может различать цветовые пятна, он может опознавать наличие прямых или наклонных линий на «изображении», которое формируется на сетчатке глаза, но не будет способен понять, что именно он видит (в том числе это касается сопоставления зрительных и тактильных ощущений). Процесс обучения занимает огромное количество времени. Также при некоторых нарушениях работы мозга (в том числе нарушениях памяти), но при нетронутой зрительной коре человек перестает понимать то, что он видит.

1.3 Уровни анализа

Марр расценивал зрение как систему обработки информации, представленную в трёх различных взаимодополняющих уровнях анализа. Данная идея известна в когнитивной науке Когнитивная наука (cognitive science, когнитивистика) - междисциплинарное научное направления, объединяющее теорию познания, когнитивную психологию, нейрофизиологию, когнитивную лингвистику и теорию искусственного интеллекта. как трёхуровневая теория Марра (Marr's Tri-Level Hypothesis) [5]. Согласно этой концепции, зрительную систему можно представить состоящей из следующих уровней (представлены от высшего к низшим) [4, 5]:

· Верхний уровень. Computational level [5] или информационная теория [4].

«Что является целью вычислительного процесса, почему именно этот процесс должен использоваться и в чём заключается логика стратегии, обеспечивающей его реализацию».

Данный уровень описывает работу устройства как некоторое отображение информации одного вида в информацию другого вида, формальные свойства которого определяются точно: при этом демонстрируются как пригодность использования отображения для решения соответствующих задач, так и целесообразность [4].

· Центральный уровень. Algorithmic and representational level [5] или представление и алгоритм [4].

«Каким образом можно реализовать существующую информационную теорию? В частности, как следует представлять входную и выходную информацию и что представляет собой алгоритм преобразования?»

Данный уровень связан с выбором представления для входной и выходной информации и выбором алгоритма, который должен быть использован для преобразования одной информации в другую [4].

· Нижний уровень. Physical and implementational level [5] или техническая реализация [4].

«Каким образом можно физически реализовать выбранные представление и алгоритм?»

Данный уровень характеризует подробности физической реализации выбранных алгоритмов и представлений - детальную архитектуру вычислительной машины.

Через 30 лет после публикации «Зрения» [4], Томасо Поггио в послесловии к редакции книги добавляет ещё один уровень выше вычислительного - уровень обучения (learning level) [5], поясняя это следующим образом:

«I am not sure that Marr would agree, but I am tempted to add learning as the very top level of understanding, above the computational level. [...] Only then may we be able to build intelligent machines that could learn to see--and think--without the need to be programmed to do it» Vision (2010, The MIT Press), Afterword, P.367. [7].

Уровни связаны между собой, но связи свободны: выбор некоторого алгоритма, например, проводится с учётом того, что он должен делать и с помощью каких технических средств может быть реализован; однако, на каждом уровне имеются большие возможности выбора, и получение интерпретаций для каждого уровня связано с разрешением проблем, которые в достаточной степени независимы от проблем других уровней [4].

Трёхуровневую теорию Марра также иногда называют модульной парадигмой.

Обработка изображения должна опираться на несколько последовательных уровней восходящей информационной линии: от «иконического» представления объектов (растровое изображение Растровое изображение - изображение, представляющее собой сетку пикселей - цветных точек (обычно, прямоугольных) на мониторе, бумаге и других отображающих устройствах. , неструктурированная информация) - к их символическому представлению (векторные и атрибутивные данные в структурированной форме, реляционные структуры и т.п.) [1].

Принято выделять основные этапы обработки данных в машинном зрении [1,4]:

· Предобработка изображения;

· Сегментация изображения;

· Выделение геометрической структуры;

· Определение относительной структуры и семантики.

На рисунке 1 представлены основные этапы обработки данных.

Во всём диапазоне от обработки изображения до машинного зрения нет чётких границ, тем не менее, в нём принято различать компьютеризированные процессы нижнего, среднего и высокого уровня [33]:

· Процессы нижнего уровня касаются только примитивных операций типа предобработки с целью уменьшения шума, повышения контраста или улучшения резкости изображения. Характерной их особенностью является то, что и на входе, и на выходе присутствуют изображения [33]. Алгоритмы нижнего уровня могут рассматриваться как хорошо проработанные и детально изученные [1].

· Процессы среднего уровня охватывают такие задачи, как сегментация (разделение изображения на области и выделение объектов на изображении), описание объектов и сжатие их в удобную для компьютерной обработки форму, а также классификация (распознавание) отдельных объектов. Для процессов среднего уровня характерно наличие изображений только на входе, на выход поступают признаки и атрибуты, извлекаемые из этих изображений (границы областей, линии контуров, отличительные признаки конкретных объектов и т.д.) [33]. Алгоритмы среднего уровня продолжают оставаться центральным полем приложения инженерных и исследовательских усилий [1].

· Процессы высокого уровня включают в себя «осмысление» набора распознанных объектов, как это делается в анализе изображений, и, в пределе, осуществление познавательных функций, которые принято связывать со зрением [33]. Методы обработки высокого уровня, относящиеся непосредственно к «пониманию изображений», по-прежнему представляют собой вызов для исследований в области компьютерном зрении и искусственном интеллекте [1].

Рисунок 1 - Основные этапы обработки данных

1.4 Изображения различной природы и области их использования

Зрение является наиболее совершенным из наших органов чувств, и зрительные образы играют важнейшую роль в человеческом восприятии. В отличие от людей, способных воспринимать электромагнитное излучение только видимого диапазона, машинная обработка изображений охватывает практически весь электромагнитный спектр от гамма-излучения до радиоволн. Обрабатываемые изображения могут порождаться источниками, которые для человека непривычно связывать с наблюдаемыми изображениями (например, ультразвуковые изображения; изображения, получаемые в электронной микроскопии или генерируемые компьютером) [33].

Изображения, полученные с помощью гамма-излучения.

Используются в основном медицинской радиологии и астрономических наблюдениях [1].

Рентгеновские изображения.

Используются в медицине, системах промышленного технического контроля, системах обеспечения безопасности. Цифровые рентгеновские изображения формируются двумя основными способами: путём оцифровки рентгеновских плёнок и путём непосредственной регистрации светового излучения, порождаемого специальными рентгеновскими экранами, которые переводят рентгеновское излучение в световое [1].

Ультрафиолетовые изображения.

Используются в производственном контроле, микроскопии, лазерной технике, медицинских и астрономических наблюдениях [1].

Инфракрасный диапазон (разбитый на тепловой ИК-диапазон и ближний ИК).

Изображения в тепловом диапазоне (8-14 мкм) позволяют пересчитывать интенсивность элементов изображения в значения температуры наблюдаемых поверхностей. Холодные объекты на таких изображениях будут более тёмными, теплыми - более яркими, горячие - «светящимися», поскольку нагревают и воздух рядом с собой. Изображения этого диапазона используются в системах промышленного и экологического мониторинга, выявляющих утечки тепла в различных технических устройствах, сетях теплотрасс и т.п.; в системах военного назначения для наведения на «горячие» объекты военной техники - двигатели, факелы ракет и т.п.; в биометрических системах, таких как системы автоматического контроля доступа на основе термограмм Термограмма - изображение в инфракрасных лучах, показывающее картину распределения температурных полей. человеческого лица, представляющих уникальные изображения, которые чрезвычайно сложно подделать. Для получений изображений в глубоком ИК-диапазоне используются специальные устройства - тепловизоры [1].

Изображения в ближнем ИК-диапазоне схожи с изображениями видимого диапазона, но съёмка в ближнем ИК позволяет снимать ночью. Т.о., сущесвтенной областью применений изображений ближнего ИК является ночное видение. Другая область применения ИК-систем - невидимая для человека ИК-подсветка, которую «видят» большинство современных видеокамер. ИК-прожекторы увеличивают общую ИК-освещенность сцены или объекта наблюдения, без создания дискомфорта для человека. ИК- и УФ-маркировка используется в системах контроля подлинности ценных бумаг [1].

Изображения видимого диапазона. Спектр видимого излучения - волны от 380 нм до 740 нм. Границы этого диапазона могут варьироваться в зависимости от индивидуальных особенностей зрения.

Используются практически во всех областях машинного зрения, поскольку это тот диапазон регистрации изображений, в котором полученные изображения выглядят привычно и естественно для человеческого глаза [1].

Микроволновые изображения.

Применяются в области радиолокации. Микроволновая съёмка используется в военной области, а также в области глобального мониторинга Земли из космоса и с авиа-носителей [1].

Радиоволновые изображения.

Используются в медицине и астрономии. Наиболее современный метод медицинских томографических изображений высокого разрешения ЯМР (ядерный магнитный резонанс) основан на регистрации радиволновых сигналов клетов человеческого тела, помещенных в сильное магнитное поле и возбуждаемых короткими волновыми импульсами в радиодиапазоне [1].

Акустические изображения.

Активно используются в геологии, промышленности и медицине [1].

Ультразвуковые изображения.

Применяются в промышленности и технике, а также в медицине (например, для нахождения паталогий различных внутренних органов человека). Медицинское ультразвуковое изображение содержит не только интенсивность отражённого ультразвукового сигнала, но и дальность до отражающей поверхности, вычисленную на основе расчёта скорости распространения ультразвукового сигнала в человеческих тканях [1].

Двумерные поля дальностей.

Формируются на основе анализа электромагнитных сигналов, испускаемых и принимаемых по локационной схеме. В качестве дальнометрических систем чаще всего используются лазерные локаторы, позволяющие осуществлять оптическое сканирование трёхмерных поверхностей с больших расстояний (до десятков километров), обеспечивая максимальное возможное разрешение. Локатор сканирует поверхность, испуская серии коротких волновых импульсов, отражения которых от поверхности объекта регистрируются приемником локатора, после чего рассчитывается время прохождения импульса до объекта и обратно, откуда окончательно определяется дальность до точки поверхности объекта. Получаемое изображение называется картой глубин [1].

Двумерные поля дальностей используются в картографии, дистанционном зондировании Земли, технических измерениях и техническом контроле в промышленности и др. областях [1].

Двухмерные поля скоростей.

Формируются аналогичным образом (как двумерные поля дальностей), однако их пикселы содержат уже не значения расстояний до соответствующих точек, а значения скоростей движения этих точек. Вычисление скоростей происходит на основе анализа доплеровского сдвига Доплеровский сдвиг - сдвиг частоты (и изменение длины волны) излучения, воспринимаемый приёмником, вследствие движения источника излучения и/или движения приёмника. отраженного сигнала. Данный тип изображений используется в системах различного назначения, чаще всего - в целях выделения движущихся объектов [1].

Проблема совмещения и анализа данных, полученных из разных источников, поднята в сборнике тезисов ТЗСУМО-2010 [3] и ТЗСУ-2015 [56] в работах, посвященных совмещению и анализу видеоинформации в системах комбинированного видения, а также совмещению разнородных изображений в бортовых системах.

1.5 Требования и задачи, предъявляемые к системам машинного зрения

В общих чертах [1] комплекс основных целевых задач, предъявляемых к системам машинного зрения, может быть сформулирован следующим образом:

· Калибровка сенсоров, самоориентация, самопозиционирование;

· Обнаружение объектов и изменений в сцене наблюдения;

· Слежение за объектами;

· Реконструкция поверхностей и обнаружение трёхмерных структур;

· Высокоточные измерения элементов сцены;

· Описание сцены и идентификация объектов;

· Организация зрительной обратной связи при работе управляемых устройств, манипуляторов или мобильных роботов в изменчивой среде.

Требования, предъявляемые к методам и алгоритмам машинного зрения [1]:

· Робастность

Данная проблема связана с изменчивостью изображений, полученных в реальных условиях. В список основных факторов входят:

o Помехи и шум. Возникают как из-за внешних условий (недостаток освещения, тряска камеры, плохие погодные условий), так и из-за несовершенства сенсоров, дискретизации и пр.;

o Сложный текстурированный фон, на котором происходит обнаружение объектов;

o Эффекты загораживания одних объектов другими объектами;

o Искажающие оптические эффекты (расфокусировка, дисторсия объектива, ракурсные искажения и др.);

o Эффекты резкой смены освещения, блики, тени, динамически меняющиеся сцены;

o Разнообразие и изменчивость самих объектов. Например, это может быть переменная структура (автомобильные номера, штрихкоды, текстовые струки), дефекты, временные изменения формы (движение частей объекта) и т.п.;

o Эффекты изменения среды между сенсором и объектом наблюдения (задымление, осадки, пыль, искусственные помехи);

o Несинхронность регистрации и обработки данных в динамических задачах (в частности, вопрос быстродействия);

и т.д.

· Точность

Данные алгоритмы должны обеспечивать точную локализацию объектов, которые подлежат обнаружению, или контуров объектов, подлежащих обнаружению. Т.е. требуется указать в системе координат изображения или сцены положение и размеры объекта в каком-либо смысле.

Встречающиеся случаи ошибок локализации делят на две группы: нормальные и аномальные ошибки.

Нормальная ошибка - правильная локализация объекта с некоторой позиционной или параметрической неточностью, характеризуемой количественными ошибками. Позиционные нормальные ошибки могут быть значительно меньше размера элемента изображения, уменьшаясь с величиной объекта. В таких случаях речь идет о субпиксельной локализации, или субпиксельных измерениях (особенно важна в задачах стереобнаружения, поскольку при малых параллаксах трёхмерных объектов субпиксельная привязка существенно определяет точность измерения их пространственного положения).

Аномальная ошибка - ситуация перепутывания объектов, возникновение артефактов и подобные случаи, что связано с фатальными количественными ошибками позиционирования или ложным обнаружением. Требования по исключению или ограничению уровня аномальных ошибок составляют важную часть требований к алгоритмам обнаружения.

· Вычислительная реализуемость

Реализация процедуры поиска объекта связана с угрозой лавинообразного роста требующегося числа вычислений. Особенно остро вопрос встает в системах, требующих быстродействующих вычислений в реальном времени на платформах, где массогабаритные и стоимостные характеристики по определению ограничены.

Выполнение требования реального времени является одной из основных задач области [32].

2. ОСНОВНЫЕ НАПРАВЛЕНИЯ И ПЕРСПЕКТИВНЫЕ РАЗРАБОТКИ ОБЛАСТИ КОМПЬЮТЕРНОГО ЗРЕНИЯ И СИСТЕМ ТЕХНИЧЕСКОГО ЗРЕНИЯ

2.1 Structure-From-Motion

Structure-From-Motion (SfM, построение структуры объекта по отображению движения Перевод взят из Big English-Russian Dictionary, 2012 г.) - технология реконструкции трёхмерной сцены на основе множества разноракурсных снимков и оценки положения и параметров их относительной ориентации [20].

На рисунке 2 проиллюстрирована постановка задачи SfM.

Рисунок 2 - Постановка задачи Structure-From-Motion

Одним из основных применений SfM является картография и восстановление 3D-моделей памятников культуры (cultural heritage) для последующего анализа их структуры (в том числе и для последующего их восстановления).

На рисунках 3,4 представлены результаты сшивки изображений в трёхмерную модель сцены, представленные на конференции ECCV'14 и ICCV'09 [20, 59, 9].

Рисунок 3 - Scene Chornology

Kevin Matzen, Noah Snavely. ECCV'14 [20, 9]

Рисунок 4 - Building Rome in a Day

ICCV 2009 [20, 9]

В общем случае данная задача сводится к оценке положения трёхмерных точек реальной сцены из их проекций на 2D-снимках этой сцены.

Multiple view geometry questions [21]:

· Scene geometry (structure): given 2D point matches in two or more images, where are the corresponding point in 3D?

· Correspondence (stereo matching): given a point in just one image, how does it constrain the position of the corresponding point in another image?

· Camera geometry (motion): given a set of corresponding points in two or more images, what are the camera matrices for these views?

Разберем поставленную задачу.

Положим, имеется изображений фиксированных трёхмерных точек :

где - projection matrix, - 3D-points (см. рисунок 5).

Требуется установить соответствие между двухмерными точками на проекциях и трёхмерными очками в реальном пространстве.

Рисунок 5 - Задача нахождения соответствий между положениями реальных трёхмерных точек и их плоскими проекциями

Рассмотрим в общих чертах два основных метода, использующихся в решении задачи поиска точек интереса для дальнейшего их сопоставления: SIFT и SURF. Их реализации являются наиболее распространёнными на данный момент времени, несмотря на то, что существуют и другие решения этой задачи.

2.1.1 SIFT (Scale Invariant Feature Transform)

Алгоритм в области компьютерного зрения, предназначенный для обнаружения и описания локальных признаков (характеристических точек) на изображении. Предложен в 1999 годом David Lowe. Приложения алгоритма включают в себя обнаружение объектов, построение карты и навигации роботов, сшивку изображений, распознавание жестов, отслеживание подвижных объектов и т.п.

Основной алгоритм [26] можно разделить на четыре этапа:

1. Scale-invariant feature detection Нахождение экстремумов по всем шкалам и точкам изображений. Реализуется путём вычисления разности Гауссовых функций, что позволяет находить потенциально интересные точки, которые инвариантны по отношению к растяжению и поворотам.

2. Локализация ключевых точек. В каждой точке, найденной в п.1, строится детализированная модель для уточнения положения ключевой точки и её размера.

3. Добавление ориентации. Одна или несколько ориентаций добавляются к каждой точке на основании направлений градиентов. В дальнейшем все операции производятся над полученным положением, размером и ориентациями точки. Это позволяет получить устойчивость к поворотам и растяжениям изображения.

4. Дескрипторы В контексте данной задачи - описательный элемент, инвариантный к изменению масштаба и поворота. ключевых точек. Локальные градиенты изображения измеряются по выбранной шкале в районе каждой ключевой точки. Эти данные преобразуются к виду, допускающему значительную степень изменения формы и изменения освещения. Для каждой ключевой точки строится дескриптор размером в 64 или 128 вещественных чисел.

В источнике [34] ключевые стадии приводятся как:

1. Scale-invariant feature detection;

2. Feature matching and indexing;

3. Cluster identification by Hough transform voting;

4. Model verification by linear least squares;

5. Outlier detection.

2.1.2 SURF (Speed Up Robust Feature)

Метод [26, 28, 29] разработан в 2008 году и является «ближайшим конкурентом» алгоритма SIFT. В алгоритме SURF для вычисления дескрипторов используются вейвлеты Вейвлет (wavelet - всплеск) - математическая функция, позволяющая анализировать различные частотные компоненты данных. График функции выглядит как волнообразные колебания с амплитудой, уменьшающейся до нуля вдали от начала координат. В общем случае анализ сигналов производится в плоскости вейвлет-коэффициентов (масштаб-время-уровень \ scale-time-amplitude). Вейвлет-коэффициенты определяются интегральным преобразованием сигнала. Полученные вейвлет-спектограммы принципиально отличаются от обычных спектров Фурье тем, что дают чёткую привязку спектра различных особенностей сигналов ко времени (материал взят с https://ru.wikipedia.org) Хаара (признаки Хаара, аналогичные используемым в простейших детекторах лиц, построенных на них, см. рисунки 6, 7).

Рисунок 6 - Признаки Хаара

(в фильтрах Хаара чёрные области имеют значения -1, белые +1)

Рисунок 7 - Вейвлеты Хаара, используемые для вычисления SURF-дескрипторов, и области, по которым они вычисляются

«Метод ищет особые точки с помощью матрицы Гессе. Гессиан В англоязычных источниках Hessian. функции - симметрическая квадратичная форма, описывающая поведение функции во втором порядке. Матрица этой квадратичной формы образована вторыми частными производными функции. Определитель матрицы Гессе называется определителем Гессе или гессианом» [26].

Если все производные существуют, то:

«Детерминант матрицы Гессе (т.н. гессиан) достигает экстремума в точках максимального изменения градиента яркости. Он хорошо детектирует пятна, углы и края линий. Гессиан инвариантен относительно вращения. Для каждой ключевой точки считается направление максимального изменения яркости (градиент) и масштаб, взятый из масштабного коэффициента матрицы Гессе.

Градиент в точке вычисляется с помощью фильтров Хаара. После нахождения ключевых точек, SURF формирует их дескрипторы. Дескриптор представляет собой набор из 64 (либо 128) чисел для каждой ключевой точки. Эти числа отображают флуктуации градиента вокруг ключевой точки. Поскольку ключевая точка представляет собой максимум гессиана, то это гарантирует, что в окрестности точки должны быть участки с разными градиентами. Таким образом, обеспечивается дисперсия (различие) дескрипторов для разных ключевых точек» [26].

2.1.3 Сравнение эффективности методов SIFT и SURF

На рисунке 8 представлены результаты метода SIFT и его сравнение с результатами методом SURF. Метод SIFT дает больше характерных точек и более точную их локализацию, однако имеет более медленное исполнение.

Рисунок 8 - Сравнение результатов методов SIFT и SURF

(слева) пример фотографии, полученной при аэрофотосъёмке;

(справа) результат работы SIFT на данной фотографии;

(снизу) результат работы SURF на данной фотографии [26]

Время работы SIFT в 2.5 раза больше, чем время работы SURF, однако SIFT при этом находит больше точек [26]. Недостатки SURF проявляются на сильно размытых фотографиях [30,31], при сшивке разномасштабных фотографий и при смене угла обзора.

В общем случае алгоритм SIFT является более надежным, в то время как SURF - более быстрым.

2.1.4 Сопоставление точек интереса

После того, как точки интереса найдены, их требуется сопоставить (matching), т.е. требуется установить соответствие между точками интереса на разных кадрах и сопоставленной им реальной точке в трёхмерной сцене.

На основании этих соответствий задача нахождения взаимного расположения камер сводится к решению системы уравнений. Поиск близких друг к другу многомерных векторов является одним из самых дорогостоящих с вычислительной точки зрения [26].

В статье [34] приводится метод поиска примерного ближайшего соседа (finding fast aproximate nearest neighbors), удовлетворяющий данной задаче и условиям быстродействия (работает значительно быстрее, чем линейный поиск).

Алгоритм использует рандомизированые (randomized kd-trees) и иерархичные (hierarchical k-means tree) k-мерные деревья Также известны как рандомизированные деревья поиска. Дерево, в данном контексте, представляет собой иерархическую структуру данных, в которой каждый узел имеет не более двух потомков. Для двоичного древа поиска выполняются следующие дополнительные условия: 1. оба поддрева также являются двоичными деревьями поиска; 2. у всех узлов левого поддрева произвольного узла X значения ключей данных меньше, нежели значение ключа данных самого узла X, а значения данных у всех узлов правого поддрева (того же узла X) больше, нежели значения ключа данных узла X.. Классический алгоритм для k-мерных деревьев [35] эффективен для малоразмерных пространств (low dimensions), но на пространствах большого размера быстро теряет в быстродействии.

Для обхода этой проблемы в 2008 году Silpha-Anan и Hartley предложили улучшенную версию этого алгоритма [36], который разбивает дерево на поддеревья, случайным образом, начиная с первых D измерений (dimensions, в работе [35] D принято равным 5) с наибольшей дисперсией.

Иногда сопоставляемые точки могут быть соотнесены некорректно, поэтому в алгоритмах SfM должна быть использована фильтрация сопоставлений (matches). Одним из алгоритмов для фильтрации точек является RANSAC [10] (Random Sample Consensus), который отсеивает «выпадающие» (outliers) из статистики точки.

2.2 SLAM (Simultaneous Localization and Mapping): метод одновременной навигации и составления карты

SLAM (Simultaneous Localization and Mapping) - технология одновременной реконструкции 3D-сцены и оценки положения/параметров движения камеры [20]. Этот метод используется роботами и автономными транспортными средствами для построения карты в неизвестном пространстве или для обновления карты в заранее известном пространстве с одновременным контролем текущего местоположения и пройденного пути [25].

На рисунке 9 представлены наборы данных с лазерного сканирования местности (set of laser range scans), собранные мобильным роботом, движущимся в офисном помещении (indoor-навигация) без коррекции и с использованием SLAM. Робот оценивает своё движение с использованием колесных датчиков (wheel encoders) [49].

Рисунок 9 - Correlation between robot path error and map error [49]

Как комментирует проблему Michael Monremerlo:

«The chicken-or-egg relationship between localization and mapping is a consequence of how errors in the robot's sensor readings are corrupted by error in the robot's motion. As the robot moves, its pose estimate is corrupted by motion noise. The perceived locations of objects in the world are, in turn, corrupted by both measurement noise and the error in the estimated pose of the robot. Unlike measurement noise, however, error in the robot's pose will have a systematic effect on the error in the map. In general, this effect can be stated more plainly; error in the robot's path correlates errors in the map. As a result, the true map cannot be estimated without also estimating the true path of the robot» [49].

Концепция SLAM [25] связывает два независимых процесса (построение карты и локализация) в непрерывный цикл последовательных вычислений, при котором результаты одного процесса участвуют в вычислениях другого.

Локализация [25] может быть как локальной (когда начальное местоположение робота известно и требуется найти его на карте), так и глобальной (когда карты нет и требуется установить местоположение робота в неизвестном месте).

Общую задачу SLAM можно разбить на подзадачи [23]:

· Извлечение характерных точек (landmark extraction);

· Сопоставление информации (data association);

· Оценка состояния (state estimation);

· Обновление состояния (state update);

· Обновление характерных точек (landmark update).

Существуют различные пути решения каждой подзадачи в отдельности, так что каждая часть общей задачи может быть заменена впоследствии более продвинутым алгоритмом. Технология SLAM подходит как для задачи 2D-движения (например, навигация внутри помещения робота, перемещающегося по полу), так и для задачи 3D-движения [23].

Постановка задачи SLAM при построении карты звучит следующим образом:

«Consider a mobile robot moving through an unknown, static environment. The robot executes controls and collects observations of features in the world. Both the controls and the observations are corrupted by noise. Simultaneous Localization and Mapping (SLAM) is the process of recovering a map of the environment and the path of the robot from a set of noisy controls and observations» [49].

Таким образом, надо учитывать, что методы SLAM применяются к статичному, неизменяющемуся окружению, в котором перемещается робот.

На рисунке 10 показана карта, построенная роботом при обходе пустого офиса.

Рисунок 10 - Map of the robot's environment [49]

Встает вопрос использования алгоритма в динамически изменяющейся сцене. Проблема озвучивается Montemerlo:

«Thus far, this thesis has only addressed the problem of a robot navigating within a static map. As a result, the uncertainty of the landmark locations only decrease, eventually becoming a fully correlated map. The static world assumption is reasonable in environments like planetary and underground exploration, but it is unreasonable in typical human environments such as office buildings and city streets» [49].

Решением данной проблемы может быть классификация объектов окружающей среды на два типа: статичные и динамичные. Эти классы должны расцениваться различным образом в процессе оценки положения робота. Статичные объекты могут использоваться для сопоставления ошибки карты (map error) и ошибки положения робота (robot pose error), в то время как динамичные объекты должны отслеживаться отдельно от них.

Этот подход используется рядом исследователей в работах [49], [53] и [54].

«Localization and map-based people-tracking form a chicken-or-egg problem very similar to SLAM. If the robot's true position in the map were known, determining which sensor readings correspond to dynamic objects could be done simply by map subtraction. Conversely, if the sensor readings of dynamic objects could be filtered out, then the position of the robot could be determined with maximum accuracy. When the pose of the robot and the positions of nearby people are all unknown, localization and people tracking become a joint estimation problem. Henceforth, I will refer to this estimation problem as Simultaneous Localization and People Tracking, or SLAP» [49].

На рисунке 11 показана постановка проблемы SLAP [49]:

Рисунок 11 - Simultaneous Localization and People-Tracking [49]

Здесь утрировано показана проблема совмещения двух алгоритмов и принятия решения на их основе.

Примем, что робот действует в среде, представленной на фрейме (а). Положение робота неизвестно. Человек стоит около двери №1. Напротив двери №2 стоит (тех же габаритов, что и человек) мусорный бак. Лазерные дальномеры показывают картину, представленную на b и с. Вопрос: где находится робот? Можно выдвинуть два предположения. Он может как быть (b) около двери №1 и видеть перед собой человека (динамичный объект), а может находиться около двери №2 и видеть перед собой мусорный бак (статичный объект).

Алгоритм локализации, не поддерживающий гипотезу (b), расценит человека как мусорный бак. Алгоритм отслеживания людей, который не поддерживает уже гипотезу (c) попытается отслеживать мусорный бак, как если бы это был человек В данном случае речь идет о ситуации, когда используются только лазерные дальномеры, а человек стоит неподвижно..

Решить данную проблему можно различными путями (к примеру, использовать для обнаружения людей обычные видеокамеры как основной сенсор, а лазерный дальномер только как вторичный). Несмотря на кажущуюся простоту этой задачи, алгоритмически вопрос совмещения двух различных алгоритмов представляет из себя серьезную проблему.

Также встает вопрос выбора ориентиров (landmarks). Помимо ограничения на их количество (особо серьезно встающего в EKF SLAM реализации), к ним выдвигается ряд других требований. Например, эти ориентиры должны быть легко наблюдаемы заново и с разных углов (re-observed) и выделяться из окружающей среды (distinguished from the environment) [23].

Ориентиры, которые робот использует, зависят от среды, в которой он работает. Можно сформулировать следующие правила [23]:

· Ориентиры должны быть наблюдаемыми и обнаруживаемыми с разных точек и под разными углами;

· Ориентиры должны быть достаточно обособлены, чтобы легко выделить их без смешивания друг с другом в разные моменты времени.

Прим.: здесь имеется в виду, что если у нас есть 2 разные точки-ориентира, найденные в момент времени , с позиции и под углом , то когда эти 2 точки попадут в поле зрения робота в момент , с позиции и под углом , они должны быть безошибочно узнаваемы как ранее увиденные 2 точки-ориентира, и не должны быть спутаны друг с другом или с какими-либо другими точками. В случае, если эти точки-ориентиры выбраны расположенными слишком близко друг к другу, их может быть проблемно отличить друг от друга;

· Также, ориентиров не должно быть мало (при том, что у многих методов есть верхний порог на количество точек). Количество ориентиров должно быть достаточным, чтобы робот имел достаточно информации о среде, в которой он работает, иначе он может легко потеряться;

· Ориентиры должны быть строго стационарны.

На настоящий момент существуют следующие методы SLAM (выделены те, что рассматриваются в данном обзоре):

· EKF SLAM

· FastSLAM 1.0-2.0

· L-SLAM

· Graph-Based SLAM

· Occupancy Grid SLAM

· DP-SLAM

· PTAM (Parallel Tracking and Mapping)

· LSD-SLAM

Рассмотрим ряд из них.

2.2.1 EKF SLAM (Extended Kalman Filter SLAM)

Класс алгоритмов SLAM, использующих расширенный фильтр Калмана.

Впервые предложен в 1986 году Smith and Cheeseman [50], впервые разработан в рамках рабочей системы в 1989 году Moutarlier and Chaitila [51].

На рисунке 12 продемонстрирована упрощенная схема алгоритма EKF SLAM.

Рисунок 12 - Алгоритм SLAM с использованием EKF [24]

Процесс оценки состояния системы в контексте SLAM разбивают на [22]:

1. Обновление оценки состояния системы на основе одометрических данных;

2. Обновление оценки состояния системы на основе повторно обнаруженных ориентиров;

3. Добавление новых ориентиров в систему.

Расширенный фильтр Калмана (EKF) отличается от простого фильтра Калмана тем, что может быть использован в нелинейных процессах. Он позволяет не только уточнять оценку положения робота на карте, но и положение всех обнаруженных ориентиров. Тем не менее, EKF имеет серьезный недостаток в виде ограничения на количество обнаруженных ориентиров [22].

Как отмечается в работе Michael Monremerlo:

«While the EKF has become the dominant approach to SLAM, it suffers from two well-known problems that complicate its application in large, real-world environments: quadratic complexity and sensitivity to failures in data association» [49].

Для пояснения первой проблемы примем следующие обозначения [22]:

- оценка вектора состояния динамической системы в момент времени ;

- ковариационная матрица ошибок в момент времени .

Матрица ошибок имеет размерность , где - количество обнаруженных ориентиров. На каждом этапе обновления матрицы должен быть обновлен каждый её элемент, в связи с чем сложность алгоритма будет функцией от квадрата , т.е. [22].

«The first drawback of the EKF as a solution to the SLAM problem is computational complexity. Both the computation time and memory required by the EKF scale quadratically with the number of landmarks in the map. SLAM algorithms based on the full EKF generally do not scale beyond a few hundred landmarks. In contrast, reasonably large environment models might contain millions of features» [49].

Таким образом, EKF применим в ситуации, когда окружающая среда имеет небольшое (не более нескольких сотен) легко различимых ориентиров [22].

На рисунке 13 проиллюстрировано применение расширенного фильтра Калмана в задаче SLAM.

Рисунок 13 - EKF applied to a simulated data set [49]

Рассмотрим вкратце математически аппарат метода.

Состояние мобильного робота в произвольный момент времени можно представить с помощью вектора оценки его текущего местоположения и ковариационной матрицы [22] Прим.: рассматривается пример для 2D движения.:

где - оценка координат робота по осям абсцисс и ординат, - оценка ориентации робота.

Коэффициенты ковариационной матрицы отражают меру линейной зависимости координат робота друг от друга. Диагональные элементы представляют собой среднеквадратическую ошибку оценки соответствующей координаты. При инициализации системы им должны быть присвоены значения по умолчанию, отражающие неопределенность начального положения. Как бы точна ни была информационно-измерительная система робота, имеет смысл умышленно задать ошибку оценки начального положения отличной от нуля. В противном случае, в зависимости от реализации фильтра на вычислительной машине, нулевые значения на диагональных элементах могут привести к ошибке при вычислении обратной матрицы [22].
...

Страница:

реферат "Обзор современного состояния области компьютерного зрения" скачать

Подобные документы

Применение нейронных сетей в задачах прогнозирования финансовых ситуаций и принятия решений
Анализ применения нейронных сетей для прогнозирования ситуации и принятия решений на фондовом рынке с помощью программного пакета моделирования нейронных сетей Trajan 3.0. Преобразование первичных данных, таблиц. Эргономическая оценка программы.

дипломная работа [3,8 M], добавлен 27.06.2011
Разработка программного обеспечения системы технического зрения для робота-манипулятора
Анализ состояния проблемы, обзор аналогов, выбор прототипов и постановка задачи. Достоинства и недостатки рассмотренных систем технического зрения. Определение формы и положения объекта в пространстве. Обоснование и разработка математического аппарата.

дипломная работа [2,5 M], добавлен 12.06.2013
Нейронные сети
Понятие и свойства искусственных нейронных сетей, их функциональное сходство с человеческим мозгом, принцип их работы, области использования. Экспертная система и надежность нейронных сетей. Модель искусственного нейрона с активационной функцией.

реферат [158,2 K], добавлен 16.03.2011
Использование нейронных сетей в системе Matlab
Способы применения нейронных сетей для решения различных математических и логических задач. Принципы архитектуры их построения и цели работы программных комплексов. Основные достоинства и недостатки каждой из них. Пример рекуррентной сети Элмана.

курсовая работа [377,4 K], добавлен 26.02.2015
Определение величины дисторсии цифровых изображений, формируемых системами технического зрения (СТЗ)
Оснащение робототехнических комплексов систем технического зрения. Математическая модель и векторная диаграмма дисторсии изображения. Создание эталонного изображения тестового объекта. Определение основных погрешностей формирования изображения.

курсовая работа [1,4 M], добавлен 14.06.2014
Применение нейронных сетей для прогнозирования в экономике
Исследование задачи и перспектив использования нейронных сетей на радиально-базисных функциях для прогнозирования основных экономических показателей: валовый внутренний продукт, национальный доход Украины и индекс потребительских цен. Оценка результатов.

курсовая работа [4,9 M], добавлен 14.12.2014
Применение нейронных сетей для обнаружения сетевых атак
Способы применения технологий нейронных сетей в системах обнаружения вторжений. Экспертные системы обнаружения сетевых атак. Искусственные сети, генетические алгоритмы. Преимущества и недостатки систем обнаружения вторжений на основе нейронных сетей.

контрольная работа [135,5 K], добавлен 30.11.2015
Нейроинформатика и нейросистемы
Нейрокомпьютеры и их применение в современном обществе. Некоторые характеризующие нейрокомпьютеры свойства. Задачи, решаемые с помощью нейрокомпьютеров. Типы искусственных нейронов. Классификация искусственных нейронных сетей, их достоинства и недостатки.

курсовая работа [835,9 K], добавлен 17.06.2014
Компрессия полутонового изображения
Разработка программы, предназначенной для сжатия или компрессии полутонового изображения международным стандартом JPEG. Описание метода JPEG, выдача результатов в виде декодированного изображения. Обзор методов компрессии полутонового изображения.

курсовая работа [43,5 K], добавлен 14.10.2012
Применения нейронных сетей в задачах прогнозирования финансовых ситуаций и принятия решений
Задача анализа деловой активности, факторы, влияющие на принятие решений. Современные информационные технологии и нейронные сети: принципы их работы. Исследование применения нейронных сетей в задачах прогнозирования финансовых ситуаций и принятия решений.

дипломная работа [955,3 K], добавлен 06.11.2011
Автоматизированная система колоризации полутонового изображения
Разработка приложения, целью которого ставится преобразование черно-белых полутоновых изображений в цветные. Обзор методики обработки изображения, способов преобразования изображения с помощью нейронной сети. Описания кластеризации цветового пространства.

дипломная работа [6,3 M], добавлен 17.06.2012
Нейронные сети
Простейшая сеть, состоящая из группы нейронов, образующих слой. Свойства нейрокомпьютеров (компьютеров на основе нейронных сетей), привлекательных с точки зрения их практического использования. Модели нейронных сетей. Персептрон и сеть Кохонена.

реферат [162,9 K], добавлен 30.09.2013
Самообучающиеся и гибридные сети
Рост активности в области теории и технической реализации искусственных нейронных сетей. Основные архитектуры нейронных сетей, их общие и функциональные свойства и наиболее распространенные алгоритмы обучения. Решение проблемы мертвых нейронов.

реферат [347,6 K], добавлен 17.12.2011
Обработка изображения в двоичных файлах
Информация о графических форматах. Хранение изображения в программе. Очередь как вспомогательная структура данных. Загрузка изображения из двоичного файла. Операции с изображением. Уменьшение разрешающей способности. Увеличение размера изображения.

курсовая работа [1,1 M], добавлен 29.06.2013
Сжатие данных
Методы кодирования изображения: кодированием длины серии, частотно-зависимое кодирование, метод Лемпеля-Зива. Размер строки при 16-битном цвете. Расчет размера всего исходного изображения. Примеры качественного и некачественного сжатия изображения.

презентация [2,0 M], добавлен 22.10.2013
Нейрокибернетика
Достоинства, недостатки и применение нейронных сетей. Преимущества мозга, как вычислительного устройства, над современными вычислительными машинами. Структурные части, виды и активационные функции нейрона. Обобщенное представление искусственного нейрона.

презентация [145,5 K], добавлен 03.01.2014
Применение нейронных сетей для формализации процессов управления. Сети Хопфилда
Применение нейрокомпьютеров на российском финансовом рынке. Прогнозирование временных рядов на основе нейросетевых методов обработки. Определение курсов облигаций и акций предприятий. Применение нейронных сетей к задачам анализа биржевой деятельности.

курсовая работа [527,2 K], добавлен 28.05.2009
Применение нейронных сетей в управлении формованием бумажного полотна
Описание технологического процесса напуска бумаги. Конструкция бумагоделательной машины. Обоснование применения нейронных сетей в управлении формованием бумажного полотна. Математическая модель нейрона. Моделирование двух структур нейронных сетей.

курсовая работа [1,5 M], добавлен 15.10.2012
Использование PlanTracer и RasterDesk при проектировании структурированных кабельных сетей
Основные направления деятельности компании Step Logic в области сетевой интеграции. Использование растрового изображения в качестве подложки. Особенности применение программы Raster Desk и PlanTracer. Отключение видимости при распознавании объекта.

доклад [599,1 K], добавлен 04.04.2013
Растровая графика
Определение понятия "пиксел", его применение в компьютерной графике, коэффициент прямоугольности изображения. Характеристика файлов с расширениями bmp, gif, jpg, png, pcx, их особенности, достоинства и недостатки. Сравнение форматов графических файлов.

реферат [17,9 K], добавлен 05.04.2009

Другие документы, подобные "Обзор современного состояния области компьютерного зрения"

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.

Обзор современного состояния области компьютерного зрения

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

АННОТАЦИЯ

Исупова Т.Д. Обзор современного состояния компьютерного зрения. - Челябинск: ЮУрГУ, КТУР-1095, 76 с., 60 ил, 2 таб., библиогр. список - 62 наим.

Цель реферата - отразить текущее состояние области компьютерного зрения и систем технического зрения.

Задачи реферата - изучить, обобщить и проанализировать текущее состояние области компьютерного зрения и систем технического зрения.

ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ

В настоящее время одним из важнейших направлений развития искусственного интеллекта является т.н. направление компьютерного зрения.

Как отмечает Ю.В. Визильтер в книге «Обработка и анализ изображений»: изображение навигация нейронный сеть

1. ТЕРМИНОЛОГИЯ И ОБЩАЯ ПОСТАНОВКА ЗАДАЧИ «ПОНИМАНИЯ ИЗОБРАЖЕНИЯ»

1.1 Терминология области

Нижеприведенные термины могут встречаться в литературе и как синонимы, и как обозначение различных научных дисциплин и областей.

В данном обзоре будет использоваться следующая их трактовка:

1.2 Причины сложности задачи «понимания изображений»

В общих чертах можно выделить три причины сложности задачи понимания изображения [1]:

1.3 Уровни анализа

1.4 Изображения различной природы и области их использования

Изображения, полученные с помощью гамма-излучения.

Используются в основном медицинской радиологии и астрономических наблюдениях [1].

Рентгеновские изображения.

Ультрафиолетовые изображения.

Используются в производственном контроле, микроскопии, лазерной технике, медицинских и астрономических наблюдениях [1].

Инфракрасный диапазон (разбитый на тепловой ИК-диапазон и ближний ИК).

Микроволновые изображения.

Радиоволновые изображения.

Акустические изображения.

Активно используются в геологии, промышленности и медицине [1].

Ультразвуковые изображения.

Двумерные поля дальностей.

Двухмерные поля скоростей.

1.5 Требования и задачи, предъявляемые к системам машинного зрения

В общих чертах [1] комплекс основных целевых задач, предъявляемых к системам машинного зрения, может быть сформулирован следующим образом:

2. ОСНОВНЫЕ НАПРАВЛЕНИЯ И ПЕРСПЕКТИВНЫЕ РАЗРАБОТКИ ОБЛАСТИ КОМПЬЮТЕРНОГО ЗРЕНИЯ И СИСТЕМ ТЕХНИЧЕСКОГО ЗРЕНИЯ

2.1 Structure-From-Motion

На рисунке 2 проиллюстрирована постановка задачи SfM.

Рисунок 2 - Постановка задачи Structure-From-Motion

На рисунках 3,4 представлены результаты сшивки изображений в трёхмерную модель сцены, представленные на конференции ECCV'14 и ICCV'09 [20, 59, 9].

Рисунок 3 - Scene Chornology

Kevin Matzen, Noah Snavely. ECCV'14 [20, 9]

Рисунок 4 - Building Rome in a Day

ICCV 2009 [20, 9]

В общем случае данная задача сводится к оценке положения трёхмерных точек реальной сцены из их проекций на 2D-снимках этой сцены.

Multiple view geometry questions [21]:

2.1.1 SIFT (Scale Invariant Feature Transform)

Основной алгоритм [26] можно разделить на четыре этапа:

2.1.2 SURF (Speed Up Robust Feature)

Рисунок 6 - Признаки Хаара

(в фильтрах Хаара чёрные области имеют значения -1, белые +1)

Рисунок 7 - Вейвлеты Хаара, используемые для вычисления SURF-дескрипторов, и области, по которым они вычисляются

Если все производные существуют, то:

2.1.3 Сравнение эффективности методов SIFT и SURF

Рисунок 8 - Сравнение результатов методов SIFT и SURF

(слева) пример фотографии, полученной при аэрофотосъёмке;

(справа) результат работы SIFT на данной фотографии;

(снизу) результат работы SURF на данной фотографии [26]

В общем случае алгоритм SIFT является более надежным, в то время как SURF - более быстрым.

2.1.4 Сопоставление точек интереса

2.2 SLAM (Simultaneous Localization and Mapping): метод одновременной навигации и составления карты

Рисунок 9 - Correlation between robot path error and map error [49]

Как комментирует проблему Michael Monremerlo:

Общую задачу SLAM можно разбить на подзадачи [23]:

2.2.1 EKF SLAM (Extended Kalman Filter SLAM)

Класс алгоритмов SLAM, использующих расширенный фильтр Калмана.

Впервые предложен в 1986 году Smith and Cheeseman [50], впервые разработан в рамках рабочей системы в 1989 году Moutarlier and Chaitila [51].

На рисунке 12 продемонстрирована упрощенная схема алгоритма EKF SLAM.

Рисунок 12 - Алгоритм SLAM с использованием EKF [24]

Процесс оценки состояния системы в контексте SLAM разбивают на [22]:

Подобные документы