Компьютерное зрение. Цифровая обработка изображений

Потребность в разработке систем распознавания буквенно-символьной информации документов. Формирование цифровых изображений двумерных или трехмерных сцен с помощью датчиков. Модификация пикселей в малых окрестностях. Изменение тонового распределения.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 17.05.2016
Размер файла 4,9 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

(рисунок 9. комбинация нескольких изображений)

В другом примере новые городские постройки могут быть выявлены путем вычитания изображения с аэрофотосъемкой города пять лет назад из изображения, полученного недавно.

Сложение изображений также является полезной операцией. На рисунке 10 показано изображение загородного дома, "добавленного" к изображению мегаполиса.

(рисунок 10. комбинация нескольких изображений)

3.6 Формирование неграфических описаний

Высокоуровневые операции обычно формируют неграфические описания изображений, т.е. структуры данных, не являющиеся изображениями. На рисунке 11 показано неграфическое описание изображения бактерий.

(рисунок 11. неграфическое описание)

В другой важной задаче графическое изображение может быть сканированной журнальной статьей, а выходным представлением - гипертекстовая структура, содержащая части распознанного текста и рисунки из статьи. Еще один пример (рисунок 12) - система машинного зрения, которая должна в качестве выходных данных сформировать набор из трех распознанных объектов, для каждого указать идентификационный код, три параметра положения и три параметра ориентации.

(рис. 12 распознавание объектов)

Это описание сцены, в свою очередь, может быть передано в подсистему планирования движения для осуществления взаимодействия робота-манипулятора с этими тремя деталями.

Раздел 4. Программные примеры

4.1 ABBYY FineReader

Заводя разговор о функциональной начинке FineReader, первым делом следует вкратце рассказать о трех базовых принципах -- целостности, целенаправленности и адаптивности (Integrity, Purposefulness and Adaptability, сокращенно IPA), лежащих в основе OCR-решений ABBYY и применяющихся на всех стадиях и уровнях обработки документов. Принципы эти взяты не с потолка и продиктованы многолетними научными исследованиями о зрительном восприятии объектов человеком, и именно благодаря им технологии распознавания ABBYY могут принимать решения, самообучаться и эволюционировать.

Согласно первому правилу -- принципу целостности (integrity) -- наблюдаемый объект всегда рассматривается как целое, состоящее из множества взаимосвязанных частей. Принцип целенаправленности (purposefulness) говорит, что любая интерпретация данных должна преследовать какую-то цель. Таким образом, распознавание -- это процесс выдвижения гипотез обо всем объекте целиком и целенаправленная их проверка. Третий принцип -- адаптивности (adaptability) -- подразумевает способность системы к самостоятельному обучению и умению использовать ранее накопленные знания об объектах. Полученная при распознавании информация упорядочивается, сохраняется и используется впоследствии при решении аналогичных задач.

В соответствии с ключевыми положениями IPA, разбираемый ABBYY FineReader фрагмент изображения, согласно принципу целостности, будет интерпретирован как некий объект (символ), только если на нем присутствуют все структурные элементы с соответствующими взаимосвязями. При этом система выдвигает ряд гипотез относительно того, на что похож обнаруженный объект, затем они целенаправленно проверяются с использованием принципа адаптивности, подразумевающего наличие накопленных ранее сведений о возможных начертаниях символа в распознаваемом документе.

4.1.1 Предварительная обработка и структурный анализ изображения

На этапе предварительной обработки и анализа графических данных перед любой OCR-системой стоят две основные задачи: подготовка изображения к процедурам распознавания и выявление логической структуры документа -- с тем, чтобы в дальнейшем иметь возможность воссоздать ее в электронном виде.

Для решения первой задачи в ABBYY FineReader задействован механизм бинаризации, то есть преобразования цветного или полутонового образа в монохромный (глубина цвета 1 бит). Бинаризация существенно ускоряет процесс анализа графических элементов. В случае обработки документов с подложенными текстурами и фоновыми рисунками в дело вступает система адаптивной бинаризации (Adaptive Binarization, AB), исследующая яркость фона и насыщенность черного цвета на протяжении всей строки или слова и подбирающая оптимальные параметры преобразования для каждого фрагмента изображения по отдельности.

(рисунок 13. структурный анализ изображения)

С точки зрения технической реализации идея AB заключается в использовании обратной связи для оценки качества преобразования того или иного участка изображения. Если система видит, что после бинаризации появляется куча мелких элементов и ломаных кривых, не представляющих связные области, похожие на символы, то она автоматически корректирует порог бинаризации на конкретном участке до тех пор, пока не останется картинка, похожая на чистый текст. В случае обработки текстов со сложным фоном могут слушаться погрешности, и от этого никуда не деться.

Вторая задача в ABBYY FineReader решается с использованием алгоритмов многоуровневого анализа документов (Multilevel Document Analysis, MDA), осуществляющих разбор последних поэтапно, сверху вниз, посредством деления страниц на объекты низших уровней вплоть до отдельных символов. При этом обработка изображений осуществляется в полном соответствии с упомянутыми выше принципами IPA: в первую очередь выдвигаются гипотезы относительно типов обнаруженных объектов, затем они целенаправленно проверяются с учетом зафиксированных ранее особенностей данного документа.

(рисунок 14. многоуровневый анализ документа)

Ключевую роль в процессе предварительного анализа изображения и последующей сборки обработанных данных в единое целое играет адаптивная технология распознавания документов ADRT (Adaptive Document Recognition Technology). Лежащие в ее основе алгоритмы «смотрят» на контекст документа, находят общие структурные элементы, выявляют связи между ними и сохраняют полученные сведения для использования на финальных этапах синтеза либо экспорта данных в выбранный пользователем формат. Система распознает колонтитулы, нумерацию страниц, разноуровневые заголовки, подписи к картинкам, а также стили шрифтов и прочие элементы. ADRT буквально «понимает» структуру документа и «знает», где должны находиться те или иные элементы, в каком порядке и в каком формате. Так, например, верхний колонтитул будет воссоздан как настоящее поле колонтитула при конвертировании документа в Word, и пользователь при необходимости сможет отредактировать или удалить его на всех страницах одновременно.

4.1.2 Распознавание символов. Классификаторы

Для распознавания символов в программе FineReader используются специальные механизмы, именуемые классификаторами и порождающие список гипотез, которые затем целенаправленно проверяются. Входными данными для классификаторов можесть служить не только графическая информация, но и сформированный в ходе распознавания список гипотез. В последнем случае классификатор не выдвигает новых гипотез, а лишь изменяет веса имеющихся, подтверждая или опровергая их. Такой подход, в котором также четко прослеживаются принципы IPA, обеспечивает более интеллектуальный анализ изображения и наиболее точное распознавание документа.

(рисунок 15. классификаторы)

В OCR-решениях ABBYY задействованы шесть классификаторов -- растровый, признаковый, признаковый дифференциальный, контурный, структурный и структурный дифференциальный, применяющиеся в зависимости от контекста документа, входных параметров изображения и задач распознавания. Набор используемых классификаторов во многом зависит от сложности обрабатываемого изображения и результатов первого прохода распознавания.

Рассмотрим вкратце свойства и особенности каждого из перечисленных классификаторов.

Растровый классификатор. Один из самых простых и быстрых классификаторов, принцип действия которого основан на прямом сравнении изображения символа с эталоном. Степень несходства при этом вычисляется как количество несовпадающих пикселей. Для обеспечения приемлемой точности растрового классификатора требуется предварительная обработка изображения: нормализация размера, наклона и толщины штриха. Эталон для каждого класса обычно получают, усредняя изображения символов обучающей выборки. В OCR-решениях ABBYY растровый классификатор, как правило, используется на начальных этапах распознавания для оперативного порождения предварительного списка гипотез.

Признаковый классификатор. Логика работы этого классификатора заключается в формировании для каждого изображения символа N-мерного вектора признаков и его последующем сравнении с набором эталонных векторов той же размерности. Формирование вектора (извлечение признаков) производится во время анализа предварительно подготовленного изображения. Эталон для каждого класса получают путем аналогичной обработки символов обучающей выборки. Назначение признакового классификатора -- то же, что у растрового: быстрое порождение списка предварительных гипотез.

Признаковый дифференциальный классификатор. В задачи этого модуля входит обработка похожих друг на друга объектов, таких, например, как буква «m» и сочетание «rn». Он анализирует только те области изображения, где может находиться информация, позволяющая отдать предпочтение одному из вариантов. Так, в случае с «m» и «rn» ключом к ответу служит наличие и ширина разрыва в месте касания предполагаемых букв. Признаковый дифференциальный классификатор представляет собой набор признаковых классификаторов, оперирующих полученными для каждой пары схожих символов эталонами.

Контурный классификатор. Первоначально был создан и использовался для распознавания рукописного текста средствами ICR-технологий (Intelligent Character Recognition), затем был успешно применен и для обработки печатных документов. Механизм работы во многом схож с принципом действия признакового классификатора, а различие состоит в том, что для извлечения признаков контурный классификатор использует контуры, предварительно выделенные на изображении символа.

Структурный классификатор. Еще один классификатор, заимствованный из мира ICR-систем и анализирующий, как следует из названия, структуру символов: различные составляющие элементы, куски окружностей и отрезков, фрагменты, соединения, крайние точки, разрывы и тому подобное. Реализация структурного классификатора позволила разработчикам ABBYY избавиться от сбоев OCR-платформы при обработке букв различного размера и создать шрифтонезависимое решение, отрабатывающее на завершающих этапах распознавания. Входными данными для структурного классификатора являются изображение символа и ранжированный список гипотез, сформированный по результатам работы остальных распознавателей. Собственных гипотез не выдвигает, подтверждая либо опровергая ранее выдвинутые гипотезы.

Структурно-дифференциальный классификатор. Как и признаково-дифференциальный, этот классификатор решает задачи различения похожих объектов, например таких, как символы C и G. Анализируя соответствующие части изображения, вычисляя значения признаков, структурно-дифференциальный классификатор позволяет различать каждую конкретную пару символов, опираясь на накопленные при обучении сведения. Характеризуется высокой точностью распознавания и требовательностью к вычислительным ресурсам компьютера. Используется в основном для обработки тех пар символов, которые не удалось хорошо различить признаковым дифференциальным классификатором.

4.1.3 Структурирование гипотез. Словарная проверка

По приведенным выше рисункам видно, насколько внушительным может быть объем генерируемых классификаторами на каждом логическом уровне документа гипотез. С целью оптимизации проверки оных в ABBYY FineReader задействован алгоритм обработки, предусматривающий структурирование гипотез в составе многоуровневых структур -- моделей различных типов (словарное слово, несловарное слово, арабские цифры, римские цифры, URL, регулярное выражение и проч.). В результате такого структурирования количество подлежащих проверке гипотез существенно сокращается, и последующая проверка происходит максимально быстро и эффективно.

Чтобы читателю было проще вникнуть в механизм структурирования гипотез, рассмотрим его работу на примере слова turn. Предположим, что в процессе обработки данного слова системой было выдвинуто две гипотезы относительно возможного деления на символы: первая гипотеза соответствует прочтению tum, вторая -- turn. Распознаватель, обработав изображения символов, предложил для каждого варианта деления некоторый ряд гипотез. Все они упорядочены в рамках структуры, строки которой соответствуют различным моделям.

(рисунок 16. словарная проверка)

В приведенном примере произойдет следующее: поскольку оценка гипотез, порожденных моделью английского слова, больше, чем гипотез от модели русского слова, то английские гипотезы попадут в начало списка. Гипотеза чисел будет иметь низкую оценку. После этого активируется проверка по словарю, которая подтвердит, что в словаре английского языка слова tum нет, а turn -- есть. Следовательно, гипотеза относительно слова turn приобретет еще больший вес, что позволит ей в итоге оказаться доминирующей, а программе -- без ошибок распознать символы. Важно отметить, что в OCR-системах ABBYY для некоторых языков предусмотрены словари и морфологические модели, которые позволяют генерировать все допустимые в языке словоформы. FineReader 11, например, имеет морфологическую поддержку 45 языков.

4.1.4 Сборка электронного документа

Реконструкция обработанного документа осуществляется FineReader в два этапа. Первый этап -- страничный синтез -- запускается на каждой странице сразу после выполнения соответствующих OCR-процедур, второй -- документный синтез -- начинает работу после распознавания всех страниц документа. Свою лепту на этапе синтеза документа вносит и технология ADRT, общие принципы и методы работы которой были рассмотрены ранее. Повторяясь, скажем, что именно благодаря им OCR-решения ABBYY могут практически «видеть» весь документ целиком и распознавать его не просто как набор символов и элементов, а как организованную, логически структурированную сущность.

4.2 OpenCV

Количество новых решений в сфере компьютерного зрения и его приложений неуклонно растет, это разнообразная и динамически развивающаяся отрасль науки и техники. Область применения технологии весьма обширна. Это и обработка медицинских изображений, и управление производственными процессами, контроль качества и корректности сборки продукции (например, печатных плат). Системы дополненной реальности, системы автономной навигации, применения в робототехнике. Интеллектуальные системы видеонаблюдения, идентификация личности. Одной и последних актуальных задач в рамках интеграции систем безопасности, является распознавание возгорания и пожара с камеры охранной системы видеонаблюдения.

На практике разработки в области компьютерного зрения в основном носят частный характер и применяются для решения отдельных конкретных задач, однако применяемые при этом алгоритмы становятся все более общими. Именно такие, общие для разных задач алгоритмы собраны в библиотеке OpenCV.

4.2.1 Архитектура и возможности библиотеки

OpenCV (англ. Open Source Computer Vision Library) -- библиотека алгоритмов компьютерного зрения, обработки изображений и численных алгоритмов общего назначения с открытым кодом. Изначально реализована на C/C++, позже портирована на множество языков и платформ, например на C#, Java, Python, Ruby, Matlab, Lua и др. Эта библиотека весьма популярна за счёт своей открытости и возможности бесплатного использования как в учебных, так и коммерческих целях - она распространяется по условиям лицензии BSD.

Примечательно, что до 1-й версии библиотека разрабатывалась российской командой в Центре разработки программного обеспечения Intel в Нижнем Новгороде.

В версии 2.2 структура библиотека была разделена на небольшие модули по функциональному использованию:

opencv_core -- ядро: базовые структуры, вычисления (математические функции, генерация псевдослучайных чисел, DFT, DCT, ввод/вывод в XML и т.п.)

opencv_imgproc -- обработка изображений (фильтры, преобразования и т. д.).

opencv_highgui -- простой UI, загрузка/сохранение изображений и видео.

opencv_ml -- методы и модели машинного обучения (SVM, деревья принятия решений и т. д.).

opencv_features2d -- различные дескрипторы (SURF).

opencv_video -- анализ движения и отслеживание объектов (оптический поток, шаблоны движения, устранение фона).

opencv_objdetect -- детектирование объектов на изображении (вейвлеты Хаара, HOG и т. д.).

opencv_calib3d -- калибровка камеры, поиск стерео-соответстсвия и элементы обработки трехмерных данных.

opencv_flann -- библиотека быстрого поиска ближайших соседей (FLANN).

opencv_contrib -- сопутствующий код, еще не готовый для применения.

opencv_legacy -- устаревший код, сохраненный ради обратной совместимости.

opencv_gpu -- ускорение некоторых функций OpenCV за счет CUDA (NVidia).

На платформах Intel поддерживается дополнительное ускорение алгоритмов за счет Intel® Performance Libraries. А также библиотека поддерживает IPP (Integrated Performance Primitives, поддерживает многоядерность и содержит в себе оптимизированные функции для обработки мультимедийных данных) и MKL (методы для решения основных задач линейной алгебры и дискретные алгоритмы преобразования Фурье). OpenCV способна автоматически обнаруживать присутствие IPP и MKL и использовать их для ускорения обработки.

Заключение

В представленной квалификационной работе было рассмотрено понятие компьютерного зрения и его задачи, было уделено внимание формированию цифровых изображений и способам их представления конечному пользователю, были рассмотрены способы их модификаций и обработки. Также были получены знания о работе специализированного программного обеспечения, построенного на принципах компьютерного зрения.

Таким образом, считаю, что все поставленные передо мной цели достигнуты.

Список литературы

Л. Шапиро, Дж Стокман "Компьютерное зрение"

Р. Гонсалес, Р. Вудс «Цифровая обработка изображений»

Форсайт, Понс «Компьютерное зрение, Современный подход»

Р.Гонсалес, Р.Вудс, «Цифровая обработка изображений», ISBN 5-94836- 028-8, изд-во: Техносфера, Москва, 2005. - 1072 с.

Размещено на Allbest.ru

...

Подобные документы

  • Основы программирования на языке VB.NET. Область применения трехмерных изображений. Форматы хранения пакетов инженерной графики. Преимущества трехмерного моделирования. Разработка программы по вращению трехмерных изображений на языках VB.NET и VRML.

    курсовая работа [195,1 K], добавлен 11.03.2013

  • Описание и изучение техники построения плоских и трехмерных изображений чертежей машиностроительных деталей средствами компьютерной графики: втулка, гайка, штуцер. Выполнение упрощенного теоретического чертежа судна на плоскости: бок, корпус, полуширота.

    курсовая работа [832,6 K], добавлен 15.08.2012

  • Обработка изображений на современных вычислительных устройствах. Устройство и представление различных форматов изображений. Исследование алгоритмов обработки изображений на базе различных архитектур. Сжатие изображений на основе сверточных нейросетей.

    дипломная работа [6,1 M], добавлен 03.06.2022

  • История появления и основные понятия графического дизайна. Выявление главных преимуществ и недостатков недеструктивной обработки изображений. Сравнение деструктивной и недеструктивной обработки изображений. Сущность и особенности двухмерной графики.

    реферат [5,2 M], добавлен 05.05.2023

  • Разработка алгоритма формирования относительных параметров для минюций. Подбор параметров системы допусков и критериев схожести при сравнении отпечатков. Метод пригоден для распознавания битовых изображений: символьной информации, шрифтов и подписей.

    дипломная работа [4,0 M], добавлен 23.06.2008

  • Выполнение геометрической коррекции сканированного листа карты Украины масштаба 1:1000000 в среде Erdas. Возможности выявления объектов с использованием радиолокационных снимков. Создание цифровых моделей рельефа и перспективных изображений местности.

    курсовая работа [2,0 M], добавлен 17.12.2013

  • Понятие и цели моделирования информационных систем, классификация их видов. Современные технологии в горной инженерии. Изучение создания двумерных и трехмерных проектов различной степени сложности с помощью системы автоматизированного проектирования.

    реферат [1022,2 K], добавлен 15.02.2014

  • Методы предобработки изображений текстовых символов. Статистические распределения точек. Интегральные преобразования и структурный анализ. Реализация алгоритма распознавания букв. Анализ алгоритмов оптического распознавания символов. Сравнение с эталоном.

    курсовая работа [2,1 M], добавлен 20.09.2014

  • Оптико-электронная система идентификации объектов подвижного состава железнодорожного транспорта. Автоматический комплекс распознавания автомобильных номеров. Принципы и этапы работы систем оптического распознавания. Особенности реализации алгоритмов.

    дипломная работа [887,3 K], добавлен 26.11.2013

  • Растровая графика, составление графических изображений из отдельных точек (пикселей). Растровые графические редакторы. Векторная графика - построение изображения из простых объектов. Достоинства, недостатки и применение растровой и векторной графики.

    презентация [7,8 K], добавлен 06.01.2014

  • Анализ существующих методов масштабирования изображений. Повышение скорости обработки и изменения картинок. Алгоритм масштабирования с использованием параллелизма. Отбор пикселей для правильного расчета градиента. Выбор метода интерполяции изображения.

    курсовая работа [5,8 M], добавлен 17.06.2017

  • Растровые и векторные графические редакторы. Форматы файлов, используемые для хранения графических изображений. Графические редакторы, используемые для создания изображений. Редакторы для создания трехмерных изображений. Создание графического редактора.

    курсовая работа [306,5 K], добавлен 23.08.2013

  • Особенности создания цифровых топографических карт и планов. Используемые технические средства, программное обеспечение. Создание цифровых карт по материалам полевых измерений. Цифрование картографических изображений. Прикладные задачи картографии.

    курсовая работа [5,3 M], добавлен 31.05.2014

  • Компьютерная графика как наука, предметом изучения которой является создание, хранение и обработка моделей и их изображений с помощью ЭВМ. Области применения графических редакторов: Adobe Photoshop и Illustrator, Corel Draw. Растровая и векторная графика.

    презентация [31,7 M], добавлен 17.01.2012

  • Анализ дефектных изображений. Константная неисправность элемента матрицы как причина "битых пикселей". Разработка и реализация в среде программного обеспечения Microsoft Visual Studio фильтра, восстанавливающего "битые пиксели" в дефектных изображениях.

    реферат [1,2 M], добавлен 11.06.2012

  • Цифровые рентгенографические системы. Методы автоматического анализа изображений в среде MatLab. Анализ рентгеновского изображения. Фильтрация, сегментация, улучшение изображений. Аппаратурные возможности предварительной нормализации изображений.

    курсовая работа [890,9 K], добавлен 07.12.2013

  • Методы создания двумерных и трехмерных изображений. Классификация средств компьютерной графики и анимации. Системы для работы с видео и компоновки. Обзор программных продуктов для создания презентаций, двумерной и трехмерной анимации, 3D-моделирования.

    реферат [30,5 K], добавлен 25.03.2015

  • Описание математических методов представления и обработки графических изображений. Описание разработанного программного дополнения. Описание функций и их атрибутов. Представление и обработка графических изображений. Результаты тестирования программы.

    курсовая работа [1,7 M], добавлен 27.01.2015

  • Типы изображений (черно-белые, полутоновые, цветные) и их форматы. Устройства, создающие цифровые изображения, и их параметры. Применение и характеристики методов сжатия изображений. Поиск по содержимому в базах данных изображений. Структуры баз данных.

    презентация [360,4 K], добавлен 11.10.2013

  • Искусственные нейронные сети как одна из широко известных и используемых моделей машинного обучения. Знакомство с особенностями разработки системы распознавания изображений на основе аппарата искусственных нейронных сетей. Анализ типов машинного обучения.

    дипломная работа [1,8 M], добавлен 08.02.2017

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.