Главная Коллекция "Revolution" Программирование, компьютеры и кибернетика Обнаружение текстовых регионов на изображениях с использованием модифицированного детектора FASText

Обнаружение текстовых регионов на изображениях с использованием модифицированного детектора FASText

Реализация и описание метода обнаружения текстовых регионов на изображении с использованием модифицированного детектора FASText. Сравнение интенсивности рядом лежащих пикселей между собой для определения ширины штриха и поиска специфичных ключевых точек.

Рубрика	Программирование, компьютеры и кибернетика
Вид	статья
Язык	русский
Дата добавления	29.07.2018
Размер файла	19,5 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В¤Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В°Р В Р’В Р вЂ™Р’В Р В Р вЂ Р Р†Р вЂљРЎвЂєР Р†Р вЂљРІР‚СљР В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В» Р В Р’В Р вЂ™Р’В Р В Р’В Р Р†Р вЂљР’В¦Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’Вµ Р В Р’В Р вЂ™Р’В Р В Р’В Р Р†Р вЂљР’В Р В Р’В Р В Р вЂ№Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РІР‚вЂњР В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В±Р В Р’В Р В Р вЂ№Р В Р’В Р Р†Р вЂљРЎв„ўР В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В°Р В Р’В Р вЂ™Р’В Р В Р’В Р Р†Р вЂљР’В¦

Р В Р’В Р вЂ™Р’В Р В Р Р‹Р Р†Р вЂљРЎвЂќР В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В±Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В·Р В Р’В Р вЂ™Р’В Р В Р Р‹Р Р†Р вЂљРЎС›Р В Р’В Р В Р вЂ№Р В Р’В Р Р†Р вЂљРЎв„ў

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Национальный исследовательский университет Московский институт электронной техники

Кафедра систем автоматического управления и контроля

Обнаружение текстовых регионов на изображениях с использованием модифицированного детектора FASText

магистрант Хрулев Павел Алексеевич

магистрант Логвин Василий Игоревич

Аннотация

Предложен метод обнаружения текстовых регионов на изображении с использованием модифицированного детектора FASText. В основе алгоритма лежит сравнение интенсивности рядом лежащих пикселей между собой для определения ширины штриха и поиска специфичных ключевых точек. Для улучшения характеристик работы детектора был использован алгоритм неточной локализации текстовых регионов и повышения их контрастности. Работа алгоритма проверена на стандартном наборе изображений, представленном на конференции ICDAR 2013.

Ключевые слова: компьютерное зрение, обработка изображений, обнаружение текста, текстовый регион.

Abstract

Proposed text region localization detector - modified FASText. Detector based on pixel intensity comparison for searching stroke-specific keypoints. The stroke-specific keypoints produce 2 times less region segmentations and still detects 25% more characters than the commonly exploited MSER detector and the process is 4 times faster. Algorithm of increasing the contrast of text was used to improve the performance of the original FASText. Algorithm performance was tested on ICDAR 2013 images dataset.

Keywords: computer vision, image processing, text localization, text region.

С распространением Интернета и различных мобильных устройств произошел огромный рост генерации разнообразного фото- и видеоконтента, содержащего различные сцены из жизни людей. Этот контент содержит большое количество информации, которую можно обнаружить и распознать для дальнейшего использования. В качестве такой информации могут выступать различные объекты, действия, текст. Распознавание этой информации позволяет описать сцены из жизни на языке, понятном не только человеку, но и компьютеру. Для обнаружения и распознавания объектов используются методы компьютерного зрения.

При распознавании объектов из фото- и видеоконтента одной из самых интересных и актуальных задач является задача обнаружения и распознавания текста. Текст является очень важным источником информации. Методы его обнаружения и распознавания применяются в большом числе прикладных приложений, таких как поиск определенной информации по фото- и видеофрагментам, навигация автоматических устройств, перевод текста в реальном времени, классификация фото- и видеоконтента. обнаружение текстовый изображение пиксель

Определение местонахождения и распознавание текста в сценах окружающего нас мира является сложной задачей. Основные трудности можно разделить на три категории:

1. Разнообразие в представлении текста. В сравнении с обработкой документов, когда все слова имеют один цвет, шрифт и расположение, а также лежат на одном белом фоне, обработка текста из различных сцен жизни несет следующие трудности: слова могут быть расположены в разных местах, могут иметь разный цвет, направление и масштаб.

2. Сложность фонового изображения. Текст может находиться где угодно. Такие элементы изображения, как знаки, различные декорации, узоры, могут быть неотличимы от текста, вследствие чего возникает много ошибок при определении реального местоположения текста.

3. Влияние помех. На распознавание текста также могут отрицательно влиять многочисленные внешние факторы, такие как шум, размытие, плохое разрешение и так далее.

Для решения задачи определения местоположения текста используется большое число различных алгоритмов, основанных на использовании локальных особенностей изображений. Одним из таких алгоритмов является алгоритм FASText [2].

Алгоритм FASText. FASText представляет собой алгоритм, основанный на использовании локальных особенностей изображения. В ходе его работы происходит поиск ключевых точек, которые затем объединяются в текстовые регионы. Он работает значительно быстрее, чем схожие с ним и широко известные алгоритмы SWT [3] и MSER [6]. Также в результате его работы происходит гораздо меньше ложных срабатываний. Основы работы алгоритма описаны далее.

Основная идея работы алгоритмов SWT, MSER, FASText заключается в том, что буквы и слова на изображении, как правило, имеют постоянную толщину штриха [1]. Для работы со штрихом в алгоритме FASText вводится понятие ключевой точки. Каждая ключевая точка представляет собой один пиксель изображения. Ключевая точка определяет, является ли пиксель частью текста. В алгоритме FASText определены два класса ключевых точек:

1. Точка окончания штриха.

2. Точка изгиба штриха.

Для поиска ключевых точек происходит сравнение интенсивности рассматриваемого пикселя с интенсивностями пикселей, расположенных внутри круга, обрамляющего рассматриваемый пиксель. Диаметр круга является параметром данного алгоритма. Обычно используется круг диаметром 12 пикселей. Определение принадлежности пикселя к одному из классов ключевых точек происходит с использованием эвристик, описанных в работе [2]. Каждый пиксель вокруг рассматриваемого помечается определенным символом в зависимости от того, насколько различна его интенсивность в сравнении с рассматриваемым. Существует три вида символов:

1. Темнее.

2. Ярче.

3. Подобен.

При этом используется параметр алгоритма «смещение», определяющий компромисс между неточностью в работе алгоритма и числом пропущенных текстовых символов.

После определения ключевых точек происходит их сегментация для формирования символов и отделения их от фона. При этом происходит сравнение интенсивности ключевых точек с заданным пределом. Пределом является значение наибольшей или наименьшей интенсивности внутри множества пикселей вокруг рассматриваемого. После этого для формирования символа используется алгоритм заливки. Результатом работы детектора ключевых точек являются найденные текстовые регионы, представляющие собой символы.

Для того, чтобы уменьшить число ложных срабатываний детектора ключевых точек производится классификация регионов. Для этого используется классификатор Gentle AdaBoost. Для его работы определены 4 свойства регионов точек, которые рассчитываются в ходе процесса сегментации.

В результате проведения классификации получены верифицированные текстовые регионы, содержащие символы. Из этих символов на данный момент работы алгоритма не составлены слова. Поэтому необходимо провести соединение текстовых регионов для формирования последовательностей из символов. Для этого используется алгоритм поиска соседей на основе сравнения центроид текстовых регионов.

На завершающем этапе работы алгоритма происходит выделение сформированных строк из полученных текстовых регионов. То есть непосредственное выделение прямоугольников, содержащих текст.

Математическое описание работы алгоритма представлено в [2].

Модификация алгоритма FASText. В ходе исследования работы алгоритма было обнаружено, что чаще всего не локализованные текстовые регионы находятся в местах слабой контрастности текста. Поэтому было предложено на стадии поиска ключевых точек использовать какой-либо алгоритм для повышения контрастности текста на изображении.

Чтобы не увеличивать контрастность всего изображения необходимо примерно определить текстовые регионы простым, быстрым и, относительно, неточным способом. Для этого был использован метод поиска текстовых регионов с помощью детектора границ Кенни. Данный детектор производит поиск горизонтальных и вертикальных границ текстовых регионов. Далее используется морфологическая операция - открытие, определяющая границы региона.

После нахождения регионов происходит увеличение контрастности пикселей, находящихся в них. Для этого используются фильтр высоких частот и размытие по Гауссу.

Данные изменения в работе алгоритма немного замедлили его работу, однако улучшили результаты его работы на используемом наборе изображений.

Результаты. Работа модифицированного алгоритма FASText проверялась на стандартном наборе изображений, представленном на конференции ICDAR 2013. Для анализа правильности работы алгоритма этот стандартный набор содержит эталонные текстовые регионы для каждого из изображений.

Для сравнения работы алгоритмов для локализации текста используются следующие метрики [1]:

1. Точность локализации. Эта метрика отражает вероятность того, что выделенные текстовые области являются корректными.

2. Полнота локализации. Эта метрика отражает вероятность того, что корректные текстовые области были выделены.

3. F-мера. Эта совокупная метрика, обобщающая две предыдущих.

Результаты сравнения работы алгоритмов представлены в таблице 1.

Таблица 1. Результаты сравнения работы алгоритмов

Метод	Точность локализации, %	Полнота локализации, %	Fмера, %	Время работы с одним изображением, с
FASText [2]	84	69	77	0.15
Модифицированный FASText	86	76	80	0.20
TextFlow [7]	85	76	80	0.94
CTPN [8]	93	76	88	0.14 GPU
CCTN [4]	90	83	86	1.3 GPU
CNN [5]	93	73	82	0.5 GPU

Из таблицы сравнения можно сделать вывод, что на текущий момент самые качественные результаты демонстрируют алгоритмы, ядром которых являются сверточные нейронные сети. Для использования таких нейронных сетей требуются большие вычислительные ресурсы. Обычно для их работы используют GPU. Если алгоритм локализации текста должен использоваться на мобильных устройствах, то пока что использование нейронных сетей не представляется возможным из-за ограниченной вычислительной мощности. Поэтому, для этого предлагается использовать модифицированный алгоритм FASText. Он демонстрирует достаточно хорошие результаты для решения задач, которые могут возникнуть при необходимости локализации текста с использованием камеры мобильного устройства. При использовании данного алгоритма среднее время обработки одного изображения увеличилось на 0.05 с по сравнению с оригинальным алгоритмом FASText, однако при этом улучшились и показатели работы алгоритма.

Список литературы

1. Андрианов А. И. Локализация текста на изображениях сложных графических сцен // Современные проблемы науки и образования, 2013. № 3.

2. Busta M., Neumann L., Matas J. FASText: Efficient unconstrained scene text detector // IEEE International Conference on Computer Vision, 2015.

3. Epshtein B., Ofek E., Wexler Y. Detecting text in natural scenes with stroke witdh transform // Proceedings of International Conference on Computer Vision and Pattern Recognition, 2010. Pp. 2963-2970.

4. He T., Huang W., Qiao Y., Yao J. Accurate text localization in natural image with cascaded convolutional text network, 2016.

5. He T., Huang W. Text-attentional convolutional neural network for scene text detection, 2016.

6. Neumann L., Matas J. A method for text localization and recognition in real-world images // 10^th Asian conference on Computer vision, 2010. Pp. 770-783.

7. Tian S., Pan Y., Huang C. Text Flow: A unified text detection system in natural scene images, 2015.

8. Tian Z., Huang W., He T., He P., Qiao Y. Detecting text in natural image with connectionist text proposal network, 2016.

Размещено на Allbest.ru

...

статья "Обнаружение текстовых регионов на изображениях с использованием модифицированного детектора FASText" скачать

Подобные документы

Обнаружение утечки информации в документах
Предотвращение несанкционированного распространения информации в текстовых файлах. Разработка подсистемы обнаружения утечки информации с фильтром идентификации текстовых областей в передаваемом потоке данных и их сходства с конфиденциальными данными.

дипломная работа [1,8 M], добавлен 14.03.2013
Распознавание мелодии с помощью нечеткого поиска
Исследование проблемы сравнения звуковых файлов и определение степени их схожести. Сравнение файлов с использованием метода нечеткого поиска, основанного на метрике (расстоянии) Левенштейна. Сравнение MIDI-файлов и реализация алгоритмов считывания.

курсовая работа [2,0 M], добавлен 14.07.2012
Разработка системы автоматического поиска объектов на изображении
Обзор алгоритмов распознания объектов на двумерных изображениях. Выбор языка программирования. Обнаружение устойчивых признаков изображения. Исследование алгоритмов поиска объектов на плоскости. Модификация алгоритма поиска максимума дискретной функции.

дипломная работа [1,0 M], добавлен 16.06.2013
Нейросетевой детектор лжи
Правовое применение детектора лжи. Алгоритм обратного распространения ошибки. Процент правильного определения результата. Корректировка параметров и поднятие процента правильного определения результатов. Направления развития нейросетевого детектора лжи.

презентация [176,6 K], добавлен 14.08.2013
Текстовый редактор и его назначение
Текстовый редактор - приложение для обработки текстовой информации. Описание текстовых процессоров как более совершенных текстовых редакторов. Типы текстовых файлов: форматированные, неформатированные. Основные правила редактирования и набора текста.

презентация [747,3 K], добавлен 26.11.2010
Восстановление пикселей
Анализ дефектных изображений. Константная неисправность элемента матрицы как причина "битых пикселей". Разработка и реализация в среде программного обеспечения Microsoft Visual Studio фильтра, восстанавливающего "битые пиксели" в дефектных изображениях.

реферат [1,2 M], добавлен 11.06.2012
Исследование и разработка алгоритмов распознавания лиц
Обзор существующих алгоритмов для обнаружения лиц. Выравнивание лица с помощью разнообразных фильтров. Использование каскадного классификатора Хаара для поиска лиц на изображении. Распознавание лиц людей с использованием локальных бинарных шаблонов.

дипломная работа [332,4 K], добавлен 30.09.2016
Признаки символов, используемые для автоматического распознавания
Методы предобработки изображений текстовых символов. Статистические распределения точек. Интегральные преобразования и структурный анализ. Реализация алгоритма распознавания букв. Анализ алгоритмов оптического распознавания символов. Сравнение с эталоном.

курсовая работа [2,1 M], добавлен 20.09.2014
Разработка программы форматирования текстовых файлов
Функциональные характеристики программы форматирования текстовых файлов, требования к ее интерфейсу и данным. Схема взаимодействия компонентов системы, выбор среды исполнения и программная реализация алгоритмов. Тестирование и оценка качества программы.

курсовая работа [61,1 K], добавлен 25.07.2012
Определение связанного множества пикселей на бинарном изображении
Общая методика решения задачи определения связанного множества пикселей с помощью функции bwlabel, в языке моделирования Matlab. Возможности оптимизации программы по временным характеристикам для возможности использования функции в анализе видеопотока.

статья [894,5 K], добавлен 11.03.2009
Разработка системы поиска документов релевантных заданному тексту
Обоснование выбора метода извлечения ключевых слов. Анализ предметной области, проектирование информационной системы поиска релевантных документов. Реализация запросов к электронным библиотекам. Реализация интерфейса системы поиска релевантных документов.

дипломная работа [1,1 M], добавлен 21.09.2016
Анализ тональности текстов на основе ДСМ-метода
Описание ДСМ-метода автоматического порождения гипотез. Исследование результатов влияния компонентов ДСМ-метода на качество определения тональности текстов. Алгоритм поиска пересечений. N-кратный скользящий контроль. Программная реализация ДСМ-метода.

курсовая работа [727,0 K], добавлен 12.01.2014
Алгоритмизация и программирование задач с использованием структурного подхода
Графические обозначения символов, применяемые при составлении схем алгоритмов. Оформление текстовых документов. Описание вычислительных методов алгоритмизации и программирования задач. Ручной просчет отладочного варианта. Машинное тестирование программы.

курсовая работа [178,2 K], добавлен 01.06.2014
Разработка и реализация нейросетевого поиска в рамках проекта "AIST"
Построение векторной модели нейронной сети. Проектирование и разработка поискового механизма, реализующего поиск в полнотекстовой базе данных средствами нейронных сетей Кохонена с применением модифицированного алгоритма расширяющегося нейронного газа.

курсовая работа [949,0 K], добавлен 18.07.2014
Визуализация численных методов. Решение обыкновенных дифференциальных уравнений
Решение дифференциального уравнения с помощью численных методов (Рунге-Кутта и Эйлера модифицированного). Особенности построения графиков в программе Microsoft Visual Basic 10 с использованием ответа задачи, который имеет незначительную погрешность.

курсовая работа [1017,3 K], добавлен 27.05.2013
Алгоритмы сортировки и поиска
Организация возможности просмотра текстовых файлов и осуществления поиска нужных слов в тексте. Редактирование текста (шрифт, размер). Алгоритм поиска подстроки в строке (метод Кнута-Морриса-Пратта). Загрузка текста из файла (с расширением .txt).

курсовая работа [2,2 M], добавлен 29.05.2013
Выделение ключевых слов в текстовых документах
"Метод ключевых слов" как один из распространенных методов перехода к математической модели документа. Закономерности распределения частоты слов, отраженные в законе Ципфа. Экспериментальная оценка статистического анализа текста по модели TF*IDF.

реферат [591,7 K], добавлен 24.06.2009
Системы подготовки текстов
Классификация программ обработки текстовых документов. Общие принципы оформления издания. Правила набора текста. Системы распознавания текста (OCR). Комплекс программного обеспечения для настольных издательских систем. Примеры текстовых редакторов.

презентация [75,0 K], добавлен 13.08.2013
Разработка программного обеспечения отдела работы с поставщиком. Задача о поставке товаров
Создание программы для составления оптимального плана закупки товара у поставщиков, его реализация с помощью простого и модифицированного симплекс-методов. Проектирование математического обеспечения решения задачи. Описание пользовательского интерфейса.

курсовая работа [1,2 M], добавлен 21.01.2011
Разработка программы "Обработка текстовых данных"
Составление программы для зашифровки текста (не более 255 символов), с использованием одного перемешанного алфавита, полученного случайной перестановкой всех букв исходного алфавита. Создание меню-интерфейса для навигации пользователя по программе.

курсовая работа [496,2 K], добавлен 17.05.2015

Другие документы, подобные "Обнаружение текстовых регионов на изображениях с использованием модифицированного детектора FASText"

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.