Обнаружение текстовых регионов на изображениях с использованием модифицированного детектора FASText

Реализация и описание метода обнаружения текстовых регионов на изображении с использованием модифицированного детектора FASText. Сравнение интенсивности рядом лежащих пикселей между собой для определения ширины штриха и поиска специфичных ключевых точек.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 29.07.2018
Размер файла 19,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Национальный исследовательский университет Московский институт электронной техники

Кафедра систем автоматического управления и контроля

Обнаружение текстовых регионов на изображениях с использованием модифицированного детектора FASText

магистрант Хрулев Павел Алексеевич

магистрант Логвин Василий Игоревич

Аннотация

Предложен метод обнаружения текстовых регионов на изображении с использованием модифицированного детектора FASText. В основе алгоритма лежит сравнение интенсивности рядом лежащих пикселей между собой для определения ширины штриха и поиска специфичных ключевых точек. Для улучшения характеристик работы детектора был использован алгоритм неточной локализации текстовых регионов и повышения их контрастности. Работа алгоритма проверена на стандартном наборе изображений, представленном на конференции ICDAR 2013.

Ключевые слова: компьютерное зрение, обработка изображений, обнаружение текста, текстовый регион.

Abstract

Proposed text region localization detector - modified FASText. Detector based on pixel intensity comparison for searching stroke-specific keypoints. The stroke-specific keypoints produce 2 times less region segmentations and still detects 25% more characters than the commonly exploited MSER detector and the process is 4 times faster. Algorithm of increasing the contrast of text was used to improve the performance of the original FASText. Algorithm performance was tested on ICDAR 2013 images dataset.

Keywords: computer vision, image processing, text localization, text region.

С распространением Интернета и различных мобильных устройств произошел огромный рост генерации разнообразного фото- и видеоконтента, содержащего различные сцены из жизни людей. Этот контент содержит большое количество информации, которую можно обнаружить и распознать для дальнейшего использования. В качестве такой информации могут выступать различные объекты, действия, текст. Распознавание этой информации позволяет описать сцены из жизни на языке, понятном не только человеку, но и компьютеру. Для обнаружения и распознавания объектов используются методы компьютерного зрения.

При распознавании объектов из фото- и видеоконтента одной из самых интересных и актуальных задач является задача обнаружения и распознавания текста. Текст является очень важным источником информации. Методы его обнаружения и распознавания применяются в большом числе прикладных приложений, таких как поиск определенной информации по фото- и видеофрагментам, навигация автоматических устройств, перевод текста в реальном времени, классификация фото- и видеоконтента. обнаружение текстовый изображение пиксель

Определение местонахождения и распознавание текста в сценах окружающего нас мира является сложной задачей. Основные трудности можно разделить на три категории:

1. Разнообразие в представлении текста. В сравнении с обработкой документов, когда все слова имеют один цвет, шрифт и расположение, а также лежат на одном белом фоне, обработка текста из различных сцен жизни несет следующие трудности: слова могут быть расположены в разных местах, могут иметь разный цвет, направление и масштаб.

2. Сложность фонового изображения. Текст может находиться где угодно. Такие элементы изображения, как знаки, различные декорации, узоры, могут быть неотличимы от текста, вследствие чего возникает много ошибок при определении реального местоположения текста.

3. Влияние помех. На распознавание текста также могут отрицательно влиять многочисленные внешние факторы, такие как шум, размытие, плохое разрешение и так далее.

Для решения задачи определения местоположения текста используется большое число различных алгоритмов, основанных на использовании локальных особенностей изображений. Одним из таких алгоритмов является алгоритм FASText [2].

Алгоритм FASText. FASText представляет собой алгоритм, основанный на использовании локальных особенностей изображения. В ходе его работы происходит поиск ключевых точек, которые затем объединяются в текстовые регионы. Он работает значительно быстрее, чем схожие с ним и широко известные алгоритмы SWT [3] и MSER [6]. Также в результате его работы происходит гораздо меньше ложных срабатываний. Основы работы алгоритма описаны далее.

Основная идея работы алгоритмов SWT, MSER, FASText заключается в том, что буквы и слова на изображении, как правило, имеют постоянную толщину штриха [1]. Для работы со штрихом в алгоритме FASText вводится понятие ключевой точки. Каждая ключевая точка представляет собой один пиксель изображения. Ключевая точка определяет, является ли пиксель частью текста. В алгоритме FASText определены два класса ключевых точек:

1. Точка окончания штриха.

2. Точка изгиба штриха.

Для поиска ключевых точек происходит сравнение интенсивности рассматриваемого пикселя с интенсивностями пикселей, расположенных внутри круга, обрамляющего рассматриваемый пиксель. Диаметр круга является параметром данного алгоритма. Обычно используется круг диаметром 12 пикселей. Определение принадлежности пикселя к одному из классов ключевых точек происходит с использованием эвристик, описанных в работе [2]. Каждый пиксель вокруг рассматриваемого помечается определенным символом в зависимости от того, насколько различна его интенсивность в сравнении с рассматриваемым. Существует три вида символов:

1. Темнее.

2. Ярче.

3. Подобен.

При этом используется параметр алгоритма «смещение», определяющий компромисс между неточностью в работе алгоритма и числом пропущенных текстовых символов.

После определения ключевых точек происходит их сегментация для формирования символов и отделения их от фона. При этом происходит сравнение интенсивности ключевых точек с заданным пределом. Пределом является значение наибольшей или наименьшей интенсивности внутри множества пикселей вокруг рассматриваемого. После этого для формирования символа используется алгоритм заливки. Результатом работы детектора ключевых точек являются найденные текстовые регионы, представляющие собой символы.

Для того, чтобы уменьшить число ложных срабатываний детектора ключевых точек производится классификация регионов. Для этого используется классификатор Gentle AdaBoost. Для его работы определены 4 свойства регионов точек, которые рассчитываются в ходе процесса сегментации.

В результате проведения классификации получены верифицированные текстовые регионы, содержащие символы. Из этих символов на данный момент работы алгоритма не составлены слова. Поэтому необходимо провести соединение текстовых регионов для формирования последовательностей из символов. Для этого используется алгоритм поиска соседей на основе сравнения центроид текстовых регионов.

На завершающем этапе работы алгоритма происходит выделение сформированных строк из полученных текстовых регионов. То есть непосредственное выделение прямоугольников, содержащих текст.

Математическое описание работы алгоритма представлено в [2].

Модификация алгоритма FASText. В ходе исследования работы алгоритма было обнаружено, что чаще всего не локализованные текстовые регионы находятся в местах слабой контрастности текста. Поэтому было предложено на стадии поиска ключевых точек использовать какой-либо алгоритм для повышения контрастности текста на изображении.

Чтобы не увеличивать контрастность всего изображения необходимо примерно определить текстовые регионы простым, быстрым и, относительно, неточным способом. Для этого был использован метод поиска текстовых регионов с помощью детектора границ Кенни. Данный детектор производит поиск горизонтальных и вертикальных границ текстовых регионов. Далее используется морфологическая операция - открытие, определяющая границы региона.

После нахождения регионов происходит увеличение контрастности пикселей, находящихся в них. Для этого используются фильтр высоких частот и размытие по Гауссу.

Данные изменения в работе алгоритма немного замедлили его работу, однако улучшили результаты его работы на используемом наборе изображений.

Результаты. Работа модифицированного алгоритма FASText проверялась на стандартном наборе изображений, представленном на конференции ICDAR 2013. Для анализа правильности работы алгоритма этот стандартный набор содержит эталонные текстовые регионы для каждого из изображений.

Для сравнения работы алгоритмов для локализации текста используются следующие метрики [1]:

1. Точность локализации. Эта метрика отражает вероятность того, что выделенные текстовые области являются корректными.

2. Полнота локализации. Эта метрика отражает вероятность того, что корректные текстовые области были выделены.

3. F-мера. Эта совокупная метрика, обобщающая две предыдущих.

Результаты сравнения работы алгоритмов представлены в таблице 1.

Таблица 1. Результаты сравнения работы алгоритмов

Метод

Точность локализации, %

Полнота локализации, %

Fмера, %

Время работы с одним изображением, с

FASText [2]

84

69

77

0.15

Модифицированный FASText

86

76

80

0.20

TextFlow [7]

85

76

80

0.94

CTPN [8]

93

76

88

0.14 GPU

CCTN [4]

90

83

86

1.3 GPU

CNN [5]

93

73

82

0.5 GPU

Из таблицы сравнения можно сделать вывод, что на текущий момент самые качественные результаты демонстрируют алгоритмы, ядром которых являются сверточные нейронные сети. Для использования таких нейронных сетей требуются большие вычислительные ресурсы. Обычно для их работы используют GPU. Если алгоритм локализации текста должен использоваться на мобильных устройствах, то пока что использование нейронных сетей не представляется возможным из-за ограниченной вычислительной мощности. Поэтому, для этого предлагается использовать модифицированный алгоритм FASText. Он демонстрирует достаточно хорошие результаты для решения задач, которые могут возникнуть при необходимости локализации текста с использованием камеры мобильного устройства. При использовании данного алгоритма среднее время обработки одного изображения увеличилось на 0.05 с по сравнению с оригинальным алгоритмом FASText, однако при этом улучшились и показатели работы алгоритма.

Список литературы

1. Андрианов А. И. Локализация текста на изображениях сложных графических сцен // Современные проблемы науки и образования, 2013. № 3.

2. Busta M., Neumann L., Matas J. FASText: Efficient unconstrained scene text detector // IEEE International Conference on Computer Vision, 2015.

3. Epshtein B., Ofek E., Wexler Y. Detecting text in natural scenes with stroke witdh transform // Proceedings of International Conference on Computer Vision and Pattern Recognition, 2010. Pp. 2963-2970.

4. He T., Huang W., Qiao Y., Yao J. Accurate text localization in natural image with cascaded convolutional text network, 2016.

5. He T., Huang W. Text-attentional convolutional neural network for scene text detection, 2016.

6. Neumann L., Matas J. A method for text localization and recognition in real-world images // 10th Asian conference on Computer vision, 2010. Pp. 770-783.

7. Tian S., Pan Y., Huang C. Text Flow: A unified text detection system in natural scene images, 2015.

8. Tian Z., Huang W., He T., He P., Qiao Y. Detecting text in natural image with connectionist text proposal network, 2016.

Размещено на Allbest.ru

...

Подобные документы

  • Предотвращение несанкционированного распространения информации в текстовых файлах. Разработка подсистемы обнаружения утечки информации с фильтром идентификации текстовых областей в передаваемом потоке данных и их сходства с конфиденциальными данными.

    дипломная работа [1,8 M], добавлен 14.03.2013

  • Исследование проблемы сравнения звуковых файлов и определение степени их схожести. Сравнение файлов с использованием метода нечеткого поиска, основанного на метрике (расстоянии) Левенштейна. Сравнение MIDI-файлов и реализация алгоритмов считывания.

    курсовая работа [2,0 M], добавлен 14.07.2012

  • Обзор алгоритмов распознания объектов на двумерных изображениях. Выбор языка программирования. Обнаружение устойчивых признаков изображения. Исследование алгоритмов поиска объектов на плоскости. Модификация алгоритма поиска максимума дискретной функции.

    дипломная работа [1,0 M], добавлен 16.06.2013

  • Правовое применение детектора лжи. Алгоритм обратного распространения ошибки. Процент правильного определения результата. Корректировка параметров и поднятие процента правильного определения результатов. Направления развития нейросетевого детектора лжи.

    презентация [176,6 K], добавлен 14.08.2013

  • Текстовый редактор - приложение для обработки текстовой информации. Описание текстовых процессоров как более совершенных текстовых редакторов. Типы текстовых файлов: форматированные, неформатированные. Основные правила редактирования и набора текста.

    презентация [747,3 K], добавлен 26.11.2010

  • Анализ дефектных изображений. Константная неисправность элемента матрицы как причина "битых пикселей". Разработка и реализация в среде программного обеспечения Microsoft Visual Studio фильтра, восстанавливающего "битые пиксели" в дефектных изображениях.

    реферат [1,2 M], добавлен 11.06.2012

  • Обзор существующих алгоритмов для обнаружения лиц. Выравнивание лица с помощью разнообразных фильтров. Использование каскадного классификатора Хаара для поиска лиц на изображении. Распознавание лиц людей с использованием локальных бинарных шаблонов.

    дипломная работа [332,4 K], добавлен 30.09.2016

  • Методы предобработки изображений текстовых символов. Статистические распределения точек. Интегральные преобразования и структурный анализ. Реализация алгоритма распознавания букв. Анализ алгоритмов оптического распознавания символов. Сравнение с эталоном.

    курсовая работа [2,1 M], добавлен 20.09.2014

  • Функциональные характеристики программы форматирования текстовых файлов, требования к ее интерфейсу и данным. Схема взаимодействия компонентов системы, выбор среды исполнения и программная реализация алгоритмов. Тестирование и оценка качества программы.

    курсовая работа [61,1 K], добавлен 25.07.2012

  • Общая методика решения задачи определения связанного множества пикселей с помощью функции bwlabel, в языке моделирования Matlab. Возможности оптимизации программы по временным характеристикам для возможности использования функции в анализе видеопотока.

    статья [894,5 K], добавлен 11.03.2009

  • Обоснование выбора метода извлечения ключевых слов. Анализ предметной области, проектирование информационной системы поиска релевантных документов. Реализация запросов к электронным библиотекам. Реализация интерфейса системы поиска релевантных документов.

    дипломная работа [1,1 M], добавлен 21.09.2016

  • Описание ДСМ-метода автоматического порождения гипотез. Исследование результатов влияния компонентов ДСМ-метода на качество определения тональности текстов. Алгоритм поиска пересечений. N-кратный скользящий контроль. Программная реализация ДСМ-метода.

    курсовая работа [727,0 K], добавлен 12.01.2014

  • Графические обозначения символов, применяемые при составлении схем алгоритмов. Оформление текстовых документов. Описание вычислительных методов алгоритмизации и программирования задач. Ручной просчет отладочного варианта. Машинное тестирование программы.

    курсовая работа [178,2 K], добавлен 01.06.2014

  • Построение векторной модели нейронной сети. Проектирование и разработка поискового механизма, реализующего поиск в полнотекстовой базе данных средствами нейронных сетей Кохонена с применением модифицированного алгоритма расширяющегося нейронного газа.

    курсовая работа [949,0 K], добавлен 18.07.2014

  • Решение дифференциального уравнения с помощью численных методов (Рунге-Кутта и Эйлера модифицированного). Особенности построения графиков в программе Microsoft Visual Basic 10 с использованием ответа задачи, который имеет незначительную погрешность.

    курсовая работа [1017,3 K], добавлен 27.05.2013

  • Организация возможности просмотра текстовых файлов и осуществления поиска нужных слов в тексте. Редактирование текста (шрифт, размер). Алгоритм поиска подстроки в строке (метод Кнута-Морриса-Пратта). Загрузка текста из файла (с расширением .txt).

    курсовая работа [2,2 M], добавлен 29.05.2013

  • "Метод ключевых слов" как один из распространенных методов перехода к математической модели документа. Закономерности распределения частоты слов, отраженные в законе Ципфа. Экспериментальная оценка статистического анализа текста по модели TF*IDF.

    реферат [591,7 K], добавлен 24.06.2009

  • Классификация программ обработки текстовых документов. Общие принципы оформления издания. Правила набора текста. Системы распознавания текста (OCR). Комплекс программного обеспечения для настольных издательских систем. Примеры текстовых редакторов.

    презентация [75,0 K], добавлен 13.08.2013

  • Создание программы для составления оптимального плана закупки товара у поставщиков, его реализация с помощью простого и модифицированного симплекс-методов. Проектирование математического обеспечения решения задачи. Описание пользовательского интерфейса.

    курсовая работа [1,2 M], добавлен 21.01.2011

  • Составление программы для зашифровки текста (не более 255 символов), с использованием одного перемешанного алфавита, полученного случайной перестановкой всех букв исходного алфавита. Создание меню-интерфейса для навигации пользователя по программе.

    курсовая работа [496,2 K], добавлен 17.05.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.