Улучшение качества распознавания изображений документов путем устранения геометрических искажений
Описание метода аппроксимации междустрочных просветов текста, полученных с помощью непрерывного скелетного представления изображения и устранения геометрических искажений изображений текстовых документов посредством использования двумерных патчей Безье.
Рубрика | Производство и технологии |
Вид | статья |
Язык | русский |
Дата добавления | 19.01.2018 |
Размер файла | 482,4 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Улучшение качества распознавания изображений документов путем устранения геометрических искажений
А.А. Масалович
ABBYY Production, Москва; МФТИ,
ФИВТ, Москва
В работе описывается метод аппроксимации и устранения геометрических искажений изображений текстовых документов для повышения качества распознавания искаженных документов. Для аппроксимации искажения документа предлагается использовать двумерные патчи Безье. Для построения аппроксимирующего патча Безье предлагается использовать аппроксимацию междустрочных просветов текста, полученных с помощью непрерывного скелетного представления изображения.
В последнее время все чаще для создания электронных версий бумажных документов используются цифровые фотокамеры или даже камеры мобильных телефонов. Притом при фотографировании в изображение документа могут появляться геометрические искажения. Искажения при фотографировании могут появиться по нескольким независимым друг от друга причинам, при этом способы искажений могут комбинироваться между собой в любом сочетании. Из-за этого невозможно точно описать и предсказать модель искажения сфотографированного документа. Большинство современных профессиональных систем распознавания текста (таких как FineReader, OmniPage, ReadIris) рассчитаны на то, что строки текста на изображении будут прямыми и горизонтальными. Малейшие искажения строк текста приводят к сильному ухудшению качества распознавания. Из-за этого в последнее время очень большое внимание уделяется методам, позволяющим устранять геометрические искажения в изображениях документов для улучшения качества распознавания. патч аппроксимация текст искажение
В данной работе предлагается использовать непрерывное скелетное представление изображения для выделения на изображении междустрочных просветов. Искривление отдельных междустрочных просветов аппроксимируется с помощью одномерных кривых Безье. Аппроксимация искажения всего документа строится с помощью двумерного патча Безье, аппроксимирующего набор одномерных кривых. Результаты, описанные в данной работе, также были опубликованы в ряде журналов в частности в [Масалович, 2009].
Предложенный в работе алгоритм был применен к базе документов с геометрическими искажениями [Shafait et al., 2007]. Улучшение качества распознавания на тестируемых изображениях составило порядка 90%.
1. Обзор существующих решений
В последнее время очень большое внимание уделяется методам, позволяющим устранять геометрические искажения в изображениях документов. В частности можно перечислить следующие работы: [Yin et al., 2007], [Fu et al., 2007], [Wu et al., 2007], [Schneider et al., 2007], [Gatos et al., 2007].
Задачу распрямления искаженных строк в изображении документа обычно разделяют на две подзадачи: выделения и описания строчной структуры в изображении и построения преобразования изображения, при котором эти выявленные строки превратятся в прямолинейные. Известные методы устранения геометрических искажений имеют существенные недостатки при решении обеих подзадач.
Для определения строковой структуры обычно вычисляются базовые линии текста (линии нижней и верхней границ строчных символов). Однако достоверное определение базовых линий представляет собой весьма сложную задачу. Наличие свисающих и выступающих элементов в символах шрифта, знаков препинания и диакритических символов, а также коротких слов в строках приводят к большим ошибкам в определении базовых линий. Неточности в их определении приводят к неправильному описанию строковой структуры.
Описание распрямляющего преобразования обычно осуществляется на основе некоторой параметрической модели заданного класса, например, перспективного искажения, либо цилиндрического искажения внутреннего края страниц книги. Если фактическое искажение не относится к этому классу, то выбранная модель не позволяет подобрать хорошее распрямляющее преобразование. В результате известные методы не являются универсальными, могут исправлять только какой-то ограниченный класс искажений документов, к примеру, перспективные искажения или искажения от сгиба страницы у края книги.
2. Выделение междустрочных просветов в тексте
В качестве основы для построения аппроксимации искажения всей страницы документа в данной работе предлагается использовать аппроксимацию искажения междустрочных просветов текста на изображении документа. Использование междустрочных просветов потенциально более стабильно, чем использование строк текста, так как в них компенсируются локальные несоответствия, которые могут быть в строках текста.
Для выделения междустроных просветов используется внешний скелет бинарного изображения. Скелетом бинарного изображения называют скелет полигональной области минимального периметра, которая аппроксимируют черные объекты на изображении. Скелетом полигональной области называется геометрическое место точек на евклидовой плоскости, имеющих не менее двух ближайших точек на границе полигональной области. Внешним скелетом называется часть скелета бинарного изображения, лежащая вне черных объектов. Более подробное описание скелета бинарного изображения и описание эффективных алгоритмов его построения можно прочитать в работе [Местецкий, 2009].
При построении внешнего скелета бинарного изображения к изображению и скелету применялась некоторая предобработка, для удаления из скелета ребер, которые лежали между различными гранями одинаковых объектов и между объектами внутри одного слова текста. Более подробное описание предобработки скелета можно прочитать в работе [Масалович, 2009]. Пример внешнего скелета с предобработкой и без приведен на рисунке 1.
Для выделения во внешнем скелете изображения междустрочных ветвей скелета предлагается использовать кластеризацию ребер скелета.
По всем углам наклона ветвей скелета строится гистограмма углов наклона. После построения гистограммы определяется порог, разделяющий два кластера. Для определения порога предлагается следующий механизм кластеризации.
Рис. 1. Внешний скелет изображения текстового документа без предобработки и с предобработкой
Для каждого возможного значения порогового угла (с шагом в один градус) определяется показатель разделимости получающихся кластеров. Для этого слева и справа от порога определяется среднее значение гистограммы ( и ) и дисперсия значений гистограммы ( и ). Показатель разделимости кластеров для данного порога определяется как отношение суммы дисперсий внутри кластеров к расстоянию между средними значениями кластеров:
.
Содержательно показатель разделимости описывает отношение внутриклассового рассеяния к межклассовому.
Порог, разделяющий кластеры, выбирается как порог с наименьшим значением показателя разделимости кластеров (Рис. 2).
После кластеризации ветвей скелета из скелета удаляются все ветви, не лежащие между соседними строками текста. После применения ряда эмпирических правил для разрешения неоднозначностей в скелете остаются только ветви скелета разделяющие соседние строки текста (рис. 3).
Рис. 2. Пример гистограммы углов наклона ветвей скелета с определенным порогом
Рис. 3. Скелет после выделения междустрочных ветвей скелета
Выделенные междустрочные ветви скелета аппроксимируются с помощью одномерных кривых Безье.
Одномерная кривая Безье - это параметрическая кривая на плоскости, задаваемая выражением:
,
где - опорные вершины кривой (точки на плоскости изображения), а - базисные функции кривой Безье, называемые также полиномами Бернштейна, - степень полинома, - порядковый номер опорной вершины.
,
Задача аппроксимации ветви скелета кривой Безье порядка сводится к решению двух систем линейных уравнений порядка для нахождения координат опорных точек аппроксимирующей кривой.
3. Аппроксимация искажения изображения документа
Для аппроксимации искажения всего документа предлагается использовать двумерный патч Безье.
Двумерный патч Безье размерности - это функция , задаваемая выражением:
,
где - опорные вершины патча (точки на плоскости), а и - полиномы Бернштейна.
Если в патче Безье зафиксировать один параметр , то получившаяся функция по второму параметру t будет одномерной кривой Безье на плоскости:
Для аппроксимации набора одномерных кривых каждой кривой из набора сопоставим некоторое значение параметра патча и будем минимизировать суммарное отклонение между кривыми из аппроксимируемого набора и соответствующими кривыми из патча.
Можно доказать [Масалович, 2009], что требуемая точность аппроксимации набора кривых двумерным патчем Безье достигается, если аппроксимировать n+1 наборов опорных точек кривых Безье из исходного набора с одинаковым порядковым номером вертикальным кривыми Безье, а затем по получившимся опорным точкам вертикальны кривых построить двумерный патч Безье.
Для каждого порядкового номера контрольных точек исходных кривых (от 0 до ) получаем набор из контрольных точек аппроксимирующей кривой. Таким образом, всего получается набор из контрольных точек. Эти точки и используются для построения патча Безье (Рис. 4).
Рис. 4. Пример построения патча Безье
4. Распрямление изображение и результаты экспериментов
Для распрямления изображения строится обратное преобразование к патчу Безье аппроксимирующему искажение документа.
По этому обратному преобразованию строится распрямленное изображение.
В качестве тестовой базы для проведения эксперимента была использована публичная тестовая база изображений документов с геометрическими искажениями [Shafait et al., 2007]. В тестовую базу входит 102 изображения. Эксперимент состоял в следующем: каждое изображение из тестовой базы распрямлялось с помощью описанного алгоритма. Затем с помощью программы FineReader 9.0 Professional распознавалось исходное изображение и распрямленное изображение. Оценивался процент исправленных за счет распрямления ошибок распознавания. Также оценивалась с помощью предложенного выше механизма степень искривления построенного на изображении патча Безье до и после распрямления.
Рис. 5. Пример работы предлагаемого алгоритма
На большинстве изображений предложенный алгоритм существенно улучшил качество распознавания - это видно из гистограммы на рисунке 6. В среднем количество ошибок распознавания после применения вышеописанного алгоритма уменьшается на 82 процента (от числа ошибок на искривленном изображении). А медиана улучшения качества составила 92,28 процента.
При этом на исходных изображениях средний процент ошибок распознавания был равен 19,75%. А на распрямленных с помощью предложенного метода изображениях процент ошибок распознавания составил 2,15%. Стоит отметить, что это существенное улучшение качества распознавания поврежденных изображений: даже на идеальных документах современные системы распознавания не гарантируют качество распознавания меньше 1% процента ошибок.
Рис. 6. Гистограмма улучшения качества распознавания изображений после применения алгоритма удаления геометрических искажений
В работе приведен обзор существующих решений проблемы устранения геометрических искажений, выявлены основные недостатки существующих методов решения. Главной целью данной работы было создание метода, свободного от указанных недостатков. Эта задача была успешно решена, что подтверждается проведенным исследованием.
В ходе исследования была проведена серия экспериментов для оценки качества предлагаемого решения. Эксперименты показали высокую надежность разработанного метода. В качестве оценки качества метода использовалось качество распознавания большого набора документов до и после устранения искажений. Также эксперименты использовались для оптимизации путей реализации некоторых шагов предложенного метода.
Разработанный метод отличается высокой эффективностью, что доказано серией экспериментов. Также разработанный метод обладает большой гибкостью, которая позволяет ему эффективно детектировать и удалять практически любые геометрические искажения, появившиеся на документе в процессе сканирования или фотографирования.
Список литературы
1. [Масалович, 2009] Масалович А.А. “Численные методы детектирования и удаления геометрических искажений в изображениях текстовых документов”, журнал “Информационные технологии”, №5, 2009.
2. [Местецкий, 2009] Л.М. Местецкий, “Непрерывная Морфология Бинарных Изображений: Фигуры, Скелеты, Циркуляры”, Москва, ФИЗМАТЛИТ, 2009.
3. [Fu et al., 2007] Fu Bin, Minghui Wu, Rongfeng Li, Wenxin Li, Zhuoqun Xu, Chunxu Yang, “A model-based book dewarping method using text line detection”, Proceedings of the Second International Workshop on Camera-Based Document Analysis and Recognition (CBDAR-2007), 2007, Curitiba, Brazil.
4. [Gatos et al., 2007] Gatos B., Pratikakis I., Ntirogiannis K., “Segmentation based recovery of arbitrarily warped document images”, Proceedings of the 9-th International Conference on Document Analysis and Recognition (ICDAR-2007), 2007, Curitiba, Brazil.
5. [Schneider et al., 2007] Schneider D.C., Block M., Rojas R., “Robust document warping with interpolated vector fields”, Proceedings of the 9-th International Conference on Document Analysis and Recognition (ICDAR-2007), 2007, Curitiba, Brazil.
6. [Shafait et al., 2007] Shafait F., Breuel T. M., “Document Image Dewarping Contest”, Proceedings of the Second International Workshop on Camera-Based Document Analysis and Recognition (CBDAR-2007), 2007, Curitiba, Brazil, http://www.iupr.com/archived-2009/datasets.
7. [Wu et al., 2007] Minghui Wu, Rongfeng Li, Bin Fu, Wenxin Li, Zhuoqun Xu, “A model-based book dewarping method to handle 2D images captured by a digital camera”, Proceedings of the 9-th International Conference on Document Analysis and Recognition (ICDAR-2007), 2007, Curitiba, Brazil.
8. [Yin et al., 2007] Xu-Cheng Yin, Jun Sun, Satoshi Naoi, “Perspective rectification for mobile phone camera-based documents using a hybrid approach to vanishing point detection”, Proceedings of the Second International Workshop on Camera-Based Document Analysis and Recognition (CBDAR-2007), 2007, Curitiba, Brazil.
Размещено на Allbest.ru
...Подобные документы
Автоматизированные анализаторы изображений. Кристаллическая решетка графита, его применение, свойства. Исследование зависимости параметра формы (вытянутость и диаметр) от размера графитовых включений. Построение графиков и выявление зависимостей.
курсовая работа [1,0 M], добавлен 16.02.2015Структурная схема системы исследования микрошлифов. Методы анализа микрошлифов. Программное обеспечение для анализа на персональном компьютере полученных изображений микрошлифов: Intron-Set, ВидеоТесТ-Структура, ВидеоТесТ-Металл, ВидеоТесТ-Размер 5.0.
курсовая работа [2,1 M], добавлен 21.04.2011Классификация поверхностей, кинематический способ их образования. Понятие определителей их геометрических границ. Проецирование геометрических тел, анализ, специфика его основных методов. Построение проекции шара, развертки поверхности усеченной пирамиды.
контрольная работа [783,3 K], добавлен 21.01.2015Понятие и технологическая схема процесса ректификации, назначение ректификационных колонн. Расчет ректификационной колонны непрерывного действия для разделения смеси бензол-толуол с определением основных геометрических размеров колонного аппарата.
курсовая работа [250,6 K], добавлен 17.01.2011Проблема оценки качества воспроизведения изображений. Адаптация зрительной системы к освещенности, контрастная чувствительность. Проблемы стандартизации параметров качества печати. Выделение атрибутов качества оттисков. Условия проведения эксперимента.
дипломная работа [1,2 M], добавлен 23.06.2012Поиск нового технического решения, направленного на улучшение качества высокоиндексных низкозастывающих основ (всесезонного масла), посредством модернизации первой стадии их производства – гидроочистки исходного сырья. Расчет реакторного блока процесса.
дипломная работа [4,4 M], добавлен 24.04.2012Правила утверждения и регистрации документов. Внедрение нормативных документов, необходимых для метрологического обеспечения испытаний, проводится с учётом необходимости и актуальности документа. Требования к хранению и архивированию документов.
дипломная работа [201,2 K], добавлен 23.06.2015Классификация отклонений геометрических параметров, принципы построения систем допусков и посадок для типовых соединений деталей машин. Ряды допусков, диапазоны и интервалы размеров для квалитетов. Отклонения расположения поверхностей и шероховатости.
курсовая работа [906,8 K], добавлен 20.08.2010Расчет состава асфальтобетонной смеси. Выбор смесительной установки. Определение геометрических размеров складов минеральных материалов. Расчет сушильного барабана. Определение геометрических размеров битумохранилища. Инвентаризация загрязняющих выбросов.
курсовая работа [1,1 M], добавлен 23.11.2013Особенности воды, её химические и физические свойства, определение жёсткости и методы ее устранения. Неблагоприятное воздействие жесткой воды на техническое и промышленное оборудование, а также на ткань, посуду, продукты питания и кожу человека.
курсовая работа [33,5 K], добавлен 16.05.2009Обоснование метода получения композиционных материалов (контактного формования), основные требования к сырью и готовой продукции. Описание спроектированной технологической схемы изготовления и контроля производства, видов брака и способов его устранения.
дипломная работа [477,2 K], добавлен 27.02.2015Основные этапы изготовления одежды. Способы соединения деталей. Разновидности дефектов, механизм их появления и методы устранения. Технологические дефекты транспортировки и хранения готовых швейных изделий. Дефекты моделирования и способы их устранения.
курсовая работа [67,7 K], добавлен 19.11.2013Технологические основы процесса сверления отверстий. Типы станков и их основные узлы. Влияние материала и геометрических элементов сверла. Изменение геометрических параметров режущей части сверл. Основные режимы финишных операций изготовления сверл.
дипломная работа [1,7 M], добавлен 30.09.2011Сущность метода корневого годографа. Способы устранения противоречия между требованиями к системе по устойчивости и по допустимой статической погрешности. Потенциал метода корневого годографа в области улучшения статических и динамических свойств цепи.
курсовая работа [321,3 K], добавлен 04.06.2017Цветовой охват, пространства и модели. Эксперимент по расширению цветового охвата с помощью черной краски путем ее постепенного добавления и измерения полученных результатов посредством программ Photoshop и MathLab. Построение соответствующего графика.
курсовая работа [946,7 K], добавлен 13.05.2011Определение геометрических размеров колонны, выбор материала, оценка прочностных характеристик и анализ полученных результатов. Специфика конструкций, изготовленных из металлических деталей, соединенных сваркой. Преимущества сварных конструкций.
курсовая работа [1,2 M], добавлен 09.05.2023Система, критерии и порядок аккредитации испытательных лабораторий и органов по сертификации в РФ; общие правила и требования на примере ЗАО "Ярполимермаш-Татнефть": менеджмент качества ЗАО, разработка комплекта документов, расчет затрат на аккредитацию.
дипломная работа [1,4 M], добавлен 15.02.2011Расчет ректификационной колонны с ситчатыми тарелками для разделения бинарной смеси ацетон – бензол. Определение геометрических параметров колонны, гидравлического сопротивления и тепловых балансов. Расчет вспомогательного оборудования установки.
курсовая работа [1,4 M], добавлен 16.06.2023Линия производства пастеризованного молока и разработка принципиальной схемы графа цели для построения ее модели. Операторные стандарты подсистем с помощью типовых значков или графических изображений процессов. Кинематическая схема технологической машины.
контрольная работа [1,5 M], добавлен 18.12.2010Прибор VEGAPULS 61 как микроволновый датчик для непрерывного измерения уровня и раздела фаз жидкостей. Подготовка изделия к включению в работу. Основные неисправности уровнемера и способы их устранения. Проверка технического состояния и ремонт прибора.
курсовая работа [1,2 M], добавлен 27.01.2014