Об одном алгоритме восстановления в задаче распознавания изображения
Рассмотрен вопрос предварительной обработки изображения для автоматического распознавания. Описан алгоритм для восстановления изображения, основанный на алгоритме полиномиального масштабирования. Рассмотрено изображение загрязненного черного текста.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 26.04.2019 |
Размер файла | 101,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
УДК 681.3
Об одном алгоритме восстановления в задаче распознавания изображения
И.В. Черномордик
Пермский государственный технический университет, Россия, 614990, Пермь, Комсомольский пр., 29
ilya.chernomordik@gmail.com; 8-919-497-28-53
Рассмотрен вопрос предварительной обработки изображения для улучшения понимания или автоматического распознавания и предложен алгоритм для восстановления испорченного изображения, основанный на алгоритме полиномиального масштабирования изображения. В качестве примера рассмотрено изображение загрязненного черного текста на белом фоне.
Ключевые слова: изображение; восстановление; распознавание; масштабирование.
автоматический распознавание полиномиальный масштабирование
About one restoring algorithm in image recognition task
I. V. Chernomordik
Perm State Technical University, Russia, 614990, Perm, Komsomolskiy pr., 29
ilya.chernomordik@gmail.com; 8-919-497-28-53
Preliminary processing of images for better human understanding or optical character recognition is investigated. An algorithm based on polynomial image scaling was developed for preprocessing. A spoiled image of black text on a white background is used as an example.
Key words: image; restoring; recognition, scaling.
Работа И. В. Черномордик, 2010 посвящена вопросу о предварительной обработке двуцветных изображений, примером которых может служить текст на белом фоне. Такая обработка может применяться в программах распознавания в качестве предварительного этапа. Если исходный объект является испорченным (например, испорченный документ), то задача максимального восстановления информации остается актуальной.
В настоящее время значительная часть текстов доступна в нецифровых форматах или же в таких форматах, как PDF без возможности получить текст отдельно от изображения. Кроме того, часто требуется восстановление важной испорченной текстовой информации. В таком контексте задача распознавания должна использовать восстановление как предварительный этап обработки с последующей идентификацией символов в соответствии с некоторым алфавитом. Отсутствие такого предварительного этапа приводит к тому, что различные шумы в исходном изображении позволяют получить "лишние" символы, такие как точка или запятая.
Исходным изображением является вектор-функция
, где ,
а компоненты , и соответственно означают красную, зеленую и синюю составляющие изображения в формате RGB. Объектом анализа является цифровой образ изображения , представленный в виде прямого произведения трех матриц (), где . Задачу преобразования определим как восстанавливающий оператор , применяемый к каждой компоненте. В некоторых случаях удобным оказывается преобразование одной матрицы, получаемой как результат усреднения по формуле . Оператор восстановления будем рассматривать как
.
В общем случае осуществляет нелинейное преобразование. В литературе традиционно изучаются случаи, когда оператор является линейным и процесс восстановления связывается с исследованием сигналов в частотной области [1].
В работе предлагается новый алгоритм подготовки к автоматическому распознаванию или улучшению читаемости. Идея алгоритма состоит в следующем: матрица преобразуется так же, как и в алгоритме увеличения размера изображения без потери качества. Такой алгоритм с применением специальной схемы полиномиальной интерполяции был предложен автором ранее и реализован в виде программного модуля. Применение такого подхода к восстановлению, как показывают полученные результаты, оказалось эффективным. Перейдем к описанию этапов процедуры восстановления изображения.
Разработанная схема оказалась достаточно универсальной. Для определенности далее излагается основа алгоритма применительно к двуцветному изображению, для которого под фоном понимаются светлые участки с расположенными на них геометрически правильными темными участками, которые являются символьными изображениями. В частном случае (он, тем не менее, наиболее распространенный) цветом фона является белый, а цветом символьных изображений - черный.
Начальный этап - это предварительный анализ изображения, начинающийся с выбора размера квадратной ячейки , которая в дальнейшем будет использоваться для определения принадлежности пикселя к фону следующим образом: для каждого пикселя получается окружение таким образом, что пиксель будет центром квадрата со стороной (другими словами, это матрица размером ). Матрицу размера , переменную по местоположению, обозначим через . Через обозначим функционал на множестве таких матриц. Этот функционал определяется пользователем и служит для оценки в критерии определения фона. В частности, функционал может быть определен эмпирическим путем, например , где - значение изображения в пикселе. Тогда критерий определения фона устанавливается по правилу: если значение функции больше некоторого , то пиксель является фоновым.
Значение параметра можно получить эмпирическим путем. При этом может зависеть от различных характеристик исходного изображения, таких как размер, насыщенность, процентное отношение фона к значащему тексту и так далее.
Для определения значения (т.е. для задания фона) возможно применение одного из двух вариантов:
1) автоматическое определение фона по максимуму среднеквадратичного значения по всей матрице;
2) выбор контрольной ячейки или нескольких ячеек оператором с последующим получением на основе значений матрицы в этих ячейках.
Если выбран вариант параллельной обработки цветного изображения, надо учитывать, что можно использовать среднее по трем матрицам только в том случае, если фоном является оттенок серого цвета, в противном случае нужно учитывать каждую компоненту по отдельности.
Введем в рассмотрение еще один параметр, который определяет основное значение цвета на фоне . В случае обычного текста на белом фоне означает насыщенность цвета и является числом. При этом пиксель - это пиксель полезного символа в том случае, если .
Следующий основной этап - использование собственно восстанавливающего алгоритма. Алгоритм производит построчную обработку после предварительно этапа. Таким образом, специфика этого алгоритма в его избирательности к направлению обработки, что будет приводить к разным результатам в зависимости от порядка обхода пикселей. В некоторых случаях можно применить пост-обработку результата, повернутого на 900, как будет показано далее.
На рис. 1 приведен пример обработки изображения с белым фоном и черным цветом текста. Обработка проводилась для значения , (для обычного отсканированного документа это является идеальным случаем, но, тем не менее, близким к реальности). Этот алгоритм оказывается эффективным, если шумовые загрязнения значительно отличаются от текста. Однако при этом могут изменяться и некоторые характеристики полезных элементов изображения.
Рис. 1. Результаты обработки загрязненного черно-белого изображения
Рис. 2. Восстановление изображения в случае, если параметры распознавания приближены к реальным
Следующий пример показывает, что при выборе значений , результат далеко не идеален. Алгоритм без изменений не может справиться с таким изображением в полной мере (см. рис. 2).
Как видно из примера, хоть и получено некоторое улучшение изображения, по сравнению с оригиналом, тем не менее, загрязнение достаточно "загрязненное". Для улучшения алгоритма восстановления можно применять различные методики. Например, повторное восстановление при повороте изображения на 900 (см. рис. 3) позволит алгоритму, который работает по рядам, отработать еще и по столбцам, что улучшает качество. Но, с другой стороны, это приводит к тому, что текст получается более жирным (за счет того, что при каждом восстановлении некоторые пиксели фона распознаются как значащие и присоединяются к символам).
Рис. 3. Улучшение изображения c использованием поворота на 900
Кроме вышеуказанного способа можно варьировать значение параметра n (размер окна, которое используется для установления того, является пиксель фоном или нет), что приводит к определенным результатам:
Рис. 4. Восстановление "загрязненной" буквы "В". Изображение слева - оригинал, далее по порядку слева направо восстановление со значением n = 1,2,4
Как видно из рис. 4, чем больше значение n, тем более жирным становится результирующее изображение, но при этом неровности сглаживаются в большей степени (при n = 1 виден большой промежуток в букве). Таким образом, система может либо автоматически определять параметр n, анализируя изображение, или же этот параметр могут задавать пользователи.
При выполнении улучшения существует проблема, которая связана с алгоритмом интерполяции. Если весь правый край некоторого ряда изображения загрязнен, т.е. подлежит интерполяции, то не существует ни одного крайнего пикселя для проведения интерполяции. В таком случае можно брать значения из последнего значащего пикселя.
Алгоритм может использовать (так же, как и существующие методы распознавания текста) базы различных символьных образцов, например изображение букв кириллицы в Times New Roman. Реализация алгоритма улучшения производится в два этапа:
1. Этап очистки фона. На этом этапе от шумов очищается фон картинки.
2. Этап восстановления текста. На этом этапе от шумов очищаются значащие элементы, а также восстанавливаются фрагменты этих элементов.
Предполагаемый алгоритм восстановления реализуется по следующей схеме:
1. Для каждого пикселя в каждом ряду в исходном изображении определяется, является этот пиксель значащим цветом или же цветом фона. Для этого используется среднее значение по всем трем цветовым компонентам:
.
а) для каждого пикселя рассчитывается функция ;
b) если значение (это означает, что пиксель является фоновым) или же значение является значащим цветом, то в результирующем изображении этот пиксель остается в неизменном виде, в противном случае этот пиксель подлежит восстановлению
2. Для каждого пикселя, который подлежит восстановлению, вызывается функция, которая производит полиномиальную интерполяцию с тем, чтобы получить неизвестное значение в точке
Список литературы
1. Даджион Д., Мерсеро Р. Цифровая обработка многомерных сигналов / С.-Петерб. гос. ун-т информ. технологий, механики и оптики. М.: Мир, 1988. 488 с.
Размещено на Allbest.ru
...Подобные документы
Анализ существующих методов масштабирования изображений. Повышение скорости обработки и изменения картинок. Алгоритм масштабирования с использованием параллелизма. Отбор пикселей для правильного расчета градиента. Выбор метода интерполяции изображения.
курсовая работа [5,8 M], добавлен 17.06.2017Алгоритм реализации векторного пространства, метод фильтрации шумов на изображении. Формально-логическая модель разработки программного обеспечения, выбор инструментальных средств его реализации. Анализ точности совпадения распознанного изображения.
дипломная работа [2,7 M], добавлен 13.02.2013Разработка программной базы для исследований в области распознавания речи и поиска ключевых слов в ней. Расчет mel-фильтров. Скрытые марковские модели. Применение в алгоритме сверточного декодирования Витерби. Методы визуализации и обработки аудиоданных.
курсовая работа [1,1 M], добавлен 01.06.2015Фильтрация шумов изображения. Алгоритмы его бинаризации и поворота. Формирование информативных признаков для распознавания нот. Схема программного обеспечения. Описание классов, функций, методов, реализованных в программе. Тестирование приложения.
курсовая работа [2,0 M], добавлен 17.12.2013Информация о графических форматах. Хранение изображения в программе. Очередь как вспомогательная структура данных. Загрузка изображения из двоичного файла. Операции с изображением. Уменьшение разрешающей способности. Увеличение размера изображения.
курсовая работа [1,1 M], добавлен 29.06.2013Описание алгоритма поворота изображения. Вычисление синуса и косинуса угла поворота изображения. Алгоритм и реализация функции поворота изображения вокруг центра на заданный пользователем угол. Проверка на соответствие диапазону допустимых значений.
курсовая работа [1,3 M], добавлен 23.01.2015Необходимость в системах распознавания символов. Виды сканеров и их характеристики. Оптимальное разрешение при сканировании. Программы распознавания текста. Получение электронного документа. FineReader - система оптического распознавания текстов.
презентация [469,2 K], добавлен 15.03.2015Разработка приложения, целью которого ставится преобразование черно-белых полутоновых изображений в цветные. Обзор методики обработки изображения, способов преобразования изображения с помощью нейронной сети. Описания кластеризации цветового пространства.
дипломная работа [6,3 M], добавлен 17.06.2012Общий алгоритм сравнения двух изображений. Метод максимальных площадей. Метод гистограмм. Подготовка изображения к распознаванию. Моделирование многомерной функции. Распределение векторов. Деформируемые модели. Реализация программного обеспечения.
дипломная работа [384,2 K], добавлен 29.09.2008Интерфейс программы Adobe Photoshop. Внесение изменений в изображение. Инструменты изменения оттенка и искажения изображения. Последовательность формирования изображения. Тоновая и цветовая коррекция изображения, работа с фильтрами и функциями.
курсовая работа [2,8 M], добавлен 14.12.2011Подсистема анализа изображения отпечатка пальца в составе системы идентификации личности по отпечаткам пальцев на основе папиллярного узора для дальнейшего распознавания личности. Характеристика функциональных возможностей системы и код програмы.
дипломная работа [3,1 M], добавлен 01.07.2008Разработка программы, предназначенной для сжатия или компрессии полутонового изображения международным стандартом JPEG. Описание метода JPEG, выдача результатов в виде декодированного изображения. Обзор методов компрессии полутонового изображения.
курсовая работа [43,5 K], добавлен 14.10.2012Литературный обзор методов распознавания кромок для схожих задач. Объекты в приложении и их отображение. Генерация выходных данных. Алгоритм распознавания линии (графика), отличный от градиентных подходов и использующий алгоритм предварительной обработки.
дипломная работа [711,8 K], добавлен 27.04.2014Яркость точек и гистограммы изображения. Изменение яркости и контрастности. Метод ранговой фильтрации с оценкой середины диапазона. Наложение шумов на изображение. Преобразование изображения в негатив. Получение матрицы яркостей и построение гистограмм.
курсовая работа [1,5 M], добавлен 11.12.2012Принцип действия и назначение факсимильной связи, сферы ее применения, оценка преимуществ и недостатков. Сущность и особенности использования адресно-позиционного кодирования. Алгоритм программы сжатия и восстановления изображения по методу АПК.
курсовая работа [23,3 K], добавлен 16.04.2010Описание этапов создания анимированного GIF изображения мультипликационного героя "Винни-Пуха" в программе Adobe Photoshop CS6. Создание дубликата слоя изображения и подготовка кадров для GIF анимации. Настройка эффектов анимации и результат GIF-файла.
лабораторная работа [1,2 M], добавлен 05.03.2015Компьютерная графика. Пиксели, разрешение, размер изображения. Типы изображений. Черно-белые штриховые и полутоновые изображения. Индексированные цвета. Полноцветные изображения. Форматы файлов. Цвет и его модели. Цветовые модели: RGB, CMYK, HSB.
реферат [18,1 K], добавлен 20.02.2009Методы кодирования изображения: кодированием длины серии, частотно-зависимое кодирование, метод Лемпеля-Зива. Размер строки при 16-битном цвете. Расчет размера всего исходного изображения. Примеры качественного и некачественного сжатия изображения.
презентация [2,0 M], добавлен 22.10.2013Программная реализация статической нейронной сети Хемминга, распознающей символы текста. Описание реализации алгоритма. Реализация и обучение сети, входные символы. Локализация и масштабирование изображения, его искажение. Алгоритм распознавания текста.
контрольная работа [102,3 K], добавлен 29.06.2010Специфические особенности распознавания лиц. Взаимодействие компьютер - человек. Создание новой нейросистемы, разработанной в программе разработчиков Borland Delphi, которая будет состоять из поля захвата изображения и дальнейшим обучением нейросети.
презентация [212,5 K], добавлен 14.08.2013