Распознавание текста: подходы и программы

Обобщение основных подходов к распознаванию текста. Принципы функционирования программного обеспечения OCR – оптического распознавания символов. Контекстное распознавание текста. Нейронные сети. Примеры программ для различных видов распознавания текста.

Рубрика Программирование, компьютеры и кибернетика
Вид реферат
Язык русский
Дата добавления 06.06.2013
Размер файла 17,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Введение

Человек давно задумывался над проблемой распознавания текста машинами. Трудно поверить, но первые машины для оптического распознавания знаков появились задолго до компьютерной эры. В 1914 году химик Эммануэль Голдберг (к слову, русский эмигрант, бежавший в Германию из-за антисемитских настроений в царской России), специалист по фотохимии и изобретатель ряда фотокамер, сконструировал прообраз оптической машины, способной переводить напечатанные буквы в телеграфный код. Примерно в то же время ирландский химик Эдмунд Фурнье д'Альбе создал и запатентовал «оптофон» - прибор, умеющий переводить написанное в систему низких и высоких звуков. Оптофон предназначался для того, чтобы слепые могли «читать».

Чуть позже, в 1929 году, австрийский электротехник Густав Таушек запатентовал метод оптического распознавания текста, за ним последовал Гендель в 1933. Машина Таушека представляла собой механическое устройство, которое использовало шаблоны и фотодетектор.

Коммерческое производство машин для распознавания текста начал в 1950 году Дэвид Х. Шепард военный специалист по криптоанализу. Его машина, запатентованная в 1953 году, понимала буквы латинского алфавита, азбуку Морзе и музыкальную нотацию. Первые машины Шепарда произведенные компанией IMR были куплены для перевода машинописных статей корреспондентов для перевода в общую базу с дальнейшей вёрсткой; чтения с печатных чеков информации о кредитных картах, и т. д.

С 1960-го года машины для оптического распознавания текста стали использоваться повсеместно в США и Канаде, то есть в их почтовых системах и правительственной структуре.

В 1974 году известный изобретатель и футуролог Рэймонд Курцвейл запатентовал систему, состоящую из OCR-машины и синтезатора человеческой речи, таким образом создав первый читающий вслух механизм. Надо сказать, что в те годы распознаватель чаще всего представлял собой именно отдельное устройство, а не программу-приложение для компьютера. Но компьютерная эра наступала неотвратимо.

Но все эти были лишь машины, а не привычные нам сейчас программы для распознавания текста.

Подходы к распознаванию текста

распознавание текст программный оптический

Шаблонный подход. Программное обеспечение OCR (Optical Character Recognition -оптическое распознавание символов) обычно работает с большим растровым страницы из сканера. Такие системы преобразуют изображение отдельного символа в растровое, сравнивают его со всеми шаблонами, имеющимися в базе и выбирают шаблон с наименьшим количеством точек, отличных от входного изображения. При этом большинство систем имеет шаблоны, созданные для различных начертаний. После нескольких распознанных слов, программное обеспечение определяет используемый шрифт и ищет соответствующие пары только для этого шрифта. В некоторых случаях программное обеспечение использует численные значения частей символа (пропорций), чтобы определить новый шрифт. Это может улучшить эффективность распознавания. Шаблонные системы довольно устойчивы к дефектам изображения и имеют высокую скорость обработки входных данных, но надежно распознают только те шрифты, шаблоны которых им "известны". И если распознаваемый шрифт хоть немного отличается от эталонного, шаблонные системы могут делать ошибки даже при обработке очень качественных изображений.

Структурный подход. Самая продаваемая в мире система OCR - Caere OmniPage Professional использует алгоритм, который не должен настраиваться на индивидуальное начертание, потому что он основан на нахождении общих специфических особенностей символов. В таких системах объект описывается как граф, узлами которого являются элементы входного объекта, а дугами - пространственные отношения между ними. Система реализующие подобный подход, обычно работают с векторными изображениями. Структурными элементами являются составляющие символ линии. Эта система содержит 100 различных "экспертных систем", которые в действительности являются только алгоритмами для идентификации 100 различных символов: верхнего и нижнего регистра от "A" до "Z", записи чисел и символов пунктуации. Каждый из этих алгоритмов ищет «особенности» начертаний типа «островов», «полуостровов», точек, прямых оттисков и дуг. Экспертные системы также рассматривают горизонтальные и вертикальные проекции оттисков буквы и обращают внимание на основные особенности в созданных кривых, суммируя в них число темных пикселей. Очевидно, что "t" всегда состоит из жирного вертикального штриха, поперечного с горизонтальным штрихом. Дизайнер шрифта может включать в него засечки или сдвигать расположение пересечений, но человек может без труда выяснять и игнорировать эти отличия. Нечеткий текст может стать специфической проблемой для этих структурных алгоритмов, потому что отсутствующий пиксель может разбивать длинный штрих или кривую. Аналогично, дополнительное пятно грязи могло закрывать петлю записи числа "5" и заставлять ее выглядеть наподобие "6" согласно основанному на особенности начертания алгоритму. Алгоритм на основе шаблонов здесь не имеет таких проблем, потому что остальные пиксели в "5" выровнялись бы правильно. Для этих систем, в отличие от шаблонных и признаковых, до сих пор не созданы эффективные автоматизированные процедуры обучения.

Контекстное распознавание текста

Люди способны быстро различить на бумаге "h" и "b" еще и потому, что они знают контекст слова, в котором встречаются эти буквы. По этой причине программное обеспечение системы OCR включает словари для помощи алгоритмам распознавания. Словари предоставляют справки во многих случаях, но быстро отказывают, когда, скажем, программное обеспечение сталкивается с именами собственными, которые не находятся в словаре. Корпорация Xerox имеет один из наиболее сложных пакетов программ с контекстным анализом. Таким образом, алгоритм распознавания в самом общем виде состоит в последовательном выдвижении и проверке гипотез, причем порядок их выдвижения управляется заложенными в программу знаниями об исследуемом предмете и результатами проверки предыдущих гипотез (производится дополнительный анализ объекта в рамках выдвинутой гипотезы). Основное требование к предварительной обработке - не потерять во входном объекте существенную информацию. Поскольку для выделения целого требуются его части, а для нахождения частей требуется целое, целостный процесс восприятия может происходить только в рамках гипотезы о воспринимаемом объекте - в целом. Если программа должна приближаться к качеству восприятия текста человеком, то, скорее всего, она может успешно использовать алгоритм, "подсмотренный" у человека-читателя. Читая предложение, человек узнает буквы, воспринимает слова, связывает их в синтаксические конструкции и понимает смысл предложения. Все процессы происходят одновременно, влияя друг на друга, а окончательное решение принимается на основе полного учета их результатов. Целостное описание класса объектов восприятия должно удовлетворять двум свойствам: во-первых, все объекты данного класса должны удовлетворять этому описанию, во-вторых, ни один объект другого класса не должен удовлетворять описанию. Обычно гипотезы выдвигаются последовательно, объединяются в список и сортируются на основе предварительной оценки гипотезы. Окончательный выбор гипотезы делается в рамках контекста, с привлечением, возможно, дополнительных источников знания.

Нейронные сети

Нейронные сети - это структура связанных элементов, на которых заданы функции преобразования сигнала, а также коэффициенты, которые могут быть настроены на определенный характер работы. Часть элементов структуры выделены как входные: на них поступают сигналы извне, часть - выходные: они формируют результирующие сигналы. Сигнал, который проходит через нейронную сеть, преобразуется согласно формулам на элементах сети, и на выходе формируется ответ. Нейронная сеть может служить в системе распознавания текста в качестве классификатора. Этот классификатор можно обучать, настраивая коэффициенты на элементах сети, и, таким образом, стремиться к идеальному результату распознавания. Нейронные сети с успехом могут применяться в системах распознавания текста, но существует большое число недостатков, которые препятствуют их широкому применению. Для построения сети, обеспечивающей распознавание каждого символа текста, необходимо построить достаточно большую сеть элементов, что приводит к большим затратам памяти. Еще сильнее тратятся ресурсы системы в процессе распознавания, так как функции на элементах сети работают с числами с плавающей точкой. Кроме этого нейронные сети необходимо обучать на все случаи, что, однако, не гарантирует точного результата. И, наконец, работа нейронной сети по распознаванию текста во многом зависит от конфигурации сети функций, заданных в элементах, что требует больших усилий для построения эффективно работающей сети.

Примеры программ для различных видов распознавания текста

Шаблонный

Программа распознавания TypeReader использует машинно-зависимые алгоритмы на основе шаблонного подхода. Данный подход требует создания шаблона для каждого шрифта. Например, программа TypeReader использует 2100 различных вариантов начертаний символов.

Структурный

Основанные на шаблоне подходы должны создать шаблоны для каждого возможного шрифта (программа ExperVision, к примеру, использует 2100 таких начертаний). Caere напротив пробует находить сущность каждого символа на основе структурного подхода.

Контекстное распознавание

Этот эффект особенно заметен в российской программе FineReader, который чаще, чем в среднем по всем символам, ошибается в словах, которые отсутствует его словаре.

Пакет, называемый Lexifier (сокращение для "лексический классификатор"), содержит большинство главных правил записи буквенных структур или принятых образцов номеров телефонов. Он помогает интерпретировать имена собственные типа Lexifier, которые кажутся совершенно правильно английскими, но не находятся в словаре. Этот эффект особенно заметен в российской программе FineReader, который чаще, чем в среднем по всем символам, ошибается в словах, которые отсутствует в его словаре (к примеру, названия фирм ему даются тяжело).

Размещено на Allbest.ru

...

Подобные документы

  • Необходимость в системах распознавания символов. Виды сканеров и их характеристики. Оптимальное разрешение при сканировании. Программы распознавания текста. Получение электронного документа. FineReader - система оптического распознавания текстов.

    презентация [469,2 K], добавлен 15.03.2015

  • Оптическое распознавание символов как механический или электронный перевод изображений рукописного, машинописного или печатного текста в последовательность кодов. Компьютерные программы для оптического распознавания символов и их характеристика.

    презентация [855,2 K], добавлен 20.12.2011

  • Как работает система оптического распознавания. Деление текста на символы. Образ страницы и распознавание по шаблонам, особенности коррекции ошибок. Увеличение скорости бесклавиатурного ввода документов в технологиях электронного документооборота.

    контрольная работа [15,6 K], добавлен 29.04.2011

  • Проектирование приложения на языке С# в среде Microsoft Visual Studio 2008: составление алгоритмов сегментации текста документа и распознавания слова "Указ" в нем, создание архитектуры и интерфейса программного обеспечения, описание разработанных классов.

    курсовая работа [2,4 M], добавлен 05.01.2011

  • Процессы распознавания символов. Шаблонные и структурные алгоритмы распознавания. Процесс обработки поступающего документа. Обзор существующих приложений по оптическому распознаванию символов. Определение фиксированного шага и сегментация слов.

    дипломная работа [3,3 M], добавлен 11.02.2017

  • Классификация программ обработки текстовых документов. Общие принципы оформления издания. Правила набора текста. Системы распознавания текста (OCR). Комплекс программного обеспечения для настольных издательских систем. Примеры текстовых редакторов.

    презентация [75,0 K], добавлен 13.08.2013

  • Методы предобработки изображений текстовых символов. Статистические распределения точек. Интегральные преобразования и структурный анализ. Реализация алгоритма распознавания букв. Анализ алгоритмов оптического распознавания символов. Сравнение с эталоном.

    курсовая работа [2,1 M], добавлен 20.09.2014

  • Принципы и система распознавание образов. Программное средство и пользовательский интерфейс. Теория нейронных сетей. Тривиальный алгоритм распознавания. Нейронные сети высокого порядка. Подготовка и нормализация данных. Самоорганизующиеся сети Кохонена.

    курсовая работа [2,6 M], добавлен 29.04.2009

  • Распознавание текста на изображениях как очень важная задача, имеющая множество практических приложений. Особенности архитектуры интегрированной системы получения текстовой информации из изображений. Общая характеристика методов выделения текста.

    курсовая работа [1,7 M], добавлен 12.06.2016

  • Условия применения и технические требования для работы программно-аппаратной платформы. Система распознавания лиц VOCORD Face Control. Система распознавания текста ABBYY FineReader. Алгоритмы и методы, применяемые в программе. Алгоритм хеширования MD5.

    дипломная работа [1,8 M], добавлен 19.01.2017

  • Понятие и особенности построения алгоритмов распознавания образов. Различные подходы к типологии методов распознавания. Изучение основных способов представления знаний. Характеристика интенсиональных и экстенсиональных методов, оценка их качества.

    презентация [31,6 K], добавлен 06.01.2014

  • Создание программного средства, осуществляющего распознавание зрительных образов на базе искусственных нейронных сетей. Методы, использующиеся для распознавания образов. Пандемониум Селфриджа. Персептрон Розенблатта. Правило формирования цепного кода.

    дипломная работа [554,8 K], добавлен 06.04.2014

  • Оптико-электронная система идентификации объектов подвижного состава железнодорожного транспорта. Автоматический комплекс распознавания автомобильных номеров. Принципы и этапы работы систем оптического распознавания. Особенности реализации алгоритмов.

    дипломная работа [887,3 K], добавлен 26.11.2013

  • Работа в окне документа. Ввод текста. Вставка и удаление текста. Отмена результатов выполненных действий. Перемещение и копирование текста методом "перетащить-оставить". Форматирование текста. Сохранение документа. Шаг вперед: смена регистра.

    лабораторная работа [220,9 K], добавлен 10.03.2007

  • Программная реализация статической нейронной сети Хемминга, распознающей символы текста. Описание реализации алгоритма. Реализация и обучение сети, входные символы. Локализация и масштабирование изображения, его искажение. Алгоритм распознавания текста.

    контрольная работа [102,3 K], добавлен 29.06.2010

  • Описание структурной схемы искусственного нейрона. Характеристика искусственной нейронной сети как математической модели и устройств параллельных вычислений на основе микропроцессоров. Применение нейронной сети для распознавания образов и сжатия данных.

    презентация [387,5 K], добавлен 11.12.2015

  • Методы распознавания образов (классификаторы): байесовский, линейный, метод потенциальных функций. Разработка программы распознавания человека по его фотографиям. Примеры работы классификаторов, экспериментальные результаты о точности работы методов.

    курсовая работа [2,7 M], добавлен 15.08.2011

  • Форматирование текста с помощью HTML. Задание цвета на веб-странице. Задание размера шрифта. Физическое и логическое форматирование символов. Вставка специальных символов. Удобочитаемость, содержание и форма шрифта. Подбор шрифта и верстка текста.

    курсовая работа [1,3 M], добавлен 01.10.2014

  • Системы счисления: понятие и содержание, классификация и типы, отличительные свойства и принципы. Перевод чисел из одной системы счисления в другую, виды программного обеспечения. Возможности программы сканирования и распознавания текста Fine Reader.

    контрольная работа [37,2 K], добавлен 15.12.2013

  • Распознавание образов - задача идентификации объекта или определения его свойств по его изображению или аудиозаписи. История теоретических и технических изменений в данной области. Методы и принципы, применяемые в вычислительной технике для распознавания.

    реферат [413,6 K], добавлен 10.04.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.