Главная Коллекция "Revolution" Программирование, компьютеры и кибернетика Оценка качества работы алгоритма поиска логической структуры документа при оптическом распознавании

Оценка качества работы алгоритма поиска логической структуры документа при оптическом распознавании

Подбор разметки документа таким образом, чтобы сгенерированный вариант как можно меньше отличался от оригинала - основная задача системы распознавания. Microsoft Word - наиболее популярное программное приложение для работы с текстовой информацией.

Рубрика	Программирование, компьютеры и кибернетика
Вид	статья
Язык	русский
Дата добавления	19.01.2018
Размер файла	341,6 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru

В настоящее время посимвольное распознавание текста OCR-системами является недостаточным для перевода документа в цифровую копию. Для быстрой и качественной оцифровки документов необходимо надёжно воспроизводить структуру документа и его форматирование, чтобы избавить пользователя от большого объёма ручной работы по редактированию распознанного текста и созданию его разметки вручную.

При восстановлении структуры документа основной задачей является подбор таких параметров оформления текста и разбиения его на потоки, чтобы полученный документ как можно меньше отличался от исходного.

Не менее важно уметь оценивать, насколько хорошо та или иная система распознавания справляется с задачей восстановления логической структуры, насколько полученная структура документа похожа на оригинал. Также полезно иметь возможность сравнивать структуры одного документа, полученные от разных программ или от разных версий одной программы. В данной работе предложен способ оценки качества распознавания логической структуры документа.

Логическая структура документа - структурное представление содержимого документа в виде определённых элементов, которое учитывает их роль в документе, логические взаимосвязи между ними, порядок чтения документа пользователем и т.д. [Зуев, 1999], [Song, 2003], [Зуев, 1996].

Для исследования логической структуры документов, прежде всего, выделим основные элементы, которые составляют логическую структуру. Устройство логической структуры можно представить следующим образом: документ делится на потоки. Как правило, существует один основной поток (рис. 1). Помимо него могут встречаться дополнительные потоки: сноски, врезки, колонтитулы, подписи, и т.д. Текст потоков состоит из абзацев, абзац - из строк, строка - из символов.

В газетах и журналах со сложной структурой может встречаться несколько основных потоков рядом, обычно это разные статьи. Для разделения таких логически законченных частей удобно ввести разделение на секции, каждая из которых внутри себя уже будет делиться на потоки. Это удобно и для логического разделения, например, глав книг.

Наиболее популярная программа для работы с текстом Word также использует разделение на секции для представления логической структуры. Такое разделение используется для изменения разметки и форматирования одной или нескольких страниц документа. Разделение на секции необходимо, например, для изменения количества колонок или для изменения ширины, отступов и других параметров колонок, используется для начала новой главы с новой страницы и т.д. На рисунке 1 заголовок следует выделить в отдельную секцию, т.к. он является одноколоночным текстом, в то время как остальной текст записан в две колонки.

Таким образом, логическая структура документа представлена в виде дерева, корнем дерева является сам документ, далее идёт ветвление: секция -> поток -> абзац -> строка. Подобное представление структуры является иерархическим и может быть изображено в виде дерева, корнем дерева является сам документ. Рис. 2 показывает дерево логической структуры, построенное для примера страницы, изображенной на Рис. 1. Деление на абзацы и строки для упрощения схемы показано только на примере первой сноски, для остальных потоков оно аналогичное. Каждый колонтитул или сноска является отдельным потоком.

Распознавание логической структуры в целом является сложной задачей вследствие того, что изображение документа не содержит явно выделенных элементов логической структуры и разделение документа на потоки не всегда однозначно.

Рис. 1. Элементы логической структуры

программный текстовый разметка

Основное представление о логической структуре можно получить из графических характеристик тех или иных элементов документа [Rangoni, 2006], [Hu, 1993].

Такие графические характеристики могут быть:

связаны с геометрической структурой изображения (размер и расположение той или иной области документа, взаимоотношения между областями, наличие рамки, разделительной линии, просвета);

содержать шрифтовое оформление (гарнитура, размер, тип, начертание и т.д.);

связаны с текстовой составляющей элементов логической структуры (ключевые слова, такие как «Рисунок», «Формула», «Глава»; символы из ограниченного словаря, такие как номера страниц, дата, знак «§», и т.п.).

Рис. 2. Дерево логической структуры

Характерные ошибки при распознавании логической структуры документа.

Задача системы распознавания подобрать разметку документа таким образом, чтобы сгенерированный документ как можно меньше отличался от оригинала (документа на изображении). Чтобы иметь возможность сравнивать распознанный документ с оригиналом, для каждого документа, который используется для тестирования системы, вручную создаётся эталонная разметка. Любое несоответствие логической структуры, полученной при распознавании образца, и структуры эталонной разметки расценивается, как ошибка.

Эталонной разметкой будем считать логическую структуру документа, которую бы получил человек, стараясь как можно точнее воспроизвести распознаваемый образец.

При воссоздании логической структуры могут возникать разнообразные ошибки. Каждый вид ошибки требует индивидуального подхода, с точки зрения пользователя, для её исправления. Для того чтобы уметь сравнивать восстановленную логическую структуру с оригинальной или сравнивать два результата распознавания между собой, были изучены типичные виды ошибок.

В левой колонке таблицы 1 приведены ошибки, которые используются в системе ABBYY Fine Reader для оценки качества распознавания логической структуры документа, с добавлением ещё двух видов ошибок, которые исправили недостатки существовавшего подхода (были добавлены ошибки «разрыв колонтитула» и «неверная роль потока»).

Табл. 1

Вид ошибки	Вес
Потеряно разбиение на абзацы	0,5
Излишнее разбиение на абзацы	0,5
Потерянна секция	1
Найдена лишняя секция	1
Найден лишний колонтитул	1
Потерян колонтитул	1
Слияние доп. потока с основным	1,5
Отделение доп. потока от основного	1
Объединение двух доп. потоков	1,5
Разделение доп. потока на два	1
Разрыв колонтитула	0
Неверная роль доп. потока	1,5

Ошибки были разделены на три группы по степени сложности и в соответствии с группой им были назначены веса 0,5, 1 и 1,5. Сложность ошибки оценивалась на основе времени, которое понадобится пользователю на её исправление, время оценивалось с помощью количества простых действий пользователя при исправлении ошибки.

Распределение весов для каждой ошибки показано в правой колонке таблицы 1. Вес для каждой группы увеличивается примерно пропорционально увеличению количества операций, необходимых для исправления ошибки. Выбранная оценка монотонна и аддитивна. Ошибка «разрыв колонтитула» специально была вынесена в отдельную группу, т.к. является не существенной. Дело в том, что при экспорте в текстовый редактор, например Word, две части колонтитула будут соединены в один нижний или верхний колонтитул, поэтому на этапе экспорта результатов эта ошибка исчезнет.

Были проведены эксперименты, заключающиеся в оценке результатов распознавания для двух версий Fine Reader - 9 и 11. В экспериментах участвовало 20 документов различного типа (отрывки из книг и журналов разного вида), различного размера (от 3 до 44 страниц) со сложной логической структурой, общее количество проанализированных страниц - 315. Документы выбирались таким образом, чтобы в них обязательно присутствовали в большом количестве разные виды дополнительных потоков. Ниже приведена таблица 2 распределения ошибок для двух вариантов распознавания разными версиями Fine Reader'а на примере документа, содержащего 20 страниц из книги с большим количеством врезок и колонтитулов.

Табл. 2

Вид ошибки	Количество ошибок
	FR 9	FR 11
Потеряно разбиение на абзацы	0	0
Излишнее разбиение на абзацы	12	20
Потерянна секция	0	2
Найдена лишняя секция	16	5
Найден лишний колонтитул	0	2
Потерян колонтитул	0	0
Слияние доп. потока с основным	15	6
Отделение доп. потока от основного	0	0
Объединение двух доп. потоков	0	1
Разделение доп. потока на два	0	1
Разрыв колонтитула	0	17
Неверная роль доп. потока	4	2
Общее количество ошибок	47	56
Итоговая взвешенная оценка	43	31
Вес, нормализованный на страницу	3,59	1,16
Неправильное разбиение на абзацы	0,163	0,11
Неправильное нахождение секций	2,28	0,96
Неправильное нахождение колонтитулов	0,04	0,025
Неправильное распределение по потокам	1,026	0,262

Как видно из таблицы 2, Fine Reader 11 совершил больше ошибок при распознавании, но в целом документ оказался распознанным лучше, чем 9-ой версией Fine Reader'а.

Полученные оценки могут быть использованы не только для сравнения двух результатов распознавания, но и для сравнения качества распознанных логических структур двух различных документов. С помощью такого сравнения можно оценить, насколько сложной оказалась для распознавания та или иная структура, какой документ в итоге был распознан лучше.

Данная оценка не очень удобна для сравнения, насколько сложена логическая структура того или иного документа, если сравнивать приходится документы с разным количеством страниц. Хотя в целом структура большого документа (например, книги) может быть гораздо проще, чем структура короткого (например, журнала), из-за большого количества страниц книга может получить оценку намного большую, чем журнал.

Для устранения этого недостатка была добавлена нормализация оценки на количество страниц. Таким образом, нормализованная оценка показывает среднюю взвешенную оценку страницы, наглядно демонстрируя при сравнении двух документов разного размера, структура какого из них оказалась более сложной с точки зрения распознавания.

С другой стороны, предложенная оценка не показывает наглядно, как система распознавания справляется с нахождением определённых элементов логической структуры, оценивая лишь общее качество распознавания всего документа. Для устранения этого недостатка был предложен ещё один способ дифференциальной оценки. Такая оценка подсчитывает количество ошибок, связанных с определённым типом элементов, и нормирует их на количество элементов этого типа в эталонной разметке документа.

Например, чтобы оценить качество нахождения секций документа, суммируется количество ошибок «Потерянна секция» и «Найдена лишняя секция» и делится на количество секций в эталонной разметке документа. Таким образом, этот вид оценки помогает более детально оценивать изменения, происходящие в системе распознавания от версии к версии. В нижних строках таблицы 2 отображены все виды оценок для двух вариантов распознавания.

Для более достоверного сравнения качества распознавания логической структуры двумя версиями системы сравнение следует проводить не на одном документе. Поэтому для эксперимента были отобраны 20 разных документов, общее количество страниц - 315. Сравнение проводилось для суммарного количества ошибок каждого типа. Общий результат качества приведён в таблице 3.

Табл. 3

	Оценка
	FR 9	FR 11
Общее количество ошибок	1444	992
Итоговая взвешенная оценка	1496,5	789,5
Вес, нормализованный на страницу	4,75	2,51
Неправильное разбиение на абзацы	0,178	0,134
Неправильное нахождение секций	1,963	1,402
Неправильное нахождение колонтитулов	0,11	0,061
Неправильное распределение по потокам	1,116	0,547

Эксперименты показали, что 11-ая версия программы справляется с распознаванием логической структуры значительно лучше 9-ой. Из таблицы хорошо видно, что в Fine Reader 11 произведены улучшения по каждому показателю, но также можно отметить, что, например, ошибок связанных с нахождением секций, хотя и стало меньше, но их по-прежнему очень много. Так же система ещё довольно часто ошибается при распределении текста по потокам определении их роли.

С помощью предложенных оценок также было проведено сравнение качества восстановления логической структуры для книг и журналов по отдельности. Получены результаты аналогичные таблице 3 для каждого качества распознавания книг и журналов.

Чтобы оценить, насколько полученный подход соответствует реальному качеству распознавания и насколько сложны будут исправления документа для пользователя, некоторые журналы были распознаны и полученная логическая структура отредактирована. В таблице 4 приведено сравнение реального качества и предложенной оценки. Так как в данном эксперименте были использованы документы разной длины, для сравнения выбран вес, нормализованный на страницу.

Табл. 4

№	Стр.	Описание работ по исправлению	Качество	Вес
1.	9	Несколько исправлений разбиения на параграфы, 1 врезку исправить за заголовок с созданием разрыва секции, удалить несколько разрывов секций, создать одну врезку.	хорошее	1,56
2.	9	Среднее количество исправлений разбиения на параграфы, удалить несколько разрывов секций, создать несколько подписей, создать все концевые сноски (74).	плохое	15,33
3.	7	Много исправлений разбиения на параграфы, среднее количество исправлений разделения на секции, создание верхних колонтитулов, создать несколько врезок.	среднее	6,28
4.	6	Несколько исправлений разбиения на параграфы, удалить несколько разрывов секций, все подписи создать вручную (15), создать все концевые сноски (21).	плохое	10,58
5.	3	Несколько исправлений разбиения на параграфы, 1 удаление разрыва секции, создать 1 колонтитул из двух потоков, создать несколько подписей.	хорошее	3,33
6.	4	Среднее количество исправлений разбиения на параграфы, удалить несколько разрывов секций, создать колонтитул, создать врезку, создать несколько сносок.	среднее	4,63

Как видно из таблицы 4, оценка увеличивается с увеличением сложности документа и может дать представление о времени, затраченном пользователем на исправление логической структуры, полученной при распознавании.

Список литературы

1. Зуев К.А., Технология анализа документа // Компьютерная хроника, 1996г.

2. Зуев К.А., Система идентификации структуры печатных документов // Дис. канд. тех. наук. - М.: МГУЛ, Москва, 1999.

3. Hu T., Ingold R. A mixed approach toward an efficient logical structure recognition from document images // ELECTRONIC PUBLISHING, VOL. 6(4), 1993.

4. Rangoni Y., Belaid A. Document Logical Structure Analysis Based on Perceptive Cycles // Springer-Verlag Berlin Heidelberg, 2006.

5. Song M., Rosenfeld A., Kanunugo T. Document Structure Analysis Algorithms: A Literature Survey // Proc. SPIE Electronic Imaging, VOL. 5010, 2003.

Размещено на Allbest.ru

...

статья "Оценка качества работы алгоритма поиска логической структуры документа при оптическом распознавании" скачать

Подобные документы

Текстовый редактор Microsoft Word
Применение текстового редактора Microsoft Word для обработки текстовой информации на компьютере. Создание документа, его редактирование и форматирование. Инструмент редактирования текста. Границы и заливка, выделение фрагментов. Стиль написания документа.

реферат [1,4 M], добавлен 28.12.2010
Обработка текстовой информации. Концепция электронного документа
Сущность, структура и значение приложения Microsoft Office 2003, его основные возможности. Концепция электронного документа и его обязательные реквизиты. Особенности технологии создания и редактирования текстового документа в Microsoft Word 2003.

реферат [23,0 K], добавлен 23.11.2010
Автоматизация работы в Microsoft Word
Автоматизация ввода и редактирования. Проверочные средства Microsoft Word, форматирование документа. Оформление документа, практическое применение макросов. Анализ разных версий Microsoft Word. Разработка методического пособия, апробация результатов.

курсовая работа [757,9 K], добавлен 17.05.2010
Программирование для Word из Delphi
Методика создания приложений передающих данные в Microsoft Word. Технология взаимодействия приложений с текстовым редактором Microsoft Word. Создание и использование экземпляров серверов автоматизации. Взаимодействие с сервером на уровне документа.

курсовая работа [120,7 K], добавлен 26.03.2010
Основы работы в операционной системе Windows
Основы работы операционной системы Windows XP. Работа в текстовом процессоре Microsoft Word: ввода, редактирования и форматирования текста, автоматизации разработки документа, создания графических объектов, создания комплексного текстового документа.

курсовая работа [3,6 M], добавлен 25.04.2009
Работа с Microsoft Word и Excel
Правила работы с текстовым редактором Microsoft Word, оценка его возможностей и перспектив развития. Ввод текста и закономерности работы с таблицами. Создание документа "Рекламный лист". Особенности работы с табличным редактором MS Excel, создание диаграм

методичка [6,4 M], добавлен 15.02.2011
Текстовый редактор Microsoft Word XP
Создание сложных текстовых документов с помощью шаблонов и мастеров Word. Разработка собственных шаблонов. Разоаботка общей структуры документа, настройка параметров страницы, перемещение по тексту с помощьюпанели схемы документа. Внешний вид текста.

методичка [30,1 K], добавлен 14.02.2009
Текстовый редактор Microsoft Word
Особенности создания документа в MS Word. Форматирование его по заданным требованиям и выполнение основных действий с файлами. Особенности работы с объектами MS Word. Внедрение интегрированной информационной системы управления персоналом предприятием.

лабораторная работа [27,6 K], добавлен 22.01.2010
Microsoft Word 2010
Создание и редактирование текстовых документов, содержащих таблицы, рисунки и другие мультимедийные объекты. Разница между текстовыми редакторами и текстовыми процессорами. Запуск Microsoft Word. Создание нового документа. Завершение работы в MS Word.

презентация [306,6 K], добавлен 19.12.2014
Текстовый процессор Microsoft Word
Текстовый процессор – общее название программных средств для создания, редактирования и форматирования текстовых документов. Операции для работы с текстом в текстовом процессоре Microsoft Word. Создание и режимы отражения документа. Порядок ввода текста.

презентация [989,1 K], добавлен 31.10.2016
Системы и устройства распознавания текста. Технология обработки текстовой информации
Необходимость в системах распознавания символов. Виды сканеров и их характеристики. Оптимальное разрешение при сканировании. Программы распознавания текста. Получение электронного документа. FineReader - система оптического распознавания текстов.

презентация [469,2 K], добавлен 15.03.2015
Запуск Word. Выход из Word. Настройка пользовательского интерфейса. Открытие и сохранение документа
Запуск Word. Выход Word. Настройка пользовательского интерфейса. Панели инструментов Word. Контекстное меню Word. Подсказки, которые выдает Word. Система Справки Word. Открытие и сохранение документа. Изменение имени и места хранения документа.

лабораторная работа [241,7 K], добавлен 10.03.2007
Создание веб-документов в Word
Преимущества использования Word при создании веб-страниц. Его публикация Word в библиотеке документов. Преобразование документа Word в веб-страницу. Функции HTML-конвертора Word97. Пересмотр документа Word и веб-страницы. Отображение закладок в документе.

реферат [23,6 K], добавлен 06.04.2010
Стилевое оформление документов
Автоматизация редактирования текста документа. Стили документа Word 2010. Сравнительная характеристика в Microsoft Word 2007 и 2003, стили оформления. Приемы и методы редактирования документов, предназначенных для автоматической обработки данных.

курсовая работа [3,6 M], добавлен 23.06.2016
Створення шаблонів документів засобами Microsoft Word
Створення документа "Запрошення". Запуск і настроювання редактора. Виправлення орфографічних помилок. Збереження документа у файлі. Оформлення документа: настроювання полів сторінки; виділення фрагментів тексту; оформлення тексту. Малюнок Microsoft Draw.

методичка [475,8 K], добавлен 11.05.2011
Основы работы в Ms Word и Excel
Изучение основ работы с документами: создание колонтитулов и таблиц, введение, редактирование и форматирование формул в Ms Word (с помощью средств Microsoft Equation), формирование содержания документа. Ознакомление с программой Excel и базами данных.

контрольная работа [2,2 M], добавлен 14.02.2010
Текстовый процессор Microsoft Word
Устройство персонального компьютера и устройства внешней памяти. Создание и приемы редактирования документа в Microsoft Word. Возможности панели рисования в Word, работа с встроенным редактором формул Microsoft Equation 3.0, создание логотипа фирмы.

контрольная работа [1,1 M], добавлен 10.11.2011
Оосновные средства и технологии обработки текстовой информации
Классификация и возможности текстовых редакторов. Среда текстового редактора Microsoft Word 2003. Процесс редактирования текста, его копирование и перемещение. Проверка орфографии и синтаксиса, автотекст и автозамена. Пример гипертекстового документа.

курсовая работа [2,4 M], добавлен 25.04.2013
Текстовый процессор Microsoft Office Word. Создание, редактирование и форматирование текстового документа
Способы запуска и выхода из Word. Элементы интерфейса Microsoft Word. Разделы меню офиса. Отображение на экране необходимой панели инструментов. Копирования, перемещение и удаление фрагмента текста. Автоматизация процессов ввода и редактирования текста.

лабораторная работа [24,2 K], добавлен 15.11.2010
Работа с Miсrosoft Word 2000
Miсrosoft Word 2000 – текстовый редактор, программа для создания и обработки текстовых документов. Специфика работы с окнами, режимы отображения документа. Операции с документами, с текстом. Оформление страниц документа. Вставка графических объектов.

учебное пособие [341,8 K], добавлен 05.12.2010

Другие документы, подобные "Оценка качества работы алгоритма поиска логической структуры документа при оптическом распознавании"

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.