Оценка качества работы алгоритма поиска логической структуры документа при оптическом распознавании

Подбор разметки документа таким образом, чтобы сгенерированный вариант как можно меньше отличался от оригинала - основная задача системы распознавания. Microsoft Word - наиболее популярное программное приложение для работы с текстовой информацией.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 19.01.2018
Размер файла 341,6 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru

Размещено на http://www.allbest.ru

В настоящее время посимвольное распознавание текста OCR-системами является недостаточным для перевода документа в цифровую копию. Для быстрой и качественной оцифровки документов необходимо надёжно воспроизводить структуру документа и его форматирование, чтобы избавить пользователя от большого объёма ручной работы по редактированию распознанного текста и созданию его разметки вручную.

При восстановлении структуры документа основной задачей является подбор таких параметров оформления текста и разбиения его на потоки, чтобы полученный документ как можно меньше отличался от исходного.

Не менее важно уметь оценивать, насколько хорошо та или иная система распознавания справляется с задачей восстановления логической структуры, насколько полученная структура документа похожа на оригинал. Также полезно иметь возможность сравнивать структуры одного документа, полученные от разных программ или от разных версий одной программы. В данной работе предложен способ оценки качества распознавания логической структуры документа.

Логическая структура документа - структурное представление содержимого документа в виде определённых элементов, которое учитывает их роль в документе, логические взаимосвязи между ними, порядок чтения документа пользователем и т.д. [Зуев, 1999], [Song, 2003], [Зуев, 1996].

Для исследования логической структуры документов, прежде всего, выделим основные элементы, которые составляют логическую структуру. Устройство логической структуры можно представить следующим образом: документ делится на потоки. Как правило, существует один основной поток (рис. 1). Помимо него могут встречаться дополнительные потоки: сноски, врезки, колонтитулы, подписи, и т.д. Текст потоков состоит из абзацев, абзац - из строк, строка - из символов.

В газетах и журналах со сложной структурой может встречаться несколько основных потоков рядом, обычно это разные статьи. Для разделения таких логически законченных частей удобно ввести разделение на секции, каждая из которых внутри себя уже будет делиться на потоки. Это удобно и для логического разделения, например, глав книг.

Наиболее популярная программа для работы с текстом Word также использует разделение на секции для представления логической структуры. Такое разделение используется для изменения разметки и форматирования одной или нескольких страниц документа. Разделение на секции необходимо, например, для изменения количества колонок или для изменения ширины, отступов и других параметров колонок, используется для начала новой главы с новой страницы и т.д. На рисунке 1 заголовок следует выделить в отдельную секцию, т.к. он является одноколоночным текстом, в то время как остальной текст записан в две колонки.

Таким образом, логическая структура документа представлена в виде дерева, корнем дерева является сам документ, далее идёт ветвление: секция -> поток -> абзац -> строка. Подобное представление структуры является иерархическим и может быть изображено в виде дерева, корнем дерева является сам документ. Рис. 2 показывает дерево логической структуры, построенное для примера страницы, изображенной на Рис. 1. Деление на абзацы и строки для упрощения схемы показано только на примере первой сноски, для остальных потоков оно аналогичное. Каждый колонтитул или сноска является отдельным потоком.

Распознавание логической структуры в целом является сложной задачей вследствие того, что изображение документа не содержит явно выделенных элементов логической структуры и разделение документа на потоки не всегда однозначно.

Рис. 1. Элементы логической структуры

программный текстовый разметка

Основное представление о логической структуре можно получить из графических характеристик тех или иных элементов документа [Rangoni, 2006], [Hu, 1993].

Такие графические характеристики могут быть:

связаны с геометрической структурой изображения (размер и расположение той или иной области документа, взаимоотношения между областями, наличие рамки, разделительной линии, просвета);

содержать шрифтовое оформление (гарнитура, размер, тип, начертание и т.д.);

связаны с текстовой составляющей элементов логической структуры (ключевые слова, такие как «Рисунок», «Формула», «Глава»; символы из ограниченного словаря, такие как номера страниц, дата, знак «§», и т.п.).

Рис. 2. Дерево логической структуры

Характерные ошибки при распознавании логической структуры документа.

Задача системы распознавания подобрать разметку документа таким образом, чтобы сгенерированный документ как можно меньше отличался от оригинала (документа на изображении). Чтобы иметь возможность сравнивать распознанный документ с оригиналом, для каждого документа, который используется для тестирования системы, вручную создаётся эталонная разметка. Любое несоответствие логической структуры, полученной при распознавании образца, и структуры эталонной разметки расценивается, как ошибка.

Эталонной разметкой будем считать логическую структуру документа, которую бы получил человек, стараясь как можно точнее воспроизвести распознаваемый образец.

При воссоздании логической структуры могут возникать разнообразные ошибки. Каждый вид ошибки требует индивидуального подхода, с точки зрения пользователя, для её исправления. Для того чтобы уметь сравнивать восстановленную логическую структуру с оригинальной или сравнивать два результата распознавания между собой, были изучены типичные виды ошибок.

В левой колонке таблицы 1 приведены ошибки, которые используются в системе ABBYY Fine Reader для оценки качества распознавания логической структуры документа, с добавлением ещё двух видов ошибок, которые исправили недостатки существовавшего подхода (были добавлены ошибки «разрыв колонтитула» и «неверная роль потока»).

Табл. 1

Вид ошибки

Вес

Потеряно разбиение на абзацы

0,5

Излишнее разбиение на абзацы

0,5

Потерянна секция

1

Найдена лишняя секция

1

Найден лишний колонтитул

1

Потерян колонтитул

1

Слияние доп. потока с основным

1,5

Отделение доп. потока от основного

1

Объединение двух доп. потоков

1,5

Разделение доп. потока на два

1

Разрыв колонтитула

0

Неверная роль доп. потока

1,5

Ошибки были разделены на три группы по степени сложности и в соответствии с группой им были назначены веса 0,5, 1 и 1,5. Сложность ошибки оценивалась на основе времени, которое понадобится пользователю на её исправление, время оценивалось с помощью количества простых действий пользователя при исправлении ошибки.

Распределение весов для каждой ошибки показано в правой колонке таблицы 1. Вес для каждой группы увеличивается примерно пропорционально увеличению количества операций, необходимых для исправления ошибки. Выбранная оценка монотонна и аддитивна. Ошибка «разрыв колонтитула» специально была вынесена в отдельную группу, т.к. является не существенной. Дело в том, что при экспорте в текстовый редактор, например Word, две части колонтитула будут соединены в один нижний или верхний колонтитул, поэтому на этапе экспорта результатов эта ошибка исчезнет.

Были проведены эксперименты, заключающиеся в оценке результатов распознавания для двух версий Fine Reader - 9 и 11. В экспериментах участвовало 20 документов различного типа (отрывки из книг и журналов разного вида), различного размера (от 3 до 44 страниц) со сложной логической структурой, общее количество проанализированных страниц - 315. Документы выбирались таким образом, чтобы в них обязательно присутствовали в большом количестве разные виды дополнительных потоков. Ниже приведена таблица 2 распределения ошибок для двух вариантов распознавания разными версиями Fine Reader'а на примере документа, содержащего 20 страниц из книги с большим количеством врезок и колонтитулов.

Табл. 2

Вид ошибки

Количество ошибок

FR 9

FR 11

Потеряно разбиение на абзацы

0

0

Излишнее разбиение на абзацы

12

20

Потерянна секция

0

2

Найдена лишняя секция

16

5

Найден лишний колонтитул

0

2

Потерян колонтитул

0

0

Слияние доп. потока с основным

15

6

Отделение доп. потока от основного

0

0

Объединение двух доп. потоков

0

1

Разделение доп. потока на два

0

1

Разрыв колонтитула

0

17

Неверная роль доп. потока

4

2

Общее количество ошибок

47

56

Итоговая взвешенная оценка

43

31

Вес, нормализованный на страницу

3,59

1,16

Неправильное разбиение на абзацы

0,163

0,11

Неправильное нахождение секций

2,28

0,96

Неправильное нахождение колонтитулов

0,04

0,025

Неправильное распределение по потокам

1,026

0,262

Как видно из таблицы 2, Fine Reader 11 совершил больше ошибок при распознавании, но в целом документ оказался распознанным лучше, чем 9-ой версией Fine Reader'а.

Полученные оценки могут быть использованы не только для сравнения двух результатов распознавания, но и для сравнения качества распознанных логических структур двух различных документов. С помощью такого сравнения можно оценить, насколько сложной оказалась для распознавания та или иная структура, какой документ в итоге был распознан лучше.

Данная оценка не очень удобна для сравнения, насколько сложена логическая структура того или иного документа, если сравнивать приходится документы с разным количеством страниц. Хотя в целом структура большого документа (например, книги) может быть гораздо проще, чем структура короткого (например, журнала), из-за большого количества страниц книга может получить оценку намного большую, чем журнал.

Для устранения этого недостатка была добавлена нормализация оценки на количество страниц. Таким образом, нормализованная оценка показывает среднюю взвешенную оценку страницы, наглядно демонстрируя при сравнении двух документов разного размера, структура какого из них оказалась более сложной с точки зрения распознавания.

С другой стороны, предложенная оценка не показывает наглядно, как система распознавания справляется с нахождением определённых элементов логической структуры, оценивая лишь общее качество распознавания всего документа. Для устранения этого недостатка был предложен ещё один способ дифференциальной оценки. Такая оценка подсчитывает количество ошибок, связанных с определённым типом элементов, и нормирует их на количество элементов этого типа в эталонной разметке документа.

Например, чтобы оценить качество нахождения секций документа, суммируется количество ошибок «Потерянна секция» и «Найдена лишняя секция» и делится на количество секций в эталонной разметке документа. Таким образом, этот вид оценки помогает более детально оценивать изменения, происходящие в системе распознавания от версии к версии. В нижних строках таблицы 2 отображены все виды оценок для двух вариантов распознавания.

Для более достоверного сравнения качества распознавания логической структуры двумя версиями системы сравнение следует проводить не на одном документе. Поэтому для эксперимента были отобраны 20 разных документов, общее количество страниц - 315. Сравнение проводилось для суммарного количества ошибок каждого типа. Общий результат качества приведён в таблице 3.

Табл. 3

Оценка

FR 9

FR 11

Общее количество ошибок

1444

992

Итоговая взвешенная оценка

1496,5

789,5

Вес, нормализованный на страницу

4,75

2,51

Неправильное разбиение на абзацы

0,178

0,134

Неправильное нахождение секций

1,963

1,402

Неправильное нахождение колонтитулов

0,11

0,061

Неправильное распределение по потокам

1,116

0,547

Эксперименты показали, что 11-ая версия программы справляется с распознаванием логической структуры значительно лучше 9-ой. Из таблицы хорошо видно, что в Fine Reader 11 произведены улучшения по каждому показателю, но также можно отметить, что, например, ошибок связанных с нахождением секций, хотя и стало меньше, но их по-прежнему очень много. Так же система ещё довольно часто ошибается при распределении текста по потокам определении их роли.

С помощью предложенных оценок также было проведено сравнение качества восстановления логической структуры для книг и журналов по отдельности. Получены результаты аналогичные таблице 3 для каждого качества распознавания книг и журналов.

Чтобы оценить, насколько полученный подход соответствует реальному качеству распознавания и насколько сложны будут исправления документа для пользователя, некоторые журналы были распознаны и полученная логическая структура отредактирована. В таблице 4 приведено сравнение реального качества и предложенной оценки. Так как в данном эксперименте были использованы документы разной длины, для сравнения выбран вес, нормализованный на страницу.

Табл. 4

Стр.

Описание работ по исправлению

Качество

Вес

1.

9

Несколько исправлений разбиения на параграфы, 1 врезку исправить за заголовок с созданием разрыва секции, удалить несколько разрывов секций, создать одну врезку.

хорошее

1,56

2.

9

Среднее количество исправлений разбиения на параграфы, удалить несколько разрывов секций, создать несколько подписей, создать все концевые сноски (74).

плохое

15,33

3.

7

Много исправлений разбиения на параграфы, среднее количество исправлений разделения на секции, создание верхних колонтитулов, создать несколько врезок.

среднее

6,28

4.

6

Несколько исправлений разбиения на параграфы, удалить несколько разрывов секций, все подписи создать вручную (15), создать все концевые сноски (21).

плохое

10,58

5.

3

Несколько исправлений разбиения на параграфы, 1 удаление разрыва секции, создать 1 колонтитул из двух потоков, создать несколько подписей.

хорошее

3,33

6.

4

Среднее количество исправлений разбиения на параграфы, удалить несколько разрывов секций, создать колонтитул, создать врезку, создать несколько сносок.

среднее

4,63

Как видно из таблицы 4, оценка увеличивается с увеличением сложности документа и может дать представление о времени, затраченном пользователем на исправление логической структуры, полученной при распознавании.

Список литературы

1. Зуев К.А., Технология анализа документа // Компьютерная хроника, 1996г.

2. Зуев К.А., Система идентификации структуры печатных документов // Дис. канд. тех. наук. - М.: МГУЛ, Москва, 1999.

3. Hu T., Ingold R. A mixed approach toward an efficient logical structure recognition from document images // ELECTRONIC PUBLISHING, VOL. 6(4), 1993.

4. Rangoni Y., Belaid A. Document Logical Structure Analysis Based on Perceptive Cycles // Springer-Verlag Berlin Heidelberg, 2006.

5. Song M., Rosenfeld A., Kanunugo T. Document Structure Analysis Algorithms: A Literature Survey // Proc. SPIE Electronic Imaging, VOL. 5010, 2003.

Размещено на Allbest.ru

...

Подобные документы

  • Применение текстового редактора Microsoft Word для обработки текстовой информации на компьютере. Создание документа, его редактирование и форматирование. Инструмент редактирования текста. Границы и заливка, выделение фрагментов. Стиль написания документа.

    реферат [1,4 M], добавлен 28.12.2010

  • Сущность, структура и значение приложения Microsoft Office 2003, его основные возможности. Концепция электронного документа и его обязательные реквизиты. Особенности технологии создания и редактирования текстового документа в Microsoft Word 2003.

    реферат [23,0 K], добавлен 23.11.2010

  • Автоматизация ввода и редактирования. Проверочные средства Microsoft Word, форматирование документа. Оформление документа, практическое применение макросов. Анализ разных версий Microsoft Word. Разработка методического пособия, апробация результатов.

    курсовая работа [757,9 K], добавлен 17.05.2010

  • Методика создания приложений передающих данные в Microsoft Word. Технология взаимодействия приложений с текстовым редактором Microsoft Word. Создание и использование экземпляров серверов автоматизации. Взаимодействие с сервером на уровне документа.

    курсовая работа [120,7 K], добавлен 26.03.2010

  • Основы работы операционной системы Windows XP. Работа в текстовом процессоре Microsoft Word: ввода, редактирования и форматирования текста, автоматизации разработки документа, создания графических объектов, создания комплексного текстового документа.

    курсовая работа [3,6 M], добавлен 25.04.2009

  • Правила работы с текстовым редактором Microsoft Word, оценка его возможностей и перспектив развития. Ввод текста и закономерности работы с таблицами. Создание документа "Рекламный лист". Особенности работы с табличным редактором MS Excel, создание диаграм

    методичка [6,4 M], добавлен 15.02.2011

  • Создание сложных текстовых документов с помощью шаблонов и мастеров Word. Разработка собственных шаблонов. Разоаботка общей структуры документа, настройка параметров страницы, перемещение по тексту с помощьюпанели схемы документа. Внешний вид текста.

    методичка [30,1 K], добавлен 14.02.2009

  • Особенности создания документа в MS Word. Форматирование его по заданным требованиям и выполнение основных действий с файлами. Особенности работы с объектами MS Word. Внедрение интегрированной информационной системы управления персоналом предприятием.

    лабораторная работа [27,6 K], добавлен 22.01.2010

  • Создание и редактирование текстовых документов, содержащих таблицы, рисунки и другие мультимедийные объекты. Разница между текстовыми редакторами и текстовыми процессорами. Запуск Microsoft Word. Создание нового документа. Завершение работы в MS Word.

    презентация [306,6 K], добавлен 19.12.2014

  • Текстовый процессор – общее название программных средств для создания, редактирования и форматирования текстовых документов. Операции для работы с текстом в текстовом процессоре Microsoft Word. Создание и режимы отражения документа. Порядок ввода текста.

    презентация [989,1 K], добавлен 31.10.2016

  • Необходимость в системах распознавания символов. Виды сканеров и их характеристики. Оптимальное разрешение при сканировании. Программы распознавания текста. Получение электронного документа. FineReader - система оптического распознавания текстов.

    презентация [469,2 K], добавлен 15.03.2015

  • Запуск Word. Выход Word. Настройка пользовательского интерфейса. Панели инструментов Word. Контекстное меню Word. Подсказки, которые выдает Word. Система Справки Word. Открытие и сохранение документа. Изменение имени и места хранения документа.

    лабораторная работа [241,7 K], добавлен 10.03.2007

  • Преимущества использования Word при создании веб-страниц. Его публикация Word в библиотеке документов. Преобразование документа Word в веб-страницу. Функции HTML-конвертора Word97. Пересмотр документа Word и веб-страницы. Отображение закладок в документе.

    реферат [23,6 K], добавлен 06.04.2010

  • Автоматизация редактирования текста документа. Стили документа Word 2010. Сравнительная характеристика в Microsoft Word 2007 и 2003, стили оформления. Приемы и методы редактирования документов, предназначенных для автоматической обработки данных.

    курсовая работа [3,6 M], добавлен 23.06.2016

  • Створення документа "Запрошення". Запуск і настроювання редактора. Виправлення орфографічних помилок. Збереження документа у файлі. Оформлення документа: настроювання полів сторінки; виділення фрагментів тексту; оформлення тексту. Малюнок Microsoft Draw.

    методичка [475,8 K], добавлен 11.05.2011

  • Изучение основ работы с документами: создание колонтитулов и таблиц, введение, редактирование и форматирование формул в Ms Word (с помощью средств Microsoft Equation), формирование содержания документа. Ознакомление с программой Excel и базами данных.

    контрольная работа [2,2 M], добавлен 14.02.2010

  • Устройство персонального компьютера и устройства внешней памяти. Создание и приемы редактирования документа в Microsoft Word. Возможности панели рисования в Word, работа с встроенным редактором формул Microsoft Equation 3.0, создание логотипа фирмы.

    контрольная работа [1,1 M], добавлен 10.11.2011

  • Классификация и возможности текстовых редакторов. Среда текстового редактора Microsoft Word 2003. Процесс редактирования текста, его копирование и перемещение. Проверка орфографии и синтаксиса, автотекст и автозамена. Пример гипертекстового документа.

    курсовая работа [2,4 M], добавлен 25.04.2013

  • Способы запуска и выхода из Word. Элементы интерфейса Microsoft Word. Разделы меню офиса. Отображение на экране необходимой панели инструментов. Копирования, перемещение и удаление фрагмента текста. Автоматизация процессов ввода и редактирования текста.

    лабораторная работа [24,2 K], добавлен 15.11.2010

  • Miсrosoft Word 2000 – текстовый редактор, программа для создания и обработки текстовых документов. Специфика работы с окнами, режимы отображения документа. Операции с документами, с текстом. Оформление страниц документа. Вставка графических объектов.

    учебное пособие [341,8 K], добавлен 05.12.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.