Системы оптического распознавания, обеспечивающие обработку сканированных документов стандартных форм и их экспорт в базы данных
Основные задачи потокового ввода документов стандартных форм. Этапы загрузки и обработки форматированных документов. Технологии распознавания значимых полей. Групповая верификация для проверки цифровых данных. Анализ подсистемы экспорта результатов.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 08.02.2014 |
Размер файла | 761,8 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Как видно из описания этапов рабочего цикла, бумажные документы необходимы только до момента окончания сортировки, все остальные этапы выполняются без бумаги, что позволяет значительно повысить эффективность работы.
Модуль проектирования форм.
Модуль CF Designer предназначен для создания электронных форм документов. Электронная форма содержат полный список элементов документа. В списке указаны свойства каждого элемента - его тип, расположение и геометрические размеры. Для таких элементов, как чекбоксы и поля ввода, дополнительно указаны правила их заполнения. Форма может быть создана с чистого листа. Элементы друг за другом прорисовываются на форме либо копируются с других ранее созданных форм. Второй вариант создания электронной формы осуществляется по образу и подобию бумажного документа.
Создание шаблона на основе отсканированного образца документа включает автоматическую обработку образца -- бинаризацию, определение угла наклона страницы и устранение наклона, выделение графических примитивов -- линий разграфки, строк текста, чекбоксов. Идентифицированные примитивы могут быть добавлены в шаблон, модифицированы. В шаблоне указываются основные свойства документа и его элементов -- жесткий/нежесткий формат, расположение, алфавит и стиль заполнения полей, и другие свойства, используемые в дальнейшем в процессе обработки документа.
При сохранении в формате pdf форма может быть использована как макет бланка для тиражирования. При сохранении во внутреннем формате системы Cognitive Forms форма используется в качестве шаблона на этапе распознавания документа.
Интеграция с внешними системами.
Целью потокового ввода документов является их перевод в электронный вид для дальнейшей обработки данных из них в корпоративной информационной системе.
В качестве информационных систем обычно выступают ERP, CRM, DMS, EAS и другие системы хранения и обработки информации.
Система Cognitive Forms может быть интегрирована с информационными системами двумя способами:
* Подключение модулей ввода на уровне импорта справочников и экспорта введенных данных;
* Непосредственное встраивание при помощи программного интерфейса (API).Подключение модулей экспорта Экспорт данных может производиться модулями экспорта, входящими в базовую комплектацию продуктов и обеспечивающими выгрузку информации в форматах XML, DBF, CSV, TXT или через ODBC соединение. Возможна разработка специализированных модулей экспорта. Импорт справочников необходим для обеспечения первичного контроля документов на этапе ввода. Примерами справочников являются списки клиентов, номера расчетных счетов и т.п. Справочники могут выгружаться в текстовом виде или в формате DBF. Встраивание при помощи API Программный интерфейс (API) позволяет подключать функции сканирования и распознавания доументов, осуществлять доступ к значениям полей документов и отсканированным графическим образам. API также предоставляет доступ к внутреннему формату данных системы Cognitive Forms. API состоит из набора динамически загружаемых библиотек (DLL) и ActiveX-компонентов. Комплект разработчика включает примеры подключения в средах: MS Visual С/C++, MS Visual Studio.NET (C#), Borland Builder, Delphi.
8. Сканеры
В соответствии с функциональными возможностями и устройством сканеры разделяются на настольные и портативные (ручные).
1. Настольные сканеры.
Существует три разновидности настольных сканеров: flatbed, sheetfed, overhead.
При работе с FLATBED сканером для сканирования изображения необходимо открыть крышку сканера, положить сканируемый лист на стеклянную пластину изображением вниз, после чего закрыть крышку сканера. Все дальнейшее управление процессом сканирования осуществляется с клавиатуры компьютера при работе одной из специальных программ, поставляемых вместе с таким сканером. Такая конструкция сканера позволяет сканировать не только отдельные листы, но и страницы журнала или книги.
В SHEETFED сканерах отдельные листы документов протягиваются через устройство, при этом и осуществляется их сканирование. В этом случае копирование страниц книг и журналов просто невозможно. Рассмотренные сканеры достаточно широко используются в областях, связанных с оптическим распознаванием символов (Optical Character Recognition, OCR). Для удобства работы sheetfed сканеры обычно оснащаются устройствами для автоматической подачи страниц.
Третья разновидность сканеров OVERHEAD сканеры, которые больше всего напоминают несколько своеобразный overhead проектор.
2. Портативные или ручные сканеры.
Портативные или ручные сканеры (Handy scanner) обеспечивают недорогой способ преобразования изображения в цифровую форму и их ввод в компьютер. По сравнению с настольными сканерами они обладают значительно более скромными возможностями. Например, они непригодны для использования в настольных издательских системах, к тому же малейшая вибрация, допущенная в процессе ручного сканирования» приводит к обесцениванию проделанной работы. Но стоят такие сканеры значительно дешевле. Их вполне можно использовать там, где не требуется высокое качество изображения. Комплект поставки сканера включает в себя программное обеспечение, которое предоставляет возможности редактирования, записи на диск и вывода на печать изображения. Конструктивно ручной сканер напоминает манипулятор типа “мышь” и работа с аппаратом не требует особых навыков. Сканируемый оригинал помещается на плоскую поверхность, сканер устанавливается на одной из сторон этого оригинала и, после нажатия кнопки пуска, медленно перемещается по оригиналу вручную.
По мере продвижения сканера по оригиналу можно наблюдать за тем, что получается. Большинство портативных сканеров имеет небольшое окошко для просмотра, через которое виден обрабатываемый оригинал. Некоторые аппараты обеспечивают воспроизведение получаемого в процессе работы изображения на экране персонального компьютера. Большинство сканеров обеспечивают возможность выбирать разрешение сканирования (до 400 dpi). Максимальная ширина сканируемого оригинала обычно составляет 2,5 дюйма (6,4 см) и ограничивается размером рабочей поверхности аппарата. Длина оригинала зависит от памяти компьютера. Если оригинал превышает ширину сканера, то можно обрабатывать его отдельными частями, а затем с помощью программы объединять эти части в одно изображение.
3. Планшетные сканеры.
Оригинал располагается на прозрачном неподвижном стекле, вдоль которого передвигается сканирующая каретка с источником света (если сканируется прозрачный оригинал, используется так называемый слайд-модуль - крышка, в которой параллельно сканирующей каретке сканера перемещается вторая лампа). Оптическая система сканера (состоит из объектива и зеркал или призмы) проецирует световой поток от сканируемого оригинала на приёмный элемент, осуществляющий разделение информации о цветах - три параллельных линейки из равного числа отдельных светочувствительных элементов, принимающие информацию о содержании "своих" цветов. В трёхпроходных сканерах используются лампы разных цветов или же меняющиеся светофильтры на лампе или приёмном элементе. Приёмный элемент преобразует уровень освещенности в уровень напряжения. Далее, после возможной коррекции и обработки, аналоговый сигнал поступает на аналого-цифровой преобразователь (АЦП). С АЦП информация выходит уже в "знакомом" компьютеру двоичном виде и, после обработки в контроллере сканера, через интерфейс с компьютером поступает в драйвер сканера - обычно это так называемый TWAIN-модуль, с которым уже взаимодействуют прикладные программы.
4. Барабанные сканеры.
В большинстве барабанных сканеров в качестве светочувствительных элементов используются фотоэлектронные умножители - ФЭУ (photomultiplier tube - PMT), которые обеспечивают большую чувствительность, чем линейки ПЗС, применяемые в планшетных или слайд-сканерах, и поэтому охватывают более широкий цветовой диапазон. ФЭУ позволяют различать такие светлые и темные цвета, которые типичные ПЗС-сканеры просто "не видят" или воспринимают их как белые и черные. Во всех моделях барабанных сканеров (кроме недорогих моделей) используются три ФЭУ для одновременной записи значений красного, зеленого и синего цветов за один проход. В некоторых моделях фирмы ScanVeiw используется только один чувствительный элемент, поэтому сканирование выполняется в три прохода. Для оцифровки отсчетов интенсивности света каждого пиксела применяется не менее 10 бит (в зависимости от модели) для красного, зеленого и синего цветов. Максимальная цветовая глубина - 48 бит, хотя после оптимизации полученных значений с помощью программных алгоритмов результат обычно сохраняется в файле с 24-битным (true-color) цветом для обработки в приложениях на Macintosh и PC. Барабанные сканеры, по сравнению с планшетными сканерами, позволяют достичь большего максимального оптического разрешения. Это значит, что они снимают большее количество световых отсчетов (пикселей или цифровых элементов изображения) на дюйм или миллиметр. Например, лучшие планшетные слайд-сканеры имеют разрешение от 4000 до 5600 dpi, а для некоторых барабанных сканеров этот параметр достигает значений от 8000 до 11000 dpi.
5. Слайд-сканеры.
Слайд-сканеры в отличие от барабанных или планшетных моделей не работают с непрозрачными оригиналами, такими, как иллюстрации на бумаге или фотографии. Большинство слайд-сканеров поставляются с одной или несколькими рамками для пленки, что облегчает установку разных форматов пленки - слайдов разных размеров и типов, а также фрагментов пленок.
Пакетное сканирование, обычная операция для барабанных или планшетных устройств, является относительно новой возможностью для недорогих слайд-сканеров. При работе со сканером Crosfield C360 компании Fuji Photo Film можно монтировать для пакетного сканирования до 30 слайдов разных размеров и форматов. Как и барабанные сканеры с функцией пакетного сканирования, C360 позволяет выполнять предварительный просмотр смонтированных слайдов и задавать индивидуальные параметры сканирования для каждого. Даже самые дешевые слайд-сканеры обладают разрешением не ниже 1950 dpi. Для сканирования 35-мм слайда с рамкой изображения 12x24 мм, если в дальнейшем его предполагается увеличить до размеров журнальной страницы или плаката, необходимо повышенное разрешение. Так, модель Coolscan LS-20 с разрешением 2700 dpi компании Nikon может оцифровать 35-мм слайд в изображение, содержащее 2592x3888 пикселов. Такого количества пикселов вполне достаточно для вывода разворота размером 279x432 мм с линиатурой 133 lpi.
9. Электронный архив предприятия
Программно -- аппаратный комплекс, решающий задачи: учета документов, их хранения; управления доступом; создания электронных документов всех информационных потоков предприятия; управления документооборотом; управления использованием хранимой информации, в том числе и для разработки новой. Решение включает в себя элементы технологии создания и технологии работы с ним. Информация используется как в электронном виде, так и в "традиционном бумажном", т. к. учитывается возможность тиражирования (печати).
Рис. 3. Структурная схема системы электронного архива
Можно выделить следующие основные подсистемы системы электронного архива:
· Подсистема ввода. Она, в свою очередь, включает:
а) Подсистему ввода сканированных документов, включающую средства перевода документов в электронный вид, средства обработки изображений, средства ввода в систему электронного архива. Подсистема ввода сканированных документов состоит из:
o Подсистемы ввода узкоформатных документов;
o Подсистемы ввода широкоформатных документов.
б) Подсистему ввода документов, создаваемых сразу в электронном виде.
· Подсистема хранения. Она включает в себя:
а) Области оперативного хранения;
б) Области долгосрочного архивного хранения.
· Подсистема тиражирования. Она включает в себя:
а) Подсистему тиражирования узкоформатных документов;
б) Подсистему тиражирования широкоформатных документов.
· Подсистема приложений. Она, в свою очередь, включает:
а) ПО управления аппаратными средствами;
б) ПО обработки сканированных изображений;
в) Средства разработки электронных документов;
г) ПО электронного архива и документооборота, включающее:
o СУБД;
o "Серверную часть";
o "Клиентские части".
д) Дополнительные программные средства. Например, конверторы таблиц для разных СУБД (при создании единого информационного пространства) и т. д.
· Дополнительное оборудование. В свою очередь, включает:
а) Сервер системы;
б) Рабочие станции;
в) Сетевое оборудование.
Сделаем некоторые замечания к приведенной классификации подсистем. Во-первых, Вашей системе электронного архива возможно и не понадобятся все из них. В этом случае "ненужное" можно просто исключить. Во-вторых, невозможно определить четкие границы между подсистемами. Например, при использовании определенного оборудования одно и то же устройство может относиться к подсистеме тиражирования и сканирования одновременно. Так инженерный комплекс OCE', например, и сканирует, и печатает, и используется как копировальный аппарат. Можно приводить достаточно много примеров использования аппаратных и программных средств одновременно в разных подсистемах, но подобные примеры совсем не исключают фактов наличия этих подсистем. В отдельных случаях одно средство может выполнять несколько различных функций, а в некоторых -- нет.
потоковый форматированный цифровой верификация
Заключение
В деятельности большого количества государственных, акционерных и частных предприятий возникает необходимость обработки структурированных и неструктурированных форм документов, изначально выполненных на бумаге. Обычно под этим понимается первоначальный ввод информации с бумажного документа в информационную систему предприятия и, затем, собственно обработка данных в СУБД и прикладных информационных системах.
Суммарное количество документов, которые должны быть занесены в базу данных для дальнейшей обработки только в одной организации, может достигать нескольких тысяч и даже десятков тысяч в день. Можно представить, в каком масштабе подобные работы производятся в целом по Украине. На это тратятся огромные средства, в то время как проблема может быть решена намного более эффективно.
С ростом числа документов растут и проблемы по вводу и обработке больших объёмов данных в вычислительных системах. Практически в любом бизнесе, связанном с обслуживанием клиентов, а также в деятельности государственных органов, занятых сбором данных о физических и юридических лицах, возникают стандартные формы.
Стандартными формами являются однотипные, имеющие априорную структуру документы, которые классифицируются по таким признакам: способ нанесения информации, геометрическая вариативность полей и наличие явных разделителей полей.
Стандартные формы используются в различных бизнес-приложениях, занимающихся циркуляцией информации между предприятиями и клиентами. Среди основных систем обработки форм можно выделить следующие: обработка факсов, обработка государственных форм, обработка различных счетов и заказов на товары, маркетинговые исследования и опросы, обработка банковских платёжных поручений и др.
Осуществление автоматизированного ввод форм в базу данных подразумевает выполнение нескольких этапов: подготовка обработки формы, сканирование, сегментация полученного изображения, распознавание значимых полей, верификация, сохранение данных в полях базы данных. Причём сам процесс обработки формы включает именно сегментацию изображения формы и извлечение данных из значимых полей.
Придерживание определённых принципов при вводе форм освободит сотни людей от неэффективного утомительного труда. Учёт основных требований, предъявляемых к системам массового ввода форм, а также учёт подходов к их реализации обеспечит реальную экономию, снизит количество опечаток, повысит точность и соответственно достоверность вводимых данных.
Подчас неосведомленность начальства и неэффективная организация работы приводят к тому, что в компьютер вручную вбиваются тысячи однотипных печатных и рукопечатных форм. Объемы подобного труда просто огромны. Если в организации обрабатывается 100 и более форм в день, то нецелесообразность автоматизации их ввода исключается, так как автоматизация экономически себя оправдает.
Наиболее известными системами, предлагающими решения или компоненты систем обработки форм, являются «ABBYY Fine Reader Form» и «Cognitive Forms». Они предлагают различные модули ввода и обработки форм. Организация может приобрести как всю систему, так и отдельные модули. Кроме того, многие компании разрабатывают свои собственные решения, лицензируя у производителей модули обработки.
Следовательно, автоматизацию ввода форм могут позволить себе крупные организации с большим объёмом документооборота. Автоматизация сократит затраты на ручной ввод данных из форм и повысит эффективность работы организации в целом.
Размещено на Allbest.ru
...Подобные документы
Понятие, классификации и типы стандартных форм. Этапы ввода и обработки форматированных документов. Требования к системам массового ввода стандартных форм. Подходы к реализации систем обработки форм. Система ABBYY Fine Reader Form и Cognitive Forms.
курсовая работа [42,4 K], добавлен 20.10.2010Как работает система оптического распознавания. Деление текста на символы. Образ страницы и распознавание по шаблонам, особенности коррекции ошибок. Увеличение скорости бесклавиатурного ввода документов в технологиях электронного документооборота.
контрольная работа [15,6 K], добавлен 29.04.2011Оптическое распознавание символов как механический или электронный перевод изображений рукописного, машинописного или печатного текста в последовательность кодов. Компьютерные программы для оптического распознавания символов и их характеристика.
презентация [855,2 K], добавлен 20.12.2011Исследование возможностей ускорения процессов заполнения базы персональных данных за счет сокращения ручного ввода данных путем применения технологий оптического распознавания символов. Проектирование, реализация и тестирование автоматизированной системы.
дипломная работа [2,6 M], добавлен 10.07.2017Создание базы данных в среде MS Access. Создание и работа с базой данных в ателье. Алгоритм решения задачи. Выбор пакета прикладных программ. Проектирование форм выходных документов с использованием СУБД MS Access. Структура записи таблиц базы данных.
курсовая работа [1,6 M], добавлен 30.01.2009Понятие электронного архива и проблема сохранения цифрового наследия, обзор проектов по оцифровке документов. Методы сканирования документов и их распознавания. Организация и создание электронного архива, сохранение цифровых информационных ресурсов.
реферат [20,2 K], добавлен 20.10.2010Необходимость в системах распознавания символов. Виды сканеров и их характеристики. Оптимальное разрешение при сканировании. Программы распознавания текста. Получение электронного документа. FineReader - система оптического распознавания текстов.
презентация [469,2 K], добавлен 15.03.2015Понятие и структура экономического документа. Операции его ввода в компьютер. Представление форм и документов в электронном виде и их преимущества. Способы подготовки электронных носителей информации. Технологии автоматического распознавания образов.
реферат [201,0 K], добавлен 01.06.2015Создание базы данных в среде MS Access. Создание и работа с базой данных на бирже труда. Алгоритм решения. Выбор пакета прикладных программ. Проектирование форм выходных документов и описание структуры таблиц базы данных. Отчеты по запросам и таблицам.
курсовая работа [2,1 M], добавлен 30.01.2009Методика расчета арендной платы на предприятии. Описание и документы предметной области, форматы входных и выходных документов. Построение логической модели данных, таблиц базы данных и типовых запросов. Проектирование экранных форм для ввода данных.
дипломная работа [1,2 M], добавлен 19.01.2017Оптико-электронная система идентификации объектов подвижного состава железнодорожного транспорта. Автоматический комплекс распознавания автомобильных номеров. Принципы и этапы работы систем оптического распознавания. Особенности реализации алгоритмов.
дипломная работа [887,3 K], добавлен 26.11.2013Процесс преобразования отношений базы данных. Создание маски ввода. Реализация запроса с параметром. Формирование выходных документов и вывод их на печать. Создание и использование автоматического отчета. Конструктор и мастер форм. Работа с формами.
курсовая работа [249,2 K], добавлен 07.05.2014Создание базы данных "Компьютерные игры": разработка и дизайн интерфейса, наполнение таблиц информацией, формирование идентификаторов. Использование системы управления базами данных Microsoft Access для составления стандартных запросов, форм и отчетов.
курсовая работа [715,7 K], добавлен 29.01.2011Анализ существующих поисковых систем и используемых ими алгоритмов поиска документов. Разработка информационно-поисковой системы словарного типа, способной осуществлять релевантный поиск документов, особенности ее структуры и информационно-поисковой базы.
дипломная работа [942,1 K], добавлен 19.05.2011Изучение технологии разработки базы данных, создания таблиц, простых и составных форм для ввода, редактирования и просмотра данных, хранимых в таблицах. Проектирование информационной системы "Кафедра" средствами СУБД Access, с созданием форм отчетов.
курсовая работа [5,9 M], добавлен 12.05.2012Понятие экономической информационной системы. Функциональные особенности и классификационные признаки. Электронный архив как ядро информационной системы и централизованное хранилище документов. Способы создания таблиц, форм и диаграмм базы данных.
контрольная работа [2,4 M], добавлен 14.07.2009Роль классификации документов в решении задач информационного поиска. Методы автоматической классификации документов и этапы построения классифицирующей системы: индексация документа, построение классификаторов на базе обучающих данных, оценка их работы.
курсовая работа [354,2 K], добавлен 13.01.2013Описание первичных и результатных документов, типа связи информационных объектов. Построение информационно-логической модели базы данных и её реализация в СУБД Access (создание таблиц, запросов, форм, отчётов). Разработка интерфейса пользователя.
курсовая работа [2,1 M], добавлен 14.11.2013Выбор инструментальной среды для разработки базы данных. Подсистема сбора, обработки и загрузки данных. Укрупненный алгоритм разрабатываемой информационной системы. Формирование области запросов базы, интерфейс ввода и редактирования входных данных.
курсовая работа [2,2 M], добавлен 25.12.2012Проектирование базы данных, предназначенной для ввода, хранения и обработки информации по продажам сотовых телефонов. Список таблиц и свойств полей таблиц. Описание созданных запросов, отчётов и форм. Руководство пользователя, условия применения данных.
курсовая работа [1,9 M], добавлен 14.05.2014