Главная Коллекция "Revolution" Программирование, компьютеры и кибернетика Системы оптического распознавания, обеспечивающие обработку сканированных документов стандартных форм и их экспорт в базы данных

Системы оптического распознавания, обеспечивающие обработку сканированных документов стандартных форм и их экспорт в базы данных

Основные задачи потокового ввода документов стандартных форм. Этапы загрузки и обработки форматированных документов. Технологии распознавания значимых полей. Групповая верификация для проверки цифровых данных. Анализ подсистемы экспорта результатов.

Рубрика	Программирование, компьютеры и кибернетика
Вид	курсовая работа
Язык	русский
Дата добавления	08.02.2014
Размер файла	761,8 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

Размещено на http://www.allbest.ru

Введение

В современном мире ежедневно в информационные системы вводятся несколько десятков миллионов страниц однотипных заполненных бланков -- почтовых карточек, платежных поручений, таможенных или налоговых деклараций, банковских чеков, бюллетеней для голосования, разного рода анкет и т.п.

Сотни тысяч операторов выполняют однообразную последовательность действий -- бросают взгляд на очередную страницу, находят и читают заполненный текст, быстро набирают его на клавиатуре. Скорость набора текста у профессиональной машинистки составляет несколько сотен ударов в минуту, но в среднем за рабочую смену оператор может ввести порядка 10 000 слов или чисел. Как альтернатива ручному вводу, существуют технологии автоматизированного ввода форм, которые обладают рядом явных преимуществ: современные модели сканеров могут вводить до 200 страниц в минуту, программы оптического распознавания текста «читают» несколько сотен символов в секунду и могут делать это без перерыва на обед. Помимо выигрыша в стоимости и качестве ввода, технологии сканирования и распознавания документов имеют и другое существенное преимущество -- корректно идентифицированный поток документов, включающий распознанную информацию и графические образы, может составлять основу электронного архива, представляющего функции быстрого поиска документа, извлечения, пересылки и печати графического образа документа (по качеству аналогичной ксерокопии документа). Развитие глобальных компьютерных сетей и возможность организации удаленного доступа к таким архивам подчеркивают это технологическое преимущество, постепенно выдвигая его на первый план.

1. Немного история

В 1929 году Густав Таушек (Gustav Tauschek) получил патент на метод оптического распознавания текста в Германии, после чего за ним последовал Гендель, получив патент на свой метод в США в 1933. В 1935 году Таушек также получил патент США на свой метод. Машина Таушека представляла собой механическое устройство, которое использовало шаблоны и фотодетектор.

В 1950 году Дэвид Х. Шепард, криптоаналитик из агентства безопасности вооружённых сил Соединённых Штатов, проанализировав задачу преобразования печатных сообщений в машинный язык для обработки компьютером, построил машину, решающую данную задачу. После того как он получил патент США, он сообщил об этом в «Вашингтон Дэйли Ньюз» (27 апреля 1951) и в «Нью-Йорк Таймс» (26 декабря 1953). Затем Шепард основал компанию, разрабатывающую интеллектуальные машины, которая вскоре выпустила первые в мире коммерческие системы оптического распознавания символов.

Первая коммерческая система была установлена на «Ридерс Дайджест» в 1955 году. Вторая система была продана компании «Стандарт Ойл» для чтения кредитных карт для работы с чеками. Другие системы, поставляемые компанией Шепарда, были проданы в конце 1950-х годов, в том числе сканер страниц для национальных воздушных сил США, предназначенный для чтения и передачи по телетайпу машинописных сообщений. IBM позже получила лицензию на использование патентов Шепарда.

Примерно в 1965 году «Ридерс Дайджест» и «Ар-Си-Эй» начали сотрудничество с целью создать машину для чтения документов, использующую оптическое распознавание текста, предназначенную для оцифровки серийных номеров купонов «Ридерс Дайджест», вернувшихся из рекламных объявлений. Для печати на документах барабанным принтером «Ар-Си-Эй» был использован специальный шрифт OCR-A. Машина для чтения документов работала непосредственно с компьютером RCA 301 (один из первых массивных компьютеров). Скорость работы машины была 1500 документов в минуту: она проверяла каждый документ, исключая те, которые она не смогла обработать правильно.

Почтовая служба Соединённых Штатов с 1965 года для сортировки почты использует машины, работающие по принципу оптического распознавания текста, созданные на основе технологий, разработанных исследователем Яковом Рабиновым. В Европе первой организацией, использующей машины с оптическим распознаванием текста, был британский почтамт. Почта Канады использует системы оптического распознавания символов с 1971 года. На первом этапе в центре сортировки системы оптического распознавания символов считывают имя и адрес получателя и печатают на конверте штрих-код. Он наносится специальными чернилами, которые отчётливо видимы в ультрафиолетовом свете. Это делается, чтобы избежать путаницы с полем адреса, заполненным человеком, которое может быть в любом месте на конверте.

В 1974 году Рэй Курцвейл создал компанию «Курцвейл Компьютер Продактс», и начал работать над развитием первой системы оптического распознавания символов, способной распознать текст, напечатанный любым шрифтом. Курцвейл считал, что лучшее применение этой технологии -- создание машины чтения для слепых, которая позволила бы слепым людям иметь компьютер, умеющий читать текст вслух. Данное устройство требовало изобретения сразу двух технологий -- ПЗС планшетного сканера и синтезатора, преобразующего текст в речь. Конечный продукт был представлен 13 января 1976 во время пресс-конференции, возглавляемой Курцвейлом и руководителями национальной федерации слепых.

В 1978 году компания «Курцвейл Компьютер Продактс» начала продажи коммерческой версии компьютерной программы оптического распознавания символов. Два года спустя Курцвейл продал свою компанию корпорации «Ксерокс», которая была заинтересована в дальнейшей коммерциализации систем распознавания текста. «Курцвейл Компьютер Продактс» стала дочерней компанией «Ксерокс», известной как «Скансофт». Первой коммерчески успешной программой, распознающей кириллицу, была программа «AutoR» российской компании «ОКРУС». Программа начала распространяться в 1992 году, работала под управлением операционной системы DOS и обеспечивала приемлемое по скорости и качеству распознавание даже на персональных компьютерах IBM PC/XT с процессором Intel 8088 при тактовой частоте 4.77 МГц. В начале 90-х компания Hewlett-Packard поставляла свои сканеры на российский рынок в комплекте с программой «AutoR». Алгоритм «AutoR» был компактный, быстрый и в полной мере «интеллектуальный», то есть по-настоящему шрифтонезависимый. Этот алгоритм разработали и испытали ещё в конце 60-х два молодых биофизика, выпускники МФТИ -- Г. М. Зенкин и А. П. Петров. Свой метод распознавания они опубликовали в журнале «Биофизика» в номере 12, вып.3 за 1967 год. В настоящее время алгоритм Зенкина-Петрова применяется в нескольких прикладных системах решающих задачу распознавания графических символов.

2. Основные задачи потокового ввода документов стандартных форм

В настоящее время все большее распространение получают системы, автоматизирующие процесс ввода и обработки документов. Основное внимание уделяется документам, имеющим жесткую структуру. Под такими документами понимаются деловые бумаги, в которых априорно задается их структура, то есть, определены топологические и геометрические соотношения всех их элементов. К таким документам относятся различные платежные квитанции, анкеты, почтовые карточки и тому подобное. По существу, имеется следующая проблема: есть документ, на котором есть, с одной стороны, данные, которые присущи всем документам этого типа, и эти данные являются статическими. И, с другой стороны, данные, являющиеся переменными. Например, надпись «Фамилия, Имя, Отчество», встречающаяся в большинстве документов, относится к статическим данным. А непосредственно фамилия, имя и отчество - к переменным. Обработка таких документов заключается в том, что необходимо выделить переменные данные и перевести их в электронный текстовый вид. Наличие жесткой структуры позволяет выделять из общего потока однотипные документы, а уже непосредственно в документе выделять отдельные места, в которых расположена искомая информация.

Создание систем потокового ввода документов предусматривает решение пяти основных задач.

Во-первых, создание технологической цепочки, позволяющей переводить в электронный вид большое число документов, представленных на бумаге. Здесь используются появившиеся в последнее время мощные сканеры, обрабатывающие до 150 страниц в минуту, или большое количество низко производительных сканеров (до 6-12 страниц в минуту), или несколько сканеров средней производительности (30-50 страниц в минуту). В процессе ввода документы проходят несколько этапов обработки, часть из которых полностью автоматизирована, часть выполняется с минимальным взаимодействием с пользователем.

Во-вторых, полученные графические образы документов необходимо отсортировать. В общем случае необходимо распределить получившуюся «кучу» (несортированный набор графических образов документов) по «корзинам». В каждой «корзине» должны находиться документы одного типа («корзина» почтовых открыток, платежных поручений и т.д.). Здесь необходимо решить задачу формализации характеристик, определяющих тип документа. Таких характеристик должно быть достаточно, чтобы однозначно отделить один тип от другого. С другой стороны, излишняя детализация может привести как к существенному увеличению количества отбракованных документов, т.е. не подходящих ни к одному типу, так и к неоправданному усложнению решения задачи управления потоком. Алгоритмы идентификации и подходы к решению задачи формализации характеристик формы обсуждаются в работах.

В-третьих, на уже отсортированных графических представлениях документов необходимо определить те места, на которых расположены искомые переменные данные, используя при этом заранее известную структуру документа.

В-четвертых, данные, расположенные в местах, определенных в предыдущей задаче, необходимо перевести из графического вида в текстовый. При решении этой задачи используются системы оптического распознавания текстов, представляющие собой интенсивно развивающийся сектор рынка программного обеспечения. Наиболее известными российским пользователям являются такие системы, как "Cuniform", "Fine Reader".

В-пятых, полученные и распознанные данные необходимо записать в соответствующую базу данных или информационную систему.

3. Стандартные формы и их классификация

Понятие и признаки классификации стандартных форм

Стандартные формы -- однотипные документы, используемые главным образом в крупных организациях, связанных с массовым обслуживанием клиентов. Для удобства их обработки, информация, содержащая ответ на один и тот же вопрос, в разных документах заносится в фиксированное по отношению к границам документа поле. Основные отличия стандартной формы -- это одинаковый размер документов и фиксированное положение линий разграфки. На Западе вместо понятия «система обработки форм» используется термин «Document Capturing» (т.е. захват документа). В общем приближении рынок Document Capturing (только его программная часть) в мире оценивается примерно в 300 млн. долл., при этом довольно быстро развиваясь. Сущность системы обработки форм сводится к распознаванию документа определенного формата в общем случае с печатным или рукопечатным заполнением. Задача распознавания состоит в нахождении неких известных полей, а результатом работы программы обычно является не просто текстовый документ, а определенная запись в некоторой базе данных.

Основой классификации стандартных форм могут служить следующие признаки:

1 признак -- способ нанесения информации (печатный текст, рукописный текст, метки). Способ нанесения информации определяет выбор технологии распознавания. Метки, печатный и рукописный тексты могут применяться в документах как единственный вид информации или в любом взаимном сочетании. Так, избирательные бюллетени используют меточный способ, в то время как прайс-листы -- печатный, а анкеты -- в основном рукописный и меточный.

2 признак -- геометрическая вариативность полей. Расположение всех полей и записей в них должно быть строго фиксировано относительно опорных элементов: рамок, линий, постоянных напечатанных записей, специальных маркеров. Все специально подготовленные для машинной обработки документы обладают этим качеством.

3 признак -- наличие явных разделителей полей. Этот признак часто присутствует в таблицах и играет существенную роль в выделении значимых полей.

На Западе существуют определённые стандарты, и правила по заполнению значимых полей форм, что в последующем облегчает их обработку. Так, например, немецкие компании CGK, AEG имеют свои правила заполнения стандартных форм, которых обязаны придерживаться их клиенты. В частности в этих системах линии разграфки документов наносятся иным цветом (например, красным или зеленым) по сравнению с цветом заполнителя. Это делается для того, чтобы удалить линии еще на этапе сканирования за счет установки цветового фильтра в сканирующее устройство.

Типы стандартных форм в зависимости от применения.

Рынок применения систем обработки форм определяется спектром бизнес-приложений, в которых они используются. Как правило, эти бизнес-приложения занимаются обработкой циркулирующей между предприятием и его клиентами информации. В качестве основных систем обработки форм можно выделить следующие:

1. Обработка факсов.

В мире ежегодно передаётся более 50 млрд. факсимильных сообщений, и, хотя электронная почта вытесняет этот вид коммуникации, факс остаётся пока одним из ведущих средств обмена информацией. Главная проблема при работе с факсами -- обработка входящих факсимильных сообщений и автоматическое их распределение по получателям на базе информации, которая находится в заголовке сообщения. Для небольших предприятий это не является серьёзной проблемой. А для компаний с несколькими тысячами сотрудников, каждый из которых хотя бы раз в неделю получает одно сообщение -- это существенная проблема. Кроме обычных факсимильных сообщений компания также может принимать по факсу заказы и другую более важную бизнес-информацию.

2. Обработка государственных форм.

Государственными формами являются, например, налоговые декларации, платёжные поручения по оплате налогов и другие. Правительства многих стран пытаются ускорить обработку поступающих отчётов от населения и компаний. В связи с увеличение численности населения и добавлением новых налогов государством, процесс обработки отчётов и контроля исполнения по платежам, которые должны соответствовать этим отчётам, превращается в кошмарную проблему. Решение этой проблемы реализуется набором дополнительного персонала, или грамотной автоматизацией процесса.

3. Обработка различных счетов и заказов на товары.

Так, например, в США ежедневно обрабатывается 65 млн. счетов при стоимости процесса в 125 млн. долларов. Подсчитано, что применение технологий обработки форм сохраняет каждый день более 40 млн. долларов. В настоящее время заказы на товары всё больше становятся ориентированными на Internet, но всё же остаётся большой процент продаж по каталогам, по почте и т.д.

4. Маркетинговые исследования и опросы.

В качестве основного вида опроса можно привести систему, которая обрабатывает результаты голосования на выборах. В зависимости от избирательных законов, принятых в той или иной стране, размеры форм могут колебаться от одной до нескольких десятков страниц. Существует большой класс задач, при решении которых необходимо вводить информацию из форм, полная стандартизация которых невозможна. Такие формы называются гибкими. Типичным примером гибкой формы является банковское платежное поручение.

Другой пример -- обработка входящей корреспонденции при занесении в систему документооборота. В любом письме существуют общие атрибуты: отправитель, получатель, дата, номер и т.д. Очевидно, что положение этих полей в документе может быть любым, а значит, для решения задачи автоматического ввода этих атрибутов также нужна технология ввода гибких форм. Распознавание гибких форм основано на описании формы, включающем всевозможную информацию, которая может помочь системе найти то или иное поле. Стандартными формами являются однотипные документы, имеющие априорную структуру. Они использую главным образом в крупных организациях, связанных с массовым обслуживанием клиентов. Сущность системы обработки форм сводится к распознаванию документа определенного формата в общем случае с печатным или рукопечатным заполнением полей, фиксированных по отношению к границам документа. Признаками классификации стандартных форм выступают: способ нанесения информации, геометрическая вариативность полей и наличие явных разделителей полей. Стандартные формы используются в различных бизнес-приложениях, занимающихся циркуляцией информации между предприятиями и клиентами. Среди основных систем обработки форм можно выделить следующие: обработка факсов, обработка государственных форм, обработка различных счетов и заказов на товары, маркетинговые исследования и опросы, обработка банковских платёжных поручений и др. логических цепочек массового ввода структурированных документов.

4. Ввод и обработка стандартных форм

Этапы ввода и обработки форматированных документов.

У стандартных форм, в отличие от прочих типов документов, структура данных известна до момента распознавания. Это преимущество существенно облегчает ввод информации из формы в поля базы данных, а также позволяет сделать это практически без участия человека.

К основным этапам ввода стандартных форм относят:

1. Подготовка обработки новой формы.

2. Сканирование.

3. Сегментация полученного изображения.

4. Распознавание значимых полей.

5. Верификация.

6. Сохранение данных в полях базы данных.

На первом этапе -- этапе подготовки обработки новой формы с помощью специального редактора форм создаётся план документа с незаполненными полями. Для каждого значимого поля определяется тип данных и правила проверки корректности вводимых данных. С помощью редактора экспорта определяется связь между значимыми полями и полями базы данных, куда данные будут помещаться после ввода.

На втором этапе -- этапе сканирования происходит получение графического образа документа с помощью технологий сканирования. При выборе сканеров следует учитывать его характеристики, например, возможности сканера по работе с различными типами и количеством документов, производительность и надёжность сканера, а также качество получаемого изображения (т.е. разрешающую способность сканера). При этом качество печати играет очень большую роль. Более выгодно истратить немного больше денег при печати документа, а затем сэкономить значительные суммы при сканировании и распознавании.

На третьем этапе -- сегментации изображения происходит выделение значимых полей и опорных элементов для облегчения процесса распознавания. Текстовое представление документа является одним из главных требований, которое позволяет производить поиск, сортировку и модификацию документов. Поэтому важным этапом является четвёртый этап -- конвертирование документа в текстовый файл с помощью программ распознавания.

Для распознавания значимых полей используется несколько специальных технологий:

OCR (Optical Character Recognition) -- технология оптического распознавания печатных символов, т.е. перевода сканированного изображения печатных символов в их текстовое представление.

ICR (Intelligent Character Recognition) -- распознавание раздельных печатных символов, написанных от руки в специальных окнах-шаблонах для соблюдения одинаковых размеров символов. А также рукописных цифр, например, как на почтовых конвертах. (Эту технологию называют интеллектуальным распознаванием).

OMR (Optical Mark Recognition) -- распознавание отметок. Обычно отметками выступают перечёркнутые крест-накрест либо отмеченные галочками квадраты или круги (checkbox).

Используется также технология распознавания штрихкодов.

При распознавании используются различные методы для улучшения качества получаемых изображений. Например, поворот, выравнивание, применение различных фильтров для устранения пятен, удаления фона и т.д.

На пятом этапе происходит верификация документа, т.е. проверка качества распознавания и исправление ошибок. Большие требования в данном случае предъявляются к методам проверки вводимых данных.

Используются следующие режимы верификации:

· Контекстная верификация для проверки текстовых полей;

· Групповая верификация для проверки цифровых данных;

· Верификация полей формы по заранее определённым правилам

Для повышения надёжности данных используют дополнительные механизмы, такие как применение словарей и таблиц, определяемых пользователем. Как правило, системы включают специальные встроенные средства для определения специальных процедур проверки для каждого поля документа.

И на шестом этапе распознанные и проверенные данные сохраняются в полях базы данных. Суммарное количество документов, которые должны быть занесены в базу данных для дальнейшей обработки только в одной организации, может достигать нескольких тысяч и даже десятков тысяч в день. Следовательно, более широкое внедрение систем обработки форм не только освободит сотни людей от неэффективного утомительного труда, но и даст реальную экономию, снизит количество опечаток, повысит точность и соответственно достоверность вводимых данных. Выполнение двух основных процессов, сегментации документа и чтения текста документа из значимых полей, предполагает обработка форматируемых документов.

Сегментация -- это нахождение опорных элементов и вычисление относительно них положения значимых полей. Эти процессы могут быть выполнены последовательно и независимо, если поля полностью определены своими визуальными характеристиками. Такая ситуация характерна для машиночитаемых форм и документов с явными разделителями полей в виде линий или больших промежутков. В документах, не имеющих строго определённого положения полей и явных разделителей между ними, нет принципиально иного способа, как прочитать текст и по его содержанию скорректировать результаты предварительной сегментации.

Очевидно, что различная сложность структуры и её визуальная вариативность порождают самый широкий спектр решений. В машиночитаемых формах задача сегментации осложняется множеством факторов: помехами на опорных элементах, смещением текста в полях, искажениями формы документа в процессе сканирования (например, дефекты в виде разрыва и топографической грязи, прилегание текста к граничным линиям полей и т.п.). Вследствие этого даже исходно простая схема обработки многократно усложняется. Документы, не имеющие строго заданной геометрии, но, тем не менее, использующие явно заданные разделители (например, таблицы с разделителями в виде горизонтальных и вертикальных прямых), обрабатываются достаточно надёжно. Если линии непрерывные, а текст их не касается, то принципиальных сложностей при обработке не возникает. На практике эти условия обеспечиваются далеко не всегда, поэтому приходится пользоваться априорными сведениями о характере возможных разрывов, находить части изолированных от текста линий и т.д. Но при этом характеристики устройства документа должны быть чётко определены.

Основные принципы потокового ввода форм.

При вводе данных из форм целесообразно придерживаться следующих принципов:

1. Пакетная обработка данных.

Смысл этого принципа состоит в том, что однотипные формы в рамках системы объединяются в так называемые пакеты. Иными словами, на программном уровне однотипные формы рассматриваются как содержимое некоего обособленного контейнера. Каждый такой пакет имеет уникальный идентификатор. Подобное решение позволяет структурировать поток вводимых данных. Этот принцип даёт определённые преимущества: во-первых, с каждым пакетом могут быть связаны свои программные настройки, во-вторых, в потоковой системе ввода структурирование облегчает администрирование, маршрутизацию потоков и дальнейшее хранение данных.

2. Распределение функций операторов.

Мощные системы ввода данных обычно функционируют по принципу конвейера. Специализация повышает производительность труда, а также позволяет практически неограниченно масштабировать систему. Например, всегда можно увеличить количество мест операторов сканирования, не вмешиваясь в работу операторов распознавания, верификаторов, и так далее.

3. Масштабируемость системы.

Благодаря распределению функций между операторами, система оказывается состоящей из узкоспециализированных модулей. При этом количество модулей каждого вида определяется только особенностями конкретной ситуации и может быть при необходимости легко изменено. Эта особенность делают систему более гибкой и управляемой, что существенно удешевляет комплекс ввода в целом.

4. Очередность заданий.

Важным для таких систем является понятие маршрута движения пакета. Пакеты движутся по системе не произвольным образом, а в соответствии с заданной схемой маршрутизации. Простейшим примером схемы маршрутизации может служить линейная схема: станция сканирования -- станция распознавания -- станция верификации -- станция корректировки -- станция экспорта. Основное преимущество системы, использующей очереди заданий, -- равномерное распределение нагрузки по всем ресурсам (операторам) системы. Как только, например, оператор верификации освободился от задания и сообщил о своей готовности продолжить работу, на его рабочее место доставляется очередной пакет форм, стоящий следующим в очереди пакетов на верификацию.

5. Требования к системам массового ввода стандартных форм

Основные требования к системам обработки форм:

1. Соответствие предъявляемым функциональным требованиям.

Решение о внедрении системы обработки форм, а также выбор того или иного приложения должны производиться с учётом, в первую очередь, типа обрабатываемых документов и вида содержащихся в них данных. Для одних целей использование таких приложений может быть эффективно, в то время как для других, напротив, -- вести к лишним расходам. Поскольку производится обработка образов документов, с распознаванием содержащихся в них данных, они должны быть спроектированы с учётом максимально удобного сканирования, а данные -- внесены таким образом, чтобы их было удобно распознавать. Помимо типа документов и вида данных нужно оценить количество подлежащей обработке информации. Наиболее эффективно применение систем в тех случаях, когда за день обрабатываются сотни или более форм (ряд систем позволяет справляться и с несколькими тысячами документов).

2. Точность распознавания.

Модуль распознавания текста встроен в систему обработки форм. Существуют две его разновидности, основанные на технологиях оптического распознавания: OCR, которая применяется к напечатанным машинным способом символам, и так называемое интеллектуальное распознавание -- ICR, способное работать с написанными вручную символами. Первая из технологий появилась давно и в настоящий момент хорошо проработана и широко распространена. Несмотря на то, что ICR базируется на концепции нейронных сетей, начавшей своё развитие относительно недавно, сегодня это тоже достаточно популярная и совершенная технология.

В табл.1 приведены основные характеристики методов распознавания.

Таблица 1 - Характеристики методов распознавания

Метод	Точность распознавания, %	Процент нераспознанных символов	Процент символов, распознанных ошибочно
Вручную	97-98	--	3
OCR	99,5	1-2	0,1
ICR	90-95	10-30	0,9-2

Как видно из таблицы, ни один из доступных способов не гарантирует полного отсутствия ошибок в тексте, однако чем выше точность распознавания и меньше количество, не распознанных символов, тем больше вероятность того, что вложенные деньги окупятся быстрее. Пользователи систем OCR и ICR сталкиваются с ошибками двух типов: во-первых, это символы, которые система вообще не способна распознать, и, во-вторых, -- те, что распознаются ошибочно. Причём последние наиболее опасны, так как ошибка, вполне вероятно, может остаться незамеченной. Первых также не должно быть слишком много, иначе редактирование затягивается на длительный срок, и эффективнее ввести информацию вручную. Диапазон значений, указанных в таблице, зависит от уровня систем: более дорогие, как правило, обеспечивают лучшие показатели.

3. Наличие эффективной системы редактирования.

Нельзя построить системы со 100 %-м распознаванием форм и полностью исключить действия человека. Но их надо минимизировать и построить систему так, чтобы человек с максимальным удобством и скоростью исправлял выявленные ошибки. Лучше всего при редактировании иметь перед глазами содержимое формы полностью (или части формы), где выделены «сомнительно» распознанные символы. Оператор просматривает и вносит необходимые изменения, после чего подтверждает ввод данных.

4. Настраиваемость системы.

Лучшие системы обработки форм базируются на открытой платформе, что подразумевает простую интеграцию с существующими системами и будущими решениями. Они также должны быть настроены на требования конкретного заказчика, и изменяться согласно меняющимся внешним условиям без программирования. Настраиваемость системы обработки форм подразумевает:

· Наличие поддержки сканеров различных типов, а также разного рода плат обработки изображений документов. Развитые системы должны включать специализированные интерфейсы конкретного типа сканеров, которые обеспечивают максимально возможную для данного типа сканера производительность.

· Наличие редактора форм, настраивающего систему на новые формы.

· Наличие редактора схем обработки документов. Системы начального уровня позволяют настраивать систему через единые области в файловой системе. Системы следующего уровня имеют в своём составе редактор схем, который, например, даёт возможность перемаршрутизировать документ конкретному человеку или определённой группе пользователей при наступлении какого-либо заранее описанного события. В связи с тем, что бизнес-правила могут меняться довольно часто, необходимо иметь в составе системы средство, которое позволяет довольно быстро перенастраивать её без изменений в коде.

· Наличие открытого интерфейса подключения различных модулей распознавания. В зависимости от типа формы можно, для повышения качества распознавания, подключить тот или иной модуль, который наиболее подходит для данного типа формы.

· Наличие редактора схем экспорта в базу данных. Данные, которые извлекаются при обработке формы, должны быть переданы или в базу данных для хранения, или в другие бизнес-приложения для обработки.

· Наличие редактора схем импорта в архивную систему. Помимо передачи данных в другие бизнес-приложения иногда необходимо передавать и собственно изображения форм (нераспознанные) или части изображения. Это требуется для организации последующего доступа и проверки соответствия распознанных, данных и начальной формы, с которой они были взяты.

· Возможность наращивания функций системы.

6. Подходы к реализации систем обработки форм

В идеале системы должны включать все функции, необходимые для сканирования, обработки, исправления и экспорта данных, и в то же время предоставлять возможности наращивания функционала. Существуют два подхода для реализации систем обработки форм: компонентный и монолитный.

При компонентном методе система обработки форм состоит из компонентов, которые разрабатываются и представляются различными производителями. В случае компонентного подхода, заказчик обладает возможностью получить приложение, обладающее оптимизированным для своих потребностей набором функциональности. Проблема в данном подходе состоит в ответственности за интегрированное решение и последующее его обслуживание. В качестве компонентов рассматриваются: компоненты работы со сканерами, с платами обработки изображений; компоненты обработки изображений и распознавания изображений.

При монолитном подходе вся система поставляется одним производителем, например разработчиком систем распознавания изображений. При сосредоточении ответственности за всю систему в одних руках необходимо отметить некоторые недостатки.

Во-первых, узость подхода производителя монолитных систем определяется его корнями. Так, производители систем распознавания и обработки форм обычно уверяют, что главное в системе -- это модуль распознавания их производства, а всё остальное не так важно.

Во-вторых, нельзя гарантировать, что система от одного производителя способна поддерживать на высоком уровне все функциональные особенности.

В-третьих, невозможно заменить какой-либо элемент на более качественный другого производителя.

И, наконец, нельзя модернизировать систему своими силами, и, как следствие этого, возникает сильная зависимость от одной компании-производителя.

7. Системы массового ввода стандартных форм

Существует несколько сотен компаний, которые предлагают решения или компоненты систем обработки форм по всему миру. Выбор решения, наиболее соответствующего потребностям заказчика и являющегося оптимальным по стоимости, -- непростая задача. Выбирая систему обработки форм, следует ориентироваться на особенности организации и виды преобладающих в ней форм. Больших успехов в разработке систем массового ввода и распознавания форм достигли наши отечественные компании. Наиболее известными системами ввода форм являются системы «ABBYY Fine Reader Form» и «Cognitive Forms».

Система ABBYY Fine Reader Form.

Система Fine Reader Form предназначена для автоматического ввода данных из стандартных форм и форматированных документов в информационные системы и базы данных.

Преимущества системы:

· Реализация пилотного проекта и принятие решения о внедрении по его результатам.

· Лёгкость настройки на любые виды форм -- как структурированные, так и гибкие.

· Уменьшение времени на ввод данных с бумажных форм в 10 раз.

· Повышение точности итоговых данных благодаря поддержке технологий OCR, ICR, OMR и технологии распознавания штрихкодов.

· Быстрая окупаемость системы благодаря разумной стоимости и низким затратам на внедрение.

Семейство ABBYY Form Reader включает в себя:

· простую во внедрении и изучении систему ABBYY Form Reader Desktop Edition для использования на локальной рабочей станции.

· распределённое и легко масштабируемое решение ABBYY Form Reader Enterprise Edition для потокового ввода больших объёмов данных;

· средство разработки ABBYY Form Reader, Developer Edition для интеграции функций Form Reader во внешние приложения;

· инструментарий ABBYY Flexi Capture Studio для создания на базе ABBYY Form Reader с технологией ABBYY Flexi Capture решений для обработки гибких форм и документов.

ABBYY Form Reader успешно используют банки, страховые компании, маркетинговые агентства и производственные компании, государственные учреждения и учебные заведения, торговые компании и медицинские организации.

ABBYY Form Reader способен обрабатывать любые типы форм, соответствующие простым требованиям машиночитаемости, автоматически сортирует бланки, проверяет комплектацию многостраничных форм, не требует вмешательства оператора на этапах сканирования и распознавания. Система предполагает автоматический контроль результатов распознавания с помощью перекрёстных проверок, правил контроля сумм, сверок по словарям и базам данных. Существует возможность создать собственные правила проверки, в том числе с подключением списков и словарей, и использовать их для контроля качества вводимых данных. Использование локальной версии ABBYY Form Reader позволяет силами одного сотрудника вводить ежедневно от 500 до 1000 страниц в зависимости от сложности формы и аппаратной конфигурации. Если объём работ по вводу данных увеличится, пользователь в течение дня сможет модифицировать существующий комплекс, перейдя на версию с большей производительностью. Чтобы увеличить скорость обработки форм на 1000 страниц в день, достаточно установить Form Reader на еще одно рабочее место.

Fine Reader Bank -- система автоматизированного ввода платежных поручений -- также является продуктом разработки компании ABBYY. Fine Reader Bank -- готовое приложение, в основе которого лежит технология распознавания гибких форм.

Система Cognitive Forms.

Компания Cognitive Technologies разработала систему для ввода и обработки форм -- Cognitive Forms. Процесс её работы осуществляется следующим образом.Оператор на станции сканирования помещает пачку документов в процесс потокового сканирования документов.

Подсистема распознавания -- Cognitive Form-Reader в автоматическом режиме управляет распознаванием и контекстной проверкой правильности распознавания. На станции визуального контроля (модуль редактирования Cognitive Form Editor) оператор имеет возможность визуально контролировать и редактировать распознанные поля форм перед экспортом в базу данных.

В подсистеме описания форм (Cognitive Form Designer) производится компьютерное описание обрабатываемых форм, используемое на всех этапах процесса ввода от распознавания до экспорта в базу данных.

Подсистема экспорта результатов формирует текстовое представление документа перед его записью в базу данных, с окончательной проверкой на допустимость значений экспортируемых данных. Регистрация записи осуществляется пользователем после ввода и проверки определенного количества документов.

Одним из важных элементов Cognitive Forms является система контроля над правильностью ввода информации. Ее основная функция состоит в том, чтобы точность распознавания на выходе составляла 100 %, обеспечивая при этом минимальную степень утомляемости оператора. Человек контролирует лишь те данные, которые не удовлетворяют требованиям правильности распознавания. Слова документа, содержащие сомнительно распознанные символы или автоматически исправленные подсистемой контекстного контроля, подсвечиваются. Оператору не нужно проверять все содержание текста и сравнивать его с исходным документом. Это гарантирует меньшую утомляемость оператора и соответственно 100 %-ю точность ввода информации в самых ответственных операциях. Экспорт в базу данных осуществляется клиентом системы после ввода определенного количества форм. Благодаря гибкой модульной организации системы имеется возможность простого масштабирования для увеличения производительности ввода. Система работает по принципу максимальной автоматизации ввода. Все операции, связанные с навигацией по форме, распознаванием, контекстным контролем над корректностью ввода и экспортом в базу данных, происходят без участия оператора. Участие оператора может потребоваться только на стадии окончательного контроля перед экспортом в базу данных.

По описанию заметно, что в системе обработки форм Cognitive Forms ярко представлены все этапы ввода стандартных форм, а также система является масштабируемой и открытой, что даёт ей преимущества. Из нескольких сотен компаний, предлагающих решения или компоненты систем обработки форм, наиболее известными являются системы «ABBYY Fine Reader Form» и «Cognitive Forms». Они предлагают различные модули ввода и обработки форм. Организация может приобрести как всю систему, так и отдельные модули. Кроме того, многие компании разрабатывают свои собственные решения, лицензируя у производителей модули обработки. Следовательно, в выборе системы массового ввода следует ориентироваться на особенности организации и формы, преобладающие в ней.

Обзор системы Cognitive Forms.

Система Cognitive Forms представляет собой программный комплекс, предназначенный для организации технологических цепочек массового ввода стандартизованных форм документов. Модули системы устанавливаются на компьютерах, соединенных в локальную вычислительную сеть, и, взаимодействуя между собой, организуют конвейер обработки данных, позволяющий вводить до 70 000 и более страниц за сутки. Система включает 12 исполняемых модулей (основных и вспомогательных) и 149 динамически подгружаемых библиотек. Основная часть системы реализована на языке C++, общий объем, кода составляет около 3 000 000 строк. Всю работу системы Cognitive Forms разделить на два этапа: этап подготовки технологической цепочки обработки документов и собственно их обработка. Первый этап поддерживается программой Cognitive Forms Designer. В рамках данного модуля производится описание шаблона документа. Программа позволяет создать шаблон документа на основе существующего, либо разработать новую форму документа.

Общая схема обработки документов заключается в прохождении таких технологических этапов как сканирование, распознавание, верификация потока документов и экспорт результатов во внешнюю информационную систему.

Рис. 1. Основные этапы технологической цепочки ввода форм

Основными технологическими этапами обработки являются:

Сканирование.

На этапе сканирования заполненные бланки форм загружаются в сканер, в результате получается набор графических файлов (обычно в формате TIFF, упакованный в стандарте CCITT Group 4).

Сортировка и комплектация.

На этапе сортировки пачки документов, объединенные в один пакет для повышения производительности сканера, разбиваются на документы -- посредством выделения специальных форм, являющихся первыми страницами документов. Производится распознавание ключевых полей -- контролирующих комплектность документа. Если документ комплектен, -- он передается на этап распознавания, иначе на этап корректирования этапов сортировки.

Корректирование результатов сортировки.

На этапе корректирования результатов сортировки оператору предъявляются пачки документов, у которых не выполнились критерии комплектности или нарушена структура (например, слиплись при сканировании какие-то страницы). Оператор либо корректирует ошибку и отправляет документ на распознавание, либо документ повторно сканируется, либо отбраковывается.

Распознавание.

На этапе распознавания модуль распознавания определяет тип очередного графического образа страницы, выделяет поля ввода, заданные на шаблоне автоматически выбранной формы, распознает и сохраняет в специализированной базе данных, сохраняющей информацию о типе формы страницы, распознанных значениях полей и их расположении в графическом образе. Полученная база данных передаётся на этап верификации.

Верификация результатов распознавания.

На этапе верификации оператору предъявляются поля документа, в которых система не смогла распознать текст, либо не уверена в достоверности распознавания. Кроме того, оператору предъявляются поля, значения которых не удовлетворяют правилам заполнения документа. Оператор может отбраковать страницу или документ в целом -- либо произвести экспорт во внешнюю информационную систему (базу данных, банковскую систему и т. п.).

Экспорт данных.

Этап экспорта завершает технологический цикл обработки документа -- документ конвертируется, в какой либо стандартный формат (DBF, XML) и передается для обработки во внешнюю информационную систему.

Основные компоненты системы.

Система Cognitive Forms состоит из нескольких модулей, каждый из которых выполняет свою работу на определенном этапе автоматизации ввода, от подготовки документа и его сканирования до взаимодействия с внешними информационными системами и администрирования всего комплекса ввода.

Благодаря модульной архитектуре каждый этап ввода (сканирование, обработка изображений, распознавание, верификация и экспорт) можно с легкостью масштабировать, увеличивать производительность за счет увеличения количества модулей.

Основную технологическую цепочку поддерживают:

* модули сканирования: модуль пакетного сканирования CF ScanPack и модуль автоматического постраничного сканирования CF AutoScan;

* модуль автоматической идентификации и распознавания форм CF Processor;

* модуль верификации результатов распознавания CF Editor.

А также несколько других программ, предназначенных для работы с пакетами документов, отбракованных на этапах автоматической обработки.

Модули сканирования документов.

Модули сканирования организуют поток графических образов документов, подлежащих машинной обработке. Получение электронного образа - изображения бумажного документа производиться путем сканирования листов документа с помощью либо обычного сканера, либо специального сканера с системой автоматической подачи бумаги. Для реализации этой функции в системе предусмотрен набор специальных программных модулей сканирования - CF ScanPack, CF AutoScan, которые выполняет функции связи со сканером, сохранения изображения и формирования потока документов.

Рис. 2. Пример реализации потокового сканирования

Модуль CF ScanPack предназначен для сканирования пакетов документов. Пакет пропускается через сканер. Образ каждой отсканированной страницы представляет собой отдельный файл. Все файлы одного пакета записываются на диск в одну директорию. Имя пакета формируется в соответствии с настройками конфигурации. Удобный пользовательский интерфейс позволяет настроить режим сканирования, разрешение, размер сканируемых страниц и прочие параметры ввода. Модуль CF AutoScan реализует постраничное сканирование. После запуска приложения процесс сканирования начинается автоматически, как только в лотке сканера появляется страница. По сканирования страницы создается файл в формате TIFF. Файл размещается в директории, указанной в настройках модуля. Приложение позволяет настроить режим сканирования, разрешение, размер области сканирования и прочие параметры работы.

Общая функциональная схема этого процесса выглядит следующим образом: производится запуск модуля, после чего оператор выбирает конфигурацию - совокупность настроек модуля, далее оператор кладет в сканер очередной пакет документов (или один документ). И если сканер имеет датчик заполнения лотка подачи, программа автоматически запускает процесс сканирования, если такой датчик не предусмотрен, то оператор должен нажать кнопку инициирующий процесс сканирования

После окончания сканирования очередной страницы проводится обработка изображения специальными алгоритмами, которые повышают качество изображения. После этого изображение сохраняется в заданном формате, а после окончания сканирования пакета передается на следующий этап. Процесс полуавтоматический и требует наличия оператора (например, для загрузки в сканер бумаги), возможно распараллеливание сканирования в рамках локальной сети. Результатом данного этапа является порция изображений - пакет, который передается на дальнейшую обработку.

Модуль обработки изображений.

Модуль Сервер Распознавания (CF Processor) предназначен для автоматической обработки отсканированных документов. В процессе обработки определяется тип документа, находятся поля ввода, распознается содержимое полей. Вся работа сервера протоколируется. Важно отметить, что системой производится автоматическая идентификация документа, позволяющая работать без предварительной ручной сортировки документов, распознавать виды документов в пачке на этапе сканирования. При этом не требуется нанесения реперных элементов на документ.

Модуль:

* производит предобработку графического образа (бинаризацию, определение угла наклона, чистку) и выделение графических примитивов -- строк текста, линий разграфки, чекбоксов и других типовых элементов;

* автоматически идентифицирует шаблон документа, наиболее подходящий для обрабатываемого графического образа, сопоставляя шаблон документа и множество выделенных примитивов графического образа;

* выделяет и распознает поля ввода, контролирующие комплектность документа;

* отслеживает последовательность страниц в документе и соответствие структуры документа указанной в шаблоне синтаксической конструкции, определяющей допустимые варианты следования типов страниц друг за другом.

В случае если документ некомплектен, он отправляется на специальный этап обработки, либо сканируется повторно.

Далее, на этапе распознавания документа, CF Processor:

* идентифицирует поля ввода документа, (печатный текст (OCR), рукопечатный текст (ICR), метки/Чекбоксы (OMR), штрихкоды, одномерные и двумерные);

* распознает введенный печатный или рукопечатный текст, чек-боксы, штрихкоды, контролирует наличие подписей и печатей, вырезает фрагменты графического образа, соответствующие полям фотографий;

* производит контекстный анализ и логический контроль результатов распознавания полей, выбирая наиболее правдоподобный вариант интерпретации графического образа поля (с учетом оценок от «геометрических» признаков и логичеcких» оценок, уместности данного текста в данном контексте логические).

В конечном счете, модуль передает распознанную информацию этап верификации, поддерживаемый модулем CF Editor.

Модуль верификации результатов распознавания.

Модуль Верификатор (CF Editor) предназначен для обработки результатов распознавания. Модуль CF Editor служит для выборочного контроля или корректирования значений полей документа -- в тех случаях, когда решение корректности введенных данных не может быть принято автоматически, на пример, если поле заполнено с нарушением правил заполнения документа, либо качество графического образа заставляет сомневаться в однозначности распознанного значения.

Процесс верификации документа идет по следующей схеме. Загружается очередной пакет, оператору предъявляется изображение и электронная форма с распознанными данными, при этом поля, не прошедшие контроль достоверности и логической непротиворечивости подсвечены цветом для привлечения внимания оператора. Оператор, перемещая фокус между полями электронной формы, видит диагностику ошибок и либо исправляет ошибку, либо, если ошибку нельзя исправить, принимает решение передать документ на этап обработки «плохих» документов. При передвижении по полям модуль автоматически подсвечивает рамку поля на изображении. Для повышения эффективности работы оператора предусмотрены два специфических для задачи ввода режима: режим прохода только по полям, не прошедшим контроль, и режим пропуска незаполненных полей. Кроме этого, если имеется словарь, содержащий допустимые значения для поля, то имеется возможность указать в описании секции в модели взаимодействия необходимость предъявления его оператору и разрешить оператору вставлять в поле значения из словаря.

После окончания верификации пакета оператору предлагается либо отложить пакет, либо передать его на этап экспорта данных. Полный сценарий взаимодействия оператора и модуля верификации задан моделью взаимодействия соответствующей документу модели.

Модуль экспорта полученных данных.

Экспорт данных заключается в преобразовании данных модели взаимодействия в данные модели содержания. После чего производиться проверка их корректности в соответствии с моделью содержания. Если данные прошли проверку, то производиться их передача в соответствии с описанием, заложенным в модель содержания. Передача изображений осуществляется аналогично. Если же данные не проходят проверку, соответствующие секции помечаются «некорректными» и пакет возвращается на верификацию. Входом являются пакеты документов, содержащие изображения документов и откорректированные данные документов, а также множество моделей форм. Процесс автоматизированный, выполняется совместно с модулем верификации и может требовать взаимодействия с оператором. Модуль реализован в виде набора динамических библиотек.

...

Страница:

курсовая работа "Системы оптического распознавания, обеспечивающие обработку сканированных документов стандартных форм и их экспорт в базы данных" скачать

Подобные документы

Ввод стандартных форм и форматированных документов
Понятие, классификации и типы стандартных форм. Этапы ввода и обработки форматированных документов. Требования к системам массового ввода стандартных форм. Подходы к реализации систем обработки форм. Система ABBYY Fine Reader Form и Cognitive Forms.

курсовая работа [42,4 K], добавлен 20.10.2010
Этапы развития и сравнительный анализ программ оптического распознавания
Как работает система оптического распознавания. Деление текста на символы. Образ страницы и распознавание по шаблонам, особенности коррекции ошибок. Увеличение скорости бесклавиатурного ввода документов в технологиях электронного документооборота.

контрольная работа [15,6 K], добавлен 29.04.2011
Системы оптического распознавания документов
Оптическое распознавание символов как механический или электронный перевод изображений рукописного, машинописного или печатного текста в последовательность кодов. Компьютерные программы для оптического распознавания символов и их характеристика.

презентация [855,2 K], добавлен 20.12.2011
Программные средства для заполнения базы персональных данных
Исследование возможностей ускорения процессов заполнения базы персональных данных за счет сокращения ручного ввода данных путем применения технологий оптического распознавания символов. Проектирование, реализация и тестирование автоматизированной системы.

дипломная работа [2,6 M], добавлен 10.07.2017
Технологии создания базы данных в Access на примере ателье
Создание базы данных в среде MS Access. Создание и работа с базой данных в ателье. Алгоритм решения задачи. Выбор пакета прикладных программ. Проектирование форм выходных документов с использованием СУБД MS Access. Структура записи таблиц базы данных.

курсовая работа [1,6 M], добавлен 30.01.2009
Электронные архивы: отечественный опыт в оцифровке документов
Понятие электронного архива и проблема сохранения цифрового наследия, обзор проектов по оцифровке документов. Методы сканирования документов и их распознавания. Организация и создание электронного архива, сохранение цифровых информационных ресурсов.

реферат [20,2 K], добавлен 20.10.2010
Системы и устройства распознавания текста. Технология обработки текстовой информации
Необходимость в системах распознавания символов. Виды сканеров и их характеристики. Оптимальное разрешение при сканировании. Программы распознавания текста. Получение электронного документа. FineReader - система оптического распознавания текстов.

презентация [469,2 K], добавлен 15.03.2015
Экономический документ, виды и формы представления
Понятие и структура экономического документа. Операции его ввода в компьютер. Представление форм и документов в электронном виде и их преимущества. Способы подготовки электронных носителей информации. Технологии автоматического распознавания образов.

реферат [201,0 K], добавлен 01.06.2015
Технологии создания базы данных в Access на примере биржи труда
Создание базы данных в среде MS Access. Создание и работа с базой данных на бирже труда. Алгоритм решения. Выбор пакета прикладных программ. Проектирование форм выходных документов и описание структуры таблиц базы данных. Отчеты по запросам и таблицам.

курсовая работа [2,1 M], добавлен 30.01.2009
Автоматизация расчета арендной платы производственных помещений ОАО Проминдустрия
Методика расчета арендной платы на предприятии. Описание и документы предметной области, форматы входных и выходных документов. Построение логической модели данных, таблиц базы данных и типовых запросов. Проектирование экранных форм для ввода данных.

дипломная работа [1,2 M], добавлен 19.01.2017
Технология обработки изображений и распознавания образов
Оптико-электронная система идентификации объектов подвижного состава железнодорожного транспорта. Автоматический комплекс распознавания автомобильных номеров. Принципы и этапы работы систем оптического распознавания. Особенности реализации алгоритмов.

дипломная работа [887,3 K], добавлен 26.11.2013
Создание базы данных ресторана, рассчитанной на работу с клиентами и ведение учета продуктов приготовления
Процесс преобразования отношений базы данных. Создание маски ввода. Реализация запроса с параметром. Формирование выходных документов и вывод их на печать. Создание и использование автоматического отчета. Конструктор и мастер форм. Работа с формами.

курсовая работа [249,2 K], добавлен 07.05.2014
Разработка базы данных "Компьютерные игры"
Создание базы данных "Компьютерные игры": разработка и дизайн интерфейса, наполнение таблиц информацией, формирование идентификаторов. Использование системы управления базами данных Microsoft Access для составления стандартных запросов, форм и отчетов.

курсовая работа [715,7 K], добавлен 29.01.2011
Анализ гипертекстовых документов с различных сайтов с целью автоматизированного сбора данных
Анализ существующих поисковых систем и используемых ими алгоритмов поиска документов. Разработка информационно-поисковой системы словарного типа, способной осуществлять релевантный поиск документов, особенности ее структуры и информационно-поисковой базы.

дипломная работа [942,1 K], добавлен 19.05.2011
Разработка базы данных "Кафедра" средствами СУБД Access
Изучение технологии разработки базы данных, создания таблиц, простых и составных форм для ввода, редактирования и просмотра данных, хранимых в таблицах. Проектирование информационной системы "Кафедра" средствами СУБД Access, с созданием форм отчетов.

курсовая работа [5,9 M], добавлен 12.05.2012
Анализ данных в среде СУБД Access
Понятие экономической информационной системы. Функциональные особенности и классификационные признаки. Электронный архив как ядро информационной системы и централизованное хранилище документов. Способы создания таблиц, форм и диаграмм базы данных.

контрольная работа [2,4 M], добавлен 14.07.2009
Анализ методов автоматической классификации документов
Роль классификации документов в решении задач информационного поиска. Методы автоматической классификации документов и этапы построения классифицирующей системы: индексация документа, построение классификаторов на базе обучающих данных, оценка их работы.

курсовая работа [354,2 K], добавлен 13.01.2013
Разработка базы данных по предметной области "Столовая гимназии №8"
Описание первичных и результатных документов, типа связи информационных объектов. Построение информационно-логической модели базы данных и её реализация в СУБД Access (создание таблиц, запросов, форм, отчётов). Разработка интерфейса пользователя.

курсовая работа [2,1 M], добавлен 14.11.2013
Создание информационной системы "АТП"
Выбор инструментальной среды для разработки базы данных. Подсистема сбора, обработки и загрузки данных. Укрупненный алгоритм разрабатываемой информационной системы. Формирование области запросов базы, интерфейс ввода и редактирования входных данных.

курсовая работа [2,2 M], добавлен 25.12.2012
База данных по продаже сотовых телефонов
Проектирование базы данных, предназначенной для ввода, хранения и обработки информации по продажам сотовых телефонов. Список таблиц и свойств полей таблиц. Описание созданных запросов, отчётов и форм. Руководство пользователя, условия применения данных.

курсовая работа [1,9 M], добавлен 14.05.2014

Другие документы, подобные "Системы оптического распознавания, обеспечивающие обработку сканированных документов стандартных форм и их экспорт в базы данных"

весь список подобных работ

скачать работу можно здесь

сколько стоит заказать работу?

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.