Автоматическая классификация формализованных документов в системе электронного документооборота
Разработка способа автоматической классификации электронных документов, основанного на анализе метаданных документа при помощи алгебры конечных предикатов. Классификация текста на естественном языке. Условия использования режима обучения системой.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 13.05.2017 |
Размер файла | 2,4 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
1
Научный журнал КубГАУ, №96(02), 2014 года
Филиал Военной академии связи
АВТОМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ ФОРМАЛИЗОВАННЫХ ДОКУМЕНТОВ В СИСТЕМЕ ЭЛЕКТРОННОГО ДОКУМЕНТООБОРОТА
Носенко Сергей Владимирович
Королев Игорь Дмитриевич д.т.н., проф.
Краснодар, Россия
В данной статье представлен способ автоматической классификации электронных документов, основанный на анализе метаданных документа при помощи алгебры конечных предикатов
Ключевые слова: ЭЛЕКТРОННЫЙ ДОКУМЕНТООБОРОТ, ЭЛЕКТРОННЫЙ ДОКУМЕНТ, ФОРМАЛИЗОВАННЫЙ ДОКУМЕНТ, ТЕОРИЯ КОНЕЧНЫХ ПРЕДИКАТОВ, СЛОВОФОРМА
Автоматическая классификация документов используется в автоматизированных системах (далее - АС) электронного документооборота, базах данных, электронных хранилищах (электронных архивах) в случаях, когда существует необходимость классификации формализованных документов, поступающих из внешних АС, по тематическим признакам, формам (структурам), значениям реквизитов документов.
Описываемый в статье способ заключается в описании документов с помощью математического аппарата теории конечных предикатов. Способ предназначен для:
реализации возможности классификации формализованных документов по формам;
повышения оперативности извлечения заданных метаданных;
повышения оперативности извлечения метаданных документа, позволяющих классифицировать документ по информационным областям за счет проведения анализа не всего содержимого документа, а только его информативной части;
определения относимости документа к информационной области с обеспечением возможности априорного задания информационных областей, к которым относится электронный документ, в том числе с учетом всевозможных взаимосвязей таких информационных областей.
Результат классификации формализованных документов по формам(структурам), а также повышение оперативности выделения метаданных (в том числе информативной части документа) получаем за счет того, что осуществляем выделение характеристик одинаковых участков текста Z={z1, z2,…, zn} (реквизитов) формализованного документа. Реквизиты выражаем конечным предикатом, где T -множество характеристик текста t, L={l1, l2,…, lq} - множество конечных предикатов узнавания ключевых слов реквизита l, q - количество всех используемых ключевых слов[1].По количеству используемых реквизитов документов вАС создаем систему конечных предикатов для идентификации всех реквизитов.
Правило построения предиката узнавания реквизита формализованного документа, выразится следующей формулой [1]:
где - предикат узнавания значения ah-той переменной текста; m - количество переменных текста, n - величина алфавита h-той переменной текста; - предикат узнавания значения b ключевого слова соответствующего i-той зоне.
ГОСТ Р 6.30-2003 подразумевает перечень 30 реквизитов документов. Вместе с этим, некоторые реквизиты не определяют индивидуальность формы документа, например те, которые свойственны всем формам документов (например - текст) или вообще не свойственны в данных условиях применения (например - Государственный герб Российской Федерации в частной организации), что приводит к еще большему сокращению размеров системы предикатов узнавания реквизитов. Количество различных используемых реквизитов определяет размерность системы предикатов узнавания реквизитов.
Форму(структуру) документа выражаем конечным предикатом , где V={v1, v2,…, vm} - множество форм документа, m - количество всех используемых форм документов, Z={z1, z2,…, zn} - множество конечных предикатов узнавания реквизитов документа, n - количество реквизитов документов, L={l1, l2,…, lq} - множество ключевых слов, q - количество всех используемых ключевых слов. По количеству используемых форм документов вАС создаем систему конечных предикатов для идентификации всех форм.
Правило построения предиката узнавания формы документа выразится следующей формулой [1]:
где - i-тый предикат узнавания реквизита документа системы предикатов узнавания реквизитов; - предикат узнавания уникального значения ключевого слова, соответствующего j-той форме документа.
Созданная система предикатов с использованием (2) применяется в АС для классификации формализованных документов по формам (структурам).
Форма документа однозначно задает места расположения реквизитов документа и область поиска значений конкретного реквизита ограничивается областью имеющую положительное значение соответствующего предиката из системы предикатов, построенной по (1) такая система предикатов используются вАС для повышения оперативности выделения метаданных (в том числе информативной части документа).
Вышеизложенное позволяет:
реализовать возможность классификации формализованных документов по формам за счет однозначного определения формы документа;
повысить оперативность извлечения заданных метаданных, за счет определения области поиска значений реквизитов, например, из списка возможных значений при малом словаре значений реквизитов или по маске реквизита;
выделять информативную часть документа (например - текстна естественном языке) для последующего анализа не всего содержимого документа, а только информативной части с целью повышения оперативности отнесения документа к той или иной информационной области.
С целью реализации возможности классификации по информационным областям формализованных документов слова текста на естественном языке информативной части документа преобразуем в базовые словоформы, отбросим незначимые слова, осуществим подсчет весов слов в тексте в соответствии с частотами их появления и тем самым сформируем предикаты узнавания информационной области.
Правило построения системы предикатов узнавания информационной области ; s - количество информационных областей АС, выразится следующей формулой:
где - предикат узнавания значения веса f значимого слова - множество значимых слов текстов, в тексте документа d-той информационной области по g-тому значению веса значимого слова; p - количество значимых слов текстов.
На этапе обучения системы по предъявленному набору классифицированных вручную текстов сформируем систему предикатов идентификации признаков текста, где количество предикатов в системе предикатов определяется количеством информационных областей, на которые необходимо классифицировать документы (количество исполнителей или пользователей в автоматизированной системе).
На этапе работы системы, при классификации текста на естественном языке, преобразуем слова текста в базовые словоформы, отбросим незначимые слова, осуществим подсчет весов слов в тексте, получившиеся значения подставим в систему предикатов, построенных по (3) на этапе обучения. По предикатам в системе предикатов принявшим значение истинности «1» определим принадлежность к соответствующей информационной области или областям. При этом, в случае необходимости использования априорной информации о зависимостях информационных областей друг от друга, например для: задания дерева информационных областей; создания составной области знаний; исключения части области знаний, нет необходимости проводить этап обучения вновь, а используя алгебру конечных предикатов [2], проводим полный спектр операций над логическими выражениями, а соответственно и над информационными областями, описанными конечными предикатами (добавление, исключение, сложение информационных областей и т.д.). Данный способ классификации позволяет с учетом этого по входному документу определить, каким информационным областям он принадлежит, а каким нет.
Вес f словоформы в тексте документа dj, рассчитаем по формуле:
Здесь - количество раз, которое -я словоформа встречается в -м тексте документа, - общее количество словоформ в i-м тексте документа.
Информативная часть документа для классификации должна быть представлена в виде, допускающем выделение из нее текстового содержания. Каждый документ (либо обучающий, либо подвергающийся классификации) предварительно проходит стадию первичной обработки, на которой производится определение формата документа и установление того, возможно ли извлечение текста из документа данного формата. После разбиения текста на слова определяем для каждого слова его базовую словоформу по одному из способов [3-6]. Наиболее часто для решения подобных задач используется алгоритм Портера [6], заключающийся в использовании специальных правил отсечения и замены окончаний слов.
Согласно предлагаемому способу каждый документ di представляем декартовым произведением переменных из множеств , где для инициализации классификатора и построения классификационных признаков служит этап обучения классификатора. При этом должно быть задано множество обучающих документов, заранее классифицированных вручную. После извлечения из них текстового содержания производим построение словаря значимых слов. Словарь содержит базовые словоформы всех слов, встречающихся в обучающих документах.
При классификации документа в расчет берутся не все словоформы из словаря документов, а лишь те из них, которые входят в рабочий словарь классификатора данной информационной области (данного исполнителя), что и использует (3). В рабочий словарь классификатора включаются наиболее информативные словоформы с точки зрения определения принадлежности документа данной категории, не попавшие в стоп-словарь. Информативность словоформы wi для классификатора по информационной области uj определяется по известной формуле [7]:
При этом устанавливается порог информативности е; в рабочий словарь классификатора включаются все словоформы, не попавшие в стоп-словарь, информативность которых превышает этот порог. Стоп-словарь состоит из словоформ, частоты встречаемости которых во множестве обучающих документов превышают заранее установленный порог д. При этом отсекаются слова, не несущие смысловой нагрузки, такие как предлоги, союзы, вводные и общие слова и т.д. Значения коэффициента д, согласно данному способу, устанавливаются в пределах от 0.05 до 0.7 в зависимости от специфики использования способа. Значения порога информативности д могут быть различны в различных условиях использования способа.
Рис. Блок-схема для реализации способа автоматической классификации формализованных документов в системе электронного документооборота
Классификация текстов (информативных частей) документов производится путем вычисления значений системы предикатов, описывающей информационные области. Система предикатов строится по (3).
На рис. представлена блок-схема для реализации способа.
Описание работы:
В режиме классификации.
При появлении в источнике документов нового документа он поступает в блок анализа характеристик текста, который выявляет значения переменных t участков документа и ключевых слов l в них. Значения t и l участков документа поступают в блок распознавания реквизитов документа, где с помощью системы предикатов, построенных по (1) распознаются реквизиты документа. Информация о распознанных реквизитах документа поступает в блок распознавания формы документа, где система предикатов, построенная по (2) осуществляет распознавание.
В блоке выделения метаданных из поступившего документа от анализатора текста, используя сведения об определенной форме документа из блока распознавания формы документа, которая однозначно задает места расположения значений реквизитов документа, выделяются требуемые значения реквизитов, которые являются метаданными документа. Документ и соответствующие ему метаданные поступают в блок учета документа, и организуется хранение его эталонной копии. Также однозначно определенная в блоке выделения метаданных информативная часть документа поступает в блок определения базовых словоформ. Полученные словоформы поступают в блок создания рабочего словаря из значимых слов по (5).
Полученные словоформы документа, попавшие в рабочий словарь, поступают в блок определения весов слов документа (4), где производится расчет весов f словоформ информативной части документа. Далее значения весов полученных словоформ поступают в блок распознавания информационной области ui путем вычисления значений предикатов системы предикатов, построенной по (3).
Поступившему документу и метаданным из блока учета документов в блок адресации документов, с использованием полученных значений из блока распознавания информационной области присваиваются соответствующие адреса (классификация в соответствии с информационной областью). электронный документ автоматический классификация
В режиме обучения.
Режим обучения системой используется в трех случаях:
в случае невозможности распознавания системой предикатов реквизитов документа в блоке распознавания реквизитов документа по значениям переменных документа t и l. В этом случае оператором системы через блок обучения вносятся изменения в систему предикатов блока распознавания документов или определяется реквизит документа «вручную»;
в случае невозможности распознавания системой предикатов формы документа по значениям системы предикатов блока распознавания реквизитов документа. В этом случае оператором системы через блок обучения вносятся изменения в систему предикатов блока распознавания формы документа или определяется форма документа «вручную»;
в случае невозможности распознавания системой предикатов информационной области по значениям весов значимых слов из рабочего словаря, извлеченных из информативной части документа. В этом случае оператором системы через блок обучения вносятся изменения в систему предикатов блока распознавания информационной области или определяется информационная область документа «вручную».
Таким образом, способ позволяет классифицировать документы с учетом любых значений реквизитов, анализировать только информативную часть документа с учетом априорных зависимостей между информационными областями, что достигается результатом классификации по информационным областям и использованием алгебры конечных предикатов.
Список литературы
1. Подходы к оперативной идентификации формализованных электронных документов в автоматизированных делопроизводствах / И.Д. Королев, С.В. Носенко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. Краснодар: КубГАУ, 2013. №08(092). IDA [article ID]: 0921308074. Режим доступа: http://ej.kubagro.ru/2013/08/pdf/74.pdf, 0,875 у.п.л.
2. М.Ф. Бондаренко, Ю.П. Шабанов-Кушнаренко. Об алгебре конечных предикатов. [Текст]// Научно-технический журнал «Бионика интеллекта». ХНУРЭ, г. Харьков, Украина. 2011 № 3(77).
3. Porter M.F. "An algorithm for suffix stripping", Program, Vol.14, No.3, 1980, pp.130-137.
4. Пат. 2096825 Российская Федерация, МПК G 06 F 17/00, G 06 F 17/30. Устройство обработки информации для информационного поиска [Текст] / Ковалев М.В., Виргунов И.В., Наймушин И.А., Четверов В.В.; заявитель и патентообладатель Общество с ограниченной ответственностью "Информбюро". № 96119820/09; заявл. 14.10.96; опубл. 20.11.97, Бюл. № 14.
5. Пат. 6308149 Соединенные Штаты Америки, МПК G 06 F 17/27. Grouping words with equivalent substrings by automatic clustering based on suffix relationships [Текст] / Gaussier E., Grefenstette G., Chanod J.-P.; заявительипатентообладательXerox Corporation. № 09/213309; заявл.16.12.98; опубл. 23.10.01.
6. Пат. 6430557 Соединенные Штаты Америки, МПК G 06 F 017/30; G 06 F 017/27; G 06 F 017/21. Identifying a group of words using modified query words obtained from successive suffix relationships [Текст] / Gaussier E., Grefenstette G., Chanod J.-P.; заявительипатентообладательXerox Corporation. № 09/212662; заявл.16.12.98; опубл.06.08.02.
7. Craven M., DiPasquo D., Freitag D. et al. "Learning to сonstruct knowledge bases from the World Wide Web", Artificial Intelligence, Vol.118(1-2), 2000, pp. 69-113.
Размещено на Allbest.ru
...Подобные документы
Роль классификации документов в решении задач информационного поиска. Методы автоматической классификации документов и этапы построения классифицирующей системы: индексация документа, построение классификаторов на базе обучающих данных, оценка их работы.
курсовая работа [354,2 K], добавлен 13.01.2013Понятие электронного документа, отличие от иных видов документов. Юридическая сила и правовой режим электронного документа и документооборота. Процедуры разрешения конфликтов. Основные типы текстовых электронных документов и выбор средств их оформления.
реферат [24,5 K], добавлен 22.08.2010Автоматизация редактирования текста документа. Стили документа Word 2010. Сравнительная характеристика в Microsoft Word 2007 и 2003, стили оформления. Приемы и методы редактирования документов, предназначенных для автоматической обработки данных.
курсовая работа [3,6 M], добавлен 23.06.2016Разработка универсальной системы электронного документооборота HotDoc с разграничением прав доступа пользователей, с эффективной системой поиска документа, с возможностью внедрения в различные организации. Реализация программы в виде веб-приложения.
дипломная работа [5,5 M], добавлен 24.09.2012Управление доступом и распространение электронных документов в компьютерных сетях, обеспечение контроля информационных потоков в организации при помощи системы электронного документооборота. Обзор современных СЭД по соотношению цены и функциональности.
презентация [511,5 K], добавлен 27.11.2013Процесс создания программы для электронного документооборота учреждения. Оценка ее качественных и количественных показателей. Выбор аппаратной и программной платформы Web-сайта. Разработка функциональной схемы обработки документов и доступа пользователей.
дипломная работа [233,9 K], добавлен 02.10.2013Делопроизводство бумажных и электронных документов. Современные системы электронного документооборота и системы автоматизации классического делопроизводства. Создание безбумажного делопроизводства в загруженных участках управленческой деятельности.
курсовая работа [501,8 K], добавлен 08.12.2010Современные электронные системы управления и работы с документами. Проблемы традиционных и электронных технологий ДОУ. Выбор эффективной СЭУД (классификация систем электронного управления документами). Защищенность электронного документооборота.
дипломная работа [124,9 K], добавлен 12.12.2007Рассмотрение шифрования электронных документов ассиметричным методом. Формирование виртуальных защищенных каналов передачи данных при помощи программного средства Visual Studio 2010. Написание алгоритма и программы. Описание руководства пользователя.
курсовая работа [509,4 K], добавлен 11.10.2014Рынок систем электронного документооборота. Проектирование программы, отвечающей заявленным требованиям: создание, регистрация, распределение, согласование и поиск документов. функциональные особенности клиентской программы, пользовательский интерфейс.
дипломная работа [5,5 M], добавлен 19.12.2011Анализ нормативной базы по проблеме использования электронного документа в современном делопроизводстве. Содержание в файле текстовой или аудиовизуальной информации в закодированном виде. Международные стандарты по форматам электронных документов.
курсовая работа [39,1 K], добавлен 29.01.2014Виды документов и их классификация. Правила оформления телефонограмм. Составление и оформление служебных документов. Понятие и назначение трафарета, разновидности предъявляемые требования. Необходимость соблюдения аккуратности при оформлении документа.
курсовая работа [45,9 K], добавлен 04.12.2010Основные особенности нормативного и методического обеспечения архивного хранения электронных документов. Общие требования к организации и проведению учета электронных архивных документов. Рассмотрение инновационных методов учета в делопроизводстве.
курсовая работа [255,8 K], добавлен 31.08.2015Сущность автоматизации управления документооборотом. Понятие электронного документа и функции традиционного документа. Системы электронного документопроизводства. Новый подход к созданию документов и использование корпоративных информационных порталов.
реферат [26,2 K], добавлен 27.02.2009Обзор средств создания электронных обучающих систем. Требования к системе проектирования "электронного учебника". Разработка теоретической части и интерактивных примеров. Классификация средств создания электронных учебников. Принципы изложения материала.
дипломная работа [7,8 M], добавлен 10.01.2013Преимущества использования Word при создании веб-страниц. Его публикация Word в библиотеке документов. Преобразование документа Word в веб-страницу. Функции HTML-конвертора Word97. Пересмотр документа Word и веб-страницы. Отображение закладок в документе.
реферат [23,6 K], добавлен 06.04.2010Классификация текстовых редакторов и процессоров. Способы хранения текста в файле. Форматирование документа и его редактирование. Среда текстового редактора. Автоматическая проверка орфографии и синтаксиса текста, автотекст, автозамена, гипертекст.
курсовая работа [35,0 K], добавлен 25.04.2013Понятие электронного архива и проблема сохранения цифрового наследия, обзор проектов по оцифровке документов. Методы сканирования документов и их распознавания. Организация и создание электронного архива, сохранение цифровых информационных ресурсов.
реферат [20,2 K], добавлен 20.10.2010Тематический план курса разработки цифрового образовательного ресурса по технологии создания электронных графических документов (электронных книг). Особенности сканирования, программное обеспечение. Основные возможности программы ABBYY Fine Reader.
дипломная работа [3,7 M], добавлен 07.07.2011Основные функции текстового процессора Word. Создание документа Word. Использование шаблонов документов. Удаление, копирование и перемещение текста. Сохранение, закрытие и открытие документа. Изменение шрифтов, выравнивание текста и использование стилей.
курсовая работа [71,6 K], добавлен 17.08.2011