О возможности повышения оперативности анализа контекста в задаче автоматической классификации документов

Проектирование сложных технологических объектов и процессов в различных предметных областях, осуществляемое с привлечением автоматизированных систем. Подходы к классификации проектной документации в системах управления документами и документооборотом.

Рубрика Производство и технологии
Вид статья
Язык русский
Дата добавления 18.01.2018
Размер файла 25,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

О возможности повышения оперативности анализа контекста в задаче автоматической классификации документов

Проектирование сложных технологических объектов и процессов в любой предметной области осуществляется с привлечением САПР. При этом большинство задач, решаемых проектировщиками, требует выполнения типовых операций (построения схем и их описания, оформления эксплуатационной и сопроводительной документации и др.). Временные затраты на выполнение такой работы можно сократить за счет использования проектов, хранящихся в электронных архивах проектной документации. В этом случае в состав САПР должен входить набор средств поддержки оперативного поиска, одной из составляющих которого должна быть классификация проектной документации по тематике проектов.

Для поддержания классификации документов в актуальном состоянии необходимо автоматизировать процедуру пополнения классификатора. При построении системы автоматической классификации документов по тематике требуется решить следующие задачи:

· выбрать признаки, отражающие разбиение документов на требуемые классы;

· выбрать методы классификации;

· выбрать методы оценки эффективности (качества) классификации.

Далее внимание уделяется решению первой задачи - выбору информативных признаков.

Постановка задачи автоматической классификации документов

Формально задача автоматической классификации документов является задачей распознавания образов с обучением [1]. Сформулируем постановку задачи [2]. Пусть:

· задано конечное множество категорий ;

· задано конечное множество документов ;

· задано признаковое пространство , где - множество значений i-го признака;

· задана функция признака , - признаковое описание документа ;

· имеется неизвестная функция , которая для каждой пары определяет, относится ли документ , имеющий признаковое описание , к категории ;

· заданы значения неизвестной функции на некотором выбранном множестве документов , - обучающее множество документов;

· заданы значения неизвестной функции на некотором выбранном множестве документов , - тестовое множество документов.

Требуется найти максимально близкую к функции функцию , используя множество , и оценить ее эффективность на множестве . Функцию называют классификатором.

Структура признакового пространства

В качестве признакового описания документов, отражающего их тематику, используется набор содержащихся в них слов - термов, каждому из которых по определенным правилам присвоен числовой коэффициент - вес [2]. При вычислении весов термов учитывается их частота встречаемости в тексте документа. Порядок термов, как правило, не учитывается. Наиболее распространенный общий подход к вычислению веса терма реализует формула ( - term frequency, - inversed document frequency), где - частота встречаемости терма в данном документе, - величина, обратная частоте встречаемости терма в остальных документах. В размеченных текстах может также учитываться наличие терма в заголовке, выделение терма цветом и т.п. Затем проводится нормализация по документу, так чтобы сумма квадратов всех весов была равна единице.

Поскольку количество слов, выделенных из текстов документов, очень велико, то применяют различные способы уменьшения размерности пространства признаков [2]. Как неинформативные исключаются из рассмотрения слова с наибольшими и наименьшими частотами встречаемости. Все словоформы и некоторые однокоренные слова заменяются одним словом. С этой же целью используется словарь синонимов. Таким образом, в общем случае терм представляет собой не слово (термин) а класс слов, объединенных по общему признаку (корню, значению).

Описанный способ извлечения информации из текстовых документов широко используется при решении различных задач, требующих автоматической смысловой обработки текстов. Однако как отмечено в работе [3], серьезный недостаток построенного таким образом пространства признаков состоит в том, что оно включает в себя информацию лишь о простейших единицах текста - словах, не затрагивая при этом богатый пласт грамматической информации. Далее рассмотрены методы, позволяющие частично учитывать некоторые грамматические конструкции текстов, и предложены модификации, направленные на сокращение временных затрат на обработку текста.

Анализ контекста

На сегодняшний день для множества предметных областей экспертами разработаны тематические словари (например, словарь медицинских терминов, словарь юридических терминов и т.п.). Большинство таких словарей состоит не из термов, а из их сочетаний, устойчивых для данной предметной области. К примеру, в словаре криптографических терминов терм «ключ» входит в устойчивые сочетания «открытый ключ», «секретный ключ» и др., а в словаре автомобильных терминов - в устойчивые сочетания «гаечный ключ», «разводной ключ» и др. При классификации текстов по тематике учитывается эта особенность. При этом обычно устойчивые группы слов рассматриваются как самостоятельные термы.

На практике широко применяется анализ контекста терма без привлечения экспертов. Так, например, большинство современных поисковых систем позволяют в качестве опций расширенного поиска указывать при формировании запроса, какие термы (все или некоторые) должны или не должны присутствовать в контексте данного. К примеру, при поиске информации по криптографическим алгоритмам запрос может быть задан логическим выражением («ключ» и ((«секретный» или «открытый») и не «гаечный» и не «разводной»)). Кроме того, некоторые системы позволяют учитывать совстречаемость (cooccurrence) термов - употребление термов в одном контексте [2]. Мера совстречаемости в общем случае определяется некоторой метрикой, определяющей «расстояние» между термами. Под «расстоянием» может пониматься, например, количество слов между термами (в этом случае «расстояние» задается целым неотрицательным числом) либо выполнение / невыполнение условия «термы встречаются в одном предложении» (в этом случае «расстояние» задается логическим значением по принципу: если термы встретились в одном предложении, «расстояние» равно нулю, иначе - единице). В случае работы с размеченными текстами условия могут быть сформулированы как «термы встречаются в одном абзаце», «термы встречаются в одном разделе» и т.п. При этом если «расстояние» между термами больше заданного, термы не признаются употребленными в одном контексте. Если же «расстояние» между термами не превосходит заданного, группы «близких» слов рассматриваются как самостоятельные термы, вес которых рассчитывается из весов представителей группы [2].

Анализ контекста термов с последующей заменой элементарных термов характерными группами требует значительных временных затрат, которые можно сократить, если анализировать контекст только наиболее весомых термов и использовать результаты анализа для пересчета весов, отказавшись от «укрупнения» термов.

Пусть тексту документа сопоставлен набор термов с их ненормированными весами , упорядоченный по убыванию весов. Выберем термов, имеющих наибольшие веса, и определим их новые веса с учетом контекста.

Если для каждой категории экспертом сформирован список устойчивых сочетаний термов , причем каждому сочетанию присвоен коэффициент значимости по шкале , то можно определить новые веса термов с учетом их вхождения в устойчивые сочетания из соответствующих списков.

Положим , где , - количество вхождений в текст документа , . После пересчета весов выполняется нормализация по документу. Таким образом, вес терма будет тем больше, чем чаще он входит в состав устойчивых сочетаний и чем чаще устойчивые сочетания употребляются в тексте.

Без привлечения экспертов контекст наиболее весомых термов можно учесть следующим образом.

Положим , где определяет, сколько раз термы и встретились в одном контексте, . После пересчета весов выполняется нормализация по документу. Таким образом, вес терма будет тем больше, чем чаще он употребляется в одном контексте с другими термами.

Выбор числа зависит от количества термов и ресурсов автоматического анализатора. В случае, когда «близость» между термами трактуется как их совместное вхождение в предложение (или в иной фрагмент, если речь идет о размеченных текстах), изложенный подход можно применять не только к парам термов, но и к тройкам, четверкам и т.д.

В работе приведена формальная постановка задачи классификации документов по тематике. Рассмотрены методы формирования признакового пространства. Предложены модификации методов, позволяющие сократить временные затраты на обработку текстов документов.

Литература

автоматизированный документооборот управление

1. Гайдышев И. Анализ и обработка данных: специальный справочник. - СПб.: Питер, 2001.

2. Лифшиц Ю. Современные задачи теоретической информатики. - [Электронный ресурс]. - Режим доступа: http://company.yandex.ru/academic/class/courses/lifshits.xml. - Загл. с экрана.

3. Кукушкина О.В., Поддубный В.В., Поликарпов А.А., Шевелев О.Г. Автоматическая классификация текстов корпуса русских газет конца XX века по жанровым типам и источникам // Труды III Международного конгресса исследователей русского языка. - М.: МГУ, 2007. - С. 391-392.

Размещено на Allbest.ru

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.