О возможности повышения оперативности анализа контекста в задаче автоматической классификации документов

Проектирование сложных технологических объектов и процессов в различных предметных областях, осуществляемое с привлечением автоматизированных систем. Подходы к классификации проектной документации в системах управления документами и документооборотом.

Рубрика Производство и технологии
Вид статья
Язык русский
Дата добавления 18.01.2018
Размер файла 25,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

О возможности повышения оперативности анализа контекста в задаче автоматической классификации документов

Проектирование сложных технологических объектов и процессов в любой предметной области осуществляется с привлечением САПР. При этом большинство задач, решаемых проектировщиками, требует выполнения типовых операций (построения схем и их описания, оформления эксплуатационной и сопроводительной документации и др.). Временные затраты на выполнение такой работы можно сократить за счет использования проектов, хранящихся в электронных архивах проектной документации. В этом случае в состав САПР должен входить набор средств поддержки оперативного поиска, одной из составляющих которого должна быть классификация проектной документации по тематике проектов.

Для поддержания классификации документов в актуальном состоянии необходимо автоматизировать процедуру пополнения классификатора. При построении системы автоматической классификации документов по тематике требуется решить следующие задачи:

· выбрать признаки, отражающие разбиение документов на требуемые классы;

· выбрать методы классификации;

· выбрать методы оценки эффективности (качества) классификации.

Далее внимание уделяется решению первой задачи - выбору информативных признаков.

Постановка задачи автоматической классификации документов

Формально задача автоматической классификации документов является задачей распознавания образов с обучением [1]. Сформулируем постановку задачи [2]. Пусть:

· задано конечное множество категорий ;

· задано конечное множество документов ;

· задано признаковое пространство , где - множество значений i-го признака;

· задана функция признака , - признаковое описание документа ;

· имеется неизвестная функция , которая для каждой пары определяет, относится ли документ , имеющий признаковое описание , к категории ;

· заданы значения неизвестной функции на некотором выбранном множестве документов , - обучающее множество документов;

· заданы значения неизвестной функции на некотором выбранном множестве документов , - тестовое множество документов.

Требуется найти максимально близкую к функции функцию , используя множество , и оценить ее эффективность на множестве . Функцию называют классификатором.

Структура признакового пространства

В качестве признакового описания документов, отражающего их тематику, используется набор содержащихся в них слов - термов, каждому из которых по определенным правилам присвоен числовой коэффициент - вес [2]. При вычислении весов термов учитывается их частота встречаемости в тексте документа. Порядок термов, как правило, не учитывается. Наиболее распространенный общий подход к вычислению веса терма реализует формула ( - term frequency, - inversed document frequency), где - частота встречаемости терма в данном документе, - величина, обратная частоте встречаемости терма в остальных документах. В размеченных текстах может также учитываться наличие терма в заголовке, выделение терма цветом и т.п. Затем проводится нормализация по документу, так чтобы сумма квадратов всех весов была равна единице.

Поскольку количество слов, выделенных из текстов документов, очень велико, то применяют различные способы уменьшения размерности пространства признаков [2]. Как неинформативные исключаются из рассмотрения слова с наибольшими и наименьшими частотами встречаемости. Все словоформы и некоторые однокоренные слова заменяются одним словом. С этой же целью используется словарь синонимов. Таким образом, в общем случае терм представляет собой не слово (термин) а класс слов, объединенных по общему признаку (корню, значению).

Описанный способ извлечения информации из текстовых документов широко используется при решении различных задач, требующих автоматической смысловой обработки текстов. Однако как отмечено в работе [3], серьезный недостаток построенного таким образом пространства признаков состоит в том, что оно включает в себя информацию лишь о простейших единицах текста - словах, не затрагивая при этом богатый пласт грамматической информации. Далее рассмотрены методы, позволяющие частично учитывать некоторые грамматические конструкции текстов, и предложены модификации, направленные на сокращение временных затрат на обработку текста.

Анализ контекста

На сегодняшний день для множества предметных областей экспертами разработаны тематические словари (например, словарь медицинских терминов, словарь юридических терминов и т.п.). Большинство таких словарей состоит не из термов, а из их сочетаний, устойчивых для данной предметной области. К примеру, в словаре криптографических терминов терм «ключ» входит в устойчивые сочетания «открытый ключ», «секретный ключ» и др., а в словаре автомобильных терминов - в устойчивые сочетания «гаечный ключ», «разводной ключ» и др. При классификации текстов по тематике учитывается эта особенность. При этом обычно устойчивые группы слов рассматриваются как самостоятельные термы.

На практике широко применяется анализ контекста терма без привлечения экспертов. Так, например, большинство современных поисковых систем позволяют в качестве опций расширенного поиска указывать при формировании запроса, какие термы (все или некоторые) должны или не должны присутствовать в контексте данного. К примеру, при поиске информации по криптографическим алгоритмам запрос может быть задан логическим выражением («ключ» и ((«секретный» или «открытый») и не «гаечный» и не «разводной»)). Кроме того, некоторые системы позволяют учитывать совстречаемость (cooccurrence) термов - употребление термов в одном контексте [2]. Мера совстречаемости в общем случае определяется некоторой метрикой, определяющей «расстояние» между термами. Под «расстоянием» может пониматься, например, количество слов между термами (в этом случае «расстояние» задается целым неотрицательным числом) либо выполнение / невыполнение условия «термы встречаются в одном предложении» (в этом случае «расстояние» задается логическим значением по принципу: если термы встретились в одном предложении, «расстояние» равно нулю, иначе - единице). В случае работы с размеченными текстами условия могут быть сформулированы как «термы встречаются в одном абзаце», «термы встречаются в одном разделе» и т.п. При этом если «расстояние» между термами больше заданного, термы не признаются употребленными в одном контексте. Если же «расстояние» между термами не превосходит заданного, группы «близких» слов рассматриваются как самостоятельные термы, вес которых рассчитывается из весов представителей группы [2].

Анализ контекста термов с последующей заменой элементарных термов характерными группами требует значительных временных затрат, которые можно сократить, если анализировать контекст только наиболее весомых термов и использовать результаты анализа для пересчета весов, отказавшись от «укрупнения» термов.

Пусть тексту документа сопоставлен набор термов с их ненормированными весами , упорядоченный по убыванию весов. Выберем термов, имеющих наибольшие веса, и определим их новые веса с учетом контекста.

Если для каждой категории экспертом сформирован список устойчивых сочетаний термов , причем каждому сочетанию присвоен коэффициент значимости по шкале , то можно определить новые веса термов с учетом их вхождения в устойчивые сочетания из соответствующих списков.

Положим , где , - количество вхождений в текст документа , . После пересчета весов выполняется нормализация по документу. Таким образом, вес терма будет тем больше, чем чаще он входит в состав устойчивых сочетаний и чем чаще устойчивые сочетания употребляются в тексте.

Без привлечения экспертов контекст наиболее весомых термов можно учесть следующим образом.

Положим , где определяет, сколько раз термы и встретились в одном контексте, . После пересчета весов выполняется нормализация по документу. Таким образом, вес терма будет тем больше, чем чаще он употребляется в одном контексте с другими термами.

Выбор числа зависит от количества термов и ресурсов автоматического анализатора. В случае, когда «близость» между термами трактуется как их совместное вхождение в предложение (или в иной фрагмент, если речь идет о размеченных текстах), изложенный подход можно применять не только к парам термов, но и к тройкам, четверкам и т.д.

В работе приведена формальная постановка задачи классификации документов по тематике. Рассмотрены методы формирования признакового пространства. Предложены модификации методов, позволяющие сократить временные затраты на обработку текстов документов.

Литература

автоматизированный документооборот управление

1. Гайдышев И. Анализ и обработка данных: специальный справочник. - СПб.: Питер, 2001.

2. Лифшиц Ю. Современные задачи теоретической информатики. - [Электронный ресурс]. - Режим доступа: http://company.yandex.ru/academic/class/courses/lifshits.xml. - Загл. с экрана.

3. Кукушкина О.В., Поддубный В.В., Поликарпов А.А., Шевелев О.Г. Автоматическая классификация текстов корпуса русских газет конца XX века по жанровым типам и источникам // Труды III Международного конгресса исследователей русского языка. - М.: МГУ, 2007. - С. 391-392.

Размещено на Allbest.ru

...

Подобные документы

  • Взаимосвязь технологических и организационно-управленческих структур. Понятие о химико-технологических процессах, принципы классификации. Перспективы развития и особенности экономической оценки химико-технологических процессов. Специальные методы литья.

    контрольная работа [50,0 K], добавлен 10.07.2010

  • Определение устойчивости системы по критериям Найквиста, Гурвица, Михайлова и Вышнеградского. Классификация систем автоматического управления технологических процессов. Основные элементы автоматики: датчики, усилители и корректирующие механизмы.

    курсовая работа [919,4 K], добавлен 14.08.2011

  • Методические и технологические аспекты проблемы разработки автоматизированных систем обучения, предназначаемых для подготовки специалистов по эксплуатации и применению сложных АТК. Назначение, цели, ожидаемый эффект применения АСО и пути их достижения.

    статья [154,7 K], добавлен 21.07.2011

  • Сущность систем автоматики и их классификация по признаку сложности. Этапы жизни системы и степень влияния условий их эксплуатации на процесс проектирования системы. Структура и сферы применения основных автоматизированных и функциональных систем.

    курс лекций [1,9 M], добавлен 20.10.2009

  • Три вида исходной информации при разработке технологических процессов: базовая, руководящая и справочная. Выполнение рабочего чертежа детали. Тип производства и методы изготовления изделий при разработке технологических процессов с применением ЭВМ.

    реферат [1,1 M], добавлен 07.03.2009

  • Общие понятия о технологических размерных цепях, их виды. Условия осуществления размерного анализа технологических процессов. Основные методы и этапы расчета технологических размерных цепей. Назначение допусков на размеры исходной заготовки детали.

    презентация [774,8 K], добавлен 26.10.2013

  • Понятие и виды технологических процессов обработки изделий в машиностроении. Признаки классификации методов изготовления деталей машин. Классификация по природе и характеру воздействия. Виды методов изготовления деталей по схемам формообразования.

    контрольная работа [19,0 K], добавлен 05.11.2008

  • Разработка технологического процесса изготовления детали. Выбор метода получения заготовки и режимов резания. Проектирование автоматической линии. Синтез принципиальной схемы бесконтактного логического управляющего устройства промышленной автоматики.

    курсовая работа [1,2 M], добавлен 17.06.2011

  • Исследование сущности матричного метода расчета надежности автоматизированных систем. Определение вероятности отсутствия отказов элементов. Практическая реализация оптимального резервирования. Анализ различных подходов и классификаций ошибок персонала.

    контрольная работа [1008,0 K], добавлен 02.04.2016

  • Обзор основных функций автоматизированных систем управления технологическими процессами (АСУ ТП), способы их реализации. Виды обеспечения АСУ ТП: информационное, аппаратное, математическое, программное, организационное, метрологическое, эргономическое.

    презентация [33,7 K], добавлен 10.02.2014

  • Сущность, предназначение, признаки, функции и виды автоматизированных складских систем (АСС) м автоматизированных транспортных систем (АТС). Составные элементы и оборудование АСС И АТС, его характеристика и предназначение. Система управления АСС И АТС.

    реферат [71,5 K], добавлен 05.06.2010

  • Характеристика классификации систем кондиционирования и вентиляции. Особенности протекания переходных газодинамических процессов в воздушных потоках вентиляционных шахт. Численное моделирование проветривания тоннельного тупика в двухмерной постановке.

    магистерская работа [1,7 M], добавлен 10.07.2017

  • Общие положения теории управления технологическими процессами. Моделирование как метод исследования технологических процессов и получение оптимальных решений. Значение эксперимента в моделировании технологических объектов. Основные термины и понятия.

    курс лекций [521,1 K], добавлен 27.06.2012

  • Структура технологических систем; их свойства, признаки функционирования, производственные ресурсы. Факторы, определяющие производственную мощность. Естественные процессы как основа технологических систем. Технический контроль качества продукции.

    контрольная работа [89,6 K], добавлен 18.02.2014

  • История развития автоматических систем регулирования. Сравнительный анализ ручного и машинного управления. Характеристика видов (стабилизирующих, программных, следящих и оптимизирующих) систем управления и типов защиты установок от опасных режимов.

    реферат [85,3 K], добавлен 18.01.2010

  • Основные принципы повышения производительности труда на основе совершенствования технологических процессов. Методы их оптимизации функциональными системами программного управления. Системы автоматического регулирования (АСУ) и промышленные роботы.

    контрольная работа [2,4 M], добавлен 15.11.2009

  • Общая характеристика автоматизированных систем. Требования к системе управления роботом. Разработка структурной электрической схемы. Обоснование и выбор функциональной схемы. Выбор исполнительного двигателя. Проектирование ряда датчиков и систем.

    курсовая работа [1,7 M], добавлен 12.11.2009

  • Классификация автоматизированных информационных систем по сфере функционирования объекта управления, видам процессов. Производственно-хозяйственные, социально-экономические, функциональные процессы, реализуемые в управлении экономикой, как объекты систем.

    реферат [27,5 K], добавлен 18.02.2009

  • Определение проектной мощности предприятия, объёма и ассортимента продукции. Схема технологических процессов маслозавода с цехом сухого обезжиренного молока. Продуктовый расчёт при производстве молока, кефира, масла, сметаны. Подбор и расчет оборудования.

    дипломная работа [1,4 M], добавлен 23.10.2011

  • Исследование особенностей предприятий хлебопекарной промышленности как объектов автоматизации. Изучение опыта внедрения и тенденций развития автоматизированных систем управления хлебопекарной отрасли. Модернизация и информатизация производства хлеба.

    контрольная работа [25,6 K], добавлен 03.03.2016

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.