Классификация текстовых документов. Уменьшение размерности задачи и повышение производительности

Основные способы предварительной обработки текстовых документов для уменьшения размерности задачи классификации. Области применения автоматической классификации. Стемминг, лемматизация и стоп-слова как способы улучшения обработки текстовой информации.

Рубрика Менеджмент и трудовые отношения
Вид статья
Язык русский
Дата добавления 18.12.2017
Размер файла 14,9 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Классификация текстовых документов. Уменьшение размерности задачи и повышение производительности

Федотов Р.Г.

Аннотация

В данной статье рассматривается понятие классификации и основные направление, где она используется. Так же автор описывает основные способы предварительной обработки текстовых документов, для уменьшения размерности задачи классификации и повышение производительности систем, такие как стемминг, лемматизация, стоп-слова.

Ключевые слова: классификация, стемминг, лемматизация, обработка текста

Классификация - одна из давних проблем, окончательно не решенная и по сегодняшний день. Под классификацией понимают группировку изучаемых объектов по видам, типам или другим признакам на основании содержания объекта для удобства дальнейшего их исследования. Следует различать классификацию и кластеризацию. Кластеризация так же выполняет группировку объектов по категориям, но здесь они заранее не известны.

Автоматическая классификация очень часто применяется в таких областях, как:

Фильтрация спама;

Сортировка новостей;

Проверка авторства;

Составление интернет-каталогов;

Автоматическое аннотирование;

В наше время с появлением интернета и быстрым ростом информации в нем очень остро стоит проблема её классифицировать. Существует множество методов классификации, некоторые делают упор на качество классификации, некоторые на скорость. Но когда информации слишком много, необходимо делать предварительную обработку. Для этого существует несколько способов, которые помогают не только повысить производительность самой системы, но и уменьшить размерность информации, обрабатываемой классификатором.

Стемминг слов

Стемминг -- это процесс нахождения основы слова для заданного исходного слова. Основа слова необязательно совпадает с морфологическим корнем слова.

Русский язык относится к группе флективных синтетических языков, то есть языков, в которых преобладает словообразование с использованием аффиксов, сочетающих сразу несколько грамматических значений, поэтому данный язык допускает использование алгоритмов стемминга.

Русский язык имеет сложную морфологическую изменяемость слов, которая является источником ошибок при использовании стемминга. Обычно стеммером пользуются для поиска текста с имитацией учета морфологии. Под имитацией подразумевается неустранимо большое количество ошибок и нерелевантных результатов, которые возникают, если применять только стеммер. В русском языке источником ошибок при стемминге являются всевозможные изменения корня слова - беглые гласные, к примеру [1].

В качестве решения проблемы плохих результатов поиска со стеммером для русского языка можно использовать два дополнительных модуля грамматического словаря - лемматизатор и флексер (склонение и спряжение). С помощью лемматизатора можно приводить слова к базовой форме, поэтому после сопоставления слова со стемом можно уточнить результат с помощью лемматизации. Второй модуль - флексер, который умеет выдавать все грамматические формы слова на основе базовой. Это позволяет уточнять результаты поиска, проверяя найденные фрагменты по набору форм ключевого слова.

Самым распространенным алгоритмом стемминга является алгоритм Портера (Porter, 1980). Оригинальная версия этого алгоритма была только для английского языка, но впоследствии был создан проект «Snowball», в котором использовалась основная идея алгоритма, и реализованы стеммеры для большинства индоевропейских языков, включая русский.

текстовый документ автоматический классификация

Лемматизация

Это одна из прикладных дисциплин языкознания, она достаточно часто используется для морфологического анализа текстов, для чего все словоформы приводятся к их первоначальному виду [2]. В результате которой удаляются только флективные окончания и возвращается основная, или словарная, форма слова, называемая леммой.

В русском языке словарной формой считается:

Существительные - именительный падеж, единственное число (книгами - книга);

Глаголы - инфинитивная форма (читали - читать);

Прилагательные - единственное число, именительный падеж, мужской род (зарубежными - зарубежный);

Стоп-слова

Это слова, не несущие какой-либо самостоятельной смысловой нагрузки. В целях уменьшения базы данных системы не учитывают стоп-слова при индексировании, заменяя специальным маркером. К ним относятся:

Союзы и союзные слова

Местоимения

Предлоги

Частицы

Междометия

Указательные слова

Цифры

Знаки препинания

Вводные слова

А также ряд некоторых существительных, глаголов, наречий (например, сайт, давать, всегда, однако и др.)

В связи с постоянным развитием и усовершенствование существующих алгоритмов поиска, классификации, кластеризации и пр. базы данных стоп-слов обновляются и изменяются.

Рассмотренные способы повышения производительности и уменьшения размерности задачи далеко не все, которые существуют для обработки текстовой информации, но в большинстве случаев их хватает для подобных систем классификации.

Список литературы

1. http://www.solarix.ru/for_developers/api/stemmer.shtml (дата обращения: 09.04.2014)

2. http://searchenginez.ru/lemmatizaciya-chto-eto/ (дата обращения: 09.04.2014)

3. http://delaem-krasivo.ru/programmirovanie/234-stemming-i-lemmatizaciya.html (дата обращения: 09.04.2014)

4. Губин М.В., Морозов А.Б. Влияние морфологического анализа на качество информационного поиска// Консорциум «Кодекс». - 2006г. - С. 1-6.

Размещено на Allbest.ru

...

Подобные документы

  • Документационное обеспечение управления. На язык и стиль официальной документации распространяются законы составления служебных текстовых документов в аспекте официально-делового стиля речи. Требования к текстам документов. Ошибки в оформлении текстов.

    контрольная работа [30,5 K], добавлен 25.02.2009

  • Свойства, общие и специальные функции документов. Анализ организационно-распорядительной документации ООО "Атек". Цель и значение классификации документов предприятия, их распределение по группам на основе содержания, формы составления и других признаков.

    курсовая работа [31,6 K], добавлен 24.01.2012

  • Понятие документирования и классификации документов. Требования, предъявляемые к полноценному бухгалтерскому документу. Виды неполноценных документов. Формы нарушений и злоупотреблений при ведении бухгалтерского учета. Методы исследования учетных данных.

    презентация [980,7 K], добавлен 13.10.2016

  • Полный цикл обработки и движения документов с момента их создания до завершения исполнения и отправки. Экспертиза (оценка) научной и практической ценности документов. Описи и оформление дел. Описание документов постоянного и долговременного хранения.

    контрольная работа [24,4 K], добавлен 14.03.2009

  • Этапы и содержание комплектования документов в архивах. Подготовка и порядок передачи документов в архивы. Правила фондирования документов в архивах. Определение, основные задачи и этапы экспертизы ценности документов. Деятельность экспертных комиссий.

    контрольная работа [23,0 K], добавлен 03.06.2017

  • Правовая и нормативная база, регулирующая делопроизводство и документооборот в организации. Порядок приема и первоначальной обработки корреспонденции. Типовые и индивидуальные сроки исполнения документов. Делопроизводственная обработка документов.

    курсовая работа [55,0 K], добавлен 08.11.2013

  • Современная организация делопроизводства и методы классификации документов. Значение регистрации бумаг как способа придания им юридической силы, фиксирования факта их создания, отправления или получения. Контроль над сроками исполнения документов.

    курсовая работа [32,9 K], добавлен 11.02.2012

  • Описание технологических процессов обработки документной информации. Исследование правил и форм регистрации документов. Контроль за исполнением документов. Информационно-справочная работа. Специализированные программы автоматизации документооборота.

    контрольная работа [29,8 K], добавлен 25.06.2014

  • Первичные учетные документы и их назначение. Классификация первичных документов. Осуществление контроля и упорядочение обработки данных о хозяйственных операциях, графики документооборота. Сохранность первичных учетных документов на предприятии.

    контрольная работа [64,3 K], добавлен 14.01.2014

  • Исследование основных способов классификации управленческих документов. Характеристика этапов подготовки и оформления внутренних документов. Изучение документирования распорядительной, информационно-справочной и организационной деятельности организации.

    курсовая работа [46,8 K], добавлен 16.08.2011

  • Состав организационно-распорядительных документов. Количество печатных знаков на странице формата А4. Требования к официально-деловому стилю документов. Способы утверждения бумаг. Реквизиты, правила их расположения. Пример оформления распоряжения.

    контрольная работа [26,7 K], добавлен 26.05.2013

  • Требования к документообороту, обязательные для соблюдения во всех учреждениях. Этапы технологического процесса обработки и движения поступивших документов. Централизованная и децентрализованная регистрация корреспонденции, индексирование документов.

    контрольная работа [25,3 K], добавлен 29.06.2013

  • Понятие функции официальных документов, их разновидности и содержание. Состав обязательных реквизитов. Структура бланков документов. Основные стандарты, отражающие общие требования к составлению и оформлению наиболее распространенных документов.

    контрольная работа [25,4 K], добавлен 12.04.2014

  • Задачи службы делопроизводства, порядок регистрации документов. Организация документооборота в ГУ "1 отряд Федеральной противопожарной службы по Саратовской обл.". Формы регистрации документов и значение для оперативного принятия управленческих решений.

    курсовая работа [2,4 M], добавлен 12.01.2012

  • Основные факторы повышения эффективности управления коммерческой организацией. Использование в управлении информационных технологий, обладающих высокой, мобильностью. Создание, оформления и хранение деловых документов с помощью текстовых редакторов.

    реферат [23,1 K], добавлен 24.02.2011

  • Сущность и значение электронного документооборота, его влияние на повышение эффективности в процессе управления предприятием. Определение параллельной или последовательной схемы обработки документов. Классификация программ электронного документооборота.

    курсовая работа [57,7 K], добавлен 22.04.2014

  • Понятие об экспертизе ценности документов, критерии, задачи, принципы её проведения. Экспертизы ценности документов на этапе делопроизводства и в архиве организации, признаки группировки дел. Порядок приёма дел в архив. Функции экспертной комиссии.

    курсовая работа [44,5 K], добавлен 19.10.2016

  • Понятие "документирование", "юридическая сила документа"; бланки: форматы, виды. Формы представления текста; оформление реквизитов грифов, приказа, деловых писем, договора, протокола. Специфические технологии обработки конфиденциальных документов.

    контрольная работа [45,5 K], добавлен 03.03.2011

  • Значение и организация контроля исполнения документов. Краткая характеристика и анализ работы менеджера с документами на примере ООО "Тропа". Основные принципы профессии офис-менеджера и топ-менеджера. Основы обработки входящих и исходящих документов.

    курсовая работа [159,1 K], добавлен 23.02.2011

  • Способы сбора, анализа, обработки информации, а также легитимные возможности ее сбора. Анализ определения места и роль конкурентной разведки в обеспечении интересов бизнеса в Российской Федерации. Тактические, стратегические задачи конкурентной разведки.

    дипломная работа [86,8 K], добавлен 27.03.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.