Основные этапы обработки текста и генерации признаков в задачах текстовой классификации

Этапы проведения обработки текстовых признаков в задачах интеллектуального анализа данных. Процедура генерации информативных факторов. Операции стемминга, формирования мешка слов, формирования статистики TF-IDF. Методы сокращения пространства признаков.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 05.07.2018
Размер файла 138,9 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Основные этапы обработки текста и генерации признаков в задачах текстовой классификации

Скороходов И. С.1, Тихомирова А. Н.2

1Скороходов Иван Сергеевич / Skorokhodov Ivan - бакалавр менеджмента, магистрант, кафедра экономики и менеджмента в промышленности, факультет управления и экономики высоких технологий;

2Тихомирова Анна Николаевна / Tikhomirova Anna - кандидат технических наук, доцент, кафедра кибернетики, факультет кибернетики,

Федеральное государственное автономное образовательное учреждение высшего образования, Национальный исследовательский ядерный университет, Московский инженерно-физический институт, г. Москва

Аннотация

В данной работе исследуются основные этапы проведения обработки текстовых признаков в задачах интеллектуального анализа данных, а также процедуры генерации информативных факторов. Среди них рассматриваются операции стемминга, лемматизации, формирования мешка слов, формирования статистики TF-IDF, а также методы сокращения пространства признаков.

Ключевые слова: интеллектуальный анализ данных, текстовые признаки, компьютерная лингвистика, обработка данных, генерация признаков.

Key stages of text processing and feature generation in text classification

Skorokhodov I.1, Tikhomirova A.2

Abstract: in this paper we investigate key stages of text features processing, which are typically used in data mining tasks, as well as describe main procedures of generating informative factors. Among them we depict such operations as stemming, lemmatization, bag of words and TF-IDF metrics generation and methods to reduce feature space.

Keywords: data mining, text features, computational linguistics, data processing, feature generation.

обработка текстовый признак информативный

Подготовка данных тесно связана с моделированием и оценкой качества модели, так как в процессе каждого из последующих этапов может обнаружиться информация, которая может быть использована для повышения точности предсказаний [1].

Ключевая цель подготовки данных и генерации признаков -- это преобразовать свойства объектов таким образом, чтобы алгоритм смог понять различия между ними и увидеть закономерность, которая порождает их распределение [2].

В общем случае обработка сырых текстовых данных состоит из трех последовательных этапов: устранение грамматических и лексических ошибок, лемматизация и стемминг.

Устранение грамматических и лексических ошибок -- это крайне сложная процедура, изучением которой занимается целое направление компьютерной лингвистики [3]. Алгоритм работы должен знать не только правила нужного языка, но и множество исключений. Разработка программного обеспечения требует квалифицированной команды лингвистов и специалистов по машинному обучению. Поэтому на сегодняшний день самый качественный способ провести подобную процедуру для небольших исследовательских задач -- это воспользоваться продуктами крупных компаний.

Одна из самых сложных задач в проектах машинного обучения, связанных с обработкой естественного языка, это понимание семантики слов, точнее, генерация признаков таким образом, чтобы алгоритм имел возможность различать понятия, а не наборы букв.

Стемминг -- это процесс нахождения основы слова для заданного исходного слова. Основа слова необязательно совпадает с его морфологическим корнем [4].

Для обработки текста на английском языке самыми популярными стеммерами являются стеммер Портера, Snowball-стеммер и стеммер Ланкастера [5]. Snowball-стеммер является улучшением мягкого стеммера Портера. Стеммер Ланкастера -- наиболее агрессивный среди перечисленных стеммеров, но, благодаря этому, он более производителен. Лемматизация (в компьютерной лингвистике) -- это процесс определения леммы слова [6], то есть канонической, основной его формы. Лемматизация является более сложной процедурой, чем стемминг, так как выявление леммы слова должно основываться на контексте. Например, слово «meeting» может быть как глаголом, так и существительным. Также лемматизация оставляет больше различий между словами. Сравнение стемминга с лемматизацией на примере предложения «A cat in gloves catches no mice» представлено в таблице 1.

Таблица 1. Пример стемминга и лемматизации

Изначальное слово

Слово после лемматизации

Слово после обработки Snowball-

стеммером

A

a

A

cat

cat

Cat

in

in

in

gloves

glove

glove

catches

catch

catch

no

no

no

mice

mice

mouse

Как видно из примера в таблице 1, лемматизация и стемминг достаточно по-разному ведут себя на одних и тех же словах. В некоторых задачах отличия стемминга от преимущества могут быть преимуществом, а в некоторых -- наоборот. Поэтому зачастую используют оба подхода для того, чтобы проверить на практике, какой из них сработает лучше [7].

Извлечение признаков -- это процесс построения информативных признаков из исходных, которые в будущем приведут к более быстрому обучению или могут лучше интерпретироваться [8].

Генерация признаков -- это процесс и процедура создания и извлечения числовых признаков из сырых данных, которые можно подать на вход какой-либо модели для обучения.

Качественные признаки должны простым образом отражать «закон природы», который обеспечивает их распределение. В задачах, связанных с обработкой естественного языка, существует набор стандартных практик для генерации признаков. К ним относят удаление шумовых слов, создание мешка слов и использование TF-IDF.

Шумовые слова (или стоп-слова) -- термин из теории поиска информации по ключевым словам [9]. Это такие слова, знаки, символы, которые самостоятельно не несут никакой смысловой нагрузки, но которые, тем не менее, совершенно необходимы для нормального восприятия текста, его целостности.

Шумовые слова могут делиться на общие и зависимые. К общим можно отнести предлоги, суффиксы, причастия, междометия, цифры, частицы и т. п.

Общие шумовые слова всегда исключаются из поискового запроса (за исключением поиска по строгому соответствию поисковой фразы). Считается, что каждое из общих стоп-слов есть почти во всех документах коллекции.

Зависимые шумовые слова зависят относительно поисковой фразы. Идея заключается в том, чтобы по-разному учитывать отсутствие просто слов из запроса и зависимых стоп-слов из запроса в найденном документе.

Шумовые слова не несут в себе практически никакой смысловой нагрузки, следовательно, не являются важным подпространством для нахождения закономерности. Поэтому удаление шумовых слов обеспечивает более быструю сходимость [10].

В задачах, связанных с обработкой естественного языка, основными признаками являются словесные. Основной способ формирования признаков из слов -- это представление всех слов в виде так называемого «мешка». Суть мешка слов заключается в кодировании всех слов выборки в единый словарь и создания пространства дихотомических или порядковых переменных, каждое измерение в котором отражает количество раз, какое слово с данным индексом встретилось в документе:

где -- это множество слов в объекте , -- количество объектов.

Размерность признакового пространства при этом становится равной количеству уникальных нешумовых слов во всей выборке, а матрица признаков становится сильно разреженной. Обработка большого количества признаков является вычислительно очень трудоемкой задачей, поэтому перед обучениям применяются различные методы понижения размерности. Также разреженность признаков стоит учитывать при выборе численных методов нахождения оптимального значения функционала качества.

Во многих задачах значение имеет то, насколько часто те или иные слова встречаются в различных документах. Это обуславливается тем фактом, что именно редко встречаемые слова и характеризуют объект -- общеупотребимые слова обычно служат в качестве «обвязки» речи. Для того чтобы добавить вес редким терминам и понизить веса общих слов, используют метрику TF-IDF. TF-IDF -- (от англ. TF -- term frequency, IDF -- inverse document frequency) -- статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален количеству употребления этого слова в документе и обратно пропорционален частоте употребления слова в других документах коллекции.

TF (term frequency -- частота слова) -- отношение числа вхождения некоторого слова к общему количеству слов документа. Таким образом, оценивается важность слова в пределах отдельного документа.

(2)

где:

• -- это число вхождений слова в документ,

• -- общее число слов в данном документе.

IDF (inverse document frequency -- обратная частота документа) -- инверсия частоты, с которой некоторое слово встречается в документах коллекции. Учёт IDF уменьшает вес широкоупотребительных слов. Для каждого уникального слова в пределах конкретной коллекции документов существует только одно значение IDF.

(3)

где:

• -- количество документов в корпусе; ?

• -- количество документов, в которых встречается (когда ).

Выбор основания логарифма в формуле не имеет значения, поскольку изменение основания приводит к изменению веса каждого слова на постоянный множитель, что не влияет на соотношение весов.

Таким образом, мера TF-IDF является произведением двух сомножителей:

(4)

Большой вес в TF-IDF получат слова с высокой частотой в пределах конкретного документа и с низкой частотой употреблений в других документах. Таким образом, TF-IDF является улучшением мешка слов.

Подобное преобразование текста в числовые признаки позволяет алгоритму воспринимать сходство и различие между объектами и искать зависимости в данных на их основе.

Матрица признаков, получаемая после создания мешка слов, получается крайне большой:

размерность пространства равна количеству уникальных слов в имеющемся корпусе:

где:

• -- размерность итогового пространства признаков;

• -- количество исходных текстовых описаний объекта; ? -- количество объектов в выборке;

• -ое текстовое свойство i-ого объекта.

С учетом того, что матрица сильно разрежена, ее использование в исходном виде становится еще более нецелесообразным. Поэтому прибегают к латентно-семантическому анализу, который позволяет на основе выявляемых между текстами и словами взаимосвязей отбирать только самые важные признаки.

Латентно-семантический анализ можно сравнить с простым видом нейросети, состоящей из трех слоев: первый слой содержит множество слов, второй -- некое множество документов, соответствующих определенным ситуациям, а третий, средний - скрытый слой представляет собой множество узлов с различными весовыми коэффициентами, связывающих первый и второй слои.

Наиболее распространенный вариант латентно-семантического анализа основан на использовании разложения диагональной матрицы по сингулярным значениям. С помощью сингулярного разложения любая матрица раскладывается во множество ортогональных матриц, линейная комбинация которых является достаточно точным приближением к исходной матрице.

Согласно теореме о сингулярном разложении, любая вещественная прямоугольная матрица может быть разложена на произведение трех матриц:

где матрицы и - ортогональные, а - диагональная матрица сингулярных значений матрицы .

Основная особенность сингулярного разложения заключается в том, что, согласно теореме Эккарта-Янга, если в матрице оставить только наибольших сингулярных значений, а в матрицах и -- только соответствующие этим значениям столбцы, то произведение получившихся матриц , и будет наилучшим приближением исходной матрицы к матрице ранга :

(6)

Таким образом, мы можем сократить исходное пространство фактически до любого размера, регулируя гиперпараметр . Основная сложность данной процедуры заключается в нахождении баланса между сохраняемой дисперсией распределения, часть которой жертвуется для того, чтобы сократить время обучения модели и размер потребляемой памяти на хранение и использование исходного пространства признаков.

В задачах машинного обучения, связанных с обработкой естественного языка, зачастую пространство признаков расширяют различными эвристическими статистиками, так как они могут скрывать в себе важную информацию об объекте, которую крайне сложно выявить алгоритму на основе векторных значений описаний. К подобным признакам относят длину текста, отношение длины запроса к длине заголовка и так далее. Количество подобных признаков, как правило, не сильно влияет на скорость обучения модели, так как их число практически всегда остается крайне малым в сравнении с числом признаков, полученных из слов, которое, в свою очередь, может достигать сотен тысяч.

Таким образом, благодаря рассмотренным процедурам обработки текста и генерации признаков, можно добиться высокого качества построения модели и ее быстрой сходимости.

Литература

1. Shearer C. The CRISP-DM model: the new blueprint for data mining, 2000.

2. Evgeniy Gabrilovich, Shaul Markovitch. Feature generation for text categorization using world knowledge. 2005.

3. Jan Busta, Dana Hlavackova, Milos Jakubicek, and Karel Pala. Classification of errors in text.

4. Dawson J. L. (1974); Suffix Removal for Word Conflation, Bulletin of the Association for Literary and Linguistic Computing.

5. Ms. Anjali Ganesh Jivani. A comparative study of stemming algorithms.

6. Lemmatisation - wikipedia, the free encyclopedia. https://en.wikipedia. org/wiki/Lemmatisation.

7. Vimala Balakrishnan and Ethel Lloyd-Yemoh Stemming and lemmatization: A comparison of retrieval performances. IACSIT, 2014.

8. Feature extraction - wikipedia, the free encyclopedia. https://en. wikipedia.org/wiki/Feature_extraction.

9. Шумовые слова - Википедия. https://ru.wikipedia.org/wiki/Шумовые_слова.

10. Pablo A. Estevez, Michel Tesmer Claudio A. Perez, and Jacek M. Zurada Normalized mutual information feature selection. IEEE, 2009.

Размещено на Allbest.ru

...

Подобные документы

  • Текстовый редактор - приложение для обработки текстовой информации. Описание текстовых процессоров как более совершенных текстовых редакторов. Типы текстовых файлов: форматированные, неформатированные. Основные правила редактирования и набора текста.

    презентация [747,3 K], добавлен 26.11.2010

  • Методы обработки изображений. Представление изображения в форматах RGB и HSB. Экономическая эффективность разработки и внедрения программного обеспечения подсистем обработки и выделения текстильных волокон. Защита оператора ЭВМ от вредных факторов.

    дипломная работа [287,2 K], добавлен 19.06.2010

  • Разработка структуры базы данных. Этапы разработки информационной системы. Моделирование сигналов в MatLab. Обмен данными в SQL-сервером. Генерация схемы базы данных для целевой СУБД. Редактирование параметров таблицы. Установка параметров генерации.

    курсовая работа [5,3 M], добавлен 01.02.2013

  • Программы работы с текстами: MS-DOS Editor, Word Pad, блокнот, word, текстовый процессор. Редакторы для обработки документов. Стили форматирования. Двоичное кодирование текстовой информации в компьютере. Операции технологического процесса ее обработки.

    курсовая работа [324,0 K], добавлен 25.04.2013

  • Перспективные направления анализа данных: анализ текстовой информации, интеллектуальный анализ данных. Анализ структурированной информации, хранящейся в базах данных. Процесс анализа текстовых документов. Особенности предварительной обработки данных.

    реферат [443,2 K], добавлен 13.02.2014

  • Классификация текстовых редакторов и процессоров. Способы хранения текста в файле. Форматирование документа и его редактирование. Среда текстового редактора. Автоматическая проверка орфографии и синтаксиса текста, автотекст, автозамена, гипертекст.

    курсовая работа [35,0 K], добавлен 25.04.2013

  • Описание формата и структуры входных и выходных файлов. Выбор языка программирования и Perl модуля для генерации документов в формате pdf. Валидация почтового адреса. Процесс создания алгоритма обработки данных. Структура штрихкодового идентификатора.

    дипломная работа [1,6 M], добавлен 04.11.2015

  • Возможности создания и обработки графики. Алгоритм шифрования текста в графику. Изменения цветовых каналов. Инициализация объектов html-сущностей. Формирование декодированной строки. Инструменты для обработки массивов, текстовых данных и графики.

    курсовая работа [50,5 K], добавлен 26.11.2013

  • Характеристика средств обработки текстовой информации, способы редактирования и форматирования документов. Порядок создания списков и таблиц, проверка орфографии и синтаксиса текста. Выбор формата файла. Работа в табличном процессоре Microsoft Excel.

    курсовая работа [411,1 K], добавлен 27.04.2013

  • Обработка текстовой информации на компьютере. Знакомство с текстовым процессором Microsoft Word. Создание, форматирование текстовых документов, выполнение операций с фрагментами текста. Копирование, перемещение, удаление. Создание и редактирование таблиц.

    лабораторная работа [672,8 K], добавлен 19.12.2013

  • Классификация и возможности текстовых редакторов, их основные элементы: рабочее поле, курсор, строка состояния и меню, полосы прокрутки, панель инструментов. Форматирование текста, проверка орфографии и синтаксиса. Создание гипертекстового документа.

    курсовая работа [3,6 M], добавлен 27.04.2013

  • Система компьютерной обработки данных для сбора, систематизации, статистической обработки, анализа результатов учебного процесса за четверть, полугодие, год. Модуль обработки данных о качестве обучения, итогов успеваемости и данных о движении учащихся.

    реферат [22,5 K], добавлен 05.02.2011

  • Общее название программных средств, предназначенных для создания, редактирования и форматирования простых и комплексных текстовых документов - системы обработки текста. Текстовый редактор MS-DOS Editor. Текстовый процессор WordPad, Microsoft Word.

    презентация [58,5 K], добавлен 06.01.2014

  • Обработка текстовых данных, хранящихся в файле. Задачи и алгоритмы обработки больших массивов действительных и натуральных чисел. Практические задачи по алгоритмам обработки данных. Решение задачи о пяти ферзях. Программа, которая реализует сортировку Шел

    курсовая работа [29,2 K], добавлен 09.02.2011

  • Классификация программ обработки текстовых документов. Общие принципы оформления издания. Правила набора текста. Системы распознавания текста (OCR). Комплекс программного обеспечения для настольных издательских систем. Примеры текстовых редакторов.

    презентация [75,0 K], добавлен 13.08.2013

  • Исследование производительности труда методом компонентного и кластерного анализов. Выбор значащих главных компонент. Формирование кластеров. Построение дендрограммы и диаграммы рассеивания. Правила кластеризации в пространстве исходных признаков.

    лабораторная работа [998,9 K], добавлен 25.11.2014

  • Разработка программно-аппаратного комплекса на базе ПЭВМ типа Pentium IV, включающего в себя периферийное устройство для генерации сигнала в виде напряжения, меняющегося во времени, и программного обеспечения для управления процессом генерации.

    дипломная работа [3,0 M], добавлен 30.06.2012

  • Классификация и возможности текстовых редакторов. Среда текстового редактора Microsoft Word 2003. Процесс редактирования текста, его копирование и перемещение. Проверка орфографии и синтаксиса, автотекст и автозамена. Пример гипертекстового документа.

    курсовая работа [2,4 M], добавлен 25.04.2013

  • Обзор моделей анализа и синтеза модульных систем обработки данных. Модели и методы решения задач дискретного программирования при проектировании. Декомпозиция прикладных задач и документов систем обработки данных на этапе технического проектирования.

    диссертация [423,1 K], добавлен 07.12.2010

  • Основные средства и технологии обработки и редактирования текстовых документов, принципы их использования. Характеристика функциональных возможностей текстового процессора Ms. Word. Описание дополнительных возможностей текстового редактора Word 2003.

    курсовая работа [1,4 M], добавлен 19.03.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.