Выделение ключевых слов для классификации текстов
Построение матрицы TF-IDF для классификации текстов по обозначенным категориям. Процесс преобразования исходных текстов для сокращения количества уникальных словоформ и получения списка ключевых термов: лемматизация, стемминг, удаление стоп-слов.
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | русский |
Дата добавления | 02.05.2022 |
Размер файла | 1,0 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Выделение ключевых слов для классификации текстов
Л. В. Мотовских
аспирант кафедры прикладной и экспериментальной лингвистики Московского государственного лингвистического университета
В статье описывается построение матрицы TF-IDF для классификации текстов по заранее обозначенным категориям. Подробно описывается процесс преобразования исходных текстов для сокращения количества уникальных словоформ и получения списка ключевых термов: лемматизация, стемминг, удаление стоп-слов с учетом специфики текстов в выборке. В качестве иллюстрации применения матрицы выступает размеченная по рубрикам выборка текстов электронного СМИ на русском языке и список из пяти ключевых слов в каждой категории.
Ключевые слова: классификация текстов; выделение ключевых слов; стемминг; стоп-слова; электронные СМИ.
ключевое слово стемминг
L. V. Motovskikh
Postgraduate student, Department of Applied and Experimental Linguistics, Moscow State Linguistic University
EXTRACTING KEyWORDS FOR TEXT CLASSIFICATION
The article focuses on the TF-IDF matrix construction for text classification into predefined categories. The author describes a tokenization process to reduce the number of unique terms and to extract keywords: lemmatization, stemming, removing of stop words (including specific terms of dataset). As an example, the author constructs a matrix using a dataset of Russian texts labeled according to the categories of the online media and a list of 5 keywords for each category.
Key words: text classification; extracting keywords; stemming; stop words; online media.
Введение
Ключевые слова - термины, которые содержат наиболее важную информацию [Kaur 2010]. Они служат удобным способом передачи содержимого текста в сжатой форме. Именно поэтому они используются для классификации текстов, полнотекстового поиска и для решения ряда других задач. От выделенных ключевых слов зависит точность передачи представленных в тексте тем [Wartena, Brussee, Slakhorst 2010].
Для выделения наиболее часто используемых термов в выборке документов используется статистическая мера TF-IDF. Значения TF- IDF для каждого терма в каждом документе заносятся в матрицу, где столбцы представлены встречающимися термами, а строки - документами. Перед составлением матрицы содержимое документов следует предварительно обработать: так уменьшается разрядность матрицы и увеличивается точность выделенных термов [Korenius 2004].
В статье описан процесс сбора, обработки и выделения ключевых слов с помощью матрицы TF-IDF на примере материалов электронного СМИ - ИТАР-ТАСС. Стоит отметить, что описанный процесс может быть использован и для других СМИ с небольшими модификациями в ходе процесса сбора материалов и их последующей обработки.
Сбор документов для выделения термов
Матрица TF-IDF показывает вес одного терма в одном документе в контексте определенной подвыборки документов. Чем выше это значение, тем чаще терм встречается в документе и тем реже он употребляется во всех документах подвыборки [Ramos 2003].
Применительно к задаче классификации текстов каждый исходный документ помечается индексом соответствующей категории, а затем происходит оценка каждого терма в рамках документа и категории. Полученная матрица используется для дальнейшей классификации других, еще не размеченных, текстов.
В данном случае использование текстов электронных СМИ достаточно удобно, так как материалы издания сразу публикуются на сайте в определенной категории. Иными словами, сохраняемые тексты автоматически получают разметку в виде индекса их категории.
Сбор документов происходил из пяти внутренних рубрик ТАСС, в которых количество материалов позволяет составить выборку достаточного объема: «Общество», «Экономика», «Политика», «Спорт», «Культура» [ТАСС URL]. При подборе статьей были проигнорированы материалы, которые были включены в менее крупные категории: «Москва», «Недвижимость» и др.
Для сбора первичных данных - текстов новостных статей - была написана программа на языке Go, которая сохраняла только статьи, представленные в форме текстовых информационных сообщений за определенный период времени. В результате было отобрано 9 399 статей за декабрь 2019 - январь 2020 года.
Каждой рубрике на сайте агентства соответствует уникальный идентификатор, который был использован как название категории документов. Количество статей в категориях приведено на рисунке 1.
При анализе длины текстов обнаружилось, что в материалы рубрик попадают не только новостные заметки, но и краткие информационные сообщения, состоящие из 1 предложения - ссылки на видеоролики, а также сводки об изменении ставки ЦБ РФ. Для улучшения качества выборки были удалены все статьи с длиной в символах, меньшей 5-го и большей 95-го перцентиля.
Преобразование полученных данных
В матрице TF-IDF столбцами выступают все уникальные термы, поэтому в исходном тексте каждая отдельная словоформа будет иметь собственный вес. Это приводит к появлению шумов при интерпретации матрицы. Для получения более точных значений весов и уменьшения размерности матрицы исходные тексты документов предварительно обрабатываются [Korenius 2004].
Рис. 1. Количественное распределение статей по категориям
Рис. 2. Распределение общего набора статей по длине в символах
Рис. 3. Распределение итогового набора статей по длине в символах
Первым шагом в обработке текстов было удаление знаков пунктуации: запятых, точек, кавычек, скобок и т. п. Стоит отметить, что из слов не был удален дефис: в словах с частицами -то, -либо, -нибудь или в сложных прилагательных, таких как франко-японский, русско- немецкий. Это бы привело к слиянию слов и искажению результатов последующей обработки.
Следующим шагом стала замена всех заглавных букв на строчные. Эта замена позволила уменьшить количество уникальных термов в двух случаях: для термов в начале предложения и для термов - имен собственных: Минздрав РФ.
Дальнейшим преобразованием стала лемматизация - приведение слов к их словарным формам. Для выявления лемм слов в русском языке была использована бесплатная библиотека MyStem для морфологического анализа [Сегалович, Маслов 1998]. Упомянутые выше слова с дефисами библиотека разделяла: например, кто-нибудь разделялось на кто и нибудь [Зобнин, Носырев 2015]. После этого дефисы удалялись из текста.
После этого из текстов были удалены «стоп-слова» - список из наиболее часто употребляемых местоимений, предлогов, союзов и частиц. Так, присутствие частицы не в тексте статьи не может достоверно свидетельствовать о включении статьи в ту или иную категорию. Отделенные частицы -то, -либо, -нибудь также были занесены в список стоп-слов и удалены.
Рис. 4. Диаграмма размаха итогового набора статей по длине в символах
Дополнительно в список стоп-слов, подлежащих удалению из текста статьи, были отнесены:
ТАСС - название информационного агентства (присутствует в подписи всех материалов);
млрд, млн, тыс. - словесные сокращенные формы числительных, стабильно попадающие в список наиболее часто употребляемых слов среди всех статей;
руб. - как наиболее частая единица измерения после чисел;
все числительные, выраженные цифрами: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9.
Заключительным преобразованием выступил стемминг - процесс выделения основы слова. Для этого был выбран наиболее часто используемый алгоритм Snowball, разработанный Мартином Портером для многих индоевропейских языков [Гращенко, Муравлев 2018]. В отличие от других алгоритмов стемминга, стемминг по Портеру использует не заранее известную базу слов, а работает с набором правил по обработке и определению приставок и суффиксов [Willett 2006]. Как следствие, алгоритм обладает высокой скоростью обработки текстов, но не всегда верно выделяет основу у слова.
Рассмотрим пример из статьи о новом законопроекте по сбору задолженностей из категории «Общество»: Министерство юстиции России предложило прописать в федеральном законе использование роботов-коллекторов для сбора задолженности с граждан с определенными ограничениями. В результате всех изложенных выше преобразований предложение сократилось до следующего ряда слов: министерств юстицросс предлага прописыва федеральн закон использован робот коллектор сбор задолжен гражданин определен ограничен.
Построение матрицы TF-IDF
Каждой категории из итогового набора обработанных текстов был проставлен соответствующий индекс (см. табл. 1). В результате было получено два массива: массив обработанных текстов статей и массив соответствующих им индексов категорий.
Полученные массивы были преобразованы в матрицу TF-IDF. При построении были отброшены 5 % наиболее редко и часто используемых в подвыборке термов. Термы, которые используются наиболее часто, могут выступать локальными для подвыборки стоп-словами, в то время как наиболее редко используемые термы могут привести к ухудшению качества будущей модели. В случае со СМИ представители первой группы выступают фразы-клише, речевые обороты, стилистические средства, характерные для издания, а представители второй группы - названия брендов или узкоспециализированная лексика, используемая в рамках определенной темы новостей.
Таблица 1
Индексы категорий
Категория |
Индекс |
|
Общество |
0 |
|
Экономика |
1 |
|
Политика |
2 |
|
Спорт |
3 |
|
Культура |
4 |
С помощью критерия х2 были отобраны термы, имеющие наиболее высокую нелинейную корреляцию с меткой категории. При указанных выше параметрах N-граммы при N = 1 составили:
Экономика: рост, обь, рубл, рынок, компан;
Культура: режиссер, муз, фестивал, фильм, театр;
Общество: город, жител, матч, человек, ребенок;
Политика: политическ, президент, государств, путин, мид;
Спорт: очк, сборн, команд, чемпионат, матч.
Таким образом, для имеющихся документов была построена матрица TF-IDF, упорядоченную по весу термов в каждой категории. Стоит отметить терм «обь» в категории «Экономика»: именно эту форму выдает стеммер Портера для часто встречающегося слова объем из статей по экономике. Появление в этом списке термов «путин» и «мид» из категории «политика» обусловлено редакционной политикой агентства, ориентированной на более подробный анализ событий, непосредственно связанных с РФ.
Заключение
В статье было описано устройство матрицы TF-IDF, возможность ее применения для классификации текстов, а также необходимые операции для уменьшения ее размерности и удаления шумов. Так, при наличии размеченных по категориям текстов возможно составление списка термов, в наибольшей степени влияющих на отнесение текста в соответствующую категорию.
Стоит отметить, что хотя полученная матрица слов содержит результаты анализа одного источника данных, она может быть использована для дальнейших исследований и последующей классификации неразмеченных текстов других СМИ.
Список литературы / references
Гращенко Л. А., Муравлев В. А. Snowforce: быстрый стеммер для русского языка // Новые информационные технологии в автоматизированных системах. 2018. № 21. [Grashenko, L. A., Muravlev, V. A. (2018). Snowforce: quick stemmer for Russian. New Information Technologies in Automated Systems. 21. (In Russ.)].
Зобнин А. И., Носырев Г. В. Морфологический анализатор MyStem 3.0 // Труды Института русского языка им. В. В. Виноградова. 2015. № 6. С. 300-310. [Zobnin, A. I., Nosyrev, G. V (2015). MyStem 3.0 Morphological Analyzer. V. V. Vinogradov Institute of Russian, 6, 300-310. (In Russ.)].
Сегалович И. В., Маслов М. Ю. Русский морфологический анализ и синтез с генерацией моделей словоизменения для не описанных в словаре слов // Труды международного семинара Диалог. 1998. Т 98. С. 547-552. [Segalovich, I. V., Maslov, M. U. (1998). Russkij morfologicheskij analiz i sintez s generatsiej modelej slovoizmeneniya dlya ne opisannykh v slovare slov. (Russian Morphologic Analysis and Synthesis with Generation of Word Transformation Models not Described in Dictionaries). Vol. 98. Moscow: Dialogue. (In Russ.)].
Kaur J., Gupta V Effective approaches for extraction of keywords // International Journal of Computer Science Issues (IJCSI). 2010. Т 7. № 6. С. 144.
Korenius T. et al. Stemming and lemmatization in the clustering of Finnish text documents // Proceedings of the thirteenth ACM international conference on Information and knowledge management. 2004. С. 625-633.
Ramos J. et al. Using tf-idf to determine word relevance in document queries // Proceedings of the first instructional conference on machine learning. 2003. Т 242.
Wartena C., Brussee R., Slakhorst W Keyword extraction using word cooccurrence // 2010 Workshops on Database and Expert Systems Applications. IEEE, 2010. С. 54-58.
Willett P. The Porter stemming algorithm: then and now // Program. 2006.
Размещено на Allbest.ru
...Подобные документы
Построение лексико-семантической и морфолого-синтаксической классификации бизнес-терминологии. Выявление специфики ее функционирования. Описание особенностей текстов, содержащих бизнес-терминологию. Выработка рекомендаций по редактированию текстов.
дипломная работа [44,9 K], добавлен 23.03.2015Место текстов газетно-публицистического стиля в классификации текстов у лингвистов, определение их особенностей. Классификации фразеологических единиц, возможные трансформации. Анализ способов перевода французских фразеологических единиц на русский язык.
курсовая работа [30,8 K], добавлен 13.11.2011Факторы речевой организации текста. Характеристика текста как особой речевой единицы. Основные типы текстов. Построение текстов различных стилей. Особенности построения текстов в научном, публицистическом, официально-деловом и художественном стилях.
курсовая работа [46,9 K], добавлен 22.05.2015Характеристика и классификация рекламных текстов, их лексические и синтаксические особенности. Сравнительный анализ англоязычных и русскоязычных рекламных текстов. Разработка урока в рамках темы "Mass Media" на основе проанализированных рекламных текстов.
дипломная работа [4,4 M], добавлен 14.02.2013Значение диалектизмов, профессионализмов, жаргонизмов, слов с книжной и разговорной окраской. Анализ текстов разных стилей. Библиографическое описание книги, статьи, документа. Составление аннотации и рецензии. Примеры употребления фразеологизмов.
контрольная работа [39,1 K], добавлен 25.10.2013Понятия "содержание" и "форма" при переводе музыкально-поэтических текстов. Сопоставительный анализ текстов оригинала (подлинника) и перевода. Лексические и грамматические трансформации при переводе музыкально-поэтических текстов песен Джона Леннона.
дипломная работа [174,2 K], добавлен 09.07.2015Перевод текстов с английского на русский язык, подбор слов-аналогов в русском языке. Выделение сказуемых и определение их видовременных форм. Функции инфинитива и герундия, выделение в предложениях причастий, границ главных и придаточных предложений.
контрольная работа [15,3 K], добавлен 29.01.2010Теоретическое исследование вопроса перевода многозначных слов на примере газетных текстов. Многозначные слова в русском и английском языках. Особенности газетно-информационных текстов. Изучение закономерных соответствий между конкретными парами языков.
дипломная работа [142,1 K], добавлен 06.06.2015Газетнo-публицистический cтиль кaк система пропаганды и агитации. Осoбенность ключевых слов в немецком политическом языке. Использование политического дискурса в коммуникации. Пoлитический диcкурс как сфера функционирования ключевых слов политики.
дипломная работа [45,4 K], добавлен 06.08.2017Структурно-содержательные особенности медийных текстов. Характеристика современного медиадискурса. Анализ синтагматических и лингвостилистических особенностей корпуса текстов группы передовых редакторских статей в качественной и популярной прессе.
дипломная работа [76,6 K], добавлен 29.03.2016Категория побудительности в языковедении. Анализ особенностей предписывающих немецких текстов на примере рекламы. Изучение текстов директивно-регулятивного типа, их места в системе речевой коммуникации. Немецко-русский перевод предписывающих текстов.
курсовая работа [33,0 K], добавлен 10.04.2013Трудности перевода поэтических текстов, понятие переводческой трансформации. Применение переводческих трансформаций при переводе с русского языка на японский на примере песни "Катюша". Трансформации по классификации В.Н. Комиссарова и А.Д. Швейцера.
курсовая работа [42,9 K], добавлен 10.11.2012Становление теории вторичных текстов (ВТ), их классификация. Понятие ВТ как построенного на основе текста-источника с другими прагматическими целями и в другой коммуникативной ситуации. Сохранение в ВТ элементов когнитивно-семантической структуры текста.
статья [37,4 K], добавлен 23.07.2013Классификация, характерные и стилистические особенности рекламных текстов. Приемы параллелизма и повтора. Наиболее частые трудности, возникающие при переводе рекламных текстов. Интересные примеры перевода из публицистической продукции и сети Интернет.
курсовая работа [46,8 K], добавлен 18.04.2011"Метаязык" как понятие в лингвистике и переводоведении. Особенности научного стиля и обзор классификаций текстов. Жанр телепередач и прагматический аспект перевода научных текстов. Особенности перевода французских текстов научно-популярного подстиля.
курсовая работа [44,2 K], добавлен 06.03.2015Художественный перевод трех текстов с английского языка на русский. Особенности получения высшего образования в Великобритании. Биография и путь к науке А. Эйнштейна. Основные моменты обучения в Хабаровском институте железнодорожного машиностроения.
контрольная работа [20,9 K], добавлен 30.10.2009Изучение лексико-грамматических и стилистических особенностей перевода военных текстов. Текстуальные категории военных текстов. Выявление специфических приемов перевода, используемых для передачи текстов военного характера с английского языка на русский.
дипломная работа [94,1 K], добавлен 20.05.2015Рекламные тексты, их классификация. Лингвостилистические особенности рекламных текстов. Определение понятия "аллюзия". Виды, механизм действия аллюзий. Аллюзии в английской и американской рекламе. Анализ англоязычных рекламных текстов на наличие аллюзий.
научная работа [71,7 K], добавлен 25.02.2009Классификация рекламных текстов. Стилистическое средство как способ передачи выразительности. Методы передачи средств экспрессивности в рекламном тексте. Типология стилистических средств. Анализ перевода английских рекламных текстов на русский язык.
дипломная работа [77,5 K], добавлен 13.04.2015Черты научного стиля, которые отличают его от других стилей английского языка. Функции и признаки текстов научного стиля, их разновидности. Исследование основных лексических, грамматических и стилистических особенностей текстов английской научной речи.
курсовая работа [603,0 K], добавлен 21.04.2015