Классификация медиа-текстов с использованием машинного обучения

Описание применения алгоритмов random forest ("случайный лес") и support vector machine (метод опорных векторов) для классификации текстов новостных изданий. Поиск оптимальных параметров для работы алгоритмов с помощью случайного поиска и поиска по сетке.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 01.05.2022
Размер файла 18,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

КЛАССИФИКАЦИЯ МЕДИА-ТЕКСТОВ С ИСПОЛЬЗОВАНИЕМ МАШИННОГО ОБУЧЕНИЯ

Л.В. Мотовских,

аспирант кафедры прикладной и экспериментальной лингвистики Московского государственного лингвистического университета

Аннотация

В статье описывается применение алгоритмов random forest («случайный лес») и support vector machine (метод опорных векторов) из библиотеки scikit для классификации текстов новостных изданий. Поиск оптимальных параметров для работы алгоритмов производится с помощью случайного поиска и поиска по сетке. Набором статей для обучения выступает выборка текстов новостного агентства ИТАР-ТАСС. Классификация производится на основе терм-документной матрицы TF-IDF, построенной по статьям из выборки текстов.

Ключевые слова: классификация текстов; TF-IDF; «случайный лес»; метод опорных векторов; электронные СМИ.

Abstract

V. Motovskikh, PhD Student, Department of Applied and Experimental Linguistics, Moscow State Linguistic University.

MEDIATEXTS CLASSIFICATION USING MACHINE LEARNING.

The article focuses on the usage of random forest and support vector machine algorithms from the scikit library for classification of mediatexts. The author describes the search for optimal values using random search and grid search. Initial set of articles for model training is gathered from the Russian news agency ITAR-TASS. To fit and transform texts for the classification algorithms a term-document matrix TF-IDF is used.

Keywords: text classification; TF-IDF; random forest; support vector machine; online media.

Введение

Методы машинного обучения успешно применяются для автоматизации работы с большими наборами текстов, в частности, они используются для решения задач классификации текстов различных жанров, таких как научного [Ломотин и др. 2017] и юридического характера [Sulea et al. 2017].

Область применения методов машинного обучения распространяется также на жанр медиа-текстов. Более того, они используются для решения задач сентимент-анализа [Зверева 2014] или выделения скрытых тем [Vargas-Calderon et al. 2019] медиатекстов.

В статье описывается использование методов машинного обучения для автоматической классификации медиа-текстов. В частности, рассматривается применение и получение результатов классификации с помощью метода опорных векторов (support vector machine) и алгоритма «случайный лес» (random forest).

Подготовка выборки

В качестве источника медиа-текстов был использован набор статей из пяти внутренних рубрик агентства ИТАР-ТАСС, обладающего большим массивом материалов: «общество», «экономика», «политика», «спорт», «культура» (tass.ru). После предварительной оценки длины статей в символах 5 % наименее и наиболее объемных статей были удалены из выборки. В итоговую выборку попало 8 453 статьи, каждая из которой однозначно соответствует одной из пяти указанных ранее рубрик.

Общая выборка статей была разделена на две подвыборки в соотношении 85:15. В абсолютных числах объемы подвыборок составили 7 185 и 1 268 статей соответственно. Первая подвыборка была использована для обучения модели, вторая - для проверки ее работы.

Так как оба алгоритма классификации принимают на вход числовые данные, содержимое статей требовалось преобразовать в числовую форму. Для этого на основе собранных текстов была сформирована терм-документная матрица TF-IDF, использующаяся в качестве статистической меры выделения наиболее часто используемых термов в наборе текстов.

В матрице TF-IDF столбцы образуют все уникальные термы, поэтому в исходном тексте каждая отдельная словоформа будет иметь собственный вес. Для получения более точных значений весов и уменьшения размерности матрицы исходные тексты документов предварительно обрабатываются [Korenius et al. 2004]. Способами преобразования могут выступать лемматизация, стемминг и удаление стоп-слов. Более подробно процесс обработки исходных текстов описан в статье, посвященной формированию выборки статей [Мотовских 2020].

Применение алгоритмов к матрице TF-IDF

Random forest, или «случайный лес», - алгоритм машинного обучения, работающий на основе регрессионных деревьев. Каждому дереву дается для обучения классификации небольшой набор случайных элементов из подвыборки. После обучения классификация происходит путем голосования: новым данным присваивается тот класс, за который проголосует большинство деревьев [Garreta, Moncecchi 2013].

Каждый экземпляр классификатора «случайный лес» инициализируется с определенными параметрами, влияющими на качество предсказаний. Для построения первого набора классификаторов параметры принимали следующие значения:

• использование метода Bootstrap, флаг 0 или 1;

• максимальная глубина дерева: 20, 40, 60, 80, 100 узлов или без ограничений;

• минимальное число элементов в листовой вершине: 1, 2 или 4;

• минимальное число элементов для разделения узла: 2, 5 или 10;

• количество деревьев: 200, 400, 600, 800 или 1000.

Общее количество возможных классификаторов для всех возможных значений параметров - 540. Так как перебор моделей со всеми возможными сочетаниями параметров может быть неэффективным с точки зрения затраченных ресурсов, для поиска наилучшей модели используется метод случайного поиска с ограниченным количеством операций [Bergstra, Bengio 2013]. Критерием для отбора лучшей модели выступает ее точность предсказания на тестовой выборке.

В работе случайным образом было отобрано 50 моделей с разным набором параметров, наилучший результат из которых показала модель с параметрами: 1; 60; 1; 10; 1000 и точностью 84 %. Точность предсказаний категорий на тестовой подвыборке составила 86 %. Для улучшения точности модели был использован поиск новых параметров по сетке.

В отличие от случайного поиска, поиск по сетке параметров перебирает все возможные наборы параметров и выбирает среди них лучшие. На основе полученных ранее значений параметры были оптимизированы следующим образом:

• метод Bootstrap не использовался ни разу, флаг всегда равен 0;

• максимальная глубина дерева: 50, 60 или 70 узлов;

• минимальное число элементов в листовой вершине: 1, 2 или 4;

• минимальное число элементов для разделения узла: 5, 10 или 15;

• количество деревьев: 900, 950, 1000, 1050 и 1100.

Лучший результат со средней точностью 85 % показала модель с набором параметров: 0; 70; 1; 5; 900. Точность предсказаний категорий на тестовой подвыборке составила 86 %.

Метод опорных векторов - набор алгоритмов машинного обучения, в основе которых лежит принцип разделения подвыборки на несколько гиперплоскостей так, что элементы разных классов находятся от оптимальной гиперплоскости на максимально возможном расстоянии. Предсказанием алгоритма в таком случае будет положение элемента относительно оптимальной гиперплоскости [Garreta, Moncecchi 2013].

Так же как и для алгоритма «случайный лес», для первичного набора значений параметров был использован метод случайного поиска. Для этого настраивались следующие параметры:

• параметр регуляризации: 0,0001, 0,001 или 0,01.

• ядро алгоритма: линейная, базисная или полиномиальная функция, 0, 1 или 2 соответственно.

• коэффициент для ядра функции: 0,0001, 0,001, 0,01, 0,1, 1, 10 или 100.

• степень полинома: 1, 2, 3, 4 или 5.

Лучший результат со средней точностью 85 % показала модель с набором параметров: 0,01; 2; 10; 3. Точность предсказаний категорий на тестовой подвыборке составила 86 %.

Для улучшения качества модели также был использован поиск по сетке параметров. Новые значения составили:

• параметр регуляризации: 0,01, 0,1, 1, 10.

• ядро алгоритма: использовать полиномиальную функцию, всегда 2.

• коэффициент для ядра функции: 1, 10 или 100.

• степень полинома: 2, 3 или 4.

В результате была найдена модель с параметрами: 0,01; 2; 10; 2 со средней точностью 86 %. Точность предсказаний категорий на тестовой подвыборке составила 88 %.

Таким образом, наилучшим полученным классификатором оказалась модель на основе метода опорных векторов с параметрами: 0,01; 2; 10; 2. Она же и была использована для точечной классификации материалов из дальнейших источников.

В качестве дополнительной точечной проверки модели классификатора были использованы четыре статьи из похожих рубрик, но другого новостного издания и временного периода. Ими стали: «Победа Хабиба Нурмагомедова» из рубрики «Спорт», «Ошибки художников по костюмам в фильмах СССР» из рубрики «Культура», «Клишас рассказал о поправках в закон о неприкосновенности президента» из рубрики «Политика» и «Правительство одобрило правки федерального бюджета» из рубрики «Экономика», опубликованные осенью 2020 года в новостном агентстве «РИА Новости» (ria.ru). текст новостное издание алгоритм

Чтобы модель могла классифицировать статью, исходный текст был преобразован тем же образом, что и изначальные тексты из агентства ТАСС. Преобразованный текст был также трансформирован с помощью матрицы TF IDF, созданной на основе статей из основной выборки.

Модель классификатора использует вероятностный подход для классификации статьи. Каждой из пяти обозначенных изначально рубрик проставляется процент, показывающий, с какой вероятностью статья попадает в эту рубрику. Итоговый выбор рубрики в таком случае осуществляется на основе максимального значения среди всех предположений.

Предсказания модели классификатора для рубрик «общество», «экономика», «политика», «спорт», «культура» составили соответственно:

• «Победа Хабиба Нурмагомедова»: 10,9 %; 0,1 %; 0,3 %; 87,4 %; 1 %.

• «Ошибки художников по костюмам в фильмах СССР»: 6,9 %; 0,2 %; 0,1 %; 0,1 %; 92,5 %.

• «Клишас рассказал о поправках в закон о неприкосновенности президента»: 6,2 %; 3,9 %; 89,5 %; 0,2 %; 0 %.

• «Правительство одобрило правки федерального бюджета»: 1,7 %; 97,9 %; 0,2 %; 0 %; 0 %.

Таким образом, классификатор верно определил рубрику статьи во всех пяти случаях. Стоит отметить, что наибольшую погреш- но сть классификатор получает в отношении категории «общество», что можно дополнительно использовать как критерий общественной значимости новостной статьи.

Заключение

В статье описан процесс автоматической классификации медиатекстов с помощью метода опорных векторов (support vector machine) и алгоритма «случайный лес» (random forest). Так, модель показала достаточно хорошие результаты на тестовой подвыборке.

Отметим, что хотя полученные результаты основаны на классификации текстов из одного источника данных, они могут быть дополнительно проверены для классификации большего количества неразмеченных текстов других СМИ.

Список литературы / References

1. Зверева П. П. Сентимент-анализ текста (на материале печатных текстов газеты «The New York Times» о России и россиянах) // Вестник Московского государственного областного университета. Серия: Лингвистика. 2014. № 5. С. 32-37. [Zvereva, P P (2014). Sentiment-analysis of text (texts about Russia and the Russians from The New York Times. Bulletin of the Moscow Region State University. Series: Linguistics, 5, 32-37. (In Russ.)].

2. Ломотин К. Е., Козлова Е. С., Романов А.Ю. Применение методов машинного обучения при классификации научных текстов по специализированной базе текстов // Инновационные, информационные и коммуникационные технологии. 2017. № 1. С. 410-414. [Lomotin, K. E., Kozlova E. S., Romanov A. Y. (2017). Machine learning methods application in the task of scientific text categorization on specialized texts base. Innovacionnye, informacionnye i kommunikacionnye tekhnologii, 1, 410-414. (In Russ.)].

3. Мотовских Л. В. Выделение ключевых слов для классификации текстов // Вестник Московского государственного лингвистического университета. Гуманитарные науки. 2020. Вып. 9 (838). С. 235-242. [Motovskikh, L. V (2020). Extracting keywords for text classification. Vestnik оf Moscow State Linguistic University. Humanities, 9(838), 236-243. (In Russ.)].

4. Bergstra J., Bengio Y. Random search for hyper-parameter optimization // The Journal of Machine Learning Research. 2012. No 13.1. Pp. 281-305.

5. Garreta R., Moncecchi G. Learning scikit-learn: machine learning in python. Packt Publishing Ltd. 2013.

6. Korenius T. Laurikkala J., Jarvelin K., JuholaM. Stemming and lemmatization in the clustering of Finnish text documents // Proceedings of the thirteenth ACM international conference on Information and knowledge management. 2004. P. 625-633.

7. Sulea O. M., Zampieri M., Malmasi S., Vela M., Dinu L. P., Genabith J. van. Exploring the use of text classification in the legal domain. arXiv preprint arXiv:1710.09306. 2017.

8. Vargas-Calderon V., Dominguez M. S., Vinck-Posada H., Camargo J. E. Using machine learning and information visualization for discovering latent topics in Twitter news. arXiv preprint arXiv:1910.09114. 2019.

Размещено на Allbest.ru

...

Подобные документы

  • Структурно-содержательные особенности медийных текстов. Характеристика современного медиадискурса. Анализ синтагматических и лингвостилистических особенностей корпуса текстов группы передовых редакторских статей в качественной и популярной прессе.

    дипломная работа [76,6 K], добавлен 29.03.2016

  • Характеристика и классификация рекламных текстов, их лексические и синтаксические особенности. Сравнительный анализ англоязычных и русскоязычных рекламных текстов. Разработка урока в рамках темы "Mass Media" на основе проанализированных рекламных текстов.

    дипломная работа [4,4 M], добавлен 14.02.2013

  • Описание профессии учителя с использованием стилистических средств разговорного, официально-делового, научного и публицистического жанров. Содержательно-логический анализ текстов: ситуация общения, языковые средства, определение стиля и речевого жанра.

    контрольная работа [19,5 K], добавлен 18.08.2011

  • Построение лексико-семантической и морфолого-синтаксической классификации бизнес-терминологии. Выявление специфики ее функционирования. Описание особенностей текстов, содержащих бизнес-терминологию. Выработка рекомендаций по редактированию текстов.

    дипломная работа [44,9 K], добавлен 23.03.2015

  • Особенности обучения русскому как иностранному. Способы преодоления грамматических трудностей с помощью художественных текстов. Комплекс упражнений, ориентированный на совершенствование грамматических навыков на материале художественных текстов.

    дипломная работа [66,4 K], добавлен 13.04.2016

  • Становление теории вторичных текстов (ВТ), их классификация. Понятие ВТ как построенного на основе текста-источника с другими прагматическими целями и в другой коммуникативной ситуации. Сохранение в ВТ элементов когнитивно-семантической структуры текста.

    статья [37,4 K], добавлен 23.07.2013

  • Классификация, характерные и стилистические особенности рекламных текстов. Приемы параллелизма и повтора. Наиболее частые трудности, возникающие при переводе рекламных текстов. Интересные примеры перевода из публицистической продукции и сети Интернет.

    курсовая работа [46,8 K], добавлен 18.04.2011

  • Понятия "содержание" и "форма" при переводе музыкально-поэтических текстов. Сопоставительный анализ текстов оригинала (подлинника) и перевода. Лексические и грамматические трансформации при переводе музыкально-поэтических текстов песен Джона Леннона.

    дипломная работа [174,2 K], добавлен 09.07.2015

  • Место текстов газетно-публицистического стиля в классификации текстов у лингвистов, определение их особенностей. Классификации фразеологических единиц, возможные трансформации. Анализ способов перевода французских фразеологических единиц на русский язык.

    курсовая работа [30,8 K], добавлен 13.11.2011

  • Факторы речевой организации текста. Характеристика текста как особой речевой единицы. Основные типы текстов. Построение текстов различных стилей. Особенности построения текстов в научном, публицистическом, официально-деловом и художественном стилях.

    курсовая работа [46,9 K], добавлен 22.05.2015

  • Рекламные тексты, их классификация. Лингвостилистические особенности рекламных текстов. Определение понятия "аллюзия". Виды, механизм действия аллюзий. Аллюзии в английской и американской рекламе. Анализ англоязычных рекламных текстов на наличие аллюзий.

    научная работа [71,7 K], добавлен 25.02.2009

  • Классификация рекламных текстов. Стилистическое средство как способ передачи выразительности. Методы передачи средств экспрессивности в рекламном тексте. Типология стилистических средств. Анализ перевода английских рекламных текстов на русский язык.

    дипломная работа [77,5 K], добавлен 13.04.2015

  • Характеристика и классификация рекламных текстов, теоретические аспекты перевода. Лингво-переводческий анализ воспроизведения гендерных особенностей в англо-русском переводе, сопоставительная оценка переводов текстов, выявление адекватности их специфики.

    курсовая работа [76,4 K], добавлен 21.06.2011

  • Категория побудительности в языковедении. Анализ особенностей предписывающих немецких текстов на примере рекламы. Изучение текстов директивно-регулятивного типа, их места в системе речевой коммуникации. Немецко-русский перевод предписывающих текстов.

    курсовая работа [33,0 K], добавлен 10.04.2013

  • Художественный перевод трех текстов с английского языка на русский. Особенности получения высшего образования в Великобритании. Биография и путь к науке А. Эйнштейна. Основные моменты обучения в Хабаровском институте железнодорожного машиностроения.

    контрольная работа [20,9 K], добавлен 30.10.2009

  • Изучение морфологических и синтаксических особенностей научно-технического стиля, в аспекте применения автоматизированных средств перевода. Анализ принципа работы и типов систем машинного перевода. Сравнение текстов, переведенных машиной и переводчиком.

    дипломная работа [4,0 M], добавлен 20.06.2011

  • Современное состояние исследования метафор в лингвистике. Подходы к классификации текстов. Функциональный стиль массовой коммуникации и медиа-текст online формата. Специфичность метафорической репрезентации концептов в различных языковых сознаниях.

    дипломная работа [761,1 K], добавлен 25.02.2011

  • "Метаязык" как понятие в лингвистике и переводоведении. Особенности научного стиля и обзор классификаций текстов. Жанр телепередач и прагматический аспект перевода научных текстов. Особенности перевода французских текстов научно-популярного подстиля.

    курсовая работа [44,2 K], добавлен 06.03.2015

  • Классификация перевода по жанровой принадлежности оригинала. Эквивалентность при информативном переводе. Лексико-грамматические и стилистические характеристики специальных текстов. Переводческий анализ текстов прагматической направленности компании AES.

    дипломная работа [97,5 K], добавлен 05.05.2008

  • Закономерности семантической и структурной организации текстов, их классификация и типы. Сущность монологических и диалогических, устных и письменных текстов. Виды кулинарных рецептов, их лингвистические, национальные особенности и культурная специфика.

    курсовая работа [56,8 K], добавлен 23.03.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.