Классификация стихотворений при помощи методов обработки естественного языка

Характеристика взаимодействия между человеком и информационными системами, оценка плюсов решения задачи о понимании машины человеческого языка. Рассмотрение примирения методов обработки естественного языка в литературных текстах, а именно в стихах.

Рубрика Литература
Вид статья
Язык русский
Дата добавления 18.08.2018
Размер файла 52,8 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

УДК 004.855.5

КЛАССИФИКАЦИЯ СТИХОТВОРЕНИЙ ПРИ ПОМОЩИ МЕТОДОВ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА

Фролова Н.В.

Уральский федеральный университет имени первого Президента России Б. Н. Ельцина E-mail: nfrolova@gmail.com

Использование методов искусственного интеллекта в анализе накопленных данных и выявлении в них новых закономерностей, а также прогнозирование и генерация информации носят все более разбранённый характер.

Одной из самых сложных задач является анализ естественного языка т.е. текстовой информации. Самый простой пример это поисковые системы или боты. стих литературный текст язык

Главной проблемой в анализе является выявление смыслового содержания в тексте. Решение задачи о понимании машины человеческого языка может значительно упростить взаимодействие между человеком и информационными системами.

Данная статья рассматривает примирение методов обработки естественного языка в литературных текстах, а именно в стихах.

Ключевые слова: искусственный интеллект, методы обработки естественного языка, NLP, корпус.

CLASSIFICATION OF POEMS USING METHODS OF NATURAL LANGUAGE PROCESSING

Frolova N.V.

The use of methods of artificial intelligence in the analysis of accumulated data and the discovery in them of new regularities, as well as the forecasting and generation of information, are increasingly disaggregated.

One of the most difficult tasks is the analysis of natural language ie. text information. The simplest example is search engines or bots.

The main problem in the analysis is the identification of the semantic content in the text. Solving problems of understanding the human language machine can greatly simplify the interaction between a person and information systems.

This article considers the reconciliation of methods of processing natural language in literary texts, namely in verse.

Keywords: artificial intelligence, natural language processing methods, NLP, corpus.

С появлением современных методов обработки данных стал возможен анализ уже накопленной информации с новых сторон.

Большие возможности в анализе текстовой информации доступны при применении методов обработки естественного языка (Natural Language Processing, NLP). NLP это общее направление искусственного интеллекта и математической лингвистики. Оно изучает проблемы компьютерного анализа и синтеза естественных языков. [1] Применительно к искусственному интеллекту анализ означает понимание языка, а синтез -- генерацию грамотного текста. [4]

NLP решает задачи связанные с классификацией и кластеризацией текстов, перевод документов с одного языка на другой.

Самые простые методы анализа текста -- это статистические методы. Эти методы основаны на подсчёте количества слов в текстах. Истоки этих методов лежат в математике, в вычислительной геометрии: текст представляется вектором, длина вектора -- количеством слов.

Актуальность темы: понимание человеческого языка одна из наиболее сложных задач в машинном обучении. Выявление машиной закономерностей в словах и их контексте является залогом создания успешных систем управления умным домом, голосовых помощников, экспертных систем и др.

Цель работы: рассмотреть основные методы обработки естественного языка, построить алгоритм обработки естественного языка при помощи языка программирования R.

Применение статических методов в анализе стихотворений. Для применения метода обработки естественного языка была поставлена задача классификации произвольного стихотворения к автору из базы.

Для анализа задачи были выбраны стихи Пушкина А.С., Есенина С.А. и Маяковского В.В. Общее количество стихотворений 193. На рисунке 1 приведено количество стихотворений по авторам.

Рисунок 1 - Количество стихотворений

Алгоритм анализа был написан на языке программирования R.

Исходные данные поступают из базы данных. Все стихи были разделены на три основных категории в соответствии с автором. Каждой категории был проставлен соответствующий класс.

Ключевым аспектом эффективного алгоритма классификации является подготовка текстового корпуса [3].

Первым шагом все стихотворения загружаются в корпус. Корпус - это полная коллекция текстов, содержащих метки класса.

Очистка и расширение корпуса включает в себя последовательность процедур, разработанных в R через разные пакеты текстовой обработки («tm») [5], генерация («SnowballC») [7], разделение, объединение данных («plyr») [6]:

преобразование текста в нижний регистр;

удаление удвоенных пробелов, чисел, знаков препинания; удаление стоп-слов;

сокращение слов до их базовой формы (сужение); унификация синонимических конструкций.

Следующий шаг - это построение матрицы терминов-документов (TDM), содержащей каждый стих в виде вектора числовых атрибуты, соответствующий словам, встречающимся внутри стихотворения.

Чтобы уменьшить количество слов в корпусе и повысить точность классификации, можно объединить слова в искусственные термины. Например, разные города зарубежных стран или места можно объединять в один термин название страны - авеню, Гудзон, Бруклинский мост, Нью-Йорк, Бродвей - Америка.

TDM является разреженной матрицей, то есть большинство ее элементов является нулями. Чтобы предотвратить переобучение и обеспечить классы интерпретируемостью, необходимо удалить разреженные термины для каждого класса. Выбор соответствующего порогового параметра разреженности является предметом оптимизации. Для исследования использовался порог разреженности 60% для всех классов.

Для оценки важности слов в классе можно использовать метрику TF-IDF или TF-SLF.

TF-IDF - статистическая мера, которая используется для оценки важности слова в контексте текстового файла, являющегося частью корпуса. Вес некоторого слова пропорционален количеству употребления этого слова в документе и обратно пропорционален частоте употребления слова в других документах коллекции. [2]

TF-IDF рассматривает важность терма в рамках всего корпуса. При такой оценке игнорируется важность слова в рамках отдельно взятой категории (класса). Предположение, что оценка терма не должна зависеть от категории и должна быть одинаковой в рамках всего корпуса может работать неэффективно, когда документов в корпусе меньше 1000 и они являются тематически близкими.

Метрика TF-SLF [3], основана на следующих предположениях:

термин является важным в рамках категории, если он встречается в большинстве документов данной категории.

оценка терма понижается, если он является важным для нескольких категорий.

Для проведения данного исследования была взята метрика TF-SLF.

Третий шаг алгоритма- это деление корпуса произвольным образом на две части.

Первая часть составляет 75% от всей выборки, данная выборка является обучающей. Вторая часть 25% выборки и является тестовой.

Для обучения применяется несколько методов:

Наивный байесовский классификатор (Naive Bayes) - вероятностный классификатор, основанный на теореме Байеса со строгим предположением о независимости. Классификация, сделанная NB, является хорошим ориентиром для других более сложных алгоритмов.

Многолинейная логистическая регрессия или максимальная энтропия - MaxEnt. Это вероятностный логарифмический линейный классификатор, максимизация логарифмической вероятности набора взвешенных признаков из входных данных.

Метод опорных векторов (SVM, support vector machine) -алгоритм обучения с учителем, использующихся для задач классификации. Метод был разработан В. Н. Вапником. В методе строится гиперплоскость в пространственном пространстве с большими размерами путем минимизации эмпирического риска.

Конечным результатом работы кода является файл, который содержит в себе матрицу терминов-документа. Матрица в себе содержит код класса-поэта и вектора числовых атрибутов слов, встречаемых в стихе, не входящим изначально в корпус.

Итоговые показатели методов после вычисления по тестовой выборке представлены в таблице 1.

Таблица 1 - Результаты применения методов по тестовой выборке

Naive Bayes

SVM

MaxEnt

59 %

87 %

65 %

Построенный алгоритм по всем авторам верно определял принадлежность произвольного стихотворения, который не входил в начальный корпус.

Заключение

Повышение точности в классификации текстов является ключевой задачей в применении методов обработки естественного языка.

Подобные задачи анализа текстов могут применяться в любой сфере деятельности, где работа ведется именно с текстовой информацией и основной смысл содержится именно в словесном описании. Примером, могут служить системы обработки заявок пользователей, системы обратной связи, системы по классификации новостей и др. Классифицируемые текстовые данные ускоряют их обработку специалистами или позволяют выстраивать деревья решений для обработки заявок, что значительно экономит ресурсы предприятий.

Список литературы

1. База знаний Programming Store. Искусственный интеллект [Электронный ресурс] /, 2017. URL: http://wiki.programstore.ru/iskusstvennyj-intellekt/ Губин М. В. «Модели и методы представления текстового документа в системах информационного поиска», 2005.

2. Abdur Rehman, Haroon A. Barbi, Mehreen Saeed, «Feature Extraction for Classification of Text Documents», 2012.

3. Logan D and Kenyon J 1992 HelpDesk: Using AI to Improve Customer Service In Proceedings AAAI-92 37-53.

4. Text Mining Package [Электронный ресурс] /, 2017. URL: https://cran.rproject.org/web/packages/tm/tm.pdf.

5. Tools for Splitting, Applying and Combining Data [Электронный ресурс] /, 2017. URL: https://cran.r-project.org/web/packages/plyr/plyr.pdf.

6. Snowball stemmers based on the C libstemmer UTF-8 [Электронный ресурс] /, 2015. URL: https://cran.r-project.org/web/packages/SnowballC/SnowballC.pdf.

Размещено на Allbest.ru

...

Подобные документы

  • Публицистический стиль речи. Общие характеристики языка эссе как подстиля публицистического стиля, эволюция жанра. Творчество Дж. Аддисона и Р. Стила. Расцвет ежеквартальных литературных и политических журналов. Процесс эссеизации литературных жанров.

    курсовая работа [48,2 K], добавлен 23.05.2014

  • Характеристика русского национального характера в романе "Война и мир". Анализ взаимосвязи стихотворений А.С. Пушкина и С.А. Есенина. Особенности написания е после шипящих. Порядок выделения знаками препинания согласованных определений в предложении.

    тест [21,2 K], добавлен 18.08.2010

  • Понятие "коннотативная лексика" в лексической системе языка. Категория эмотивности, культурный компонент семантики, стилистическое использование обращений и вводных слов. Характеристика-оценка героев романа "Идиот" в представлении литературных критиков.

    дипломная работа [98,4 K], добавлен 25.05.2009

  • Сочетание изобразительно-выразительных средств языка в произведениях Н. Гоголя. Основной тип речи писателя и цель стиля. Анализ отрывков художественного текста. Использование гипербол, сравнений, эпитетов, эпифор, риторических восклицаний в "Ревизоре".

    презентация [361,9 K], добавлен 05.11.2013

  • Русский поэт, родоначальник новой русской литературы, создатель современного русского литературного языка. В юношеских стихах - поэт лицейского братства, "поклонник дружеской свободы, веселья, граций и ума", певец ярких и вольных страстей.

    реферат [87,1 K], добавлен 01.12.2002

  • Выявление в текстах произведений Д. Донцовой приемов создания комического. Их классификация с учетом структурно-семантических особенностей. Определение качества литературного языка в анализируемом тексте. Причина популярности детективов Донцовой.

    реферат [26,5 K], добавлен 16.07.2010

  • Развитие словарного состава русского языка. Слово в языкознании. Фонетические границы слова. Необходимость считаться при изучении истории слов с историей обозначаемых ими вещей. Переход от номинативной функции словесного языка к семантическим формам.

    реферат [47,5 K], добавлен 14.10.2008

  • Экспрессивный синтаксис в художественной литературе. Гипнотические возможности языка рекламы. Примеры слоганов с использованием различных средств экспрессивного синтаксиса. Частотность употребления средств экспрессивного синтаксиса в рекламных текстах.

    научная работа [107,9 K], добавлен 25.02.2009

  • Особенности формирования национального русского литературного языка (на примере творчества А.Д. Кантемира и В.К. Тредиаковского). Сатира как литературный жанр в рамках поэтики классицизма. Сравнительная характеристика разговорного и литературного языков.

    реферат [19,9 K], добавлен 15.09.2010

  • Влияние творчества А. Пушкина на формирование литературного русского языка: сближение народно-разговорного и литературного языков, придание общенародному русскому языку особенной гибкости, живости и совершенства выражения в литературном употреблении.

    презентация [907,2 K], добавлен 21.10.2016

  • Формирование русского языка в процессе развития Древней Руси. Русский язык - прочная база для дружбы и сотрудничества, его роль в уровне образования и формировании будущих поколений. Русский язык - язык великой литературы, произведений великих классиков.

    сочинение [10,3 K], добавлен 08.10.2010

  • Природа норм литературного языка. Динамическая теория нормы. Вариантность и норма. Нормы ударения. Особенности ударения в русском языке. Основные тенденции в развитии русского ударения. Сближение произношения с написанием. Синтаксические нормы.

    реферат [42,9 K], добавлен 29.06.2008

  • История развития русского литературного языка. Возникновение "нового слога", неисчерпаемое богатство идиом, русизмов. Роль А.С. Пушкина в становлении русского литературного языка, влияние поэзии на его развитие. Критическая проза А.С. Пушкина о языке.

    дипломная работа [283,8 K], добавлен 18.08.2011

  • Теоретические основы использования специальных изобразительных средств языка в литературных произведениях. Троп как фигура речи. Структура метафоры как изобразительного средства. Анализ языкового материала в романе Е. Замятина "Мы": типология метафор.

    курсовая работа [35,6 K], добавлен 06.11.2012

  • Символ как художественный знак. Философское осмысление понятия символа. Поэтический язык, конструкция литературного произведения. Особенности поэтического дискурса. Сравнительный анализ языка английских авторов. Лингвистический анализ поэтического языка.

    курсовая работа [74,1 K], добавлен 13.07.2013

  • Принципы графики в текстах Д. Хармса. Анализ изобретения собственного алфавита. Первый опыт применения ненормативных написаний в произведении "Комедия города Петербурга". Применение случаев арготической орфографии на уроках русского языка и литературы.

    дипломная работа [247,8 K], добавлен 17.07.2017

  • Важность старославянского языка в формировании современного русского языка, роль старославянизмов в русской лексике. Понятие и функции библеизмов в художественном произведении. Анализ специфики применения библеизмов в произведении Шмелева "Лето Господне".

    курсовая работа [55,6 K], добавлен 14.01.2015

  • Творчество М.А. Булгакова: общая характеристика. Иноязычные вкрапления в текстах М.А. Булгакова. Просторечия в стиле М.А. Булгакова как прием языковой игры. Особенности использования понятия "кодовое переключение" на уроках русского языка и литературы.

    дипломная работа [76,0 K], добавлен 17.07.2017

  • Понятие пассивного и активного словарного запаса языка. Устаревшая лексика в творчестве Бориса Акунина. Историзмы и архаизмы в романе Бориса Акунина "Пелагия и черный монах", их стилистические функции. Изучение устаревших слов на уроках русского языка.

    дипломная работа [464,5 K], добавлен 17.07.2017

  • Глубокая философичность и аналитизм в описании противоречий жизни и человеческого характера, новые формы композиции и сюжета, необычайное богатство языка и предельная пластичность изображения являлись стилистическими особенностями письма Бунина.

    дипломная работа [145,3 K], добавлен 22.05.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.