Автоматическая классификация отзывов на основе оценочных слов

Методы извлечения оценочных слов и проставления оценок отзывам. Разработка подхода к оценке отзывов об объекте, основанного на применении оценочных слов из конкретной предметной области. Рассмотрение метода классификации отзывов о фильмах на три класса.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 18.01.2018
Размер файла 87,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

УДК 007:519.816

Автоматическая классификация отзывов на основе оценочных слов

Н.В. Лукашевич (louk_nat@mail.ru)

НИВЦ МГУ, Москва

И.И. Четверкин (ilia2010@yandex.ru)

Факультет вычислительной математики и кибернетики МГУ, Москва

Аннотация

Для упрощения поиска и выбора товаров и услуг в интернете необходимы методы оценивания отзывов об объектах. В данной работе предлагается новый подход к классификации отзывов, основанный на использовании оценочных слов из конкретной предметной области.

Ключевые слова: классификация отзывов, смысловой анализ, оценка текстов.

Введение

С развитием сети Интернет неуклонно растет количество неструктурированной информации, например, такой, как мнения и отзывы людей о различных товарах и услугах. Существует множество интернет ресурсов, которые аккумулируют в себе терабайты этих данных: форумы, блоги, социальные сети. В этих данных содержится полезная информация, полученная людьми в результате их профессиональной и бытовой деятельности.

Для того чтобы использовать эту информацию и составить собственное мнение о некотором объекте, человеку требуется ознакомиться с отзывами других людей и определить, как каждый из них оценивает рассматриваемую сущность. Эта процедура достаточно трудоёмкая ввиду большого количества данных.

Для многих сущностей актуальным является сравнение с другими подобными объектами. В таких случаях простой оценки «понравилось» или «не понравилось» уже не достаточно. Для решения этой задачи необходимо уметь оценивать объект по некоторой шкале. В связи с этим актуальной является задача автоматической классификации отзывов более, чем на два класса.

В данной статье предложен метод классификации отзывов о фильмах на три класса, основанный на использовании множества оценочных слов данной предметной области. Для этого заранее формируются списки оценочных слов со средней оценкой для каждого слова. Особенность предлагаемого нового метода извлечения оценочных слов заключается в том, что извлекаются оценочные слова, характерные для данной предметной области.

Составляя для каждого отзыва вектор используемых в нем слов, мы применяем методы машинного обучения для распределения отзывов по классам. Предметная область - кинематограф.

1. Методы извлечения оценочных слов и проставления оценок отзывам

Задача классификации отзывов уже решалась в ряде работ, но в большинстве из них отзывы разделялись на два класса: положительные и отрицательные.

Существует два основных подхода к оцениванию отзывов об объекте:

Агрегирование оценочных слов и выражений, входящих в отзыв;

Построение классификатора отзывов.

В рамках первого подхода необходимо выделять оценочные слова и выражения, вычислять для них семантическую ориентированность и выбрать, каким образом выполнить агрегацию вычисленных значений, чтобы классифицировать отзыв. Существует несколько подходов к извлечению оценочных слов и вычислению их семантической направленности.

В работе [Hatzivassiloglou et al., 1997] выделение оценочных прилагательных и определение их семантической направленности основано на синтаксических шаблонах и союзах И, ИЛИ, НО. В работе [Turney, 2002] изначально выбирается два эталонных множества оценочных слов: положительное и отрицательное множества. Далее для каждого слова в отзыве вычисляется семантическая направленность путем оценивания совместной встречаемости со словами из эталонного множества.

Для получения оценочных слов и вычисления их направленности могут использоваться словари. Метод, предложенный в [Hu et al., 2004], предполагает использование тезауруса для обогащения заданного вручную, эталонного множества оценочных слов. Основная идея в том, что если слово оценочное, то его синонимы, гипонимы также будут оценочными и одинаково семантически направлены, в случае антонимов - противоположно направлены. Еще один подход представлен в работе [Esuli et al., 2005], где с помощью толкований слов в словаре выясняется их ориентация. Данный метод основывается на том, что слова с одинаковой ориентацией имеют «похожие» толкования. Используя эту идею, был построен классификатор слов на положительно ориентированные слова и отрицательно ориентированные (точность метода 87%).

Еще один подход, который использует как словари, так и информацию из корпуса, представлен в работе [Popescu et al., 2005]. В данной работе описана система OPINE, которая служит для извлечения из отзывов атрибутов описанных продуктов, а также оценок по ним. Предполагается, что оценочные фразы появляются в непосредственной близости от атрибутов объекта. Для извлечения оценочных слов используются правила, основанные на синтаксической структуре предложения.

Для агрегации выделенных слов существует несколько способов:

Вычисление суммы или среднего по отзыву [Turney, 2002] [Hu et al., 2004];

Построение классификатора использующего ориентированность слов как атрибуты [Das et al., 2001].

Второй подход к оцениванию отзывов об объекте не связан с предварительным выделением оценочных слов.

В работе [Pang et al., 2002] производилась классификация отзывов о фильмах на два класса: рекомендуемый и нерекомендуемый отзыв с использованием разных методов машинного обучения. В качестве атрибутов обзоров выбирались отдельные слова, биграммы, слова по частям речи. Наилучший показатель по точности получился 82,9% для метода опорных векторов.

В более поздних публикациях [Pang et. al., 2005] ставится задача выставления численной оценки отзывам. Отзывы, используемые для работы, разделены по авторам. Сравниваются три алгоритма, построенные на основе SVM: один против всех, регрессия и метрический подход. В работе показывается, что метрический подход с использованием метрики на базе количества положительных предложений в отзыве, работает лучше.

2. Формирование множества оценочных слов

Для решения задачи классификации отзывов мы предварительно автоматически извлекали оценочные слова, характерные для данной предметной области. Извлечение основывалось на сопоставлении статистических данных употребления слова в наборе различных корпусов.

2.1 Формирование данных

Для формирования качественного списка оценочных слов было составлено четыре корпуса данных:

Корпус мнений о фильмах (30 тысяч отзывов с пользовательскими оценками от 1 до 10);

Корпус описаний фильмов (20 тысяч);

Малый корпус (состоит из частей корпуса мнений, с более высокой концентрацией оценочных слов);

Новостной корпус (статистика встречаемости слов в 1 млн. новостных документов) [Четверкин и др., 2010].

Для работы были выбраны только первые десять тысяч слов, в списке, упорядоченном по частотности слов в корпусе мнений.

2.2 Характеристики слов

Для каждого слова был вычислен набор из 18 характеристик, позволяющий выделять оценочные слова. В наборе характеристик выделяется две подгруппы.

Первый класс характеристик оценивает частотные характеристики употребления слова в вышеупомянутых корпусах. Подсчитывается частотность словоупотреблений и количество документов, в которых употреблялось слово (5 характеристик).

Второй класс характеристик фиксирует соотношение частотности словоупотреблений и частотности по документам в разных парах корпусов. Для этого используются две меры: известная в информационном поиске мера tf*idf, которая прямо пропорциональна частотности употребления слова в документе (в нашем случае в одной из коллекций) и обратно пропорциональна логарифму подокументной частотности в некоторой контрастной коллекции [Агеев и др., 2004].

Второй мерой, используемой для сопоставления употребления слова в коллекциях, является мера странности (weirdness) [Ahmad и др., 1999], которая сопоставляет пропорцию употребления слова по отношению к общему числу словоупотреблений в разных коллекциях. Всего имеется 10 характеристик, сопоставляющих частотность слова в паре коллекций (подробнее см. [Четверкин и др., 2010]).

Кроме этих подгрупп используются несколько отдельных характеристик.

Мы подсчитываем количество употреблений слова с прописной буквы. Предполагается, что имена собственные не являются оценочными словами.

Две последние используемые характеристики - характеристика отклонения оценки слова от средней оценки отзывов и характеристика, вычисляемая для существительных, следующих за оценочными прилагательными, будут подробнее рассмотрены в следующих подразделах.

2.2.1 Отклонение оценки слова от средней оценки отзывов

Для вычисления данной характеристики использовалась пользовательская оценка (от 1 до 10), сохраненная для каждого отзыва. С помощью этих оценок, для каждого слова вычислялась его средняя оценка (т.е. брались оценки тех отзывов, где оно встретилось, и их сумма разделялась на количество таких отзывов). Разность средней оценки для каждого слова и средней оценки отзывов по всему корпусу и является отклонением. Таким образом, мы получаем суммарную оценочную ориентацию для каждого слова.

,

где - рассматриваемая лемма,

n - общее количество отзывов,

mi - оценка i-го отзыва,

ki - число словоупотреблений леммы в i-ом отзыве (если не употребляется, тогда 0).

Приведем несколько примеров слов с их отклонениями от средней оценки. Если отклонение положительное, то и слово положительное, если отрицательное, то и слово соответственно отрицательное.

ахинея -4.943 фильм-шедевр 2.065

бездарный -3.542 заворожить 1.802

блеклый -1.817 любимейший 1.661

тупой -1.783 офигенный 1.602

зловещий -1.010 овация 1.498

Для решения основной задачи классификации отзывов в данной работе использовалась только средняя оценка каждого слова без учета ее отклонения от средней оценки по корпусу.

2.2.2 Признак встречаемости существительных после оценочных прилагательных

Для подсчета этой характеристики были взяты первые двести прилагательных из выдачи классификатора после предварительной классификации. Количество оценочных прилагательных среди этих двухсот слов составило 90%. Далее для каждого прилагательного были найдены существительные, которые следуют непосредственно за ним и не разделены знаками препинания.

Для каждого такого существительного подсчитана его частота появления после вышеуказанных двухсот прилагательных. На основе полученных значений и была сформирована новая характеристика. Ее смысл заключается в том, что существительные, которые часто следуют за оценочными прилагательными, наиболее вероятно не являются оценочными, а скорее всего, среди них достаточно большое количество атрибутов объекта, на который составлен отзыв [Popescu et al., 2005].

2.3 Машинное обучение

После того, как для каждого слова сформирован вектор характеристик, была поставлена задача классификации слов на оценочные и неоценочные слова. Исходные десять тысяч слов были размечены на два вышеуказанных класса (3200 и 6800 слов соответственно). Для классификации были опробованы наиболее употребительные алгоритмы. Оценка качества работы алгоритмов производилась по двум параметрам:

F-мера

Количество оценочных слов, попавших в первую тысячу слов, упорядоченных по «вероятности» их принадлежности к классу оценочных.

Для получения достоверных показателей использовался механизм кросс-валидации. Наилучшие результаты среди опробованных алгоритмов показали алгоритм логистической регрессии для прилагательных и трехслойная нейронная сеть для неприлагательных. Результаты работы классификаторов приведены в таблице 1.

Табл. 1

F

P1000

Прилагательные

68,09%

69,1%

Неприлагательные

50,83%

50,9%

Дополнительные исследования были проведены для неприлагательных, поскольку для них стоит проблема несбалансированных данных (1700 оценочных слов против 6000 неоценочных). Была проведена балансировка данных в обучающей выборке, а также понижение порога принятия решения по отнесению объекта к некоторому классу. Значительных изменений в качестве классификации слов получить не удалось.

оценочный слово отзыв фильм

3. Эксперименты по классификации отзывов

Для решения задачи автоматического разбиения отзывов на классы, с портала www.imhonet.ru было собрано две с половиной тысячи отзывов на фантастические фильмы вместе с оценками от одного до десяти, проставленными пользователями (тестовый корпус).

Необходимо было автоматически разделить собранные отзывы на три класса и сравнить с пользовательскими оценками. Для этого собранные оценки по десятибалльной шкале конвертировались в трехбалльную систему по принципу: {1-6} >”1” (скорее не понравился), {7,8} >”2” (понравился, но есть недостатки),{9,10} >”3” (понравился). Такое разделение на три класса оценок обусловлено тем, что пользователи проставляют значительно большее количество положительных оценок (см. рис.1-2).

Таким образом, есть два корпуса с проставленными оценками от одного до трех: корпус мнений и тестовый корпус. Первый корпус используется для обучения, а второй для оценки работы алгоритмов классификации.

Рис. 1. Корпус мнений

Рис. 2. Тестовый корпус

Основной идеей предлагаемого метода является использование некоторого набора слов с вычисленными по какому-либо принципу значениями для них. Для каждого отзыва рассматриваются вхождения слов из исходного набора в этот отзыв. В случае если слово входит в отзыв - то в признаковое описание этого отзыва попадает численная характеристика рассматриваемого слова. На последней стадии все отзывы вместе со своими признаковыми описаниями классифицируются с использованием методов машинного обучения.

В качестве наборов слов рассматривались:

1. Две тысячи слов, полученных по методу, описанному в разделе 3 (Оценочный набор),

1. Две тысячи слов с самым высоким значением tf*idf по корпусам мнений и новостей (Контрастный набор).

Веса для каждого слова вычислялись по одному из следующих принципов:

· Вероятность принадлежности слова к оценочным словам в выдаче классификатора,

· Встретилось слово в отзыве или нет (0 или 1),

· Средняя оценка слова,

· Tf*idf слова в корпусах мнений-новостей.

Для классификации отзывов с полученным признаковым описанием использовались три принципиально разных алгоритма с целью выяснить, какой из подходов лучше для классификации субъективных данных:

· Наивный Байесовский алгоритм,

· Метод k ближайших соседей,

· Метод опорных векторов (каждый против каждого).

Оценка качества работы алгоритмов проводилась по мере аккуратности (accuracy). Аккуратность классификации определяется как отношение правильно классифицированных отзывов к общему количеству отзывов. Результаты классификации по множествам слов приведены в таблицах.

Табл. 2

Набор оценочных слов

Вес слов

Naпve Bayes

kNN

SVM

Вероятность

47,52

48,66

53,10

Средняя оценка

48,01

46,29

52,41

Встречаемость

47,74

47,09

52,64

Tf*idf

47,74

47,02

41,97

Табл. 3

Набор слов по Tf*idf

Вес слов

Naпve Bayes

kNN

SVM

Встречаемость

52,22

44,38

53,29

Tf*idf

52,29

41,32

34,90

Средняя оценка

52,18

43,73

54,28

Из полученных выше результатов можно сделать несколько выводов:

Во-первых, веса слов практически не влияют на качество классификации.

Во-вторых, линейный разделитель (SVM) показывает лучшие результаты, чем метрический и байесовский подходы.

Хотя результаты по аккуратности получились практически идентичными, стоит заметить, что при классификации с использованием оценочного набора слов хорошие результаты получались для третьего класса (т.к. оценочные слова в основном положительные), а при классификации с контрастным набором - для первого класса (слова из второго набора в основном неоценочные атрибуты). Поэтому, взяв около 500 самых частотных слов из оценочного набора и 500 первых слов из контрастного, при помощи метода опорных векторов мы получили максимальный результат по аккуратности классификации - 57,61% .

Заключение

В работе мы показали, что путем извлечения оценочных слов для заданной предметной области и составления с их помощью характеристического описания отзывов, можно решать задачу классификации на три класса. Решение этой задачи с использованием набора оценочных слов показало лучшие результаты для третьего класса отзывов (понравился), а с использованием набора слов по tf*idf - для первого класса (скорее не понравился). Комбинирование двух рассмотренных наборов слов дало существенный прирост в аккуратности классификации.

Список литературы

1. Агеев М.С., Добров Б.В., Лукашевич Н.В., Сидоров А.В. Экспериментальные алгоритмы поиска/классификации и сравнение с «basic line» // РОМИП , 2004.

2. Четверкин И.И., Лукашевич Н.В. Автоматическое извлечение оценочных слов для конкретной предметной области // Диалог, Бекасово. 2010.

3. Ahmad K., Gillam L., Tostevin L. University of Surrey participation in Trec8: Weirdness indexing for logical documents extrapolation and retrieval // In the Proceedings of Eigth Text Retrieval Conference (Trec-8), 1999.

4. Das, S. R. and Chen M. Y. Yahoo! for Amazon: Sentiment Parsing from Small Talk on the Web // Proceedings of European Finance Association Annual Conference, Barcelona. 2001.

5. Esuli A., Sebastiani F. Determining the Semantic Orientation of Terms through Gloss Classification // Conference of Information and Knowledge Management, Bremen. 2005.

6. Hatzivassiloglou V., McKeown K. Predicting the Semantic Orientation of Adjectives // ACL, Madrid. 1997.

7. Hu M., Liu B. Mining and Summarizing Customer Reviews // KDD, Seattle. 2004.

8. Pang, B., Lee, L., and Vaithyanathan, S. Thumbs up? sentiment classification using machine learning techniques // In Proceedings of EMNLP-02, the Conference on Empirical Methods in Natural Language Processing, Philadelphia. 2002.

9. Pang, B. and L. Lee Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales // Proceedings of ACL-05, 43nd Meeting of the Association for Computational Linguistics, Ann Arbor. 2005.

10. Popescu A., Etzioni O. Extracting Product Features and Opinions from Reviews // EMNLP, Vancouver. 2005.

11. Turney P.D. Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews // ACL, Philadelphia. 2002.

Размещено на Allbest.ru

...

Подобные документы

  • Разработка алгоритма автоматического создания отзывов на русском языке с использованием лексико-синтаксических шаблонов. Процесс создания текста при помощи цепей Маркова. Принцип работы Томита-парсера. Применение автоматических генераторов текстов.

    курсовая работа [150,6 K], добавлен 27.09.2016

  • Обоснование выбора метода извлечения ключевых слов. Анализ предметной области, проектирование информационной системы поиска релевантных документов. Реализация запросов к электронным библиотекам. Реализация интерфейса системы поиска релевантных документов.

    дипломная работа [1,1 M], добавлен 21.09.2016

  • Отличие исконных слов от заимствованных и установление времени, причины заимствований и их роль для развития языка. Алгоритм подсчета обработанных слов приложением "Подсчет частоты введенных слов в текстовом файле". Отладка и тестирование программы.

    курсовая работа [1,1 M], добавлен 13.06.2012

  • "Метод ключевых слов" как один из распространенных методов перехода к математической модели документа. Закономерности распределения частоты слов, отраженные в законе Ципфа. Экспериментальная оценка статистического анализа текста по модели TF*IDF.

    реферат [591,7 K], добавлен 24.06.2009

  • Программное обеспечение - важный компонент функционирования компьютерной деятельности. Изучение принципа работы резидентных программ. Разработка программы по удалению слов из текстового файла без учета регистра. Требования к программе, разработка проекта.

    курсовая работа [404,5 K], добавлен 03.02.2011

  • Описание инфологической и концептуальной модели. Определение типов сущностей и их атрибутов. Поля базы данных, связи между таблицами. Программное обеспечение БД учебных дисциплин и его реализации на основе понятий и ключевых слов предметной области.

    дипломная работа [2,1 M], добавлен 26.05.2016

  • Основные компоненты среды Delphi, используемые в программе для сжатия и восстановления файлов. Код программы, разбивка массива на промежутки. Проверка определенных элементов кодовых слов. Поиск кодовых слов в остатке. Результаты тестирования приложения.

    курсовая работа [94,1 K], добавлен 19.12.2010

  • Обзор известных онлайн-переводчиков. Общая характеристика, принцип действия и возможности переводчиков текстов Translate.ru от Promt, Google и META. Электронные словари и мобильные переводчики. Отправка вопросов в техподдержку и отзывов о переводе.

    реферат [153,8 K], добавлен 14.07.2010

  • Распознавание слов в слитной речи, изолированных слов. Проблема автоматического распознавания речи. Структурная схема устройства выделения признаков речевых сигналов. Моделирование работы блока выделения начала и окончания слова количества звуков на ЭВМ.

    дипломная работа [649,5 K], добавлен 13.11.2008

  • Мотивы и особенности лексики произведений "О дивный новый мир" О. Хаксли и "1984" Дж. Оруэлла. Анализ, сравнение и обобщение ключевых слов и воссоздание художественного мира романов. Создание веб-приложения "Словарь ключевых слов британских антиутопий".

    дипломная работа [2,6 M], добавлен 21.06.2016

  • Разработка программной базы для исследований в области распознавания речи и поиска ключевых слов в ней. Расчет mel-фильтров. Скрытые марковские модели. Применение в алгоритме сверточного декодирования Витерби. Методы визуализации и обработки аудиоданных.

    курсовая работа [1,1 M], добавлен 01.06.2015

  • Анализ предметной области "Конкурс поэтов" на основе объектно-ориентированного подхода. Разработка оконного приложения и описание информационной модели предметной области. Описание разработанных процедур С++ и результатов тестирования приложения.

    курсовая работа [355,9 K], добавлен 18.06.2013

  • Программная реализация метода оптимальной классификации одномерного упорядоченного множества на основе "склеивания с ближайшим". Проверка работоспособности программы на основе алгоритмов классификации, вычислительные эксперименты по оценке эффективности.

    курсовая работа [414,4 K], добавлен 24.05.2015

  • Вычисление суммы ряда с заданной точностью. Форма представления исходных данных. Разработка алгоритма и его описание. Выбор метода обработки информации. Упорядочение элементов строк матрицы по возрастанию. Программа подсчета числа слов в предложении.

    курсовая работа [23,9 K], добавлен 11.02.2016

  • Разработка самообучающейся интеллектуальной информационной системы для анализа кредитоспособности заемщика и оценки кредитных рисков на основе подхода иммунокомпьютинга. Применение процедур кластеризации, классификации и формирования оценок рисков.

    курсовая работа [822,3 K], добавлен 09.06.2012

  • Иерархия запоминающих устройств ЭВМ. Микросхемы и системы памяти. Оперативные запоминающие устройства. Принцип работы запоминающего устройства. Предельно допустимые режимы эксплуатации. Увеличение объема памяти, разрядности и числа хранимых слов.

    курсовая работа [882,6 K], добавлен 14.12.2012

  • Характеристика основных патентных баз данных, используемых при проведении патентно-информационного поиска в Интернете. Стратегия патентного поиска и системы патентной классификации. Использование логических операторов и ключевых слов при поиске.

    презентация [1,9 M], добавлен 15.09.2011

  • Структура системы многокритериального управления безопасностью техногенного объекта. Учет взаимосвязей подсистем безопасности. Экспертные методы принятия решений на основе сравнений многокритериальных альтернатив. Сущность подхода аналитической иерархии.

    курсовая работа [737,7 K], добавлен 17.09.2013

  • Переопределение метода внутри одного класса. Сущность перегрузки унаследованного метода. Области применения абстрактного класса. Перегрузка унарных и бинарных операций. Области видимости локальных и глобальных переменных. Способы обращения к ним.

    презентация [81,2 K], добавлен 09.12.2013

  • Изучение принципов объектно-ориентированного программирования. Понятие класса в Delphi, в основе которых лежат три фундаментальные принципы - инкапсуляция, наследование и полиморфизм. Разработка классов транспортных средств и структур классов (кошки).

    курсовая работа [29,7 K], добавлен 29.10.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.