Оценка тональности текстовой информации, анализ и сравнение эффективности алгоритмов

Показано, что анализ тональности текстовой информации входит в область задач компьютерной лингвистики и является подзадачей получения и обработки информации. Исследован процесс анализа тональности текста, реализуемого с помощью тонального словаря.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 15.01.2019
Размер файла 36,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Оценка тональности текстовой информации, анализ и сравнение эффективности алгоритмов

Красильников А.Е., магистрант кафедры безопасных информационных технологий СПб НИУ ИТМО, krasilnikov_ae@live.com

Научный руководитель Комаров И.И. доцент, к. ф.-м. н. НИУ ИТМО, i_krov@mail.ru

Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики

Кафедра безопасных информационных технологий

Задача анализа тональности текстовой информации, генерируемой в сети Интернет, является частью задачи обеспечения информационной безопасности. Она крайне важна для успешной работы любых организаций и структур. Для решения задач, связанных с выявлением и дальнейшим анализом эмоционально окрашенной лексики в тексте, используются методы, общее название которых - анализ тональности текстовой информации (Sentiment Analysis). Другое название данной области на русском языке - «анализ эмоциональной окраски текста». Анализ тональности текстовой информации входит в область задач компьютерной лингвистики и является подзадачей получения и обработки информации.

Зачастую мнение пользователей о объекте сопровождается его оценкой по заданной шкале. Поэтому в большинстве исследований определение полярности рассматривается как задача классификации текста. Классами могут быть оценки, поставленные автором обзора, а признаки извлекаются из текста мнения: часто в качестве признаков выбирают n-граммы слов и их части речи. Для решения задачи классификации используются различные методы машинного обучения. В работе сравниваются: метод с использованием лингвистического словаря и алгоритмы обучения с учителем (наивный байесовский классификатор и метод максимальной энтропии).

Использованные методы определения тональности. Анализ тональности текста, реализуемый с помощью тонального словаря, состоит из нескольких этапов. Сначала отрабатывает отдельный лингвистический модуль, автоматически производящий анализ текста, лемматизацию всей лексики, отношения между словами. Затем слова размечаются по заранее подготовленным словарным спискам тональной лексики. Каждому слову приписывается значение, указывающие на силу тональности. Если слово не нашлось в списках тональной лексики, то оно считается нейтральным. Анализируется каждое слово в предложении, затем идет построение биграмм, происходит анализ тональности предложения с учетом полученных данных, тональность предложения равняется среднему арифметическому тональностей его составляющих.

Наивный байесовский классификатор -- вероятностный классификатор, основанный на теореме Байеса и (наивном) предположении о статистической независимости случайных величин.

P ( C | F1,….,F2) =

Основное достоинство данного классификатора заключается в низкой вычислительной сложности, а также в оптимальности, при условии действительной независимости признаков.

Метод максимальной энтропии - вероятностным распределением с максимальной энтропией является распределение Гиббса:

P(xj| I) =

тональность текстовый информация алгоритм

Из заданной коллекции документов произвольным образом выделяется обучающее множество(некоторое небольшое, относительно размеров всей коллекции, количество документов, которые размечаются вручную; на основе этих данных подбираются коэффициенты для характеристических функций в функциях распределения).

Обучающее множество разбивается на токены с которыми ведется дальнейшая работа. В данной задаче токены- слова. Для каждого токена определяется состояние, к которому он относится.

Для обучения и работы методов был использован тональный словарь проекта AFINN.

Оценка результатов работы алгоритмов. Традиционно эффективность задачи классификации текста формулируется в терминах точности и полноты.

Точность - отношение числа правильно отнесенных текстов к определенному классу, к числу всех текстов, отнесенных к этому классу.

Полнота - отношение числа правильно отнесенных текстов класса 1 к числу текстов класса выбранного в коллекции.

Для оценки эффективности работы реализованных алгоритмов был проведен анализ выборки, состоящей из 60 текстов различной тематики. Для сравнения с существующими решениями, были использованы открытые проекты Python NLTK и анализатор проекта Brandlisten. В основе работы обоих анализаторов лежит Наивный байесовский классификатор.

 

Точность

Полнота

Python NLTK

0.9

1

Brandlisten

0.25

0.25

Метод, использующий тональный словарь

0.6

0.6

Наивный байесовский классификатор

0,8

0,9

Метод максимальной энтропии

0,8

0,9

Заключение

Исходя из результатов можно сделать вывод: эффективность работы анализатора с использованием наивный байесовского классификатора (и метода максимальной энтропии) выше чем у метода, основанного только на использовании тонального словаря, однако ниже чем у классификатора в проекте Python NLTK. Добиться повышения эффективности работы созданного анализатора возможно увеличением обучающей выборки, а также добавлением правил анализа текстовой информации.

Литература

1) Pang B. & Lee L. Opinion Mining and Sentiment Analysis // Foundations and Trends in Information Retrieval, v.2 n.1-2, January, 2008 - pp.1-135.

2) Bing Liu. Sentiment Analysis and Subjectivity // Handbook of Natural Language Processing, Second Edition, 2010.

3) Frantzi, K., Ananiadou, S. and Mima, H. Automatic recognition of multi-word terms.// International Journal of Digital Libraries 3(2), pp.117-132.,2000.

Размещено на Allbest.ru

...

Подобные документы

  • Характеристика средств обработки текстовой информации, способы редактирования и форматирования документов. Порядок создания списков и таблиц, проверка орфографии и синтаксиса текста. Выбор формата файла. Работа в табличном процессоре Microsoft Excel.

    курсовая работа [411,1 K], добавлен 27.04.2013

  • Обработка текстовой информации на компьютере. Знакомство с текстовым процессором Microsoft Word. Создание, форматирование текстовых документов, выполнение операций с фрагментами текста. Копирование, перемещение, удаление. Создание и редактирование таблиц.

    лабораторная работа [672,8 K], добавлен 19.12.2013

  • Программы работы с текстами: MS-DOS Editor, Word Pad, блокнот, word, текстовый процессор. Редакторы для обработки документов. Стили форматирования. Двоичное кодирование текстовой информации в компьютере. Операции технологического процесса ее обработки.

    курсовая работа [324,0 K], добавлен 25.04.2013

  • Описание ДСМ-метода автоматического порождения гипотез. Исследование результатов влияния компонентов ДСМ-метода на качество определения тональности текстов. Алгоритм поиска пересечений. N-кратный скользящий контроль. Программная реализация ДСМ-метода.

    курсовая работа [727,0 K], добавлен 12.01.2014

  • Основные допечатные процессы подготовки издания. Технологическая схема компьютерной подготовки текстовой информации. Выбор варианта оформления, формата, гарнитуры и кегля. Основные правила компьютерного набора. Верстка в программе Adobe InDesig.

    курсовая работа [250,5 K], добавлен 22.01.2015

  • Перспективные направления анализа данных: анализ текстовой информации, интеллектуальный анализ данных. Анализ структурированной информации, хранящейся в базах данных. Процесс анализа текстовых документов. Особенности предварительной обработки данных.

    реферат [443,2 K], добавлен 13.02.2014

  • Средства и технологии обработки текстовой информации: MS-DOS Editor, Word Pad, Блокнот, Microsoft Word. Двоичное кодирование текстовой информации в компьютере. Рассмотрение разновидностей кодовых таблиц для русских букв: Windows, MS-DOS, КОИ-8, Мас, ISO.

    курсовая работа [644,5 K], добавлен 27.04.2013

  • Назначение, классификация и экономическая целесообразность использования устройств ввода текстовой и графической информации. Обзор и сравнительный анализ программ распознавания образов Acrobat Reader и ASDee. Охрана труда при работе на компьютере.

    дипломная работа [4,3 M], добавлен 23.07.2010

  • Анализ перспектив развития средств обработки текстовой и графической информации. Выбор программного обеспечения обработки информации, технических средств, периферийных устройств. Исследование особенностей работы с программой деловой графики MS Visio.

    курсовая работа [616,2 K], добавлен 04.05.2013

  • Представление информации в двоичной системе. Необходимость кодирования в программировании. Кодирование графической информации, чисел, текста, звука. Разница между кодированием и шифрованием. Двоичное кодирование символьной (текстовой) информации.

    реферат [31,7 K], добавлен 27.03.2010

  • Разработка программы на языке Си++ и осуществление постановки и выбора алгоритмов решения задач обработки экономической информации, создание и редактирование базы данных, сортировка записей по определенному запросу, анализ эффективности обработки данных.

    контрольная работа [316,8 K], добавлен 28.08.2012

  • Распознавание текста на изображениях как очень важная задача, имеющая множество практических приложений. Особенности архитектуры интегрированной системы получения текстовой информации из изображений. Общая характеристика методов выделения текста.

    курсовая работа [1,7 M], добавлен 12.06.2016

  • Наиболее значимые операции и функции распространенного текстового редактора Microsoft Word. Область применения, интерфейс, форматирование и редактирование в нем текста. Начисления за услуги предоставления доступа к Интернету ООО "Сигмаком" в MS Excel.

    курсовая работа [1,2 M], добавлен 23.10.2013

  • Работа средств обработки информации. Передача с помощью света по нити из оптически прозрачного материала в основе оптоволоконной сети. Принцип функционирования коаксиального кабеля и витой пары. Сравнение шины с нервными волокнами. Кэш данных и команд.

    реферат [543,6 K], добавлен 22.04.2013

  • Роль и место комплекса задач в экономической информационной системе, технико-экономическое обоснование автоматизации обработки информации. Характеристика и анализ существующей организации обработки информации по комплексу задач на объекте управления.

    дипломная работа [5,3 M], добавлен 29.06.2012

  • Классификация текстовых редакторов и процессоров. Способы хранения текста в файле. Форматирование документа и его редактирование. Среда текстового редактора. Автоматическая проверка орфографии и синтаксиса текста, автотекст, автозамена, гипертекст.

    курсовая работа [35,0 K], добавлен 25.04.2013

  • Классификация и возможности текстовых редакторов. Среда текстового редактора Microsoft Word 2003. Процесс редактирования текста, его копирование и перемещение. Проверка орфографии и синтаксиса, автотекст и автозамена. Пример гипертекстового документа.

    курсовая работа [2,4 M], добавлен 25.04.2013

  • Создание библиотеки классов решения задач шифрования и дешифрования потоковой текстовой информации с помощью линейных регистров сдвига. Разработка алгоритмов тестирования полинома на неприводимость и примитивность. Разработка демонстрационных программ.

    курсовая работа [223,7 K], добавлен 12.06.2016

  • Анализ существующих алгоритмов обработки информации человеком и современных моделей памяти. Разработка алгоритмов и математической модели ассоциативного мышления. Имитационная модель обработки информации. Компьютерный эксперимент по тестированию модели.

    курсовая работа [2,3 M], добавлен 19.11.2014

  • Необходимость в системах распознавания символов. Виды сканеров и их характеристики. Оптимальное разрешение при сканировании. Программы распознавания текста. Получение электронного документа. FineReader - система оптического распознавания текстов.

    презентация [469,2 K], добавлен 15.03.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.