Применение теории графов в интеллектуальной методике анализа социальных медиа для мониторинга популярности кандидатов в период предвыборной кампании

Анализ популярности украинских кандидатов в президенты в украинском сегменте социальных сетей и блогосфере за весь официальный период предвыборной кампании. Методики исследования и оценки активности блогосферы: теория графов, анализ социальных сетей.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 29.06.2017
Размер файла 4,4 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Применение теории графов в интеллектуальной методике анализа социальных медиа для мониторинга популярности кандидатов в период предвыборной кампании

В.И. Носко

Южный федеральный университет, Ростов-на-Дону

Аннотация: В настоящее время все большую значимость приобретают вопросы анализа блогосферы в период событийных ситуаций, связанных в первую очередь с проведением предвыборных компаний. В статье проводится анализ популярности украинских кандидатов в президенты в украинском сегменте социальных сетей и блогосфере за весь официальный период предвыборной кампании. Для анализа структуры предлагаются разнообразные методики исследования, моделирования и оценки активности блогосферы: теория графов, анализ социальных сетей, обработка естественного языка. Исследование показывает, кто и каких кандидатов преимущественно обсуждает, структуру высказываний и пересечение интересов аудиторий.

Ключевые слова: граф социальной сети, обработка данных, большие данные, граф упоминаний, кандидаты в президенты, теория графов, анализ социальных взаимодействий, social network graph, data mining, big data, opinions graph, presidential candidates, graph theory, social network analysis

В настоящее время все большую значимость приобретают вопросы анализа блогосферы в период событийных ситуаций, связанных в первую очередь с проведением предвыборных кампаний [1]. Исследование популярности кандидатов в блогосфере за весь официальный период предвыборной кампании имеет большое значение, как для общества, так и для самих кандидатов [2]. Предлагаются разнообразные методики исследования, моделирования и оценки активности блогосферы и социальных медиа, в которых выражаются мнения [3]. В задаче разработки методики мониторинга популярности кандидатов предвыборных кампаний применяются наработки из следующих смежных областей знаний [4, 5]: теория графов, анализ социальных сетей, обработка естественного языка.

В настоящей работе рассмотрен ряд аспектов применения теории графов в интеллектуальной методике анализа социальных медиа и блогосферы на примере мониторинга популярности кандидатов предвыборной кампании в современной Украине в апреле-мае 2014 года. Мнения собирались с помощью поиска по ключевым словам, которыми являются фамилии и прозвища кандидатов в президенты [6]. Сбор велся с ограничением по географии: только в украинских блогах - в самих блогах и в комментариях из блогов. Период сбора данных: с 1 апреля 2014 по 24 мая 2014 (официальный период предвыборной кампании кандидатов в президенты). За все время было собрано 37650 постов с упоминанием кандидатов, которые написали 2268 авторов. Список источников также довольно широк: в него входят как платформы блогов, так и социальные сети: Livejournal.com, Vkontakte.ru, Liveinternet и, в меньшей степени, Facebook и Twitter.

На первом этапе формируются данные по ключевым словам. Перед исследованием мы сформулировали два ключевых вопроса, на которые было интересно получить ответы:

1. Можно ли хотя бы приблизительно предсказывать результаты выборов, собирая и анализируя результаты упоминаний кандидатов в социальных сетях?

2. Можно ли выявить лидирующих блогеров, которые влияют на общество, и, если да, то каких кандидатов они обсуждают преимущественно?

Ниже представлен фрагмент программного кода автоматизированного сбора данных на языке Python (см. листинг 1). Программа структурирует полученную информацию и сохраняет следующие поля:

* Заголовок комментария

* Ссылка на комментарий

* Текст комментария

* Автор комментария

* Блог, где размещен комментарий

* Дата публикации комментария

* Дата сохранения комментария, поста в системе (базе данных)

for site in set(sites):

item = UkrPresidentItem()

item['comment_text'] = unicode(" ".join(site.xpath('div/div/div').extract()))

if u'Добкин' or u'Добкін' or u'Допу' or u'Допа' in item['comment_text']:

item['Target'] = unicode('Dobkin')

item['Label'] = unicode(" ".join(site.xpath('h3/a').extract())) #comment_title

item['Source'] = (" ".join(site.xpath('ul/li[2]/a/@href').extract())).split(" ", 1)[0] #comment_author

item['Type'] = "Directed"

item['Weight'] = "1"

item['comment_blog'] = " ".join(site.xpath('ul/li[3]/text()').extract())

item['comment_url'] = " ".join(site.xpath('h3/a/@href').extract()) #h3/a/@href

item['comment_dateposted'] = " ".join(site.xpath('ul/li/text()').extract())

item['comment_datesaved'] = datetime.now(tz=None)

items.append(item)

Листинг 1. - Фрагмент программы: формирование графа при сборе данных о кандидатах

Для формирования графа в программном коде используются служебные поля [4]:

* Label - подпись к узлу

* Source - «источник», автор комментария или поста

* Target - «цель», кандидат, которого упомянул в тексте автор комментария

* Weight - вес ребра

* Type - тип графа, значение Directed делает граф ориентированным

Данные сохраняются в no-SQL базу данных MongoDB [7]. Результат можно просматривать, например, в специальной программе Robomongo [8].

На втором этапе производится структурный анализ получившегося графа.

Анализируя популярность кандидатов в блогосфере стоит рассмотреть четыре визуализации одного и того же графа, отражающих структурные особенности сетевых взаимодействий пользователей:

1. Взвешенный граф популярности кандидатов.

2. Взвешенный граф активности комментаторов и блогеров.

3. Распределенный граф популярности кандидатов.

4. Распределенный граф активности комментаторов и блогеров.

Рассмотрим сначала сводный взвешенный граф популярности кандидатов (см. рис. 1). В результате обработки постов и комментариев видно, что представленность кандидатов в блогосфере распределена следующим образом: абсолютным лидером по числу упоминаний является Тимошенко. Следующими топовыми кандидатами являются Порошенко и Ярош.

Больший узел (кружок) означает, что данный кандидат чаще других упоминался в комментариях кандидатов, стрелки от узла указывают, кто именно его упоминал [3,4]. Узлы ранжированы по цвету и размеру: от голубого до красного, голубой цвет узла указывает на то, что это рядовой комментатор, желтые, оранжевые и красные узлы выделяют кандидатов в президенты.

При этом Порошенко, которому социологические опросы предсказывали победу на президентских выборах был не очень популярен в блогосфере в первые две недели предвыборной кампании. Возможная причина заключается в том, что Порошенко не делал громких заявлений в масс-медиа и не приходил на топовые политические ток-шоу, такие как Шустер-LIVE и «Свобода слова». Однако он смог набрать вес и по итогам двух месяцев вышел на второе место.

Рис. 1. - Граф популярности кандидатов в президенты

теория граф президент кандидат

Итак, теперь у нас достаточно данных, чтобы подтвердить первую гипотезу, а именно: исследование в целом позволяет вести мониторинг предвыборной президентской кампании на Украине.

Два из трех кандидатов, получивших в результате наибольшее количество голосов, и в блогосфере оказались наиболее обсуждаемыми кандидатами, то есть существует положительная корреляция между анализом экспертов и политологов и мнением масс. В целом же задача предсказать исход выборов в исследовании не ставилась. Отметим, что в топ по упоминаниям также попали Царев и Ярош, их процент на выборах ничтожно мал, но своими действиями и высказываниями они оказывали значительное воздействие на мнения сторонников или противников того или иного сценария развития страны. И это воздействие выражается в активном обсуждении их позиций и концептов, которые они излагают.

Полная картина лидеров упоминаний выглядит следующим образом (см. рис.2):

Рис. 2. - Распределение количества упоминаний кандидатов

Рассмотрим теперь взвешенный граф активности комментаторов (см. рис. 3): размер и цвет узлов указывает на количество постов и комментариев с упоминанием того или иного кандидата, которые данный пользователь оставил. Чем больше и краснее узел (кружок), тем чаще данный автор упоминал кандидатов, стрелки от узла указывают, кого именно он упоминал.

Еще одно важное наблюдение: на графе визуально можно выделить кластеры авторов, которые обсуждают одних и тех же кандидатов. Первый большой кластер включает в себя Тимошенко и Порошенко. Голубые узлы авторов, которые находятся близко вокруг узлов кандидатов - это те блогеры, которые в своих публикациях упоминают преимущественно только этих двух кандидатов. Данный факт можно интерпретировать как то, что эти авторы схожи в некоторой степени в своих политических предпочтениях. А вот Ляшко и Царев находятся в противоположных «углах» графа - их электорат не пересекается совсем. Итак, кластеры помогают оценить схожесть, пересечение интересов аудитории, или наоборот, идентифицируют группы людей, которые имеют противоположные взгляды [9].

Рис. 3. - Граф активности комментаторов и блогеров

На графе активности комментаторов и блогеров можно выделить лишь нескольких лидеров, которые пишут много и часто:

* http://www.v-n-zb.livejournal.com/

* http://www.mikle1.livejournal.com/

* http://www.andriy-lopata.livejournal.com/

На этих активных пользователей стоит обратить особое внимание, как самим кандидатам, так и их пресс-службам, так эти пользователи во многом формируют общественное мнение среди интернет-пользователей, интересующихся текущей политической ситуацией на Украине.

На примере Тимошенко рассмотрим параметры узлов (см. рис.4). Справа в информационной панели отображаются служебные данные по узлу, в том числе параметр Взвешенная входящая степень 7325 указывает, что фамилия «Тимошенко» встречалась в комментариях и постах 7325 раз (перепосты и цитирования учитываются).

Рис. 4. - Блогеры, упоминавшие одного из кандидатов

Ниже расположен список авторов, которые упоминали Тимошенко, а также количество упоминаний в скобках для каждого пользователя. Например, пользователь v-n-zb.livejournal.com за все время сбора данных упомянул Тимошенко 211 раз (о чем выше уже сказано), а щелкнув по имени автора можно снова перейти к просмотру его параметров.

Несмотря на то, что Кличко свою кандидатуру снял, его продолжают упоминать, однако это может быть связано с его популярностью как боксера.

Еще одним интересным вопросом является распределение упоминаний различных кандидатов по блогерам: какие из блогеров упоминают всех кандидатов в целом равномерно и одинаковое количество раз, а какие сосредоточены в своих постах лишь на одном-двух кандидатах? Ответом на данный вопрос может быть распределенный граф активности авторов, приведенный на рис.5.

Рис. 5. - Распределённый граф активности авторов

Чем более равномерно и полно охватывает автор в своих постах кандидатов, тем больше его узел на данном графе. Стоит отметить, что авторы-лидеры по упоминаниям на этом графе совсем другие, чем на графе активности блогеров выше. На этом графе узел автора, который упомянул 10 кандидатов в своих публикациях будет по размеру в 2 раза больше, чем другой автор, который упомянул только 5 кандидатов. При этом по абсолютному количеству второй автор может быть впереди, и, таким образом, данная характеристика показывает кругозор того или иного автора, спектр его политических интересов [10]. Например, блогер carabaas.livejournal.com по абсолютному числу упоминаний находится на 23м месте с 108, но по охвату он в топе. Эту информацию можно использовать с тем, чтобы эффективно и точно выделять тех блогеров, на которых можно влиять с целью распространять нужные мнения по сети.

Итак, теперь мы можем подтвердить и вторую гипотезу: выявлять топовых блогеров, которые влияют на общество можно, и, более того, можно определять каких кандидатов они обсуждают преимущественно, каков спектр их охвата.

В результате проведенного исследования и мониторинга блогосферы удалось подтвердить обе гипотезы относительно статистических данных о кандидатах. Исследование показало, какие кандидаты имеют более высокий шанс победить на выборах, а также на каких площадках и кто именно преимущественно их обсуждает. Эта информация потенциально может быть полезна в любых выборных кампаниях тем кандидатам, которые хотят получить электоральные преимущества и воздействовать на свою аудиторию.

Реализации технологии мониторинга агитационных действий с помощью разработанной методики и с использованием описанного алгоритма и теории графов будут полезны на разных этапах мониторинга социальных сетей и избирательного процесса - как во время избирательных кампаний, так и в периоды между ними. Также возможно применение системы сбора данных и формирования графа в любых сферах деятельности, где структура может быть представлена в виде графа с четко выраженными узлами и связями между ними.

Литература

1. Розин М.Д., Свечкарев В.П., Конторович С.Д., Литвинов С.В., Носко В.И. Проблемы мониторинга социальных сетей как площадки социальной коммуникации рунета // Научная мысль Кавказа. Междисциплинарные и специальные исследования, 2011, №2. С.65-77.

2. Розин М.Д., Свечкарев В.П., Конторович С.Д., Литвинов С.В., Носко В.И. Исследование социальных сетей как площадки социальной коммуникации рунета, используемой в целях предвыборной агитации // Инженерный вестник Дона, 2011, №1. URL: ivdon.ru/ magazine/archive/n1y2011/397

3. Конторович С.Д., Литвинов С.В., Носко В.И. Методика мониторинга и моделирования структуры политически активного сегмента социальных сетей // Инженерный вестник Дона, 2011, №4 URL: ivdon.ru/ru/magazine/archive/n4y2011/642

4. Носко В.И. Система автоматизированного построения графа социальной сети // Инженерный вестник Дона, 2012, №4. URL: ivdon.ru/magazine/archive/n4p2y2012/1428

5. Newman, Mark E.J. "The structure and function of complex networks." SIAM review 45, no. 2 (2003): pp.167-256.

6. Bird Steven. Natural Language Processing with Python. - O'Reilly Media Inc, 2009. - 482 с.

7. MongoDB is an open-source document database, and the leading NoSQL database. Written in C++. URL: mongodb.org

8. Robomongo 0.8.4. Shell-centric cross-platform mongodb management tool. URL: robomongo.org

9. Губанов Д.А. Социальные сети: модели информационного влияния, управления и противоборства / Под ред. чл.-кор. РАН Д.А. Новикова / Д.А. Губанов, Д.А. Новиков, А.Г. Чхартишвили. - М.: Изд-во физ.-мат. лит., 2010. - 228 с.

10. Заруцкий, С.А. Система выбора и настройки метода агрегирования как элемент инструментария СППР в сфере региональной политики // Управление экономическими системами: электронный научный журнал, Издательство: Кисловодский институт экономики и права (Кисловодск), 2013, №11. URL: uecs.ru/marketing/item/2544-2013-11-20-05-54-16

Размещено на Allbest.ru

...

Подобные документы

  • Понятие и общая характеристика социальных сетей, принципы их функционирования, достоинства и недостатки использования. Формирование функциональных требований к информационному пространству научных исследований. Направления исследований социальных сетей.

    дипломная работа [222,7 K], добавлен 18.07.2014

  • Изучение понятия социальных сетей. Классификация социальных сетей по тематике и по форме общения их аудитории: общетематические, специализированные, глобальные, мультимедийные, блоги, микроблоги. Facebook - одна из самых популярных социальных сетей.

    презентация [405,6 K], добавлен 05.06.2013

  • Разработка системы мониторинга пользовательских запросов в крупной социальной сети - ООО "В Контакте". Анализ маркетингового положения компании в сфере социальных сетей. Характеристика потребительского сегмента. Техническая поддержка социальных сетей.

    дипломная работа [3,0 M], добавлен 25.10.2015

  • Сущность малого предпринимательства. Применение информационных технологий в корпоративной инфраструктуре. Развития социальных сетей в Интернете. Корреляционный анализ зависимости популяризации социальных сетей от интеграции населения в среду Интернет.

    контрольная работа [423,9 K], добавлен 17.04.2013

  • Использование социальных сетей и медиа компаниями. Программа исследования факторов подписки на официальные аккаунты брендов в Twitter и Instagram. Применение мобильного Интернета целевыми группами российских потребителей. Тестируемые гипотезы и модель.

    дипломная работа [2,9 M], добавлен 30.12.2015

  • Анализ методов и средств выявления мнений пользователей социальных сетей. Обзор средств мониторинга и анализа, подбор необходимого программного обеспечения и технических средств. Разработка архитектуры базы данных, реализация программных модулей.

    дипломная работа [3,7 M], добавлен 19.01.2017

  • История развития и классификация социальных сетей. Характеристика наиболее популярных социальных сетей. Сети Рунета: ВКонтакте, Одноклассники, Мой круг, Мой мир (на www.mail.ru), RuSpace. Социальная сеть Facebook как лидер среди социальных сетей.

    реферат [4,0 M], добавлен 23.06.2012

  • Возникновение информатики во второй половине XX столетия. Теория графов. Понятие и терминология теории графов. Некоторые задачи теории графов. Математическая логика и теория типов. Теория вычислимости и искусственный интеллект.

    реферат [247,4 K], добавлен 15.08.2007

  • История создания и развития крупнейших социальных сетей в интернете. Анализ роста количества рекламы в них. Принципы построения рейтинга популярности. Опасности, которые они несут для человека и возможность использования его конфиденциальной информации.

    реферат [411,6 K], добавлен 19.01.2015

  • Особенности кластеризации социальных сетей, методы распознавания сообществ. Особенности локального прореживания графа. Разработка рекомендаций по выбору метода кластеризации для выделенных классов задач. Оптимизация процесса дальнейшей обработки данных.

    курсовая работа [1,8 M], добавлен 30.06.2017

  • Типы социальных сетей, их влияние на современного человека. Тенденции и перспективы развития социальных сетей. Внедрение в повседневную жизнь мобильных интернет-технологий. Анализ социальной сети на примере VK.com - крупнейшей в Рунете социальной сети.

    курсовая работа [48,0 K], добавлен 07.08.2013

  • История возникновения, основные понятия и теоремы теории графов. Способы предоставления графов в компьютере. Матрица смежности, инциденций, списки смежности и массив дуг. Программа определения кратчайшего пути в графах. Язык программирования Delphi.

    курсовая работа [823,5 K], добавлен 24.11.2010

  • Методика интеграции аутентификации на web-сайте через социальные сети. Проектирование интерфейсов основных классов программ, осуществляющих взаимодействие между библиотеками OAuth социальных сетей Facebook и Twitter с использованием шифрования SSL.

    дипломная работа [3,0 M], добавлен 08.01.2014

  • Основные понятия теории множеств, математической логики и статистики, вероятностей. Теория графов и алгоритмов. Моделирование социальных процессов. Аппаратное и программное обеспечения электронно-вычислительных машин. Информационные и экспертные системы.

    курс лекций [894,3 K], добавлен 01.12.2015

  • Сущность и значение мониторинга и анализа локальных сетей как контроля работоспособности. Классификация средств мониторинга и анализа, сбор первичных данных о работе сети: анализаторы протоколов и сетей. Протокол SNMP: отличия, безопасность, недостатки.

    контрольная работа [474,8 K], добавлен 07.12.2010

  • Применение теории графов и алгоритмов на графах среди дисциплин и методов дискретной математики. Граф как совокупность двух множеств. Основные способы численного представления графа. Элементы и изоморфизмы графов. Требования к представлению графов в ЭВМ.

    курсовая работа [162,2 K], добавлен 04.02.2011

  • Обзор рынка мобильных приложений, социальных сетей, аналогов. Обзор инструментов разработки: Android Studio, Microsoft visual С# 2012, PostgreeSQL, API Открытых данных Вологодской области, API Социальных сетей. Программный код, разработка интерфейса.

    дипломная работа [2,6 M], добавлен 10.07.2017

  • Актуальный статус социальных сетей: их понятие и внутренняя структура, история становления и развития, целевая аудитория, классификация и разновидности, позиция организаций. Анализ деятельности музыкальной группы "Perpetum Mobile" в социальных сетях.

    курсовая работа [1,6 M], добавлен 17.06.2013

  • Обзор существующих решений на основе открытых данных. Выбор социальных сетей для извлечения данных. Ограничение геолокации сообщений из социальных сетей. Разработка формата хранения. Визуализация собранных данных методом теплой карты. Архитектура системы.

    дипломная работа [1,0 M], добавлен 18.11.2017

  • В статье рассмотрен подход к созданию моделей композитного документооборота на основе аппарата теории графов. Описаны методы детерминирования множеств для разработанной модели, предложена алгебра документооборота с использованием графов.

    статья [346,4 K], добавлен 19.04.2006

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.