Система автоматизированного построения графа социальной сети
Обработка страниц социальных сетей и блогосферы (парсинг) для генерации таблицы упоминаний. Поиск соответствия паттерна экстрактора комбинации CSS-классов и HTMLтегов. Настройки экспорта данных и атрибутов поля "Автор комментария" в модуле Feeds.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | реферат |
Язык | русский |
Дата добавления | 30.05.2017 |
Размер файла | 1018,2 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
РЕФЕРАТ
СИСТЕМА АВТОМАТИЗИРОВАННОГО ПОСТРОЕНИЯ ГРАФА СОЦИАЛЬНОЙ СЕТИ
На сегодняшний день существует некоторое количество автоматизированных систем классификации и анализа интернет-текстов. Такая услуга оказалась весьма востребована на ниве интернет-продаж, такие сервисы предлагают своим клиентам, например, автоматическую индикацию тональности сообщений. Основаны такие системы, как правило, на соотнесении имеющего текстового фрагмента с заранее составленными тональными словарями.
Безусловно, это направление будет интенсивно развиваться в ближайшие годы, но на данный момент наиболее адекватным инструментом анализа представляется ручная обработка данных мониторинга социальных медиа.
В Северо-Кавказском научном центре высшей школы Южного федерального университета (далее СКНЦ ВШ ЮФУ) разработана программная платформа автоматизированного построения графа социальной сети при помощи обработки интернет страниц социальных сетей. Система применялась для автоматизированного сбора данных в период избирательной кампании в Государственную думу в 2011 году.
Для генерации таблицы упоминаний обработка страниц социальных сетей и блогосферы (парсинг) реализуется с применением модуля Feeds для CMF Drupal с плагином SimpleHTMLDOMparser. В процессе парсинга система обращается к странице с информацией в Интернет и производит выборку данных из DOM дерева HTML в соответствии с набором тегов и каскадной таблицей стилей.
Рассмотрим конфигурацию модуля для импорта в систему комментариев пользователей. Система разработана таким образом, что позволяет разделять собираемую информацию на элементарные части, каждая из которых представляет собой отдельное поле в базе данных. Импорт производится гранулярно, что впоследствии дает возможность гибко фильтровать результаты. В набор собираемых данных (см. рис. 1) входят следующие экстракторы (Extractions):
заголовок комментария;
автор комментария - никнейм пользователя в сети или блоге;
автор журнала - запись, к которой относится комментарий;
комментарий - собственно текст;
ссылка на комментарий;
журнал комментатора;
журнал автора поста;
дата комментирования - актуальная дата размещения комментария в сети.
Рис. 1. - Настройки экспорта данных в модуле Feeds
Поиск данных производится иерархически:
Сначала система инспектирует Root node pattern (корневой образец) и определяет набор повторяющихся элементов на странице.
Затем в каждом из таких элементов ведется поиск соответствия паттерна экстрактора комбинации CSS-классов и HTMLтегов.
В частности, для поля «Автор комментария» необходимо установить паттерн «ul[class='info b-hlist b-hlist-middot'] li a» с атрибутом «plaintext». Такой паттерн обеспечивает погружение в дерево DOM HTML и экспортирует все элементы, которые находятся в ненумерованном списке «ul» с классом «info b-hlist b-hlist-middot» и обернуты тегом «a» (см. рис. 2).
Рис. 2. - Настройка паттерна и атрибутов поля «Автор комментария» в модуле Feeds
Каждый экспортируемый элемент в системе соответствует предустановленным полям типа материала Feed item (экземпляр фида). Таблица соответствия представлена на рис. 3.
Рис. 3. - Настройка паттерна и атрибутов поля «Автор комментария» в модуле Feeds
После настройки всех необходимых параметров система начинает парсинг по выбранным ключевым словам. В результате в системе будет сформирована таблица с набором данных о комментариях, представленная на рис. 4: заголовок комментария, дата его импорта в систему, автор комментария, автор блога, к которому относится комментарий, текст комментария, дата его публикации в сети Интернет, тональность (позитив, негатив, нейтрал), определяемая пользователем системы.
Рис. 4. - таблица с данными комментариев
Для дальнейшего анализа графа производится экспорт сформированной таблицы в один из поддерживаемых форматов. Для экспорта следует воспользоваться кнопкой XLS, находящейся под таблицей, рис. 5.
Рис. 5. - кнопки экспорта таблицы
В процессе экспорта можно наблюдать за его прогрессом: отображается время, которое необходимо системе для формирования файла и процент выполнения, рис. 6. социальный сеть таблица паттерн
Рис. 6. - процесс экспорта данных
Результат экспорта - файл, который следует сохранить для дальнейшего анализа графа, рис. 7.
Рис. 7. - результат экспорта
Реализации технологии мониторинга агитационных действий с помощью разработанной модели и с использованием описанного алгоритма будут полезны на разных этапах мониторинга социальных сетей и избирательного процесса - как во время избирательных кампаний, так и в периоды между ними. Также возможно применение системы сбора данных и формирования графа в любых сферах деятельности, где структура может быть представлена в виде графа с четко выраженными узлами и связям между ними.
Литература
1. Меркулова, Т.В. Моделирование динамики пользователей социальных сетей [Электронный ресурс] / Т.В. Меркулова, Е.Ю. Кононова. http://www.cyber.kharkov.ua/ contentimages/ 15.model.soc.net.pdf - Загл. с экрана. - Яз. рус.
2. Губанов Д.А. Социальные сети: модели информационного влияния, управления и противоборства [Текст] / Под ред. чл.-кор. РАН Д.А. Новикова / Д.А. Губанов, Д.А. Новиков, А.Г. Чхартишвили. - М.: Изд-во физ.-мат. лит., 2010. - 228 с.
3. Сайт сервиса Яндекс.Поиск по блогам [Электронный ресурс] / 2011. Режим доступа: http://blogs.yandex.ru, свободный. -- Загл. с экрана. -- Яз.рус.
4. Семантический анализ текста онлайн [Электронный ресурс] / 2011. Режим доступа: http://advego.ru/text/seo, свободный. -- Загл. с экрана. -- Яз.рус.
Размещено на Allbest.ru
...Подобные документы
Особенности кластеризации социальных сетей, методы распознавания сообществ. Особенности локального прореживания графа. Разработка рекомендаций по выбору метода кластеризации для выделенных классов задач. Оптимизация процесса дальнейшей обработки данных.
курсовая работа [1,8 M], добавлен 30.06.2017Типы социальных сетей, их влияние на современного человека. Тенденции и перспективы развития социальных сетей. Внедрение в повседневную жизнь мобильных интернет-технологий. Анализ социальной сети на примере VK.com - крупнейшей в Рунете социальной сети.
курсовая работа [48,0 K], добавлен 07.08.2013Классификация компьютерных сетей. Назначение компьютерной сети. Основные виды вычислительных сетей. Локальная и глобальная вычислительные сети. Способы построения сетей. Одноранговые сети. Проводные и беспроводные каналы. Протоколы передачи данных.
курсовая работа [36,0 K], добавлен 18.10.2008Разработка системы мониторинга пользовательских запросов в крупной социальной сети - ООО "В Контакте". Анализ маркетингового положения компании в сфере социальных сетей. Характеристика потребительского сегмента. Техническая поддержка социальных сетей.
дипломная работа [3,0 M], добавлен 25.10.2015Обзор рынка мобильных приложений, социальных сетей, аналогов. Обзор инструментов разработки: Android Studio, Microsoft visual С# 2012, PostgreeSQL, API Открытых данных Вологодской области, API Социальных сетей. Программный код, разработка интерфейса.
дипломная работа [2,6 M], добавлен 10.07.2017История развития и классификация социальных сетей. Характеристика наиболее популярных социальных сетей. Сети Рунета: ВКонтакте, Одноклассники, Мой круг, Мой мир (на www.mail.ru), RuSpace. Социальная сеть Facebook как лидер среди социальных сетей.
реферат [4,0 M], добавлен 23.06.2012Технология построения сетей передачи данных. Правила алгоритма CSMA/CD для передающей станции. Анализ существующей сети передачи данных предприятия "Минские тепловые сети". Построение сети на основе технологии Fast Ethernet для административного здания.
дипломная работа [2,5 M], добавлен 15.02.2013Понятие базы данных в Microsoft Access, описание таблицы как объекта. Назначение запросов, форм, отчетов и страниц. Макросы и модули в СУБД. Порядок создания базы данных, ввод описания поля. Свойства полей таблиц. Построение реляционной модели данных.
презентация [389,6 K], добавлен 18.01.2014Изучение понятия социальных сетей. Классификация социальных сетей по тематике и по форме общения их аудитории: общетематические, специализированные, глобальные, мультимедийные, блоги, микроблоги. Facebook - одна из самых популярных социальных сетей.
презентация [405,6 K], добавлен 05.06.2013Преимущества и недостатки нейронных сетей с радиальными базисными функциями (РБФ). Функции newrbe и newrb для построения РБФ общего вида и автоматической настройки весов и смещений. Пример построения нейронной сети с РБФ в математической среде Matlab.
лабораторная работа [238,7 K], добавлен 05.10.2010Методика интеграции аутентификации на web-сайте через социальные сети. Проектирование интерфейсов основных классов программ, осуществляющих взаимодействие между библиотеками OAuth социальных сетей Facebook и Twitter с использованием шифрования SSL.
дипломная работа [3,0 M], добавлен 08.01.2014Анализ предметной области. Перечень хранимой информации: таблицы, поля, типы. Выделение сущностей, атрибутов, ключей, связей. Начальное заполнение данными БД. Создание и запуск базовых запросов. Проектирование базы данных в среде Enterprise Architect.
курсовая работа [1,6 M], добавлен 16.02.2016Понятие локальной вычислительной сети, архитектура построения компьютерных сетей. Локальные настройки компьютеров. Установка учетной записи администратора. Настройка антивирусной безопасности. Структура подразделения по обслуживанию компьютерной сети.
дипломная работа [2,1 M], добавлен 15.01.2015Формы представляемой информации. Основные типы используемой модели данных. Уровни информационных процессов. Поиск информации и поиск данных. Сетевое хранилище данных. Проблемы разработки и сопровождения хранилищ данных. Технологии обработки данных.
лекция [15,5 K], добавлен 19.08.2013Анализ предметной области - магазин "Канцелярские товары". Проектирование и реализация базы данных в MS SQL Server. Перечень хранимой информации: таблицы, поля, типы. Моделирование предметной области. Выделение сущностей, атрибутов, ключей, связей.
курсовая работа [2,2 M], добавлен 05.02.2015Языки разметки и таблицы стилей. Базы данных и СУБД для web-приложений. Поддержка, обслуживание и продвижение сайтов. Этапы составления индекса и поиска по нему. Программно-технические средства приложения. Верстка страниц, публикация данных сайта.
дипломная работа [1,6 M], добавлен 12.12.2013Понимание хранилища данных, его ключевые особенности. Основные типы хранилищ данных. Главные неудобства размерного подхода. Обработка информации, аналитическая обработка и добыча данных. Интерактивная аналитическая обработка данных в реальном времени.
реферат [849,7 K], добавлен 16.12.2016Архитектура построения компьютерных сетей. Структура стандартов IEEE 802. Программы проверки сети. Инструмент для обжима коннекторов. Общие локальные настройки компьютеров. Определение состава и структуры персонала. Расчет бюджета рабочего времени.
дипломная работа [1,3 M], добавлен 14.01.2015Характерные особенности социальной сети. Описание социальных сетей "Facebook", "Вконтакте", "Одноклассники". Разработка собственного подобного сайта, с регистрацией профилей, загрузкой изображений, отправкой сообщений, поиском, разграничением приватности.
курсовая работа [1,9 M], добавлен 30.01.2014Internet - основные функции. Поиск нужной информации. Быстрое открытие любимых страниц (папка Избранное). Добавление к списку избранного. Поиск посещенных Web-узлов. Электронная почта. Сохранение Web-страниц.
реферат [25,7 K], добавлен 12.06.2007