Методика и фреймворк конструирования лингвистических моделей для сетевого мониторинга

Развитие методологии и программного инструментария, способных в режиме реального времени отслеживать распространение информации. Описание программного интерфейса и возможности фреймворка. Процесс сбора и анализа публикаций в современной сети Интернет.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 28.07.2017
Размер файла 24,8 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Южный федеральный университет

Методика и фреймворк конструирования лингвистических моделей для сетевого мониторинга

В.И. Носко, В.П. Свечкарев, М.Д. Розин

Аннотация

Высочайшая динамика процессов проявления экстремизма задает темп развитию методологии и программного инструментария, способных в режиме реального времени отслеживать распространение информации, в том числе, в социальных сетях, анализировать ее смыслы и посылы и строить прогностические модели развития ситуаций. Представлена методика умного конструирования лингвистических моделей, которые способны учитывать контекст и гибко адаптироваться под предметную область для анализа текстов в социальных сетях в рамках прикладной задачи упреждения информационно-управляемых угроз на основе технологий Data Mining. Выделены основные недостатки использования простого инжиниринга атрибутов (feature engineering) и метода «мешок слов» (bag of words) в задачах классификации текстов. Описан программный интерфейс и возможности фреймворка, в котором эта методика применяется и показано, как данный фреймворк может использоваться для решения задач бизнеса и государства в процессе сбора и анализа публикаций в сети Интернет.

Ключевые слова: обработка естественного языка, лингвистическая модель, машинное обучение, инжиниринга атрибутов, фреймворк обработки текста, классификация текстов, конструктор языковых моделей, морфологический анализ.

Актуальность проблемы сетевого мониторинга определяется спецификой современной глобальной коммуникативной ситуации, отражающей рост активности непрерывно умножающегося сообщества участников сетевого взаимодействия. Особенно актуализируется мониторинг таких взаимодействий в конфликтных ситуациях, когда наблюдаются признаки как скрытой (латентной), так и открытой агрессии и проявлений экстремизма, способных вызвать социальное напряжение.

В дальнейшем формируются узлы напряженности, увязанные между собой множеством разнообразных отношений и связей, и, зачастую, имеющих скрытое информационное управление, распространяемое по ключевым информационным ресурсам. Причем утрата внешней очевидности такого рода угроз не делает их менее опасными для национальной безопасности России [1, 2]. В подобной ситуации методологически оправдана реализация противодействия экстремистской сетевой агрессии, позволяющего в долгосрочной перспективе предотвращать формирование узлов напряженности и среды её поддержки и инициализации [3, 4].

Высочайшая динамика процессов проявления экстремизма задает темп развитию методологии и программного инструментария, способных в режиме реального времени отслеживать распространение информации, в том числе, в социальных сетях, анализировать ее смыслы и посылы и строить прогностические модели развития ситуаций. В условиях, когда непрерывно генерируются всё новые угрозы террористических атак, видоизменяются попытки дестабилизировать ситуацию и совершенствуются механизмы вовлечения в экстремистскую деятельность населения, требуется формирование методологии и научного инструментария исследования принципиально нового уровня. Информационные и интеллектуальные методы мониторинга и оценки структуры и динамики социальных сетей позволяют находить очаги зарождения потоков информации, в том числе конкретных агентов влияния, а также группы таких агентов, действующих в едином смысловом поле. Такой подход позволяет находить скрытые связи и закономерности, модели поведения и потребления культурных и социальных инициатив.

Следует отметить, что методологическая проблема применения анализа взаимодействий в социальных сетях в прикладной задаче упреждения динамичных процессов является достаточно новой. В статье М. Ньюмана [5] дается подробный обзор существующих сетей, включая социальные, информационные, технологические и биологические, выявляются концептуальные сходства и различия между ними. Рассматриваются такие свойства сетей как кластеризация, распределение степеней, длина пути и др.

В статье [6] авторы подробно рассматривают концепцию управления сложными сетями, вводят понятие «драйвер», приводят анализ того, каким образом ограниченная группа активных участников сети может влиять на ее структурные и динамические свойства. В книге [7] предпринята попытка систематизировать математические модели, касающиеся информационного влияния, управления и противоборства в социальных сетях. Далее проведен краткий анализ использования теоретико-игровых моделей для описания взаимодействия пользователей (агентов) в социальной сети (графовая структура данных), а также представлен программный комплекс для динамическиго моделирования интересующих исследователя жизненных сценариев.

В [8] рассматриваются вопросы, относящиеся кинформационной структуре сетевого пространства, теории сложных сетей, моделям информационного поиска и глубинного анализа текстов, общим закономерностям современных информационных потоков и их моделированию. Несмотря на значительный объём и результаты вышеназванных работ, следует отметить, что в целом проблема сетевого мониторинга во всей полноте и многообразии в научной литературе исследована недостаточно, в частности, именно так обстоит дело с методиками и программными продуктами конструирования поисковых моделей, необходимых для указанного мониторинга.

В настоящей работе предпринята попытка заполнения данного пробела, а именно представляется одна из возможных реализаций фреймворка конструирования лингвистических моделей для сетевого мониторинга на основе методики их умного конструирования, которая позволяет учитывать контекст и гибко адаптироваться под предметную область.

Конструирование лингвистических моделей как одно из средств отображения языковых явлений и процессов, применяется в органическом единстве с другими методами изучения языка [9]. Модельное конструирование выступает как средство углубления познания скрытых механизмов речевой деятельности, его движения от относительно примитивных моделей к более содержательным моделям, полнее раскрывающим сущность языка. Так, известные недостатки использования простого инжиниринга атрибутов (feature engineering) и метода «мешок слов» (bag of words) в задачах классификации текстов, связанные с принципиальной невозможностью количественного описания качественных данных, динамики и взаимосвязи данных, предполагают привлечение и согласованное использование более сложных и разнообразных методов.

Действительно, если атрибуты обеспечивают детальное описание сущностей, то принципиально недопустимо замыкаться на простых или атомарных атрибутах, вынося за скобки рассмотрения составные, многозначные и производные атрибуты. Мешок слов (или Bag of Words) обычно представляется как модель текстов на натуральном языке в виде неупорядоченного набора слов без сведений о связях между ними, что принципиально исключает как качественный анализ, так и анализ структуры распространения и его динамики.

Разработанная методика конструирования моделей представляет собой комбинацию лучших мировых практик в области анализа текста, в частности, в ней применяется иерархический анализ текста, определение именованных сущностей (namedentityrecognition), определение части речи (part-of-speechtagging) и морфологические признаки слов (род, число, падеж), а также правила их согласования. В методике применяется GLR-парсер (Generalized Left-to-right Rightmost derivation parser) -- расширенный алгоритм LR-парсера, предназначенный для разбора по недетерменированным и неоднозначным грамматикам. Впервые он был описан Масару Томита в 1984 году [10], его также называют «параллельным парсером». В методике развиты наработки, описанные в [11], а именно, принципиальная ориентация на автоматическое генерирование независимых признаков поиска с возможностью в дальнейшем адаптации и обучения.

В методике используется подход, основанный на архитектурной организации процесса или конвейера с логическим ветвлением, состоящей из подпроцессов - контекстно-зависимых грамматик, каждая из которых получает на вход результат работы предыдущего подпроцесса. Новизна предлагаемой методики связана с тем, что каждый подпроцесс в свою очередь состоит из вложенных подпроцессов, уровень вложенности при этом ничем не ограничен и зависит от исследователя и конкретной прикладной задачи, а также необходимого уровня точности, которого нужно достичь в решении. Оригинальность методики заключается в том, что используется иерархичность при составлении грамматик, что позволяет исследователю в процессе решения прикладной задачи конструировать сложные смысловые атрибуты и задавать правила ранжирования и важности входящих в них более простых атрибутов.

Подпроцессы при этом состоят из грамматик и связей между ними. Важно отметить, что правила, по которым составляются грамматики, подразделяются по уровню абстракции на 4 фундаментальных класса, или уровня:

1.Уровень символов, которые задаются, как правило, регулярными выражениями;

2.Морфологический анализ, уровень слов, которые задаются онтологиями предметной области, словарями синонимов, определяются частями речи (part-of-speechtagging), морфологическими признаками слов (род, число, падеж) и правилами их согласования;

3.Синтаксический анализ, уровень предложения, когда определяется структура и связи между словами на основе роли слов и их частей речи в предложении: подлежащее, сказуемое и т.п.;

4.Смысловой анализ, уровень документа, на котором уже сформированы сложные составные атрибуты (features) с применением определения именованных сущностей (name dentity recognition) и правил извлечения смысловых блоков в документе. На этом уровне применяются логические операции «и», «или», «не» и другие, а также функции агрегации: длина, частотность и другие.

Таким образом, методика позволяет формализовать сложную задачу классификации текстов и разделить ее на меньшие составные задачи, четко предопределяя последовательность и порядок обработки данных. Например, традиционная задача классификации текстов на два класса: позитив/негатив - может быть решена при помощи простого подхода на основе словарей тональности. В результате для каждого текста на входе будет указан класс, к которому он относится: позитив или негатив. Однако такое решение в настоящее время уже не устраивает бизнес и госструктуры. Предложенная методика позволяет повысить качество определения тональности, определяя дополнительно к какому объекту в тексте относится выражаемое мнение, какой это тип объекта, а также какие именно ключевые характеристики объекта описываются во мнении. Методика позволяет конструировать языковые модели для решения задач с нечеткой логикой постановки, например: поиск агитации, экстремистских высказываний, религиозных и иных призывов, поиск информации о конкурентах, анализ языковых трендов и мемов в среде интернет-аудитории [12].

Описанная методика определяет и архитектуру фреймворка, т.е. структуру программной системы, собственно реализующей задачу конструирования лингвистических моделей и облегчающей, в свою очередь, процесс взаимодействия пользователя за счет удобного адаптируемого интерфейса. Такая организация является очень полезной, потому что создается возможность использовать многоразовые конструкты, которые обеспечивают некоторую расширенную функциональность [13]. Базовые шаблоны конструирования являются довольно примитивными и их очень легко запомнить и использовать далее для наращивания функциональности.

Таким образом, предложенные методика и фреймворк предназначены для мониторинга и оценки структуры и динамики социальных сетей. Описанные методика и фреймворк позволяют выйти на решение актуальной научной задачи мониторинга динамики речевого экстремизма в русскоязычной сетевой коммуникации, результаты мониторинга могут быть использованы для организации противодействия экстремизму, для проактивного управления в условиях сетевой агрессии.

программный интерфейс фреймворк интернет

Литература

1. Иванова М.И., Клаус Н.Г., Литвинов С.В., Мощенко И.Н., Носко В.И., Розин М.Д., Свечкарев В.П., Сущий С.Я., Тымчук Д.А., Угольницкий Г.А. Современная практика моделирования этносоциокультурной конфликтности на Юге России /Под ред. М.Д. Розина. Ростов н/Д: СКНЦ ВШ ЮФУ, 2012. 160 с.

2. Розин М.Д., Свечкарев В.П., Конторович С.Д., Литвинов С.В., Носко В.И. Проблемы мониторинга социальных сетей как площадки социальной коммуникации рунета // Научная мысль Кавказа. Междисциплинарные и специальные исследования, 2011, №2. С.65-77.

3. Rozin M.D., Svechkarev V.P., Mochtchenko I.N., Ryabtsev V.N., Suschiy S.Y. Forecast Evaluation of the Social and Political Tensions Potential for the Proactive Countermeasures against Extremism. Asian Social Science; Vol. 11, No. 6; 2015. pp. 214-220.

4. Свечкарев В.П. Технологии проактивного противодействия экстремизму // Инженерный вестник Дона, 2014. №4.

5. Newman M. E. J. The structure and function of complex networks. SIAM REVIEW. Society for Industrial and Applied Mathematics. Vol. 45, No. 2, 2003, pp. 167-256.

6. Yang-Yu Liu, Jean-Jacques Slotine, Albert-Lбszlу Barabбsi. Controllability of complex networks. Nature, vol. 473, no. 7346, 2011, pp. 167-173.

7. Губанов Д.А., Новиков Д.А., Чхартишвили А.Г. Социальные сети: модели информационного влияния, управления и противоборства / Под ред. чл-корр. РАН Д.А. Новикова. - М.: Изд-во физ.-мат. литературы, 2010. 228 с.

8. Ландэ Д.В., Снарский А.А., Безсуднов И.В. Интернетика: Навигация в сложных сетях: модели и алгоритмы. - M.: Либроком (Editorial URSS), 2009. 264с.

9. Моделирование языковой деятельности в интеллектуальных системах. Под ред. А.Е. Кибрика и А.С. Нариньяни; с предисловием А.П. Ершова. - М.: Наука, Гл. ред. физ.-мат. лит., 1987. 280 с.

10. Masaru Tomita (1984). LR parsers for natural languages. COLING. 10th International Conference on Computational Linguistics. pp. 354-357

11. Rami Al-Rfou, Bryan Perozzi, Steven Skiena. Polyglot: Distributed Word Representations for Multilingual NLP. Proceedings of the Seventeenth Conference on Computational Natural Language Learning, Sofia, Bulgaria

12. Носко В.И. Применение теории графов в интеллектуальной методике анализа социальных медиа для мониторинга популярности кандидатов в период предвыборной кампании // Инженерный вестник Дона, 2014. №3.

13. Рассел Д., Кон Р. Фреймворк - М.: Изд-во Книга по требованию, 2012. 208 с.

Размещено на Allbest.ru

...

Подобные документы

  • Средства поиска информации в сети Интернет. Основные требования и методика поиска информации. Структура и характеристика поисковых сервисов. Глобальные поисковые машины WWW (World Wide Web). Планирование поиска и сбора информации в сети Интернет.

    реферат [32,2 K], добавлен 02.11.2010

  • Общая характеристика и функциональные возможности, внутреннее устройство и принцип работы спутниковых систем мониторинга, особенности их применения в сфере сельского хозяйства. Технология решения задачи мониторинга. Разработка программного обеспечения.

    дипломная работа [5,3 M], добавлен 15.05.2014

  • Django — свободный фреймворк для веб-приложений на языке Python, использующий шаблон проектирования MVC. Архитектура и основные компоненты приложения. Главные компоненты среды разработки Django. Некоторые возможности и взаимосвязь компонентов фреймворка.

    реферат [23,7 K], добавлен 18.01.2015

  • Проектирование программного модуля: сбор исходных материалов; описание входных и выходных данных; выбор программного обеспечения. Описание типов данных и реализация интерфейса программы. Тестирование программного модуля и разработка справочной системы.

    курсовая работа [81,7 K], добавлен 18.08.2014

  • Задачи, решаемые малым предприятием с использованием Интернет-ресурсов. Способы и схемы подключения к сети Интернет. Организация доступа к информации и требования к технологии управления сетью. Расчет суммарных затрат на разработку программного продукта.

    дипломная работа [2,0 M], добавлен 17.10.2013

  • Понятие, развитие, формы организации Интернет. Сеть Интернет как информационный канал. Особенности средств массовой информации в глобальной сети, ее функции и возможности. Исследование электронных версий газет и информационных агентств в сети Интернет.

    курсовая работа [2,6 M], добавлен 09.04.2011

  • Рассмотрение основных принципов и методов проектирования систем реального времени. Описание конструктивных и функциональных особенностей объекта управления, построение диаграммы задач. Выбор аппаратной архитектуры, модели процессов-потоков, интерфейса.

    курсовая работа [1,2 M], добавлен 19.01.2015

  • Создание Интернет-сайта для упрощения связи учителей-логопедов и родителей учащихся. Проектирование макета графического интерфейса. Выбор средств разработки программного продукта. Требования к функционалу ученика. Возможности интерфейса администратора.

    дипломная работа [2,8 M], добавлен 01.04.2013

  • Структурная диаграмма программного модуля. Разработка схемы программного модуля и пользовательского интерфейса. Реализация программного модуля: код программы; описание использованных операторов и функций. Вид пользовательской формы с заполненной матрицей.

    курсовая работа [215,3 K], добавлен 01.09.2010

  • Технология конструирования программного обеспечения, надежно и эффективно работающего в реальных компьютерах. Модель быстрой разработки приложений (Rapid Application Development) как один из примеров применения инкрементной стратегии конструирования.

    реферат [666,5 K], добавлен 24.06.2009

  • Назначение и цели создания системы учета по подключению Интернет-сети. Анализ методов решения задачи, входные и выходные данные. Разработка информационной модели, алгоритма задачи и интерфейса пользователя. Этапы тестирования программного продукта.

    дипломная работа [1,8 M], добавлен 08.05.2009

  • Внедрение программного продукта в организации. Описание входной и выходной информации. Конфигурирование приложения "Сервис веб-помощи". Обзор пользовательского интерфейса. Руководство пользователя для персонала больницы и для администратора приложения.

    дипломная работа [2,9 M], добавлен 24.06.2013

  • Разработка программного комплекса и описание алгоритма. Разработка пользовательского интерфейса. Анализ тестовых испытаний программного блока. Защита пользователей от воздействия на них опасных и вредных факторов. Режимы работы программного комплекса.

    дипломная работа [1,7 M], добавлен 14.03.2013

  • Требования к технологии проектирования программного обеспечения (ПО). Состав и описание стадий полного жизненного цикла ПО. Классификация моделей жизненного цикла ПО, их особенности. Методологии разработки ПО, приёмы экстремальный программирование.

    презентация [874,4 K], добавлен 19.09.2016

  • Положение отдела автоматизации в Чернушинском техникуме. Описание технологии выполняемых работ: установки программного обеспечения, драйверов и антивирусов, создания резервных копий, настройка локальной сети интернет, ведение внутреннего документооборота.

    отчет по практике [986,6 K], добавлен 15.12.2011

  • Требования к проектируемой инфраструктуре. Характер необходимого программного обеспечения. Потоки информации, их объемные и частотные характеристики. Технологии доступа в Интернет, беспроводных и локальных сетей. Установка и монтаж сетевого оборудования.

    курсовая работа [6,4 M], добавлен 28.06.2011

  • Составление списка закупок активного и пассивного сетевого оборудования, программного обеспечения, их установки. Расчет затрат, количества дней на установку сетевого оборудования и настройку программного обеспечения. Описание базы данных в программе 1С.

    дипломная работа [2,1 M], добавлен 01.05.2015

  • Правила назначения IP адресов. Создание логической топологии. Использование программного обеспечения Cisco Packet Tracer. Настройка сетевого оборудования с использованием графического интерфейса и интерфейс командной строки. Маркировка компонентов сети.

    курсовая работа [2,9 M], добавлен 10.01.2016

  • Интернет-магазин – программное обеспечение для удобства покупок и продаж с веб-сайта. Характеристика существующих средств проектирования и разработки информационных систем. Описание особенностей интерфейса разрабатываемого программного приложения.

    курсовая работа [703,3 K], добавлен 07.05.2019

  • Методики сбора и анализа сведений по сетевым принтерам Загорской ГАЭС; ввод полученной информации в базу данных оборудования и оргтехники на базе программного обеспечения Hardware Inspector. Изучение автоматизированных систем мониторинга и диагностики.

    отчет по практике [30,0 K], добавлен 20.07.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.