Распределенный анализ категориальных последовательностей для непрерывного производства

Выявление паттернов в последовательностях категориальных данных для непрерывного производства. Необходимость разработки подходов для анализа больших объемов данных. Главные методы распределенной обработки, позволяющие проводить анализ данных в потоке.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 25.05.2017
Размер файла 178,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Распределенный анализ категориальных последовательностей для непрерывного производства

В области анализа данных последовательностью называют упорядоченный набор элементов, каждый из которых может быть числовым, категориальным (состоящим из нескольких качественных значений), или смешанным [1, с. 1]. Расположение таких элементов в последовательности строго определено в зависимости от логического порядка их следования (категориальные последовательности) или от времени их появления (временные ряды). На сегодняшний день анализ последовательностей данных широко применяется во многих областях - медицине, биологии, производстве, однако существующие на данным момент подходы используют алгоритмы, работа которых существенно зависит от размерности входных данных. В данной статье представляется подход к анализу категориальных последовательностей с использованием технологии распределенной обработки, позволяющей эффективно работать с данными, размеры которых превышают доступную оперативную память.

Выбор алгоритма для анализа потоковых данных

При работе с потоковыми данными зачастую возникают трудности, которые можно разделить на следующие категории:

1. Проблема передачи данных на вход программы из-за высоких скоростей генерации новых данных;

2. Проблема выполнения операций вычисления сложных функций с использованием большого количества входных данных, которые быстро обновляются, что влечет за собой серьезные нагрузки на вычислительную инфраструктуру;

3. Проблема хранения данных (временно или в целях последующего использования их в долгосрочной перспективе).

Исследование литературы по вопросам выявления паттернов в категориальных последовательностях показало, что наиболее популярными методами являются подходы, разработанные группой исследователей IBM Research [2, 3], которые представили алгоритмы AprioriSome, AprioriAll, DynamicSome и SPADE. Однако применение указанных подходов не позволяет решить проблемы, специфичные для потоковых данных. В первую очередь это связано с использованием в данных алгоритмах чрезмерно сложных структур данных, а также с большим количеством запросов к базе данных. Таким образом, данные алгоритмы трудны для распараллеливания, что делает трудоемким создание распределенной системы на их основе.

Намного более пригодными для распараллеливания являются алгоритмы поиска подпоследовательностей FreeSpan, PrefixSpan и GSP. Сравнение масштабируемости этих алгоритмах на редуцированном наборе данных, включающем в себя 40000 последовательностей, представлены на рисунках 1, 2.

На рисунке 1 изображены графики зависимоссти времени выполнения алгоритма от значения параметра минимальной поддержки, характеризующего процент различия между последовательностью данных и входящей в нее подпоследовательностью. Из графиков видно, что наилучшей масштабируемостью обладает алгоритм PrefixSpan [4, с. 3].

Рисунок 1. Проверка масштабируемости времени выполнения алгоритмов GSP, FreeSpan, PrefixSpan

непрерывный распределенный паттерн

На рисунке 2 представлено сравнение использования памяти алгоритмами GSP и PrefixSpan при различных значениях параметра минимальной поддержки. Из графиков видно, что PrefixSpan более стабилен в использовании памяти.

Рисунок 2. Проверка масштабируемости использования памяти алгоритмами GSP и PrefixSpan

Распараллеливание вычислений

Исследование масшлабируемости алгоритмов показало, что алгоритм PrefixSpan применим для решения задачи анализа категориальных последовательностей, поскольку имеет хорошие показатели масштабируемости. Однако для адаптации к специфике решаемой задачи (необходимость обработки больших объемов данных), требуется использование дополнительных мер по ускорению алгоритма, а также сокращению объема занимаемой памяти. Обе эти проблемы могут быть успешно решены с помощью технологии MapReduce, которая с одной стороны позволят занимать наименьший объем в памяти, с другой стороны дает возможность сохранять наибольший объем информации для анализа, а также сокращать время выполнения алгоритма. В обобщенном виде технологию MapReduce можно представить в виде схемы, изображенной на рисунке 3.

Рисунок 3. Технология MapReduce

Использование данной технологии применительно к решаемой задаче заключается в адаптации выбранного алгоритма (PrefixSpan) к данной технологии - представлении функций, используемых в алгоритме, в виде комбинации функций Map и Reduce. Назначение данных функций подробно описано в [5].

Обобщенный вид системы

В связи с увеличением числа данных, подлежащих обработке и анализу, в системы распределенного анализа требуется вводить в инфраструктуры, обеспечивающие гибкую работу с кластерами, на которых выполняются вычисления. Amazon EMR предоставляет управляемую инфраструктуру, которая способна эффективно обрабатывать большие объемы данных на динамически масштабируемых кластерах Amazon EC2.

На рисунке 4 представлена обобщенная архитектура системы анализа потоковых данных на кластерах с использованием облачной инфраструктуры Amazon ERM.

Рисунок 4. Архитектура системы

Выявление паттернов в последовательностях категориальных данных предлагается выполнить на основе алгоритма PrefixSpan, адаптированного для распределенной работы с использованием технологии MapReduce. Модель MapReduce может быть реализована на платформе анализа данных Apache Spark, которая представляет собой новую кластерную распределенную вычислительную среду, предназначенную для итерационных вычислений с низкой задержкой [6, с. 3].

Данный фреймворк позволяет эффективно распределять нагрузку по кластерам при выполнении операций алгоритма PrefixSpan. Spark доступен для запуска в Amazon EMR, благодаря чему разворачивание распределенной кластерной архитектуры становится доступнее. Кроме того, программый интерфейс Apache Spark доступен на языках программирования высокого уровня Java, Python и Scala, что обеспечивает простоту поддержки и интеграции с другими компонентами, а также последующего расширения системы.

Библиографический список

1. Kerdprasop K., Kerdprasop N. Sequence Analysis Technique to Detect Performance Patterns in Complex Manufacturing Process. - 2013.

2. Agrawal R., Srikant R. Mining sequential patterns //Data Engineering, 1995. Proceedings of the Eleventh International Conference on. - IEEE, 1995. - С. 3-14.

3. Zaki M.J. SPADE: An efficient algorithm for mining frequent sequences //Machine learning. - 2001. - Т. 42. - №. 1. - С. 31-60.

4. Aloysius G., Binu D. An approach to products placement in supermarkets using PrefixSpan algorithm //Journal of King Saud University-Computer and Information Sciences. - 2013. - Т. 25. - №. 1. - С. 77-87.

5. Ekanayake J., Pallickara S., Fox G. Mapreduce for data intensive scientific analyses //eScience, 2008. eScience'08. IEEE Fourth International Conference on. - IEEE, 2008. - С. 277-284.

6. Meng X. et al. Mllib: Machine learning in apache spark //Journal of Machine Learning Research. - 2016. - Т. 17. - №. 34. - С. 1-7.

Размещено на Allbest.ru

...

Подобные документы

  • Система управление базами данных, реляционная модель. Принципы взаимодействия между клиентскими и серверными частями. Трехуровневая модель технологии "клиент-сервер". Фрактальные методы сжатия больших объемов данных. Анализ концепции хранилища данных.

    курс лекций [265,0 K], добавлен 05.06.2009

  • Перспективные направления анализа данных: анализ текстовой информации, интеллектуальный анализ данных. Анализ структурированной информации, хранящейся в базах данных. Процесс анализа текстовых документов. Особенности предварительной обработки данных.

    реферат [443,2 K], добавлен 13.02.2014

  • Метод анализа иерархий. Система для хранения больших объемов информации является база данных. База данных в наибольшей степени удовлетворяет всем выделенным критериям. Она обеспечивает быстрый поиск нужной информации (оперативность).

    контрольная работа [326,9 K], добавлен 10.06.2004

  • Обработка текстовых данных, хранящихся в файле. Задачи и алгоритмы обработки больших массивов действительных и натуральных чисел. Практические задачи по алгоритмам обработки данных. Решение задачи о пяти ферзях. Программа, которая реализует сортировку Шел

    курсовая работа [29,2 K], добавлен 09.02.2011

  • Концепции хранилищ данных для анализа и их составляющие: интеграции и согласования данных из различных источников, разделения наборов данных для систем обработки транзакций и поддержки принятия решений. Архитектура баз для хранилищ и витрины данных.

    реферат [1,3 M], добавлен 25.03.2013

  • Технология деятельности техника-программиста на предприятии. Анализ предметной области. Обоснование выбора среды разработки. Сравнительный анализ методов сортировки данных. Проектирование базы данных. Методы, алгоритм и средства обработки данных.

    отчет по практике [498,2 K], добавлен 03.05.2015

  • Формы представляемой информации. Основные типы используемой модели данных. Уровни информационных процессов. Поиск информации и поиск данных. Сетевое хранилище данных. Проблемы разработки и сопровождения хранилищ данных. Технологии обработки данных.

    лекция [15,5 K], добавлен 19.08.2013

  • Система компьютерной обработки данных для сбора, систематизации, статистической обработки, анализа результатов учебного процесса за четверть, полугодие, год. Модуль обработки данных о качестве обучения, итогов успеваемости и данных о движении учащихся.

    реферат [22,5 K], добавлен 05.02.2011

  • Анализ структуры распределенной информационной системы и обрабатываемых в ней персональных данных. Выбор основных мер и средств для обеспечения безопасности персональных данных от актуальных угроз. Определение затрат на создание и поддержку проекта.

    дипломная работа [5,3 M], добавлен 01.07.2011

  • Проблемы, связанные с продуктивным распределением и систематизированием больших потоков информации. Основные виды распределенных баз данных, анализ процессов их функционирования. Стратегии распределения данных. Распределение сетевого справочника данных.

    курсовая работа [397,5 K], добавлен 09.08.2015

  • Термины "логический" и "физический" как отражение различия аспектов представления данных. Методы доступа к записям в файлах. Структура систем управления базами данных. Отличительные особенности обработки данных, характерные для файловых систем и СУБД.

    лекция [169,7 K], добавлен 19.08.2013

  • Базы данных как совокупность структур, предназначенных для хранения больших объемов информации и программных модулей. Основные особенности создания базы данных автобусного парка, анализ этапов проектирования. PHP как скриптовый язык программирования.

    курсовая работа [1,9 M], добавлен 04.04.2013

  • Этапы статистического анализа данных, приемы и методы его проведения. Ключевые положения закона больших чисел в теории вероятностей, его общий смысл. Теорема Бернулли - простейшая форма закона больших чисел. Количество данных, способы его измерения.

    реферат [112,3 K], добавлен 03.03.2014

  • Режимы компьютерной обработки данных. Централизованный, децентрализованный, распределенный и интегрированный способы обработки данных. Средства обработки информации. Типы ведения диалога, пользовательский интерфейс. Табличный процессор MS Excel.

    курсовая работа [256,9 K], добавлен 25.04.2013

  • Модернизации информационной системы "Техническая подготовка производства". Анализ процессов обработки данных при процессе заказа и размещения технологического оборудования, разработка модели автоматизированной обработки данных при помощи методологии RAD.

    дипломная работа [2,5 M], добавлен 23.06.2012

  • Расмотрение системы распределенной обработки данных подсистемы "Ведомственная статистика" АИС ФССП России. Основные формы отчётности, производимые подсистемой. Форматы передачи данных. Окно выгрузки шаблона отчетной формы. Тестирование системы приложения.

    отчет по практике [879,5 K], добавлен 21.11.2014

  • MPI как программный инструментарий для обеспечения связи между ветвями параллельного приложения. Его содержание, структура и элементы, принципы работы. Составление распределенной базы данных. UML-диаграммы. Формирование руководства пользователя.

    курсовая работа [1,6 M], добавлен 05.01.2013

  • Обзор существующих решений на основе открытых данных. Технологии обработки данных и методы их визуализации. Социальные сети для извлечения данных. Ограничение географической локации. Выбор набора и формат хранения открытых данных, архитектура системы.

    курсовая работа [129,5 K], добавлен 09.06.2017

  • Разработка комплекса интеллектуального анализа данных, получаемых в процессе работы коммерческого предприятия розничной торговли. Исследование стационарности ассоциаций, выявление частоты появления ассоциаций. Скрипты для создания баз данных и таблиц.

    курсовая работа [706,3 K], добавлен 07.08.2013

  • Обзор моделей анализа и синтеза модульных систем обработки данных. Модели и методы решения задач дискретного программирования при проектировании. Декомпозиция прикладных задач и документов систем обработки данных на этапе технического проектирования.

    диссертация [423,1 K], добавлен 07.12.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.