Интеграция OLAP и интеллектуальной обработки данных для анализа больших данных

Особенности технологий аналитической обработки данных, а именно OLAP и ИАД (интеллектуального анализа данных), а также их интеграция. Применение данных методов работы с разнородной информацией больших объемов, методы хранения и работы с большими данными.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 27.02.2019
Размер файла 1002,0 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Московский Технический Университет Связи и Информатики Москва, Россия

Интеграция OLAP и интеллектуальной обработки данных для анализа больших данных

Картавая И.И.

Аннотация

аналитический интеллектуальный информация хранение

В работе рассмотрены особенности технологий аналитической обработки данных, а именно OLAP и ИАД (интеллектуального анализа данных), а также их интеграция. Проанализированы основные преимущества и недостатки подобной интеграции. Описано применение вышеупомянутых методов работы с разнородной информацией больших объемов, методы хранения и работы с большими данными. Сформулирована основная задача, которую следует выполнить для реализации подобной интеграции на практике. Сделаны выводы по поводу целесообразности, обоснованности и практической ценности выбора данных.

Ключевые слова: OLAP, интеллектуальная обработка данных, ИАД, технологии, хранилище данных, Data Mining

OLAP (On-Line Analytical Processing) - технология оперативной аналитической обработки данных, в которой используются методы и средства для сбора, и анализа многомерных данных, а также их хранения. Это необходимо для поддержки процедур принятия оптимальных и обоснованных решений [1].

У истоков технологии OLAP стоит основоположник реляционного подхода Э. Кодд, написавший в 1993 г. статью «OLAP для пользователей-аналитиков: каким он должен быть». В этой публикации были описаны основные концепции оперативной аналитической обработки. Также Кодд сформулировал 12 требований, которым должны удовлетворять продукты, позволяющие выполнять оперативную аналитическую обработку[2]:

Многомерность. В OLAP должно быть реализовано многомерное хранение информации;

Прозрачность. Реализация многомерной модели, средства организации, форматирования, обработки и хранения информации не должны быть представлены никаким лицам, кроме администратора. При этом OLAP-система должна предоставлять пользователю доступ к любым интересуемым данным, вне зависимости от его местоположения;

Доступность. Сотруднику аналитического отдела необходимо выполнять обязанности, согласно концептуальной модели. Несмотря на привязку данных к главной схеме анализа, они могут зависеть от исходной СУБД, при этом доступ к данным должен быть независимо от места и способа их хранения;

Гибкая производительность. Администраторы не должны замечать изменения, связанные с ростом объема информации в хранилище данных. При разработке отчетов производительность не должна существенно падать при увеличении количества измерений, по которым осуществляется анализ;

Клиент - серверная архитектура. Вся информация, используемая для аналитических запросов любой сложности, располагается в серверных системах, а извлекается с ПК;

Равноправие измерений. Весь набор измерений данных должны иметь одинаковое значение. Их начальная архитектура, располагающаяся в них информация и форматирование должны основываться на нескольких измерениях;

Динамическая обработка разреженных матриц. Средства OLAP должны оптимально обрабатывать матрицы, имеющие преимущественно нулевые элементы ;

Поддержка многопользовательского режима. Группа аналитиков должна иметь возможность параллельной работы с моделью, или разработки новой, согласно исходным данным компании. Также должна обеспечиваться целостность и безопасность информации;

Постоянная поддержка кросcмерных операций. Работа с информацией независимо от количества измерений не должна становиться помехой для непрерывной работы ячеек друг с другом;

Интуитивное манипулирование данными. Управление, свойственное архитектуре характера интеграции, должно быть интуитивно понятно, пользователям всех уровней должно быть удобно работать в подходящем и комфортном дружественном интерфейсе;

Гибкий механизм создания отчетов. Для наглядного отображения проанализированной информации и упрощения дальнейшего ее восприятия целесообразно использовать всевозможные методы визуального представления данных: графики, диаграммы, интерактивные отчеты и т.д.;

Неограниченное количество измерений и уровней агрегации. Необходимое количество измерений, как правило, выявляется при проектировании аналитической системы, зависит от ее сложности, требований к ней и видов анализа, который будет совершаться над данными. В относительно сложных системах могут быть необходимы десятки измерений для качественного анализа.

Главным преимуществом технологии OLAP является скорость обработки аналитических запросов (зависит от количества запрашиваемых данных в одном запросе и вида анализа, но не должно превышать 30с), которая зачастую становится определяющим фактором при анализе большого количества информации. На сегодняшний день в использовании находятся достаточно большие архивы разнородных данных, возможность анализа которых позволит не только ускорить обработку запросов, получения аналитической информации, но и приведет к созданию новых методов работы с нечеткими системами. Большой объем информации существенно усложняет обработку и анализ данных, но при этом позволяет исследовать данные с целью принятия экономически обоснованных, целесообразных и оптимальных решений. Одним из возможных решений выстраивания четкой структуры из разнородных, нерегулярных данных возможно применение технологии оперативной аналитической обработки данных - OLAP.

На фазе предарительного анализа производится отбор кластеров данных из всех возможных источников (максимально доступных) которые предполагается использовать в дальнейшем анализе (например, транзакционных баз данных, аналитических отчетов, печатной прессы и т.п.), полученный массив данных необходимо согласовать и привести к единому виду и типу. Для устранения противоречивости данных используются методы нечеткой логики. Также данные должны быть отфильтрованы, обобщены и обработаны должным образом в соответствии с поставленной задачей и требованиями, поэтому необходима единая система хранения, в которую будут загружаться предварительно подготовленные и обработанные данные, впоследствии используемые для анализа. Наиболее эффективная реализация системы хранения - проектирование и создание единого хранилища данных (ХД). Хранилище данных принято обозначать как предметно-ориентированную, интегрированную, неизменяемую (все процедуры обработки, обобщения, обогащения и прочие преобразования данных обязательно должны осуществиться до этапа загрузки в хранилище) и поддерживающую хронологию электронную коллекцию данных, используемых в дальнейшем для тщательного и комплексного анализа, за счет которого обеспечивается процесс принятия эффективных, целесообразных и оптимальных решений. Затраты на проектирование и разработку хранилищ данных обычно весьма высоки. Сокращение затрат может быть достигнуто путем создания упрощенного варианта хранилища - витрины данных - содержащей только тематически объединенные данные. Витрины содержат данные, ориентированные на конкретного конечного пользователя, значительно меньшие по объему, могут строиться как самостоятельно, так и совместно с хранилищами. Преимуществом такого решения является - быстрое внедрение, эффект от их использования также не заставит себя ждать. Главный недостаток - многократное хранение одних и тех же данных в различных витринах, ввиду невозможности разным ВД обращаться к одним и тем же данным, а значит, для каждой ВД их приходится хранить отдельно, поэтому избыточность данных прямо пропорциональна количеству витрин, работающих с одними и теми же данными. Также стоит отметить отсутствие консолидированности на уровне предметной области.

Источниками исходных данных для хранилища, как правило, являются базы данных реляционного типа, содержащие сущности в раздельных таблицах. Еще на этапе проектирования их нормализуют должным образом. Однако в подобных структурах используются не простые однотабличные транзакции, что ведет к увеличению временных затрат при их обработке. Уменьшение времени (возможность быстрой обработки) больших объемов аналитически ценной и полезной информации и снятию определенных рамок и реляционных ограничений, в OLAP используют особенная структура хранения - OLAP-куб.

OLAP-куб - многомерный массив данных, эффективно используемый для обработки и дальнейшего анализа большого объема информации, а также для предоставления пользователям возможности поиска и доступа к любой части пакета данных, является основным инструментом оперативного анализа данных. Использование данного массива имеет ряд преимуществ, таких, как возможность извлечения среза данных, детализация данных, интересных конкретным пользователям разных уровней. Осуществлять операции надо кубом (срез, вращение, консолидация и детализация данных) можно как с помощью средств СУБД, так и специализированным программным обеспечением. На рисунке 1 изображен пример бюджета продаж, построенного на основе аналитики «Продукты» в OLAP-кубе.

Рис 1. Пример бюджета продаж, построенного на основе одной аналитики «Продукты» в OLAP-кубе

На практике используются три основных и наиболее часто используемых способа реализации многомерного хранения данных [3]:

? многомерный (MOLAP); ? реляционный (ROLAP); ? гибридный (HOLAP).

MOLAP [4] (Multidimensional OLAP) -- представляется как множественная система, сформированная из нескольких самостоятельных значений, использующихся для анализа конкретного пакета данных. Параллельное исследование данных по нескольким измерениям определяется как многомерный анализ.

ROLAP [4] (Relational OLAP) - представляет собой системы, осуществляющие непосредственный доступ к действующим БД или способные обрабатывать информацию, загруженную в собственные локальные таблицы.

Целесообразность использования той или иной схемы хранения данных определяется конкретной задачей и ее спецификой, особенностями, требованиями, видами аналитических запросов, которые будут осуществляться к разрабатываемой системе, для решения которой необходимо ХД. Например, если используется сравнительно небольшой объем данных, то, следовательно, необходима минимальная скорость обработки транзакции, с чем лучше справляется многомерная технология. Главный недостаток в данном примере - создание большого объема данных.

Способ ROLAP является подвижным, гибко масштабируемым и использующим относительно небольшое пространство памяти. В связи с данными характеристиками, скорость обработки информации удается значительно сократить.

Способ хранения HOLAP реализуется за счет совместного использования как многомерных, так и реляционных БД. HOLAP-серверы используют гибридную архитектуру, объединяющую вышеупомянутые технологии. Целесообразно использовать технологию MOLAP в том случае, когда данные более-менее плотные, а серверы ROLAP показывают лучшие параметры производительности тогда, когда данные довольно разрежены. Основная идея, которую удалось реализовать разработчикам технологии HOLAP, состоит в том, чтобы серверы HOLAP применяли подход ROLAP для разреженных областей многомерного пространства, а подход MOLAP - для плотных областей. Таким образом, серверы HOLAP разбивают запрос на несколько подзапросов, направляют их к соответствующим фрагментам данных, комбинируют результаты, предоставляемые пользователю. Преимущества такого подхода - хранилище отлично масштабируется и не теряет скорость обработки данных, за счёт оптимального хранения для каждой области многомерного массива данных.

Технология OLAP успешно используется для эффективного анализа больших объемов данных. Для поиска информации которая может применяться при более глубоком анализе, имеющей не очевидные связи с запрашиваемой, но находящийся вместе с ней в одном массиве данных целесообразно применять интеллектуальный анализ. Интеллектуальный анализ данных (Data Mining) - совокупность всевозможных методов обнаружения в исходной информации, ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых и полезных для принятия обоснованных и оптимальных решений. При этом полученные скрытые и неявные закономерности группируются до информации, могут быть описаны как новые знания.

В интеллектуальном анализе информации, как правило, выделяют три основных стадии (более подробно изображены на рисунке 2.):

1) поиск неявных, трудно обнаруживаемых закономерностей;

2) их применение для дальнейшего прогнозирования ненайденных значений;

3) исследование исключений для поиска отклонений в найденных на первой стадии закономерностях.

Методы ИАД в целом обычно классифицируются двумя путями, связанными с обработкой входной информации: работа с начальными данными без их изменения и использование заранее формализованных закономерностей [4].

1 - исходные данные могут храниться в явном детализированном виде и непосредственно использоваться для прогностического моделирования и/или анализа исключений. Главный недостаток такого подхода - затрудненность использования на больших объемах данных, хотя именно при анализе больших хранилищ данных методы ИАД приносят максимальную пользу.

2 - информация изначально извлекается из первичных данных и преобразуется в различные формальные конструкции. Согласно предыдущей классификации, этот этап выполняется на стадии свободного поиска, которая у методов первой группы в принципе отсутствует. Таким образом, для прогностического моделирования и анализа исключений используются результаты этой стадии, которые гораздо более компактны, чем сами массивы исходных данных. При этом полученные конструкции могут быть либо «прозрачными» (интерпретируемыми), либо «черными ящиками» (не поддающимися трактам).

Рисунок 2. Стадии процесса ИАД

Таким образом, появился и стал активно использоваться комплексный анализ, для обозначения которого был введен следующий составной термин формализовавший обозначение вышеупомянутой интеграции - «OLAP Data Mining». Различают три наиболее распространенных и эффективно применяемых на практике вариантов интеграции:

• «Cubing then mining» («Сначала кубирование, затем анализ информации»). Интеллектуальный анализ выполняется над любым фрагментом любой проекции гиперкуба показателей или над результатами различных запросов к многомерным данным.

• «Mining then cubing» («Сначала анализ, затем кубирование»). При использовании этого метода интеграции результаты интеллектуального анализа представлены в гиперкубической форме, которая необходима для последующего многомерного анализа.

• «Cubing while mining» («Одновременное кубирование и сбор данных»). Использование этого гибкого способа позволяет автоматически активизировать однотипные механизмы интеллектуальной обработки над результатом каждого шага многомерного анализа.

Основное назначение OLAP-систем - поддержка аналитической обработки информации, произвольных запросов пользователей - аналитиков, а цель OLAP-анализа - проверка возникающих гипотез, выявление тенденций и закономерностей, а ключевая особенность Data Mining - нестандартность и неочевидность разыскиваемых шаблонов. Средства Data Mining отличаются от OLAP-средств тем, что вместо проверки заранее предполагаемых гипотез, происходит самостоятельное нахождение и выявление скрытых закономерностей и тенденций, а также построение новых гипотез, на основе найденных взаимосвязей. Поэтому интеграция OLAP и Data Mining в системе поддержки принятия решений позволит значительно повысить эффективность ее использования, т.к., интеграция технологий OLAP и Data Mining обогащает и значительно расширяет функциональность и одной, и другой технологии. Данное взаимодействие дает возможность аналитикам не просто отслеживать состояние предметной области, но и быть в курсе неявных, неочевидных, скрытых тенденций и закономерностей, что позволит вовремя скорректировать стратегию управления предприятием, оценить эффективность внедрения какой-либо технологии и многое другое.

На этапе проектирования аналитической системы необходимо серьезно подходить к реализации многомерного анализа данных, т.к. во многом это определяет эффективность, ресурсоемкость, масштабируемость и другие критичные показатели системы. Оптимальность использования того или иного способа во многом зависит от способа хранения исходных данных и определяется спецификой предметной области, для которой проектируется и разрабатывается аналитическая система, прогнозируемым объемом анализируемой информации и теми требованиями, которым должна будет удовлетворять система. Таким образом, очевидно, в основе анализа больших объемов данных лежит многомерный и многокритериальный анализ, а повышение эффективности аналитических систем невозможно без интеграции технологии OLAP и Data Mining, т.к. с помощью интеллектуального анализа производится построение гипотез, а цель OLAPанализа - их проверка, а повышение эффективности исследования больших потоков информации происходит за счет единого интерфейса. Таким образом, интеграция данных технологий позволяет обогатить функционал друг друга, что позволяет пользователям всех уровней аналитических систем принимать оптимальные, эффективные и обоснованные решения.

Литература

1. Альперович М. Технологии хранения и обработки корпоративных данных (Data Warehousing, OLAP, Data Mining). - http://www.sft.ru/

2. Барсегян, А. А. Анализ данных и процессов: учеб. пособие / А. А. Барсегян, М. С. Куприянов, И. И. Холод, М. Д. Тесс, С. И. Елизаров. -- 3-е изд., перераб. и доп. -- СПб.: БХВ-Петербург, 2009. -- 512 с.

3. Макарова Н.В. Информатика: Учебник для вузов / Макарова Н.В., Волков В.Б. - СПб.: Питер, 2015. - 576 с.

4. Krzysztof J. Cios, Data Mining: A Knowledge Discovery Approach, Springer 2007

5. Parsaye K. OLAP and Data Mining: Bridging the Gap // Database Programming and Design. - 1997. - № 2.

Размещено на Allbest.ru

...

Подобные документы

  • Основа концепции OLAP (On-Line Analytical Processing) – оперативной аналитической обработки данных, особенности ее использования на клиенте и на сервере. Общие характеристика основных требования к OLAP-системам, а также способов хранения данных в них.

    реферат [24,3 K], добавлен 12.10.2010

  • Построение систем анализа данных. Построение алгоритмов проектирования OLAP-куба и создание запросов к построенной сводной таблице. OLAP-технология многомерного анализа данных. Обеспечение пользователей информацией для принятия управленческих решений.

    курсовая работа [1,3 M], добавлен 19.09.2008

  • Сущность OnLine Analytical Processing (OLAP). Классификация OLAP-продуктов по способу хранения данных и месту нахождения OLAP-машины. Создание приложения с помощью клиентского инструментального средства. Принципы построения ядра системы анализа данных.

    курсовая работа [275,8 K], добавлен 19.07.2012

  • OLAP: общая характеристика, предназначение, цели, задачи. Классификация OLAP-продуктов. Принципы построения OLAP системы, библиотека компонентов CubeBase. Зависимость производительности клиентских и серверных OLAP-средств от увеличения объема данных.

    курсовая работа [113,6 K], добавлен 25.12.2013

  • Вечное хранение данных. Сущность и значение средства OLAP (On-line Analytical Processing). Базы и хранилища данных, их характеристика. Структура, архитектура хранения данных, их поставщики. Несколько советов по повышению производительности OLAP-кубов.

    контрольная работа [579,2 K], добавлен 23.10.2010

  • Хранилище данных, принципы организации. Процессы работы с данными. OLAP-структура, технические аспекты многомерного хранения данных. Integration Services, заполнение хранилищ и витрин данных. Возможности систем с использованием технологий Microsoft.

    курсовая работа [1,0 M], добавлен 05.12.2012

  • Основные сведения об OLAP. Оперативная аналитическая обработка данных. Классификация продуктов OLAP. Требования к средствам оперативной аналитической обработки. Использование многомерных БД в системах оперативной аналитической обработки, их достоинства.

    курсовая работа [67,5 K], добавлен 10.06.2011

  • Разработка подсистем анализа веб-сайта с помощью Microsoft Access и Olap-технологий. Теоретические аспекты разработки подсистемы анализа данных в информационной системе музыкального портала. Olap-технологии в подсистеме анализа объекта исследования.

    курсовая работа [864,8 K], добавлен 06.11.2009

  • Обзор и анализ программных технологий создания WEB-приложений для аналитической обработки данных. Разработка многомерных моделей данных для построения OLAP-кубов по международному научно-техническому и образовательному сотрудничеству вузов России.

    дипломная работа [3,8 M], добавлен 16.05.2013

  • Обработка текстовых данных, хранящихся в файле. Задачи и алгоритмы обработки больших массивов действительных и натуральных чисел. Практические задачи по алгоритмам обработки данных. Решение задачи о пяти ферзях. Программа, которая реализует сортировку Шел

    курсовая работа [29,2 K], добавлен 09.02.2011

  • Метод анализа иерархий. Система для хранения больших объемов информации является база данных. База данных в наибольшей степени удовлетворяет всем выделенным критериям. Она обеспечивает быстрый поиск нужной информации (оперативность).

    контрольная работа [326,9 K], добавлен 10.06.2004

  • Термины "логический" и "физический" как отражение различия аспектов представления данных. Методы доступа к записям в файлах. Структура систем управления базами данных. Отличительные особенности обработки данных, характерные для файловых систем и СУБД.

    лекция [169,7 K], добавлен 19.08.2013

  • Концепции хранилищ данных для анализа и их составляющие: интеграции и согласования данных из различных источников, разделения наборов данных для систем обработки транзакций и поддержки принятия решений. Архитектура баз для хранилищ и витрины данных.

    реферат [1,3 M], добавлен 25.03.2013

  • Система компьютерной обработки данных для сбора, систематизации, статистической обработки, анализа результатов учебного процесса за четверть, полугодие, год. Модуль обработки данных о качестве обучения, итогов успеваемости и данных о движении учащихся.

    реферат [22,5 K], добавлен 05.02.2011

  • Проблема применения методов прогнозирования кадровой работы на основе использования компьютерных технологий. Концепция банка данных, сущность и функции. Отличие реляционных и объектно-ориентированных баз данных. Организация и технология обработки данных.

    реферат [1,0 M], добавлен 23.09.2014

  • Разработка комплекса интеллектуального анализа данных, получаемых в процессе работы коммерческого предприятия розничной торговли. Исследование стационарности ассоциаций, выявление частоты появления ассоциаций. Скрипты для создания баз данных и таблиц.

    курсовая работа [706,3 K], добавлен 07.08.2013

  • Режимы компьютерной обработки данных. Понятие и типы данных, структура и отличительные особенности. Характеристика основных операций, проводимых с данными, приемы их кодирования. Порядок и инструменты измерения информации и единицы хранения данных.

    контрольная работа [104,1 K], добавлен 22.11.2010

  • Понимание хранилища данных, его ключевые особенности. Основные типы хранилищ данных. Главные неудобства размерного подхода. Обработка информации, аналитическая обработка и добыча данных. Интерактивная аналитическая обработка данных в реальном времени.

    реферат [849,7 K], добавлен 16.12.2016

  • Уровневая архитектура компьютерных ресурсов CMS. Поток данных от детекторов для анализа. Сокращение размера событий: CMS форматы данных и форматы Тир-данных. Иерархия CMS данных. Средства удаленной работы на LINUX машинах в CERN: PUTTY, WinSCP и Xming.

    курсовая работа [3,1 M], добавлен 17.02.2014

  • Рассмотрение OLAP-средств: классификация витрин и хранилищ информации, понятие куба данных. Архитектура системы поддержки принятия решений. Программная реализация системы "Abitura". Создание Web-отчета с использованием технологий Reporting Services.

    курсовая работа [2,7 M], добавлен 05.12.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.