OLAP и многомерные базы данных
On-Line Analytical Processing как технология комплексного многомерного анализа данных и ключевой компонент организации хранилищ данных. Построение многомерных кубов, которые доступны для пользовательских запросов. Пример точки в многомерном пространстве.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 02.02.2019 |
Размер файла | 350,4 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
OLAP И МНОГОМЕРНЫЕ БАЗЫ ДАННЫХ
Малибекова Г.Т.
ТарГУ им. М.Х. Дулати, г. Тараз
OLAP (On-Line Analytical Processing) - это технология комплексного многомерного анализа данных, ключевой компонент организации хранилищ данных. OLAP-анализ (анализ в реальном масштабе времени) работает с данными, представленными в виде многомерных кубов, и позволяет построить отчеты в нужных руководителю срезах и ракурсах. Целью использования OLAP является анализ данных и представление результатов этого анализа в виде, удобном для восприятия и принятия решений. Основная идея OLAP заключается в построении многомерных кубов, которые будут доступны для пользовательских запросов.
Одним из факторов появления OLAP стал новый тип структур данных, это так называемые многомерные базы данных. Чтобы понимать, как обрабатываются многомерные данные, надо понимать многомерную модель данных: как эта модель определяет данные и процессы, в какой форме загружаются данные и как они предоставляются пользователям.
Многомерная модель данных определяет представление данных на трех уровнях [1,2]:
- концептуальной модели;
- физической модели;
- прикладной модели данных.
Концептуальная модель описывает представление данных в системе и методы описания данных. Эта модель описывает данные в терминах конкретного набора данных и правила функционирования данных в условиях конкретного предприятия. Для определения концептуальной модели используется язык описания данных (Data definition Language,DDL).
Физическая модель определяет, как данные хранятся на физических носителях:
- где хранятся, место и тип файлов;
- как хранятся, в сжатом виде или нет, как индексируются;
- как осуществляется доступ к данным, как данные кэшируются; как они помещаются в память и как перемещаются из памяти;
Прикладная модель определяет формат данных, в котором они передаются аналитическим приложениям. Основным пользователем системы является клиентское приложение, которое представляет модель пользователю. Прикладная модель создается с помощью языка Многомерных выражений (Multidimensional Expression, MDX), который служит как для представления запросов к многомерной базе данных, так и для описания модели формирования данных внутри ее.
Как было указано выше, OLAP технология основана на построении многомерных наборов данных, называемых OLAP-кубами, оси которых содержат параметры, а ячейки -зависящие от них агрегатные данные.
Расмотрим основные понятия хранилищ данных и OLAP.
Многомерное пространство. При работе с многомерными базами данных используется куб для описания многомерного пространства. Как известно из геометрии, обычный куб имеет три измерения. Многомерное пространство может иметь любое количество измерений, и эти измерения не обязаны быть одинакового размера.
Иллюстрируем понятия на примере трехмерного пространства с измерениями:
- время в месяцах (1);
- товары, описываемые их названиями (2);
- покупатели, описываемые их именами(3).
Эти три измерения используются для определения пространства продаж товара некоторым покупателям в течение периода, измеряемого в месяцах. На рис. 1. приведена только одна продажа, показанная точкой в пространстве данных. Если все продажи представить точками в многомерном пространстве, то они образуют фактическое пространство данных. Понятно, что количество фактических продаж меньше возможного числа продаж [2].
Рис. 1. Пример точки в многомерном пространстве
Количество точек, соответствующих всем возможным продажам, образует теоретическое пространство данных. Размер теоретического пространства определяется простым перемножением размеров всех измерений. В случае большого числа измерений оно может оказаться очень большим, но, независимо от размера, оно остается ограниченным, т.к. каждое измерение является дискретным и ограниченным набором своих элементов.
Следующие термины также используются при описании многомерного пространства: многомерный анализ хранилище куб
- Кортеж (Tuple) - координата в многомерном пространстве;
- Срез (Slice) - секция многомерного пространства, которая может быть определена кортежом.
Каждая точка геометрического пространства определяется набором координат в трехмерном пространстве Х, У, Z. Аналогичным образом, многомерное пространство определяется набором координат. Этот набор называют кортежом.
Например, точка пространства, показанная на рис.1. определяется кортежом (2% Молоко, Эдвард Меломед, Май). Если элемент в одном или более измерений в кортеже заменяется (*), которая играет роль символа подстановки, получается подпространство (фактически нормальное пространство). Этот вид нормального пространства называется срезом. Каждый срез (гиперплоскость) куба представляет собой запрос к данным, включающий агрегации.
Примером среза продаж для всех товаров в мае всем покупателям является кортеж (*,*, [Май]). Обычно подстановочные символы в определениях кортежей не пишутся, а указываются только элементы, определяющие срез (т.е. те, которые представлены значениями), например, ([Май]). На рис. 2 показан срез, представляющий продажи, произведенные в мае.
Рис. 2. Срез продаж за март месяц
Атрибуты измерений. Если необходимо определить пространство продаж по кварталам, а не по месяцам, то придется вручную сгруппировывать месяцы в кварталы. Если данные представлены не за один год, а за несколько, то этот способ становится неудобным. В этом случае необходим некоторый способ визуализации месяцев, кварталов и лет в связи друг с другом. В сущности необходимы дополнительные атрибуты - кварталы, годы и т.п. Тогда можно использовать месяцы в качестве Ключевого атрибута (Key Attribute) и связать другие атрибуты (зависимые атрибуты, related attribute) с месяцами - 3 месяца в квартале, 12 -в году. Для этого необходимо добавить два зависимых атрибута в измерение Время (квартал и год) и создать связь между этими атрибутами и ключевым атрибутом. Тогда получим шкалу, показанную на рис. 3, для измерения год-квартал-месяц.
Рис. 3. Зависимые атрибуты (Год, Квартал) откалиброваны относительно ключевого атрибута (Месяц)
Теперь имеется иерархическая структура для выбранной шкалы - иерархия измерений (dimension hiererchy). В рассматриваем случае иерархия измерений содержит три уровня иерархии (Hierarchy levels) - годы, кварталы и месяцы. Каждый уровень соответствует атрибуту.
На рис. 4. можно увидеть шкалу с иерархией в многомерном пространстве.
Рис. 4. Новые точки в многомерном пространстве (зависимые атрибуты)
Измерение может иметь более одной иерархии. Каждая иерархия, тем не менее, должна использовать один и тот же ключевой атрибут. Например, для подсчета времени в днях нужно добавить другой атрибут -дни и сделать его ключевым. Тогда в наличии будет две иерархии: год-квартал-месяц-день и год-неделя-день.
Ячейки. После добавления шкалы в измерение многомерного пространства можно увидеть, что на измерении появились новые позиции, соответствующие элементам зависимых атрибутов (квартал, год). Эти элементы, в свою очередь, создают множество новых точек в многомерном пространстве. Но для этих новых точек не существует никаких значений, потому что данные о продажах, занесенные в базу данных, содержат продажи только по месяцам. Значения этих точек можно вычислить из значений, заданных фактическими данными.
На этом этапе появляется новое пространство данных - логическое пространство, которое, в противоположность пространству фактов, содержащему только точки, представляющие действительные продажи, содержат точки, которые могут быть рассчитаны. Полный набор точек пространства, объединяющих фактическое и логическое пространство, называется многомерной моделью, или многомерным кубом (Cube), который является многомерным гиперкубом, а точки пространства куба -ячейками (Cells).
Фактические точки пространства ассоциируют с конкретной продажей или возможной продажей. Например, можно поместить в эту точку сумму, выплаченную покупателем за продукцию. Если продажи не было, то имеем только теоретическую точку пространства, в которую ничего не размещается или значение в этой точке считается пустым или неопределенным (null value). Точка куба считается пустой (empty cell). Если продажа была, то в этой точке размещают фактическую сумму, заплаченную покупателем (Cell value). Это иллюстрирует рис. 5.
Рис. 5. Ячейки с действительным значением продаж и пустая ячейка
Меры. Значения в ячейке одного типа называют Мерой (Measure). На рис.5 указана сумма, которую покупатель заплатил за товар. Мы произвольно выбрали сумму в качестве значения для этой ячейки. Но если выбрать некоторое другое значение, описывающее продажи, например, количество единиц товара, то у получим две меры: сумма, которую заплатид покупатель и количество единиц, которое он купил. Эти две меры вместе представляют Измерение мер (Measure Dimension). Каждый элемент этого измерения (меры) имеет набор свойств, таких как тип данных, единица измерения, и наиболее важное - тип вычисления для функции Агрегирования данных (Aggregate Function).
Функции агрегирования. Тип вычисления -это связь, которая связывает вместе физическое и логическое пространство куба. Функция агрегирования позволяет вычислять значения ячеек в логическом пространстве из значений ячеек в фактическом пространстве.
Функция агрегировнаия может быть либо простой - аддитивной (additive), либо сложной - полуаддитивной (semi-additive). Список аддитивных функций агрегирования довольно ограниченный - сумма данных (Sum), минимальное (Min), максимальное (MAX) значения данных и вычисление количества (COUNT). Все остальные функции сложные и используют сложные формулы и алгоритмы.
Элемент ALL. В противоположность геометрическому пространству, в котором начальной точкой отсчета является точка, в которой все координаты равны 0, начальную точку для многомерного пространства определить сложнее. Например, для измерения времени по месяцам не существует значения, и январь является только первым месяцем. Поэтому приходится задавать начало многомерного пространства с помощью специального атрибута, который объединяет все элементы измерения. Этот атрибут содержит только один элемент - Все (All). Для простых функций агрегирования, например, суммы, элемент ALL эквивалентен сумме значений всех элементов фактического пространства. Для сложных функций агрегирования элемент ALL вычисляется по формуле, связанной с функцией [3].
Подкубы. Важной концепцией многомерной модели данных является подпространство или подкуб (subcube). Подкуб представляет собой часть полного пространства куба в виде некоторой многомерной фигуры внутри куба. Так как многомерное пространство куба дискретно и ограничено, подкуб также дискретен и ограничен. Срез - это случай подкуба, в котором границы определяются единственным элементом измерения. Подкуб может иметь нормальную и произвольную форму. В нормализованном подкубе (normal subcube) координата, которая существует в одном измерении, должна присутствовать для каждой координаты в других измерениях.
Рассмотренные элементы поддерживают технологию OLAP, которая является удобным инструментом быстрого анализа больших объемов данных и наглядного отображения результатов в виде рисунков, графиков, диаграмм и таблиц. Выявленные с помощью OLAP-технологии закономерности и тенденции - прекрасный материал для принятия правильных управленческих решений, а также для создания всевозможных отчетов и презентаций [4].
Таким образом, OLAP позволяет на основании данных моделировать реальные структуры и связи, что особенно важно для аналитических систем. Главное ее отличие от других средств аналитической обработки данных заключается в том, что она предназначена для создания многомерных (многопараметрических) моделей с целью более адекватного представления реальных процессов.
Литература
1. Барсегян А. А., Куприянов М. С, Степаненко В. В., Холод И. И. Методы и модели анализа данных: OLAP и Data Mining - СПб.: БХВ-Петербург, 2004.
2. Хранилища данных: от концепции до внедрения / С. Архипенков, Д. Голубев, О. Максименко. - М.: ДИАЛОГ-МИФИ, 2002
3. Бергер А.Б., Горбач И.В., Меломед Э.Л., и др. Microsoft SQL Server 2005 Analysis Services. OLAP и многомерный анализ данных. - СПб.: БХВ-Петербург, 2007.
4. Башмаков А.И., Башмаков И.А. Интеллектуальные информационные технологии: Учеб. пособие. - М.: МГТУ им. Н.Э. Баумана, 2005.
Размещено на Allbest.ru
...Подобные документы
Вечное хранение данных. Сущность и значение средства OLAP (On-line Analytical Processing). Базы и хранилища данных, их характеристика. Структура, архитектура хранения данных, их поставщики. Несколько советов по повышению производительности OLAP-кубов.
контрольная работа [579,2 K], добавлен 23.10.2010Основа концепции OLAP (On-Line Analytical Processing) – оперативной аналитической обработки данных, особенности ее использования на клиенте и на сервере. Общие характеристика основных требования к OLAP-системам, а также способов хранения данных в них.
реферат [24,3 K], добавлен 12.10.2010Построение систем анализа данных. Построение алгоритмов проектирования OLAP-куба и создание запросов к построенной сводной таблице. OLAP-технология многомерного анализа данных. Обеспечение пользователей информацией для принятия управленческих решений.
курсовая работа [1,3 M], добавлен 19.09.2008Сущность OnLine Analytical Processing (OLAP). Классификация OLAP-продуктов по способу хранения данных и месту нахождения OLAP-машины. Создание приложения с помощью клиентского инструментального средства. Принципы построения ядра системы анализа данных.
курсовая работа [275,8 K], добавлен 19.07.2012Назначение хранилищ данных. Архитектура SAP BW. Построение аналитической отчетности на основе OLAP-кубов в системе SAP BW. Основные различия между хранилищем данных и системой OLTP. Обзор функциональных сфер BEx. Создание запроса в BEx Query Designer.
курсовая работа [1019,1 K], добавлен 24.12.2012Хранилище данных, принципы организации. Процессы работы с данными. OLAP-структура, технические аспекты многомерного хранения данных. Integration Services, заполнение хранилищ и витрин данных. Возможности систем с использованием технологий Microsoft.
курсовая работа [1,0 M], добавлен 05.12.2012Понимание хранилища данных, его ключевые особенности. Основные типы хранилищ данных. Главные неудобства размерного подхода. Обработка информации, аналитическая обработка и добыча данных. Интерактивная аналитическая обработка данных в реальном времени.
реферат [849,7 K], добавлен 16.12.2016Концепции хранилищ данных для анализа и их составляющие: интеграции и согласования данных из различных источников, разделения наборов данных для систем обработки транзакций и поддержки принятия решений. Архитектура баз для хранилищ и витрины данных.
реферат [1,3 M], добавлен 25.03.2013Сущности и функциональные зависимости базы данных. Атрибуты и связи. Таблицы базы данных. Построение ER-диаграммы. Организация ввода и корректировки данных. Реляционная схема базы данных. Реализация запросов, получение отчетов. Защита базы данных.
курсовая работа [2,4 M], добавлен 06.02.2016OLAP как автоматизированные технологии сложного (многомерного) анализа данных, Data mining - извлечение данных, интеллектуальный анализ. Виды запросов к многомерной базе данных, их содержание и анализ полученных результатов. Схема "звезда", "снежинка".
презентация [132,1 K], добавлен 19.08.2013Структура простейшей базы данных и свойства полей. Характеристика типов данных. Описание процесса создания базы данных, таблиц и связей между ними, простых и составных форм, запросов в Microsoft Access. Пример составления подчинённых отчетов и макросов.
курсовая работа [2,9 M], добавлен 14.11.2016Сущность базы данных. Процесс построения концептуальной модели. Построение реляционной модели, создание ключевого поля. Процесс нормализации. Проектирование базы данных в ACCESS. Порядок создание базы данных. Создание SQL запросов и работа в базе данных.
курсовая работа [185,6 K], добавлен 08.11.2008Разработка подсистем анализа веб-сайта с помощью Microsoft Access и Olap-технологий. Теоретические аспекты разработки подсистемы анализа данных в информационной системе музыкального портала. Olap-технологии в подсистеме анализа объекта исследования.
курсовая работа [864,8 K], добавлен 06.11.2009Формы представляемой информации. Основные типы используемой модели данных. Уровни информационных процессов. Поиск информации и поиск данных. Сетевое хранилище данных. Проблемы разработки и сопровождения хранилищ данных. Технологии обработки данных.
лекция [15,5 K], добавлен 19.08.2013Построение схемы хранилища данных торгового предприятия. Описания схем отношений хранилища. Отображение информации о товаре. Создание OLAP-куба для дальнейшего анализа информации. Разработка запросов, позволяющих оценить эффективность работы супермаркета.
контрольная работа [1,9 M], добавлен 19.12.2015Модели информационного процесса обработки данных. Классификация баз данных. Сеть архитектуры и технология клиент-сервер. Создание запросов к реляционным базам данных на SQL. Работа с электронными таблицами MS Excel: форматирование данных, вычисления.
контрольная работа [17,8 K], добавлен 17.01.2010Построение концептуальной модели. Проектирование реляционной модели данных на основе принципов нормализации: процесс нормализации и глоссарий. Проектирование базы данных в Microsoft Access: построение таблиц, создание запросов в том числе SQL – запросов.
курсовая работа [35,9 K], добавлен 08.11.2008Авторизация с каталогами проектирования базы данных магазина. Задачи базы данных: учет всех товаров, поиск и выдача данных о клиентах, адрес, телефоны, цена и наличие товара. Этапы проектирования базы данных. Схема данных, создание запросов и их формы.
реферат [1,6 M], добавлен 22.10.2009Построение информационно-логической модели базы данных. Корректировка данных средствами запросов. Проектирование алгоритмов обработки данных. Реализация пользовательского интерфейса средствами форм. Разработка запросов для корректировки и выборки данных.
курсовая работа [680,9 K], добавлен 19.10.2010Основные понятия базы данных. Разработка сложной формы для обработки данных. Модели организации данных. Архитектура Microsoft Access. Реляционные связи между таблицами баз данных. Проектирование базы данных. Модификация данных с помощью запросов действий.
лабораторная работа [345,5 K], добавлен 20.12.2011