Главная Коллекция "Revolution" Программирование, компьютеры и кибернетика Исследование математических моделей, методов и средств бизнес-аналитики СУБД SQL Server

Исследование математических моделей, методов и средств бизнес-аналитики СУБД SQL Server

Обобщенная архитектура системы поддержки принятия решений. Особенности технологии реляционного хранения данных. Представление информации в виде гиперкуба. Графическая иллюстрация задачи кластеризации. Описание математических основ бизнес-аналитики.

Рубрика	Программирование, компьютеры и кибернетика
Вид	дипломная работа
Язык	русский
Дата добавления	09.06.2014
Размер файла	1,2 M

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р В РІР‚В Р В Р’В Р Р†Р вЂљРЎв„ўР В Р вЂ Р Р†Р вЂљРЎвЂєР РЋРЎвЂєР В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В¤Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р В РІР‚В Р В Р’В Р Р†Р вЂљРЎв„ўР В Р вЂ Р Р†Р вЂљРЎвЂєР РЋРЎвЂєР В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В°Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р’В Р Р†Р вЂљР’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р РЋРІвЂћСћР В Р’В Р В Р вЂ№Р В Р вЂ Р В РІР‚С™Р РЋРІР‚СњР В Р’В Р вЂ™Р’В Р В Р’В Р Р†Р вЂљР’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р РЋРІвЂћСћР В Р’В Р В РІР‚В Р В Р’В Р Р†Р вЂљРЎв„ўР В Р Р‹Р РЋРІвЂћСћР В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р В РІР‚В Р В Р’В Р Р†Р вЂљРЎв„ўР В Р вЂ Р Р†Р вЂљРЎвЂєР РЋРЎвЂєР В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В» Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р’В Р Р†Р вЂљР’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р РЋРІвЂћСћР В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В¦Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р В РІР‚В Р В Р’В Р Р†Р вЂљРЎв„ўР В Р вЂ Р Р†Р вЂљРЎвЂєР РЋРЎвЂєР В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’Вµ Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р’В Р Р†Р вЂљР’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р РЋРІвЂћСћР В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РІР‚вЂњР В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р В РІР‚В Р В Р’В Р Р†Р вЂљРЎв„ўР В Р Р‹Р Р†РІР‚С›РЎС›Р В Р’В Р вЂ™Р’В Р В Р’В Р Р†Р вЂљР’В Р В Р’В Р В РІР‚В Р В Р’В Р Р†Р вЂљРЎв„ўР В Р Р‹Р Р†Р вЂљРЎвЂќР В Р’В Р В РІР‚В Р В Р’В Р Р†Р вЂљРЎв„ўР В Р вЂ Р В РІР‚С™Р РЋРЎв„ўР В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р В РІР‚В Р В Р’В Р Р†Р вЂљРЎв„ўР В Р вЂ Р Р†Р вЂљРЎвЂєР РЋРЎвЂєР В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В±Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РІР‚вЂњР В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р’В Р Р†Р вЂљР’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р РЋРІвЂћСћР В Р’В Р В Р вЂ№Р В Р вЂ Р Р†Р вЂљРЎвЂєР РЋРЎвЂєР В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р В РІР‚В Р В Р’В Р Р†Р вЂљРЎв„ўР В Р вЂ Р Р†Р вЂљРЎвЂєР РЋРЎвЂєР В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В°Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р’В Р Р†Р вЂљР’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р РЋРІвЂћСћР В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В¦

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

Размещено на http://www.allbest.ru

Введение

Повсеместное использование компьютеров привело к пониманию важности задач, связанных с анализом накопленной информации для извлечения новых знаний.

Управление предприятием, банком, различными сферами бизнеса, немыслимо без процессов накопления, анализа, выявления определенных закономерностей и зависимостей, прогнозирования тенденций и рисков.

Бизнес-аналитика - мультидисциплинарная область, находящаяся на стыке информационных технологий, баз данных, алгоритмов интеллектуальной обработки данных, математической статистики и методов визуализации.

Решения принимаются руководителями, а задача бизнес-аналитики - сделать все, чтобы эти решения были оптимальными и своевременными.

Целью работы является исследование математических моделей, методов и средств бизнес-аналитики СУБД SQL Server. Данная тема является актуальной, так как на сегодняшний день средства бизнес-аналитики применяются почти во всех сферах жизнедеятельности человека:

· в Интернет-технологиях средства BI применяются для построения рекомендательных систем интернет-магазинов и для решения проблемы персонализации посетителей Web-сайтов;

· в торговле технологии бизнес-аналитики позволяют успешно продвигать товары и непосредственно управлять спросом на различные товары путем анализа рыночных корзин;

· в телекоммуникациях средства BI позволяют решать проблему доходности и риска клиентов, а также проблему защиты от мошенничества;

· в промышленном производстве примером использования технологий бизнес-аналитики может быть прогнозирование качества изделия в зависимости от замеряемых параметров технологического процесса;

· примером использования средств бизнес-аналитики в медицине может служить построение диагностической системы или исследование эффективности хирургического вмешательства;

· классическим примером применения на практике методов анализа данных является решение проблемы о возможной некредитоспособности клиентов в банковской сфере.

В работе представлены наиболее перспективные направления анализа данных: хранение информации, оперативный и интеллектуальный анализ данных. Кроме описания методов анализа приводятся экспериментальные результаты.

Для достижения поставленной цели в работе решаются следующие задачи:

- обзор архитектуры СУБД SQL Server и подсистемы бизнес-аналитики;

- описание и анализ областей применения средств бизнес-аналитики, таких как многомерный анализ данных и интеллектуальный анализ данных;

- обзор языковых средств бизнес-аналитики;

- экспериментальное применение полученных сведений.

1. Постановка задачи и обзор литературы

1.1 Постановка задачи

1. Необходимо выполнить обзор различных технологий в бизнес-аналитике на примере СУБД SQL Server.

2. Также надо обозначить перечень используемых математических моделей и описать их сущность.

3. Произвести анализ языковых средств, с помощью которых будут реализованы методы и алгоритмы для СУБД SQL Server.

4. Выполнить демонстрацию возможностей технологий на примере учебной базы.

1.2 Цели и задачи бизнес-аналитики

В настоящее время задача поиска неявных взаимосвязей, имеющихся в наборах данных, стала очень актуальной благодаря широкому распространению технологий автоматизированной обработки информации и накоплению в компьютерных системах больших массивов данных. Для извлечения информации нужно использовать методы математической статистики, теории баз данных, теории искусственного интеллекта и интеллектуального анализа данных.

Кроме хранения данных и поиска новых значений, появляются новые задачи, связанные с анализом и поиском в них закономерностей. Собранная информация может быть полезной в процессе управления организацией, поиска путей совершенствования деятельности и получения посредством этого конкурентных преимуществ. Таким образом, появляется потребность в информационных системах, которые позволили бы проводить глубокую аналитическую обработку.

Благодаря преимуществам интеллектуального анализа появляется новый класс программных систем - системы поддержки принятия решений (далее СППР). Основные задачи СППР - это ввод, хранение и анализ данных в определенной предметной области с целью поиска решений. Обобщенная архитектура СППР представлена на рисунке 1.

Рис. 1. Обобщенная архитектура системы поддержки принятия решений

В подсистеме ввода данных, называемых OLTP (Online transaction processing), выполняется операционная обработка данных. Для реализации этих подсистем используют обычные системы управления базами данных (СУБД).

Современная подсистема анализа может быть построена на основе:

1) подсистемы информационно-поискового анализа на базе реляционных СУБД и статических запросов с использованием языка структурных запросов SQL (Structured Query Language);

2) подсистемы оперативного анализа. Для реализации таких подсистем применяется технология оперативной аналитической обработки данных OLAP (Online Analytical Processing), использующая концепцию многомерного представления данных;

3) подсистемы интеллектуального анализа. Эта подсистема реализует методы и алгоритмы Data Mining («интеллектуальный анализ данных»).

Одной из самых важных особенностей современных систем поддержки принятия решений является отсутствие возможности оптимизации и ранжирования значений групп показателей на основе их полной совокупности, из-за невозможности существующим математическим методам проводить данные операции. Современные методы требуют предварительного приведения всех критериев к единой числовой оценке.

В процессе разработки систем анализа информации и методологии их применения обнаружилось, что для эффективного функционирования такие системы должны быть организованы иным способом, тот, который применяется в OLTP-системах.

Можно выделить ряд принципиальных отличий СППР и OLTP-систем:

Таблица 1. Сравнение свойств OLTP-системы и СППР

Свойство	OLTP-система	СППР
Цели использования данных	Быстрый поиск, простейшие алгоритмы обработки	Аналитическая обработка с целью поиска скрытых закономерностей, построения прогнозов и моделей и т.д.
Уровень обобщения (детализации) данных	Детализированные	Как детализированные, так и обобщенные (агрегированные)
Требования к качеству данных	Возможны некорректные данные (ошибки регистрации, ввода и т.д.)	Ошибки в данных не допускаются, поскольку могут привести к некорректной работе аналитических алгоритмов.
Формат хранения данных	Данные могут храниться в различных форматах в зависимости от приложения, в котором они были созданы	Данные хранятся и обрабатываются в едином формате.
Время хранения данных	Как правило, не более года (в пределах отчетного периода)	Годы, десятилетия.
Изменение данных	Данные могут добавляться, изменяться и удаляться	Допускается только пополнение; ранее добавленные данные изменяться не должны, что позволяет обеспечить их хронологию.
Периодичность обновления	Часто, но в небольших объемах.	Редко, но в больших объемах.
Доступ к данным	Должен быть обеспечен доступ ко всем текущим (оперативным) данным	Должен быть обеспечен доступ к историческим (то есть накопленным за достаточно длинный период времени) данным с соблюдением их хронологии.
Характер выполняемых запросов	Стандартные, настроенные заранее	Нерегламентированные, формируемые аналитиком «на лету» в зависимости от требуемого анализа
Время выполнения запроса	Несколько секунд	До нескольких минут

Как видно из таблицы 1, требования к СППР и OLTP-системам существенно отличаются. Поэтому для объединения в одной системе OLTP и СППР для реализации подсистемы хранения используются концепция хранилищ данных (ХД).

В основе концепции хранилищ данных (ХД) лежат следующие положения:

· интеграция и согласование данных из различных источников, таких как обычные системы оперативной обработки, базы данных, учетные системы, офисные документы, электронные архивы, расположенные как внутри предприятия, так и во внешнем окружении;

· разделение наборов данных, используемых системами выполнения транзакций и СППР.

В концепции хранилищ данных (ХД) нет постановки вопросов, связанных с организацией эффективного анализа данных и предоставления доступа к ним. Эти задачи решаются подсистемами анализа.

Сокращение затрат на проектирование и разработку ХД может быть достигнуто путем создания витрин данных (ВД). ВД - это упрощенный вариант ХД, содержащий только тематически объединенные данные.

Рис. 2. Структура СППР с самостоятельными ВД

В настоящее время разработано несколько архитектур хранилищ:

· реляционные ХД;

· многомерные ХД;

· гибридные ХД;

· виртуальные ХД;

· одноплатформенные ХД;

· кросс-платформенные ХД.

Реляционные ХД используют классическую реляционную модель, характерную для оперативных регистрирующих OLTP-систем. Данные хранятся в реляционных таблицах, но образуют специальные структуры, эмулирующие многомерное представление данных. Такая технология обозначается аббревиатурой ROLAP -- Relational OLAP.

Многомерные ХД реализуют многомерное представление данных на физическом уровне в виде многомерных кубов. Данная технология получила название MOLAP -- Multidimensional OLAP.

Гибридные ХД сочетают в себе свойства как реляционной, так и многомерной модели данных. В гибридных ХД детализированные данные хранятся в реляционных таблицах, а агрегаты -- в многомерных кубах. Такая технология построения ХД называется HOLAP -- Hybrid OLAP.

Виртуальные ХД не являются хранилищами данных в привычном понимании. В таких системах работа ведется с отдельными источниками данных, но при этом эмулируется работа обычного ХД. Иначе говоря, данные не консолидируются физически, а собираются непосредственно в процессе выполнения запроса.

Кроме того, все ХД можно разделить на одноплатформенные и кросс-платформенные. Одноплатформенные ХД строятся на базе только одной СУБД, а кросс-платформенные могут строиться на базе нескольких СУБД.

В процессе принятия решений пользователь генерирует некоторые гипотезы. Для превращения их в законченные решения эти гипотезы должны быть проверены. Проверка гипотез осуществляется на основании информации об анализируемой предметной области. В процессе анализа данных, поиска решений часто возникает необходимость в построении зависимостей между различными параметрами. Кроме того, число таких параметров может варьироваться в широких пределах.

OLAP-системы предоставляют аналитику средства проверки гипотез при анализе данных. При этом основной задачей аналитика является генерация гипотез. Он решает ее, основываясь на своих знаниях и опыте. Однако знания есть не только у человека, но и в накопленных данных, которые подвергаются анализу. Такие знания часто называют "скрытыми", т. к. они содержатся в гигабайтах и терабайтах информации, которые человек не в состоянии исследовать самостоятельно. В связи с этим существует высокая вероятность пропустить гипотезы, которые могут принести значительную выгоду.

Очевидно, что для обнаружения скрытых знаний необходимо применять специальные методы автоматического анализа, при помощи которых приходится практически добывать знания из "завалов" информации. За этим направлением прочно закрепился термин добыча данных или Data Mining.

Таким образом, подсистема анализа может быть построена на основе оперативного анализа, для реализации которой используется технология оперативной аналитической обработки данных OLAP. А также подсистема анализа строится на базе интеллектуального анализа, реализующего методы и алгоритмы Data Mining.

Реляционная модель данных, которая была предложена Э.Ф. Коддом в 1970 году служит основой современной многомиллиардной отрасли баз данных. За последние десять лет сложилась многомерная модель данных, которая используется, когда целью является именно анализ данных, а не выполнение транзакций. Технология многомерных баз данных -- ключевой фактор интерактивного анализа больших массивов данных с целью поддержки принятия решения. Подобные базы данных трактуют данные как многомерные кубы, что очень удобно именно для их анализа.

Основное назначение многомерных ХД - поддержка систем, ориентированных на аналитическую обработку данных, так как такие хранилища лучше справляются с выполнением сложных нерегламентированных запросов.

Многомерная модель данных, лежащая в основе построения многомерных хранилищ данных, опирается на концепцию многомерных кубов, или гиперкубов. Они представляют собой упорядоченные многомерные массивы, которые также часто называют OLAP-кубами.

OLAP (Online Analytical Processing) - технология оперативной аналитической обработки данных, использующая методы и средства для сбора, хранения и анализа многомерных данных в целях поддержки процессов принятия решений.

Основное назначение OLAP-систем - поддержка аналитической деятельности, произвольных запросов пользователей - аналитиков. Цель OLAP-анализа - проверка возникающих гипотез.

У истоков технологии OLAP стоит основоположник реляционного подхода Э.Кодд. В 1993 году он опубликовал статью под названием «OLAP для пользователей-аналитиков: каким он должен быть».

Полномасштабная OLAP-система должна выполнять сложные и разнообразные функции, включающие сбор данных из различных источников, их согласование, преобразование и загрузку в хранилище, хранение аналитической информации, регламентную отчетность, поддержку произвольных запросов, многомерный анализ и др.

В настоящее время существуют фактические стандарты построения OLAP-систем, основанных на концепции ХД. Эти стандарты опираются на современные исследования и общемировую практику создания хранилищ данных и аналитических систем.

В общем виде архитектура корпоративной OLAP-системы описывается схемой с тремя выделенными слоями (рисунок 2).

Рис. 3. Архитектура корпоративной OLAP-системы

В процессе анализа данных часто возникает необходимость построения зависимостей между различными параметрами, число которых может быть значительным.

Измерение (Dimensions) - последовательность значений одного из анализируемых параметров. Например, для параметра «время» это - последовательность дней, месяцев, кварталов, лет.

Возможность анализа зависимостей между различными параметрами предполагает возможность представления данных в виде многомерной модели - гиперкуба (рисунок 2), или OLAP-куба.

Рис. 4. Представление данных в виде гиперкуба

На пересечениях осей измерений располагаются данные, количественно характеризующие анализируемые факты, - меры (Measures). Это могут быть объемы продаж, остатки на складе и т.п.

Ребрами такого гиперкуба являются измерения, а ячейками - меры.

В простейшем случае двумерного куба получается таблица, показывающая значения уровней продаж по товарам и месяцам.

Дальнейшее усложнение модели данных возможно по нескольким направлениям:

1. увеличение числа измерений _ данные о продажах не только по месяцам и товарам, но и по регионам. В этом случае куб становится трехмерным;

2. усложнение содержимого ячейки _ например, нас может интересовать не только уровень продаж, но и чистая прибыль или остаток на складе. В этом случае в ячейке будет несколько значений;

3. введение иерархии в пределах одного измерения _ общее понятие «время» связано с иерархией значений: год состоит из кварталов, квартал из месяцев и т.д.

OLAP-система включает в себя два основных компонента: OLAP-клиент и OLAP-сервер.

OLAP-клиент предоставляет пользователю интерфейс к многомерной модели данных, обеспечивая его возможностью удобно манипулировать данными для выполнения задач анализа.

Клиентские OLAP-средства применяются, как правило, при малом числе измерений (обычно рекомендуется не более шести) и небольшом разнообразии значений этих параметров, -- ведь полученные агрегатные данные должны умещаться в адресном пространстве подобного средства, а их количество растет экспоненциально при увеличении числа измерений. Поэтому даже самые примитивные клиентские OLAP-средства, как правило, позволяют произвести предварительный подсчет объема требуемой оперативной памяти для создания в ней многомерного куба.

OLAP-сервер обеспечивает хранение данных, выполнение над ними необходимых операций и формирование многомерной модели на концептуальном уровне.

Некоторые клиентские OLAP-средства (в частности, Microsoft Excel) позволяют обращаться к серверным OLAP-хранилищам, выступая в этом случае в роли клиентских приложений, выполняющих подобные запросы.

OLAP-системы, описанные выше, предоставляют аналитику средства проверки гипотез при анализе данных. При этом основной задачей аналитика является генерация гипотез. Очевидно, что для обнаружения скрытых знаний необходимо применять специальные методы автоматического анализа, при помощи которых приходится практически добывать знания из «завалов» информации.

Возникает потребность поиска взаимосвязей между отдельными событиями среди больших объемов данных.

За этим направлением прочно закрепился термин «интеллектуальный анализ данных» или Data Mining. Классическим считается определение, данное основателем направления в 1996 году Григорием Пятецким-Шапиро: Data Mining - исследование и обнаружение «машиной» в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком.

В ходе интеллектуального анализа данных проводится исследование множества объектов (или вариантов). В большинстве случаев его можно представить в виде таблицы, каждая строка которой соответствует одному из вариантов, а в столбцах содержатся значения параметров, его характеризующих.

Data Mining - это процесс выделения, исследования и моделирования больших объемов данных для обнаружения неизвестных до этого структур (patterns) с целью достижения преимуществ в бизнесе (определение SAS Institute).

Рис. 5. Мультидисциплинарный характер Data Mining

Основными задачами, с которыми сталкивается аналитик являются - классификация, регрессия, поиск ассоциативных правил и кластеризация.

Задача классификации заключается в том, что для каждого варианта оперделяется категория или класс, которому он принадлежит. В качестве примера можно привести оценку кредитоспособности потенциального заемщика: назначаемые классы здесь могут быть «кредитоспособен» и «некредитоспособен». Для решения задачи требуется, чтобы множество классов было известно заранее и было бы конечным и счетным. Другим примером задачи классификации является фильтрация электронной почты. В этом случае программа фильтрации должна классифицировать входящее сообщение как спам (spam -- нежелательная электронная почта) или как письмо. Данное решение принимается на основании частоты появления в сообщении определенных слов (например, имени получателя, безличного обращения, слов и словосочетаний: "приобрести", "заработать", "выгодное предложение" и т.п.).

Рис. 6. Иллюстрация задачи классификации

Задача регрессии во многом схожа с задачей классификации, но в ходе ее решения производится поиск шаблонов для определения непрерывного числового значения.

Рис. 7. Иллюстрация задачи регрессии

Отдельно выделяется задача прогнозирования новых значений на основании имеющихся значений числовой последовательности. При этом могут учитываться имеющиеся тенденции (тренды), сезонность, другие факторы. Классическим примером является прогнозирование цен акций на бирже.

Все задачи интеллектуального анализа по способу решения можно разделить на два класса: обучение с учителем и обучение без учителя.

В первом случае, требуется обучающий набор данных, на котором создается и обучается модель интеллектуального анализа. Готовая модель тестируется и используется для предсказания значений в новых наборах данных.

Во втором случае, целью является выявление закономерностей, имеющихся в существующем наборе данных. При этом обучающая выборка не требуется. Достоинством таких задач является возможность их решения без каких-либо предварительных знаний об анализируемых данных.

Задача кластеризации заключается в поиске независимых групп и их характеристик во всем множестве анализируемых данных. Решение этой задачи помогает лучше понять данные. Группировка однородных объектов позволяет сократить их число и облегчить анализ.

Другое название этой задачи - сегментация, деление множества объектов на группы, схожие по параметрам.

Рис. 8. Иллюстрация задачи кластеризации

Задача определения взаимосвязей (задача поиска ассоциативных правил) заключается в определении часто встречающихся наборов объектов среди множества подобных наборов. Классическим примером является анализ потребительской корзины.

Анализ последовательностей или сиквенциальный анализ - целью служит обнаружение закономерностей в последовательностях событий.

Анализ отклонений позволяет отыскать среди множества событий те, которые существенно отличаются от нормы.

Поставленные задачи по назначению делятся на описательные и предсказательные.

Описательные (descriptive) задачи уделяют внимание улучшению понимания анализируемых данных. Ключевой момент в таких моделях - легкость и прозрачность результатов для восприятия человеком. К такому виду задач относятся кластеризация и поиск ассоциативных правил.

Решение предсказательных (predictive) задач разбивается на два этапа. На первом этапе, на основании набора данных с известными результатами строится модель. На втором этапе она используется для предсказания результатов на основании новых наборов данных. При этом требуется, чтобы построенные модели работали максимально точно. К данному виду задач относят задачи классификации и регрессии.

Потенциал Data Mining дает «зеленый свет» для расширения границ применения этой технологии. Относительно перспектив Data Mining возможны следующие направления развития:

* выделение типов предметных областей с соответствующими им эвристиками, формализация которых облегчит решение соответствующих задач Data Mining, относящихся к этим областям;

* создание формальных языков и логических средств, с помощью которых будет формализованы рассуждения и автоматизация которых станет инструментом решения задач Data Mining в конкретных предметных областях;

* создание методов Data Mining, способных не только извлекать из данных закономерности, но и формировать некие теории, опирающиеся на эмпирические данные;

* преодоление существенного отставания возможностей инструментальных средств Data Mining от теоретических достижений в этой области.

К базовым методам Data Mining принято относить, прежде всего, алгоритмы, основанные на переборе. Для сокращения вычислительной сложности в таких алгоритмах, как правило, используют разного вида эвристики, приводящие к сокращению перебора. Оптимизация подобных алгоритмов сводится к приведению зависимости количества операций от количества исследуемых данных к функции линейного вида.

Основным достоинством данных алгоритмов является их простота, как с точки зрения понимания, так и реализации.

К недостаткам можно отнести отсутствие формальной теории, на основании которой строятся такие алгоритмы, а, следовательно, и сложности, связанные с их исследованием и развитием.

К базовым методам Data Mining можно отнести также и подходы, использующие элементы теории статистики. В связи с тем, что Data Mining является развитием статистики, таких методов достаточно много. Их основная идея сводится к корреляционному, регрессионному и другим видам статистического анализа.

Главным недостатком является усреднение значений, что приводит к потере информативности данных. Это в свою очередь приводит к уменьшению количества добываемых знаний.

Построение модели интеллектуального анализа данных можно представить как последовательность следующих шести базовых шагов.

1. Постановка задачи.

2. Подготовка данных.

3. Просмотр данных.

4. Построение моделей.

5. Исследование и проверка моделей.

6. Развертывание и обновление моделей.

Рис. 9. Этапы интеллектуального анализа данных

Процесс является циклическим, то есть создание аналитической модели данных является динамическим и повторяющимся процессом.

Первым шагом интеллектуального анализа данных является четкое определение проблемы и рассмотрение способов использования данных для решения проблемы. Этот шаг включает анализ бизнес-требований, определение области проблемы, метрик, по которым будет выполняться оценка модели, а также определение задач для проекта интеллектуального анализа данных.

Вторым шагом является объединение и очистка данных, определенных во время шага Постановка задачи. Очистка данных -- это не только удаление недопустимых данных или интерполяция отсутствующих значений, но и поиск в данных скрытых зависимостей, определение источников самых точных данных и подбор столбцов, которые больше всего подходят для использования в анализе.

Третьим шагом процесса является просмотр подготовленных данных. Для принятия правильных решений при создании моделей интеллектуального анализа данных необходимо понимать данные.

Четвертым шагом процесса является построение моделей интеллектуального анализа данных. Модель интеллектуального анализа данных перед обработкой структуры и модели является просто контейнером, который задает столбцы, используемые для входных данных, прогнозируемый атрибут и параметры, управляющие алгоритмом обработки данных. Обработку модели часто называют обучением.

Пятым шагом процесса является исследование построенных моделей интеллектуального анализа данных и проверка их эффективности. Перед развертыванием модели в рабочей среде необходимо проверить эффективность работы модели. Кроме того, во время построения модели обычно создается несколько моделей с различной конфигурацией, а затем проверяются все модели, чтобы определить, какая из них обеспечивает лучшие результаты для поставленной задачи и имеющихся данных.

Последним шагом процесса является развертывание наиболее эффективных моделей в рабочей среде. После развертывания моделей интеллектуального анализа данных в рабочей среде можно выполнять множество задач, соответствующих потребностям пользователя.

1.3 Архитектура СУБД SQL Server

В SQL Server реализовано несколько технологий управления и анализа данных. На рисунке 10 схематично представлены компоненты СУБД MS SQL Server 2008.

Для многомерных данных (OLAP):

Службы MicrosoftSQL ServerAnalysis Services -- многомерные данные позволяют проектировать, создавать и управлять многомерными структурами, которые содержат детализирующие и статистические данные из нескольких источников данных, таких как реляционные базы данных, в одной унифицированной логической модели, поддерживаемой встроенными средствами проведения вычислений.

Службы Analysis Services -- многомерные данные обеспечивают возможность быстрого, доступного для понимания пользователя, нисходящего анализа крупных количеств данных, основанного на этой унифицированной модели данных, результаты которого могут доставляться пользователям на нескольких национальных языках, с пересчетом на несколько разных валют.

Рис. 10. Службы и компоненты СУБД MS SQL Server 2008

Службы Analysis Services -- многомерные данные применяются для работы с хранилищами данных, рынками данных, производственными базами данных и хранилищами оперативных данных, поддерживая анализ данных с предысторией и данных, поступающих в реальном времени.

Логическая архитектура:

Службы Microsoft SQL Server Analysis Services используют как серверные, так и

клиентские компоненты для предоставления приложениям бизнес-аналитики функций оперативной аналитической обработки (OLAP) и интеллектуального анализа данных.

· Серверный компонент служб Analysis Services реализован в виде службы Microsoft Windows. Службы SQL Server Analysis Services поддерживают работу нескольких экземпляров на одном компьютере, при этом каждый экземпляр служб Analysis Services реализован как отдельный экземпляр службы Windows.

· Клиенты обмениваются данными со службами Analysis Services с помощью общедоступного стандарта XML для аналитики (XMLA), который представляет собой протокол на базе SOAP для выполнения команд и получения ответов и предоставляется в виде веб-службы. Клиентские модели объектов также предоставляются через XML для аналитики, и доступ к ним производится через управляемый поставщик, например ADOMD.NET, или через собственный поставщик OLE DB.

· Команды запросов могут быть выражены на следующих языках. SQL; многомерных выражений -- языка запросов отраслевого стандарта, ориентированного на анализ; расширений интеллектуального анализа данных -- языка запросов отраслевого стандарта, ориентированного на интеллектуальный анализ данных. Также язык сценариев служб Analysis Services (ASSL) можно использовать для управления объектами базы данных служб Analysis Services.

Экземпляр служб Analysis Services может содержать несколько баз данных, а в базе данных могут одновременно присутствовать объекты OLAP и объекты интеллектуального анализа данных. Приложения подключаются к указанному экземпляру служб Analysis Services и к указанной базе данных. На серверном компьютере может эксплуатироваться несколько экземпляров служб Analysis Services. Экземпляры служб Analysis Services именуются как «<ИмяСервера>\<ИмяЭкземпляра>». На рисунке 11 показаны все упомянутые связи между объектами служб Analysis Services.

Рис. 11. Связи между объектами служб Analysis Services

Основные классы представляют собой минимальный набор объектов, требуемый для формирования куба. Этот минимальный набор объектов включает измерение, группу мер и секцию. Определение статистической обработки является необязательным.

Измерения создаются на основе атрибутов и иерархий. Иерархии формируются с использованием упорядоченного набора атрибутов, такого, что каждый атрибут соответствует одному из уровней в иерархии.

Кубы создаются на основе измерений и групп мер. Измерения в коллекции измерений куба принадлежат к коллекции измерений базы данных. Группы мер -- это коллекции мер, которые имеют одно и то же представление источника данных и одно и то же подмножество измерений в кубе. Группа мер имеет одну или несколько секций, предназначенных для управления физическими данными. Группа мер может иметь применяемую по умолчанию статистическую схему. Статистическая схема по умолчанию может использоваться во всех секциях в группе мер; кроме того, каждая секция может иметь собственную статистическую схему.

Исходя из рисунка 11, можно сделать следующие выводы.

Каждый экземпляр служб SSAS рассматривается как отдельный объект сервера и подключается к нему с помощью отдельного соединения. Каждый объект сервера содержит один или несколько источников данных, представление источника данных и объекты базы данных, а также сборки и роли безопасности.

Каждый объект базы данных содержит несколько объектов измерения. Каждый объект измерения содержит один или несколько атрибутов, которые организованы в виде иерархий.

Каждый объект базы данных содержит один или несколько объектов куба. Куб задается его мерами и измерениями. Меры и измерения куба выводятся из таблиц и представлений в представлении источника данных, на котором основан куб или который создан из определений мер и измерений.

Физическая архитектура может быть представлена следующей таблицей.

Таблица 2. Физическая архитектура многомерных данных (OLAP)

Раздел	Описание
Серверный процесс	Описывает архитектуру службы и то, как эксплуатировать несколько экземпляров Analysis Services.
Папки и файлы сервера (службы Analysis Services -- многомерные данные)	Описывает, как реализуются кубы в среде сервера, в которой эксплуатируется решение служб Analysis Services.
Локальные кубы (службы Analysis Services -- многомерные данные)	Описывает, как реализуются изолированные кубы и что представляет собой область действия такой реализации в решении служб Analysis Services.
Клиенты (службы Analysis Services -- многомерные данные)	Описывает архитектуру клиента, предназначенного для доступа к данным и метаданным с помощью решения служб Analysis Services.

Для интеллектуального анализа данных:

Службы Microsoft SQL Server Analysis Services содержат функции и средства для создания сложных решений по интеллектуальному анализу данных.

· Набор стандартных алгоритмов интеллектуального анализа данных.

· Конструктор интеллектуального анализа данных, который предназначен для создания и просмотра моделей интеллектуального анализа данных, для управления моделями и для составления прогнозов с помощью этих моделей.

· Язык расширений интеллектуального анализа данных, который можно использовать для управления моделями интеллектуального анализа данных и для создания сложных прогнозирующих запросов.

Для обнаружения в данных закономерностей и тенденций можно применять сочетание этих функций и средств, а затем использовать найденные закономерности и тенденции для принятия обоснованных решений в отношении сложных бизнес-задач.

Логическая архитектура:

Интеллектуальный анализ данных -- это процесс, сопряженный с взаимодействием нескольких компонентов. Выполняется доступ к источникам данных в базе данных SQL Server или любому другому источнику данных, используемому для обучения, тестирования и прогнозирования. Определяются структуры и модели интеллектуального анализа данных с помощью среды Business Intelligence Development Studio или Visual Studio 2005. Управлять объектами интеллектуального анализа данных и создавать прогнозы и запросы можно в среде SQL Server Management Studio. Законченное решение развертывается в экземпляре служб Analysis Services.

Структура интеллектуального анализа данных определяет данные, на основе которых строятся модели интеллектуального анализа данных: она задает представление источника данных, количество и тип столбцов, а также необязательное секционирование на обучающий и проверочный наборы. Одна структура интеллектуального анализа может поддерживать несколько моделей интеллектуального анализа данных, совместно использующих один домен. На следующей схеме показана связь структуры интеллектуального анализа данных с источником данных и моделями интеллектуального анализа данных, основанных на этой структуре.

Физическая архитектура:

Чтобы обеспечить функции интеллектуального анализа данных для приложений бизнес-аналитики, в службах MicrosoftAnalysis Services используются как серверный, так и клиентский компоненты.

· Серверный компонент служб Analysis Services реализован в виде службы Microsoft Windows. Службы SQL Server 2008 Analysis Services (SSAS) поддерживают работу нескольких экземпляров на одном компьютере, при этом каждый экземпляр служб Analysis Services реализован как отдельный экземпляр службы Windows.

· Команды запросов могут быть выражены на следующих языках. Расширения интеллектуального анализа данных (DMX) -- стандартный язык запросов, ориентированный на интеллектуальный анализ данных. Язык сценариев служб Analysis Services (ASSL) также может использоваться для управления объектами базы данных служб Analysis Services.

Экземпляр служб Analysis Services запускается, как изолированная служба, взаимодействие с этой службой происходит через XMLA с использованием протокола HTTP или TCP. Объекты AMO -- это прослойка между приложением пользователя и экземпляром служб Analysis Services. Они предоставляют доступ к административным объектам служб Analysis Services. Объект AMO -- это библиотека класса, которая принимает команды от клиентского приложения и преобразует их в XMLA-сообщения для экземпляра служб Analysis Services. Объекты AMO представляют объекты экземпляра служб Analysis Services, как классы для приложения конечного пользователя, с элементами-методами, запускающими команды и элементами-свойствами, хранящими данные объектов служб Analysis Services.

Следующий рисунок отображает архитектуру компонентов служб Analysis Services, включая все главные элементы, запущенные на экземпляре служб Analysis Services, и все пользовательские компоненты, взаимодействующие с этим экземпляром. Рисунок также отображает, что единственным путем доступа к экземпляру является прослушиватель XML для аналитики или использование протокола HTTP или TCP.

Рис. 12. Архитектура компонентов служб Analysis Services

1.4 Математические основы бизнес-аналитики

Математические основы оперативного анализа данных.

Существующие математические модели многомерных OLAP-систем обладают следующими недостатками, касающимися формальной структуры этих моделей.

1) Моделирование запросов к многомерной БД с помощью преобразования их в эквивалентные реляционные выражения или логические формулы делает невозможным выполнение произвольной последовательности операций.

2) Множественное наследование в иерархиях затрудняет реорганизацию иерархической структуры, так как одна и та же вершина может принадлежать различным путям агрегации, имеющим различные агрегирующие функции.

3) В процессе эволюции многомерной базы данных возникают семантические конфликты вследствие различных отношений «родитель -потомок» для нескольких вершин, являющихся родительскими для одного и того же потомка.

4) Структура измерения допускает разбиение всего множества его значений на пересекающиеся подмножества, что может привести к некорректному агрегированию.

Статья, опубликованная в 1993 году Е.Ф.Коддом, включала 12 правил, которые теперь хорошо известны. В 1995 году к ним были добавлены еще шесть.

Основные особенности:

F1: Многомерное концептуальное представление данных (Оригинальное правило 1). Эта особенность - сердцевина OLAP.

F2: Интуитивное манипулирование данными (Оригинальное правило 10). Чтобы манипулирование данными осуществлялось посредством прямых действий над ячейками в режиме просмотра без использования меню и множественных операций.

F3: Доступность (Оригинальное правило 3). OLAP как посредник. OLAP в качестве прослойки между гетерогенными источниками данных и представлением для конечного пользователя.

F4: Пакетное извлечение против интерпретации (Новое). Это правило требует, чтобы продукт в равной степени эффективно обеспечивал доступ, как к собственному хранилищу данных, так и к внешним данным.

F5: Модели анализа OLAP (Новое). OLAP продукты поддерживают все четыре модели анализа, которые Кодд описывает в своей статье (Категориальный, Толковательный, Умозрительный и Стереотипный). Все OLAP инструменты поддерживают первые два, большинство поддерживают третий в той или иной степени, и лишь некоторые поддерживают четвертый в отдельных полезных расширениях.

F6: Архитектура «клиент-сервер» (Оригинальное правило 5). Чтобы продукт был не только клиент-серверным, но и чтобы серверный компонент был бы достаточно интеллектуальным для того, чтобы различные клиенты могли подключаться с минимумом усилий и программирования. Это требование существенно сильнее, чем просто архитектура клиент-сервер, и относительно небольшое количество продуктов удовлетворяют ему.

F7: Прозрачность (Оригинальное правило 2). Полное соответствие ему означает, что пользователь электронной таблицы способен получить все необходимые данные из OLAP - машины, даже не подозревая, откуда они, в конечном счете, берутся. Чтобы выполнить это, продукт должен обеспечивать непосредственный живой доступ к гетерогенным источникам данных и одновременно иметь встроенную полнофункциональную электронную таблицу.

F8: Многопользовательская поддержка (Оригинальное правило 8). Не все OLAP приложения работают только в режиме чтения данных, и этим правилом Кодд указывает стратегическое направление развития. Инструменты OLAP должны обеспечивать одновременный доступ (чтение и запись), интеграцию и конфиденциальность.

Специальные особенности:

F9: Обработка ненормализованных данных (Новое). Оно указывает на необходимость интеграции между OLAP-машиной и ненормализованными источниками данных. То есть модификации данных, выполненные в среде OLAP, не должны приводить к изменениям данных, хранимых в исходных внешних системах.

F10: Сохранение результатов OLAP: хранение их отдельно от исходных данных (Новое). Кодд придерживается распространенного мнения о том, что OLAP приложения, работающие в режиме чтения-записи не должны воздействовать напрямую на обрабатываемые данные. И данные, модифицированные в OLAP, должны сохраняться отдельно от данных транзакций.

F11: Исключение отсутствующих значений (Новое). Все отсутствующие значения отбрасываются в представлении.

F12: Обработка отсутствующих значений (Новое). Все отсутствующие значения будут игнорироваться OLAP анализатором без учета их источника. Эта особенность связана с F11 и является почти неизбежным следствием того, как OLAP - машина обрабатывает все данные.

Особенности представления отчетов:

F13: Гибкость формирования отчетов (Оригинальное правило 11). Требует, чтобы измерения могли быть размещены в отчете так, как это нужно пользователю.

F14: Стандартная производительность отчетов (Оригинальное правило 4). Требует, чтобы производительность формирования отчетов существенно не падала с ростом количества измерений и размеров базы данных.

F15: Автоматическая настройка физического уровня (Замена оригинального правила 7). Требует, чтобы OLAP системы автоматически настраивали свою физическую схему в зависимости от типа модели, объемов данных и разреженности базы данных.

Управление измерениями:

F16: Универсальность измерений (Оригинальное правило 6). Все измерения должны быть равноправны, каждое измерение должно быть эквивалентно и в структуре, и в операционных возможностях.

F17: Неограниченное число измерений и уровней агрегации (Оригинальное правило 12).

В случае ограничения Кодд предлагает принятие некоторого максимума, который должен обеспечивать, по крайней мере, 15 измерений, а предпочтительнее - 20. Технически нет продукта, который мог бы соответствовать этому требованию, потому что нет неограниченного объекта на ограниченном компьютере. В любом случае, немного приложений нуждается в более чем 8 или 10 измерениях. Немного приложений имеют иерархию более шести консолидированных уровней.

F18: Неограниченные операции между размерностями (Оригинальное правило 9). Все виды операций должны быть дозволены для любых измерений, а не только для измерений типа «показатель» (мера).

Срез - заключается в выделении подмножества ячеек гиперкуба при фиксировании значения одного или нескольких измерений. В результате сечения получается срез или несколько срезов, каждый из которых содержит информацию, связанную со значением измерения, по которому он был построен. Например, если выполнить сечение по значению ЗАО «Строитель» измерения Покупатель, то полученный в результате срез будет содержать информацию об истории продаж всех товаров данного предприятия, которую можно будет свести в плоскую таблицу.

Рис. 13. Операция среза

Куб данных обозначим как множество ячеек (на примере трехмерного куба). Зафиксируем значение k, то есть . В данном примере, если выполнять операцию среза, то получим в результате плоскость, представленную матрицей .

Таким образом, = ,

Вращение - изменение расположения измерений, представленных в отчете или на отображаемой странице. Например, операция вращения может заключаться в перестановке местами строк и столбцов таблицы. Кроме того, вращением куба данных является перемещение внетабличных измерений на место измерений, представленных на отображаемой странице, и наоборот.

Рис. 14. Операция вращения

Таким образом, явным формальным примером операции вращения будет служить транспонирование матрицы.

Пусть - матрица вращения размера mЧn. Тогда транспонированная матрица , полученная в результате выполнения операции вращения, размером nЧm такая, что: элементы .

Консолидация и детализация - операции, которые определяют переход вверх по направлению от детального представления данных к агрегированному и наоборот, соответственно. Направление детализации (обобщения) может быть задано как по иерархии отдельных измерений, так и согласно прочим отношениям, установленным в рамках измерений или между измерениями.

Рис. 15. Операции консолидации и детализации

Задачи, методы и алгоритмы Data Mining.

В службах Microsoft SQL Server реализовано несколько алгоритмов в решениях интеллектуального анализа данных. Все алгоритмы интеллектуального анализа данных Майкрософт настраиваются, они полностью программируются через API-интерфейсы или компоненты интеллектуального анализа данных служб SQL Server Integration Services. Выбор правильного алгоритма в конкретной аналитической задаче может быть достаточно сложным. В то время как можно использовать различные алгоритмы для выполнения одной и той же задачи, каждый алгоритм выдает различный результат. Например, можно использовать алгоритм дерева принятия решений (Майкрософт) не только для прогнозирования, но также в качестве способа уменьшения количества столбцов в наборе данных, поскольку дерево принятия решений может идентифицировать столбцы, не влияющие на конечную модель интеллектуального анализа данных.

К часто используемым методам и алгоритмам Data Mining относятся:

1. Упрощенный алгоритм Байеса;

1. Деревья решений;

2. Линейная регрессия;

3. Анализ временных рядов;

4. Кластеризация;

5. Алгоритм взаимосвязей;

6. Кластеризация последовательностей;

7. Нейронные сети;

8. Логическая регрессия.

Большинство аналитических методов, используемые в технологии Data Mining - это известные математические алгоритмы и методы. Новым в их применении является возможность их использования при решении тех или иных конкретных проблем, обусловленная появившимися возможностями технических и программных средств. Следует отметить, что большинство методов Data Mining были разработаны в рамках теории искусственного интеллекта.

Метод представляет собой норму или правило, определенный путь, способ, прием решений задачи теоретического, практического, познавательного, управленческого характера.

Задача классификации и регрессии.

Формально задачу классификации и регрессии можно описать следующим образом. Имеется множество объектов:

где - исследуемый объект.

Каждый объект характеризуется набором переменных:

где -- независимые переменные, значения которых известны и на основании которых определяется значение зависимой переменной .

В Data Mining часто набор независимых переменных обозначают в виде вектора:

Каждая переменная может принимать значения из некоторого множества:

Если значениями переменной являются элементы конечного множества, то говорят, что она имеет категориальный тип.

Если множество значений переменной y конечное, то задача называется задачей классификации. Если переменная y принимает значение на множестве действительных чисел R, то задача называется задачей регрессии.

В задачах классификации и регрессии обнаруженная функциональная зависимость между переменными может быть представлена одним из следующих способов:

· классификационные правила;

· деревья решений;

· математические функции.

Классификационные правила состоят из двух частей: условия и заключения: если (условие), то (заключение).

Условием является проверка одной или нескольких независимых переменных. Проверки нескольких переменных могут быть объединены с помощью операций "и", "или" и "не". Заключением является значение зависимой переменной или распределение ее вероятности по классам.

Основным достоинством правил является легкость их восприятия и запись на естественном языке. Еще одно преимущество -- их относительная независимость.

Существуют разные методы построения правил классификации: алгоритм построения 1-правил, метод Naive Bayes.

Деревья решений -- это способ представления правил в иерархической, последовательной структуре.

Деревья решений легко преобразуются в правила. В условную часть таких правил записывается условие, описанное в узлах дерева на пути к листу, в заключительную часть -- значение, определенное в листе.

Существуют различные методы построения деревьев решений, такие как: методика «разделяй и властвуй», алгоритм ID3, алгоритм С4.5, алгоритм покрытия.

Математическая функция выражает отношение зависимой переменной от независимых переменных. В этом случае анализируемые объекты рассматриваются как точки в (m + 1)-мерном пространстве. Тогда переменные объекта рассматриваются как координаты, а функция имеет следующий вид:

где - веса независимых переменных, в поиске которых и состоит задача нахождения классификационной функции.

Очевидно, что все переменные должны быть представлены в виде числовых параметров. Для преобразования логических и категориальных переменных к числовым используют разные способы.

Существуют различные методы построения математических функций: линейные методы, такие как метод наименьших квадратов, нелинейные методы, Support Vector Machines, регуляризационные сети, дискретизации и редкие сетки.

Задача кластеризации.

Большое достоинство кластерного анализа в том, что он позволяет осуществлять разбиение объектов не по одному параметру, а по целому набору признаков. Задача кластеризации состоит в разделении исследуемого множества объектов на группы "похожих" объектов, называемых кластерами.

Формально задача кластеризации описывается следующим образом.

Дано множество объектов данных I , каждый из которых представлен набором атрибутов. Требуется построить множество кластеров C и отображение F множества I на множество C , т. е. F : I >C . Отображение F задает модель данных, являющуюся решением задачи. Качество решения задачи определяется количеством верно классифицированных объектов данных.

Множество I определим следующим образом:

где - исследуемый объект.

Каждый из объектов характеризуется набором параметров:

Каждая переменная может принимать значения из некоторого множества:

Задача кластеризации состоит в построении множества:

Здесь -- кластер, содержащий похожие друг на друга объекты из множества:

где у -- величина, определяющая меру близости для включения объектов в один кластер; -- мера близости между объектами, называемая расстоянием.

Неотрицательное значение называется расстоянием между элементами , если выполняются следующие условия:

1. , для всех .

2. , тогда и только тогда, когда .

3. .

4. .

Если расстояниеменьше некоторого значения у , то говорят, что элементы близки и помещаются в один кластер. В противном случае говорят, что элементы отличны друг от друга и их помещают в разные кластеры.

Большинство популярных алгоритмов, решающих задачу кластеризации, используют в качестве формата входных данных матрицу отличия D. Строки и столбцы матрицы соответствуют элементам множества I. Элементами матрицы являются значения в строке j и столбце p. Очевидно, что на главной диагонали значения будут равны нулю:

Расстояния между объектами предполагают их представление в виде точек m -мерного пространства . В этом случае могут быть использованы различные расстояния, например,

...

Страница:

дипломная работа "Исследование математических моделей, методов и средств бизнес-аналитики СУБД SQL Server" скачать

Подобные документы

Исследование математических моделей, методов и средств бизнес-аналитики СУБД SQL Server
Обзор архитектуры СУБД SQL Server. Описание и анализ областей применения средств бизнес-аналитики, таких как многомерный анализ данных и интеллектуальный анализ данных. Обзор языковых средств, методов и экспериментальное применение полученных сведений.

дипломная работа [2,2 M], добавлен 09.07.2014
Технический дизайн интерфейсов на основе аналитики больших данных
Сбор ключевой статистики по интерфейсам, проведение аналитики и выдвижение гипотез по улучшению продукта. Рассмотрение методов анализа данных на базе конкретного проекта. Расположение инструментов на экране и порядок взаимодействия с ними у пользователя.

курсовая работа [664,7 K], добавлен 01.01.2018
Создание хранилища данных и системы бизнес-аналитики
Архитектура и технология функционирования системы. Извлечение, преобразование и загрузка данных. Oracle Database для реализации хранилища данных. Создание структуры хранилища. Механизм работы системы с точки зрения пользователя и с точки зрения платформы.

курсовая работа [2,2 M], добавлен 22.02.2013
Основы теории цепей
Определения и классификация математических моделей. Возможности системы, распечатка документа MathCAD. Описание математической модели. Анализ исходных данных и результатов. Графическая схема алгоритма и ее описание. Алгоритмический анализ задачи.

курсовая работа [621,4 K], добавлен 21.01.2013
Разработка системы поддержки принятия решений
Обслуживание двух встречных потоков информации. Структура информационных систем. Разработка структуры базы данных. Режимы работы с базами данных. Четыре основных компонента системы поддержки принятия решений. Выбор системы управления баз данных.

курсовая работа [772,0 K], добавлен 21.04.2016
Создание хранилища данных
Рассмотрение OLAP-средств: классификация витрин и хранилищ информации, понятие куба данных. Архитектура системы поддержки принятия решений. Программная реализация системы "Abitura". Создание Web-отчета с использованием технологий Reporting Services.

курсовая работа [2,7 M], добавлен 05.12.2012
Разработка системы поддержки принятия решений в сфере банковского кредитования
Классификация систем поддержки принятия решений. Сравнительный анализ методик для оценки рисков розничного кредитования. Структура системы поддержки принятия решений, формирование начальной базы знаний. Проектирование базы данных информационной системы.

дипломная работа [1,9 M], добавлен 10.07.2017
Проектирование информационной системы для поддержки принятия решений в ситуационных центрах
Описание предметной области автоматизации. Программа обследования и план-график выполнения работ на предпроектной стадии. Метод группового принятия решения с помощью кластеризации экспертных оценок альтернатив. Построение диаграммы потоков данных DFD.

дипломная работа [375,8 K], добавлен 07.12.2014
Разработка стратегии развития сайта компании "Додо Парма"
Анализ предметной области. Обзор инструментов Web-аналитики для развития бизнеса в Интернете. Построение моделей бизнес-процессов компании. Учет поискового трафика. Элементы управления доступом. Обработка и хранение данных. Видимость сайта в поисковиках.

дипломная работа [1,4 M], добавлен 27.09.2016
Моделирование сети кластеризации данных в MATLAB NEURAL NETWORK TOOL
Сущность и понятие кластеризации, ее цель, задачи, алгоритмы; использование искусственных нейронных сетей для кластеризации данных. Сеть Кохонена, самоорганизующиеся нейронные сети: структура, архитектура; моделирование кластеризации данных в MATLAB NNT.

дипломная работа [3,1 M], добавлен 21.03.2011
Проектирование базы данных "Агентство по трудоустройству"
Автоматизация работы пользователя по поиску, просмотру и редактированию информации о работниках, соискателях, вакансиях. Построение информационно-логической и физической моделей данных. Создание базы данных в СУБД MS SQL Server. Описание SQL запросов.

курсовая работа [1,8 M], добавлен 07.08.2013
Информатизация процесса принятия решений на основе системы Business Intelligence
Классификация информационных систем управления деятельностью предприятия. Анализ рынка и характеристика систем класса Business Intelligence. Классификация методов принятия решений, применяемых в СППР. Выбор платформы бизнес-интеллекта, критерии сравнения.

дипломная работа [1,7 M], добавлен 27.09.2016
Информационные технологии в статистике
Проектирование и функционирование системы сбора и обработки статистической информации с применением экономико-математических методов. Использование средств вычислительной и организационной техники и средств связи в органах государственной статистики.

контрольная работа [117,4 K], добавлен 11.04.2015
Разработка программы автоматизации учета выплат учащимися профсоюзных взносов
Анализ входной информации необходимой для решения задачи. Разработка исходных данных контрольного примера создания базы данных. Описание технологии и алгоритмов решения задачи и их математических реализаций. Разработка диалогов приложения пользователя.

курсовая работа [1,3 M], добавлен 26.04.2015
Основы системы управления базами данных ORACLE
Краткая история развития СУБД ORACLE, основные понятия и определения, архитектура. Принципы работы с СУБД ORACLE. Разработка баз данных, средства и технологии их реализации; возможности процедурного языка PL/SQL. Приемы администрирования СУБД ORACLE.

презентация [609,2 K], добавлен 14.02.2014
Проектирование базы знаний
Основные модели представления знаний. Системы поддержки принятия решений. Диаграмма UseCase. Разработка базы данных на основе трех моделей: продукционные правила, семантическая сеть, фреймовая модель. Программная реализация системы принятия решений.

курсовая работа [715,1 K], добавлен 14.05.2014
Реализация и поддержка целостности базы данных
Базы данных (БД) и системы управления базами данных (СУБД) как основы современной информационной технологии, их роль в хранении и обработке информации. Этапы реализации БД, средств ее защиты и поддержки целостности. Протоколы фиксации и отката изменений.

презентация [364,2 K], добавлен 22.10.2013
Моделирование бизнес-процессов ООО "СтильДент"
Архитектура интегрированных информационных систем ARIS как методология моделирования бизнес-процессов, преимущества и недостатки использования. Выбор бизнес-процесса для моделирования и его содержательное описание, табличный формат его описания.

курсовая работа [2,2 M], добавлен 19.06.2015
Разработка СУБД
Теоретические аспекты СУБД. Основные понятия. Функциональные возможности СУБД. Архитектура систем управления. Разработка базы данных. Крупные массивы данных размещают, как правило, отдельно от исполняемого программы, и организуют в виде базы данных.

курсовая работа [30,5 K], добавлен 23.02.2006
Введение в обработку данных. Среда хранения и средства обработки информационных массивов. Эволюция и характеристика концепций обработки данных. Обобщенная схема выборки данных в ОС и СУБД
Термины "логический" и "физический" как отражение различия аспектов представления данных. Методы доступа к записям в файлах. Структура систем управления базами данных. Отличительные особенности обработки данных, характерные для файловых систем и СУБД.

лекция [169,7 K], добавлен 19.08.2013

Другие документы, подобные "Исследование математических моделей, методов и средств бизнес-аналитики СУБД SQL Server"

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.