Главная Коллекция "Revolution" Экономико-математическое моделирование Анализ данных

Анализ данных

Доверительные интервалы. Проверка гипотез. Множественная и нелинейная регрессия. Двухпараметрическое и простое экспоненциальное сглаживание. Когнитивный анализ: графы. CRM и OLAP – технологии (Оперативная система аналитической обработки данных).

Рубрика	Экономико-математическое моделирование
Вид	курсовая работа
Язык	русский
Дата добавления	29.06.2016
Размер файла	797,2 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

36

Размещено на http://www.allbest.ru/

Курс лекций для заочного отделения по дисциплине

«Анализ данных»

Содержание

ТЕМА 1: Статистика выводов

1.1 Доверительные интервалы

1.2 Проверка гипотез

ТЕМА 2: Регрессия и корреляция

2.1 Регрессия

2.2 Корреляция

2.3 Множественная регрессия

2.4 Нелинейная регрессия

ТЕМА 3: Временные ряды

3.1 Простое экспоненциальное сглаживание

3.2 Двухпараметрическое экспоненциальное сглаживание

ТЕМА 4: Когнитивный анализ. Графы

ТЕМА 5: Системы аналитической обработки данных

5.1 OLAP - технология (Оперативная система аналитической обработки данных)

5.2 CRM - технология (Customer Relationship Management)

5.3 Интеллектуальный анализ данных (Data Mining)

ТЕМА 1: Статистика выводов

Основные компоненты статистики выводов являются:

- Доверительные интервалы;

- Критерии проверки гипотез.

1.1 Доверительные интервалы

Доверительные интервалы помогают определить точность оценки истинного среднего на основе выборочного среднего.

Основные свойства распределения и выборки при определении доверительного интервала:

1) выборочное среднее приблизительно удовлетворяет нормальному распределению со средним распределением и стандартным отклонением , где n - размер выборки;

2) в нормальном распределении около 95% значений попадают в диапазон двух стандартных отклонений от среднего. Пример: если = 10, а n = 25, то выборочное среднее удовлетворяет нормальному распределению со средним и стандартным отклонением 2. Т.е. с вероятностью 95% выборочное среднее попадает в диапазон отклонения на 4 единицы от . Это значит, что если выборочное среднее равно 20, то с вероятность 95% находится в диапазоне от 16 до 24. Этот диапазон называется доверительным интервалом. Для уменьшения доверительного интервала нужно увеличить размер выборки.

Нужно вычесть среднее распределение из выборочного среднего и разделить частное на стандартную ошибку. Полученное значение удовлетворяет стандартному нормальному распределению и называется z-статистикой:

.

Для случайной переменной Z должно выполняться условие:

(1.1)

Формула расчета доверительного интервала с учетом z-статистики:

(1.2)

где - среднее отклонение;

- стандартное отклонение;

n - размер выборки;

P - вероятность попадания в центр распределения;

- вероятность попадания в один из хвостов распределения (которая равна 1-P);

Z - случайная переменная. При P=0,95 и =0.05

Рис. 1.1. Двустороннее z-значение

Т.о. верхняя и нижняя границы доверительного интервала для равны

.

1.2 Проверка гипотез

Метод проверки гипотез основан на создании теории изучаемого явления и проверке ее обоснованности с помощью статистических параметров. В статистике сначала формулируется теория, затем собираются данные, и выполняется проверка.

Алгоритм создания и проверки теории (рис. 1.2):

Рис. 1.2. Создание и проверка теории

Проверка гипотезы включает четыре основных элемента:

1. Формулировка нулевой гипотезы .

2. Формулировка альтернативной гипотезы .

3. Вычисление статистики теста.

4. Определение области непринятия гипотезы.

Нулевая гипотеза, или нуль-гипотеза представляет используемую по умолчанию или общепринятую теорию изучаемых явлений. Нулевая гипотеза считается истинной, если только нет убедительных контраргументов.

Альтернативная гипотеза представляет альтернативную теорию, которая автоматически считается истинной, если отвергается нулевая гипотеза.

Статистика теста -- это статистика, вычисленная после анализа данных, которые используются для принятия или непринятия нулевой гипотезы.

Область (или диапазон) непринятия гипотезы -- это набор значений статистики теста, для которых нулевая гипотеза отвергается (или принимается).

Типы ошибок

1. Ошибка первого типа заключается в отказе от нулевой гипотезы, которая на самом деле является истинной. Обозначение: .

2. Ошибка второго типа заключается в принятии нулевой гипотезы, тогда как на самом деле истинной является альтернативная гипотеза. Обозначение: .

В статистике используется предельное значение, которое называется уровнем значимости и является самым высоким значением, допускающим вероятность возникновения ошибки первого типа. Чаще всего для уровня значимости используется величина 0,05; т.е. если нулевая гипотеза верна, то данные попадают в этот диапазон непринятия с вероятностью 0,05, причем в таком случае нулевая гипотеза отвергается.

Области принятия и непринятия

Область непринятия гипотезы. Наоборот, значения внутри данного диапазона образуют область принятия гипотезы, т.е. при попадании значений выборочного среднего в эту область нулевая гипотеза принимается. Верхняя и нижняя границы области принятия гипотезы называются критическими значениями, так как занимают критически важное положение при определении приемлемости или неприемлемости нулевой гипотезы.

Попробуем применить эту формулу в данном примере, где 0 = 50, = 15, n = 25, = 0,05, т.е. вероятность возникновения ошибки первого типа равна 5%. Поэтому область принятия гипотезы вычисляется так:

граница области принятия = .

Любое значение меньше 44,12 или больше 55,88 дает основание для отказа от нулевой гипотезы. Поскольку 45 попадает в область принятия гипотезы, то следует принять нулевую гипотезу и не считать, что внедрение нового технологического процесса снижает количество дефектных резисторов в партии.

Вероятность того, что некое значение так же экстремально, как и наблюдаемое заданное значение, называется p-значением и вычисляется при помощи z-значения:

. p-значение для одностороннего теста вычисляется как:

р-зачение=НОРМСТРАСП(z).

Если р меньше, чем =0,05 (при 95% доверительном интервале), то нулевая гипотеза отвергается с уровнем значимости , иначе нулевая гипотеза принимается.

ТЕМА 2: Регрессия и корреляция

2.1 Регрессия

В регрессионном анализе рассматривается связь между одной переменной, называемой зависимой переменной, и несколькими другими, называемыми независимыми переменными. Эта связь представляется с помощью математической модели, т.е. уравнения, которое связывает зависимую переменную с независимыми с учетом множества соответствующих предположений. Независимые переменные связаны с зависимой посредством функции регрессии, зависящей также от набора неизвестных параметров. Если функция линейна относительно параметров (но необязательно линейна относительно независимых переменных), то говорят о линейной модели регрессии. В противном случае модель называется нелинейной.

Статистическими проблемами регрессионного анализа являются:

1) получение наилучших точечных и интервальных оценок неизвестных параметров регрессии;

2) проверка гипотез относительно этих параметров;

3) проверка адекватности предполагаемой модели;

4) проверка множества соответствующих предположений.

Две причины использования регрессионного анализа:

1. Описание зависимости между переменными помогает установить наличие возможной причинной связи.

2. Для получения предиктора для зависимой переменной, т.к. уравнение регрессии позволяет предсказывать значения зависимой переменной по значениям независимых переменным.

Величина линейной зависимости между двумя переменными измеряется посредством простого коэффициента корреляции, величина линейной зависимости одной переменной от нескольких измеряется множественным коэффициентом корреляции.

Простая линейная взаимосвязь

При выполнении анализа линейной регрессии пытаются найти такую линию, которая наилучшим образом оценивает взаимосвязь между двумя переменными (зависимой переменной y и независимой переменной x). Такая линия называется подогнанной линией регрессии, а описывающее ее уравнение - уравнением регрессии.

Уравнение регрессии

Для подгонки линии регрессии используется уравнение вида: , где y - зависимая переменная, значения которой нужно предсказать; х -- независимая переменная, или предиктор, на основе которой нужно сделать предсказание; а и b -- коэффициенты.

На рис. 2.1 показана линия с коэффициентами а = 10 и b = 2. Короткие вертикальные отрезки представляют собой ошибки или остатки, т.е. промежутки между подогнанной линией и точками. Остаток -- это разность между наблюдаемыми и предсказываемыми значениями.

Если линия направлена вниз так, что при возрастании значений переменной х уменьшаются значения переменной у, то линия регрессии имеет отрицательный наклон. Например, если переменная х обозначает возраст автомобиля в годах, а переменная у -- его цену, то в таком случае наклон обозначает ежегодное снижение цены. В этом примере пересечение регрессии обозначает цену нового автомобиля, а остатки представляют разницу между фактической и предсказанной ценой. Если при прочих равных условиях линия регрессии правильно моделирует ситуацию, то положительный остаток означает завышенную цену данного автомобиля, а отрицательный -- заниженную (т.е. выгодное предложение).

Рис. 2.1. Подогнанная линия регрессии

В Excel предусмотрено несколько функций для оценки регрессии на основе метода наименьших квадратов. В табл. 2.1 описаны две такие функции:

Табл. 2.1. Функции Excel для оценки регрессии на основе метода наименьших квадратов

Например, если значения переменной у находятся в ячейках диапазона А2:А11, а значения переменной x -- в ячейках диапазона В2:В11, то функция ОТРЕЗОК (А2:А11, В2:В11) вернет значение коэффициента а, а функция НАКЛОН(А2:А11, В2:В11) -- значение коэффициента b.

Для создания диаграммы для анализа регрессии необходимо выбрать меню Вставка Диаграмма Точечная диаграмма Выбрать необходимый диапазон для анализа, состоящий из зависимой и независимой переменных Добавить линию регрессии

Рис. 2.2. Подогнанная линия регрессии

Величина R2 - величина достоверности аппроксимации, которая измеряет процентную долю изменчивости значений зависимой переменной, которая может объясняться изменениями независимой переменной. Величина R2 может изменяться от 0 до 1. В данном случае значение 0,7654 говорит о том, что изменчивость, составляющая 76,54% может объясняться изменениями от независимой переменной. Оставшаяся доля (23,46%) изменчивости может объясняться случайной изменчивостью.

Для анализа регрессии используется инструменты модуля Пакет анализа (Analysis ToolPak) Регрессия.

Рис. 2.3. Результат выполнения команды Регрессия из пакета анализа данных

Интерпретация параметров регрессии

- статистические параметры регрессии

Регрессионная статистика

Множественный R

(Коэффициент множественной корреляции) описывает корреляцию между предсказываемой переменной и линейной комбинацией предикторов

R-квадрат

Величина достоверности аппроксимации

Нормированный R-квадрат

Для анализа регрессии с несколькими предикторами

Стандартная ошибка

Типичное отклонение (x,y) от линии регрессии

Наблюдения

Размер выборки

- результат анализа изменчивости

Дисперсионный анализ

df

SS

MS

F

Значимость F

Регрессия

1

2599.534

2599.534

45.66847

9.20184E-06

Остаток

14

796.9058

56.92184

Итого

15

3396.439

df - количество степеней свободы

SS - значения суммы квадратов. Общая сумма квадратов в ячейке на пересечении со строкой Итого содержит сумму квадратов отклонений уровня зависимой переменной от среднего. Общая сумма квадратов складывается из двух частей: одна определяется изменениями линии регрессии, а другая связана с хаотичными изменениями и указана в ячейке на пересечении со строкой Остаток.

MS - результат деления суммы квадратичных отклонений на количество степеней свободы (для определения стандартной ошибки).

F - результат отношения среднеквадратического значения для регрессии и среднеквадратического значения для остатков. Большая величина F - отношения означает большую статистическую значимость регрессии.

- оценка статистических параметров

(см. предыдущую тему)

- остатки и предсказываемые значения

Наблюдение

Предсказанное

Остатки

Стандартные остатки

1

53.17999556

14.12000444

1.937211191

…

…

…

…

16

99.15503896

3.344961035

0.458916

Остаток - разность между наблюдаемыми значениями и линией регрессии (предсказываемыми значениями).

Стандартные остатки - нормированные остатки, которые не зависят от исходной единицы измерения.

,

где n - количество наблюдений в наборе данных

2.2 Корреляция

Корреляция выражает силу взаимосвязи по безразмерной шкале от -1 до 1 (величина наклона в уравнении регрессии, зависящая от единицы измерения данных).

Положительная корреляция означает сильную положительную взаимосвязь, т.е. увёличение одной переменной вызывает увеличение другой переменной (рис. 2.4). Например, такая корреляция наблюдается между ростом и весом человека. Отрицательная корреляция означает сильную отрицательную взаимосвязь, т.е. увеличение одной переменной вызывает уменьшение другой переменной (см. рис. 2.4). Например, увеличение цены товара может сопровождаться уменьшением объема продаж. Близкая к нулю корреляция означает, что между двумя переменными нет никакой взаимосвязи. Кроме того, между переменными может существовать нелинейная взаимосвязь, которая характеризуется нулевой корреляцией.

Рис. 2.4. Примеры корреляции

Наклон корреляции может выражаться любым действительным числом, но корреляция всегда должна быть в промежутке от -- 1 до +1. Корреляция + 1 означает, что все точки данных падают точно на одну линию с положительным наклоном. В таком случае все остатки равны нулю, а подогнанная линия регрессии точно проходит через все точки.

Для вычисления корреляции в Ехсеl предусмотрено несколько функций, некоторые из них перечислены в табл. 2.2.

Табл.2.2. Функции вычисления корреляции

Матрица корреляции

При наличии нескольких переменных полезно вычислить корреляцию между переменными. Таким образом, можно сразу же получить представление о взаимосвязи между переменными, определяя пары переменных с сильной и слабой связью. Один из способов анализа таких данных заключается в создании матрицы корреляции, в которой значения корреляции (и соответствующие р-значения) располагаются в квадратной решетке.

Для создания матрицы корреляции используется меню StatPlus Multivariate Analysis Correlation Matrix (StatPlus Многовариантный анализ Матрица корреляции).

Рис. 2.5. Матрица корреляции

2.3 Множественная регрессия

Множественная регрессия позволяет оценивать статистические отношения между двумя и более переменными. Множественная регрессия также позволяет составлять уравнения, в которых значение одной из переменных (зависимой переменной) может быть предсказано на основе значений одной или нескольких независимых переменных. Метод множественной регрессии используется для прогнозирования значений любых числовых показателей (например, цен, объемов продаж) на основе значений других числовых показателей.

Уравнение множественной регрессии записывается следующим образом:

где Y - зависимая переменная, значение которой может быть предсказано на основе значений независимых переменных .

Для четырех независимых переменных уравнение множественной регрессии записывается следующим образом:

Где коэффициенты - неизвестные параметры,

- случайная ошибка с нормальным распределением со средним 0 и дисперсией .

Учтите, что предикторы могут быть функциями переменных, как в показанных ниже примерах моделей множественной регрессии.

Полиномиальная:

Тригонометрическая:

Логарифмическая:

Обратите внимание: все эти уравнения являются примерами линейных моделей, даже несмотря на использование в них тригонометрических и логарифмических функций. Слово “линейный” в определении линейная модель относится к коэффициентам и случайной ошибке , т.е. данные уравнения линейны по отношению к этим значениям. Например, можно создать новые переменные l=sin(x) и k=cos(x), а затем еще одну модель на основе линейного уравнения у=b0+b1l+b2k+.

После вычисления оценок для коэффициентов придется вставить их в уравнение для предсказания значений переменной y. Тогда оценочная модель регрессии выражается следующей формулой:

где -- оценки коэффициентов , а остаток соответствует случайной ошибке .

Одной из задач анализа регрессии является предсказание значений.

2.4 Нелинейная регрессия

Любая модель, вид которой не совпадает с уравнением линейной регрессии , называется моделью нелинейной регрессии и может быть представлена в виде

, i=1,…, n,

Где f( ) - нелинейная функция параметров ,

- некоррелированная ошибка.

Пример нелинейной функции и др.

ТЕМА 3: Временные ряды

Временной ряд -- это последовательность наблюдений, зафиксированных в последовательные моменты времени, (например ежедневная температура, ежемесячные показатели стоимости ценных бумаг, ежеквартальные доходы или ежегодное потребление энергии). Анализ временных рядов включает поиск закономерности, которая помогла бы понять характер изменения данных и предсказать будущие наблюдения. Для некоторых временных рядов наблюдаются так называемые сезонные изменения, например, ежемесячные колебания объема продаж. Учет сезонных изменений имеет большое значение для точности предсказания.

Обычно наилучший способ анализа временных рядов -- это создание диаграммы зависимости данных от времени для отображения тренда, сезонных изменений и выбросов.

Перед началом любых вычислений с временным рядом рекомендуется исследовать его графическими средствами:

команда меню Вставка - Диаграмма.

Рис. 3.1. Диаграмма временного ряда

Для вычисления статистических параметров средних значений (ежемесячных) необходимо:

Меню StatPlus - Descriptive Statistics - Univariate Statistics - .

Рис. 3.2. Статистические параметры для средних значений (ежемесячных) в течение 1980-х годов.

Автокорреляционная функция

Если для временного ряда характерна повторяющаяся закономерность изменений, это может пригодиться для предсказания будущих наблюдений. Например, падение фактора ниже среднего значения в одном месяце может сопровождаться его ростом в следующем месяце. Или наоборот: падение фактора среднего значения в одном месяце может продолжиться в следующем месяце.

Для поиска таких закономерностей предназначена автокорреляционная функция, или АКФ, которая позволяет вычислять корреляцию значений временного ряда с его запаздывающими значениями. АКФ для интервала 1 (обозначается как r1) вычисляет степень взаимосвязи между значениями временного ряда с его запаздывающими значениями следующим образом:

.

Здесь - первое наблюдение,

- второе наблюдение и т.д.

- последнее наблюдение временного ряда.

АКФ для интервала 2 (обозначается как r2) вычисляется по формуле:

,

Общая формула АКФ для интервала k (обозначается как rk) имеет вид

Пример:

Среднее значение = 5, =6, =4, =8,…, =7.

АКФ для интервала 1:

.

АКФ для интервала 2:

.

регрессия экспоненциальный интервал

Полученные отрицательные значения соответствуют отрицательной корреляции между текущими и запаздывающими значениями (т.е. двумя предыдущими значениями). Это значит, что низкое значение в один момент времени говорит о наличии более высоких значений в следующие моменты времени. После аналогичных вычислений можно получить значение АКФ для интервала 3, равное 0,275. Эта положительная величина указывает на положительную взаимосвязь между значениями временного ряда, которые расположены с интервалом 3 пункта.

Для вычисления АКФ необходимо:

Меню StatPlus - Time Series - ACF Plot (StatPlus - Временной ряд - Диаграмма АКФ).

Рис. 3.4. Автокорреляционная функция для средних значений

Закономерности АКФ

Рис. 3.5. Четыре примера временных рядов с разными закономерностями

Линейная фильтрация

Данные временного ряда могут непредсказуемо флуктуировать с течением времени. Для сглаживания непредсказуемых взлетов и падений значений временного ряда можно использовать средние значения для близких друг к другу значений. Например, можно вычислить среднее значение для недавних наблюдений и использовать его для сравнения с текущим значением.

Вычисленное среднее значение для каждых шести последовательно расположенных временных факторов (месяцев) называется скользящим средним для шести месяцев. (Вся процедура такого вычисления называется линейной фильтрацией.) Для вычисления скользящего среднего yсс(6) для шести значений временного ряда, которые располагаются перед значением уn, используется следующая формула:

,

где 6 - это период.

Период - количество наблюдений, используемое для вычисления скользящего среднего.

Для вычисления скользящего среднего необходимо создать линию тренда для точечной диаграммы. Тип линии - линейная фильтрация.

3.1 Простое экспоненциальное сглаживание

Экспоненциальное сглаживание часто используется для предсказания значения следующего наблюдения на основе текущего и предыдущего значений. В такой ситуации известно значение уn и нужно предсказать следующее значение -- уn+1. Формула для предсказанного значения Sn называется экспоненциальным сглаживанием или однопараметрическим экспоненциальным сглаживанием:

,

Или

где w - фактор сглаживания (константа сглаживания).

После определения значения S0 можно вычислить следующие экспоненциально сглаженные значения:

Здесь Sn дает предсказанное значение для следующего наблюдения временного ряда.

3.2 Двухпараметрическое экспоненциальное сглаживание

Двойное экспоненциальное сглаживание сильнее сглаживает колебания в прогнозе и быстрее выявляет изменение тенденции развития (тренда), чем метод единичного экспоненциального сглаживания. В уравнении тренда кроме константы сглаживания w вводится дополнительная константа сглаживания T (параметр тренда).

Формулы двухпараметрического сглаживания подобны формулам однопараметрического сглаживания. Пусть Sn -- это значение параметра размещения для n -го наблюдения, а Tn -- параметр тренда. Для этих двух параметров нужно задать две константы сглаживания: w для параметра размещения Sn и t для параметра тренда Tn.

Тогда:

,

Аналогично, формула для предсказываемого значения уn-1 будет иметь следующий вид:

Метод декомпозиции

Временные ряды можно определить как хронологически упорядоченные данные, которые могут содержать один или более компонентов исследуемого показателя - тренд, сезонные, циклические и случайные компоненты. Декомпозиция временного ряда означает идентификацию и выделение этих компонентов из данных временного ряда. Относительно легко можно выделить тренд и сезонные компоненты.

Два типа сезонных колебаний:

· Аддитивные сезонные колебания;

· Мультипликативные сезонные колебания.

Аддитивные сезонные колебания учитываются как постоянная сезонная компонент, значение которой не зависит от тренда.

Прогноз, включающий тренд и сезонную компоненту (FIST) вычисляется по формуле:

FIST = Тренд + Сезонная компонента

Мультипликативные сезонные колебания учитываются путем умножения тренда на сезонный фактор, причем сезонные колебания зависят от тренда, который вычисляется по формуле:

FIST = Тренд * Сезонный фактор

ТЕМА 4: Когнитивный анализ. Графы

Когнитивная карта ситуации - известные субъекту основные законы и закономерности наблюдаемой ситуации в виде ориентированного знакового графа, в котором вершины графа - это факторы (признаки, характеристики ситуации), а дуги между факторами - причинно-следственные связи между факторами.

Пример когнитивной карты некоторой экономической ситуации приведен на рис. 4.1.

Рис.4.1 Пример когнитивной карты

Для отображения детального характера влияний или динамику изменения влияния в зависимости от изменения ситуации требуется перехода на следующий уровень структуризации информации, отображенной в когнитивной карте, т.е. к когнитивной модели.

На этом уровне каждая связь между факторами когнитивной карты раскрывается до соответствующего уравнения, которое может содержать как количественные (измеряемые) переменные, так и качественные (не измеряемые) переменные.

В когнитивной модели выделяют два типа причинно-следственных связей: положительные и отрицательные.

Формально когнитивная модель ситуации может быть, как и когнитивная карта, представлена графом, однако каждая дуга в этом графе представляет уже некую функциональную зависимость между соответствующими базисными факторами, т. е. когнитивная модель ситуации представляется функциональным графом.

При анализе конкретной ситуации пользователь обычно знает или предполагает, какие изменения базисных факторов являются для него желательными. Факторы, представляющие наибольший интерес для пользователя, называются целевыми. Это - выходные факторы когнитивной модели. Задача выработки решений по управлению процессами в ситуации состоит в том, чтобы обеспечить желательные изменения целевых факторов.

Методика когнитивного анализа сложных ситуаций

Когнитивный анализ сложной ситуации

1. Формулировка задачи и цели исследования;

2. Изучение процесса с позиций поставленной цели;

3. Сбор, систематизация, анализ существующей статистической и качественной информации по проблеме;

4. Выделение основных характеристических признаков изучаемого процесса и взаимосвязей, определение действия основных объективных законов - это позволит выделить объективные зависимости, тенденции в процессах;

5. Определение присущих исследуемой ситуации требований, условий и ограничений;

6. Определение путей, механизмов действия - это позволит в дальнейшем определить стратегии поведения и предотвращения нежелательных последствий развития ситуации.

Моделирование

Моделирование - это средство получения теоретических и практических знаний о проблеме и формулирования на этой основе практических выводов.

Моделирование представляет собой циклический процесс. Знания об исследуемой проблеме расширяются и уточняются, а исходная модель постоянно совершенствуется.

Цель когнитивного моделирования заключается в генерации и проверке гипотез о функциональной структуре наблюдаемой ситуации до получения функциональной структуры, способной объяснить поведение наблюдаемой ситуации.

Основные требования к компьютерным системам когнитивного моделирования - это открытость к любым возможным изменениям множества факторов ситуации, причинно-следственных связей, получение и объяснение качественных прогнозов развития ситуации (решение прямой задачи «Что будет, если …»), получение советов и рекомендаций по управлению ситуацией (решение обратной задачи «Что нужно, чтобы …»).

Рис. 4.2. Процесс моделирования

Этапы моделирования:

· определение начальных условий, тенденций, характеризующих развитие ситуации на данном этапе. Это необходимо для придания адекватности модельного сценария реальной ситуации, что усиливает доверие к результатам моделирования;

· задание целевых, желаемых направлений (увеличение, уменьшение) и силы (слабо, сильно) изменения тенденций процессов в ситуации;

· выбор комплекса мероприятий (совокупности управляющих факторов), определение их возможной и желаемой силы и направленности воздействия на ситуацию;

· выбор комплекса возможных воздействий (мероприятий, факторов) на ситуацию, силу и направленность которых необходимо определить;

· выбор наблюдаемых факторов (индикаторов), характеризующих развитие ситуации, осуществляется в зависимости от целей анализа и желания пользователя.

ТЕМА 5: Системы аналитической обработки данных

5.1 OLAP - технология (Оперативная система аналитической обработки данных)

OLAP - это сводные отчеты в разнообразных разрезах, создаваемых за считанные секунды самим пользователем по мере надобности и имеющие наглядную форму (таблицы, графики, диаграммы и т.д.). Например, если руководитель телекоммуникационной компании хочет увидеть динамику подключений к сети по времени года, то система покажет ему все данные о подключении по месяцам и сезонам, а также зависимость изменения объемов подключений от времени года или месяца и соответствие уровня подключений планам компании.

Гиперкуб - это некая фигура в многомерном пространстве, число измерений (осей) которого определяется факторами, важными для деятельности предприятия. OLAP-системы позволяют накапливать в гиперкубе всю информацию, которая может заинтересовать руководителя или аналитика. При этом в качестве осей могут использоваться, например, категории услуг, тарифы, география и объемы подключений, классы абонентов, время и т.д.

На сегодняшний день в состав мощных СУБД, например, в состав СУБД Oracle Database, входят специальные компоненты технологии многомерного анализа OLAP [33]. Они позволяют хранить и обрабатывать многомерную информацию на том же сервере баз данных, где находится реляционное хранилище. По функциональным возможностям эта подсистема сравнима с многомерной СУБД. Средства OLAP поддерживают в полном объеме основной язык сервера Express (или DML - язык обработки многомерных данных).

Технология OLAP дает возможность быстро менять взгляд на данные в зависимости от выбранных параметров и обеспечивает лицу, принимающему решения, полный обзор ситуации в бизнесе с его собственной стратегической точки зрения. Она принципиально отличается от традиционных технологий поддержки принятия решений, чаще всего базируется на анализе большого числа жестко структурированных отчетов. OLAP-системы позволяют консолидировать информацию из различных баз данных и представить ее в единых сводных таблицах. Также OLAP-системы обеспечивают непротиворечивость данных между отчетами: при детализации некоего итога независимо от настроек аналитических разрезов итоговая сумма всегда сходится.

5.2 CRM - технология (Customer Relationship Management)

CRM - это направленная на построение устойчивого бизнеса концепция и бизнес стратегия, ядром которой является «клиенто - ориентированный» подход. Эта стратегия основана на использовании передовых управленческих и информационных технологий, с помощью которых компания собирает информацию о своих клиентах на всех стадиях его жизненного цикла (привлечение, удержание, лояльность), извлекает из нее знания и использует эти знания в интересах своего бизнеса путем выстраивания взаимовыгодных отношений с ними.

Каждый контакт должен работать на привлечение покупателя.

CRM-приложения позволяют компании отслеживать историю развития взаимоотношений с заказчиками, координировать многосторонние связи с постоянными клиентами и централизованно управлять продажами и клиент - ориентированным маркетингом, в том числе через Internet.

В зависимости от цели можно выделить три вида использования стандартных CRM-систем:

- Системы оперативного использования. Применяются для повседневных управленческих целей.

- Аналитические системы. Используются маркетологами для обработки больших объёмов данных (как правило, о клиентах) с целью получения новых знаний.

- Коллаборационные системы. Позволяют клиенту влиять на деятельность фирмы в целом тем или иным образом (в том числе на процессы разработки, производства, доставки и обслуживания товара).

Следует отметить один из главных тезисов концепции CRM, который также можно отнести и к телекоммуникационным операторам: «наиболее желанный и прибыльный клиент имеет право на первоочередное и эксклюзивное обслуживание. Соль в том, чтобы учиться у своего клиента, иметь обратную связь и работать так, как клиент хочет. Сейчас мало сказать клиенту: «Мы здесь». Надо сказать: «Мы здесь для тебя, и работаем здесь для тебя, и даем тебе то, что ценно для тебя, предугадывая то, что ты хочешь».

5.3 Интеллектуальный анализ данных (Data Mining)

Термин «Data Mining» переводится как «извлечение информации» или «добыча данных». Цель Data Mining состоит в выявлении скрытых правил и закономерностей в наборах данных. Результатом такого метода обработки данных являются эмпирические модели, классификационные правила, выделенные кластеры и т.д.

Этапы исследования данных с помощью методов Data Mining

1. Приведение данные к форме, пригодной для применения конкретных реализаций систем Data Mining.

2. Предварительная обработка данных с одинаковыми значениями для всех колонок.

3. Применение методов Data Mining.

4. Верификация и проверка получившихся результатов.

5. Интерпретация.

Методы Data Mining

1) Кластеризация

Позволяет разделить изучаемую совокупность объектов на группы «схожих» объектов, разнести записи в различные группы, или сегменты.

К недостаткам кластеризации следует отнести зависимость результатов от выбранного метода кластеризации и методы кластерного анализа не дают какого-либо способа для проверки достоверности разбиения на кластеры.

(Предметно-ориентированные аналитические системы, к.п., $300 - $1000).

2) Ассоциация

Ассоциация, или метод «корзины покупателя», является одним из вариантов кластеризации, используемым для поиска групп характеристик, наблюдаемых одновременно. Анализ ассоциации имеет смысл в том случае, если несколько событий связаны друг с другом.

имеют форму:

если {условие}, то {результат}.

Примером такого правила, служит утверждение, что абонент, использующий услугу А, будет использовать услугу Б.

система WizWhy (WizSoft) (стоимость системы около $4000).

3) Деревья решений

При данном методе правила представляются в виде последовательной иерархической структуры, называемой деревом решений, при которой каждый уровень дерева включает проверку (test) определённой независимой переменной.

Иерархические структуры деревьев решений весьма наглядны. Их выразительная мощность в значительной степени определяется множеством, в котором ищутся критерии расщепления узлов.

Самыми известными являются See5/C5.0 (Австралия), Clementine (Integral Solutions,Великобритания), SIPINA (University of Lyon, Франция), IDIS (Information Discovery, США), Knowledge SEEKER (ANGOSS, Канада). Стоимость этих систем варьируется от $1000 до $10000.

4) Метод «ближайших соседей»

Цель данного метода заключается в том, чтобы предсказать значение зависимой переменной для некоторой записи из определенного массива, для которого известны значения как зависимой, так и независимой переменных. Для этого в этом массиве записей, выбирается запись, наиболее «близкая» к той, для которой необходимо сделать предсказание, и она интерпретируется как искомая зависимая переменная.

Примеры систем, использующих данный метод, - КАТЕ tools (Acknosoft, Франция), Pattern Recognition Workbench (Unica, США).

5) Нейронные сети

Нейронная сеть представляет из себя структуру, состоящую из узлов и связей между ними. Причем, для того чтобы данную сеть можно было бы применять в дальнейшем, её прежде надо «настроить» с использованием полученных ранее данных, содержащих значения входных и выходных параметров (правильные ответы). Настройка состоит в подборе весов межнейронных связей, обеспечивающих наибольшую близость ответов сети к известным правильным ответам.

Основной недостаток, сдерживающий использование нейронных сетей для извлечения знаний - их «непрозрачность». Построенная модель, как правило, не имеет четкой интерпретации (концепции «черного ящика»).

Примеры нейросетевых систем - BrainMaker (CSS), NeuroShell (Ward Systems Group), OWL (HyperLogic). Стоимость их довольно значительна: $1500 - $8000.

6) Нечеткая логика

Нечеткая логика] применяется для анализа таких наборов данных, когда невозможно причислить данные к какой-либо группе и возникает необходимость манипулировать категорией «может быть» в дополнении к «да» и «нет».

7) Генетические алгоритмы

Генетические алгоритмы обладают ярко выраженным свойством создания нового знания. Интуитивный анализ генетического алгоритма помогает выявить аналогии между искусственной генетической системой и свойственными человеческому интеллекту процессами, обычно называемыми творческими и инновационными (направленными на создание новшеств).

Одним из недостатком данного метода заключается в том, что критерий отбора хромосом и используемые процедуры являются эвристическими и далеко не гарантируют нахождения «лучшего» решения. Это становится особенно заметным при решении высокоразмерных задач со сложными внутренними связями.

Примером может служить система GeneHunter (Ward Systems Group). Её стоимость - около $1000.

8) Эволюционное программирование

Основная идея этого метода состоит в формировании гипотез о зависимости целевой переменной от других переменных в виде автоматически синтезируемых программ, выраженных на внутреннем языке программирования. Использование универсального языка программирования позволяет выразить практически любую зависимость или алгоритм.

PolyAnalyst [20], Стоимость системы около $10000.

NeuroShell. Стоимость системы до $5000.

9) Визуализация (когнитивная графика)

Графическое представление результатов работы систем Data Mining может значительно облегчить процесс восприятия и интерпретации нового знания человеком.

Визуализация позволяет рассматривать многомерные данные с разных точек зрения, непосредственно видеть, что происходит с моделью при добавлении новых переменных или, наоборот, при удалении одной или нескольких переменных. Визуализация позволяет уменьшать или, наоборот, увеличивать степень детальности модели, наблюдать естественные изменения, происходящие, например, с классификационным деревом решений при изменении порога отсечения малозначимых ветвей.

DataMiner 3D (Dimension5), стоимость которой может достигать нескольких сотен долларов.

Размещено на Allbest.ru
...

курсовая работа "Анализ данных" скачать

Подобные документы

Нелинейные регрессии
Аппроксимация данных с учетом их статистических параметров. Математическая постановка задачи регрессии, ее принципы. Виды регрессии: линейная и нелинейная, полиномиальная. Сглаживание данных и предсказание зависимостей. Реализация задач в Mathcad.

реферат [167,8 K], добавлен 12.04.2009

Статистические методы обработки данных
Основные методы обработки данных, представленные выборкой. Графические представления данных. Расчет с помощью ЭВМ основных характеристик выборки. Статистические гипотезы, используемые в экономике. Парная линейная, нелинейная и полиноминальная регрессия.

лабораторная работа [92,8 K], добавлен 01.03.2010

Линейная модель множественной регрессии
Ковариационная матрица оценок коэффициентов регрессии. Оценка дисперсии ошибок. Сущность теоремы Гаусса-Маркова. Проверка статистических гипотез, доверительные интервалы. Расчет коэффициента детерминации, скорректированного коэффициента детерминации.

контрольная работа [1,4 M], добавлен 28.07.2013

Множественная регрессия и пошаговая регрессия
Использование пакета программ статистической обработки данных Statistica. Значение парных коэффициентов корреляции. Выборка, среднее стандартное отклонение. Дисперсионный анализ и регрессионная сумма. Значение критерия Фишера, статистика Дарбина-Уотсона.

контрольная работа [1,7 M], добавлен 23.05.2012

Эконометрика
Обзор корреляционного поля. Доверительные интервалы регрессии. Оценка качества линейной модели прогнозирования. Проверка ее на соответствие условиям теоремы Гаусса-Маркова. Точечный и интервальный прогнозы. Нахождение средней ошибки аппроксимации.

контрольная работа [47,9 K], добавлен 09.08.2009

Множественная регрессия. Верификация модели
Множественная линейная регрессия: спецификация модели, оценка параметров. Отбор факторов на основе качественного теоретико-экономического анализа. Коэффициент регрессии при фиктивной переменной. Проблемы верификации модели. Коэффициент детерминации.

контрольная работа [88,0 K], добавлен 08.09.2014

Сглаживание экспоненциальным методом
Изучение метода экспоненциального сглаживания - эффективного метода прогнозирования, который дает возможность получить оценку параметров тренда, характеризующих не средний уровень процесса, а тенденцию, сложившуюся к моменту последнего наблюдения.

лабораторная работа [28,7 K], добавлен 15.11.2010

Линейные уравнения парной и множественной регрессии
Расчет линейного коэффициента парной и частной корреляции. Статистическая значимость параметров регрессии и корреляции. Анализ корреляционного поля данных. Точность прогноза, расчет ошибки и доверительный интервал. Коэффициент множественной детерминации.

контрольная работа [155,8 K], добавлен 11.12.2010

Фундаментальные исследования и разработка перспективных технологий НТП
Экономическая интерпретация коэффициентов множественной регрессии. Доверительные интервалы для параметров множественной регрессии. Скорректированный коэффициент детерминации. Средние коэффициенты эластичности. Прогноз фундаментального исследования.

контрольная работа [866,7 K], добавлен 07.02.2009

Множественная линейная регрессия
Построение уравнения множественной регрессии в линейной форме, расчет интервальных оценок его коэффициентов. Создание поля корреляции, определение средней ошибки аппроксимации. Анализ статистической надежности показателей регрессионного моделирования.

контрольная работа [179,4 K], добавлен 25.03.2014

Прогноз среднего значения цены
Доверительные интервалы для среднего значения цены автомобиля в зависимости от его возраста для уравнения регрессии в расчетах парной и множественной зависимостей. График ежемесячных объемов продаж магазина. Коэффициенты регрессионного уравнения тренда.

контрольная работа [499,1 K], добавлен 16.09.2011

Анализ динамики социально-экономических явлений и процессов
Оценка среднего значения выручки по кварталам на примере ОАО "РуссНефть". Оценка моды, медианы, абсолютных и относительных показателей. Построение тренда на 3 периода вперед. Анализ колеблемости и экспоненциальное сглаживание динамического ряда.

курсовая работа [1,4 M], добавлен 18.04.2011

Проведение выборочного наблюдения
Освоение методики организации и проведения выборочного наблюдения; статистических методов и методов компьютерной обработки информации; методов оценки параметров генеральной совокупности на основе выборочных данных. Проверка статистических гипотез.

лабораторная работа [258,1 K], добавлен 13.05.2010

Проверка статистических гипотез при помощи системы "Minitab" для Windows
Общие понятия статистической проверки гипотез. Проверка гипотез на основе выборочной информации, понятие нулевая и альтернативная гипотезы. Формулировка общего алгоритма проверки. Проведение проверки статистической гипотезы в системе "Minitab" и MS Excel.

методичка [741,9 K], добавлен 28.12.2008

Предмет и метод эконометрики
Суть эконометрики как научной дисциплины, ее предмет и метод. Парная и множественная регрессия в экономических исследованиях. Регрессионные модели с переменной структурой. Обобщенный метод наименьших квадратов. Анализ систем экономических уравнений.

реферат [279,2 K], добавлен 11.09.2013

Многомерный статистический анализ в системе SPSS
Многомерный статистический анализ. Математические методы построения оптимальных планов сбора, систематизации и обработки данных. Геометрическая структура многомерных наблюдений. Проверка значимости уравнения регрессии. Кластерный и факторный анализ.

курсовая работа [2,6 M], добавлен 10.03.2011

Корреляция и регрессия
Анализ экспериментальных данных, полученных в виде набора значений двух зависимых величин. Вывод о связи между величинами на основании вычисления коэффициента корреляции, построение уравнения линейной регрессии. Прогнозирование зависимой величины.

реферат [555,9 K], добавлен 30.01.2018

Сущность и методы экстраполяционного прогнозирования
Основные задачи и принципы экстраполяционного прогнозирования, его методы и модели. Экономическое прогнозирование доходов ООО "Уфа-Аттракцион" с помощью экстраполяционных методов. Анализ особенностей применения метода экспоненциального сглаживания Хольта.

курсовая работа [1,7 M], добавлен 21.02.2015

Анализ данных полного факторного эксперимента
Определение воспроизводимости эксперимента по критерию Кохрина и коэффициентов линейной модели. Проверка адекватности модели при помощи критерия Фишера. Значимость коэффициентов регрессии и расчеты в автоматическом режиме в программе Statgraphics plus.

лабораторная работа [474,1 K], добавлен 16.06.2010

Временные ряды
Проверка графика на анормальности и наличие тренда. Определение параметров линейной регрессии. Сглаживание уровней ряда методом простой скользящей средней. Расчет среднеквадратического отклонения. Адекватность и точность параметров нелинейных регрессий.

контрольная работа [912,4 K], добавлен 26.05.2016

Другие документы, подобные "Анализ данных"

главная

рубрики

по алфавиту

вернуться в начало страницы

вернуться к началу текста

вернуться к подобным работам

Рубрики

По алфавиту

Закачать файл

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.

Этапы исследования данных с помощью методов Data Mining

1. Приведение данные к форме, пригодной для применения конкретных реализаций систем Data Mining.

Методы Data Mining

3) Деревья решений

5) Нейронные сети

Примеры нейросетевых систем - BrainMaker (CSS), NeuroShell (Ward Systems Group), OWL (HyperLogic). Стоимость их довольно значительна: $1500 - $8000.

6) Нечеткая логика

7) Генетические алгоритмы

Примером может служить система GeneHunter (Ward Systems Group). Её стоимость - около $1000.

8) Эволюционное программирование

PolyAnalyst [20], Стоимость системы около $10000.

NeuroShell. Стоимость системы до $5000.

9) Визуализация (когнитивная графика)

Графическое представление результатов работы систем Data Mining может значительно облегчить процесс восприятия и интерпретации нового знания человеком.

DataMiner 3D (Dimension5), стоимость которой может достигать нескольких сотен долларов.

Размещено на Allbest.ru

Анализ данных

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Подобные документы

Регрессионная статистика
Множественный R	(Коэффициент множественной корреляции) описывает корреляцию между предсказываемой переменной и линейной комбинацией предикторов
R-квадрат	Величина достоверности аппроксимации
Нормированный R-квадрат	Для анализа регрессии с несколькими предикторами
Стандартная ошибка	Типичное отклонение (x,y) от линии регрессии
Наблюдения	Размер выборки

Дисперсионный анализ
	df	SS	MS	F	Значимость F
Регрессия	1	2599.534	2599.534	45.66847	9.20184E-06
Остаток	14	796.9058	56.92184
Итого	15	3396.439

Наблюдение	Предсказанное	Остатки	Стандартные остатки
1	53.17999556	14.12000444	1.937211191
…	…	…	…
16	99.15503896	3.344961035	0.458916