Корреляционный анализ данных с использованием пакета Statistica

Условия практического использования корреляционного анализа. Построение и анализ параллельных рядов, групповых и корреляционных таблиц. Изучение парной, а также множественной корреляционной зависимости. Характеристика и описание программы "Statistica".

Рубрика Программирование, компьютеры и кибернетика
Вид реферат
Язык русский
Дата добавления 22.03.2015
Размер файла 46,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Министерство образования и науки России

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования

Самарский государственный технический университет

(ФГБОУ ВПО "СамГТУ)

Факультет Инженерно-технологический

Реферат

на тему

Корреляционный анализ данных с использованием пакета Statistica

Самара

2014

Содержание

Введение

1. Условия практического использования корреляционного анализа

2. Методы выявления корреляционной зависимости

3. Изучение парной корреляционной зависимости, корреляционный анализ

4. Множественный корреляционный анализ

5. Общее описание программы Statistica

корреляционный анализ множественный ряд

Введение

В условиях рыночной конкуренции процесс подготовки и принятия решений менеджерами компаний должен включать тщательный анализ имеющихся данных, базирующийся на методах математической статистики. В этой связи существенную помощь в получении необходимой информации могут оказать современные информационные технологии интеллектуального и статистического анализа данных. Оценка кредитных и страховых рисков, прогнозирование тенденций на финансовых рынках, оценка объектов недвижимости, построение профилей потенциальных покупателей определенного товара, анализ продуктовой корзины и так далее.

Системы интеллектуального анализа предназначены для автоматизированного поиска ранее неизвестных закономерностей в имеющихся в распоряжении менеджера данных с последующим использованием полученной информации для подготовки решений. Помимо статистических методов базовыми инструментами анализа в таких системах являются нейронные сети, деревья решений и индукция правил. Однако несмотря на то, что в последние годы рынок программных продуктов этого типа активно развивается, они все еще недоступны по цене предприятиям среднего и малого бизнеса. В то же время компаниям такого размера, как правило, не требуется столь мощный аналитический инструментарий, предлагаемый этими системами.

Более доступными средствами анализа данных на сегодняшний день являются статистические программные продукты (СПП). В мировой практике компьютерные системы статистического анализа и обработки данных широко применяются как в исследовательской работе в области экономики, так и в практической деятельности аналитических, маркетинговых и плановых отделов банков, страховых компаний, производственных и торговых фирм. В последние годы заметно возрос спрос на СПП и в нашей стране.

СПП позволяют решить широкий спектр задач «разведочного» анализа данных, статистического исследования зависимостей, планирования экспериментов, анализа временных рядов, анализа данных нечисловой природы и т.д. Данный реферат посвящен вопросам корреляционного анализа статистических связей с использованием одного из самых популярных в России статистических программных продуктов - пакета STATISTICA.

1. Условия практического использования корреляционного анализа

Практическое использование методов корреляции требует наличия ряда условий, без которых результаты анализа не могут быть признаны надежными, быть базой для принятия управленческих решений. К таким условиям относятся:

Однородность изучаемой статистической совокупности.

Достаточно большой объем совокупности (условие действия закона больших чисел). Число единиц совокупности должно быть в 5 - 6 (идеально в 10) раз больше числа факторов, влияние которых предполагается оценить.

Устойчивость влияния факторов, включаемых в анализ.

Независимость наблюдений.

Желательно, чтобы распределение единиц изучаемой совокупности соответствовало закону нормального распределения.

Прежде, чем воспользоваться сложными вычислительными процедурами корреляционного анализа, полезно на основе фактических данных убедиться в наличии корреляционной связи между интересующими исследователя признаками, определить ее характер и направленность.

2. Методы выявления корреляционной зависимости

Статистическими приемами, позволяющими выявить или опровергнуть наличие корреляционной зависимости между анализируемыми признаками, являются:

Построение и анализ параллельных рядов. При этом строится ранжированный ряд значений факторного признака и параллельно - ряд соответствующих значений признака-результата. По согласованному или несогласованному изменению значений фактора и результата судят о наличии либо отсутствии зависимости.

Построение и анализ групповых таблиц. Групповая таблица строится по правилам аналитической группировки. В качестве группировочного признака используется факторный признак. По каждой из выделенных групп рассчитывается среднее значение результативного признака. Наличие закономерности в изменении средних величин зависимой переменной будет свидетельствовать о присутствии корреляционной связи.

Построение и анализ корреляционных таблиц. В отличие от групповых, построение корреляционных таблиц предполагает группировку данных и по признаку-фактору, и по признаку-результату. На пересечении строк и столбцов проставляют частоты, т.е. число единиц совокупности с данным сочетанием уровней изучаемых признаков. Характер расположения частот на поле таблицы позволяет выдвинуть предположение о наличии и направлении зависимости между признаками.

Графический метод. Этот метод наиболее часто используется на практике. В прямоугольной системе координат по оси абсцисс откладываются значения признака-фактора, а по оси ординат - значения результативного признака. Точки на графике соответствуют единицам совокупности с конкретными сочетаниями значений признаков. Получаемый точечный график называют "полем корреляции". По расположению точек на графике судят о наличии или отсутствии зависимости, а также о направлении и степени тесноты корреляционной связи.

3. Изучение парной корреляционной зависимости, корреляционный анализ

При необходимости определить круг факторов, влияющих на признак-результат (объект управления), оценить степень их влияния, рассчитывают показатели корреляции и детерминации.

Исторически первой и простейшей характеристикой тесноты связи является линейный коэффициент парной корреляции. Он используется при изучении парной корреляционной зависимости, т.е. когда оценивается связь между парой признаков. Безусловно, невозможно назвать социально-экономические явления или процессы, развитие которых обусловлено лишь одним фактором. Но на практике часто возникает необходимость оценить тесноту связи результативного признака (объекта управления) с каким-либо конкретным фактором.

Показатели корреляции основаны на оценке сопряженной вариации изучаемых признаков. Парный коэффициент корреляции (r) - это нормированный коэффициент ковариации. Ковариация, являясь мерой взаимосвязи двух переменных, рассчитывается как средняя величина произведения отклонений индивидуальных значений анализируемых признаков от их средних значений:

(1)

Недостаток этого показателя (числовое значение ковариации зависит от размерности переменных x и y) преодолевается в парном коэффициенте корреляции путем нормирования абсолютных отклонений:

и

где уy - среднее квадратическое отклонение признака-результата; уx - среднее квадратическое отклонение признака-фактора.

Парный коэффициент корреляции:

(2)

где n - число единиц в статистической совокупности.

Можно привести иную транскрипцию формулы линейного коэффициента корреляции Пирсона, часто встречающуюся в учебной и профессиональной литературе:

(3)

(4)

Коэффициент корреляции изменяется в пределах:

(5)

Если r = 0, линейная связь между изучаемыми признаками отсутствует. Если |r| = 1, связь функциональная, т.е. значение зависимой переменной полностью определяется независимой переменной. Положительное значение коэффициента свидетельствует о прямой зависимости между признаками, отрицательная - об обратной.

Для доказательства (5) приведем неравенство Буняковского-Шварца: для всех значений элементов последовательностей.

4. Множественный корреляционный анализ

Изучение множественной корреляционной зависимости предполагает оценку влияния на результативный признак двух и более факторов. При этом рассчитываются множественные (совокупные) и частные коэффициенты корреляции, которые можно определить на основе парных коэффициентов корреляции r.

Так, при двухфакторной модели связи рекуррентная формула множественного коэффициента корреляции выглядит следующим образом:

Значения R изменяются в пределах от 0 до 1. Величина совокупного коэффициента корреляции всегда больше любого из парных коэффициентов и включение в анализ новых факторов не может привести к уменьшению значения R.

Квадрат множественного коэффициента корреляции R2 является множественным коэффициентом детерминации и характеризует долю дисперсии результативного признака, объясненную вариацией всех факторов, включенных в анализ, в общей дисперсии результата.

При небольших объёмах выборки увеличение числа объясняющих переменных приводит к существенному завышению значений совокупных показателей тесноты связи.

Скорректированный коэффициент детерминации всегда меньше нескорректированного. На основе скорректированного коэффициента проводят сравнение степени объясненности вариации результативного признака моделями, содержащими разное число факторов.

При изучении множественной корреляционной зависимости наряду с оценкой совокупного влияния всего набора интересующих исследователя факторов возникает необходимость получить количественную характеристику влияния каждой объясняющей переменной, «очищенную» от опосредованного воздействия других факторов. Эта задача решается с помощью так называемых частных (парциальных) коэффициентов корреляции. При их построении применяется прием элиминирования влияния всех факторов кроме фактора, оцениваемого в данный момент. Элиминирование осуществляется путем закрепления значений признаков-факторов на неизменном (среднем) уровне. Таким образом, частные коэффициенты корреляции позволяют измерить «очищенное» влияние конкретного фактора.

Частные коэффициенты также могут быть рассчитаны по рекуррентной формуле. Если элиминируется влияние одного фактора, то частный коэффициент корреляции называется коэффициентом первого порядка и в условиях двухфакторной модели рассчитывается следующим образом:

5. Общее описание программы Statistica

Пакет STATISTICA разработан фирмой StatSoft (США). Первоначально он входил в качестве модуля в состав самых популярных в то время электронных таблиц Lotus 1-2-3. Как самостоятельный продукт пакет впервые заявил о себе в 1991 г. Последняя версия продукта совместима с Windows Vista, в ней поддерживаются графический интерфейс пользователя и динамический обмен данными. Благодаря этому пакет может работать в сочетании с другими Windows-приложениями. В последние версии включен также язык программирования Statistica-BASIC, позволяющий расширять возможности пакета в соответствии с потребностями пользователя.

Системные требования. Платформа Macintosh или Windows, процессор 386 и выше, 4 Мбайт ОЗУ (рекомендуется 8 Мбайт), дисковое пространство - 18 Мбайт.

Возможности. STATISTICA позволяет проводить исчерпывающий, всесторонний анализ данных, представлять результаты анализа в виде таблиц и графиков, автоматически создавать отчеты о проделанной работе. С помощью удобной системы подсказок можно обучаться не только работе с самим пакетом, но и современным методам статистического анализа.

Файлы данных. Данные в системе STATISTICA организованы в виде электронных таблиц, как в привычной для пользователей программе Excel. Файл содержит наблюдения и переменные. Наблюдения можно рассматривать как эквивалент записей в базах данных (или строк электронной таблицы), а переменные - как эквивалент полей (столбцов электронной таблицы). Каждое наблюдение состоит из набора значений переменной.

В пакете STATISTICA все операции, включая копирование, перетаскивание и автоматическое заполнение ячеек, производятся так же, как в популярных электронных таблицах. При нажатии правой кнопки мыши появляется всплывающее меню, где точно так же предлагается перечень операций, которые можно выполнить над выделенным объектом.

Общее число переменных в стандартном файле STATISTICA может быть до 4092, количество наблюдений ограничено лишь объемом жесткого диска. В системе имеется также менеджер мегафайлов (доступный из модуля Управление данными), который позволяет работать с очень большими файлами, содержащими до 32000 переменных.

Система STATISTICA предоставляет всесторонние возможности по импорту и экспорту данных, в том числе и из таблиц Excel.

Архитектура и интерфейс системы. Система STATISTICA состоит из отдельных модулей, каждый из которых является полноценным Windows-приложением. Система постоянно обновляется, в нее вводятся новые модули и вычислительные процедуры.

Быстро переключаться из одного модуля в другой можно: а) щелкая мышью на значках модулей на рабочем столе; б) активизируя соответствующее окно приложения (если оно уже было открыто) или в) выбирая модули в диалоговом окне Переключатель модулей, причем эту операцию можно настроить так, чтобы было удобно обращаться к модулям, которые используются чаще всего.

Интерфейс системы может быть настроен на конкретный пользовательский проект: можно задать отображение стольких диалоговых окон, таблиц результатов, графиков, сколько в данном случае необходимо.

Методы анализа. Система включает следующие модули: Основные статистики и таблицы. Исчерпывающий набор описательных статистик, таблицы сопряженности, таблицы флагов и заголовков, кросстабуляция многомерных откликов и многомерных дихотомий, вычисление корреляционных матриц, обработка пропущенных данных, t-критерии для зависимых и независимых выборок, критерии однородности дисперсии, однофакторный дисперсионный анализ.

Непараметрическая статистика. Непараметрические критерии, ранговые корреляции, подгонка распределений.

Множественная регрессия. Пошаговая регрессия с включением и исключением предикторов, нелинейная регрессия, риджрегрессия, построение прогнозов, всесторонний анализ остатков, вычисление прогнозов и доверительных интервалов для прогнозируемых значений (можно анализировать очень большие модели, до 500 переменных).

Нелинейное оценивание. Подгонка любой задаваемой пользователем функции, задаваемая пользователем функция потерь, разрывная регрессия.

Временные ряды и прогнозирование. Широкий выбор моделей анализа временных рядов, включая модели АРПСС - авторегрессии и проинтегрированного скользящего среднего, модели с интервенцией, анализ распределенных лагов, спектральный анализ чрезвычайно длинных временных рядов, преобразования рядов, включая быстрое преобразование Фурье и многие другие процедуры углубленного анализа.

Кластерный анализ. Широкий набор процедур кластерного анализа, включая иерархическое объединение, двухвходовое объединение, метод к-средних; алгоритмы оптимизированы для анализа очень больших проектов, например, методом к-средних можно анализировать 400000 наблюдений с 10 переменными.

Факторный анализ. Процедуры факторного анализа и анализа главных компонент, ортогональные и косоугольные факторы, иерархический анализ косоугольных факторов и др.

Канонический анализ. Вычисление канонических переменных и канонических корней.

Многомерное шкалирование. Анализ расстояний, матриц сходств и различия, диаграмма Шепарда и др.

Деревья классификации. Современные методы построения деревьев классификации с категориальными и порядковыми предикторами и различными функциями потерь.

Анализ соответствий. Современные методы анализа таблиц сопряженности.

Структурное моделирование. Построение структурных моделей, продвинутый факторный анализ.

Надежность и позиционный анализ. Методы построения вопросников, оценка надежности позиций и др.

Дискриминантный анализ. Процедуры всестороннего дискриминантного анализа, разнообразные статистики и графическое представление результатов.

Логлинейный анализ. Всесторонний анализ многовходовых таблиц сопряженности, автоматическое построение лучшей модели.

Анализ выживаемости. Анализ таблиц жизни, оценки Каплана-Мейера, регрессионные модели: Кокса, логнормальная, экспоненциальная, зависящие от времени ковариаты, разнообразные статистики и критерии.

Дисперсионный анализ. Полный набор методов одномерного и многомерного дисперсионного анализа, фиксированные и переменные ковариаты, апостериорные критерии, контрасты, проверка предположений дисперсионного анализа, планы с повторными измерениями, иерархически вложенные планы, планы с пропущенными ячейками и многое другое.

Компоненты дисперсии. Смешанные модели дисперсионного анализа, оценка компонент дисперсии.

Графические возможности. STATISTICA обладает огромными возможностями для построения графиков непосредственно из таблиц исходных данных и таблиц результатов, причем графика и анализ данных тесно интегрированы. Например, если после вычисления корреляционной матрицы у пользователя возникает потребность в графическом представлении корреляционной зависимости, то достаточно поместить курсор на соответствующий коэффициент корреляции, нажать правую кнопку мыши и в появившемся меню выбрать пункт Быстрые статистические графики, а затем одну из диаграмм рассеяния. На экране появится требуемый график. В разных модулях системы имеются свои специальные графики, учитывающие особенности получаемых в них результатов.

Один из способов построения графиков в системе STATISTICA - использовать окно Галерея графиков.

Размещено на Allbest.ru

...

Подобные документы

  • Общее описание программы Statistica. Архитектура и интерфейс системы. Регрессионный анализ в Statistica. Решение задачи регрессионного анализа с помощью пакета анализа данных табличного процессора MS Excel. Многомерный дисперсионный анализ в SPSS.

    курсовая работа [2,4 M], добавлен 22.01.2013

  • Ознакомление с основами программного пакета Statistica. Описание статистики и графики. Группировка данных, корреляции, методы множественной регрессии. Рассмотрение набора непараметрических статистик. Реализация дисперсионного и ковариационного анализа.

    контрольная работа [544,5 K], добавлен 09.06.2015

  • Классификация задач DataMining. Создание отчетов и итогов. Возможности Data Miner в Statistica. Задача классификации, кластеризации и регрессии. Средства анализа Statistica Data Miner. Суть задачи поиск ассоциативных правил. Анализ предикторов выживания.

    курсовая работа [3,2 M], добавлен 19.05.2011

  • Создание макроса на языке Statistica Visual Basic (SVB) для проверки гипотезы о нормальности остатков множественной регрессии. Возможности программирования на языке SVB в пакете STATISTICA. Проверка гипотезы в модели вторичного рынка жилья в г. Минске.

    курсовая работа [573,1 K], добавлен 02.10.2009

  • Построение модели зависимости семестровой успеваемости одного студента от его посещения лекционных занятий, внимательности и стремления к приобретению знаний в виде полинома. Построение корреляционного поля и диаграмм рассеяния средствами Statistica.

    контрольная работа [2,8 M], добавлен 07.06.2014

  • Рассмотрение основ проведения корреляционного анализа по исходным данным группы студентов. Построение теоретической и эмпирической линий регрессии; проведение анализа с помощью программы "regres.exe". Представление копий экрана зависимости показателей.

    контрольная работа [2,8 M], добавлен 07.06.2014

  • Проверка наличия линейной связи между соответствующими показателями деятельности коммерческих банков Украины в модуле Multiple Regression ППП Statistica. Расчет теоретических значений зависимой переменной и ошибки модели, вид графика линейной функции.

    лабораторная работа [1,5 M], добавлен 19.05.2011

  • Математическая статистика. Выборочная функция распределения. Использование инструментов Мастера функций и Пакета анализа Excel при статистической обработке данных. Анализ однородности выборки. Корреляционный, регрессионный анализ экспериментальных данных.

    курсовая работа [473,6 K], добавлен 22.12.2015

  • Построение корреляционного поля, гипотеза связи исследуемых факторов. Определение коэффициента корреляции. Оценка статистической значимости вычисленных коэффициентов корреляции. Параметры уравнения линейной парной регрессии, коэффициента эластичности.

    реферат [526,7 K], добавлен 10.11.2010

  • Огляд особливостей інтерфейсу та можливостей програми Statistica 8.0. Використання гістограм, діаграм розсіювання та графіків у суспільно-географічних дослідженнях. Двомірний візуальний аналіз даних як способів відображення та систематизації інформації.

    курсовая работа [3,2 M], добавлен 19.11.2013

  • Анализ проблем, возникающих при совмещении изображений в корреляционно-экстремальных навигационных системах. Использование двумерного дискретного преобразования Фурье. Нахождение корреляционной функции радиолокационного и моделируемого изображений.

    дипломная работа [3,6 M], добавлен 07.07.2012

  • Назначение программного средства и основные требования к нему. Построение математической модели для интегрирования функции с использованием степенных рядов. Разработка модульной структуры программы, описание процедур и функций, формирование алгоритма.

    курсовая работа [1,7 M], добавлен 05.11.2013

  • Состав и принцип работы аппаратуры. Выбор параметров корреляционного анализа и Фурье-анализа. Разработка и применение алгоритма корреляционного анализа. Реализация алгоритма Фурье-анализа на языке С++ и алгоритма корреляционного анализа на языке С#.

    дипломная работа [4,6 M], добавлен 30.11.2016

  • Анализ работы параллельных вычислений на видеокарте GeForce GT 540M с использованием текстурной памяти. Рассмотрение специфических особенностей по адресации текстурной памяти. Изучение основ чтения и записи данных. Описание примеров данных программ.

    лабораторная работа [3,1 M], добавлен 04.12.2014

  • Модели оценки кредитоспособности физических лиц в российских банках. Нейронные сети как метод решения задачи классификации. Описание возможностей программы STATISTICA 8 Neural Networks. Общая характеристика основных этапов нейросетевого моделирования.

    дипломная работа [1,4 M], добавлен 21.10.2013

  • Идентификация объектов методом наименьших квадратов. Анализ коэффициентов парной, частной и множественной корреляции. Построение линейной модели и модели с распределенными параметрами. Итерационный численный метод нахождения корня (нуля) заданной функции.

    курсовая работа [893,3 K], добавлен 20.03.2014

  • Методика моделирования случайного процесса по заданной корреляционной функции и математическому ожиданию с использованием MatLab. Вычисление передаточной функций формирующего фильтра. Реализация случайного процесса. Значения корреляционной функции.

    контрольная работа [1012,0 K], добавлен 23.12.2012

  • Разработка программы, которая выполняет удаление элементов внешних таблиц, а также очистку файлов, вывод таблиц на экран. Описание программного продукта. Выбор языка программирования. Схема информационных потоков. Комплект поставки и инсталляция.

    курсовая работа [180,0 K], добавлен 09.03.2009

  • Определение зависимости одной физической величины от другой. Применение метода наименьших квадратов с помощью программного обеспечения Mathcad. Суть метода наименьших квадратов. Корреляционный анализ, интерпретация величины корреляционного момента.

    курсовая работа [63,8 K], добавлен 30.10.2013

  • Анализ данных с помощью скользящего среднего из пакета и построение тренда на графике. Выполнение задания и расчетов с построенным графиком. Оценка адекватности экспериментальных данных модели для проведения экономического статистического анализа.

    контрольная работа [7,7 M], добавлен 27.04.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.