Корреляционный анализ

Функциональная и статистическая зависимости. Положения корреляционного анализа, двумерная модель. Проверка значимости и интервальная оценка параметров связи. Понятие о многомерном корреляционном анализе, множественный и частный коэффициенты корреляции.

Рубрика Математика
Вид курсовая работа
Язык русский
Дата добавления 19.01.2016
Размер файла 999,9 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ

ФЕДЕРАЛЬНОЕ ГОСУДРАСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

«КАЛУЖСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИМ. К.Э. ЦИОЛКОВСКОГО»

ФИЗИКО-ТЕХНОЛОГИЧЕСКИЙ ИНСТИТУТ

КАФЕДРА ВЫСШЕЙ МАТЕМАТИКИ

Направление подготовки: педагогическое образование (бакалавриат)

Профиль: математика

КУРСОВАЯ РАБОТА НА ТЕМУ

КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

По дисциплине (модулю): Высшая математика. Теория вероятностей и математическая статистика

Курносова Анастасия Сергеевна

Студентка группы ФТИ-21

Научный руководитель

Савотин Анатолий Иванович

СОДЕРЖАНИЕ

Введение

Глава 1. Корреляционный анализ

1.1 Функциональная, статистическая и корреляционная зависимости

1.2 Линейная парная регрессия

1.3 Коэффициент корреляции

1.4 Основные положения корреляционного анализа. Двумерная модель

1.5 Проверка значимости и интервальная оценка параметров связи

1.6 Корреляционное отношение и индекс корреляции

1.7 Понятие о многомерном корреляционном анализе. Множественный и частный коэффициенты корреляции

Глава 2. Практическая часть

Заключение

Список литературы

ВВЕДЕНИЕ

Любой закон природы или общественного развития может быть представлен описанием совокупности взаимосвязей. Если эти зависимости стохастичны, а анализ осуществляется по выборке из генеральной совокупности, то данная область исследований относится к задачам статистического исследования зависимостей, которые включают в себя корреляционный, регрессионный, дисперсионный, ковариационный анализ и анализ таблиц сопряженности.

Основное содержание анализа взаимосвязей - это поиск ответа на вопросы: корреляционный интервальный связь коэффициент

· Существует ли связь между исследуемыми переменными?

· Как измерить тесноту связей?

На эти вопросы частично отвечает корреляционный анализ.

ГЛАВА 1. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

Диалектический подход к изучению природы и общества требует рассмотрения явлений в их взаимосвязи и непрестанном изменении.

Понятия корреляции и регрессии появились в середине XIX в. благодаря работам английских статистиков Ф. Гальтона и К. Пирсона. Первый термин произошел от латинского «correlatio» -- соотношение, взаимосвязь. Второй термин (от лат. «regression -- движение назад) введен Ф. Гальтоном, который, изучая зависимость между ростом родителей и их детей, обнаружил явление «регрессии к среднему» -- у детей, родившихся у очень высоких родителей, рост имел тенденцию быть ближе к средней величине.

1.1 Функциональная, статистическая и корреляционная зависимости

В естественных науках часто речь идет о функциональной зависимости (связи), когда каждому значению одной переменной соответствует вполне определенное значение другой. Функциональная зависимость может иметь место как между детерминированными (неслучайными) переменными (например, зависимость скорости падения в вакууме от времени и т.п.), так и между случайными величинами (например, зависимость стоимости проданных изделий от их числа и т.п.).

В экономике в большинстве случаев между переменными величинами существуют зависимости, когда каждому значению одной переменной соответствует не какое-то определенное, а множество возможных значений другой переменной. Иначе говоря, каждому значению одной переменной соответствует определенное (условное) распределение другой переменной. Такая зависимость (связь) получила название статистической (или стохастической, вероятностной).

Возникновение понятия статистической связи обусловливается тем, что зависимая переменная подвержена влиянию ряда неконтролируемых или неучтенных факторов, а также тем, что измерение значений переменных неизбежно сопровождается некоторыми случайными ошибками. Примером статистической связи является зависимость урожайности от количества внесенных удобрений, производительности труда на предприятии от его энерговооруженности и т.п.

В силу неоднозначности статистической зависимости между Y и X для исследователя, в частности, представляет интерес усредненная по х схема зависимости, т.е. закономерность в изменении среднего значения -- условного математического ожидания MX(Y) (математического ожидания случайной переменной Y, найденного при условии, что переменная X приняла значение х) в зависимости от х.

Определение: Статистическая зависимость между двумя переменными, при которой каждому значению одной переменной соответствует определенное среднее значение, т.е. условное математическое ожидание другой, называется корреляционной. Иначе, корреляционной зависимостью между двумя переменными величинами называется функциональная зависимость между значениями одной из них и условным математическим ожиданием другой.

Корреляционная зависимость может быть представлена в виде:

(1.1)

(1.2)

Предполагается, что const и const, т.е. если при изменении x или у условные математические ожидания MX(Y) и Му(Х) не изменяются, то говорят, что корреляционная зависимость между переменными X и Y отсутствует.

Сравнивая различные виды зависимости между X и Y, можно сказать, что с изменением значений переменной X при функциональной зависимости однозначно изменяется определенное значение переменной Y, при корреляционной -- определенное среднее значение (условное математическое ожидание) Y, а при статистической -- определенное (условное) распределение переменной К (рис. 1.1).

Таким образом, из рассмотренных зависимостей наиболее общей выступает статистическая зависимость. Каждая корреляционная зависимость является статистической, но не каждая статистическая зависимость является корреляционной. Функциональная зависимость представляет частный случай корреляционной (об этом речь еще пойдет ниже, в § 1.3).

Уравнения (1.1) и (1.2) называются модельными уравнениями регрессии (или просто уравнениями регрессии) соответственно Y по X и X по Y, функции и -- модельными функциями регрессии (или функциями регрессии), а их графики -- модельными линиями регрессии (или линиями регрессии).

Для отыскания модельных уравнений регрессии, вообще говоря, необходимо знать закон распределения двумерной случайной величины (X, Y). На практике исследователь, как правило, располагает лишь выборкой пар значений (x , y ) ограниченного объема. В этом случае речь может идти об оценке (приближенном выражении) по выборке функции регрессии. Такой наилучшей (в смысле метода наименьших квадратов) оценкой является выборочная линия (кривая) регрессии Y по X:

ух=) (1.3)

где ух -- условная (групповая) средняя переменной Y при фиксированном значении переменной Х=x;-- параметры кривой.

Аналогично определяется выборочная линия (кривая) регрессии X по У:

ху= (1.4)

где ху -- условная (групповая) средняя переменной X при фиксированном значении переменной У= у; -- параметры кривой.

Уравнения (1.3), (1.4) называют также выборочными уравнениями регрессии соответственно Y по X и X по Y.

При правильно определенных аппроксимирующих функциях ) и увеличением объема выборки (n>?) они будут сходиться по вероятности соответственно к функциям регрессии ц(x) и ш(y).

Статистические связи между переменными можно изучать методами корреляционного и регрессионного анализа. Основной задачей регрессионного анализа является установление формы и изучение зависимости между переменными. Основной задачей корреляционного анализа -- выявление связи между случайными переменными и оценка ее тесноты.

Вначале (§ 1.2, 1.3) познакомимся с основными понятиями корреляционного и регрессионного анализа, а затем (§ 1.4--1.7) перейдем к более детальному изучению этих методов.

1.2 Линейная парная регрессия

Данные о статистической зависимости удобно задавать в виде корреляционной таблицы.

Вели-

Середи-

Всего

Группо-

чина

ны ин-

Суточная выработка продукции, т (Y)

n

вая сред-

ОПФ,

тер-

няя

млн.

валов

7-11

11-15

15-19

19-23

23-27

руб.(X) ((X)

9

13

17

21

25

20-25

22,5

2

1

-

-

-

3

10,3

25-30

27,5

3

6

4

-

-

13

13,3

30-35

32,5

-

3

11

7

-

21

17,8

35-40

37,5

-

1

2

6

2

11

20,3

40-45

42,5

-

--

-

1

1

2

23,0

Всего

5

11

17

14

3

50

--

Групповая сред-

25,5

29,3

31,9

35,4

39,2

--

--

няя х., млн руб.

Рассмотрим в качестве примера зависимость между суточной выработкой продукции Y (т) и величиной основных производственных фондов X (млн руб.) для совокупности 50 однотипных предприятий (табл. 1.1).

В таблице через и обозначены середины соответствующих интервалов, а через и -- соответственно их частоты.)

Изобразим полученную зависимость графически точками координатной плоскости (рис. 1.2). Такое изображение статистической зависимости называется полем корреляции.

Для каждого значения (i=1,2, …,l), т.е. для каждой строки корреляционной таблицы вычислим групповые средние

(1.5)

Где -- частоты пар () и ; m - число интервалов по переменной Y.

Вычисленные групповые средние поместим в последнем столбце корреляционной таблицы и изобразим графически в виде ломаной, называемой эмпирической линией регрессии Y по X (см. рис. 1.2).

Аналогично для каждого значения (j = 1,2, ..., m) по формуле

(1.6)

вычислим групповые средние(см. нижнюю строку корреляцион-

ной таблицы), где , l -- число интервалов по переменной X.

По виду ломаной можно предположить наличие линейной корреляционной зависимости Y по X между двумя рассматриваемыми переменными, которая графически выражается тем точнее, чем больше объем выборки (число рассматриваемых предприятий) n:

(1.7)

Поэтому уравнение регрессии (1.3) будем искать в виде:

(1.8)

Отвлечемся на время от рассматриваемого примера и найдем формулы расчета неизвестных параметров уравнения линейной регрессии.

С этой целью применим метод наименьших квадратов, согласно которому неизвестные параметры и выбираются таким образом, чтобы сумма квадратов отклонений эмпирических групповых средних , вычисленных по формуле (1.5), от значений , найденных по уравнению регрессии (1.8), была минимальной:

(1.9)

на основании необходимого условия экстремума функции двух переменных S = S( , ) приравниваем к нулю ее частные производные, т.е.

откуда после преобразований получим систему нормальных уравнений для определения параметров линейной регрессии:

(1.10)

Учитывая (1.5), преобразуем выражения:

Теперь с учетом (1.7), разделив обе части уравнений (1.10) на n, получим систему нормальных уравнений в виде:

(1.11)

где соответствующие средние определяются по формулам:

(1.12)

(1.13)

(1.14)

Подставляя значение

(1.14' )

из первого уравнения системы (1.11) в уравнение регрессии (1.8), получим или

(1.15)

Коэффициент в уравнении регрессии, называемый выборочным коэффициентом регрессии (или просто коэффициентом регрессии)

Y по X, будем обозначать символом . Теперь уравнение регрессии

Y по X запишется так:

(1.16)

Коэффициент регрессии Y по X показывает, на сколько единиц в среднем изменяется переменная Y при увеличении переменной X на одну единицу.

Решая систему (1.11), найдем

(1.17)

где s2x -- выборочная дисперсия переменной X

(1.18)

- выборочный корреляционный момент или выборочная ковариация:

(1.19)

Рассуждая аналогично и полагая уравнение регрессии (1.4) линейным, можно привести его к виду:

(1.20)

Где (1.21)

-- выборочный коэффициент регрессии (или просто коэффициент рег-рессии) X по Y, показывающий, на сколько единиц в среднем из-меняется переменная X при увеличении переменной Y на одну единицу;

(1.22)

--выборочная дисперсия переменной Y.

Так как числители в формулах (1.17) и (1.21) для и совпадают, а знаменатели -- положительные величины, то коэффициенты регрессии b и b имеют одинаковые знаки, определяемые знаком . Из уравнений регрессии (1.16) и (1.20) следует, что коэффициенты и определяют угловые коэффициенты (тангенсы углов наклона) к оси Ох соответствующих линий регрессии, пересекающихся в точке (, ) (см. рис. 1.4).

1.3 Коэффициент корреляции

Перейдем к оценке тесноты корреляционной зависимости. Рассмотрим наиболее важный для практики и теории случай линейной зависимости вида (1.16).

На первый взгляд подходящим измерителем тесноты связи Y от X является коэффициент регрессии bух, ибо, как уже отмечено, он показывает, на сколько единиц в среднем изменяется Y, когда X увеличивается на одну единицу. Однако bух зависит от единиц измерения переменных. Например, в полученной ранее зависимости он увеличится в 1000 раз, если величину основных производственных фондов X выразить не в млн руб., а в тыс. руб.

Очевидно, что для «исправления» bух как показателя тесноты связи нужна такая стандартная система единиц измерения, в которой данные по различным характеристикам оказались бы сравнимы между собой. Статистика знает такую систему единиц. Эта система использует в качестве единицы измерения переменной ее среднее квадратическое отклонение s.

Представим уравнение (1.16) в эквивалентном виде:

(1.28)

В этой системе величина

(1.29)

показывает, на сколько величин sy изменится в среднем Y, когда X увеличится на одно sx

Величина r является показателем тесноты линейной связи и называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции).

На рис. 1.3 приведены две корреляционные зависимости переменной Y по X. Очевидно, что в случае а) зависимость между переменными менее тесная и коэффициент корреляции должен быть меньше, чем в случае б), так как точки корреляционного поля а) дальше отстоят от линии регрессии, чем точки поля б).

Рис. 1.3 a) б)

Нетрудно видеть, что r совпадает по знаку с bух (а значит, и с bху). Если r > 0 (bух > 0, b > 0), то корреляционная связь между переменными называется прямой, если r < 0 (bух < 0,b< 0) -- обратной. При прямой (обратной) связи увеличение одной из переменных ведет к увеличению (уменьшению) условной (групповой) средней другой.

Учитывая равенство (1.17), формулу для r представим в виде:

(1.30)

Отсюда видно, что формула для r симметрична относительно двух переменных, т.е. переменные X и У можно менять местами. Тогда аналогично формуле (1.29) можно записать:

(1.31)

Найдя произведение обеих частей равенств (1.29) и (1.31), получим

(1.32) или (1.33)

т.е. коэффициент корреляции r переменных X и Y есть средняя геометрическая коэффициентов регрессии, имеющая их знак.

Отметим другие модификации формулы r, полученные из равенства (1.30) с помощью формул (1.12)--(1.14), (1.8), (1.22):

(1.34)

(1.35)

Для практических расчетов наиболее удобна формула (1.35), так как по ней r находится непосредственно из данных наблюдений и на величине r не скажутся округления данных, связанные с расчетом средних и отклонений от них.

Отметим основные свойства коэффициента корреляции (при достаточно большом объеме выборки n), аналогичные свойствам коэффициента корреляции двух случайных величин

1. Коэффициент корреляции принимает значения на отрезке [-1; 1], т.е.

-1<r<1. (1.36)

В зависимости от того, насколько | r | приближается к 1, различают связь слабую, умеренную, заметную, достаточно тесную, тесную и весьма тесную, т.е. чем ближе | r | к 1, тем теснее связь.

2. Если все значения переменных увеличить (уменьшить) на одно и то же число или в одно и то же число раз, то величина коэффициента корреляции не изменится.

3. При r=± 1 корреляционная связь представляет линейную функциональную зависимость. При этом линии регрессии Y по X и X по Y совпадают и все наблюдаемые значения располагаются на общей прямой.

Найдем tg между двумя прямыми регрессии (рис. 1.4) с угловыми коэффициентами и используя соответствующую формулу аналитической геометрии:

откуда с учетом соотношений (1.29) и (1.31)

(1.37)

Из полученной формулы видно, что чем теснее связь и чем ближе | r | к 1, тем меньше угол между прямыми регрессии (уже образуемые ими «ножницы»), а при r= ±1 tgц =ц= 0 и линии регрессии сливаются (рис. 1.5, а и б).

Рис. 1.5

Ч. При r = 0 линейная корреляционная связь отсутствует. При этом групповые средние переменных совпадают с их общими средними, а линии регрессии Y по X и X по Y параллельны осям координат.

1.4 Основные положения корреляционного анализа. Двумерная модель

Корреляционный анализ (корреляционная модель) -- метод, применяемый тогда, когда данные наблюдений или эксперимента можно считать случайными и выбранными из совокупности, распределенной по многомерному нормальному закону.

Основная задача корреляционного анализа, как отмечено выше, состоит в выявлении связи между случайными переменными путем точечной и интервальной оценок различных (парных, множественных, частных) коэффициентов корреляции. Дополнительная задача корреляционного анализа (являющаяся основной в регрессионном анализе) заключается в оценке уравнений регрессии одной переменной по другой.

Рассмотрим простейшую модель корреляционного анализа -- двумерную. Плотность совместного нормального распределения двух переменных X и У имеет вид:

(1.38)

-математические ожидания переменных X и Y;

-дисперсии переменных X и Y;

- коэффициент корреляции между переменными X и Y, определяемый через корреляционный момент (ковариацию) :

(1.39)

или с учетом свойства:

(1.40)

Величина характеризует тесноту связи между случайными переменными X и Y. Указанные пять параметров дают исчерпывающие сведения о корреляционной зависимости между переменными.

При совместном нормальном законе распределения случайных величин X и Y (1.38) выражения для условных математических ожиданий, т.е. модельные уравнения регрессии (1.1) и (1.2), выражаются линейными функциями:

(1.41)

(1.42)

Из свойств коэффициента корреляции следует, что является показателем тесноты связи лишь в случае линейной зависимости (линейной регрессии) между двумя переменными, получаемой, в частности, в соответствии с равенствами (1.41), (1.42) при их совместном нормальном распределении.

Условные дисперсии равны:

( , (

т.е. степень рассеяния значений Y (или X) относительно линии регрессии Y по X (или X по У) определяется двумя факторами: дисперсией переменной Y (X) и коэффициентом корреляции и не зависит от значений независимой переменной х (у). По мере приближения | | к единице условная дисперсия >0, и значения переменных все менее рассеяны относительно соответствующих линий регрессии, т.е. очевиден смысл коэффициента корреляции как показателя тесноты линейной корреляционной зависимости.

Генеральная совокупность в определенном смысле аналогична понятию случайной величины и ее закону распределения , поэтому для вышеназванных параметров используется и другая терминология: , (или ) -- генеральные средние; , -- генеральные дисперсии, и - генеральные ковариация и коэффициент корреляции.

Для оценки генерального коэффициента корреляции и модельных уравнений регрессии по выборке в формулах (1.40)-- (1.42) необходимо заменить параметры их состоятельными выборочными оценками -- соответственно (1.12), (1.18), (1.22), (1.19). В этом случае получим знакомые нам формулы для определения выборочного коэффициента корреляции r (1.30) и выборочных уравнений регрессии (1.16), (1.20). Выше (§ 2 и 3) те же формулы получены иначе -- на основе применения метода наименьших квадратов. Совпадение результатов объясняется некоторыми ценными свойствами оценок метода наименьших квадратов.

В §3 мы ввели выборочный коэффициент корреляции г и рассмотрели его свойства, исходя из оценки близости точек корреляционного поля к прямой регрессии без учета предпосылок корреляционного анализа. Однако если эти предпосылки нарушаются (совместный закон распределения переменных не является нормальным, одна из исследуемых переменных не является случайной и т.п.), то r не следует рассматривать как строгую меру взаимосвязи переменных.

1.5 Проверка значимости и интервальная оценка параметров связи

В практических исследованиях о тесноте корреляционной зависимости между рассматриваемыми переменными судят фактически не по величине генерального коэффициента корреляции (который обычно неизвестен), а по величине его выборочного аналога r. Так как r вычисляется по значениям переменных, случайно попавшим в выборку из генеральной совокупности, то в отличие от параметра оценка r -- величина случайная.

Пусть вычисленное значение r?0. Возникает вопрос, объясняется ли это действительно существующей линейной корреляционной связью между переменными X и Y в генеральной совокупности или является следствием случайности отбора переменных в выборку (т.е. при другом отборе возможно, например, r = 0 или изменение знака r).

Обычно в этих случаях проверяется гипотеза об отсутствии линейной корреляционной связи между переменными в генеральной совокупности, т.е. : = 0 против альтернативной гипотезы : ? 0. При справедливости этой гипотезы статистика

(1.43)

имеет t-распределение Стьюдента с k= n-2 степенями свободы. Поэтому гипотеза отвергается, т.е. выборочный коэффициент корреляции r значимо (существенно) отличается от нуля, если

(1.44)

где табличное значение t-критерия Стьюдента, определенное на уровне значимости б при числе степеней свободы k = n-2.

Для значимого коэффициента корреляции r целесообразно найти доверительный интервал (интервальную оценку), который с заданной надежностью = 1 - б содержит (точнее, «накрывает») неизвестный генеральный коэффициент корреляции . Для построения такого интервала необходимо знать выборочное распределение коэффициента корреляции r, которое при ?0 несимметрично и очень медленно (с ростом n) сходится к нормальному распределению. Поэтому прибегают к специально подобранным функциям от r, которые сходятся к хорошо изученным распределениям. Чаще всего для подбора функции применяют z-преобразование Фишера:

(12.45)

Распределение z уже при небольших п является приближенно нормальным с математическим ожиданием

(1.46)

и дисперсией

(1.47)

Поэтому вначале строят доверительный интервал для M(z):

(1.48)

где -- нормированное отклонение z, определяемое с помощью функции Лапласа:

(1.49)

При определении границ доверительного интервала для , т.е. для перехода от z к , существует специальная таблица. При ее отсутствии переход может быть осуществлен по формуле:

(12.50)

где th z -- гиперболический тангенс z .

Если коэффициент корреляции значим, то коэффициенты регрессии и также значимо отличаются от нуля, а интервальные оценки для соответствующих генеральных коэффициентов регрессии и могут быть получены по формулам, основанным на том, что статистики

имеют t-распределение Стьюдента с (n-2) степенями свободы:

(1.51)

(1.51)

Z-преобразование Фишера может быть применено при проверке различных гипотез относительно коэффициента корреляции.

Например, если по данным выборки объема n вычислен коэффициент корреляции r, то для проверки нулевой гипотезы о том, что генеральный коэффициент корреляции равен значению , т.е. : = , используется статистикa

(1.52)

А для проверки существенности (значимости) различия двух ко-эффициентов корреляции и , полученных по выборкам объемов и , т.е. для проверки гипотезы : = , применяется статистика

(1.52')

При достаточных объемах выборки (больших 10) можно считать, что при выполнении соответствующих нулевых гипотез статистики

(1.52) и (1.52') имеют приближенно нормальный закон распределения. Поэтому гипотеза отвергается на уровне значимости б, если | t | > (при использовании двустороннего критерия) или | t | > при использовании одностороннего критерия).

1.6 Корреляционное отношение и индекс корреляции

Введенный выше коэффициент корреляции, как уже отмечено, является полноценным показателем тесноты связи лишь в случае линейной зависимости между переменными. Однако часто возникает необходимость в достоверном показателе интенсивности связи при любой форме зависимости.

Для получения такого показателя вспомним правило сложения дисперсий:

(12.53)

где - общая дисперсия переменной

(12.54)

- средняя групповых дисперсий , или остаточная дисперсия

(1.55)

(1.56)

- межгрупповая дисперсия

(1.57)

Остаточной дисперсией измеряют ту часть колеблемости Y, которая возникает из-за изменчивости неучтенных факторов, не зависящих от X. Межгрупповая дисперсия выражает ту часть вариации Y, которая обусловлена изменчивостью X. Величина

(1.58)

получила название эмпирического корреляционного отношения Y по X. Чем теснее связь, тем большее влияние на вариацию переменной Y оказывает изменчивость X по сравнению с неучтенными факторами, тем выше . Величина , называемая эмпирическим коэффициентом детерминации, показывает, какая часть общей вариации Y обусловлена вариацией X. Аналогично вводится эмпирическое корреляционное отношение X по Y:

(1.59)

Отметим основные свойства корреляционных отношений (при достаточно большом объеме выборки n).

1.Корреляционное отношение есть неотрицательная величина, не превосходящая единицу: 0 << 1.

2.Если = 0, то корреляционная связь отсутствует.

3.Если = 1, то между переменными существует функциональная зависимость.

4. ? т.е. в отличие от коэффициента корреляции r (для которого ) при вычислении корреляционного отношения существенно, какую переменную считать независимой, а какую - зависимой.

Эмпирическое корреляционное отношение является показателем рассеяния точек корреляционного поля относительно эмпирической линии регрессии, выражаемой ломаной, соединяющей значения . Однако в связи с тем, что закономерное изменение нарушается случайными зигзагами ломаной, возникающими вследствие остаточного действия неучтенных факторов, преувеличивает тесноту связи. Поэтому наряду с рассматривается показатель тесноты связи , характеризующий рассеяние точек корреляционного поля относительно линии регрессии (1.3). Показатель получил название теоретического корреляционного отношения или индекса корреляции Y по X

(1.60)

где дисперсии и определяются по формулам (1.54)--(1.56), в которых групповые средние у заменены условными средними у , вычисленными по уравнению регрессии (1.16).

Подобно вводится и индекс корреляции X по Y:

(1.61)

Достоинством рассмотренных показателей и R является то, что они могут быть вычислены при любой форме связи между переменными. Хотя и завышает тесноту связи по сравнению с R, но для его вычисления не нужно знать уравнение регрессии. Корреляционные отношения и R связаны с коэффициентом корреляции r следующим образом:

(1.62)

Покажем, что в случае линейной модели (1.3), т.е. зависимости , индекс корреляции равен коэффициенту корреляции r (по абсолютной величине): (или

Проверка значимости корреляционного отношения основана на том, что статистика

(1.63)

(где m -- число интервалов по группировочному признаку) имеет F-распределение Фишера--Снедекора с = m-1 и = n-m степенями свободы. Поэтому значимо отличается от нуля, если F > , где - табличное значение F-критерия на уровне значимости при числе степеней свободы = m-1 и = n-m.

Индекс корреляции R двух переменных значим, если значение статистики

(1.64)

больше табличного , где

1.7 Понятие о многомерном корреляционном анализе. Множественный и частный коэффициенты корреляции

Экономические явления чаще всего адекватно описываются многофакторными моделями. Поэтому возникает необходимость обобщить рассмотренную выше двумерную корреляционную модель на случай нескольких переменных.

Пусть имеется совокупность случайных переменных , имеющих совместное нормальное распределение. В этом случае матрицу

(1.65)

составленную из парных коэффициентов корреляции (i, j -- 1, 2, ..., р), определяемых по формуле , будем называть корреляционной. Основная задача многомерного корреляционного анализа состоит в оценке корреляционной матрицы Q по выборке. Эта задача решается определением матрицы выборочных коэффициентов корреляции:

(1.66)

где r (i, j = 1,2, ..., р) определяется по формуле (1.30) или ее мо-дификациям.

В многомерном корреляционном анализе рассматривают две типовые задачи:

а)определение тесноты связи одной из переменных с совокупностью остальных (р -- 1) переменных, включенных в анализ;

б)определение тесноты связи между переменными при фиксировании или исключении влияния остальных q переменных, где q<(p-2).

Эти задачи решаются с помощью множественных и частных коэффициентов корреляции.

Множественный коэффициент корреляции. Теснота линейной взаимосвязи одной переменной с совокупностью других (р -- 1) переменных , рассматриваемой в целом, измеряется с помощью множественного (или совокупного) коэффициента корреляции , который является обобщением парного коэффициента корреляции . Выборочный множественный, или совокупный, коэффициент корреляции , являющийся оценкой , может быть вычислен по формуле:

(1.67)

Где -- определитель матрицы q ;

-- алгебраическое дополнение элемента r той же матрицы (равного 1).

В частности, в случае трех переменных (р = 3) из формулы (1.67) следует, что

(1.68)

Множественный коэффициент корреляции заключен в пределах . Он не меньше, чем абсолютная величина любого парного или частного коэффициента корреляции с таким же первичным индексом.

С помощью множественного коэффициента корреляции (по мере приближения R к 1) делается вывод о тесноте взаимосвязи, но не о ее направлении. Величина , называемая выборочным множественным (или совокупным) коэффициентом детерминации, показывает, какую долю вариации исследуемой переменной объясняет вариация остальных переменных.

Можно показать, что множественный коэффициент корреляции значимо отличается от нуля, если значение статистики

(1.69)

где -- табличное значение F-критерия на уровне значимости

б при числе степеней свободы = р-1 и = n-p.

Частный коэффициент корреляции. Если переменные коррелируют друг с другом, то на величине парного коэффициента корреляции частично сказывается влияние других переменных. В связи с этим часто возникает необходимость исследовать частную корреляцию между переменными при исключении (элиминировании) влияния одной или нескольких других переменных.

Выборочным частным коэффициентом корреляции между переменными и при фиксированных значениях остальных (р-2) переменных называется выражение

(1.70)

где и -- алгебраические дополнения элементов и матрицы q . В частности, в случае трех переменных (р = 3) из формулы (1.70) следует, что

(1.71)

Частный коэффициент корреляции , как и парный коэффициент корреляции r, может принимать значения от --1 до 1. Кроме того, , вычисленный на основе выборки объема n, имеет такое же распределение, что и r, вычисленный по (n-р+2) наблюдениям. Поэтому значимость частного коэффициента корреляции оценивают так же, как и коэффициента корреляции r (см. §5), но при этом полагают n' = n-р+2.

Заканчивая краткое изложение корреляционного анализа количественных признаков, остановимся на двух моментах.

1.Задача научного исследования состоит в отыскании причинных зависимостей. Только знание истинных причин явлений позволяет правильно истолковывать наблюдаемые закономерности. Однако коррекция как формальное статистическое понятие сама по себе не вскрывает причинного характера связи. С помощью корреляционного анализа нельзя указать, какую переменную принимать в качестве причины, а какую -- в качестве следствия. Например, рассматривая корреляционную связь между суточной выработкой продукции и величиной основных производственных фондов , изменение последней можно считать одной из причин изменения суточной выработки. Но, с другой стороны, необходимость повышения суточной выработки продукции может повлечь за собой увеличение размера основных производственных фондов. Между урожайностью сельскохозяйственных культур и погодными условиями (температурой, количеством осадков и т.п.) существует корреляционная связь. Но здесь не возникает сомнений, какая переменная является следствием, а какая -- причиной.

Иногда при наличии корреляционной связи ни одна из переменных не может рассматриваться причиной другой (например, зависимость между весом и ростом человека). Наконец, возможна ложная корреляция (нонсенс-корреляция), т.е. чисто формальная связь между переменными, не находящая никакого объяснения и основанная лишь на количественном соотношении между ними (таких примеров в статистической литературе приводится немало). Поэтому при логических переходах от корреляционной связи между переменными к их причинной взаимообусловленности необходимо глубокое проникновение в сущность анализируемых явлений.

2.Не существует общеупотребительного критерия проверки определяющего требования корреляционного анализа -- нормальности многомерного распределения переменных. Учитывая свойства теоретической модели, обычно полагают, что отнесение к совместному нормальному закону возможно, если частные одномерные распределения переменных не противоречат нормальным распределениям (в этом можно убедиться, например, с помощью критериев согласия); если совокупность точек корреляционного поля частных двумерных распределений имеет вид более или менее вытянутого «облака» с выраженной линейной тенденцией.

Для проверки линейности связи пары признаков можно использовать расхождение между квадратами эмпирического корреляционного отношения и коэффициента корреляции , учитывая, что статистика

(1.72)

(n -- число наблюдений, m -- число группировочных интервалов) имеет F-распределение с = m-2, = n-m степенями свободы.

ГЛАВА 2. ПРАКТИЧЕСКАЯ ЧАСТЬ

12.15 Имеются следующие данные об уровне механизации работ Х(%) и производительности труда Y (т/ч) для 14 однотипных предприятий.

Необходимо оценить тесноту и направление связи между переменными с помощью коэффициента корреляции; проверить значимость коэффициента корреляции и построить для него 95%-ный доверительный интервал.

32

30

36

40

41

47

56

54

60

55

61

67

69

76

20

24

28

30

31

33

34

37

38

40

41

43

45

48

Для нахождения коэффициента корреляции используем формулу 1.35'.

Находим все необходимые суммы:

После подстановки всех значений получаем

r=0,969, что говорит о достаточно тесной связи между величинами

Значимость коэффициента корреляции

В данной задаче , что говорит о большой значимости

Построение доверительного интервала

По формуле 1.48 строим доверительный интервал

12.16. При исследовании корреляционной зависимости по данным 20 предприятий между капиталовложениями Х (млн. руб.) и выпуском продукции Y (млн. руб.) получены следующие уравнения регрессии: и . Найти:

а) коэффициент корреляции между рассматриваемыми признаками и оценить его значимость на 5%-ом уровне;

б) средние значения капиталовложений и выпуска продукции. Согласуется ли полученный в п. а) результат с утверждением о том, что генеральный коэффициент корреляции между Х и Y равен 0,95?

Решение:

а) Коэффициент корреляции между рассматриваемыми признаками определим по формуле

Согласно полученным уравнениям регрессии

Коэффициент корреляции равен

Оценим его значимость на 5%-ом уровне:

Гипотеза отвергается, то есть выборочный коэффициент корреляции значимо отличается от нуля, если

Табличное значение . Поскольку наблюдаемое значение статистики превышает критическое, то гипотеза отвергается, следовательно, выборочный коэффициент корреляции значим.

б) Средние значения капиталовложений и выпуска продукции являются совместным решением системы из двух уравнений регрессий:

Среднее значение капиталовложений , среднее значение выпуска продукции .

Проверим, согласуется ли полученный в п. а) результат с утверждением о том, что генеральный коэффициент корреляции между Х и Y равен 0,95.

Так как коэффициент корреляции X и Y значим), то построим доверительный интервал для генерального коэффициента корреляции с, применяя z-преобразование Фишера:

Вычислим :

При уровне значимости квантиль нормального распределения . Определим доверительные границы для величины :

Производим обратный пересчет в

Итак, с вероятностью 0,95 можно утверждать, что коэффициент корреляции генеральной совокупности содержится в интервале:

Как видим, значение генерального коэффициента корреляции между Х и Y, равное 0,95, попадает в полученный интервал.

Следовательно, полученный в п. а) результат согласуется с утверждением о том, что генеральный коэффициент корреляции между Х и Y равен 0,95.

12.17. При исследовании корреляционной зависимости между ценой на нефть Х и индексом нефтяных компаний Y получены следующие данные: (ден. ед.), (усл. ед.), , , . Необходимо:

а) составить уравнения регрессии Y по Х и Х по Y;

б) используя соответствующее уравнение регрессии, найти среднюю величину индекса при цене на нефть 16,5 ден. ед.

решение:

а) Составим уравнения регрессии Y по Х и Х по Y:

б) Используя уравнение регрессии Y по Х, найдем среднюю величину индекса при цене на нефть 16,5 ден. ед.:

12.18. При исследовании корреляционной зависимости между объемом продукции Х (единиц) и ее себестоимости Y (тыс. руб.) получено следующее уравнение регрессии Y по Х: . Составить уравнение регрессии Х по Y, если коэффициент корреляции между этими признаками оказался равным -0,8, а средний объем продукции единиц.

Решение:

Уравнения регрессий имеют вид

Отсюда следует

Уравнение регрессии Х по Y имеет вид

12.19. С целью исследования влияния факторов Х1 - среднемесячного количества профилактических наладок автоматической линии и Х2 - среднемесячного числа обрывов нити на показатель Y - среднемесячную характеристику качества ткани (в баллах) по данным 37 предприятий легкой промышленности были вычислены парные коэффициенты корреляции: , и . Определить:

а) частные коэффициенты корреляции и и оценить их значимость на 5%-ом уровне;

б) множественный коэффициент корреляции и оценить его значимость на уровне ;

в) множественный коэффициент детерминации. Пояснить смысл полученных коэффициентов.

Решение:

а) По формуле

вычислим частные коэффициенты корреляции и :

Оценим значимость полученных коэффициентов. Полагаем условно . По формуле

находим статистики коэффициентов:

По таблице -распределения Стьюдента находим . Так как и , то частные коэффициенты корреляции и значимы.

Сравнивая частные коэффициенты корреляции и с соответствующими парными коэффициентами и , видим, что за счет "очищения связи" наибольшему изменению подвергся коэффициент корреляции между Х2 - среднемесячным числом обрывов нити и Y - среднемесячной характеристикой качества ткани (в баллах) (изменилась не только его величина, но даже и знак: ; , причем оба эти коэффициента значимы).

Итак, между Х2 - среднемесячным числом обрывов нити и Y - среднемесячной характеристикой качества ткани (в баллах) существует слабая прямая корреляционная связь (). Если же устранить (элиминировать) влияние переменной Х1 - среднемесячного количества профилактических наладок автоматической линии, то в чистом виде Y - среднемесячная характеристика качества ткани (в баллах) находится в обратной по направлению (но сильной по тесноте) связи с Х2 - среднемесячным числом обрывов нити ().

Аналогично, между Х1 - среднемесячным количеством профилактических наладок автоматической линии и Y - среднемесячной характеристикой качества ткани (в баллах) существует слабая прямая корреляционная связь (). Если же устранить влияние переменной Х2 - среднемесячного числа обрывов нити, то в чистом виде Y - среднемесячная характеристика качества ткани (в баллах) находится в прямой по направлению (и сильной по тесноте) связи с Х1 - среднемесячным количеством профилактических наладок автоматической линии ().

б) Вычислим множественный коэффициент корреляции :

Между Y - среднемесячной характеристикой качества ткани (в баллах), с одной стороны, и Х1 - среднемесячным количеством профилактических наладок автоматической линии и Х2 - среднемесячным числом обрывов нити, с другой стороны, существует очень тесная взаимосвязь.

Для оценки значимости вычислим

и по таблицам -распределения найдем . Так как , то значимо отличается от нуля.

в) Множественный коэффициент детерминации

показывает, что вариация Y - среднемесячной характеристикой качества ткани (в баллах) на 82,3% объясняется вариацией Х1 - среднемесячного количества профилактических наладок автоматической линии и Х2 - среднемесячного числа обрывов нити.

12.20. При приеме на работу семи кандидатам на вакантные должности было предложено два теста. Результаты тестирования (в баллах) приведены в таблице:

Тест

Кандидат

1

2

3

4

5

6

7

1

31

82

25

26

53

30

29

2

21

55

8

27

32

42

26

Вычислить ранговые коэффициенты корреляции Спирмена и Кенделла между результатами тестирования по двум тестам и на уровне оценить их значимость.

Решение:

Вычислим ранговый коэффициент корреляции Спирмена.

Ранги по тестам

Кандидат, i

Всего

1

2

3

4

5

6

7

1, ri

5

7

1

2

6

4

3

28

2, si

2

7

1

4

5

6

3

28

3

0

0

-2

1

-2

0

-

9

0

0

4

1

4

0

18

Находим коэффициент ранговой корреляции Спирмена:

Проверим значимость полученного коэффициента:

По таблице -распределения Стьюдента находим . Так как , то ранговый коэффициент Спирмена не значим на 55-ом уровне.

Для нахождения коэффициента корреляции Кендалла расположим данные первого теста по возрастанию.

Тест

Кандидат

3

4

7

6

1

5

2

1

25

26

29

30

31

53

82

2

8

27

26

42

21

32

55

-

2

1

2

-

-

-

Определим число инверсий для данных второго теста. Первый элемент второго ряда (8) меньше всех последующих элементов, то есть соблюдается порядок. Второй элемент второго ряда (27) превышает третий и пятый элементы, то есть наблюдаются две инверсии. Для третьего элемента (26), поскольку он превышает только пятый элемент, наблюдается только одна инверсия. Четвертый элемент (42) превышает пятый и шестой элементы второго ряда, поэтому число инверсий для него равно двум. Далее пятый, шестой и седьмой элементы расположены в порядке возрастания, то есть для них имеется порядок - инверсий нет. Таким образом, общее число инверсий для второго ряда равно .

Коэффициент корреляции Кендалла равен

Коэффициент корреляции Кендалла значим на уровне , если значение статистики

больше критического значения , где . По таблице функции Лапласа .

Поскольку , то ранговый коэффициент корреляции не значим.

12.21. На соревнованиях по фигурному катанию девять судей выставили следующие балльные оценки 10 фигуристам:

Фигурист

Судья

1

2

3

4

5

6

7

8

9

1

6,0

5,8

5,7

5,8

6,0

5,9

5,9

5,9

5,8

2

5,4

5,3

5,2

5,3

5,4

5,5

5,6

5,3

5,1

3

5,2

5,0

4,9

5,1

5,2

5,0

4,8

5,3

4,9

4

5,9

5,9

5,8

5,7

5,9

5,8

6,0

5,8

5,7

5

5,0

4,9

4,9

4,9

5,1

5,0

5,0

4,8

4,7

6

5,6

5,5

5,4

5,4

5,5

5,5

5,7

5,6

5,5

7

4,8

4,7

4,6

4,6

4,8

4,9

5,0

4,6

4,5

8

5,4

5,6

5,4

5,5

5,6

5,7

5,4

5,3

5,2

9

5,8

5,7

5,6

5,7

5,8

5,9

5,6

5,7

5,8

10

5,3

5,2

5,1

5,4

5,5

5,4

5,2

5,3

5,2

Вычислить коэффициент конкордации рангов и оценит его значимость на уровне .

Решение:

Фигурист, i

Судья, j

Сумма рангов

D

1

2

3

4

5

6

7

8

9

1

10

9

9

10

10

9,5

9

10

9,5

86

36,5

1332,25

2

5,5

5

5

4

4

5,5

6,5

4,5

4

44

-5,5

30,25

3

3

3

2,5

3

3

2,5

1

4,5

3

25,5

-24

576,00

4

9

10

10

8,5

9

8

10

9

8

81,5

32

1024,00

5

2

2

2,5

2

2

2,5

2,5

2

2

19,5

-30

900,00

6

7

6

6,5

5,5

5,5

5,5

8

7

7

58

8,5

72,25

7

1

1

1

1

1

1

2,5

1

1

10,5

-39

1521,00

8

5,5

7

6,5

7

7

7

5

4,5

5,5

55

5,5

30,25

9

8

8

8

8,5

8

9,5

6,5

8

9,5

74

24,5

600,25

10

4

4

4

5,5

5,5

4

4

4,5

5,5

41

-8,5

72,25

Итого

495

-

6158,50

Общая сумма рангов равна Средняя сумма рангов равна В предпоследнем столбце таблицы помещены разности а в последнем столбце - их квадраты .

Коэффициент конкордации равен

Оценим значимость коэффициента конкордации . Вычислим По таблице значений находим Так как , то коэффициент конкордации значим на 5%-ом уровне. Таким образом, существует достаточно тесная согласованность мнений судей.

З...


Подобные документы

  • Прямолинейные, обратные и криволинейные связи. Статистическое моделирование связи методом корреляционного и регрессионного анализа. Метод наименьших квадратов. Оценка значимости коэффициентов регрессии. Проверка адекватности модели по критерию Фишера.

    курсовая работа [232,7 K], добавлен 21.05.2015

  • Механизм и основные этапы нахождения необходимых параметров методом наименьших квадратов. Графическое сравнение линейной и квадратичной зависимостей. Проверка гипотезы о значимости выборочного коэффициента корреляции при заданном уровне значимости.

    курсовая работа [782,6 K], добавлен 19.05.2014

  • Предпосылки корреляционного анализа - математико-статистического метода выявления взаимозависимости компонентов многомерной случайной величины и оценки их связи. Точечные оценки параметров двумерного распределения. Аппроксимация уравнений регрессии.

    контрольная работа [648,3 K], добавлен 03.04.2011

  • Понятие комплекса случайных величин, закона их распределения и вероятностной зависимости. Числовые характеристики случайных величин: математическое ожидание, момент, дисперсия и корреляционный момент. Показатель интенсивности связи между переменными.

    курсовая работа [2,4 M], добавлен 07.02.2011

  • Функциональные и стохастические связи. Статистические методы моделирования связи. Статистическое моделирование связи методом корреляционного и регрессионного анализа. Проверка адекватности регрессионной модели.

    курсовая работа [214,6 K], добавлен 04.09.2007

  • Установление корреляционных связей между признаками многомерной выборки. Статистические параметры регрессионного анализа линейных и нелинейных выборок. Нахождение функций регрессии и проверка гипотезы о значимости выборочного коэффициента корреляции.

    курсовая работа [304,0 K], добавлен 02.03.2017

  • Значение математической статистики для анализа закономерностей массовых явлений. Основные теоретические выкладки корреляционного анализа. Применение его инструментария в контексте металлургической промышленности в среде программного средства Statistica 6.

    реферат [261,4 K], добавлен 03.08.2014

  • Задачи которые решает корреляционный анализ. Определение формы связи - установление математической формы, в которой выражается связь. Измерение тесноты, т.е. меры связи между признаками с целью установления степени влияния данного фактора на результат.

    реферат [67,3 K], добавлен 09.11.2010

  • Выборки к генеральной совокупности: оценка параметра и построение доверительных интервалов. Интервальный статистический ряд. Оценивание параметров распределения. Статистическая проверка гипотез. Гипотеза о нормальном распределении случайной величины.

    контрольная работа [391,1 K], добавлен 23.06.2012

  • Проверка адекватности линейной регрессии. Вычисление выборочного коэффициента корреляции. Обработка одномерной выборки методами статистического анализа. Проверка гипотезы значимости с помощью критерия Пирсона. Составление линейной эмпирической регрессии.

    задача [409,0 K], добавлен 17.10.2012

  • Точечное оценивание основных числовых характеристик, функции и плотности распределения компонент многомерного случайного вектора. Статистическая проверка характера распределения. Особенности корреляционного анализа признаков этой математической категории.

    курсовая работа [1,1 M], добавлен 01.10.2013

  • Теоретические основы юридической статистики, числовые характеристики. Построение гистограммы выборки. Оценка среднего значения, дисперсии и эксцесса. Выборочное уравнение регрессии по данным корреляционных таблиц. Интервальная оценка распределения.

    курсовая работа [1,1 M], добавлен 16.11.2013

  • Обработка и анализ статистической информации. Выборочная теория; интервальные оценки и графическое представление параметров распределения. Точечные оценки характеристик положения и мер изменчивости. Корреляционная зависимость; уравнение регрессии.

    курсовая работа [1023,9 K], добавлен 21.03.2015

  • Теоретические основы оценивания показателей точности и описание статистической имитационной модели. Моделирование мощности излучения и процесса подготовки к измерениям. Статистическая обработка результатов моделирования и сущность закона распределения.

    дипломная работа [1,9 M], добавлен 10.06.2011

  • Построение многофакторной корреляционно-регрессионной модели доходности предприятия: оценка параметров функции регрессии, анализ факторов на управляемость, экономическая интерпретация модели. Прогнозирование доходности на основе временных рядов.

    дипломная работа [5,1 M], добавлен 28.06.2011

  • Оценивание параметров закона распределения случайной величины. Точечная и интервальная оценки параметров распределения. Проверка статистической гипотезы о виде закона распределения, нахождение параметров системы. График оценки плотности вероятности.

    курсовая работа [570,4 K], добавлен 28.09.2014

  • Показатели тесноты связи. Смысл коэффициентов регрессии и эластичности. Выявление наличия или отсутствия корреляционной связи между изучаемыми признаками. Расчет цепных абсолютных приростов, темпов роста абсолютного числа зарегистрированных преступлений.

    контрольная работа [1,5 M], добавлен 02.02.2014

  • Понятие корреляционного момента двух случайных величин. Математическое ожидание произведения независимых случайных величин Х и У. Степень тесноты линейной зависимости между ними. Абсолютное значение коэффициента корреляции, его расчет и показатель.

    презентация [92,4 K], добавлен 01.11.2013

  • Составление математической модели для предприятия, характеризующей выручку предприятия "АВС" в зависимости от капиталовложений (млн. руб.) за последние 10 лет. Расчет поля корреляции, параметров линейной регрессии. Сводная таблица расчетов и вычислений.

    курсовая работа [862,4 K], добавлен 06.05.2009

  • Cтатистический анализ зависимости давления. Построение диаграммы рассеивания и корреляционной таблицы. Вычисление параметров для уравнений линейной и параболической регрессии, выборочных параметров. Проверка гипотезы о нормальном распределении признака.

    курсовая работа [613,3 K], добавлен 24.10.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.