Основы теории корреляционного анализа
Анализ взаимного влияния изучаемых признаков явления, оценка их взаимосвязи между собой. Виды коэффициентов корреляции и их свойства. Смысл критических значений Стьюдента. Проверка статистических гипотез. Мультиколлениарность в эконометрических моделях.
Рубрика | Экономико-математическое моделирование |
Вид | лабораторная работа |
Язык | русский |
Дата добавления | 04.03.2018 |
Размер файла | 30,7 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://allbest.ru
Лекция
Основы теории корреляционного анализа
1. Задачи корреляционного анализа. Соотношения между экономическими переменными. Корреляционная связь
Изучая процессы и явления, исследователи наталкиваются на проблему изучения не отдельных показателей, а их совокупности, взаимного влияния друг на друга и взаимосвязи между собой.
При изучении тех или иных явлений признаки (факторы) можно разделить на две группы: зависимые факторы и независимые. Такое деление является чисто условным, так как фактор, являющийся зависимым в одном случае, может стать независимым в другом.
Например, исследуя урожайность хлопчатника в регионе зависимым фактором является урожайность (Y), а независимыми: количество внесенных минеральных удобрений, количество солнечных дней, количество поливов земли и т.д.
При изучении валового сбора хлопка-сырца в регионе объем валового сбора выступает как зависимый фактор, а урожайность, уровень механизации, квалификация рабочих и другие - как независимые.
Таким образом, изучая массовые явления, в частности, экономические явления, необходимо логически провести классификацию всех изучаемых признаков (факторов) на независимые и зависимые.
В дальнейшем будем придерживаться следующих обозначений:
i - номер изучаемого фактора, iN;
Xi - изучаемый независимый фактор;
Y - изучаемый зависимый фактор.
В отдельных ситуациях Y можно рассчитать как функцию от Xi
Y = f (X1, X2, Xi,..., Xn).
В этом случае говорят, что Y и множество Xi связаны функциональной зависимостью.
Пример. В регионе изучается пять хозяйств.
Урожайность хлопчатника составила: I- 30 ц/га; II- 32 ц/га; III- 34 ц/га; IV- 31.5 ц/га; V- 33.7 ц/га, X1, X2, X3, X4, X5 - соответственно площади (га) земли занятыми под этой культурой в хозяйстве.
Тогда общий сбор хлопка в данном регионе составит:
Y = 30X1 + 32X2 + 34X3 + 31.5X4 + 33.7X5 (центнеров).
Рассмотренная ситуация соответствует функциональной зависимости:
Y = f (X1, X2, X3, ..., X5).
Функциональная связь называется полной связью.
Изучая данное явление, приходим к выводу, что урожайность в хозяйствах не является постоянной (const), а изменяется под влиянием ряда факторов (количества поливов, внесенных минеральных удобрений, температуры воздуха и т.д.), т.е. урожайность - не детерминированный, а вероятностный показатель и функция f (X1, X2, ..., X5) должна включать в себя еще случайную переменную "U"
Y=f (X1, X2, Xi, ..., Xn, U ).
Такая зависимость называется корреляционной зависимостью (от слова correlation - взаимосвязь, взаимозависимость, соотношение) при массовом изучении явлений.
2. Коэффициент корреляции для выборки и генеральной совокупности. Оценивания параметров и проверка гипотез о корреляции случайных переменных
В основе математической статистики лежат понятия генеральной совокупности и выборки. Под генеральной совокупностью подразумеваются все возможные наблюдения интересующего нас показателя. Однако в большинстве случаев мы имеем дело только с частью возможных наблюдений, взятых из генеральной совокупности.
При построении моделей зависимости экономических показателей, как правило, пользуются выборочными данными, и задача эконометрического анализа сводится к оценке надежности параметров сделанных на основе выборки и приемлемости их для выводов о зависимостях в генеральной совокупности.
Выборка называется репрезентативной, если она достаточно полно представляет изучаемые признаки и параметры генеральной совокупности, т.е. все элементы генеральной совокупности имеют возможность оказаться в выборке.
Задача статистического оценивания состоит в том, чтобы по данным случайной выборки оценить неизвестные значения параметров известного закона распределения генеральной совокупности значений СВ. Оценкой числового параметра называется функция выборочных значений *=*(x1,…,xn), которая в определенном статистическом смысле близка к истинному значению этого параметра. Важнейшими статистическими свойствами оценки, определяющими ее близость к истинному значению числовой характеристики рассматриваемой СВ, являются свойства несмещенности, состоятельности и эффективности.
Оценка называется несмещенной, если ее математическое ожидание как случайной величины равно истинному значению числовой характеристики: M(*)=.
Оценка называется состоятельной, если предел оценки по вероятности равен истинному значению числовой характеристики, то есть
lim P(*- )=1 для любого 0.
Оценка называется эффективной, если она имеет наименьшую дисперсию среди всех несмещенных оценок.
Экономические переменные связаны друг с другом множеством взаимосвязей. Рассмотрим экономические переменные Y и X. Пусть заданы выборки их значений объема n:
Y |
X |
|
y1 |
x1 |
|
y2 |
x2 |
|
… |
… |
|
yn |
xn |
Пусть - коэффициент корреляции для генеральной совокупности значений X и Y, то есть
.
Оценкой для является выборочный коэффициент корреляции
,
где - оценка математического ожидания М(Х) переменной Х,
- оценка математического ожидания М(Y) переменной Y.
Выборочный коэффициент корреляции двух СВ является случайной величиной. Как статистическая оценка, он отклоняется от истинного значения коэффициента корреляции в генеральной совокупности, но чем больше такое отклонение, тем менее оно вероятно.
Статистическая гипотеза о равенстве нулю коэффициента корреляции («нулевая гипотеза») проверяется следующим образом:
Предполагается, что коэффициент корреляции в генеральной совокупности равен нулю.
При =0 выборочный коэффициент корреляции r (оценка для ) при данном числе наблюдений имеет определенное распределение.
Оценки, сильно отличающиеся от нуля, имеют малую вероятность. Для конкретной величины r вычисляется вероятность получить в выборке такую или большую по модулю ее величину.
Если эта вероятность мала, то есть случилось маловероятное событие, то гипотеза о том, что =0, отвергается. «Критическое», то есть граничное значение вероятности называется уровнем значимости. В эконометрических исследованиях уровень значимости выбирается обычно равным 1% или 5%.
Пусть выдвинуты два предположения:
H0: =0 (нулевая гипотеза);
H1: 0 (альтернативная гипотеза).
Вероятность отклонить нулевую гипотезу и принять гипотезу H1, когда в действительности верна H0, называется ошибкой 1-го рода. Вероятность принять гипотезу H0, когда в действительности верна H1, называется ошибкой 2-го рода.
Если возможными считаются только положительные или только отрицательные значения коэффициента корреляции, то рассматривается односторонняя альтернативная гипотеза H1: >0 или H1: <0.
При проверке нулевой гипотезы рассматривается не сама величина r выборочного коэффициента корреляции, а ее функция, имеющая известное распределение. Такой функцией для выборочного коэффициента корреляции является t-статистика, рассчитываемая по формуле: . Она имеет распределение Стьюдента с (n-2) степенями свободы.
Итак, корреляционный анализ позволяет проверить гипотезу о наличии линейной связи между переменными. Однако этого недостаточно для экономического анализа, поскольку возникают и другие проблемы: Возникает две проблемы: установление тесноты связи и изучение формы связи.
Для двух переменных: X - независимая и Y - зависимая
называется коэффициентом корреляции величин X и Y.
Ковариация величин X и Y вычисляется:
cov(X, Y ) = M (X-Mx)(Y-My)
,
Где M - математическое ожидание (средняя случайной величины X);
ak - значение случайной величины;
Pk - вероятность принимаемого значения;
k - количество значений {kN}.
Если rx,y=1, то с вероятностью 1 величины X и Y связаны линейной зависимостью, т.е. связь аналитическая.
Если rx,y=0, то величины X и Y - независимы или некоррелированы.
Таким образом чем ближе rx,y к 1, тем связь теснее. Положительное значение rx,y - означает прямую связь (с увеличением X, Y-увеличивается), а отрицательное значение rx,y - означает обратную связь (с ростом X, Y -уменьшается).
Следовательно rx,y - коэффициент меры линейной зависимости X и Y.
3. Виды коэффициентов корреляции и их свойства
При изучении двумерного нормального распределения случайных величин Х и Y была введена такая характеристика тесноты связи, как коэффициент корреляции.
1. Линейным коэффициент корреляции (Z y/x) измеряет тесноту связи в том случае, если связь линейная.
где х - среднее квадратичное отклонение признака Х;
y - среднее квадратичное отклонение признака Y.
С помощью этого показателя измеряется степень коррелированности признаков в выборке.
Различают несколько видов коэффициента корреляции:
1. Частный коэффициент корреляции (ry/x) - показывает тесноту связи между результирующим показателем (Y) и фактором (Х), влияющим на него.
2. Парный коэффициент корреляции(rх/x) - показывает тесноту связи между факторами (Х1, Х2,…, Хm), влияющими на результирующий показатель.
3. Совокупный коэффициент корреляции (Ry/x1,…xm) - показывает тесноту связи между результирующим показателем (Y) и факторами (Х1, Х2,…, Хm), влияющими на него.
Напомним следующие свойства коэффициента корреляции:
а) коэффициент не имеет размерности, следовательно, он сопоставим для разных статистических рядов;
б) величина r лежит в пределах от - 1 до 1.
Значение r=+1 свидетельствует о том, что между переменными существует полная положительная корреляция, т.е. функциональная зависимость - все данные наблюдения лежат на прямой с положительным углом наклона в плоскости ху, иначе говоря, с увеличением х растет у; r=-1 указывает на полную обратную линейную связь;
r=0 (а это может быть тогда, когда )не означает, что х и у статистически независимы, а лишь указывает на отсутствие линейной связи между ними, что, естественно, не отрицает возможность существования иной формы зависимости между переменными.
Итак, при наличии двумерного нормального распределения коэффициент корреляции является мерой линейной согласованности между переменными, их взаимного варьирования.
Высокий коэффициент корреляции подтверждает наличие линейной связи между переменными. Последняя может быть, если х есть причина (или следствие) у, если х и у являются совместно зависимыми переменными - х зависит от у, а у от х (например, цены на один вид продукции на разных колхозных рынках) , наконец, если х и у являются следствиями некоторой общей для них причины (например, существенную корреляцию имеют такие признаки, как рост и вес человека; однако ни один из них не может рассматриваться как непосредственная причина другого).
Если анализ связи переменных х и у выполнялся на основе модели, предполагающей, что х - фиксированные значения, устанавливаемые экспериментатором, то коэффициент корреляции может быть вычислен и в этом случае, однако его не следует рассматривать как строгую меру взаимосвязи явлений. Для модели с фиксированными х это просто мера близости эмпирических точек к линии регрессии. Заметим, что в этом случае величина коэффициента корреляции будет заметно зависеть от того, какие значения х выбраны экспериментатором. Если же совокупность значений х представляет собой выборку, то предполагается, что выборка отражает соответствующее генеральное распределение и отклонение от него есть следствие только случайности.
В практике статистического анализа не являются исключением случаи, когда с помощью корреляционного анализа обнаруживают существование достаточно сильной «зависимости» признаков, в действительности не имеющих причинной связи между собой. Такие корреляции принято называть ложными или бессмысленными. Как правило, бессмысленные корреляции получают при коррелировании временных рядов двух признаков, не связанных причинной зависимостью. В дальнейшем будем полагать, что между рассматриваемыми переменными существует причинная зависимость и, следовательно, применение теории корреляции имеет логическое основание.
4. Критерий Стьюдента. Таблица распределения Стьюдента. Проверка статистических гипотез
Критерий Стьюдента используется для проверки значимости r. Применяя коэффициент корреляции в качестве меры связи, нужно иметь в виду, что он получен на основе данных выборки и, следовательно, подвержен влиянию случайности.
Если объем выборки небольшой, то найти выборочную ошибку этой величины достаточно сложно, поэтому в практике обычно вместо определения ошибки коэффициента корреляции проверяют гипотезу о его значимости (существенности), т.е. существенно ли r отличается от нуля или это отличие можно приписать влиянию случайности, связанной с выборкой. Иначе говоря, проверяется гипотеза Н: р=0. Проверка значимости осуществляется путем сопоставления табличного и расчетного значений t - статистики.
Последняя определяется по формуле:
t.
Величина t здесь следует t-распределению Стьюдента. Найденное по данной формуле значение t* сопоставляют с табличным значением t при n-2 степенях свободы. При изучении, например, роста и веса человека (выборка охватила 42 мужчин) коэффициент корреляции оказался равным 0,65. Необходимо проверить гипотезу о существенности отличия р от нуля.
При а=0,05 и числе степей свободы, равном 40, t=2,02. Следовательно, коэффициент корреляции существенно отличается от нуля (р0), что, впрочем, и следовало ожидать.
Как следует из формулы, значение t здесь полностью определяется числом наблюдений (n) и величиной выборочного коэффициента корреляции. Поэтому нетрудно для заданного числа степеней свободы найти наименьшее значение выборочного коэффициента корреляций, при котором гипотеза Н: р=0 может быть отклонен с заданной вероятностью.
Для данных предыдущего примера минимальное значение коэффициента корреляции равно 0,30 (при числе степени свободы 42-2=40), что значительно меньше 0,65.
5. Мультиколлениарность в эконометрических моделях. Матрица парных коэффициентов корреляции
При построении и расчете эконометрических моделей следует обращать внимание на явление мультиколлинеарности.
Мультиколлинеарность проявляется в том, что наряду с изучаемой корреляционной связью - между зависимой переменной и независимыми - в исследуемой совокупности существуют и другие корреляционные связи - между самими независимыми переменными. Специфика эконометрических моделей, включая производственные функции, такова, что для них явление мультиколлинеарности весьма характерно.
Мультиколлинеарность "опасна" тем, что полученные при расчете параметры производственной функции могут оказаться бессодержательными, обусловленными не существенными отношениями исследуемой зависимости, а ошибками наблюдения.
Предположим, например, что изучается связь зависимой переменной с двумя факторами x1 и х2, которые фактически находятся между собой в строго функциональной зависимости (коэффициент корреляции равен единице). корреляция статистический стьюдент мультиколлениарность
Можно доказать, что в этом случае система нормальных уравнений для расчета параметров функции (методом наименьших квадратов) не имеет определенного решения.
Однако из-за ошибок наблюдения статистические данные не покажут строго функциональной зависимости между x1 и х2. Это позволит рассчитать параметры функции, которые в данной ситуации лишены всякого смысла. Ясно, что и в случае не полностью функциональной, но сильной корреляционной зависимости факторов расчетные параметры могут определяться не столько реальными, существенными отношениями, сколько ошибками наблюдения.
Простейший способ проверки мультиколлинеарности заключается в вычислении и оценке величины коэффициентов корреляции для каждой пары включаемых в уравнение независимых переменных.
Если для какой-либо пары переменных коэффициент корреляции оказывается достаточно большим (порядка 0,8 и более), то во избежание получения бессодержательных коэффициентов регрессии следует рассмотреть вопрос о возможности исключения из уравнения одной из этих переменных.
Впрочем, условие исключения переменных не является строго обязательным и не применяется в тех случаях, когда каждый из взаимосвязанных факторов оказывает на зависимую переменную достаточно сильное и специфическое воздействие.
Для анализа свойства мультиколлениарности используется матрица коэффициентов парной корреляции
.
При наличии корреляции один из пары связанных между собой факторов исключаются из модели, либо в качестве объясняющего фактора берется какая-то их функция.
Контрольные вопросы
1. Что такое корреляционная связь?
2. Понятие корреляционного поля.
3. Какие типы коэффициентов корреляции вы знаете?
4. Для анализа какого свойства модели используется парный коэффициент корреляции?
5. Для чего необходимо проверять значимость коэффициент корреляции?
6. Как проверяется нулевая гипотеза?
7. В чем смысл критических значений Стьюдента?
8. Как строится матрица парных коэффициентов?
9. Какой вид имеет распределение Стьюдента?
Ключевые слова
Зависимость между экономическими переменными, теснота зависимости, коэффициент корреляции, частный, парный, совокупный коэффициент корреляции, проверка статистических гипотез, значимость коэффициента корреляции, критерий Стьюдента.
Литература
Нименья И.Н. Эконометрика. -С.Пб.:Издательский Дом «Нева», 2003.
Магнус Я.Р. и другие. Эконометрика. -М.: Дело,2000.
Доугерти К. Введение в эконометрику. -М.: ИНФРА-М, 2001.
Кремер Н.Ш., Путко Б.А. Эконометрика. -М.: ЮНИТИ-ДАНА, 2002.
Практикум по эконометрике. /под ред. Елисеевой И.И. -М.: Финансы и статистика, 2002.
Айвазян С.А., Мхитарян В.С. Прикладная статистка и эконометрика. -М.: МЭСИ, 2000.
Сборник задач к начальному курсу эконометрики. /под ред. Катышева П.К. -М.:Дело, 2002.
Бородич С.А. Эконометрика. -Минск: Новое знание, 2001.
Кулинич Е.И. Эконометрия. -М.: Финансы и статистика, 2000.
Ежеманская С.Н. Эконометрика. Ростов - на Дону, Феникс, 2003.
Эконометрика. /под. ред. проф. Т.Шадиев. -Т.:«Шарк» 1999 г.
Кремер Н.Ш. Эконометрика: Учебник. /Под. ред. Н.Ш.Кремера. -М.: ЮНИТИ-ДАНА, 2002.
Замков О.О. Эконометрические методы в макроэкономическом анализе. -М.: ГУ ВШЭ, 2001.
Интернет сайты
1. www.center.neic.nsk.su/page_rus/bmodel.html
2. www.cis2000.ru/publish/books/book_56/ch32.shtml
3. www.cde.osu.ru
4. www.colibri.ru
5. www.cemi.rssi.ru
Размещено на Allbest.ru
...Подобные документы
- Использование корреляционно-регрессионного анализа для обработки экономических статистических данных
Расчет стоимости оборудования с использованием методов корреляционного моделирования. Метод парной и множественной корреляции. Построение матрицы парных коэффициентов корреляции. Проверка оставшихся факторных признаков на свойство мультиколлинеарности.
задача [83,2 K], добавлен 20.01.2010 Определение параметров линейной регрессии и корреляции с использованием формул и табличного процессора MS Excel. Методика расчета показателей парной нелинейной регрессии и корреляции. Вычисление значений линейных коэффициентов множественной детерминации.
контрольная работа [110,4 K], добавлен 28.07.2012Определение методом регрессионного и корреляционного анализа линейных и нелинейных связей между показателями макроэкономического развития. Расчет среднего арифметического по столбцам таблицы. Определение коэффициента корреляции и уравнения регрессии.
контрольная работа [4,2 M], добавлен 14.06.2014Определение парных коэффициентов корреляции и на их основе факторов, оказывающих наибольшее влияние на результативный показатель. Анализ множественных коэффициентов корреляции и детерминации. Оценка качества модели на основе t-статистики Стьюдента.
лабораторная работа [890,1 K], добавлен 06.12.2014Коэффициент парной линейной корреляции, формула его расчета. Вычисление коэффициента в MS Excel. Оценка достоверности выборочного коэффициента корреляции в качестве нулевой гипотезы. Выборочный критерий Стьюдента. Построение графика зависимости.
научная работа [622,6 K], добавлен 09.11.2014Понятие доверительного интервала и доверительной вероятности. Доверительный интервал для математического ожидания (пример задачи). Распределение Стьюдента. Принятие решения о параметрах генеральной совокупности, проверка статистической гипотезы.
реферат [64,9 K], добавлен 15.02.2011Понятие о взаимосвязях в эконометрике. Сопоставление параллельных рядов. Корреляция альтернативных признаков. Оценка надежности параметров парной линейной регрессии и корреляции. Коэффициенты эластичности в парных моделях. Парная нелинейная корреляция.
курсовая работа [1,9 M], добавлен 29.06.2015Анализ структуры взаимосвязей признаков по данным трехмерной таблицы сопряженности с помощью логлинейных моделей. Непараметрические методы проверки гипотез об однородности распределения двух совокупностей. Модели двухфакторного дисперсионного анализа.
отчет по практике [388,6 K], добавлен 01.10.2013Оценка корреляционной матрицы факторных признаков. Оценки собственных чисел матрицы парных коэффициентов корреляции. Анализ полученного уравнения регрессии, определение значимости уравнения и коэффициентов регрессии, их экономическая интерпретация.
контрольная работа [994,1 K], добавлен 29.06.2013Связь между случайными переменными и оценка её тесноты как основная задача корреляционного анализа. Регрессионный анализ, расчет параметров уравнения линейной парной регрессии. Оценка статистической надежности результатов регрессионного моделирования.
контрольная работа [50,4 K], добавлен 07.06.2011Общие понятия статистической проверки гипотез. Проверка гипотез на основе выборочной информации, понятие нулевая и альтернативная гипотезы. Формулировка общего алгоритма проверки. Проведение проверки статистической гипотезы в системе "Minitab" и MS Excel.
методичка [741,9 K], добавлен 28.12.2008Построение и анализ классической многофакторной линейной эконометрической модели. Вид линейной двухфакторной модели, её оценка в матричной форме и проверка адекватности по критерию Фишера. Расчет коэффициентов множественной детерминации и корреляции.
контрольная работа [131,9 K], добавлен 01.06.2010Выбор факторных признаков для двухфакторной модели с помощью корреляционного анализа. Расчет коэффициентов регрессии, корреляции и эластичности. Построение модели линейной регрессии производительности труда от факторов фондо- и энерговооруженности.
задача [142,0 K], добавлен 20.03.2010Ковариационная матрица оценок коэффициентов регрессии. Оценка дисперсии ошибок. Сущность теоремы Гаусса-Маркова. Проверка статистических гипотез, доверительные интервалы. Расчет коэффициента детерминации, скорректированного коэффициента детерминации.
контрольная работа [1,4 M], добавлен 28.07.2013Построение корреляционного поля зависимости между y и x1, определение формы и направления связи. Построение двухфакторного уравнения регрессии y, x1, x2, оценка показателей тесноты связи. Оценка модели через F-критерий Фишера и t-критерий Стьюдента.
лабораторная работа [1,0 M], добавлен 23.01.2011Расчет параметров парной линейной регрессии. Оценка статистической значимости уравнения регрессии и его параметров с помощью критериев Фишера и Стьюдента. Построение матрицы парных коэффициентов корреляции. Статистический анализ с помощью ППП MS EXCEL.
контрольная работа [1,6 M], добавлен 14.05.2008Этапы и проблемы эконометрических исследований. Параметры парной линейной регрессии. Оценка тесноты связи с помощью показателей корреляции и детерминации. Расчет коэффициентов автокорреляции второго порядка для временного ряда расходов на потребление.
контрольная работа [60,3 K], добавлен 05.01.2011Расчет коэффициентов уравнения регрессии и оценка их значимости. Определение среднеквадратичного отклонения и среднеквадратичной ошибки, вычисление коэффициентов регрессии. Определение критериев Стьюдента. Расчет статистических характеристик модели.
контрольная работа [137,2 K], добавлен 14.09.2009Оценка связанностей между экономическими показателями на основе специальных статистических подходов. Составление графиков корреляционных полей на основе точечной диаграммы. Построение доверительного интервала для линейного коэффициента парной корреляции.
лабораторная работа [88,8 K], добавлен 28.02.2014Корреляционный и регрессионный анализ экономических показателей. Построение матрицы парных коэффициентов корреляции. Расчет и сравнение частных и парных коэффициентов корреляции. Построение регрессионной модели и её интерпретация, мультиколлинеарность.
курсовая работа [314,1 K], добавлен 21.01.2011