Описательная статистика

Ряды наблюдений и их характеристики. Эмпирические распределения случайной величины. Случайные ошибки измерения и производные. Алгебра линейной регрессии, обозначения и определения. Модель линейной регрессии, формы уравнения и автокорреляция ошибок.

Рубрика Математика
Вид курс лекций
Язык русский
Дата добавления 27.10.2015
Размер файла 429,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Курс лекций

по дисциплине: «Эконометрика»

1. Описательная статистика

эмпирический случайный регрессия

1.1 Ряды наблюдений и их характеристики

ряд наблюдений за непрерывной случайной переменной x, вариационный ряд, выборка.

среднеарифметическое значение;

- центрированные значения наблюдений;

среднее линейное отклонение;

медиана, т.е. среднее значение в ряду наблюдений:

если упорядочены по возрастанию, то она равна при N нечетном и при N четном;

моменты q-го порядка, центральные при , начальные при .

дисперсия x ,

среднеквадратическое (стандартное) отклонение,

центрированные и нормированные значения наблюдений,

коэффициент вариации,

показатель асимметрии, если , то распределение величины симметрично, если , то имеет место правая асимметрия, если , - левая асимметрия;

показатель эксцесса (куртозиса), если то распределение близко к нормальному, если то распределение высоковершинное, если - низковершинное.

Пусть наряду с величиной x имеется N наблюдений yi за величиной y.

ковариация x и y,

коэффициент корреляции x и y; если то величины x и y линейно независимы, если то они положительно линейно зависимы, если - отрицательно линейно зависимы.

1.2 Эмпирические распределения случайной величины

Пусть все попадают в полуинтервал , который делится на k равных полуинтервалов длиной ; . (предполагается, что “чуть” меньше или равно , а “чуть” больше или равно , так что некоторые из попадают как в 1-й, так и в последний из этих k полуинтервалов).

общий размах вариации.

оптимальное соотношение между k и N (формула Стерджесса).

l -й полуинтервал ,

где

.

доля общего количества наблюдений N , попавших в l-й полуинтервал - частоты, эмпирические оценки вероятностей попадания в данный полуинтервал;

;

центры полуинтервалов;

накопленные частоты (эмпирические вероятности, с которыми значения величины в выборке не превышают xl ):

;

эмпирические плотности распределения вероятности.

среднеарифметическое значение;

медиана, здесь l-й полуинтервал является медианным, т.е. ;

моменты q-го порядка;

a-й (a100-процентный) квантиль, т.е. значение величины, которое не превышается в выборке с вероятностью a; здесь l-й полуинтервал является квантильным, т.е. ( являются квантилями с );

среднее по той (нижней) части выборки, которая выделяется a-м квантилем (l-й полуинтервал также квантильный).

Среди квантилей особое значение имеют те, которые делят выборку на равные части (иногда именно эти величины называют квартилями):

медиана;

квартили;

децили;

процентили.

децильный размах вариации (может быть также квартильным или процентильным);

децильный коэффициент вариации (может быть медианным, квартильным или процентильным).

мода, т.е. наиболее вероятное значение величины в выборке; здесь l-й полуинтервал является модальным, fl на нем достигает максимума; если этот максимум единственный, то распределение величины называется унимодальным; если максимума два - бимодальным; в общем случае - при нескольких максимумах - полимодальным.

Гистограмма - эмпирическая (интервальная) функция плотности распределения; имеет ступенчатую форму: на l-м полуинтервале (l=1,...,k) принимает значение fl;

Полигон - функция, график которой образован отрезками, соединяющими точки .

Гистограмма и полигон могут строиться непосредственно по весам wl, если (как в данном случае) все полуинтервалы имеют одинаковую длину.

Кумулята - эмпирическая (интервальная) функция распределения вероятности, график которой образован отрезками, соединяющими точки .

Огива - то же, что и кумулята, или (в традициях советской статистики) функция, обратная кумуляте.

1.3 Теоретические функции распределения случайной величины

x - случайная величина,

z - детерминированная переменная.

функция распределения вероятности x;

функция плотности распределения вероятности x;

,

математическое ожидание, среднее (теоретическое);

моменты q-го порядка (теоретические);

дисперсия (теоретическая);

;

показатель асимметрии (теоретический),

показатель эксцесса, куртозиса (теоретический).

Для квантиля ; для моды : максимум достигается при .

Если распределение случайной величины симметрично, то и . В этом случае можно использовать понятие двустороннего квантиля , для которого , и значение которого совпадает с - значением обычного (одностороннего) квантиля.

Если распределение случайной величины унимодально, то в случае симметричности , при правой асимметрии , при левой асимметрии .

1.4 Функции распределения, используемые в эконометрии

В силу центральной предельной теоремы математической статистики, ошибки измерения и “остатки”, необъясняемые “хорошей” эконометрической моделью, имеют распределения близкие к нормальному. Поэтому все распределения, используемые в классической эконометрии, основаны на нормальном.

Пусть - случайная величина, имеющая нормальное распределение с нулевым мат.ожиданием и единичной дисперсией (). Функция плотности распределения ее прямо пропорциональна (для наглядности в записи функции плотности вместо z использован символ-имя самой случайной величины); 95-процентный двусторонний квантиль равен 1.96, 99-процентный квантиль - 2.57.

Пусть теперь имеется k таких взаимно независимых величин . Сумма их квадратов является случайной величиной, имеющей распределение c k степенями свободы (обозначается ). 95-процентный (односторонний) квантиль при k=1 равен 3.84 (квадрат 1.96), при k=5 - 11.1, при k=20 - 31.4, при k=100 - 124.3.

Если две случайные величины и независимы друг от друга, то случайная величина имеет распределение t -Стъюдента с k степенями свободы (). Ее функция распределения прямо пропопорциональна ; в пределе при она становится нормально распределенной. 95-процентный двусторонний квантиль при k=1 равен 12.7, при k=5 - 2.57, при k=20 - 2.09, при k=100 - 1.98 .

Если две случайные величины и не зависят друг от друга, то случайная величина имеет распределение F-Фишера с k1 и k2 степенями свободы (). 95-процентный (односторонний) квантиль при k2=1 равен 161, при k2=5 - 6.61, при k2=20 - 4.35, при k2=100 - 3.94 (квадраты соответствующих ); квантиль при k2=1 равен 200, при k2=5 - 5.79, при k2=20 - 3.49, при k2=100 - 3.09; квантиль при k1=3 равен 3.10, при k1=4 - 2.87, при k1=5 - 2.71, при k1=6 - 2.60.

2. Случайные ошибки измерения

2.1 Первичные измерения

Пусть имеется N измерений xi, i = 1,...,N случайной величины x. Это - наблюдения за случайной величиной. Предполагается, что измерения проведены в неизменных условиях (факторы, влияющие на x, не меняют своих значений), и систематические ошибки измерений исключены. Тогда различия в результатах отдельных наблюдений (измерений) связаны только с наличием случайных ошибок:

,

где - истинное значение x,

- случайная ошибка в i-м наблюдении.

Если x и - вектора-столбцы, соответственно, xi и i, а - N-компонентный вектор-столбец, состоящий из единиц, то данную модель можно записать в матричной форме:

x

Предполагается, что ошибки по наблюдениям не зависят друг от друга и , а их дисперсии по наблюдениям одинаковы , или в матричной форме E(/) = IN2 (где IN - единичная матрица размерности N). Требуется найти b и - оценки, соответственно, и i. Для этого используется метод наименьших квадратов (МНК), т.е. искомые оценки определяются так, чтобы или e/e min, где e вектор-столбец оценок . В результате,

x, e = x1Nb,

т.е. МНК-оценкой истинного значения измеряемой величины является среднее арифметическое по наблюдениям. Оценка b относится к классу линейных, поскольку линейно зависит от наблюдений за случайной величиной.

В рамках сделанных предположний доказывается, что b является несмещенной оценкой (b = E()), ее дисперсия равна и является минимальной на множестве линейных оценок; класс таких оценок (процедур оценивания) называют BLUE - Best Linear Unbiased Estimators;

- несмещенной оценкой 2 является

2 e/e .

Пусть теперь i распределены нормально, тогда оценка максимального правдоподобия совпадает с b, она несмещена, состоятельна (в пределе при совпадает с и имеет нулевую дисперсию) и эффективна (имеет минимально возможную дисперсию), величина имеет распределение N(0,1) и (1-)100-процентный доверительный интервал для определяется как

,

где 1- - (1-)100-процентный двусторонний квантиль нормального распределения.

Эта формула для доверительного интервала используется, если известно точное значение .

На практике точное значение , как правило, неизвестно, и используется другой подход.

Величина имеет распределение и (1-)100-процентный доверительный интервал для строится как

,

где tN-1,1- - (1-)100-процентный двусторонний квантиль tN-1-распределения.

Поскольку величина детерминирована, доверительные интервалы интерпретируются следующим образом: если процедуру построения доверительного интервала повторять многократно, то (1-)100 процентов полученных интервалов будут содержать истинное значение измеряемой величины.

2.2 Производные измерения

Пусть xj, j = 1,...,n - выборочные (фактические) значения (наблюдения, измерения) n различных случайных величин, j - их истинные значения, j - ошибки измерений. Если x, - соответствующие n-компонентные вектора-строки, то

x =

Предполагается, что E() = 0, и ковариационная матрица ошибок E(/) равна .

Пусть величина y рассчитывается как f(x). Требуется найти дисперсию ошибки y = ) измерения (расчета) этой величины.

Разложение функции f в ряд Тэйлора в фактической точке x по направлению x (= ), если в нем оставить только члены 1-го порядка, имеет вид:

f() = y g или y = g (заменяя ““ на “=“),

где g - градиент f в точке x (вектор-столбец с компонентами gj = x)).

Откуда и

g//g) = g/g,

Это - общая формула, частным случаем которой являются известные формулы для дисперсии среднего, суммы, разности, произведения, частного от деления и др.

В случае, если ошибки величин xj не скоррелированы друг с другом и имеют одинаковую дисперсию 2,

g/g2.

В случае, если известны только дисперсии ошибок j, можно воспользоваться формулой, дающей верхнюю оценку дисперсии ошибки результата вычислений:

,

где j - среднеквадратическое отклонение j.

3. Алгебра линейной регрессии

3.1 Обозначения и определения

x - n-вектор-строка переменных xj;

- n-вектор-столбец коэффициентов (параметров) регрессии j при переменных x;

- свободный член в уравнении регрессии;

- ошибки измерения (ошибки уравнения, необъясненные остатки);

x = + - уравнение (линейной) регрессии;

x = - гиперплоскость регрессии размерности n1;

, , - истинные значения соответствующих величин;

a, b, e - их оценки;

xj - вектор x без j-й компоненты;

j - вектор без j-й компоненты;

Xj - N- вектор-столбец наблюдений {xij} за переменной xj (вектор фактических значений переменной);

X - Nn-матрица наблюдений {Xj} за переменными x;

- та же матрица без j-го столбца;

- N- вектор-столбец ошибок (остатков) по наблюдениям;

X = 1N + - регрессия по наблюдениям (уравнение регрессии);

- n-вектор-строка средних;

- тот же вектор без j-й компоненты;

- матрица центрированных наблюдений;

- nn -матрица {mij} оценок ковариаций переменных x (эта матрица, по определению, - вещественная, симметрическая и положительно полуопределенная);

- та же матрица без j- го столбца и j-й строки;

mj - (n-1)-вектор-столбец (оценок) ковариаций xj c остальными переменными.

- оценка остаточной дисперсии.

Коэффициенты регрессии a и b находятся так, чтобы достигала своего наименьшего значения. В этом заключается применение метода наименьших квадратов.

Из условия определяется, что и , т.е. гиперплоскость регрессии проходит через точку средних значений переменных, и ее уравнение можно записать в сокращенной форме:

a = e.

3.2 Простая регрессия

Когда на вектор параметров регрессии накладывается ограничение j=1, имеется в виду простая регрессия, в левой части уравнения которой остается только одна переменная:

Это уравнение регрессии xj по xj; переменная xj - объясняемая, изучаемая или моделируемая, переменные xj - объясняющие, независимые факторы, регрессоры.

Из условия определяется, что и mj = Mjaj. Последнее называется системой нормальных уравнений, из которой находятся искомые МНК-оценки параметров регрессии:

.

Систему нормальных уравнений можно вывести, используя иную логику. Если обе части уравнения регрессии (записанного по наблюденям) умножить слева на и разделить на N, то получится условие , из которого следует искомая система при требованиях и .

Такая же логика используется в методе инструментальных переменных. Пусть имеется N(n-1)-матрица наблюдений Z за некоторыми величинами z, называемыми инструментальными переменными, относительно которых известно, что они взаимно независимы с . Умножение обеих частей уравнения регрессии слева на и деление их на N дает условие , из которого - после отбрасывания 2-го члена правой части - следует система нормальных уравнений

метода инструментальных переменных,

где .

МНК-оценка остаточной дисперсии удовлетворяет следующим формулам:

,

где - объясненная дисперсия.

или (т.к. )

- коэффициент детерминации (равный квадрату коэффициента множественной корреляции между xj и xj), показывающий долю исходной дисперсии моделируемой переменной, которая объяснена регрессионной моделью.

- расчетные значения моделируемой переменной (лежащие на гиперплоскости регрессии).

В n-пространстве переменных вектора-строки матрицы X образуют так называемое облако наблюдений. Искомая гиперплоскость регрессии в этом пространстве располагается так, чтобы сумма квадратов расcтояний от всех точек облака наблюдений до этой гиперплоскости была минимальна. Данные расcтояния измеряются параллельно оси моделируемой переменной xj.

В N-пространстве наблюдений показываются вектора-столбцы матрицы . Коэффициент множественной корреляции между xj и xj равен косинусу угла между и гиперплоскостью,”натянутой” на столбцы матрицы , вектор e является нормалью из на эту гиперплоскость, а вектор aj образован коэффициентами разложения проекции на эту гиперплоскость по векторам-столбцам матрицы .

В зависимости от того, какая переменная остается в левой части уравнения регрессии, получаются различные оценки вектора (и, соответственно, коэффициента ). Пусть a( j ) - оценка этого вектора из регрессии xj по xj. Равенство

при выполняется в том и только в том случае, если e = 0 и, соответственно, R2 = 1.

При n = 2 регрессия x1 по x2 называется прямой, регрессия x2 по x1 - обратной.

Замечание: в отечественной литературе простой обычно называют регрессию с одной переменной в правой части, а регрессию с несколькими независимыми факторами - множественной.

3.3 Ортогональная регрессия

В случае, когда ограничения на параметры состоят в требовании равенства единице длины этого вектора / = 1,

получается ортогональная регрессия, в которой расстояния от точек облака наблюдений до гиперплоскости регрессии измеряются перпендикулярно этой гиперплоскости.

Уравнение ортогональной регрессии имеет вид:

.

Теперь применение МНК означает минимизацию по a при указанном ограничении на длину этого вектора. Из условия равенства нулю производной по a соответствующей функции Лагранжа следует, что

причем ,

( - половина множителя Лагранжа указанного ограничения) т.е. применение МНК сводится к поиску минимального собственного числа ковариационной матрицы M и соответствующего ему собственного (правого) вектора a. Благодаря свойствам данной матрицы, искомые величины существуют, они вещественны, а собственное число неотрицательно (предполагается, что оно единственно). Пусть эти оценки получены.

В ортогональной регрессии все переменные x выступают изучаемыми или моделируемыми, их расчетные значения определяются по формуле

,

а аналогом коэффициента детерминации выступает величина

,

где - суммарная дисперсия переменных x, равная следу матрицы M.

Таким образом, к n оценкам вектора a простой регрессии добавляется оценка этого вектора ортогональной регрессии, и общее количество этих оценок становится равным n+1.

Задачу простой и ортогональной регрессии можно записать в единой, обобщенной форме:

,

где W - диагональная nn-матрица, на диагонали которой могут стоять 0 или 1.

В случае, если в матрице W имеется единственный ненулевой элемент wjj = 1, это - задача простой регрессии xj по xj; если W является единичной матрицей, то это - задача ортогональной регрессии. Очевидно, что возможны и все промежуточные случаи, и общее количество оценок регрессии - 2n1.

Задача ортогональной регрессии легко обобщается на случай нескольких уравнений и альтернативного представления расчетных значений изучаемых переменных.

Матрица M, являясь вещественной, симметрической и положительно полуопределенной, имеет n вещественных неотрицательных собственных чисел, сумма которых равна , и n соответствующих им вещественных взаимноортогональных собственных векторов, дающих ортонормированный базис в пространстве наблюдений. Пусть собственные числа, упорядоченные по возрастанию, образуют диагональную матрицу , а соответствующие им собственные вектора (столбцы) - матрицу A. Тогда

A/A = In, MA = A.

Собственные вектора, если их рассматривать по убыванию соответствующих им собственных чисел, есть главные компоненты облака наблюдений, которые показывают направления наибольшей “вытянутости” (наибольшей дисперсии) этого облака. Количественную оценку степени этой “вытянутости” (дисперсии) дают соответствующие им собственные числа.

Пусть первые k собственных чисел “малы”.

- сумма этих собственных чисел;

AE - часть матрицы A, соответствующая им (ее первые k стоблцов); это - коэффициенты по k уравнениям регрессии или k младших главных компонент;

AF - остальная часть матрицы A, это - nk старших главных компонент или собственно главных компоненет;

A = [AE,AF];

xAE = 0 - гиперплоскость ортогональной регрессии размерности nk;

- координаты облака наблюдений в базисе главных компонент;

E - Nk-матрица остатков по уравнениям регрессии;

F - N(nk)-матрица, столбцы которой есть так называемые главные факторы.

Поскольку A/ = A-1 и AA/ = In, можно записать

.

Откуда получается два возможных представления расчетных значений переменных:

.

Первое из них - по уравнениям ортогональной регрессии, второе (альтернативное) - по главным факторам.

- аналог коэффициента детерминации, дающий оценку “качества” этих обеих моделей.

3.4 Многообразие оценок регрессии

Множество оценок регрессии не исчерпывается 2n1 отмеченными выше элементами.

D - N/N-матрица преобразований в пространстве наблюдений ().

Преобразование в пространстве наблюдений проводится умножением слева обеих частей уравнения регрессии (записанного по наблюдениям) на эту матрицу:

.

После такого преобразования - если D не единичная матрица - применение МНК приводит к новым оценкам регрессии (как простой, так и ортогональной), при этом параметр b - если - теряет смысл свободного члена в уравнении.

C - невырожденная nn-матрица преобразований в пространстве переменных.

Преобразование в пространстве пременных проводится следующим образом:

,

и в результате получается новое выражение для уравнения регрессии:

,

где .

МНК-оценки f и a количественно различаются, если C не единичная матрица. Однако f является новой оценкой, только если . В противном случае она совпадает с исходной оценкой a с точностью до сделанного преобразования (представляет ту же оценку в другой метрике или шкале измерения).

Результаты преобразования в пространстве переменных различны для простой и ортогональной регрессии.

В случае простой регрессии xj по xj это преобразование не приводит к получению новых оценок, если j-я строка матрицы C является ортом, т.е. в независимые факторы правой части не “попадает” - после преобразования - моделируемая переменная. Если C диагональная матрица с элементами cjj=1, при , то оценка f дается в так называемой стандартизированной шкале.

Если j-я строка матрицы C имеет ненулевые внедиагональные элементы, Cf и a совпадают только при R2 = 1.

В случае ортогональной регрессии задача определения f записывается следующим образом:

,

где .

После обратной подстановки переменных и элементарного преобразования она приобретает следующий вид:

где .

Решение этой задачи дает новую оценку, даже если C является диагональной матрицей. Это - так называемая регрессия в метрике -1.

4. Основная модель линейной регрессии

4.1 Различные формы уравнения регрессии

x - моделируемая переменная;

z - n-вектор-строка независимых факторов;

x = z + + - уравнение регрессии;

X, Z - N-вектор и Nn-матрица наблюдений за соответствующими переменными;

- n-вектор-строка средних значений переменных z.

Первые две формы уравнения регрессии по наблюдениям аналогичны используемым в предыдущем разделе и имеют следующий вид:

,

или (истинные значения заменены их оценками)

- исходная форма;

- сокращенная форма.

Оператор МНК-оценивания для этих двух форм имеет следующий вид:

,

где - nxn-матрица ковариации (вторых центральных моментов) z;

- n-вектор-столбец ковариации между z и x.

Третья форма - без свободного члена - записывается следующим образом:

,

где Z - N(n+1)-матрица, последний столбец которой состоит из единиц (равен 1N);

a - (n+1)-вектор-столбец, последний элемент которого является свободным членом регрессии.

Какая из этих форм регрессии используется и, соответственно, что именно означают a и Z, будет в дальнейшем ясно из контекста или будет специально поясняться.

В этом разделе, в основном, используется форма уравнения регрессии без свободного члена.

Оператор МНК-оценивания для нее записывается более компактно:

,

но - (n+1)(n+1)-матрица вторых начальных моментов [z,1];

- (n+1)-вектор-столбец вторых начальных моментов между [z,1] и x.

Если в этом операторе вернуться к обозначениям первых двух форм уравнения регрессии, то получится следующее выражение:

,

из которого видно, что

- обратная матрица ковариации z (размерности NN) совпадает с соответствующим блоком обратной матрицы вторых начальных моментов (размерности (N+1)(N+1));

- результаты применения двух приведенных операторов оценивания одинаковы.

4.2 Основные гипотезы, свойства оценок

1. Между переменными x и z существует зависимость x = z + + .

2. Переменные z детерминированы, наблюдаются без ошибок и линейно независимы (в алгебраическом смысле).

3. E() = 0, E(/) = 2IN.

4. В модели линейной регрессии математической статистики, в которой переменные z случайны, предполагается, что ошибки не зависят от них и - по крайней мере - не скоррелированы с ними. В данном случае это предположение формулируется так: независимо от того, какие значения принимают переменные z, ошибки удовлетворяют гипотезе 3.

В этих предположениях a относится к классу линейных оценок, т.к.

a = LX,

где L = - неслучайный (n+1)(N+1)-оператор оценивания;

а также доказывается что

- a является несмещенной оценкой , их матрица ковариации Ma равна (в обозначениях сокращенной формы уравнения регрессии это выражение давало бы - как показано в предыдущем пункте - матрицу ковариации коэффициентов регрессии при независимых факторах, а дисперсия свободного члена определялась бы по формуле ), и дисперсия любой их линейной комбинации минимальна на множестве линейных оценок, т.е. они относятся к классу BLUE - Best Linear Unbiased Estimators;

- несмещенной оценкой 2 является

= .

Для расчета коэффициента детерминации можно использовать следующую формулу:

,

где ,

.

Если предположить, что (и, следовательно, их оценки e) распределены нормально:

,

то оценки a также будут иметь нормальное распределение:

,

они совпадут с оценками максимального правдоподобия, будут несмещенными, состоятельными и эффективными.

В этом случае можно строить доверительные интервалы для оценок и использовать статистические критерии проверки гипотез.

(1-)100-процентный доверительный интервал для i , i =1,...,n+1 (n+1=), строится следующим образом:

,

где - среднеквадратическое отклонение ai ( - ii-й элемент матрицы M1);

tN-n-1,1- - (1-)100-процентный двусторонний квантиль tN-n-1-распределения.

Для проверки нулевой гипотезы i = 0 применяется t-критерий. Гипотеза отвергается (влияние i-го фактора считается статистически значимым) с вероятностью ошибки (1-го рода) , если

,

т.к. при выполнении нулевой гипотезы величина имеет tN-n-1-распределение. Эта величина называется t-статистикой (ti-статистикой) и ее фактическое значение обозначается в дальнейшем .

При использовании современных статистических пакетов программ не требуется искать нужные квантили t-распределения в статистических таблицах, поскольку в них (пакетах) рассчитывается уровеньошибки , с которой можно отвергнуть нулевую гипотезу, т.е. такой, что:

,

и, если он меньше желаемого значения либо равен ему, то нулевая гипотеза отвергается.

Для проверки нулевой гипотезы об отсутствии искомой связи применяется F-критерий. Если эта гипотеза верна, величина

имеет Fn,N-n-1-распределение. Данная величина называется F-статистикой и ее фактическое значение обозначается в дальнейшем Fc. Нулевая гипотеза отвергается (влияние z на x считается статистически значимым) с вероятностью ошибки (1-го рода) , если

,

где Fn,N-n-1,1- - (1-)100-процентный (односторонний) квантиль Fn,N-n-1-распределения.

В современных статистических пакетах программ также рассчитывается уровень с ошибки для Fc, такой, что

.

Уместно отметить, что приведенные в разделе 2.1. сведения являются частным случаем рассмотренных здесь результатов при n=0.

4.3 Независимые факторы

Если не выполняется 2-я гипотеза, и некоторые из переменных z линейно зависят от других, то матрица M вырождена, и использование приведенного оператора оценивания невозможно.

Вообще говоря, предложить метод оценивания параметров регрессии в этом случае можно. Так, пусть множество независимых факторов разбито на две части (в этом фрагменте используются обозначения сокращенной формы уравнения регрессии):

, ,

и .

Тогда можно записать уравнение регрессии в форме

+ e,

и оценить линейную комбинацию параметров (предполагая, что столбцы Z1 линейно независимы). Но чтобы оценить сами параметры, нужна априорная информация, например: .

Однако вводить в регрессию факторы, которые линейно зависят от уже введенных факторов, не имеет смысла, т.к. при этом не растет объясненная дисперсия (см. ниже).

На практике редко встречается ситуация, когда матрица M вырождена. Более распространен случай, когда она плохо обусловлена (между переменными Z существуют зависимости близкие к линейным). В этом случае имеет место мультиколлинеарность факторов. Поскольку гипотеза 2 в части отсутствия ошибок измерения, как правило, нарушается, получаемые (при мультиколлинеарности) оценки в значительной степени обусловлены этими ошибками измерения. В таком случае (если связь существует), обычно, факторы по отдельности оказываются незначимыми по t-критерию, а все вместе - существенными по F-критерию. Поэтому в регрессию стараются не вводить факторы сильно скоррелированные с остальными.

В общем случае доказывается, что

,

где и - дисперсии, объясненные факторами z1 и z2 по отдельности;

- прирост объясненной дисперсии, вызванный добавлением в регрессии факторов z2 к факторам z1.

В соотношении для прироста объясненной дисперсии:

- левая часть выполняется как строгое равенство, если и только если

(коэффициент детерминации в регрессии по z1 уже равен единице), или

вектор остатков в регрессии по z1 ортогонален факторам , т.е. имеет с ними нулевую корреляцию (возможное влияние факторов z2 уже “приняли” на себя факторы z1), или

факторы линейно зависят от факторов ;

- правая часть выполняется как строгое равенство, если и только если

факторы ортогональны факторам .

Если в множество линейно независимых факторов добавлять новые элементы, то коэффициент детерминации растет вплоть до единицы, после чего рост прекращается. Своего максимального значения он обязательно достигнет при n = N (возможно и раньше) - даже если вводимые факторы не влияют по-существу на изучаемую переменную. Поэтому сам по себе коэффициент детерминации не может служить статистическим критерием “качества” уравнения регрессии. Более приемлем в этой роли коэффициент детерминации, скорректированный на число степеней свободы:

,

который может и уменьшиться при введении нового фактора. Точную же статистическую оценку качества (в случае нормальности распределения остатков) дает F-критерий. Однако учитывая, что значения Fc оказываются несопоставимыми при изменении n (т.к. получают разное число степеней свободы), наиболее правильно эту роль возложить на уровень ошибки с для Fc.

В результате введения новых факторов в общем случае меняются оценки параметров при ранее введенных факторах:

,

где - оценка параметров регрессии по z1 (до введения новых факторов);

A12 - матрица, столбцы которой являются оценками параметров регрессии переменных z2 по z1.

“Старые” оценки параметров сохраняются (), если и только если

- коэффициент детерминации в регрессии по z1 уже равен единице, или

вектор остатков в регрессии по z1 ортогонален факторам (в этих двух случаях a2 = 0), или

факторы ортогональны факторам (в этом случае A12 = 0).

Итак, возникает проблема определения истинного набора факторов, фигурирующих в гипотезе 1, который позволил бы найти оценки истинных параметров регрессии. Определение такого набора факторов есть спецификация модели. Формальный подход к решению этой проблемы заключается в поиске так называемого наилучшего уравнения регрессии, для чего используется процесс (метод) шаговой регрессии.

Пусть z - полный набор факторов, потенциально влияющих на x. Рассматривается процесс обращения матрицы ковариации переменных [x,z]. В паре матриц (n+1)(n+1)

делаются одновременные преобразования их строк в орты. Известно, что, если 1-ю матрицу преобразовать в единичную, то на месте 2-й матрицы будет получена обратная к 1-й (исходной). Пусть этот процесс не завершен, и только несколько строк 1-й матрицы (но не ее 1-я строка) преобразованы в орты. Это - ситуация на текущем шаге процесса.

На этом шаге строкам-ортам в 1-й матрице соответствуют включенные в регрессию факторы, на их месте в 1-й строке этой матрицы оказываются текущие оценки параметров регрессии при них. Строкам-ортам во 2-й матрице соответствуют невведенные факторы, на их месте в 1-й строке 1-й матрицы размещаются коэффициенты ковариации этих факторов с текущими остатками изучаемой переменной. На месте mxx показывается текущее значение остаточной дисперсии.

На каждом шаге оцениваются последствия введения в регрессию каждого не включенного фактора (преобразованием в орты сответствующих строк 1-й матрицы) и исключения каждого введенного ранее фактора (преобразованием в орты соответствующих строк 2-й матрицы). Выбирается тот вариант, который дает минимальный уровень ошибки с для Fc. Процесс продолжается до тех пор, пока этот уровень сокращается.

Иногда в этом процессе используются более простые критерии. Например, задается определенный уровень t-статистики (правильнее - уровень ошибки с для tc), и фактор вводится в уравнение, если фактическое значение tc для него выше заданного уровня (ошибка с ниже ее заданного уровня), фактор исключается из уравнения в противном случае.

Такие процессы, как правило, исключают возможность введения в уравнение сильно скоррелированных факторов, т.е. решают проблему мультиколлинеарности.

Формальные подходы к спецификации модели должны сочетаться с теоретическими подходами, когда набор факторов и, часто, знаки параметров регрессии определяются из теории изучаемого явления.

4.4 Прогнозирование

Требуется определить наиболее приемлемое значения для xN+1 (прогноз), если известны значения независимых факторов (вектор-строка):

.

- истинное значение искомой величины;

- ожидаемое значение;

- искомый МНК-прогноз.

Полученный прогноз не смещен относительно ожидаемого значения:

,

и его ошибка имеет нулевое матожидание:

E(d) = 0,

и дисперсию , которая минимальна в классе линейных оценок .

Оценка стандартной ошибки прогноза при n = 1 рассчитывается по формуле

.

5. Гетероскедастичность и автокорреляция ошибок

5.1 Обобщенный метод наименьших квадратов (взвешенная регрессия)

Если матрица ковариации ошибок по наблюдениям отлична от 2IN (нарушена 3-я гипотеза основной модели), то МНК-оценки параметров регрессии остаются несмещенными, но перестают быть эффективными в классе линейных. Смещенными оказываются МНК-оценки их ковариции, в частности оценки их стандартных ошибок (как правило, они преуменьшаются).

Пусть теперь E(/) = 2, где - вещественная, симметрическая положительно определенная матрица (структура ковариации ошибок). Обобщенный метод наименьших квадратов (ОМНК), приводящий к оценкам класса BLUE, означает минимизацию взвешенной суммы квадратов отклонений:

.

Для доказательства проводится преобразование в пространстве наблюдений с помощью невырожденной NN-матрицы D, такой, что . После такого преобразования остатки D начинают удовлетворять 2-й гипотезе.

На практике с матрицами общего вида обычно не работают. Рассматривается два частных случая.

5.2 Гетероскедастичность ошибок

Пусть ошибки не скоррелированы по наблюдениям, и матрица диагональна. Если эта матрица единична, т.е. дисперсии ошибок одинаковы по наблюдениям (гипотеза 3 не нарушена), то имеет место гомоскедастичность или однородность ошибок по дисперсии. В противном случае констатируют гетероскедастичность ошибок или их неоднородность по дисперсии.

Для проверки гипотезы о гомоскедастичности можно использовать критерий Бартлета. Для расчета bc - статистики, лежащей в основе применения этого критерия, множество МНК-оценок остатков ei, i = 1,...,N делится на k непересекающихся подмножеств.

Nl - количество элементов в l-м подмножестве,

;

- оценка дисперсии в l-м подмножестве;

отношение средней арифметической дисперсий к средней геометрической; это отношение больше или равно единице, и чем сильнее различаются дисперсии по подмножествам, тем оно выше;

.

При однородности наблюдений по дисперсии эта статистика распределена как .

Факт неоднородности наблюдений по дисперсии остатков мало сказывается на качестве оценок регрессии, если эти дисперсии не скоррелированы с независимыми факторами. Проверить наличие зависимости дисперсии ошибок от факторов-регрессоров можно следующим образом.

Все наблюдения упорядочиваются по возрастанию одного из независимых факторов или расчетного значения изучаемой переменной Za. Оценивается остаточная дисперсия по K “малым” и по K “большим” наблюдениям (“средние” N2K наблюдения в расчете не участвуют, а K выбирается приблизительно равным трети N). В случае гомоскедастичности ошибок отношение распределено как FK-n-1,K-n-1.

Если гипотеза гомоскедастичности отвергается, необходимо дать оценку матрице . Совместить проверку этой гипотезы с оценкой данной матрицы можно следующим образом.

В качестве оценок дисперсии ошибок по наблюдениям принимаются квадраты оценок остатков , и строится регрессия на все множество независимых факторов или какое-то их подмножество. Если какая-то из этих регрессий оказывается статистически значимой, то гипотеза гомоскедастичности отвергается, и в качестве оценок ( по предположению) примаются расчетные значения .

В некоторых статистических критериях проверки на гомоскедастичность в качестве оценок ii принимаются непосредственно .

Имея оценку матрицы , можно провести преобразование в пространстве наблюдений с помощью матрицы , после которого остатки D можно считать удовлетворяющими гипотезе 3.

5.3 Автокорреляция ошибок

Пусть теперь наблюдения однородны по дисперсии и их последовательность имеет физический смысл и жестко фиксирована (например, наблюдения проводятся в последовательные моменты времени).

Для проверки гипотезы о наличии линейной автокорреляции 1-го порядка ошибок по наблюдениям

,

где - коэффициент авторегрессии 1-го порядка;

- N-вектор-столбец {i};

можно использовать критерий Дарбина-Уотсона или DW-критерий (при автокорреляции 2-го и более высоких порядков его применение становится ненадежным).

Фактическое значение dc статистики Дарбина-Уотсона (отношения Фон-Неймана) или DW-статистики раcсчитывается следующим образом:

Оно лежит в интервале от 0 до 4, в случае отсутствия автокорреляции ошибок приблизительно равно 2, при положительной автокорреляции смещается в меньшую сторону, при отрицательной - в большую сторону.

Если = 0, величина d распределена нормально, но параметры этого распределения зависят не только от N и n. Поэтому существует по два значения для каждого (двустороннего) квантиля, соответствующего определенным , N и n: его нижняя dL и верхняя dU границы. Нулевая гипотеза принимается, если ; она отвегается в пользу гипотезы о положительной автокорреляции, если , и в пользу гипотезы об отрицательной автокорреляции, если . Если или , вопрос остается открытым (это - зона неопределенности DW-критерия).

Пусть нулевая гипотеза отвергнута. Тогда необходимо дать оценку матрицы .

Оценка r параметра авторегрессии определяется из приближенного равенства

,

или рассчитывается непосредственно из регрессии e на него самого со двигом на одно наблюдение.

Оценкой матрицы является , а матрица D

преобразований в пространстве наблюдений равна .

Для преобразования в простанстве наблюдений, называемом в данном случае авторегрессионным, используют обычно указанную матрицу без 1-й строки, что ведет к сокращению количества наблюдений на одно. В результате такого преобразования из каждого наблюдения, начиная со 2-го, вычитается предыдущее, умноженное на r, теоретическими остатками становятся i, которые удовлетворяют гипотезе 2.

После этого преобразования снова оцениваются параметры регрессии. Если новое значение DW-статистики неудовлетворительно, то можно провести следующее авторегрессионное преобразование.

Обобщает процедуру последовательных авторегрессионных преобразований метод Кочрена-Оркарта, который заключается в следующем.

Для одновременной оценки r, a и b используется критерий ОМНК (в обозначениях исходной формы уравнения регрессии):

,

где zi - n-вектор-строка значений независимых факторов в i-м наблюдении (i-строка матрицы Z).

Поскольку производные функционала по искомым величинам нелинены относительно них, применяется итеративная процедура, на каждом шаге которой сначала оцениваются a и b при фиксированном значении r предыдущего шага (на первом шаге обычно r = 0), а затем - r при полученных значениях a и b. Процесс, как правило, сходится.

6. Ошибки измерения факторов и фиктивные переменные

6.1 Ошибки измерения факторов

Пусть теперь нарушается гипотеза 2, и независимые факторы наблюдаются с ошибками (здесь используются обозначения первых двух форм уравнения регрессии):

z = z0 + , или в разрезе наблюдений: Z = Z0 + ,

где z0 и - n-вектора-строки истинных значений факторов и ошибок их измерений;

Z0 и - соответствующие Nn-матрицы значений этих величин по наблюдениям.

Предполагается, что истинные значения и ошибки независимы друг от друга (по крайней мере, не скоррелированы друг с другом) и известны их матрицы ковариации (одинаковые для всех наблюдений):

E(z0/,) = 0, E(z0/,z0) = M0, E(/) = .

Уравнение регрессии можно записать в следующей форме:

,

(т.е. остатки теперь не могут быть независимыми от факторов-регрессоров) и в рамках сделанных предположений доказать, что

E(M) = M0 + , E(a) = (M0 + )-1M0,

т.е. МНК-оценки теряют в такой ситуации даже свойство несмещенности. Как правило, они преуменьшены по сравнению с истинными значениями (в случае n = 1, ).

Существуют три подхода к оценке параметров регрессии в случае наличия ошибок измерения независимых факторов.

а) Простая регрессия. Если имеется оценка W ковариационной матрицы ошибок и ошибки регрессоров взаимно независимы с изучаемой переменной, то можно использовать следующий оператор оценивания:

a = (M-W)-1m,

который обеспечивает несмещенность оценок.

б) Инструментальные переменные. Если имеется n факторов y, которые взаимно независимы как с ошибками уравнения , так и ошибками основных факторов , то оценка

несмещена.

Исторически первой в этом классе получена оценка Вальда для случая n = 1. Для получения этой оценки i-я компонента вектора-столбца Y принимается равной единице, если zi больше своей медианы, и минус единице, если - меньше медианы (при нечетном N среднее значение теряется). В результате получается, что

где - средние значения переменных по верхней части выборки,

- их средние значения по нижней части выборки.

Такая оценка более эффективна, если исключить примерно треть “средних” наблюдений.

Позже эта оценка была обобщена: матрицу значений инструментальных переменных было предложено формировать столбцами рангов по наблюдениям соответствующих переменных z.

в) Ортогональная регрессия. Если ошибки факторов не зависят друг от друга и от ошибок в уравнениях (которые в этом случае интерпетируются как ошибки изучаемой переменной), их дисперсии одинаковы и равны дисперсии ошибки изучаемой переменной, а между истинными значениями переменных имеется линейная зависимость, то можно использовать ортогональную регрессию. Возвращаясь к обозначениям 3-го раздела,

...

Подобные документы

  • Методы составления закона распределения случайной величины. Вычисление средней арифметической и дисперсии распределения. Расчет средней квадратической ошибки бесповторной выборки. Построение эмпирических линий регрессии, поиск уравнения прямых регрессий.

    контрольная работа [77,6 K], добавлен 20.07.2010

  • Знакомство с уравнениями линейной регрессии, рассмотрение распространенных способов решения. Общая характеристика метода наименьших квадратов. Особенности оценки статистической значимости парной линейной регрессии. Анализ транспонированной матрицы.

    контрольная работа [380,9 K], добавлен 05.04.2015

  • Значения коэффициента регрессии (b) и сводного члена уравнения регрессии (а). Определение стандартной ошибки предсказания являющейся мерой качества зависимости величин Y и х с помощью уравнения линейной регрессии. Значимость коэффициента регрессии.

    задача [133,0 K], добавлен 21.12.2008

  • Построение уравнения регрессии. Оценка параметров линейной парной регрессии. F-критерий Фишера и t-критерий Стьюдента. Точечный и интервальный прогноз по уравнению линейной регрессии. Расчет и оценка ошибки прогноза и его доверительного интервала.

    презентация [387,8 K], добавлен 25.05.2015

  • Исследование сходимости рядов. Степенной ряд интеграла дифференциального уравнения. Определение вероятности событий, закона распределения случайной величины, математического ожидания, эмпирической функции распределения, выборочного уравнения регрессии.

    контрольная работа [420,3 K], добавлен 04.10.2010

  • Случайные величины. Функция и плотность распределения вероятностей дискретной случайной величины. Сингулярные случайные величины. Математическое ожидание случайной величины. Неравенство Чебышева. Моменты, кумулянты и характеристическая функция.

    реферат [244,6 K], добавлен 03.12.2007

  • Проверка адекватности линейной регрессии. Вычисление выборочного коэффициента корреляции. Обработка одномерной выборки методами статистического анализа. Проверка гипотезы значимости с помощью критерия Пирсона. Составление линейной эмпирической регрессии.

    задача [409,0 K], добавлен 17.10.2012

  • Цели линейной модели множественной регрессии (прогноз, имитация, сценарий развития, управление). Анализ эконометрической сущности изучаемого явления на априорном этапе. Параметризация и сбор необходимой статистической информации, значимость коэффициентов.

    контрольная работа [68,7 K], добавлен 21.09.2009

  • Определение вероятности для двух несовместных и достоверного событий. Закон распределения случайной величины; построение графика функции распределения. Нахождение математического ожидания, дисперсии, среднего квадратичного отклонения случайной величины.

    контрольная работа [97,1 K], добавлен 26.02.2012

  • Элементы линейной алгебры. Дифференциальное и интегральное исчисление функции одной переменной. Биномиальный закон распределения. Комбинаторные формулы. Статистическое определение вероятности. Формула полной вероятности. Дискретные случайные величины.

    творческая работа [686,3 K], добавлен 30.04.2009

  • Определение дифференциальной функции распределения f(x)=F'(x) и математического ожидания случайной величины Х. Применение локальной и интегральной теоремы Лапласа. Составление уравнения прямой линии регрессии. Определение оптимального плана перевозок.

    контрольная работа [149,6 K], добавлен 12.11.2012

  • Статистическое описание и выборочные характеристики двумерного случайного вектора. Оценка параметров линейной регрессии, полученных по методу наименьших квадратов. Проверка гипотезы о равенстве средних нормальных совокупностей при неизвестных дисперсиях.

    контрольная работа [242,1 K], добавлен 05.11.2011

  • Вероятность попадания случайной величины Х в заданный интервал. Построение графика функции распределения случайной величины. Определение вероятности того, что наудачу взятое изделие отвечает стандарту. Закон распределения дискретной случайной величины.

    контрольная работа [104,7 K], добавлен 24.01.2013

  • Дискретные случайные величины и их распределения. Формула полной вероятности и формула Байеса. Общие свойства математического ожидания. Дисперсия случайной величины. Функция распределения случайной величины. Классическое определение вероятностей.

    контрольная работа [33,8 K], добавлен 13.12.2010

  • Непрерывная случайная величина и функция распределения. Математическое ожидание непрерывной случайной величины. Среднее квадратичное отклонение. Кривая распределения для непрерывной случайной величины. Понятие однофакторного дисперсионного анализа.

    контрольная работа [165,5 K], добавлен 03.01.2012

  • Описание случайных ошибок методами теории вероятностей. Непрерывные случайные величины. Числовые характеристики случайных величин. Нормальный закон распределения. Понятие функции случайной величины. Центральная предельная теорема. Закон больших чисел.

    реферат [146,5 K], добавлен 19.08.2015

  • Определение типа кривой по виду уравнения, уравнение с угловым коэффициентом, в отрезках и общее уравнение. Определение медианы, уравнения средней линии в треугольнике. Вопросы по линейной алгебре. Решение системы уравнения при помощи обратной матрицы.

    контрольная работа [97,5 K], добавлен 31.10.2010

  • Определение вероятности наступления события по формуле Бернулли. Построение эмпирической функции распределения и гистограммы для случайной величины. Вычисление коэффициента корреляции, получение уравнения регрессии. Пример решения задачи симплекс-методом.

    контрольная работа [547,6 K], добавлен 02.02.2012

  • Понятие случайной величины, а также ее основные числовые характеристики. Случайная величина, подчиняющаяся нормальному закону распределения. Кривые плотности вероятности. Использование генератора случайных чисел. Изображение векторов в виде графика.

    лабораторная работа [301,4 K], добавлен 27.05.2015

  • Вычисление математического ожидания, дисперсии, функции распределения и среднеквадратического отклонения случайной величины. Закон распределения случайной величины. Классическое определение вероятности события. Нахождение плотности распределения.

    контрольная работа [38,5 K], добавлен 25.03.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.