Параметры уравнения регрессии
Уравнение парной регрессии, её параметры: коэффициенты корреляции и эластичности, их значимость и доверительный интервал, ошибка аппроксимации, коэффициент детерминации. Матрица парных коэффициентов корреляции. Анализ параметров уравнения регрессии.
Рубрика | Экономико-математическое моделирование |
Вид | контрольная работа |
Язык | русский |
Дата добавления | 07.07.2015 |
Размер файла | 120,9 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Задача
Для 10 магазинов, принадлежащих одному торговому предприятию, зафиксирована величина годового товарооборота у (млн руб.) и среднее число посетителей в день х (тыс. чел.). Данные представлены в таблице
Xi |
8,25 |
10,24 |
9,31 |
11,01 |
8,54 |
7,51 |
12,36 |
10,81 |
9,89 |
13,72 |
|
Уi |
19,76 |
38,09 |
40,95 |
41,08 |
56,29 |
68.51 |
75,01 |
89,05 |
91,13 |
91,26 |
Уравнение парной регрессии
регрессия корреляция доверительный аппроксимация
На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.
Линейное уравнение регрессии имеет вид
y = bx + a + е
Система нормальных уравнений.
a*n + b?x = ?y
a?x + b?x2 = ?y*x
Для наших данных система уравнений имеет вид
10a + 101.64 b = 611.13
101.64 a + 1065.82 b = 6424.94
Из первого уравнения выражаем а и подставим во второе уравнение:
Получаем эмпирические коэффициенты регрессии: b = 6.5155, a = -5.1101
Уравнение регрессии (эмпирическое уравнение регрессии):
y = 6.5155 x - 5.1101
Для расчета параметров регрессии построим расчетную таблицу
x |
y |
x2 |
y2 |
x * y |
|
8.25 |
19.76 |
68.06 |
390.46 |
163.02 |
|
10.24 |
38.09 |
104.86 |
1450.85 |
390.04 |
|
9.31 |
40.95 |
86.68 |
1676.9 |
381.24 |
|
11.01 |
41.08 |
121.22 |
1687.57 |
452.29 |
|
8.54 |
56.29 |
72.93 |
3168.56 |
480.72 |
|
7.51 |
68.51 |
56.4 |
4693.62 |
514.51 |
|
12.36 |
75.01 |
152.77 |
5626.5 |
927.12 |
|
10.81 |
89.05 |
116.86 |
7929.9 |
962.63 |
|
9.89 |
91.13 |
97.81 |
8304.68 |
901.28 |
|
13.72 |
91.26 |
188.24 |
8328.39 |
1252.09 |
|
101.64 |
611.13 |
1065.82 |
43257.43 |
6424.94 |
1. Параметры уравнения регрессии
Выборочные средние.
Выборочные дисперсии:
Среднеквадратическое отклонение
1.1 Коэффициент корреляции
Ковариация
Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:
Линейный коэффициент корреляции принимает значения от -1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 < rxy < 0.3: слабая;
0.3 < rxy < 0.5: умеренная;
0.5 < rxy < 0.7: заметная;
0.7 < rxy < 0.9: высокая;
0.9 < rxy < 1: весьма высокая;
В нашем примере связь между признаком Y фактором X умеренная и прямая.
Кроме того, коэффициент линейной парной корреляции может быть определен через коэффициент регрессии b:
1.2 Уравнение регрессии (оценка уравнения регрессии)
Линейное уравнение регрессии имеет вид
y = 6.52 x -5.11
Коэффициентам уравнения линейной регрессии можно придать экономический смысл.
Коэффициент регрессии b = 6.52 показывает среднее изменение результативного показателя (в единицах измерения у) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением на 1 единицу y повышается в среднем на 6.52.
Коэффициент a = -5.11 формально показывает прогнозируемый уровень у, но только в том случае, если х=0 находится близко с выборочными значениями.
Но если х=0 находится далеко от выборочных значений х, то буквальная интерпретация может привести к неверным результатам, и даже если линия регрессии довольно точно описывает значения наблюдаемой выборки, нет гарантий, что также будет при экстраполяции влево или вправо.
Подставив в уравнение регрессии соответствующие значения х, можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения.
Связь между у и х определяет знак коэффициента регрессии b (если > 0 - прямая связь, иначе - обратная). В нашем примере связь прямая.
1.3 Коэффициент эластичности
Коэффициент эластичности находится по формуле:
В нашем примере коэффициент эластичности больше 1. Следовательно, при изменении Х на 1%, Y изменится более чем на 1%. Другими словами - Х существенно влияет на Y.
Бета - коэффициент
Т.е. увеличение x на величину среднеквадратического отклонения Sx приведет к увеличению среднего значения Y на 0.49 среднеквадратичного отклонения Sy.
1.4 Ошибка аппроксимации
Поскольку ошибка больше 7%, то данное уравнение не желательно использовать в качестве регрессии.
1.5 Эмпирическое корреляционное отношение
где
Индекс корреляции.
Для линейной регрессии индекс корреляции равен коэфииценту корреляции rxy = 0.49.
Полученная величина свидетельствует о том, что фактор x умеренно влияет на y
Для любой формы зависимости теснота связи определяется с помощью множественного коэффициента корреляции:
Данный коэффициент является универсальным, так как отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных. При построении однофакторной корреляционной модели коэффициент множественной корреляции равен коэффициенту парной корреляции rxy.
В отличие от линейного коэффициента корреляции он характеризует тесноту нелинейной связи и не характеризует ее направление. Изменяется в пределах [0;1].
Теоретическое корреляционное отношение для линейной связи равно коэффициенту корреляции rxy.
1.6 Коэффициент детерминации
R2= 0.492 = 0.2353
т.е. в 23.53 % случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - низкая. Остальные 76.47 % изменения Y объясняются факторами, не учтенными в модели.
Для оценки качества параметров регрессии построим расчетную таблицу (табл. 2)
Таблица 2
x |
y |
y(x) |
(yi-ycp)2 |
(y-y(x))2 |
(xi-xcp)2 |
|y - yx|:y |
|
8.25 |
19.76 |
48.64 |
1710.07 |
834.19 |
3.66 |
1.46 |
|
10.24 |
38.09 |
61.61 |
530.06 |
553.1 |
0.00578 |
0.62 |
|
9.31 |
40.95 |
55.55 |
406.55 |
213.13 |
0.73 |
0.36 |
|
11.01 |
41.08 |
66.63 |
401.32 |
652.55 |
0.72 |
0.62 |
|
8.54 |
56.29 |
50.53 |
23.26 |
33.16 |
2.64 |
0.1 |
|
7.51 |
68.51 |
43.82 |
54.72 |
609.55 |
7.04 |
0.36 |
|
12.36 |
75.01 |
75.42 |
193.13 |
0.17 |
4.82 |
0.00548 |
|
10.81 |
89.05 |
65.32 |
780.48 |
563.02 |
0.42 |
0.27 |
|
9.89 |
91.13 |
59.33 |
901.02 |
1011.38 |
0.0751 |
0.35 |
|
13.72 |
91.26 |
84.28 |
908.84 |
48.69 |
12.65 |
0.0765 |
|
101.64 |
611.13 |
611.13 |
5909.44 |
4518.94 |
32.76 |
4.22 |
2. Оценка параметров уравнения регрессии
2.1 Значимость коэффициента корреляции
Для того чтобы при уровне значимости б проверить нулевую гипотезу о равенстве нулю генерального коэффициента корреляции нормальной двумерной случайной величины при конкурирующей гипотезе H1 ? 0, надо вычислить наблюдаемое значение критерия
и по таблице критических точек распределения Стьюдента, по заданному уровню значимости б и числу степеней свободы k = n - 2 найти критическую точку tкрит двусторонней критической области. Если tнабл < tкрит оснований отвергнуть нулевую гипотезу. Если |tнабл| > tкрит -- нулевую гипотезу отвергают.
По таблице Стьюдента с уровнем значимости б=0.05 и степенями свободы k=8 находим tкрит: tкрит (n-m-1;б/2) = (8;0.025) = 2.306
где m = 1 - количество объясняющих переменных.
Если tнабл > tкритич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается).
Поскольку tнабл < tкрит, то принимаем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - не значим
В парной линейной регрессии t2r = t2b и тогда проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.
2.2 Интервальная оценка для коэффициента корреляции (доверительный интервал)
Доверительный интервал для коэффициента корреляции
r(-0.0726;1.04)
2.3 Анализ точности определения оценок коэффициентов регрессии
Несмещенной оценкой дисперсии возмущений является величина:
S2y = 564.87 - необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).
Sy = 23.77 - стандартная ошибка оценки (стандартная ошибка регрессии).
Sa - стандартное отклонение случайной величины a.
Sb - стандартное отклонение случайной величины b.
2.4 Доверительные интервалы для зависимой переменной
Индивидуальные доверительные интервалы для Y при данном значении X.
(a + bxi ± е)
Где
tкрит (n-m-1;б/2) = (8;0.025) = 2.306
Таблица
xi |
y = -5.11 + 6.52xi |
еi |
ymin = y - еi |
ymax = y + еi |
|
8.25 |
48.64 |
60.33 |
-11.69 |
108.98 |
|
10.24 |
61.61 |
57.49 |
4.12 |
119.09 |
|
9.31 |
55.55 |
58.06 |
-2.51 |
113.61 |
|
11.01 |
66.63 |
58.05 |
8.58 |
124.67 |
|
8.54 |
50.53 |
59.55 |
-9.02 |
110.08 |
|
7.51 |
43.82 |
62.85 |
-19.03 |
106.67 |
|
12.36 |
75.42 |
61.21 |
14.21 |
136.63 |
|
10.81 |
65.32 |
57.81 |
7.51 |
123.14 |
|
9.89 |
59.33 |
57.54 |
1.79 |
116.87 |
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.
2.5 Проверка гипотез относительно коэффициентов линейного уравнения регрессии
1) t-статистика. Критерий Стьюдента.
tкрит (n-m-1;б/2) = (8;0.025) = 2.306
Поскольку 1.57 < 2.306, то статистическая значимость коэффициента регрессии b не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в данном случае коэффициентом b можно пренебречь.
Поскольку 0.12 < 2.306, то статистическая значимость коэффициента регрессии a не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в данном случае коэффициентом a можно пренебречь.
Доверительный интервал для коэффициентов уравнения регрессии.
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(b - tкрит Sb; b + tкрит Sb)
(6.52 - 2.306 * 4.15; 6.52 + 2.306 * 4.15)
(-3.06;16.09)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
Так как точка 0 (ноль) лежит внутри доверительного интервала, то интервальная оценка коэффициента b статистически незначима.
(a - tкрит Sa; a + tкрит Sa)
(-5.11 - 2.306 * 42.87; -5.11 + 2.306 * 42.87)
(-103.97;93.75)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
2) F-статистика. Критерий Фишера.
Табличное значение критерия со степенями свободы k1=1 и k2=8, Fтабл = 5.32
Поскольку фактическое значение F < Fтабл, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).
Задача 19
Используя данные, приведенные в таблице: построить линейное уравнение множественной регрессии;
1) оценить значимость параметров данного уравнения и построить доверительные интервалы для каждого из параметров, оценить значимость уравнения в целом, пояснить экономический смысл полученных результатов;
2) рассчитать линейные коэффициенты частной корреляции и коэффициент множественной детерминации, сравнить их с линейными коэффициентами парной корреляции, пояснить различия между ними;
3) вычислить прогнозное значение у при уменьшении вектора х на 6 % от максимального уровня, оценить ошибку прогноза и построить доверительный интервал прогноза;
Страна |
Средняя продолжительность жизни, лет, У |
ВВП в паритетах покупательной способности, X1 |
Темпы прироста населения по сравнению с предыдущим годом, %,х2 |
|
Мозамбик |
47 |
3,0 |
2,6 |
|
Бурунди |
49 |
2,3 |
2,6 |
|
Чад |
48 |
2,6 |
2,5 |
|
Непал |
55 |
4,3 |
2,5 |
|
Буркина-Фасо |
49 |
2,9 |
2,8 |
|
Мадагаскар |
52 |
2,4 |
3,1 |
|
Бангладеш |
58 |
5,1 |
1,6 |
|
Гаити |
57 |
3,4 |
2,0 |
|
Мали |
50 |
2,0 |
2,9 |
|
Нигерия |
53 |
4,5 |
2,9 |
|
Кения |
58 |
5,1 |
2,7 |
|
Того |
56 |
4,2 |
3,0 |
1. Оценка уравнения регрессии
Определим вектор оценок коэффициентов регрессии. Согласно методу наименьших квадратов, вектор s получается из выражения:
s = (XTX)-1XTY
Матрица X
1 |
3 |
2.6 |
|
1 |
2.3 |
2.6 |
|
1 |
2.6 |
2.5 |
|
1 |
4.3 |
2.5 |
|
1 |
2.9 |
2.8 |
|
1 |
2.4 |
3.1 |
|
1 |
5.1 |
1.6 |
|
1 |
3.4 |
2 |
|
1 |
2 |
2.9 |
|
1 |
4.5 |
2.9 |
|
1 |
5.1 |
2.7 |
|
1 |
4.2 |
3 |
Матрица Y
47 |
|
49 |
|
48 |
|
55 |
|
49 |
|
52 |
|
58 |
|
57 |
|
50 |
|
53 |
|
58 |
|
56 |
Матрица XT
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
|
3 |
2.3 |
2.6 |
4.3 |
2.9 |
2.4 |
5.1 |
3.4 |
2 |
4.5 |
5.1 |
4.2 |
|
2.6 |
2.6 |
2.5 |
2.5 |
2.8 |
3.1 |
1.6 |
2 |
2.9 |
2.9 |
2.7 |
3 |
Умножаем матрицы, (XTX)
В матрице, (XTX) число 12, лежащее на пересечении 1-й строки и 1-го столбца, получено как сумма произведений элементов 1-й строки матрицы XT и 1-го столбца матрицы X
Умножаем матрицы, (XTY)
Находим обратную матрицу (XTX)-1
6.43 |
-0.5 |
-1.76 |
|
-0.5 |
0.085 |
0.0803 |
|
-1.76 |
0.0803 |
0.57 |
Вектор оценок коэффициентов регрессии равен
s = (XTX)-1XTY =
Уравнение регрессии (оценка уравнения регрессии)
Y = 46.12 + 2.75X1-1.16X2
2. Матрица парных коэффициентов корреляции
Число наблюдений n = 12. Число независимых переменных в модели равно 2, а число регрессоров с учетом единичного вектора равно числу неизвестных коэффициентов. С учетом признака Y, размерность матрицы становится равным 4. Матрица, независимых переменных Х имеет размерность (12 х 4).
Матрица, составленная из Y и X
1 |
47 |
3 |
2.6 |
|
1 |
49 |
2.3 |
2.6 |
|
1 |
48 |
2.6 |
2.5 |
|
1 |
55 |
4.3 |
2.5 |
|
1 |
49 |
2.9 |
2.8 |
|
1 |
52 |
2.4 |
3.1 |
|
1 |
58 |
5.1 |
1.6 |
|
1 |
57 |
3.4 |
2 |
|
1 |
50 |
2 |
2.9 |
|
1 |
53 |
4.5 |
2.9 |
|
1 |
58 |
5.1 |
2.7 |
|
1 |
56 |
4.2 |
3 |
Транспонированная матрица.
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
|
47 |
49 |
48 |
55 |
49 |
52 |
58 |
57 |
50 |
53 |
58 |
56 |
|
3 |
2.3 |
2.6 |
4.3 |
2.9 |
2.4 |
5.1 |
3.4 |
2 |
4.5 |
5.1 |
4.2 |
|
2.6 |
2.6 |
2.5 |
2.5 |
2.8 |
3.1 |
1.6 |
2 |
2.9 |
2.9 |
2.7 |
3 |
Матрица ATA.
12 |
632 |
41.8 |
31.2 |
|
632 |
33466 |
2241 |
1635.6 |
|
41.8 |
2241 |
159.18 |
106.77 |
|
31.2 |
1635.6 |
106.77 |
83.14 |
Полученная матрица имеет следующее соответствие:
?n |
?y |
?x1 |
?x2 |
|
?y |
?y2 |
?x1 y |
?x2 y |
|
?x1 |
?yx1 |
?x1 2 |
?x2 x1 |
|
?x2 |
?yx2 |
?x1 x2 |
?x2 2 |
Найдем парные коэффициенты корреляции.
Признаки x и y |
?xi |
?yi |
?xiyi |
||||
Для y и x1 |
41.8 |
3.48 |
632 |
52.67 |
2241 |
186.75 |
|
Для y и x2 |
31.2 |
2.6 |
632 |
52.67 |
1635.6 |
136.3 |
|
Для x1 и x2 |
31.2 |
2.6 |
41.8 |
3.48 |
106.77 |
8.9 |
Признаки x и y |
||||||
Для y и x1 |
1.13 |
15.06 |
1.06 |
3.88 |
0.8 |
|
Для y и x2 |
0.17 |
15.06 |
0.41 |
3.88 |
-0.4 |
|
Для x1 и x2 |
0.17 |
1.13 |
0.41 |
1.06 |
-0.36 |
Матрица парных коэффициентов корреляции.
- |
y |
x1 |
x2 |
|
y |
1 |
0.8 |
-0.4 |
|
x1 |
0.8 |
1 |
-0.36 |
|
x2 |
-0.4 |
-0.36 |
1 |
Для отбора наиболее значимых факторов xi учитываются следующие условия:
- связь между результативным признаком и факторным должна быть выше межфакторной связи;
- связь между факторами должна быть не более 0.7. Если в матрице есть межфакторный коэффициент корреляции rxjxi > 0.7, то в данной модели множественной регрессии существует мультиколлинеарность.;
- при высокой межфакторной связи признака отбираются факторы с меньшим коэффициентом корреляции между ними.
В нашем случае все парные коэффициенты корреляции |r|<0.7, что говорит об отсутствии мультиколлинеарности факторов.
Анализ первой строки этой матрицы позволяет произвести отбор факторных признаков, которые могут быть включены в модель множественной корреляционной зависимости. Факторные признаки, у которых |ryxi| < 0.5 исключают из модели. Можно дать следующую качественную интерпретацию возможных значений коэффициента корреляции (по шкале Чеддока): если |r|>0.3 - связь практически отсутствует; 0.3 ? |r| ? 0.7 - связь средняя; 0.7 ? |r| ? 0.9 - связь сильная; |r| > 0.9 - связь весьма сильная.
Проверим значимость полученных парных коэффициентов корреляции с помощью t-критерия Стьюдента. Коэффициенты, для которых значения t-статистики по модулю больше найденного критического значения, считаются значимыми.
Рассчитаем наблюдаемые значения t-статистики для ryx1 по формуле:
где m = 1 - количество факторов в уравнении регрессии.
По таблице Стьюдента находим Tабл
tкрит(n-m-1;б/2) = (10;0.025) = 2.228
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим
Рассчитаем наблюдаемые значения t-статистики для ryx2 по формуле:
Поскольку tнабл < tкрит, то принимаем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - не значим
Таким образом, связь между (y и xx1 ) является существенной.
Наибольшее влияние на результативный признак оказывает фактор x1 (r = 0.8), значит, при построении модели он войдет в регрессионное уравнение первым.
Частные коэффициенты корреляции.
Коэффициент частной корреляции отличается от простого коэффициента линейной парной корреляции тем, что он измеряет парную корреляцию соответствующих признаков (y и xi) при условии, что влияние на них остальных факторов (xj) устранено.
На основании частных коэффициентов можно сделать вывод об обоснованности включения переменных в регрессионную модель. Если значение коэффициента мало или он незначим, то это означает, что связь между данным фактором и результативной переменной либо очень слаба, либо вовсе отсутствует, поэтому фактор можно исключить из модели.
Теснота связи низкая.
Определим значимость коэффициента корреляции ryx2 /x1 .
Для этого рассчитаем наблюдаемые значения t-статистики по формуле:
Поскольку tнабл < tкрит, то принимаем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - не значим
Как видим, связь y и x2 при условии, что x1 войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x2 остается нецелесообразным.
Можно сделать вывод, что при построении регрессионного уравнения следует отобрать факторы x1 .
Модель регрессии в стандартном масштабе.
Модель регрессии в стандартном масштабе предполагает, что все значения исследуемых признаков переводятся в стандарты (стандартизованные значения) по формулам:
где хji - значение переменной хji в i-ом наблюдении.
Таким образом, начало отсчета каждой стандартизованной переменной совмещается с ее средним значением, а в качестве единицы изменения принимается ее среднее квадратическое отклонение S.
Если связь между переменными в естественном масштабе линейная, то изменение начала отсчета и единицы измерения этого свойства не нарушат, так что и стандартизованные переменные будут связаны линейным соотношением:
ty = ?вjtxj
Для оценки в-коэффциентов применим МНК. При этом система нормальных уравнений будет иметь вид:
rx1y=в1+rx1x2*в2 + ... + rx1xm*вm
rx2y=rx2x1*в1 + в2 + ... + rx2xm*вm
...
rxmy=rxmx1*в1 + rxmx2*в2 + ... + вm
Для наших данных (берем из матрицы парных коэффициентов корреляции):
0.798 = в1 -0.365в2
-0.398 = -0.365в1 + в2
Данную систему линейных уравнений решаем методом Гаусса: в1 = 0.753; в2 = -0.123;
Стандартизированная форма уравнения регрессии имеет вид:
y0 = 0.753x1 -0.123x2
Найденные из данной системы в-коэффициенты позволяют определить значения коэффициентов в регрессии в естественном масштабе по формулам:
3. Анализ параметров уравнения регрессии
Перейдем к статистическому анализу полученного уравнения регрессии: проверке значимости уравнения и его коэффициентов, исследованию абсолютных и относительных ошибок аппроксимации
Для несмещенной оценки дисперсии проделаем следующие вычисления:
Несмещенная ошибка (абсолютная ошибка аппроксимации)
е = Y - Y(x) = Y - X*s
Y |
Y(x) |
е = Y - Y(x) |
е2 |
(Y-Yср)2 |
|
47 |
51.34 |
-4.34 |
18.82 |
32.11 |
|
49 |
49.41 |
-0.41 |
0.17 |
13.44 |
|
48 |
50.36 |
-2.36 |
5.55 |
21.78 |
|
55 |
55.03 |
-0.0274 |
0.000748 |
5.44 |
|
49 |
50.83 |
-1.83 |
3.35 |
13.44 |
|
52 |
49.11 |
2.89 |
8.37 |
0.44 |
|
58 |
58.27 |
-0.27 |
0.0747 |
28.44 |
|
57 |
53.14 |
3.86 |
14.93 |
18.78 |
|
50 |
48.24 |
1.76 |
3.09 |
7.11 |
|
53 |
55.11 |
-2.11 |
4.46 |
0.11 |
|
58 |
56.99 |
1.01 |
1.01 |
28.44 |
|
56 |
54.17 |
1.83 |
3.35 |
11.11 |
|
0 |
63.18 |
180.67 |
se2 = (Y - X*s)T(Y - X*s) = 63.18
Несмещенная оценка дисперсии равна:
Оценка среднеквадратичного отклонения равна (стандартная ошибка для оценки Y):
Найдем оценку ковариационной матрицы вектора
k = S * (XTX)-1
Дисперсии параметров модели определяются соотношением S2i = Kii, т.е. это элементы, лежащие на главной диагонали
Показатели тесноты связи факторов с результатом.
Если факторные признаки различны по своей сущности и (или) имеют различные единицы измерения, то коэффициенты регрессии bj при разных факторах являются несопоставимыми. Поэтому уравнение регрессии дополняют соизмеримыми показателями тесноты связи фактора с результатом, позволяющими ранжировать факторы по силе влияния на результат.
К таким показателям тесноты связи относят: частные коэффициенты эластичности, в-коэффициенты, частные коэффициенты корреляции.
Частные коэффициенты эластичности.
С целью расширения возможностей содержательного анализа модели регрессии используются частные коэффициенты эластичности, которые определяются по формуле:
Частный коэффициент эластичности показывает, насколько процентов в среднем изменяется признак-результат у с увеличением признака-фактора хj на 1% от своего среднего уровня при фиксированном положении других факторов модели.
Частный коэффициент эластичности |E1| < 1. Следовательно, его влияние на результативный признак Y незначительно.
Частный коэффициент эластичности |E2| < 1. Следовательно, его влияние на результативный признак Y незначительно.
Стандартизированные частные коэффициенты регрессии.
Стандартизированные частные коэффициенты регрессии - в-коэффициенты (вj) показывают, на какую часть своего среднего квадратического отклонения S(у) изменится признак-результат y с изменением соответствующего фактора хj на величину своего среднего квадратического отклонения (Sхj) при неизменном влиянии прочих факторов (входящих в уравнение).
По максимальному вj можно судить, какой фактор сильнее влияет на результат Y.
По коэффициентам эластичности и в-коэффициентам могут быть сделаны противоположные выводы. Причины этого: а) вариация одного фактора очень велика; б) разнонаправленное воздействие факторов на результат.
Коэффициент вj может также интерпретироваться как показатель прямого (непосредственного) влияния j-ого фактора (xj) на результат (y). Во множественной регрессии j-ый фактор оказывает не только прямое, но и косвенное (опосредованное) влияние на результат (т.е. влияние через другие факторы модели).
Косвенное влияние измеряется величиной: ?вirxj,xi, где m - число факторов в модели. Полное влияние j-ого фактора на результат равное сумме прямого и косвенного влияний измеряет коэффициент линейной парной корреляции данного фактора и результата - rxj,y.
Так для нашего примера непосредственное влияние фактора x1 на результат Y в уравнении регрессии измеряется вj и составляет 0.75334300474875; косвенное (опосредованное) влияние данного фактора на результат определяется как:
rx1x2в2 = -0.364721286281 * -0.12307102183655 = 0.04489
Сравнительная оценка влияния анализируемых факторов на результативный признак.
Сравнительная оценка влияния анализируемых факторов на результативный признак производится:
- средним коэффициентом эластичности, показывающим на сколько процентов среднем по совокупности изменится результат y от своей средней величины при изменении фактора xi на 1% от своего среднего значения;
- в-коэффициенты, показывающие, что, если величина фактора изменится на одно среднеквадратическое отклонение Sxi, то значение результативного признака изменится в среднем на в своего среднеквадратического отклонения;
- долю каждого фактора в общей вариации результативного признака определяют коэффициенты раздельной детерминации (отдельного определения):
d2i = ryxiвi.
d21 = 0.8 * 0.753 = 0.6
d22 = -0.4 * (-0.123) = 0.049
При этом должно выполняться равенство:
?d2i = R2 = 0.65
4. Множественный коэффициент корреляции (Индекс множественной корреляции)
Тесноту совместного влияния факторов на результат оценивает индекс множественной корреляции.
В отличии от парного коэффициента корреляции, который может принимать отрицательные значения, он принимает значения от 0 до 1.
Поэтому R не может быть использован для интерпретации направления связи. Чем плотнее фактические значения yi располагаются относительно линии регрессии, тем меньше остаточная дисперсия и, следовательно, больше величина Ry(x1,...,xm).
Таким образом, при значении R близком к 1, уравнение регрессии лучше описывает фактические данные и факторы сильнее влияют на результат. При значении R близком к 0 уравнение регрессии плохо описывает фактические данные и факторы оказывают слабое воздействие на результат.
Связь между признаком Y факторами X сильная
Коэффициент детерминации.
R2= 0.812 = 0.65
5. Проверка гипотез относительно коэффициентов уравнения регрессии (проверка значимости параметров множественного уравнения регрессии)
Число v = n - m - 1 называется числом степеней свободы. Считается, что при оценивании множественной линейной регрессии для обеспечения статистической надежности требуется, чтобы число наблюдений, по крайней мере, в 3 раза превосходило число оцениваемых параметров.
1) t-статистика
Tтабл (n-m-1;б/2) = (9;0.025) = 2.262
Находим стандартную ошибку коэффициента регрессии b0:
Статистическая значимость коэффициента регрессии b0 подтверждается.
Находим стандартную ошибку коэффициента регрессии b1:
Статистическая значимость коэффициента регрессии b1 подтверждается.
Находим стандартную ошибку коэффициента регрессии b2:
Статистическая значимость коэффициента регрессии b2 не подтверждается.
Доверительный интервал для коэффициентов уравнения регрессии.
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(bi - ti Sbi; bi + ti Sbi)
b0: (46.12 - 2.262 * 4.13 ; 46.12 + 2.262 * 4.13) = (36.78;55.46)
b1: (2.75 - 2.262 * 0.47 ; 2.75 + 2.262 * 0.47) = (1.67;3.82)
b2: (-1.16 - 2.262 * 1.23 ; -1.16 + 2.262 * 1.23) = (-3.95;1.62)
6. Проверка общего качества уравнения множественной регрессии
Оценка значимости уравнения множественной регрессии осуществляется путем проверки гипотезы о равенстве нулю коэффициент детерминации рассчитанного по данным генеральной совокупности: R2 или b1 = b2 =... = bm = 0 (гипотеза о незначимости уравнения регрессии, рассчитанного по данным генеральной совокупности).
Для ее проверки используют F-критерий Фишера.
При этом вычисляют фактическое (наблюдаемое) значение F-критерия, через коэффициент детерминации R2, рассчитанный по данным конкретного наблюдения.
По таблицам распределения Фишера-Снедоккора находят критическое значение F-критерия (Fкр). Для этого задаются уровнем значимости б (обычно его берут равным 0,05) и двумя числами степеней свободы k1=m и k2=n-m-1.
2) F-статистика. Критерий Фишера
Чем ближе этот коэффициент к единице, тем больше уравнение регрессии объясняет поведение Y.
Более объективной оценкой является скорректированный коэффициент детерминации:
Добавление в модель новых объясняющих переменных осуществляется до тех пор, пока растет скорректированный коэффициент детерминации.
Проверим гипотезу об общей значимости - гипотезу об одновременном равенстве нулю всех коэффициентов регрессии при объясняющих переменных:
H0: в1 = в2 = ... = вm = 0.
Проверка этой гипотезы осуществляется с помощью F-статистики распределения Фишера.
Если F < Fkp = Fб ; n-m-1, то нет оснований для отклонения гипотезы H0.
Табличное значение при степенях свободы k1 = 2 и k2 = n-m-1 = 12 - 2 - 1 = 9, Fkp(2;9) = 4.26
Поскольку фактическое значение F > Fkp, то коэффициент детерминации статистически значим и уравнение регрессии статистически надежно
Оценка значимости дополнительного включения фактора (частный F-критерий).
Необходимость такой оценки связана с тем, что не каждый фактор, вошедший в модель, может существенно увеличить долю объясненной вариации результативного признака. Это может быть связано с последовательностью вводимых факторов (т. к. существует корреляция между самими факторами).
Мерой оценки значимости улучшения качества модели, после включения в нее фактора хj, служит частный F-критерий - Fxj:
где m - число оцениваемых параметров.
В числителе - прирост доли вариации у за счет дополнительно включенного в модель фактора хj.
Если наблюдаемое значение Fxj больше Fkp, то дополнительное введение фактора xj в модель статистически оправдано.
Частный F-критерий оценивает значимость коэффициентов «чистой» регрессии (bj). Существует взаимосвязь между частным F-критерием - Fxj и t-критерием, используемым для оценки значимости коэффициента регрессии при j-м факторе:
Оценим с помощью частного F-критерия:
1) целесообразность включения в модель регрессии факторов х1 после введения хj (Fx1).
Определим наблюдаемое значение частного F-критерия:
R2(x2,xn = r2(x2) = -0.39782 = 0.158
Fkp(k1=1;k2=9) = 5.12
Сравним наблюдаемое значение частного F-критерия с критическим:
Fx1>5.12, следовательно, фактор х1 целесообразно включать в модель после введения факторов хj.
2) целесообразность включения в модель регрессии факторов х2 после введения хj (Fx2).
Определим наблюдаемое значение частного F-критерия:
R2(x1,xn = r2(x1) = 0.79822 = 0.637
Сравним наблюдаемое значение частного F-критерия с критическим:
Fx2>5.12, следовательно, фактор х2 целесообразно включать в модель после введения факторов хj.
Задача 30
Используя данные, представленные в таблице задачи соответствующего варианта проверить наличие гетероскедастичности, используя тест Голдфелда-Куандта.
Страна |
Ожидаемая продолжительность жизни при рождении в 1995 г., лет, X |
ВВП в паритетах покупательной способности, У |
|
Никарагуа |
68 |
7,4 |
|
Гана |
59 |
7,4 |
|
Ангола |
47 |
4,9 |
|
Пакистан |
60 |
8,3 |
|
Мавритания |
51 |
5,7 |
|
Зимбабве |
57 |
7,5 |
|
Гондурас |
67 |
7,0 |
|
Китай |
69 |
10,8 |
|
Камерун |
57 |
7,8 |
|
Конго |
51 |
7,6 |
|
Шри-Ланка |
72 |
12,1 |
|
Египет |
63 |
14,2 |
|
Индонезия |
64 |
14,1 |
|
Филиппины |
66 |
10,6 |
|
Марокко |
65 |
12,4 |
|
Папуа - Новая Гвинея |
57 |
9,0 |
|
Гватемала |
66 |
12,4 |
|
Эквадор |
69 |
15,6 |
|
Доминиканская |
71 |
14,3 |
|
Республика Ямайка |
74 |
13,1 |
|
Алжир |
70 |
19,6 |
|
Республика Эль-Сальвадор |
67 |
9,7 |
|
Парагвай |
68 |
13,5 |
|
Тунис |
69 |
18,5 |
|
Белоруссия |
70 |
15,6 |
|
Перу |
66 |
14,0 |
|
Таиланд |
69 |
28,0 |
|
Панама |
73 |
22,2 |
|
Турция |
67 |
20,7 |
|
Польша |
70 |
20,0 |
В данном случае предполагается, что стандартное отклонение уi = у(еi) пропорционально значению xi переменной X в этом наблюдении, т.е. у2i = у2x2i , i = 1,2,…,n.
Тест Голдфелда-Квандта состоит в следующем:
1. Все n наблюдений упорядочиваются по величине X.
2. Вся упорядоченная выборка после этого разбивается на три подвыборки размерностей k,(n-2k),k.
3. Оцениваются отдельные регрессии для первой подвыборки (k первых наблюдений) и для третьей подвыборки (k последних наблюдений).
4. Для сравнения соответствующих дисперсий строится соответствующая F-статистика:
F = S3/S1
Построенная F-статистика имеет распределение Фишера с числом степеней свободы v1 = v2 = n - m - 1.
5. Если F > Fkp, то гипотеза об отсутствии гетероскедастичности отклоняется.
Этот же тест может использоваться при предположении об обратной пропорциональности между уi и значениями объясняющей переменной. При этом статистика Фишера имеет вид:
F = S1/S3
1. Упорядочим все значения по величине X.
2. Находим размер подвыборки k = 30/3 = 11.
3. Оценим регрессию для первой подвыборки.
Находим параметры уравнения методом наименьших квадратов.
Система уравнений МНК:
a0n + a1?x = ?y
a0?x + a1?x2 = ?y*x
Для наших данных система уравнений имеет вид:
11a0 + 631a1 = 98.9
631a0 + 36529a1 = 5831.3
Из первого уравнения выражаем а0 и подставим во второе уравнение
Получаем a0 = 0.48, a1 = -18.27
x |
y |
x2 |
y2 |
x * y |
y(x) |
(y-y(x))2 |
|
47 |
4.9 |
2209 |
24.01 |
230.3 |
4.07 |
0.7 |
|
51 |
5.7 |
2601 |
32.49 |
290.7 |
5.97 |
0.0711 |
|
51 |
7.6 |
2601 |
57.76 |
387.6 |
5.97 |
2.67 |
|
57 |
7.5 |
3249 |
56.25 |
427.5 |
8.82 |
1.74 |
|
57 |
7.8 |
3249 |
60.84 |
444.6 |
8.82 |
1.04 |
|
57 |
9 |
3249 |
81 |
513 |
8.82 |
0.033 |
|
59 |
7.4 |
3481 |
54.76 |
436.6 |
9.77 |
5.61 |
|
60 |
8.3 |
3600 |
68.89 |
498 |
10.24 |
3.78 |
|
63 |
14.2 |
3969 |
201.64 |
894.6 |
11.67 |
6.4 |
|
64 |
14.1 |
4096 |
198.81 |
902.4 |
12.14 |
3.82 |
|
65 |
12.4 |
4225 |
153.76 |
806 |
12.62 |
0.0483 |
|
631 |
98.9 |
36529 |
990.21 |
5831.3 |
98.9 |
25.9 |
Здесь S1 = 25.9
Оценим регрессию для третьей подвыборки.
Находим параметры уравнения методом наименьших квадратов.
Система уравнений МНК:
a0n + a1?x = ?y
a0?x + a1?x2 = ?y*x
Для наших данных система уравнений имеет вид:
11a0 + 776a Расчет линейного коэффициента парной и частной корреляции. Статистическая значимость параметров регрессии и корреляции. Анализ корреляционного поля данных. Точность прогноза, расчет ошибки и доверительный интервал. Коэффициент множественной детерминации. Основные параметры уравнения регрессии, оценка их параметров и значимость. Интервальная оценка для коэффициента корреляции. Анализ точности определения оценок коэффициентов регрессии. Показатели качества уравнения регрессии, прогнозирование данных. Определение параметров линейной регрессии и корреляции с использованием формул и табличного процессора MS Excel. Методика расчета показателей парной нелинейной регрессии и корреляции. Вычисление значений линейных коэффициентов множественной детерминации. Параметры парной линейной, линейно-логарифмической функции. Оценка статистической надёжности. Ошибка положения регрессии. Расчёт бета коэффициентов, уравнение множественной регрессии в стандартизованном масштабе. Задача на определение тесноты связи рядов. Оценка корреляционной матрицы факторных признаков. Оценки собственных чисел матрицы парных коэффициентов корреляции. Анализ полученного уравнения регрессии, определение значимости уравнения и коэффициентов регрессии, их экономическая интерпретация. Параметры уравнения линейной регрессии. Вычисление остаточной суммы квадратов, оценка дисперсии остатков. Осуществление проверки значимости параметров уравнения регрессии с помощью критерия Стьюдента. Расчет коэффициентов детерминации и эластичности. Построение линейного уравнения парной регрессии, расчет линейного коэффициента парной корреляции и средней ошибки аппроксимации. Определение коэффициентов корреляции и эластичности, индекса корреляции, суть применения критерия Фишера в эконометрике. Построение поля корреляции и формулировка гипотезы о линейной форме связи. Расчет уравнений различных регрессий. Расчет коэффициентов эластичности, корреляции, детерминации и F-критерия Фишера. Расчет прогнозного значения результата и его ошибки. Построение линейной модели и уравнения регрессии зависимости цены на квартиры на вторичном рынке жилья в Москве в 2006 г. от влияющих факторов. Методика составления матрицы парных коэффициентов корреляции. Экономическая интерпретация модели регрессии. Параметры уравнений линейной парной регрессии. Показатели корреляции и детерминации. Изменение средней заработной платы и выплат социального характера. Средняя ошибка аппроксимации. Коэффициент эластичности и стоимость активных производственных фондов. Экономическая интерпретация коэффициента регрессии. Нахождение статочной суммы квадратов и оценка дисперсии остатков. Проверка значимости параметров уравнения регрессии с помощью t-критерия Стьюдента. Расчет средней относительной ошибки аппроксимации. Факторы, формирующие цену квартир в строящихся домах в Санкт-Петербурге. Составление матрицы парных коэффициентов корреляции исходных переменных. Тестирование ошибок уравнения множественной регрессии на гетероскедастичность. Тест Гельфельда-Квандта. Расчет параметров парной линейной регрессии. Оценка статистической значимости уравнения регрессии и его параметров с помощью критериев Фишера и Стьюдента. Построение матрицы парных коэффициентов корреляции. Статистический анализ с помощью ППП MS EXCEL. Анализ метода наименьших квадратов для парной регрессии, как метода оценивания параметров линейной регрессии. Рассмотрение линейного уравнения парной регрессии. Исследование множественной линейной регрессии. Изучение ошибок коэффициентов регрессии. Построение поля корреляции, расчет уравнений линейной парной регрессии, на основе данных о заработной плате и потребительских расходах в расчете на душу населения. Анализ коэффициента эластичности, имея уравнение регрессии себестоимости единицы продукции. Построение поля корреляции и формулирование гипотезы о форме связи. Параметры уравнений линейной, степенной и гиперболической регрессии. Оценка тесноты связи с помощью показателей корреляции и детерминации. Оценка средней ошибки аппроксимации уравнения. Параметры уравнения и экономическое толкование коэффициента линейной регрессии. Расчет коэффициентов детерминации и средних относительных ошибок аппроксимации. Построение структурной формы модели с использованием косвенного метода наименьших квадратов. Эконометрическое моделирование стоимости квартир в московской области. Матрица парных коэффициентов корреляции. Расчет параметров линейной парной регрессии. Исследование динамики экономического показателя на основе анализа одномерного временного ряда. Построение доверительного интервала для коэффициента регрессии. Определение ошибки аппроксимации, индекса корреляции и F-критерия Фишера. Оценка эластичности изменения материалоемкости продукции. Построение линейного уравнения множественной регрессии. Описание классической линейной модели множественной регрессии. Анализ матрицы парных коэффициентов корреляции на наличие мультиколлинеарности. Оценка модели парной регрессии с наиболее значимым фактором. Графическое построение интервала прогноза.
Подобные документы
контрольная работа [155,8 K], добавлен 11.12.2010
контрольная работа [222,5 K], добавлен 08.05.2014
контрольная работа [110,4 K], добавлен 28.07.2012
контрольная работа [192,2 K], добавлен 23.06.2012
контрольная работа [994,1 K], добавлен 29.06.2013
контрольная работа [248,4 K], добавлен 26.12.2010
контрольная работа [141,3 K], добавлен 05.05.2010
контрольная работа [681,9 K], добавлен 03.08.2010
лабораторная работа [1,8 M], добавлен 25.05.2009
контрольная работа [1,1 M], добавлен 23.06.2011
контрольная работа [261,1 K], добавлен 23.03.2010
контрольная работа [1,2 M], добавлен 14.05.2015
контрольная работа [1,6 M], добавлен 14.05.2008
контрольная работа [108,5 K], добавлен 28.03.2018
контрольная работа [817,3 K], добавлен 01.04.2010
контрольная работа [136,3 K], добавлен 25.09.2014
контрольная работа [99,2 K], добавлен 27.04.2011
контрольная работа [298,2 K], добавлен 19.01.2011
контрольная работа [250,5 K], добавлен 11.04.2015
курсовая работа [243,1 K], добавлен 17.01.2016