Определение параметров и анализ уравнения парной линейной регрессии
Расчет линейного коэффициента парной корреляции, коэффициента детерминации и ошибки аппроксимации. Определение значимости параметров регрессии с помощью F-критерия Фишера и t-критерия Стьюдента. Скорректированный коэффициент множественной детерминации.
Рубрика | Математика |
Вид | контрольная работа |
Язык | русский |
Дата добавления | 27.04.2017 |
Размер файла | 344,3 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Задача 1
По территориям региона приводятся данные за 201X г. (p1 - число букв в имени, p2 - число букв в имени)
Номер региона |
Среднедушевой прожиточный минимум в день одного трудоспособного, руб., |
Среднедневная заработная плата, руб., |
|
1 |
84 |
139 |
|
2 |
86 |
148 |
|
3 |
87 |
141 |
|
4 |
79 |
154 |
|
5 |
106 |
163 |
|
6 |
112 |
195 |
|
7 |
67 |
139 |
|
8 |
98 |
164 |
|
9 |
79 |
152 |
|
10 |
87 |
162 |
|
11 |
86 |
152 |
|
12 |
116 |
173 |
Требуется:
1. Построить линейное уравнение парной регрессии y по x .
2. Рассчитать линейный коэффициент парной корреляции, коэффициент детерминации и среднюю ошибку аппроксимации.
3. Оценить статистическую значимость параметров регрессии в целом и отдельных параметров регрессии и корреляции с помощью F-критерия Фишера и t-критерия Стьюдента.
4. Выполнить прогноз заработной платы y при прогнозном значении среднедушевого прожиточного минимума x, составляющем 107% от среднего уровня.
5. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.
6. На одном графике построить исходные данные и теоретическую прямую.
7. Проверить вычисления в MS Excel.
Решение:
Рассчитаем параметры уравнений линейной парной регрессии.
Для расчета параметров a и b линейной регрессии систему нормальных уравнений относительно а и b:
Для определения следующих данных: , , , , , составим вспомогательную таблицу 1.
1 |
84 |
139 |
11676 |
7056 |
19321 |
150,90 |
-11,90 |
8,56 |
|
2 |
86 |
148 |
12728 |
7396 |
21904 |
152,70 |
-4,70 |
3,18 |
|
3 |
87 |
141 |
12267 |
7569 |
19881 |
153,60 |
-12,60 |
8,94 |
|
4 |
79 |
154 |
12166 |
6241 |
23716 |
146,39 |
7,61 |
4,94 |
|
5 |
106 |
163 |
17278 |
11236 |
26569 |
170,74 |
-7,74 |
4,75 |
|
6 |
112 |
195 |
21840 |
12544 |
38025 |
176,15 |
18,85 |
9,67 |
|
7 |
67 |
139 |
9313 |
4489 |
19321 |
135,56 |
3,44 |
2,47 |
|
8 |
98 |
164 |
16072 |
9604 |
26896 |
163,52 |
0,48 |
0,29 |
|
9 |
79 |
152 |
12008 |
6241 |
23104 |
146,39 |
5,61 |
3,69 |
|
10 |
87 |
162 |
14094 |
7569 |
26244 |
153,60 |
8,40 |
5,18 |
|
11 |
86 |
152 |
13072 |
7396 |
23104 |
152,70 |
-0,70 |
0,46 |
|
12 |
116 |
173 |
20068 |
13456 |
29929 |
179,76 |
-6,76 |
3,91 |
|
Итого |
1087 |
1882 |
172582,00 |
100797,00 |
298014,00 |
1882,00 |
0,00 |
56,04 |
|
Среднее значение |
90,58 |
156,83 |
14381,83 |
8399,75 |
24834,50 |
156,83 |
4,67 |
||
13,943 |
15,421 |
||||||||
194,410 |
237,806 |
Рассчитываем параметр b:
Рассчитываем параметр a:
Уравнение линейной регрессии имеет вид:
Экономический смысл уравнения: С увеличением среднедушевого прожиточного минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0,90 руб.
Тесноту линейной связи оценит коэффициент корреляции:
Т.к. значение коэффициента корреляции больше 0,816, то это говорит о наличии весьма тесной линейной связи между признаками.
Коэффициент детерминации:
т.е. в 66.51% случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - средняя. Остальные 33.49% изменения Y объясняются факторами, не учтенными в модели (а также ошибками спецификации).
Это означает, что 66,51% вариации заработной платы () объясняется вариацией фактора - среднедушевого прожиточного минимума.
Качество модели определяет средняя ошибка аппроксимации:
,
В среднем, расчетные значения отклоняются от фактических на 4,67%. Поскольку ошибка меньше 7%, то данное уравнение можно использовать в качестве регрессии.
Оценку значимости уравнения регрессии в целом проведем с помощью -критерия Фишера. Фактическое значение -критерия:
Табличное значение критерия при пятипроцентном уровне значимости и степенях свободы и составляет . Так как 19,86 > 4,96, то уравнение регрессии признается статистически значимым.
Оценку статистической значимости параметров регрессии проведем с помощью -статистики Стьюдента и путем расчета доверительного интервала каждого из показателей.
Оценка значимости коэффициентов регрессии с помощью t-критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки
Табличное значение -критерия для числа степеней свободы и составит .
Определим случайные ошибки , , :
Остаточная дисперсия на одну степень свободы
ma - стандартное отклонение случайной величины a:
mb - стандартное отклонение случайной величины b.
Тогда
Поскольку 4,05 > 2.228, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
Поскольку 4,46 > 2.228, то статистическая значимость коэффициента регрессии b подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
Поскольку 4,46 > 2,228, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим.
Рассчитаем доверительные интервалы для параметров регрессии и . Для этого определим предельную ошибку для каждого показателя:
(b - tкрит mb; b + tкрит mb)
(0.9 - 2.228 * 0.2; 0.9 + 2.228 * 0.2)
(0.451;1.353)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
(a - tкрит ma; a + tкрит ma)
(75.132 - 2.228 * 18.55; 75.132 + 2.228 * 18.55)
(33.8;116.464)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что с вероятностью параметры и , находясь в указанных границах, не принимают нулевых значений, т.е. не являются статистически незначимыми и существенно отличны от нуля.
Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение прожиточного минимума составит:
тогда индивидуальное прогнозное значение заработной платы составит:
y(96.92) = 0.902*96.92 + 75.132 = 162.549
Ошибка прогноза составит:
Доверительный интервал прогноза:
162.549 ± 22.85
(139.7;185.4)
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.
Выполненный прогноз среднемесячной заработной платы является надежным () и находится в пределах от 139,7 руб. до 185,4 руб.
В заключение решения задачи построим на одном графике исходные данные и теоретическую прямую
7. Проверим вычисления в MS Excel.
Задача 2
По 20 предприятиям региона изучается зависимость выработки продукции на одного работника (тыс. руб.) от ввода в действие новых основных фондов ( от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих (%).
Номер предприятия |
Номер предприятия |
|||||||
1 |
7 |
4,2 |
11 |
11 |
9 |
6,6 |
21 |
|
2 |
7 |
3,7 |
13 |
12 |
11 |
6,4 |
22 |
|
3 |
7 |
3,9 |
15 |
13 |
9 |
6,9 |
22 |
|
4 |
7 |
4 |
17 |
14 |
11 |
7,2 |
25 |
|
5 |
7 |
4,4 |
18 |
15 |
12 |
7,4 |
28 |
|
6 |
7 |
4,8 |
19 |
16 |
12 |
8,2 |
29 |
|
7 |
8 |
5,3 |
19 |
17 |
12 |
8,1 |
30 |
|
8 |
8 |
5,4 |
20 |
18 |
12 |
8,6 |
31 |
|
9 |
8 |
5 |
20 |
19 |
14 |
9,6 |
32 |
|
10 |
10 |
6,8 |
21 |
20 |
14 |
9,6 |
36 |
линейный корреляция детерминация регрессия
Требуется:
1. Построить линейную модель множественной регрессии. Записать стандартизованное уравнение множественной регрессии. На основе стандартизованных коэффициентов регрессии и средних коэффициентов эластичности ранжировать факторы по степени их влияния на результат.
2. Найти коэффициенты парной, частной и множественной корреляции. Проанализировать их.
3. Найти скорректированный коэффициент множественной детерминации. Сравнить его с нескорректированным (общим) коэффициентом детерминации.
4. С помощью F-критерия Фишера оценить статистическую надежность уравнения регрессии и коэффициента детерминации .
5. С помощью t-критерия Стьюдента оценить статистическую значимость параметров чистой регрессии.
6. С помощью частных F-критериев Фишера оценить целесообразность включения в уравнение множественной регрессии фактора после и фактора после .
7. Составить уравнение линейной парной регрессии, оставив лишь один значащий фактор.
8. Проверить вычисления в MS Excel.
Решение:
Для удобства проведения расчетов поместим результаты промежуточных расчетов в таблицу:
№ |
||||||||||
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
|
1 |
7 |
4,2 |
11 |
29,40 |
77,0 |
46,20 |
17,64 |
121 |
49 |
|
2 |
7 |
3,7 |
13 |
25,90 |
91,0 |
48,10 |
13,69 |
169 |
49 |
|
3 |
7 |
3,9 |
15 |
27,30 |
105,0 |
58,50 |
15,21 |
225 |
49 |
|
4 |
7 |
4 |
17 |
28,00 |
119,0 |
68,00 |
16,00 |
289 |
49 |
|
5 |
7 |
4,4 |
18 |
30,80 |
126,0 |
79,20 |
19,36 |
324 |
49 |
|
6 |
7 |
4,8 |
19 |
33,60 |
133,0 |
91,20 |
23,04 |
361 |
49 |
|
7 |
8 |
5,3 |
19 |
42,40 |
152,0 |
100,70 |
28,09 |
361 |
64 |
|
8 |
8 |
5,4 |
20 |
43,20 |
160,0 |
108,00 |
29,16 |
400 |
64 |
|
9 |
8 |
5 |
20 |
40,00 |
160,0 |
100,00 |
25,00 |
400 |
64 |
|
10 |
10 |
6,8 |
21 |
68,00 |
210,0 |
142,80 |
46,24 |
441 |
100 |
|
11 |
9 |
6,6 |
21 |
59,40 |
189,0 |
138,60 |
43,56 |
441 |
81 |
|
12 |
11 |
6,4 |
22 |
70,40 |
242,0 |
140,80 |
40,96 |
484 |
121 |
|
13 |
9 |
6,9 |
22 |
62,10 |
198,0 |
151,80 |
47,61 |
484 |
81 |
|
14 |
11 |
7,2 |
25 |
79,20 |
275,0 |
180,00 |
51,84 |
625 |
121 |
|
15 |
12 |
7,4 |
28 |
88,80 |
336,0 |
207,20 |
54,76 |
784 |
144 |
|
16 |
12 |
8,2 |
29 |
98,40 |
348,0 |
237,80 |
67,24 |
841 |
144 |
|
17 |
12 |
8,1 |
30 |
97,20 |
360,0 |
243,00 |
65,61 |
900 |
144 |
|
18 |
12 |
8,6 |
31 |
103,20 |
372,0 |
266,60 |
73,96 |
961 |
144 |
|
19 |
14 |
9,6 |
32 |
134,40 |
448,0 |
307,20 |
92,16 |
1024 |
196 |
|
20 |
14 |
9,6 |
36 |
134,40 |
504,0 |
345,60 |
92,16 |
1296 |
196 |
|
Сумма |
192,00 |
126,10 |
449,00 |
1296,10 |
4605,00 |
3061,30 |
863,29 |
10931,00 |
1958,00 |
|
Ср. знач. |
9,60 |
6,31 |
22,45 |
64,81 |
230,25 |
153,07 |
43,16 |
546,55 |
97,90 |
Найдем средние квадратические отклонения признаков:
Вычисление параметров линейного уравнения множественной регрессии.
Для нахождения параметров линейного уравнения множественной регрессии
необходимо решить следующую систему линейных уравнений относительно неизвестных параметров , , :
либо воспользоваться готовыми формулами:
Рассчитаем сначала парные коэффициенты корреляции:
Находим
Таким образом, получили следующее уравнение множественной регрессии:
Коэффициенты и стандартизованного уравнения регрессии находятся по формулам:
Стандартизированная форма уравнения регрессии имеет вид:
ty = 0.76x1 + 0.216x2
Так как стандартизованные коэффициенты регрессии можно сравнивать между собой, то можно сказать, что ввод в действие новых основных фондов оказывает большее влияние на выработку продукции, чем удельный вес рабочих высокой квалификации.
Сравнивать влияние факторов на результат можно также при помощи средних коэффициентов эластичности:
Т.е. увеличение только основных фондов (от своего среднего значения) или только удельного веса рабочих высокой квалификации на 1% увеличивает в среднем выработку продукции на 0,65% или 0,19% соответственно. Таким образом, подтверждается большее влияние на результат фактора , чем фактора .
Коэффициенты парной корреляции мы уже нашли:
Они указывают на весьма сильную связь каждого фактора с результатом, а также высокую межфакторную зависимость (факторы и явно коллинеарны, т.к. 0.956 > 0.7). При такой сильной межфакторной зависимости рекомендуется один из факторов исключить из рассмотрения.
Частные коэффициенты корреляции характеризуют тесноту связи между результатом и соответствующим фактором при элиминировании (устранении влияния) других факторов, включенных в уравнение регрессии.
При двух факторах частные коэффициенты корреляции рассчитываются следующим образом:
Если сравнить коэффициенты парной и частной корреляции, то можно увидеть, что из-за высокой межфакторной зависимости коэффициенты парной корреляции дают завышенные оценки тесноты связи. Именно по этой причине рекомендуется при наличии сильной коллинеарности (взаимосвязи) факторов исключать из исследования тот фактор, у которого теснота парной зависимости меньше, чем теснота межфакторной связи.
Коэффициент множественной корреляции определить через матрицу парных коэффициентов корреляции:
где
- определитель матрицы парных коэффициентов корреляции;
- определитель матрицы межфакторной корреляции.
? r = |
1 0,967 0,943 0,967 1 0,956 0,943 0,956 1 |
= 0.00532 |
? r11 = |
1 0,956 0,956 1 |
= 0.0861 |
Коэффициент множественной корреляции
Аналогичный результат получим при использовании других формул:
Коэффициент множественной корреляции показывает на весьма сильную связь всего набора факторов с результатом.
Коэффициент детерминации.
R2= 0.9692 = 0.9382
Нескорректированный коэффициент множественной детерминации оценивает долю вариации результата за счет представленных в уравнении факторов в общей вариации результата. Здесь эта доля составляет 94% и указывает на весьма высокую степень обусловленности вариации результата вариацией факторов, иными словами - на весьма тесную связь факторов с результатом.
Скорректированный коэффициент множественной детерминации
определяет тесноту связи с учетом степеней свободы общей и остаточной дисперсий. Он дает такую оценку тесноты связи, которая не зависит от числа факторов и поэтому может сравниваться по разным моделям с разным числом факторов. Оба коэффициента указывают на весьма высокую (более 93%) детерминированность результата в модели факторами и .
Оценку надежности уравнения регрессии в целом и показателя тесноты связи дает -критерий Фишера:
Табличное значение при степенях свободы k1 = 2 и k2 = n-m-1 = 20 - 2 - 1 = 17, Fkp(2;17) = 3.59
Получили, что F (фак) > F (таб) = 3,59 (при n=20 ), т.е. вероятность случайно получить такое значение F -критерия не превышает допустимый уровень значимости 5%. Следовательно, полученное значение не случайно, оно сформировалось под влиянием существенных факторов, т.е. подтверждается статистическая значимость всего уравнения и показателя тесноты связи R І(yx1x2)
Оценим статистическую значимость параметров чистой регрессии с помощью критерия Стьюдента. Рассчитаем стандартные ошибки коэффициентов регрессии:
Фактические значения критерия Стьюдента:
Tтабл (n-m-1;б/2) = (17;0.025) = 2.11
Статистическая значимость коэффициента регрессии b1 подтверждается.
Статистическая значимость коэффициента регрессии b2 не подтверждается.
Доверительные интервалы для параметров чистой регрессии:
(bi - ti mbi; bi + ti mbi)
b1: (0.99 - 2.11 * 0.27 ; 0.99 + 2.11 * 0.27) = (0.42;1.55)
b2: (0.0792 - 2.11 * 0.0755 ; 0.0792 + 2.11 * 0.0755) = (-0.0801;0.24)
С помощью частных -критериев Фишера оценим целесообразность включения в уравнение множественной регрессии фактора после и фактора после при помощи формул:
;
.
Найдем и .
R2(x2,xn = r2(x2) = 0.94262 = 0.888
R2(x1,xn = r2(x1) = 0.96652 = 0.934
Имеем:
Получили, что . Следовательно, включение в модель фактора после того, как в модель включен фактор статистически нецелесообразно: прирост факторной дисперсии за счет дополнительного признака оказывается незначительным, несущественным; фактор включать в уравнение после фактора не следует.
Если поменять первоначальный порядок включения факторов в модель и рассмотреть вариант включения после , то результат расчета частного -критерия для будет иным. , т.е. вероятность его случайного формирования меньше принятого стандарта . Следовательно, значение частного -критерия для дополнительно включенного фактора не случайно, является статистически значимым, надежным, достоверным: прирост факторной дисперсии за счет дополнительного фактора является существенным. Фактор должен присутствовать в уравнении, в том числе в варианте, когда он дополнительно включается после фактора .
Общий вывод состоит в том, что множественная модель с факторами и содержит неинформативный фактор . Если исключить фактор , то можно ограничиться уравнением парной регрессии:
8. Проверка в Excel:
Матрица парных коэффициентов корреляции:
Результаты регрессионного анализа:
Размещено на Allbest.ru
...Подобные документы
Методика и основные этапы расчета параметров линейного уравнения парной регрессии с помощью программы Excel. Анализ качества построенной модели, с использованием коэффициента парной корреляции, коэффициента детерминации и средней ошибки аппроксимации.
лабораторная работа [22,3 K], добавлен 15.04.2014Построение уравнения регрессии. Оценка параметров линейной парной регрессии. F-критерий Фишера и t-критерий Стьюдента. Точечный и интервальный прогноз по уравнению линейной регрессии. Расчет и оценка ошибки прогноза и его доверительного интервала.
презентация [387,8 K], добавлен 25.05.2015Значения коэффициента регрессии (b) и сводного члена уравнения регрессии (а). Определение стандартной ошибки предсказания являющейся мерой качества зависимости величин Y и х с помощью уравнения линейной регрессии. Значимость коэффициента регрессии.
задача [133,0 K], добавлен 21.12.2008Проверка адекватности линейной регрессии. Вычисление выборочного коэффициента корреляции. Обработка одномерной выборки методами статистического анализа. Проверка гипотезы значимости с помощью критерия Пирсона. Составление линейной эмпирической регрессии.
задача [409,0 K], добавлен 17.10.2012Знакомство с уравнениями линейной регрессии, рассмотрение распространенных способов решения. Общая характеристика метода наименьших квадратов. Особенности оценки статистической значимости парной линейной регрессии. Анализ транспонированной матрицы.
контрольная работа [380,9 K], добавлен 05.04.2015Построение модели множественной регрессии теоретических значений динамики ВВП, определение средней ошибки аппроксимации. Выбор фактора, оказывающего большее влияние. Построение парных моделей регрессии. Определение лучшей модели. Проверка предпосылок МНК.
курсовая работа [352,9 K], добавлен 26.01.2010Определение частных производных первого и второго порядков заданной функции, эластичности спроса, основываясь на свойствах функции спроса. Выравнивание данных по прямой методом наименьших квадратов. Расчет параметров уравнения линейной парной регрессии.
контрольная работа [99,4 K], добавлен 22.07.2009Сортировка размера пенсии по возрастанию прожиточного минимума. Параметры уравнений парных регрессий. Значения параметров логарифмической регрессии. Оценка гетероскедастичности линейного уравнения с помощью проведения теста ранговой корреляции Спирмена.
контрольная работа [178,0 K], добавлен 23.11.2013Адекватная линейная регрессионная модель. Правило проверки адекватности. Определение математического ожидания, коэффициента детерминации, множественного коэффициента корреляции по характеристикам случайных величин. Оценка дисперсии случайной ошибки.
контрольная работа [160,0 K], добавлен 13.08.2013Исследование зависимости потребления бензина в городе от количества автомобилей с помощью методов математической статистики. Построение диаграммы рассеивания и определение коэффициента корреляции. График уравнения линейной регрессии зависимости.
курсовая работа [593,2 K], добавлен 28.06.2009Построение линейной множественной регрессии для моделирования потребления продукта в разных географических районах. Расчет оценки дисперсии случайной составляющей. Вычисление и корректировка коэффициентов детерминации. Расчет доверительного интервала.
контрольная работа [814,0 K], добавлен 19.12.2013Механизм и основные этапы нахождения необходимых параметров методом наименьших квадратов. Графическое сравнение линейной и квадратичной зависимостей. Проверка гипотезы о значимости выборочного коэффициента корреляции при заданном уровне значимости.
курсовая работа [782,6 K], добавлен 19.05.2014Цели линейной модели множественной регрессии (прогноз, имитация, сценарий развития, управление). Анализ эконометрической сущности изучаемого явления на априорном этапе. Параметризация и сбор необходимой статистической информации, значимость коэффициентов.
контрольная работа [68,7 K], добавлен 21.09.2009Определение вероятности наступления события по формуле Бернулли. Построение эмпирической функции распределения и гистограммы для случайной величины. Вычисление коэффициента корреляции, получение уравнения регрессии. Пример решения задачи симплекс-методом.
контрольная работа [547,6 K], добавлен 02.02.2012В каждой из двух урн содержится 6 черных и 4 белых шаров. Из первой урны наудачу извлечен один шар и переложен во вторую. Найти вероятность того, что шар, извлеченный из второй урны, окажется черным.
контрольная работа [619,9 K], добавлен 19.05.2003Составление математической модели для предприятия, характеризующей выручку предприятия "АВС" в зависимости от капиталовложений (млн. руб.) за последние 10 лет. Расчет поля корреляции, параметров линейной регрессии. Сводная таблица расчетов и вычислений.
курсовая работа [862,4 K], добавлен 06.05.2009Установление корреляционных связей между признаками многомерной выборки. Статистические параметры регрессионного анализа линейных и нелинейных выборок. Нахождение функций регрессии и проверка гипотезы о значимости выборочного коэффициента корреляции.
курсовая работа [304,0 K], добавлен 02.03.2017Вычисление математического ожидания, дисперсии и коэффициента корреляции. Определение функции распределения и его плотности. Нахождение вероятности попадания в определенный интервал. Особенности построения гистограммы частот. Применение критерия Пирсона.
задача [140,0 K], добавлен 17.11.2011Понятие и примеры шкалы отношений. Что такое стратифицированная (или расслоенная) выборка. Определение медианы и мощности критерия. Характеристика термина "процентиль". Влияние коэффициента корреляции на зависимость между исследуемыми величинами.
контрольная работа [51,0 K], добавлен 29.09.2010Классификация взаимосвязи явлений, различаемых в статистике, их разновидности и характеристика, отличительные признаки. Сущность коэффициента парной корреляции, его особенности и методика оценки достоверности, применение доверительных интервалов.
реферат [1,3 M], добавлен 30.04.2009