Определение параметров и анализ уравнения парной линейной регрессии

Расчет линейного коэффициента парной корреляции, коэффициента детерминации и ошибки аппроксимации. Определение значимости параметров регрессии с помощью F-критерия Фишера и t-критерия Стьюдента. Скорректированный коэффициент множественной детерминации.

Рубрика Математика
Вид контрольная работа
Язык русский
Дата добавления 27.04.2017
Размер файла 344,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Задача 1

По территориям региона приводятся данные за 201X г. (p1 - число букв в имени, p2 - число букв в имени)

Номер региона

Среднедушевой прожиточный минимум в день одного трудоспособного, руб.,

Среднедневная заработная плата, руб.,

1

84

139

2

86

148

3

87

141

4

79

154

5

106

163

6

112

195

7

67

139

8

98

164

9

79

152

10

87

162

11

86

152

12

116

173

Требуется:

1. Построить линейное уравнение парной регрессии y по x .

2. Рассчитать линейный коэффициент парной корреляции, коэффициент детерминации и среднюю ошибку аппроксимации.

3. Оценить статистическую значимость параметров регрессии в целом и отдельных параметров регрессии и корреляции с помощью F-критерия Фишера и t-критерия Стьюдента.

4. Выполнить прогноз заработной платы y при прогнозном значении среднедушевого прожиточного минимума x, составляющем 107% от среднего уровня.

5. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.

6. На одном графике построить исходные данные и теоретическую прямую.

7. Проверить вычисления в MS Excel.

Решение:

Рассчитаем параметры уравнений линейной парной регрессии.

Для расчета параметров a и b линейной регрессии систему нормальных уравнений относительно а и b:

Для определения следующих данных: , , , , , составим вспомогательную таблицу 1.

1

84

139

11676

7056

19321

150,90

-11,90

8,56

2

86

148

12728

7396

21904

152,70

-4,70

3,18

3

87

141

12267

7569

19881

153,60

-12,60

8,94

4

79

154

12166

6241

23716

146,39

7,61

4,94

5

106

163

17278

11236

26569

170,74

-7,74

4,75

6

112

195

21840

12544

38025

176,15

18,85

9,67

7

67

139

9313

4489

19321

135,56

3,44

2,47

8

98

164

16072

9604

26896

163,52

0,48

0,29

9

79

152

12008

6241

23104

146,39

5,61

3,69

10

87

162

14094

7569

26244

153,60

8,40

5,18

11

86

152

13072

7396

23104

152,70

-0,70

0,46

12

116

173

20068

13456

29929

179,76

-6,76

3,91

Итого

1087

1882

172582,00

100797,00

298014,00

1882,00

0,00

56,04

Среднее значение

90,58

156,83

14381,83

8399,75

24834,50

156,83

4,67

13,943

15,421

194,410

237,806

Рассчитываем параметр b:

Рассчитываем параметр a:

Уравнение линейной регрессии имеет вид:

Экономический смысл уравнения: С увеличением среднедушевого прожиточного минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0,90 руб.

Тесноту линейной связи оценит коэффициент корреляции:

Т.к. значение коэффициента корреляции больше 0,816, то это говорит о наличии весьма тесной линейной связи между признаками.

Коэффициент детерминации:

т.е. в 66.51% случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - средняя. Остальные 33.49% изменения Y объясняются факторами, не учтенными в модели (а также ошибками спецификации).

Это означает, что 66,51% вариации заработной платы () объясняется вариацией фактора - среднедушевого прожиточного минимума.

Качество модели определяет средняя ошибка аппроксимации:

,

В среднем, расчетные значения отклоняются от фактических на 4,67%. Поскольку ошибка меньше 7%, то данное уравнение можно использовать в качестве регрессии.

Оценку значимости уравнения регрессии в целом проведем с помощью -критерия Фишера. Фактическое значение -критерия:

Табличное значение критерия при пятипроцентном уровне значимости и степенях свободы и составляет . Так как 19,86 > 4,96, то уравнение регрессии признается статистически значимым.

Оценку статистической значимости параметров регрессии проведем с помощью -статистики Стьюдента и путем расчета доверительного интервала каждого из показателей.

Оценка значимости коэффициентов регрессии с помощью t-критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки

Табличное значение -критерия для числа степеней свободы и составит .

Определим случайные ошибки , , :

Остаточная дисперсия на одну степень свободы

ma - стандартное отклонение случайной величины a:

mb - стандартное отклонение случайной величины b.

Тогда

Поскольку 4,05 > 2.228, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).

Поскольку 4,46 > 2.228, то статистическая значимость коэффициента регрессии b подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).

Поскольку 4,46 > 2,228, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим.

Рассчитаем доверительные интервалы для параметров регрессии и . Для этого определим предельную ошибку для каждого показателя:

(b - tкрит mb; b + tкрит mb)

(0.9 - 2.228 * 0.2; 0.9 + 2.228 * 0.2)

(0.451;1.353)

С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.

(a - tкрит ma; a + tкрит ma)

(75.132 - 2.228 * 18.55; 75.132 + 2.228 * 18.55)

(33.8;116.464)

С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.

Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что с вероятностью параметры и , находясь в указанных границах, не принимают нулевых значений, т.е. не являются статистически незначимыми и существенно отличны от нуля.

Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение прожиточного минимума составит:

тогда индивидуальное прогнозное значение заработной платы составит:

y(96.92) = 0.902*96.92 + 75.132 = 162.549

Ошибка прогноза составит:

Доверительный интервал прогноза:

162.549 ± 22.85

(139.7;185.4)

С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.

Выполненный прогноз среднемесячной заработной платы является надежным () и находится в пределах от 139,7 руб. до 185,4 руб.

В заключение решения задачи построим на одном графике исходные данные и теоретическую прямую

7. Проверим вычисления в MS Excel.

Задача 2

По 20 предприятиям региона изучается зависимость выработки продукции на одного работника (тыс. руб.) от ввода в действие новых основных фондов ( от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих (%).

Номер предприятия

Номер предприятия

1

7

4,2

11

11

9

6,6

21

2

7

3,7

13

12

11

6,4

22

3

7

3,9

15

13

9

6,9

22

4

7

4

17

14

11

7,2

25

5

7

4,4

18

15

12

7,4

28

6

7

4,8

19

16

12

8,2

29

7

8

5,3

19

17

12

8,1

30

8

8

5,4

20

18

12

8,6

31

9

8

5

20

19

14

9,6

32

10

10

6,8

21

20

14

9,6

36

линейный корреляция детерминация регрессия

Требуется:

1. Построить линейную модель множественной регрессии. Записать стандартизованное уравнение множественной регрессии. На основе стандартизованных коэффициентов регрессии и средних коэффициентов эластичности ранжировать факторы по степени их влияния на результат.

2. Найти коэффициенты парной, частной и множественной корреляции. Проанализировать их.

3. Найти скорректированный коэффициент множественной детерминации. Сравнить его с нескорректированным (общим) коэффициентом детерминации.

4. С помощью F-критерия Фишера оценить статистическую надежность уравнения регрессии и коэффициента детерминации .

5. С помощью t-критерия Стьюдента оценить статистическую значимость параметров чистой регрессии.

6. С помощью частных F-критериев Фишера оценить целесообразность включения в уравнение множественной регрессии фактора после и фактора после .

7. Составить уравнение линейной парной регрессии, оставив лишь один значащий фактор.

8. Проверить вычисления в MS Excel.

Решение:

Для удобства проведения расчетов поместим результаты промежуточных расчетов в таблицу:

1

2

3

4

5

6

7

8

9

10

1

7

4,2

11

29,40

77,0

46,20

17,64

121

49

2

7

3,7

13

25,90

91,0

48,10

13,69

169

49

3

7

3,9

15

27,30

105,0

58,50

15,21

225

49

4

7

4

17

28,00

119,0

68,00

16,00

289

49

5

7

4,4

18

30,80

126,0

79,20

19,36

324

49

6

7

4,8

19

33,60

133,0

91,20

23,04

361

49

7

8

5,3

19

42,40

152,0

100,70

28,09

361

64

8

8

5,4

20

43,20

160,0

108,00

29,16

400

64

9

8

5

20

40,00

160,0

100,00

25,00

400

64

10

10

6,8

21

68,00

210,0

142,80

46,24

441

100

11

9

6,6

21

59,40

189,0

138,60

43,56

441

81

12

11

6,4

22

70,40

242,0

140,80

40,96

484

121

13

9

6,9

22

62,10

198,0

151,80

47,61

484

81

14

11

7,2

25

79,20

275,0

180,00

51,84

625

121

15

12

7,4

28

88,80

336,0

207,20

54,76

784

144

16

12

8,2

29

98,40

348,0

237,80

67,24

841

144

17

12

8,1

30

97,20

360,0

243,00

65,61

900

144

18

12

8,6

31

103,20

372,0

266,60

73,96

961

144

19

14

9,6

32

134,40

448,0

307,20

92,16

1024

196

20

14

9,6

36

134,40

504,0

345,60

92,16

1296

196

Сумма

192,00

126,10

449,00

1296,10

4605,00

3061,30

863,29

10931,00

1958,00

Ср. знач.

9,60

6,31

22,45

64,81

230,25

153,07

43,16

546,55

97,90

Найдем средние квадратические отклонения признаков:

Вычисление параметров линейного уравнения множественной регрессии.

Для нахождения параметров линейного уравнения множественной регрессии

необходимо решить следующую систему линейных уравнений относительно неизвестных параметров , , :

либо воспользоваться готовыми формулами:

Рассчитаем сначала парные коэффициенты корреляции:

Находим

Таким образом, получили следующее уравнение множественной регрессии:

Коэффициенты и стандартизованного уравнения регрессии находятся по формулам:

Стандартизированная форма уравнения регрессии имеет вид:

ty = 0.76x1 + 0.216x2

Так как стандартизованные коэффициенты регрессии можно сравнивать между собой, то можно сказать, что ввод в действие новых основных фондов оказывает большее влияние на выработку продукции, чем удельный вес рабочих высокой квалификации.

Сравнивать влияние факторов на результат можно также при помощи средних коэффициентов эластичности:

Т.е. увеличение только основных фондов (от своего среднего значения) или только удельного веса рабочих высокой квалификации на 1% увеличивает в среднем выработку продукции на 0,65% или 0,19% соответственно. Таким образом, подтверждается большее влияние на результат фактора , чем фактора .

Коэффициенты парной корреляции мы уже нашли:

Они указывают на весьма сильную связь каждого фактора с результатом, а также высокую межфакторную зависимость (факторы и явно коллинеарны, т.к. 0.956 > 0.7). При такой сильной межфакторной зависимости рекомендуется один из факторов исключить из рассмотрения.

Частные коэффициенты корреляции характеризуют тесноту связи между результатом и соответствующим фактором при элиминировании (устранении влияния) других факторов, включенных в уравнение регрессии.

При двух факторах частные коэффициенты корреляции рассчитываются следующим образом:

Если сравнить коэффициенты парной и частной корреляции, то можно увидеть, что из-за высокой межфакторной зависимости коэффициенты парной корреляции дают завышенные оценки тесноты связи. Именно по этой причине рекомендуется при наличии сильной коллинеарности (взаимосвязи) факторов исключать из исследования тот фактор, у которого теснота парной зависимости меньше, чем теснота межфакторной связи.

Коэффициент множественной корреляции определить через матрицу парных коэффициентов корреляции:

где

- определитель матрицы парных коэффициентов корреляции;

- определитель матрицы межфакторной корреляции.

? r =

1

0,967

0,943

0,967

1

0,956

0,943

0,956

1

= 0.00532

? r11 =

1

0,956

0,956

1

= 0.0861

Коэффициент множественной корреляции

Аналогичный результат получим при использовании других формул:

Коэффициент множественной корреляции показывает на весьма сильную связь всего набора факторов с результатом.

Коэффициент детерминации.

R2= 0.9692 = 0.9382

Нескорректированный коэффициент множественной детерминации оценивает долю вариации результата за счет представленных в уравнении факторов в общей вариации результата. Здесь эта доля составляет 94% и указывает на весьма высокую степень обусловленности вариации результата вариацией факторов, иными словами - на весьма тесную связь факторов с результатом.

Скорректированный коэффициент множественной детерминации

определяет тесноту связи с учетом степеней свободы общей и остаточной дисперсий. Он дает такую оценку тесноты связи, которая не зависит от числа факторов и поэтому может сравниваться по разным моделям с разным числом факторов. Оба коэффициента указывают на весьма высокую (более 93%) детерминированность результата в модели факторами и .

Оценку надежности уравнения регрессии в целом и показателя тесноты связи дает -критерий Фишера:

Табличное значение при степенях свободы k1 = 2 и k2 = n-m-1 = 20 - 2 - 1 = 17, Fkp(2;17) = 3.59

Получили, что F (фак) > F (таб) = 3,59 (при n=20 ), т.е. вероятность случайно получить такое значение F -критерия не превышает допустимый уровень значимости 5%. Следовательно, полученное значение не случайно, оно сформировалось под влиянием существенных факторов, т.е. подтверждается статистическая значимость всего уравнения и показателя тесноты связи R І(yx1x2)

Оценим статистическую значимость параметров чистой регрессии с помощью критерия Стьюдента. Рассчитаем стандартные ошибки коэффициентов регрессии:

Фактические значения критерия Стьюдента:

Tтабл (n-m-1;б/2) = (17;0.025) = 2.11

Статистическая значимость коэффициента регрессии b1 подтверждается.

Статистическая значимость коэффициента регрессии b2 не подтверждается.

Доверительные интервалы для параметров чистой регрессии:

(bi - ti mbi; bi + ti mbi)

b1: (0.99 - 2.11 * 0.27 ; 0.99 + 2.11 * 0.27) = (0.42;1.55)

b2: (0.0792 - 2.11 * 0.0755 ; 0.0792 + 2.11 * 0.0755) = (-0.0801;0.24)

С помощью частных -критериев Фишера оценим целесообразность включения в уравнение множественной регрессии фактора после и фактора после при помощи формул:

;

.

Найдем и .

R2(x2,xn = r2(x2) = 0.94262 = 0.888

R2(x1,xn = r2(x1) = 0.96652 = 0.934

Имеем:

Получили, что . Следовательно, включение в модель фактора после того, как в модель включен фактор статистически нецелесообразно: прирост факторной дисперсии за счет дополнительного признака оказывается незначительным, несущественным; фактор включать в уравнение после фактора не следует.

Если поменять первоначальный порядок включения факторов в модель и рассмотреть вариант включения после , то результат расчета частного -критерия для будет иным. , т.е. вероятность его случайного формирования меньше принятого стандарта . Следовательно, значение частного -критерия для дополнительно включенного фактора не случайно, является статистически значимым, надежным, достоверным: прирост факторной дисперсии за счет дополнительного фактора является существенным. Фактор должен присутствовать в уравнении, в том числе в варианте, когда он дополнительно включается после фактора .

Общий вывод состоит в том, что множественная модель с факторами и содержит неинформативный фактор . Если исключить фактор , то можно ограничиться уравнением парной регрессии:

8. Проверка в Excel:

Матрица парных коэффициентов корреляции:

Результаты регрессионного анализа:

Размещено на Allbest.ru

...

Подобные документы

  • Методика и основные этапы расчета параметров линейного уравнения парной регрессии с помощью программы Excel. Анализ качества построенной модели, с использованием коэффициента парной корреляции, коэффициента детерминации и средней ошибки аппроксимации.

    лабораторная работа [22,3 K], добавлен 15.04.2014

  • Построение уравнения регрессии. Оценка параметров линейной парной регрессии. F-критерий Фишера и t-критерий Стьюдента. Точечный и интервальный прогноз по уравнению линейной регрессии. Расчет и оценка ошибки прогноза и его доверительного интервала.

    презентация [387,8 K], добавлен 25.05.2015

  • Значения коэффициента регрессии (b) и сводного члена уравнения регрессии (а). Определение стандартной ошибки предсказания являющейся мерой качества зависимости величин Y и х с помощью уравнения линейной регрессии. Значимость коэффициента регрессии.

    задача [133,0 K], добавлен 21.12.2008

  • Проверка адекватности линейной регрессии. Вычисление выборочного коэффициента корреляции. Обработка одномерной выборки методами статистического анализа. Проверка гипотезы значимости с помощью критерия Пирсона. Составление линейной эмпирической регрессии.

    задача [409,0 K], добавлен 17.10.2012

  • Знакомство с уравнениями линейной регрессии, рассмотрение распространенных способов решения. Общая характеристика метода наименьших квадратов. Особенности оценки статистической значимости парной линейной регрессии. Анализ транспонированной матрицы.

    контрольная работа [380,9 K], добавлен 05.04.2015

  • Построение модели множественной регрессии теоретических значений динамики ВВП, определение средней ошибки аппроксимации. Выбор фактора, оказывающего большее влияние. Построение парных моделей регрессии. Определение лучшей модели. Проверка предпосылок МНК.

    курсовая работа [352,9 K], добавлен 26.01.2010

  • Определение частных производных первого и второго порядков заданной функции, эластичности спроса, основываясь на свойствах функции спроса. Выравнивание данных по прямой методом наименьших квадратов. Расчет параметров уравнения линейной парной регрессии.

    контрольная работа [99,4 K], добавлен 22.07.2009

  • Сортировка размера пенсии по возрастанию прожиточного минимума. Параметры уравнений парных регрессий. Значения параметров логарифмической регрессии. Оценка гетероскедастичности линейного уравнения с помощью проведения теста ранговой корреляции Спирмена.

    контрольная работа [178,0 K], добавлен 23.11.2013

  • Адекватная линейная регрессионная модель. Правило проверки адекватности. Определение математического ожидания, коэффициента детерминации, множественного коэффициента корреляции по характеристикам случайных величин. Оценка дисперсии случайной ошибки.

    контрольная работа [160,0 K], добавлен 13.08.2013

  • Исследование зависимости потребления бензина в городе от количества автомобилей с помощью методов математической статистики. Построение диаграммы рассеивания и определение коэффициента корреляции. График уравнения линейной регрессии зависимости.

    курсовая работа [593,2 K], добавлен 28.06.2009

  • Построение линейной множественной регрессии для моделирования потребления продукта в разных географических районах. Расчет оценки дисперсии случайной составляющей. Вычисление и корректировка коэффициентов детерминации. Расчет доверительного интервала.

    контрольная работа [814,0 K], добавлен 19.12.2013

  • Механизм и основные этапы нахождения необходимых параметров методом наименьших квадратов. Графическое сравнение линейной и квадратичной зависимостей. Проверка гипотезы о значимости выборочного коэффициента корреляции при заданном уровне значимости.

    курсовая работа [782,6 K], добавлен 19.05.2014

  • Цели линейной модели множественной регрессии (прогноз, имитация, сценарий развития, управление). Анализ эконометрической сущности изучаемого явления на априорном этапе. Параметризация и сбор необходимой статистической информации, значимость коэффициентов.

    контрольная работа [68,7 K], добавлен 21.09.2009

  • Определение вероятности наступления события по формуле Бернулли. Построение эмпирической функции распределения и гистограммы для случайной величины. Вычисление коэффициента корреляции, получение уравнения регрессии. Пример решения задачи симплекс-методом.

    контрольная работа [547,6 K], добавлен 02.02.2012

  • В каждой из двух урн содержится 6 черных и 4 белых шаров. Из первой урны наудачу извлечен один шар и переложен во вторую. Найти вероятность того, что шар, извлеченный из второй урны, окажется черным.

    контрольная работа [619,9 K], добавлен 19.05.2003

  • Составление математической модели для предприятия, характеризующей выручку предприятия "АВС" в зависимости от капиталовложений (млн. руб.) за последние 10 лет. Расчет поля корреляции, параметров линейной регрессии. Сводная таблица расчетов и вычислений.

    курсовая работа [862,4 K], добавлен 06.05.2009

  • Установление корреляционных связей между признаками многомерной выборки. Статистические параметры регрессионного анализа линейных и нелинейных выборок. Нахождение функций регрессии и проверка гипотезы о значимости выборочного коэффициента корреляции.

    курсовая работа [304,0 K], добавлен 02.03.2017

  • Вычисление математического ожидания, дисперсии и коэффициента корреляции. Определение функции распределения и его плотности. Нахождение вероятности попадания в определенный интервал. Особенности построения гистограммы частот. Применение критерия Пирсона.

    задача [140,0 K], добавлен 17.11.2011

  • Понятие и примеры шкалы отношений. Что такое стратифицированная (или расслоенная) выборка. Определение медианы и мощности критерия. Характеристика термина "процентиль". Влияние коэффициента корреляции на зависимость между исследуемыми величинами.

    контрольная работа [51,0 K], добавлен 29.09.2010

  • Классификация взаимосвязи явлений, различаемых в статистике, их разновидности и характеристика, отличительные признаки. Сущность коэффициента парной корреляции, его особенности и методика оценки достоверности, применение доверительных интервалов.

    реферат [1,3 M], добавлен 30.04.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.