Анализ данных в линейной регрессионной модели

Статистическое описание и выборочные характеристики двумерного случайного вектора. Построение диаграммы рассеяния. Однофакторный дисперсионный анализ. Определение линейного контраста и выборочной линейной регрессии. Расчет границ доверительного интервала.

Рубрика Математика
Вид контрольная работа
Язык русский
Дата добавления 16.10.2017
Размер файла 28,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Московский Государственный Институт

Электронной Техники (ТУ)

Курсовая работа по

"Теории вероятностей и математической статистике"

"Анализ данных в линейной регрессионной модели"

МОСКВА

2003 г

Данные

X

Y

Остатки

6,15

18,94

0,849025

7,07

18,51

0,034005

7,35

18,46

-0,13318

8,16

18,58

-0,35216

3,73

16,18

-0,89821

5,67

17,84

-0,0501

4,95

17,42

-0,16878

4,11

17,19

-0,04724

7,81

19,05

0,264315

4,29

17,48

0,167435

6,68

17,91

-0,40278

3,25

16,82

-0,05732

6,49

18,44

0,206735

4,71

17,53

0,041665

3,25

17,29

0,412675

7,34

18,6

0,01101

7,4

18,96

0,3459

4,78

17,84

0,32237

6,18

18,82

0,71647

6,44

18,8

0,58766

6,45

17,73

-0,48653

7,58

18,57

-0,11943

6,18

17,74

-0,36353

7,53

19,89

1,221495

4,76

17,44

-0,06926

5,78

18,24

0,30387

6,97

19,01

0,575855

4,58

16,25

-1,18393

3,45

16,56

-0,40103

5,04

17,15

-0,47644

7,08

17,75

-0,73018

5,04

18,35

0,72356

4,92

16,77

-0,80622

5,82

17,41

-0,54287

6,31

18,71

0,552065

6,59

19,05

0,774885

9,11

17,32

-2,00974

9,91

19,65

-0,01454

5,78

18,22

0,28387

3,4

16,55

-0,3901

3,83

17,65

0,529945

4,75

17,86

0,354925

3,32

17,33

0,42338

5,82

17,16

-0,79287

4,79

17,42

-0,10181

5,13

16,54

-1,12411

8,63

19,92

0,791145

3,94

17,2

0,03391

5,21

18,57

0,872415

3,7

17,39

0,32435

Статистическое описание и выборочные характеристики двумерного случайного вектора

Пусть (xi,yi), i = 1,2,......,n ,- выборка объема n из наблюдений случайного двумерного вектора (X,Y). Предварительное представление о двумерной генеральной совокупности можно получить, изображая элементы выборки точками на плоскости с выбранной декартовой прямоугольной системой координат. Это представление выборки называется диаграммой рассеивания.

Построить диаграмму рассеяния нанести на нее уравнения регресси Y на X

y=*0 +*1x и X на Y x=*0 +*1y.

Сначала вычислим суммы

xi , yi ,x2i ,y2i , xiyi , (xi+yi)2

Для контроля правильности вычислений используется тождество

(xi+yi)2= x2i + 2 xiyi + y2i

Выборочные средние находятся по формулам

x*=*1,0=(1/n) xi , y*=*0,1=(1/n) yi . (1)

Затем вычисляются суммы квадратов отклонений от среднего и произведений отклонений от средних :

Qx=(xi - x*)2=x2i - (x)2i/n , (2)

Qy=(yi - y*)2=y2i - (y)2i/n , (3)

Qxy=(xi - x*)(yi - y*)=xiyi - (x i)(yi )/n , (4)

Отсюда

D*x= (1/n) Qx , D*y= (1/n) Qy ,

R=(*1,1)/ (D*x D*y)1/2= (Qxy)/( Qx Qy)1/2 (5)

Выборочная линейная регрессия Y на X по выборке (xi , yi ), i= 1,......, n определяется уравнением

y=*0 +*1x= y* + r (D*y / D*x ) (x - x*)

Коэффициенты *0 и *1 называются выборочными коэффициентами регрессии. Они вычисляются по формулам

1*=[n xiyi - (x i)(yi )]/(n x2i - (xi)2 ) = Qxy / Qx (6)

0* = y*- 1*x* (7)

Аналогично определяется выборочная линейная регрессия X на Y :

x=*0 +*1y = x* + r (D*x / D*y ) (y - y*)

1*=[n xiyi - (x i)(yi )]/(n y2i - (yi)2 ) = Qxy / Qy (8)

0*= x*- *1y* (9)

Для контроля правильности расчетов используют соотношение

(1*1*)1/2= r (10)

Прямые

y=*0 +*1x , x=*0 +*1y

Пересекаются в точке с координатами (x*, y* )

Функция y=*0 +*1x

Определяет выборочную (эмпирическую ) регрессию Y на x. Последняя является оценкой предполагаемой (теоретической) регрессии по результатам наблюдений. Разности между наблюдаемыми значениями переменной Y при x=xi , i=1,2,....,n, и расчетными значениями yi=*0 +*1x называются остатками и обозначаются ei :

ei = yi - y i, i = 1,2,......,n . (11)

Качество аппроксимации результатов наблюдений (xi,yi), i = 1,2,......,n , выборочной регрессии определяется величиной остаточной дисперсии , вычисляемой по формуле

S2= e2i /(n-2)=1/(n-2) [ yi - (*0 +*1xi)]2=Qe/(n-2) (12)

Величина Qe определяемая выражением

Qe = e2i= (yi - y i)2 (13)

Называется остаточной суммой квадратов.

В практических вычислениях остаточную сумму квадратов получают из тождества

(yi - y*i)2 = (yi - y*i )2 + (yi - yi) 2 (14)

Которое записывается в виде

Qy = Qr + Qe , где

Qy= (yi - y*i)2= y2i - n*(y*i )2,

Qr = (yi - y*i )2=*1 Qxy=2*1 Qx= Q2xy/ Qx (15)

Величина Qr называется суммой квадратов, обусловленной регрессией регрессией.

Полезной характеристокой линейной регрессии является коэффициент детерминации R2 , вычисляемый по формуле

R2= Qr / Qy =1 - (Qe / Qy) (16)

Коэффициент детерминации R2 равен той доле разброса результатов наблюдений (xi,yi), i = 1,2,......,n , относительно горизонтальной прямой y=y* , которая объсняется выборочной регрессией .

Величина R= + (R2)1/2 является оценкой коэффициента корреляции между результатами наблюдений yi и вычисленными значениями yi , предсказываемыми регрессией , т.е.

R= p*yy= ryy

В случае линейной регрессии Y на x (одной независимой переменной x) между коэффициентом R и выборочным коэффициентом корреляции rxy имеется следующее соотношение :

rxy = ( знак *1 ) R .

Однофакторный дисперсионный анализ

Пусть результаты наблюдений составляют l независимых выборок ( групп ), полученных из l нормально распределенных генеральных совокупностей, которые имеют, вообще говоря, различные средние m1 , m2 , ..... , ml и равные дисперсии 2. Проверяется гипотеза о равенстве средних H0 m1= m2 = ..... =ml. На практике такая задача возникает при исследовании влияния, которое оказывает изменение некоторого фактора на измеряемую величину. Например, если измерения проводятся на l различных приборах, то можно исследовать влияние фактора «прибор» на результаты измерений. В данном случае на синтересует вопрос, имеют ли различные приборы одну и ту же систематическую ошибку ( гипотеза H0 ) . При l=2 для проверки гипотезы H0 используется известные критерии значимости. Если l>2, то для проверки гипотезы о равенстве l средних применяют однофакторный дисперсионный анализ, суть которого состоит в следующем.

Пусть xik обозначает i-й элемент k-й выборки , i = 1,2,......,n , k = 1,2,......,n , x*k-выборочное среднее k-й выборки, т.е.

x*k=(1/nk) xik = (1/n) x ..k ,

k*- общее выборочное среднее, т.е.

x*=(1/n) xik = (1/n) x . . ,

где n - общее число наблюдений, n= nk

Общая сумма квадратов отклонений наблюдений от общего среднего x* может быть предтавлена так :

( xik - x*)2= nk ( x*k - x*)2+ ( xik - x*k)2 (17)

Это основное тождество дисперсионного анализа. Запишем его в виде

Q=Q1+Q2 (18)

Где Q- общая сумма квадратов отклонений наблюдений от общего среднего, Q1 - сумма квадратов отклонений выборочных средних x*k от общего среднего x* (между группами), Q2-сумма квадратов отклонений наблюдений от выборочных средних групп (внутри групп).

Тождество (1) легко проверяется , если воспользоваться очевидным равенством

( xik - x*)= [( x*k - x*)+ ( xik - x*k)]

и учесть, что

( xik - x*k) ( x*k - x*)=0

в силу определения средних x*k и x*

Если верна гипотеза H0: m1= m2 = .....= ml, то статистики Q1/2 и Q2/2 независимы и имеют распределение 2 с l-1 и n-l степенями свободы. Следовательно, статистики S21= Q1/(l-1) и S22= Q2/(n-l) являются несмещенными оценками неизвесной дисперсии 2. Оценка S21 характеризует рассеяние групповых средних, а оценка S22-рассеяние внутри групп, которое обусловленно случайными вариациями результатов наблюдений. Значительное превышение величины S21 над значением величины S22 можно объяснить различием средних в группах. Отношение этих оценок имеет распределение Фишера с l-1 и n-l степенями свободы, т.е.

S21/S22= Q1/(l-1)Q2/(n-l)=F(l-1,n-l)

Статистика используется для проверки гипотезы H0: m1= m2 = .....= ml. Гипотеза H0 не противоречит результатам наблюдений, если выборочное значение Fв статистики меньше квантили F1-(l-1,n-l) , т.е. если Fв< F1-(l-1,n-l). В этом случае x* и Q2/(n-l) являются несмещенными оценками параметров m и 2 .Если Fв< F1-(l-1,n-l), то гипотеза H0 отклоняется и следует считать, что среди средних m1, m2 , ....., ml имеется хотя бы два не равных друг другу.

Линейные контрасты

Если гипотеза о равенстве средних отклоняется, то требуется определить, какие именно группы имеют значимое различие средних. Для этих целей используется метод линейных контрастов. Линейный контраст Lk определяется как линейная комбинация

Lk=ckmk

где ck k = 1,2,......,l- константы, однозначно определяемые из формулировки проверяемых гипотез, причем ck = 0 . Оценка Lk равна Lk* =ckx*k, а оценка дисперсии Lk* равна

S2LK = D[Lk*] = *2 (c2k/nk) = Q2/(n-l) (c2k/nk)

Границы доверительного интервала для Lk имеют вид

Lk* SLK [(l-1) F1-(l-1,n-l)]1/2

Практическая часть

1)Уравнения регрессии Y на X y=*0 +*1x и X на Y x=*0 +*1y

Объем выборки n=50. Предварительно вычислим

xi = 287,21, yi = 896,06 , x2i = 1778,5947 , y2i = 16099,5576 , xiyi = 5201,0637

Тогда по формуле (1)

x*== 5,7442 , y*==17,9212

Для контроля правильности вычислений используется тождество

(xi+yi)2= 28280,2797

x2i + 2 xiyi + y2i = 1778,5947+2*5201,0637+16099,5576=28280,2797

Следовательно, вычисления проведены верно . Предварительно найдем

Qx=1778,5947 - = 128,803

Qy=16099,5576 - = 41,0871

Qxy=5201,0637 - = 53,9158

Окончательно из соотношений (5) получаем

D*x=2,5761 , D*y = 0,8217

R=0,7411

По формулам (6) и (7) найдем оценки коэффициентов регрессии

1*= = 0,4185

0* = = 15,5172

1*= =1,3122

0*==-17,7720

Таким образом, выборочная линейная регрессия Y на Х имеет вид:

y=15,5172+0,4185*x

выборочная линейная регрессия X на Y:

x=-17,7720+1,3122 *y

Точка пересечения (5,7442 ; 17,9212)

2)Вычисление ei , Qe , Qr , S2 , R2, rxy

Вычисляем остатки:

ei = yi - y i, i = 1,2,......,n . Все остатки приведены в таблице 1.

Находим остаточную сумму квадратов Qe

Qe = e2i=18,5184

двумерный выборочный дисперсионный регрессия

По формуле (15) находим сумму квадратов, обусловленную регрессией Qr

Qr= Qy -Qe = 41,0871-18,5184=22,5687

Оценка дисперсии ошибок наблюдений по формуле (12) равна

S2=18,5184/(50-2)=0,3858

Коэффициент детерминации R2 по формуле (16)

R2= = 0,5493

Выборочный коэффициент корреляции

rxy= + (0,5493)1/2=0,7414

3)Доверительные интервалы

Значение квантили t1-/2(n-2)= t1-/2(48) = 1,678 (таблица П6)

Границы доверительных интервалов равны: для коэффициента 0*:

0* = 15,5172 0,5477

для коэффициента 1*

1* t1-/2(n-2) * s * []1/2 = 0,4185 0,0918

Границы доверительного интервала для значения Y0 соответствующего заданному значению переменной x=x0:

y0* t1-/2(n-2) * s *[ + ()]1/2 =

= y0* 1,0422*

Границы доверительного интервала для дисперсии ошибок наблюдений 2

< 2 <

0,2864 < 2 < 0,5578

Этот результат означает, что полученное уравнение регрессии на 54,93% объясняет общий разброс результатов наблюдений относительно горизонтальной прямой y=17,9212. Выборочный

4)Однофакторный дисперсионный анализ

Задача заключается в проверке гипотезы H0 : m1=m2 где mk- математическое ожидание чисел k-й группы. В нашем случае l=2,n=100.

Вычисления удобно проводить в такой последовательности

x . .= xik=287,21+896,06=1183,27

x2ik=1778,5947 + 16099,5576 =17878,1523

Далее из (17) и (18) получаем

Q=17878,1523 - = 3876,8733

Q1= =3706,9832

Q2 = Q - Q1=169,88

Найдем статистики S21 и S22

S21= = 3706,9832

S21= = 1,7335

Найдем выборочное значение статистики H0

Fв= = 2138,4385

Так как квантиль распределения Фишера F1-(1,n-2)= F0,9 (1,48)=2,84 , что меньше выборочного значения статистики Fв, то гипотеза H0 отклоняется на уровне значимости = 0,1.

Размещено на Allbest.ru

...

Подобные документы

  • Статистическое описание и выборочные характеристики двумерного случайного вектора. Оценка параметров линейной регрессии, полученных по методу наименьших квадратов. Проверка гипотезы о равенстве средних нормальных совокупностей при неизвестных дисперсиях.

    контрольная работа [242,1 K], добавлен 05.11.2011

  • Построение уравнения регрессии. Оценка параметров линейной парной регрессии. F-критерий Фишера и t-критерий Стьюдента. Точечный и интервальный прогноз по уравнению линейной регрессии. Расчет и оценка ошибки прогноза и его доверительного интервала.

    презентация [387,8 K], добавлен 25.05.2015

  • Вычисление среднего одномерных случайных величин. Определение доверительного интервала для математического ожидания и для дисперсии. Построение эмпирической и приближенной линий регрессии Y по X. Дисперсионный анализ греко-латынского куба второго порядка.

    курсовая работа [698,0 K], добавлен 08.05.2012

  • Построение линейной множественной регрессии для моделирования потребления продукта в разных географических районах. Расчет оценки дисперсии случайной составляющей. Вычисление и корректировка коэффициентов детерминации. Расчет доверительного интервала.

    контрольная работа [814,0 K], добавлен 19.12.2013

  • Знакомство с уравнениями линейной регрессии, рассмотрение распространенных способов решения. Общая характеристика метода наименьших квадратов. Особенности оценки статистической значимости парной линейной регрессии. Анализ транспонированной матрицы.

    контрольная работа [380,9 K], добавлен 05.04.2015

  • Понятие доверительного интервала, сущность и определение критерия согласия Пирсона. Особенности точечного оценивания неизвестных параметров, основные требования к оценкам и статистикам. Характеристика классической линейной модели регрессионного анализа.

    дипломная работа [440,4 K], добавлен 23.07.2013

  • Определение числовых характеристик производной случайной функции. Расчет корреляционной функции и дисперсии спектральной плотности. Группировка заданной выборки, построение выборочной функции распределения и гистограммы, доверительного интервала.

    контрольная работа [681,0 K], добавлен 02.06.2010

  • Понятие доверительной вероятности и доверительного интервала и его границ. Закон распределения оценки. Построение доверительного интервала, соответствующего доверительной вероятности для математического ожидания. Доверительный интервал для дисперсии.

    презентация [124,9 K], добавлен 01.11.2013

  • Построение статистических таблиц. Оценка достоверности влияния организованных и неучтенных факторов на величину результативного признака. Определение числа степеней свободы в однофакторном комплексе. Обработка двухфакторного дисперсионного комплекса.

    презентация [134,4 K], добавлен 14.04.2013

  • Проверка адекватности линейной регрессии. Вычисление выборочного коэффициента корреляции. Обработка одномерной выборки методами статистического анализа. Проверка гипотезы значимости с помощью критерия Пирсона. Составление линейной эмпирической регрессии.

    задача [409,0 K], добавлен 17.10.2012

  • Расчет эффективности ведения многоотраслевого хозяйства, отображение связей между отраслями в таблицах балансового анализа. Построение линейной математической модели экономического процесса, приводящей к понятию собственного вектора и значения матрицы.

    реферат [271,1 K], добавлен 17.01.2011

  • Оценка надежности аналитической методики. Дисперсионный анализ результатов опытов и аппроксимация результатов эксперимента. Расчет линейного уравнения связи. Определение полного квадратного уравнения. Вычисление типа и объема химического реактора.

    курсовая работа [229,2 K], добавлен 06.01.2015

  • Нахождение выборочной средней и дисперсии. Построение гистограммы продолжительности телефонных разговоров и нормальной кривой Гаусса. Нахождение групповых средних и коэффициента корреляции. Выборочные характеристики и параметры уравнений регрессии.

    контрольная работа [87,8 K], добавлен 30.11.2013

  • Сущность линейного программирования. Изучение математических методов решения экстремальных задач, которые характеризуются линейной зависимостью между переменными и линейной целевой функцией. Нахождение точек наибольшего или наименьшего значения функции.

    реферат [162,8 K], добавлен 20.05.2019

  • Составление математической модели для предприятия, характеризующей выручку предприятия "АВС" в зависимости от капиталовложений (млн. руб.) за последние 10 лет. Расчет поля корреляции, параметров линейной регрессии. Сводная таблица расчетов и вычислений.

    курсовая работа [862,4 K], добавлен 06.05.2009

  • Cтатистический анализ зависимости давления. Построение диаграммы рассеивания и корреляционной таблицы. Вычисление параметров для уравнений линейной и параболической регрессии, выборочных параметров. Проверка гипотезы о нормальном распределении признака.

    курсовая работа [613,3 K], добавлен 24.10.2012

  • Значения коэффициента регрессии (b) и сводного члена уравнения регрессии (а). Определение стандартной ошибки предсказания являющейся мерой качества зависимости величин Y и х с помощью уравнения линейной регрессии. Значимость коэффициента регрессии.

    задача [133,0 K], добавлен 21.12.2008

  • Цели линейной модели множественной регрессии (прогноз, имитация, сценарий развития, управление). Анализ эконометрической сущности изучаемого явления на априорном этапе. Параметризация и сбор необходимой статистической информации, значимость коэффициентов.

    контрольная работа [68,7 K], добавлен 21.09.2009

  • Исследование зависимости потребления бензина в городе от количества автомобилей с помощью методов математической статистики. Построение диаграммы рассеивания и определение коэффициента корреляции. График уравнения линейной регрессии зависимости.

    курсовая работа [593,2 K], добавлен 28.06.2009

  • Построение модели множественной регрессии теоретических значений динамики ВВП, определение средней ошибки аппроксимации. Выбор фактора, оказывающего большее влияние. Построение парных моделей регрессии. Определение лучшей модели. Проверка предпосылок МНК.

    курсовая работа [352,9 K], добавлен 26.01.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.