Анализ данных в линейной регрессионной модели

Статистическое описание и выборочные характеристики двумерного случайного вектора. Однофакторный дисперсионный анализ. Границы доверительных интервалов для дисперсии ошибок наблюдений. Построение диаграммы рассеяния, квантиль распределения Фишера.

Рубрика Математика
Вид курсовая работа
Язык русский
Дата добавления 16.10.2017
Размер файла 29,8 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Московский Государственный Институт

Электронной Техники (ТУ)

Курсовая работа

По предмету: «Теория вероятностей и математическая статистика»

На тему: «Анализ данных в линейной регрессионной модели»

Выполнила: Лобанова А.Ю.

Москва, 2004 г

Содержание

1. Данные

2. Теоретическая часть

2.1 Статистическое описание и выборочные характеристики двумерного случайного вектора

2.2 Однофакторный дисперсионный анализ

3. Практическая часть

Список литературы

1. Данные

X

Y

Остатки

8,56

2,97

1,3610

6,67

-1,38

-0,8403

8,88

1,25

-0,7228

6,65

-1,62

-1,0575

8,67

2,23

0,4960

8,24

2,25

1,0048

8,22

1,15

-0,0724

7,29

1,96

1,7949

7,89

2,64

1,7927

7,82

-0,68

-1,4477

9,97

4,43

1,2180

7,67

-0,14

-0,7372

8,77

2,57

0,7223

7,51

2,02

1,6047

5,01

-3,22

-0,7931

9,91

4,19

1,0462

7,60

2,66

2,1424

9,45

1,94

-0,6808

7,60

-0,52

-1,0376

8,94

-0,11

-2,1510

7,86

-0,04

-0,8532

7,67

0,15

-0,4472

7,73

1,79

1,1246

6,87

0,21

0,5223

10,30

3,41

-0,1771

8,77

1,09

-0,7577

7,97

-0,21

-1,1482

8,53

-0,31

-1,8849

6,72

-1,48

-0,9971

8,59

2,09

0,4469

6,38

0,63

1,4994

7,94

1,64

0,7359

7,77

0,40

-0,3108

8,36

1,72

0,3384

7,35

-1,06

-1,2934

8,13

2,07

0,9499

7,04

-1,20

-1,0809

8,38

1,05

-0,3543

8,04

0,83

-0,1878

7,63

0,07

-0,4817

7,10

0,04

0,0909

8,10

1,28

0,1940

6,53

0,99

1,6889

9,44

1,89

-0,7194

8,72

1,67

-0,1209

8,72

1,02

-0,7709

8,09

0,68

-0,3946

8,51

1,59

0,0379

8,17

2,06

0,8944

7,88

0,65

-0,1859

2. Теоретическая часть

2.1 Статистическое описание и выборочные характеристики двумерного случайного вектора

Пусть (xi,yi), i = 1,2,......,n ,- выборка объема n из наблюдений случайного двумерного вектора (X,Y). Предварительное представление о двумерной генеральной совокупности можно получить, изображая элементы выборки точками на плоскости с выбранной декартовой прямоугольной системой координат. Это представление выборки называется диаграммой рассеивания.

Построить диаграмму рассеяния нанести на нее уравнения регрессии Y на X

y=*0 +*1x и X на Y x=*0 +*1y.

Сначала вычислим суммы

xi , yi ,x2i ,y2i , xiyi , (xi+yi)2

Для контроля правильности вычислений используется тождество

(xi+yi)2= x2i + 2 xiyi + y2i

Выборочные средние находятся по формулам

x*=*1,0=(1/n) xi , y*=*0,1=(1/n) yi .(1)

Затем вычисляются суммы квадратов отклонений от среднего и произведений отклонений от средних :

Qx=(xi - x*)2=x2i - (x)2i/n (2)

Qy=(yi - y*)2=y2i - (y)2i/n (3)

Qxy=(xi - x*)(yi - y*)=xiyi - (x i)(yi )/n (4)

Отсюда

D*x= (1/n) Qx , D*y= (1/n) Qy

R=(*1,1)/ (D*x D*y)1/2= (Qxy)/( Qx Qy)1/2 (5)

Выборочная линейная регрессия Y на X по выборке (xi , yi ), i= 1,......, n определяется уравнением

y=*0 +*1x= y* + r (D*y / D*x ) (x - x*)

Коэффициенты *0 и *1 называются выборочными коэффициентами регрессии. Они вычисляются по формулам

1*=[n xiyi - (x i)(yi )]/(n x2i - (xi)2 ) = Qxy / Qx (6)

0* = y*- 1*x* (7)

Аналогично определяется выборочная линейная регрессия X на Y:

x=*0 +*1y = x* + r (D*x / D*y ) (y - y*)

1*=[n xiyi - (x i)(yi )]/(n y2i - (yi)2 ) = Qxy / Qy (8)

0*= x*- *1y* (9)

Для контроля правильности расчетов используют соотношение

(1*1*)1/2= r (10)

Прямые

y=*0 +*1x , x=*0 +*1y

Пересекаются в точке с координатами (x*, y* )

Функция y=*0 +*1x определяет выборочную (эмпирическую ) регрессию Y на x. Последняя является оценкой предполагаемой (теоретической) регрессии по результатам наблюдений. Разности между наблюдаемыми значениями переменной Y при x=xi , i=1,2,....,n, и расчетными значениями yi=*0 +*1x называются остатками и обозначаются ei :

ei = yi - y i, i = 1,2,......,n (11)

Качество аппроксимации результатов наблюдений (xi,yi), i = 1,2,......,n , выборочной регрессии определяется величиной остаточной дисперсии , вычисляемой по формуле

S2= e2i /(n-2)=1/(n-2) [ yi - (*0 +*1xi)]2=Qe/(n-2) (12)

Величина Qe определяемая выражением

Qe = e2i= (yi - y i)2 (13)

Называется остаточной суммой квадратов.

В практических вычислениях остаточную сумму квадратов получают из тождества

(yi - y*i)2 = (yi - y*i )2 + (yi - yi) 2 (14)

Которое записывается в виде

Qy = Qr + Qe

где

Qy= (yi - y*i)2= y2i - n*(y*i )2,

Qr = (yi - y*i )2=*1 Qxy=2*1 Qx= Q2xy/ Qx (15)

Величина Qr называется суммой квадратов, обусловленной регрессией.

Полезной характеристикой линейной регрессии является коэффициент детерминации R2 , вычисляемый по формуле

R2= Qr / Qy =1 - (Qe / Qy) (16)

Коэффициент детерминации R2 равен той доле разброса результатов наблюдений (xi,yi), i = 1,2,......,n , относительно горизонтальной прямой y=y* , которая объсняется выборочной регрессией. Величина R= + (R2)1/2 является оценкой коэффициента корреляции между результатами наблюдений yi и вычисленными значениями yi , предсказываемыми регрессией , т.е.

R= p*yy= ryy

двумерный вектор дисперсионный интервал

В случае линейной регрессии Y на x (одной независимой переменной x) между коэффициентом R и выборочным коэффициентом корреляции rxy имеется следующее соотношение :

rxy = ( знак *1 ) R .

2.2 Однофакторный дисперсионный анализ

Пусть результаты наблюдений составляют l независимых выборок (групп), полученных из l нормально распределенных генеральных совокупностей, которые имеют, вообще говоря, различные средние m1 , m2 , ..... , ml и равные дисперсии 2. Проверяется гипотеза H0 о равенстве средних m1= m2 = ..... =ml. На практике такая задача возникает при исследовании влияния, которое оказывает изменение некоторого фактора на измеряемую величину. Например, если измерения проводятся на l различных приборах, то можно исследовать влияние фактора «прибор» на результаты измерений. В данном случае нас интересует вопрос, имеют ли различные приборы одну и ту же систематическую ошибку (гипотеза H0) . При l=2 для проверки гипотезы H0 используется известные критерии значимости. Если l>2, то для проверки гипотезы о равенстве l средних применяют однофакторный дисперсионный анализ, суть которого состоит в следующем.

Пусть xik обозначает i-й элемент k-й выборки, i = 1,2,......,n , k = 1,2,......,n, x*k-выборочное среднее k-й выборки, т.е.

x*k=(1/nk) xik = (1/n) x ..k

k*- общее выборочное среднее, т.е.

x*=(1/n) xik = (1/n) x

где n - общее число наблюдений, n= nk

Общая сумма квадратов отклонений наблюдений от общего среднего x* может быть представлена так :

( xik - x*)2= nk ( x*k - x*)2+ ( xik - x*k)2 (17)

Это основное тождество дисперсионного анализа. Запишем его в виде

Q=Q1+Q2 (18)

Где Q - общая сумма квадратов отклонений наблюдений от общего среднего, Q1 -сумма квадратов отклонений выборочных средних x*k от общего среднего x* (между группами), Q2-сумма квадратов отклонений наблюдений от выборочных средних групп (внутри групп).

Тождество (1) легко проверяется, если воспользоваться очевидным равенством

( xik - x*)= [( x*k - x*)+ ( xik - x*k)]

и учесть, что

( xik - x*k) ( x*k - x*)=0

в силу определения средних x*k и x*

Если верна гипотеза H0: m1= m2 = .....= ml, то статистики Q1/2 и Q2/2 независимы и имеют распределение 2 с l-1 и n-l степенями свободы. Следовательно, статистики S21= Q1/(l-1) и S22= Q2/(n-l) являются несмещенными оценками неизвестной дисперсии 2. Оценка S21 характеризует рассеяние групповых средних, а оценка S22-рассеяние внутри групп, которое обусловлено случайными вариациями результатов наблюдений. Значительное превышение величины S21 над значением величины S22 можно объяснить различием средних в группах. Отношение этих оценок имеет распределение Фишера с l-1 и n-l степенями свободы, т.е.

S21/S22= Q1/(l-1)Q2/(n-l)=F(l-1,n-l)

Статистика используется для проверки гипотезы H0: m1= m2 = .....= ml. Гипотеза H0 не противоречит результатам наблюдений, если выборочное значение Fв статистики меньше квантили F1-(l-1,n-l), т.е. если Fв< F1-(l-1,n-l). В этом случае x* и Q2/(n-l) являются несмещенными оценками параметров m и 2 .Если Fв< F1-(l-1,n-l), то гипотеза H0 отклоняется и следует считать, что среди средних m1, m2 , ....., ml имеется хотя бы два не равных друг другу.

Линейные контрасты. Если гипотеза о равенстве средних отклоняется, то требуется определить, какие именно группы имеют значимое различие средних. Для этих целей используется метод линейных контрастов. Линейный контраст Lk определяется как линейная комбинация

Lk=ckmk

где ck k = 1,2,......,l- константы, однозначно определяемые из формулировки проверяемых гипотез, причем ck = 0 . Оценка Lk равна Lk* =ckx*k, а оценка дисперсии Lk* равна

S2LK = D[Lk*] = *2 (c2k/nk) = Q2/(n-l) (c2k/nk)

Границы доверительного интервала для Lk имеют вид

Lk* SLK [(l-1) F1-(l-1,n-l)]1/2

3. Практическая часть

Уравнения регрессии Y на x y=*0 +*1x и X на y x=*0 +*1y

Объем выборки n=50. Предварительно вычислим

xi = 400,61, yi = 49,31, x2i = 3256,75 , y2i = 162,23 , xiyi = 448,49

Тогда по формуле (1)

x*== 8,0122 , y*==0,9862.

Для контроля правильности вычислений используется тождество

(xi+yi)2= 4315,96

x2i + 2 xiyi + y2i = 3256,75+2*448,49+162,23=4315,96

Следовательно, вычисления проведены верно. Предварительно найдем

Qx=3256,75 - = 46,98

Qy= 162,23 - = 113,6

Qxy=448,49 - = 53,4084

Окончательно из соотношений (5) получаем

D*x=(1/50)46,98= 0,9396 , D*y =(1/50) 113,6= 2,272

R= = 0,731

По формулам (6) и (7) найдем оценки коэффициентов регрессии

1*= = 1,1368

0* = 0,9862-1,1368*8,0122=-8,122

1*= =0,4701

0*=8,0122-0,4701 *0,9862=7,5486

Таким образом, выборочная линейная регрессия Y на Х имеет вид:

y=-8,122+1,1368*x

выборочная линейная регрессия X на Y:

x=7,5486+0,4701 *y.

Точка пересечения (8,011; 0,9851)

Вычисление ei , Qe , Qr , S2 , R2, rxy

Вычисляем остатки:

ei = yi - y i, i = 1,2,......,n . Все остатки приведены в таблице 1.

Находим остаточную сумму квадратов Qe

Qe = e2i=52,8853

По формуле (15) находим сумму квадратов, обусловленную регрессией Qr

Qr= Qy -Qe = 113,6-52,8853=60,7147

Оценка дисперсии ошибок наблюдений по формуле (12) равна

S2=52,8853/(50-2)=1,1018

Коэффициент детерминации R2 по формуле (16)

R2= = 0,5346

Выборочный коэффициент корреляции

rxy= + (0,5346)1/2=0,7312

Доверительные интервалы

Значение квантили t1-/2(n-2)= t1-/2(48) = 1,678 (таблица)

Границы доверительных интервалов равны: для коэффициента 0*:

0* = =-8,122 2,074

для коэффициента 1*

1* t1-/2(n-2) * s * []1/2 = 0,4185 0,2570

Границы доверительного интервала для значения Y0 соответствующего заданному значению переменной x=x0:

y0* t1-/2(n-2) * s *[ + ()]1/2 = y0* 1,774*

Границы доверительного интервала для дисперсии ошибок наблюдений 2

< 2 <

< 2 <

0,7972 < 2 < 1,9372

Однофакторный дисперсионный анализ

Задача заключается в проверке гипотезы H0 : m1=m2 где mk- математическое ожидание чисел k-й группы.В нашем случае l=2,n=50.

Вычисления удобно проводить в такой последовательности

x = xik=400,61+49,31=449,92

x2ik== 3256,75+162,23 =3418,98

Далее из (17) и (18) получаем

Q=3418,98 - = 1394,7

Q1= =1234,12

Q2 = Q - Q1=1394,7-1234,12=160,58

Найдем статистики S21 и S22

S21= = =1234,12

S22= = =3,345

Найдем выборочное значение статистики H0

Fв= = =368,94

Так как квантиль распределения Фишера F1-(1,n-2)= F0,9 (1,48)=2,84 , что меньше выборочного значения статистики Fв, то гипотеза H0 отклоняется на уровне значимости = 0,1.

Список литературы

1. Вуколов В.А., Лесин В.В.Лабораторный практикум по математической статистике.-М.:Изд.МИЭТа,1986.

2. Ефимов А.В. Сборник задач по математике для ВТУЗов. Теория вероятностей и математическая статистика. Часть 3.-М.:Наука,1990.

Размещено на Allbest.ru

...

Подобные документы

  • Статистическое описание и выборочные характеристики двумерного случайного вектора. Оценка параметров линейной регрессии, полученных по методу наименьших квадратов. Проверка гипотезы о равенстве средних нормальных совокупностей при неизвестных дисперсиях.

    контрольная работа [242,1 K], добавлен 05.11.2011

  • Моделирование случайной величины, распределённой по нормальному закону. Построение доверительных интервалов для математического ожидания и дисперсии, соответствующих доверительной вероятности. Оценка статистических характеристик случайного процесса.

    курсовая работа [744,3 K], добавлен 07.06.2010

  • Точечное оценивание основных числовых характеристик, функции и плотности распределения компонент многомерного случайного вектора. Статистическая проверка характера распределения. Особенности корреляционного анализа признаков этой математической категории.

    курсовая работа [1,1 M], добавлен 01.10.2013

  • Закон больших чисел. Нахождение точечных оценок. Построение неизвестной дисперсии погрешности измерений. Выборочная функция распределения. Теорема Ляпунова и распределение Стьюдента. Вычисление доверительных интервалов. Построение интервальных оценок.

    курсовая работа [4,3 M], добавлен 18.12.2011

  • Построение доверительных интервалов для математического ожидания и дисперсии, соответствующие вероятности. Исследование статистических характеристик случайной величины на основе выбора объема. Теоретическая и эмпирическая плотность распределения.

    курсовая работа [594,4 K], добавлен 02.01.2012

  • Построение статистических таблиц. Оценка достоверности влияния организованных и неучтенных факторов на величину результативного признака. Определение числа степеней свободы в однофакторном комплексе. Обработка двухфакторного дисперсионного комплекса.

    презентация [134,4 K], добавлен 14.04.2013

  • Понятие вариационного ряда, статистического распределения. Эмпирическая функция и основные характеристики математического ожидания выборочной дисперсии. Точечные и интервальные оценки распределений. Теория гипотез - аналог теории доверительных интервалов.

    контрольная работа [172,9 K], добавлен 22.11.2013

  • Порядок и принципы построения вариационного ряда. Расчет числовых характеристик статистического ряда. Построение полигона и гистограммы относительных частот, функции распределения. Вычисление асимметрии и эксцесса. Построение доверительных интервалов.

    контрольная работа [108,5 K], добавлен 03.10.2010

  • Доверительное оценивание параметров законов распределения (дисперсия, математическое ожидание), классический регрессионный анализ. Проверка гипотез, методики расчета доверительных интервалов и критериев согласия для различных числовых характеристик.

    курсовая работа [302,9 K], добавлен 25.07.2013

  • Вычисление среднего одномерных случайных величин. Определение доверительного интервала для математического ожидания и для дисперсии. Построение эмпирической и приближенной линий регрессии Y по X. Дисперсионный анализ греко-латынского куба второго порядка.

    курсовая работа [698,0 K], добавлен 08.05.2012

  • Функция распределения вероятностей двух случайных величин. Функция и плотность распределения вероятностей случайного вектора. Многомерное нормальное распределение. Коэффициент корреляции. Распределение вероятностей функции одной случайной величины.

    реферат [241,8 K], добавлен 03.12.2007

  • Дисперсионный анализ. Применение дисперсионного анализа в различных задачах и исследованиях. Дисперсионный анализ в контексте статистических методов. Векторные авторегрессии. Факторный анализ.

    курсовая работа [139,8 K], добавлен 29.05.2006

  • Проведение статистического анализа зависимости массы тела (кг) новорожденных детенышей гамадрилов от массы тела их матерей. Графическое представление экспериментальных данных. Определение границы доверительных интервалов для генеральных средних значений.

    контрольная работа [1,3 M], добавлен 18.01.2011

  • Обработка случайных выборок с нормальным законом распределения. Оценка коэффициентов регрессии и доверительных интервалов. Оценка значимости факторов по доверительным интервалам и корреляционного момента. Построение эмпирической интегральной функции.

    курсовая работа [135,7 K], добавлен 03.05.2011

  • Исследование точности прогнозирования случайного процесса с использованием метода наименьших квадратов. Анализ расхождения между трендом и прогнозом, последующая оценка близости распределения расхождений наблюдений и распределения сгенерированного шума.

    курсовая работа [1,0 M], добавлен 29.01.2010

  • Выборки к генеральной совокупности: оценка параметра и построение доверительных интервалов. Интервальный статистический ряд. Оценивание параметров распределения. Статистическая проверка гипотез. Гипотеза о нормальном распределении случайной величины.

    контрольная работа [391,1 K], добавлен 23.06.2012

  • Исследование влияния техногенного воздействия на структуру порового пространства, фильтрационно-емкостные свойства нефтенасыщенных коллекторов. Построение диаграммы рассеивания, гистограммы частот, корреляционной таблицы. Метод доверительных интервалов.

    курсовая работа [992,6 K], добавлен 06.04.2014

  • Нахождение выборочной средней и дисперсии. Построение гистограммы продолжительности телефонных разговоров и нормальной кривой Гаусса. Нахождение групповых средних и коэффициента корреляции. Выборочные характеристики и параметры уравнений регрессии.

    контрольная работа [87,8 K], добавлен 30.11.2013

  • Определение вероятность срабатывания устройств при аварии. Расчет математического ожидания, дисперсии и функции распределения по заданному ряду распределения. Построение интервального статистического ряда распределения значений статистических данных.

    контрольная работа [148,8 K], добавлен 12.02.2012

  • Расчет эффективности ведения многоотраслевого хозяйства, отображение связей между отраслями в таблицах балансового анализа. Построение линейной математической модели экономического процесса, приводящей к понятию собственного вектора и значения матрицы.

    реферат [271,1 K], добавлен 17.01.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.