Анализ данных в линейной регрессионной модели
Статистическое описание и выборочные характеристики двумерного случайного вектора. Однофакторный дисперсионный анализ. Границы доверительных интервалов для дисперсии ошибок наблюдений. Построение диаграммы рассеяния, квантиль распределения Фишера.
Рубрика | Математика |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 16.10.2017 |
Размер файла | 29,8 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Московский Государственный Институт
Электронной Техники (ТУ)
Курсовая работа
По предмету: «Теория вероятностей и математическая статистика»
На тему: «Анализ данных в линейной регрессионной модели»
Выполнила: Лобанова А.Ю.
Москва, 2004 г
Содержание
1. Данные
2. Теоретическая часть
2.1 Статистическое описание и выборочные характеристики двумерного случайного вектора
2.2 Однофакторный дисперсионный анализ
3. Практическая часть
Список литературы
1. Данные
X |
Y |
Остатки |
|
8,56 |
2,97 |
1,3610 |
|
6,67 |
-1,38 |
-0,8403 |
|
8,88 |
1,25 |
-0,7228 |
|
6,65 |
-1,62 |
-1,0575 |
|
8,67 |
2,23 |
0,4960 |
|
8,24 |
2,25 |
1,0048 |
|
8,22 |
1,15 |
-0,0724 |
|
7,29 |
1,96 |
1,7949 |
|
7,89 |
2,64 |
1,7927 |
|
7,82 |
-0,68 |
-1,4477 |
|
9,97 |
4,43 |
1,2180 |
|
7,67 |
-0,14 |
-0,7372 |
|
8,77 |
2,57 |
0,7223 |
|
7,51 |
2,02 |
1,6047 |
|
5,01 |
-3,22 |
-0,7931 |
|
9,91 |
4,19 |
1,0462 |
|
7,60 |
2,66 |
2,1424 |
|
9,45 |
1,94 |
-0,6808 |
|
7,60 |
-0,52 |
-1,0376 |
|
8,94 |
-0,11 |
-2,1510 |
|
7,86 |
-0,04 |
-0,8532 |
|
7,67 |
0,15 |
-0,4472 |
|
7,73 |
1,79 |
1,1246 |
|
6,87 |
0,21 |
0,5223 |
|
10,30 |
3,41 |
-0,1771 |
|
8,77 |
1,09 |
-0,7577 |
|
7,97 |
-0,21 |
-1,1482 |
|
8,53 |
-0,31 |
-1,8849 |
|
6,72 |
-1,48 |
-0,9971 |
|
8,59 |
2,09 |
0,4469 |
|
6,38 |
0,63 |
1,4994 |
|
7,94 |
1,64 |
0,7359 |
|
7,77 |
0,40 |
-0,3108 |
|
8,36 |
1,72 |
0,3384 |
|
7,35 |
-1,06 |
-1,2934 |
|
8,13 |
2,07 |
0,9499 |
|
7,04 |
-1,20 |
-1,0809 |
|
8,38 |
1,05 |
-0,3543 |
|
8,04 |
0,83 |
-0,1878 |
|
7,63 |
0,07 |
-0,4817 |
|
7,10 |
0,04 |
0,0909 |
|
8,10 |
1,28 |
0,1940 |
|
6,53 |
0,99 |
1,6889 |
|
9,44 |
1,89 |
-0,7194 |
|
8,72 |
1,67 |
-0,1209 |
|
8,72 |
1,02 |
-0,7709 |
|
8,09 |
0,68 |
-0,3946 |
|
8,51 |
1,59 |
0,0379 |
|
8,17 |
2,06 |
0,8944 |
|
7,88 |
0,65 |
-0,1859 |
2. Теоретическая часть
2.1 Статистическое описание и выборочные характеристики двумерного случайного вектора
Пусть (xi,yi), i = 1,2,......,n ,- выборка объема n из наблюдений случайного двумерного вектора (X,Y). Предварительное представление о двумерной генеральной совокупности можно получить, изображая элементы выборки точками на плоскости с выбранной декартовой прямоугольной системой координат. Это представление выборки называется диаграммой рассеивания.
Построить диаграмму рассеяния нанести на нее уравнения регрессии Y на X
y=*0 +*1x и X на Y x=*0 +*1y.
Сначала вычислим суммы
xi , yi ,x2i ,y2i , xiyi , (xi+yi)2
Для контроля правильности вычислений используется тождество
(xi+yi)2= x2i + 2 xiyi + y2i
Выборочные средние находятся по формулам
x*=*1,0=(1/n) xi , y*=*0,1=(1/n) yi .(1)
Затем вычисляются суммы квадратов отклонений от среднего и произведений отклонений от средних :
Qx=(xi - x*)2=x2i - (x)2i/n (2)
Qy=(yi - y*)2=y2i - (y)2i/n (3)
Qxy=(xi - x*)(yi - y*)=xiyi - (x i)(yi )/n (4)
Отсюда
D*x= (1/n) Qx , D*y= (1/n) Qy
R=(*1,1)/ (D*x D*y)1/2= (Qxy)/( Qx Qy)1/2 (5)
Выборочная линейная регрессия Y на X по выборке (xi , yi ), i= 1,......, n определяется уравнением
y=*0 +*1x= y* + r (D*y / D*x ) (x - x*)
Коэффициенты *0 и *1 называются выборочными коэффициентами регрессии. Они вычисляются по формулам
1*=[n xiyi - (x i)(yi )]/(n x2i - (xi)2 ) = Qxy / Qx (6)
0* = y*- 1*x* (7)
Аналогично определяется выборочная линейная регрессия X на Y:
x=*0 +*1y = x* + r (D*x / D*y ) (y - y*)
1*=[n xiyi - (x i)(yi )]/(n y2i - (yi)2 ) = Qxy / Qy (8)
0*= x*- *1y* (9)
Для контроля правильности расчетов используют соотношение
(1*1*)1/2= r (10)
Прямые
y=*0 +*1x , x=*0 +*1y
Пересекаются в точке с координатами (x*, y* )
Функция y=*0 +*1x определяет выборочную (эмпирическую ) регрессию Y на x. Последняя является оценкой предполагаемой (теоретической) регрессии по результатам наблюдений. Разности между наблюдаемыми значениями переменной Y при x=xi , i=1,2,....,n, и расчетными значениями yi=*0 +*1x называются остатками и обозначаются ei :
ei = yi - y i, i = 1,2,......,n (11)
Качество аппроксимации результатов наблюдений (xi,yi), i = 1,2,......,n , выборочной регрессии определяется величиной остаточной дисперсии , вычисляемой по формуле
S2= e2i /(n-2)=1/(n-2) [ yi - (*0 +*1xi)]2=Qe/(n-2) (12)
Величина Qe определяемая выражением
Qe = e2i= (yi - y i)2 (13)
Называется остаточной суммой квадратов.
В практических вычислениях остаточную сумму квадратов получают из тождества
(yi - y*i)2 = (yi - y*i )2 + (yi - yi) 2 (14)
Которое записывается в виде
Qy = Qr + Qe
где
Qy= (yi - y*i)2= y2i - n*(y*i )2,
Qr = (yi - y*i )2=*1 Qxy=2*1 Qx= Q2xy/ Qx (15)
Величина Qr называется суммой квадратов, обусловленной регрессией.
Полезной характеристикой линейной регрессии является коэффициент детерминации R2 , вычисляемый по формуле
R2= Qr / Qy =1 - (Qe / Qy) (16)
Коэффициент детерминации R2 равен той доле разброса результатов наблюдений (xi,yi), i = 1,2,......,n , относительно горизонтальной прямой y=y* , которая объсняется выборочной регрессией. Величина R= + (R2)1/2 является оценкой коэффициента корреляции между результатами наблюдений yi и вычисленными значениями yi , предсказываемыми регрессией , т.е.
R= p*yy= ryy
двумерный вектор дисперсионный интервал
В случае линейной регрессии Y на x (одной независимой переменной x) между коэффициентом R и выборочным коэффициентом корреляции rxy имеется следующее соотношение :
rxy = ( знак *1 ) R .
2.2 Однофакторный дисперсионный анализ
Пусть результаты наблюдений составляют l независимых выборок (групп), полученных из l нормально распределенных генеральных совокупностей, которые имеют, вообще говоря, различные средние m1 , m2 , ..... , ml и равные дисперсии 2. Проверяется гипотеза H0 о равенстве средних m1= m2 = ..... =ml. На практике такая задача возникает при исследовании влияния, которое оказывает изменение некоторого фактора на измеряемую величину. Например, если измерения проводятся на l различных приборах, то можно исследовать влияние фактора «прибор» на результаты измерений. В данном случае нас интересует вопрос, имеют ли различные приборы одну и ту же систематическую ошибку (гипотеза H0) . При l=2 для проверки гипотезы H0 используется известные критерии значимости. Если l>2, то для проверки гипотезы о равенстве l средних применяют однофакторный дисперсионный анализ, суть которого состоит в следующем.
Пусть xik обозначает i-й элемент k-й выборки, i = 1,2,......,n , k = 1,2,......,n, x*k-выборочное среднее k-й выборки, т.е.
x*k=(1/nk) xik = (1/n) x ..k
k*- общее выборочное среднее, т.е.
x*=(1/n) xik = (1/n) x
где n - общее число наблюдений, n= nk
Общая сумма квадратов отклонений наблюдений от общего среднего x* может быть представлена так :
( xik - x*)2= nk ( x*k - x*)2+ ( xik - x*k)2 (17)
Это основное тождество дисперсионного анализа. Запишем его в виде
Q=Q1+Q2 (18)
Где Q - общая сумма квадратов отклонений наблюдений от общего среднего, Q1 -сумма квадратов отклонений выборочных средних x*k от общего среднего x* (между группами), Q2-сумма квадратов отклонений наблюдений от выборочных средних групп (внутри групп).
Тождество (1) легко проверяется, если воспользоваться очевидным равенством
( xik - x*)= [( x*k - x*)+ ( xik - x*k)]
и учесть, что
( xik - x*k) ( x*k - x*)=0
в силу определения средних x*k и x*
Если верна гипотеза H0: m1= m2 = .....= ml, то статистики Q1/2 и Q2/2 независимы и имеют распределение 2 с l-1 и n-l степенями свободы. Следовательно, статистики S21= Q1/(l-1) и S22= Q2/(n-l) являются несмещенными оценками неизвестной дисперсии 2. Оценка S21 характеризует рассеяние групповых средних, а оценка S22-рассеяние внутри групп, которое обусловлено случайными вариациями результатов наблюдений. Значительное превышение величины S21 над значением величины S22 можно объяснить различием средних в группах. Отношение этих оценок имеет распределение Фишера с l-1 и n-l степенями свободы, т.е.
S21/S22= Q1/(l-1)Q2/(n-l)=F(l-1,n-l)
Статистика используется для проверки гипотезы H0: m1= m2 = .....= ml. Гипотеза H0 не противоречит результатам наблюдений, если выборочное значение Fв статистики меньше квантили F1-(l-1,n-l), т.е. если Fв< F1-(l-1,n-l). В этом случае x* и Q2/(n-l) являются несмещенными оценками параметров m и 2 .Если Fв< F1-(l-1,n-l), то гипотеза H0 отклоняется и следует считать, что среди средних m1, m2 , ....., ml имеется хотя бы два не равных друг другу.
Линейные контрасты. Если гипотеза о равенстве средних отклоняется, то требуется определить, какие именно группы имеют значимое различие средних. Для этих целей используется метод линейных контрастов. Линейный контраст Lk определяется как линейная комбинация
Lk=ckmk
где ck k = 1,2,......,l- константы, однозначно определяемые из формулировки проверяемых гипотез, причем ck = 0 . Оценка Lk равна Lk* =ckx*k, а оценка дисперсии Lk* равна
S2LK = D[Lk*] = *2 (c2k/nk) = Q2/(n-l) (c2k/nk)
Границы доверительного интервала для Lk имеют вид
Lk* SLK [(l-1) F1-(l-1,n-l)]1/2
3. Практическая часть
Уравнения регрессии Y на x y=*0 +*1x и X на y x=*0 +*1y
Объем выборки n=50. Предварительно вычислим
xi = 400,61, yi = 49,31, x2i = 3256,75 , y2i = 162,23 , xiyi = 448,49
Тогда по формуле (1)
x*== 8,0122 , y*==0,9862.
Для контроля правильности вычислений используется тождество
(xi+yi)2= 4315,96
x2i + 2 xiyi + y2i = 3256,75+2*448,49+162,23=4315,96
Следовательно, вычисления проведены верно. Предварительно найдем
Qx=3256,75 - = 46,98
Qy= 162,23 - = 113,6
Qxy=448,49 - = 53,4084
Окончательно из соотношений (5) получаем
D*x=(1/50)46,98= 0,9396 , D*y =(1/50) 113,6= 2,272
R= = 0,731
По формулам (6) и (7) найдем оценки коэффициентов регрессии
1*= = 1,1368
0* = 0,9862-1,1368*8,0122=-8,122
1*= =0,4701
0*=8,0122-0,4701 *0,9862=7,5486
Таким образом, выборочная линейная регрессия Y на Х имеет вид:
y=-8,122+1,1368*x
выборочная линейная регрессия X на Y:
x=7,5486+0,4701 *y.
Точка пересечения (8,011; 0,9851)
Вычисление ei , Qe , Qr , S2 , R2, rxy
Вычисляем остатки:
ei = yi - y i, i = 1,2,......,n . Все остатки приведены в таблице 1.
Находим остаточную сумму квадратов Qe
Qe = e2i=52,8853
По формуле (15) находим сумму квадратов, обусловленную регрессией Qr
Qr= Qy -Qe = 113,6-52,8853=60,7147
Оценка дисперсии ошибок наблюдений по формуле (12) равна
S2=52,8853/(50-2)=1,1018
Коэффициент детерминации R2 по формуле (16)
R2= = 0,5346
Выборочный коэффициент корреляции
rxy= + (0,5346)1/2=0,7312
Доверительные интервалы
Значение квантили t1-/2(n-2)= t1-/2(48) = 1,678 (таблица)
Границы доверительных интервалов равны: для коэффициента 0*:
0* = =-8,122 2,074
для коэффициента 1*
1* t1-/2(n-2) * s * []1/2 = 0,4185 0,2570
Границы доверительного интервала для значения Y0 соответствующего заданному значению переменной x=x0:
y0* t1-/2(n-2) * s *[ + ()]1/2 = y0* 1,774*
Границы доверительного интервала для дисперсии ошибок наблюдений 2
< 2 <
< 2 <
0,7972 < 2 < 1,9372
Однофакторный дисперсионный анализ
Задача заключается в проверке гипотезы H0 : m1=m2 где mk- математическое ожидание чисел k-й группы.В нашем случае l=2,n=50.
Вычисления удобно проводить в такой последовательности
x = xik=400,61+49,31=449,92
x2ik== 3256,75+162,23 =3418,98
Далее из (17) и (18) получаем
Q=3418,98 - = 1394,7
Q1= =1234,12
Q2 = Q - Q1=1394,7-1234,12=160,58
Найдем статистики S21 и S22
S21= = =1234,12
S22= = =3,345
Найдем выборочное значение статистики H0
Fв= = =368,94
Так как квантиль распределения Фишера F1-(1,n-2)= F0,9 (1,48)=2,84 , что меньше выборочного значения статистики Fв, то гипотеза H0 отклоняется на уровне значимости = 0,1.
Список литературы
1. Вуколов В.А., Лесин В.В.Лабораторный практикум по математической статистике.-М.:Изд.МИЭТа,1986.
2. Ефимов А.В. Сборник задач по математике для ВТУЗов. Теория вероятностей и математическая статистика. Часть 3.-М.:Наука,1990.
Размещено на Allbest.ru
...Подобные документы
Статистическое описание и выборочные характеристики двумерного случайного вектора. Оценка параметров линейной регрессии, полученных по методу наименьших квадратов. Проверка гипотезы о равенстве средних нормальных совокупностей при неизвестных дисперсиях.
контрольная работа [242,1 K], добавлен 05.11.2011Моделирование случайной величины, распределённой по нормальному закону. Построение доверительных интервалов для математического ожидания и дисперсии, соответствующих доверительной вероятности. Оценка статистических характеристик случайного процесса.
курсовая работа [744,3 K], добавлен 07.06.2010Точечное оценивание основных числовых характеристик, функции и плотности распределения компонент многомерного случайного вектора. Статистическая проверка характера распределения. Особенности корреляционного анализа признаков этой математической категории.
курсовая работа [1,1 M], добавлен 01.10.2013Закон больших чисел. Нахождение точечных оценок. Построение неизвестной дисперсии погрешности измерений. Выборочная функция распределения. Теорема Ляпунова и распределение Стьюдента. Вычисление доверительных интервалов. Построение интервальных оценок.
курсовая работа [4,3 M], добавлен 18.12.2011Построение доверительных интервалов для математического ожидания и дисперсии, соответствующие вероятности. Исследование статистических характеристик случайной величины на основе выбора объема. Теоретическая и эмпирическая плотность распределения.
курсовая работа [594,4 K], добавлен 02.01.2012Построение статистических таблиц. Оценка достоверности влияния организованных и неучтенных факторов на величину результативного признака. Определение числа степеней свободы в однофакторном комплексе. Обработка двухфакторного дисперсионного комплекса.
презентация [134,4 K], добавлен 14.04.2013Понятие вариационного ряда, статистического распределения. Эмпирическая функция и основные характеристики математического ожидания выборочной дисперсии. Точечные и интервальные оценки распределений. Теория гипотез - аналог теории доверительных интервалов.
контрольная работа [172,9 K], добавлен 22.11.2013Порядок и принципы построения вариационного ряда. Расчет числовых характеристик статистического ряда. Построение полигона и гистограммы относительных частот, функции распределения. Вычисление асимметрии и эксцесса. Построение доверительных интервалов.
контрольная работа [108,5 K], добавлен 03.10.2010Доверительное оценивание параметров законов распределения (дисперсия, математическое ожидание), классический регрессионный анализ. Проверка гипотез, методики расчета доверительных интервалов и критериев согласия для различных числовых характеристик.
курсовая работа [302,9 K], добавлен 25.07.2013Вычисление среднего одномерных случайных величин. Определение доверительного интервала для математического ожидания и для дисперсии. Построение эмпирической и приближенной линий регрессии Y по X. Дисперсионный анализ греко-латынского куба второго порядка.
курсовая работа [698,0 K], добавлен 08.05.2012Функция распределения вероятностей двух случайных величин. Функция и плотность распределения вероятностей случайного вектора. Многомерное нормальное распределение. Коэффициент корреляции. Распределение вероятностей функции одной случайной величины.
реферат [241,8 K], добавлен 03.12.2007Дисперсионный анализ. Применение дисперсионного анализа в различных задачах и исследованиях. Дисперсионный анализ в контексте статистических методов. Векторные авторегрессии. Факторный анализ.
курсовая работа [139,8 K], добавлен 29.05.2006Проведение статистического анализа зависимости массы тела (кг) новорожденных детенышей гамадрилов от массы тела их матерей. Графическое представление экспериментальных данных. Определение границы доверительных интервалов для генеральных средних значений.
контрольная работа [1,3 M], добавлен 18.01.2011Обработка случайных выборок с нормальным законом распределения. Оценка коэффициентов регрессии и доверительных интервалов. Оценка значимости факторов по доверительным интервалам и корреляционного момента. Построение эмпирической интегральной функции.
курсовая работа [135,7 K], добавлен 03.05.2011Исследование точности прогнозирования случайного процесса с использованием метода наименьших квадратов. Анализ расхождения между трендом и прогнозом, последующая оценка близости распределения расхождений наблюдений и распределения сгенерированного шума.
курсовая работа [1,0 M], добавлен 29.01.2010Выборки к генеральной совокупности: оценка параметра и построение доверительных интервалов. Интервальный статистический ряд. Оценивание параметров распределения. Статистическая проверка гипотез. Гипотеза о нормальном распределении случайной величины.
контрольная работа [391,1 K], добавлен 23.06.2012Исследование влияния техногенного воздействия на структуру порового пространства, фильтрационно-емкостные свойства нефтенасыщенных коллекторов. Построение диаграммы рассеивания, гистограммы частот, корреляционной таблицы. Метод доверительных интервалов.
курсовая работа [992,6 K], добавлен 06.04.2014Нахождение выборочной средней и дисперсии. Построение гистограммы продолжительности телефонных разговоров и нормальной кривой Гаусса. Нахождение групповых средних и коэффициента корреляции. Выборочные характеристики и параметры уравнений регрессии.
контрольная работа [87,8 K], добавлен 30.11.2013Определение вероятность срабатывания устройств при аварии. Расчет математического ожидания, дисперсии и функции распределения по заданному ряду распределения. Построение интервального статистического ряда распределения значений статистических данных.
контрольная работа [148,8 K], добавлен 12.02.2012Расчет эффективности ведения многоотраслевого хозяйства, отображение связей между отраслями в таблицах балансового анализа. Построение линейной математической модели экономического процесса, приводящей к понятию собственного вектора и значения матрицы.
реферат [271,1 K], добавлен 17.01.2011