Анализ данных в линейной регрессионной модели
Статистическое описание и выборочные характеристики двумерного случайного вектора. Построение диаграммы рассеяния. Однофакторный дисперсионный анализ. Определение линейного контраста и выборочной линейной регрессии. Расчет границ доверительного интервала.
Рубрика | Математика |
Вид | контрольная работа |
Язык | русский |
Дата добавления | 16.10.2017 |
Размер файла | 28,3 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Московский Государственный Институт
Электронной Техники (ТУ)
Курсовая работа по
"Теории вероятностей и математической статистике"
"Анализ данных в линейной регрессионной модели"
МОСКВА
2003 г
Данные
X |
Y |
Остатки |
|
6,15 |
18,94 |
0,849025 |
|
7,07 |
18,51 |
0,034005 |
|
7,35 |
18,46 |
-0,13318 |
|
8,16 |
18,58 |
-0,35216 |
|
3,73 |
16,18 |
-0,89821 |
|
5,67 |
17,84 |
-0,0501 |
|
4,95 |
17,42 |
-0,16878 |
|
4,11 |
17,19 |
-0,04724 |
|
7,81 |
19,05 |
0,264315 |
|
4,29 |
17,48 |
0,167435 |
|
6,68 |
17,91 |
-0,40278 |
|
3,25 |
16,82 |
-0,05732 |
|
6,49 |
18,44 |
0,206735 |
|
4,71 |
17,53 |
0,041665 |
|
3,25 |
17,29 |
0,412675 |
|
7,34 |
18,6 |
0,01101 |
|
7,4 |
18,96 |
0,3459 |
|
4,78 |
17,84 |
0,32237 |
|
6,18 |
18,82 |
0,71647 |
|
6,44 |
18,8 |
0,58766 |
|
6,45 |
17,73 |
-0,48653 |
|
7,58 |
18,57 |
-0,11943 |
|
6,18 |
17,74 |
-0,36353 |
|
7,53 |
19,89 |
1,221495 |
|
4,76 |
17,44 |
-0,06926 |
|
5,78 |
18,24 |
0,30387 |
|
6,97 |
19,01 |
0,575855 |
|
4,58 |
16,25 |
-1,18393 |
|
3,45 |
16,56 |
-0,40103 |
|
5,04 |
17,15 |
-0,47644 |
|
7,08 |
17,75 |
-0,73018 |
|
5,04 |
18,35 |
0,72356 |
|
4,92 |
16,77 |
-0,80622 |
|
5,82 |
17,41 |
-0,54287 |
|
6,31 |
18,71 |
0,552065 |
|
6,59 |
19,05 |
0,774885 |
|
9,11 |
17,32 |
-2,00974 |
|
9,91 |
19,65 |
-0,01454 |
|
5,78 |
18,22 |
0,28387 |
|
3,4 |
16,55 |
-0,3901 |
|
3,83 |
17,65 |
0,529945 |
|
4,75 |
17,86 |
0,354925 |
|
3,32 |
17,33 |
0,42338 |
|
5,82 |
17,16 |
-0,79287 |
|
4,79 |
17,42 |
-0,10181 |
|
5,13 |
16,54 |
-1,12411 |
|
8,63 |
19,92 |
0,791145 |
|
3,94 |
17,2 |
0,03391 |
|
5,21 |
18,57 |
0,872415 |
|
3,7 |
17,39 |
0,32435 |
Статистическое описание и выборочные характеристики двумерного случайного вектора
Пусть (xi,yi), i = 1,2,......,n ,- выборка объема n из наблюдений случайного двумерного вектора (X,Y). Предварительное представление о двумерной генеральной совокупности можно получить, изображая элементы выборки точками на плоскости с выбранной декартовой прямоугольной системой координат. Это представление выборки называется диаграммой рассеивания.
Построить диаграмму рассеяния нанести на нее уравнения регресси Y на X
y=*0 +*1x и X на Y x=*0 +*1y.
Сначала вычислим суммы
xi , yi ,x2i ,y2i , xiyi , (xi+yi)2
Для контроля правильности вычислений используется тождество
(xi+yi)2= x2i + 2 xiyi + y2i
Выборочные средние находятся по формулам
x*=*1,0=(1/n) xi , y*=*0,1=(1/n) yi . (1)
Затем вычисляются суммы квадратов отклонений от среднего и произведений отклонений от средних :
Qx=(xi - x*)2=x2i - (x)2i/n , (2)
Qy=(yi - y*)2=y2i - (y)2i/n , (3)
Qxy=(xi - x*)(yi - y*)=xiyi - (x i)(yi )/n , (4)
Отсюда
D*x= (1/n) Qx , D*y= (1/n) Qy ,
R=(*1,1)/ (D*x D*y)1/2= (Qxy)/( Qx Qy)1/2 (5)
Выборочная линейная регрессия Y на X по выборке (xi , yi ), i= 1,......, n определяется уравнением
y=*0 +*1x= y* + r (D*y / D*x ) (x - x*)
Коэффициенты *0 и *1 называются выборочными коэффициентами регрессии. Они вычисляются по формулам
1*=[n xiyi - (x i)(yi )]/(n x2i - (xi)2 ) = Qxy / Qx (6)
0* = y*- 1*x* (7)
Аналогично определяется выборочная линейная регрессия X на Y :
x=*0 +*1y = x* + r (D*x / D*y ) (y - y*)
1*=[n xiyi - (x i)(yi )]/(n y2i - (yi)2 ) = Qxy / Qy (8)
0*= x*- *1y* (9)
Для контроля правильности расчетов используют соотношение
(1*1*)1/2= r (10)
Прямые
y=*0 +*1x , x=*0 +*1y
Пересекаются в точке с координатами (x*, y* )
Функция y=*0 +*1x
Определяет выборочную (эмпирическую ) регрессию Y на x. Последняя является оценкой предполагаемой (теоретической) регрессии по результатам наблюдений. Разности между наблюдаемыми значениями переменной Y при x=xi , i=1,2,....,n, и расчетными значениями yi=*0 +*1x называются остатками и обозначаются ei :
ei = yi - y i, i = 1,2,......,n . (11)
Качество аппроксимации результатов наблюдений (xi,yi), i = 1,2,......,n , выборочной регрессии определяется величиной остаточной дисперсии , вычисляемой по формуле
S2= e2i /(n-2)=1/(n-2) [ yi - (*0 +*1xi)]2=Qe/(n-2) (12)
Величина Qe определяемая выражением
Qe = e2i= (yi - y i)2 (13)
Называется остаточной суммой квадратов.
В практических вычислениях остаточную сумму квадратов получают из тождества
(yi - y*i)2 = (yi - y*i )2 + (yi - yi) 2 (14)
Которое записывается в виде
Qy = Qr + Qe , где
Qy= (yi - y*i)2= y2i - n*(y*i )2,
Qr = (yi - y*i )2=*1 Qxy=2*1 Qx= Q2xy/ Qx (15)
Величина Qr называется суммой квадратов, обусловленной регрессией регрессией.
Полезной характеристокой линейной регрессии является коэффициент детерминации R2 , вычисляемый по формуле
R2= Qr / Qy =1 - (Qe / Qy) (16)
Коэффициент детерминации R2 равен той доле разброса результатов наблюдений (xi,yi), i = 1,2,......,n , относительно горизонтальной прямой y=y* , которая объсняется выборочной регрессией .
Величина R= + (R2)1/2 является оценкой коэффициента корреляции между результатами наблюдений yi и вычисленными значениями yi , предсказываемыми регрессией , т.е.
R= p*yy= ryy
В случае линейной регрессии Y на x (одной независимой переменной x) между коэффициентом R и выборочным коэффициентом корреляции rxy имеется следующее соотношение :
rxy = ( знак *1 ) R .
Однофакторный дисперсионный анализ
Пусть результаты наблюдений составляют l независимых выборок ( групп ), полученных из l нормально распределенных генеральных совокупностей, которые имеют, вообще говоря, различные средние m1 , m2 , ..... , ml и равные дисперсии 2. Проверяется гипотеза о равенстве средних H0 m1= m2 = ..... =ml. На практике такая задача возникает при исследовании влияния, которое оказывает изменение некоторого фактора на измеряемую величину. Например, если измерения проводятся на l различных приборах, то можно исследовать влияние фактора «прибор» на результаты измерений. В данном случае на синтересует вопрос, имеют ли различные приборы одну и ту же систематическую ошибку ( гипотеза H0 ) . При l=2 для проверки гипотезы H0 используется известные критерии значимости. Если l>2, то для проверки гипотезы о равенстве l средних применяют однофакторный дисперсионный анализ, суть которого состоит в следующем.
Пусть xik обозначает i-й элемент k-й выборки , i = 1,2,......,n , k = 1,2,......,n , x*k-выборочное среднее k-й выборки, т.е.
x*k=(1/nk) xik = (1/n) x ..k ,
k*- общее выборочное среднее, т.е.
x*=(1/n) xik = (1/n) x . . ,
где n - общее число наблюдений, n= nk
Общая сумма квадратов отклонений наблюдений от общего среднего x* может быть предтавлена так :
( xik - x*)2= nk ( x*k - x*)2+ ( xik - x*k)2 (17)
Это основное тождество дисперсионного анализа. Запишем его в виде
Q=Q1+Q2 (18)
Где Q- общая сумма квадратов отклонений наблюдений от общего среднего, Q1 - сумма квадратов отклонений выборочных средних x*k от общего среднего x* (между группами), Q2-сумма квадратов отклонений наблюдений от выборочных средних групп (внутри групп).
Тождество (1) легко проверяется , если воспользоваться очевидным равенством
( xik - x*)= [( x*k - x*)+ ( xik - x*k)]
и учесть, что
( xik - x*k) ( x*k - x*)=0
в силу определения средних x*k и x*
Если верна гипотеза H0: m1= m2 = .....= ml, то статистики Q1/2 и Q2/2 независимы и имеют распределение 2 с l-1 и n-l степенями свободы. Следовательно, статистики S21= Q1/(l-1) и S22= Q2/(n-l) являются несмещенными оценками неизвесной дисперсии 2. Оценка S21 характеризует рассеяние групповых средних, а оценка S22-рассеяние внутри групп, которое обусловленно случайными вариациями результатов наблюдений. Значительное превышение величины S21 над значением величины S22 можно объяснить различием средних в группах. Отношение этих оценок имеет распределение Фишера с l-1 и n-l степенями свободы, т.е.
S21/S22= Q1/(l-1)Q2/(n-l)=F(l-1,n-l)
Статистика используется для проверки гипотезы H0: m1= m2 = .....= ml. Гипотеза H0 не противоречит результатам наблюдений, если выборочное значение Fв статистики меньше квантили F1-(l-1,n-l) , т.е. если Fв< F1-(l-1,n-l). В этом случае x* и Q2/(n-l) являются несмещенными оценками параметров m и 2 .Если Fв< F1-(l-1,n-l), то гипотеза H0 отклоняется и следует считать, что среди средних m1, m2 , ....., ml имеется хотя бы два не равных друг другу.
Линейные контрасты
Если гипотеза о равенстве средних отклоняется, то требуется определить, какие именно группы имеют значимое различие средних. Для этих целей используется метод линейных контрастов. Линейный контраст Lk определяется как линейная комбинация
Lk=ckmk
где ck k = 1,2,......,l- константы, однозначно определяемые из формулировки проверяемых гипотез, причем ck = 0 . Оценка Lk равна Lk* =ckx*k, а оценка дисперсии Lk* равна
S2LK = D[Lk*] = *2 (c2k/nk) = Q2/(n-l) (c2k/nk)
Границы доверительного интервала для Lk имеют вид
Lk* SLK [(l-1) F1-(l-1,n-l)]1/2
Практическая часть
1)Уравнения регрессии Y на X y=*0 +*1x и X на Y x=*0 +*1y
Объем выборки n=50. Предварительно вычислим
xi = 287,21, yi = 896,06 , x2i = 1778,5947 , y2i = 16099,5576 , xiyi = 5201,0637
Тогда по формуле (1)
x*== 5,7442 , y*==17,9212
Для контроля правильности вычислений используется тождество
(xi+yi)2= 28280,2797
x2i + 2 xiyi + y2i = 1778,5947+2*5201,0637+16099,5576=28280,2797
Следовательно, вычисления проведены верно . Предварительно найдем
Qx=1778,5947 - = 128,803
Qy=16099,5576 - = 41,0871
Qxy=5201,0637 - = 53,9158
Окончательно из соотношений (5) получаем
D*x=2,5761 , D*y = 0,8217
R=0,7411
По формулам (6) и (7) найдем оценки коэффициентов регрессии
1*= = 0,4185
0* = = 15,5172
1*= =1,3122
0*==-17,7720
Таким образом, выборочная линейная регрессия Y на Х имеет вид:
y=15,5172+0,4185*x
выборочная линейная регрессия X на Y:
x=-17,7720+1,3122 *y
Точка пересечения (5,7442 ; 17,9212)
2)Вычисление ei , Qe , Qr , S2 , R2, rxy
Вычисляем остатки:
ei = yi - y i, i = 1,2,......,n . Все остатки приведены в таблице 1.
Находим остаточную сумму квадратов Qe
Qe = e2i=18,5184
двумерный выборочный дисперсионный регрессия
По формуле (15) находим сумму квадратов, обусловленную регрессией Qr
Qr= Qy -Qe = 41,0871-18,5184=22,5687
Оценка дисперсии ошибок наблюдений по формуле (12) равна
S2=18,5184/(50-2)=0,3858
Коэффициент детерминации R2 по формуле (16)
R2= = 0,5493
Выборочный коэффициент корреляции
rxy= + (0,5493)1/2=0,7414
3)Доверительные интервалы
Значение квантили t1-/2(n-2)= t1-/2(48) = 1,678 (таблица П6)
Границы доверительных интервалов равны: для коэффициента 0*:
0* = 15,5172 0,5477
для коэффициента 1*
1* t1-/2(n-2) * s * []1/2 = 0,4185 0,0918
Границы доверительного интервала для значения Y0 соответствующего заданному значению переменной x=x0:
y0* t1-/2(n-2) * s *[ + ()]1/2 =
= y0* 1,0422*
Границы доверительного интервала для дисперсии ошибок наблюдений 2
< 2 <
0,2864 < 2 < 0,5578
Этот результат означает, что полученное уравнение регрессии на 54,93% объясняет общий разброс результатов наблюдений относительно горизонтальной прямой y=17,9212. Выборочный
4)Однофакторный дисперсионный анализ
Задача заключается в проверке гипотезы H0 : m1=m2 где mk- математическое ожидание чисел k-й группы. В нашем случае l=2,n=100.
Вычисления удобно проводить в такой последовательности
x . .= xik=287,21+896,06=1183,27
x2ik=1778,5947 + 16099,5576 =17878,1523
Далее из (17) и (18) получаем
Q=17878,1523 - = 3876,8733
Q1= =3706,9832
Q2 = Q - Q1=169,88
Найдем статистики S21 и S22
S21= = 3706,9832
S21= = 1,7335
Найдем выборочное значение статистики H0
Fв= = 2138,4385
Так как квантиль распределения Фишера F1-(1,n-2)= F0,9 (1,48)=2,84 , что меньше выборочного значения статистики Fв, то гипотеза H0 отклоняется на уровне значимости = 0,1.
Размещено на Allbest.ru
...Подобные документы
Статистическое описание и выборочные характеристики двумерного случайного вектора. Оценка параметров линейной регрессии, полученных по методу наименьших квадратов. Проверка гипотезы о равенстве средних нормальных совокупностей при неизвестных дисперсиях.
контрольная работа [242,1 K], добавлен 05.11.2011Построение уравнения регрессии. Оценка параметров линейной парной регрессии. F-критерий Фишера и t-критерий Стьюдента. Точечный и интервальный прогноз по уравнению линейной регрессии. Расчет и оценка ошибки прогноза и его доверительного интервала.
презентация [387,8 K], добавлен 25.05.2015Вычисление среднего одномерных случайных величин. Определение доверительного интервала для математического ожидания и для дисперсии. Построение эмпирической и приближенной линий регрессии Y по X. Дисперсионный анализ греко-латынского куба второго порядка.
курсовая работа [698,0 K], добавлен 08.05.2012Построение линейной множественной регрессии для моделирования потребления продукта в разных географических районах. Расчет оценки дисперсии случайной составляющей. Вычисление и корректировка коэффициентов детерминации. Расчет доверительного интервала.
контрольная работа [814,0 K], добавлен 19.12.2013Знакомство с уравнениями линейной регрессии, рассмотрение распространенных способов решения. Общая характеристика метода наименьших квадратов. Особенности оценки статистической значимости парной линейной регрессии. Анализ транспонированной матрицы.
контрольная работа [380,9 K], добавлен 05.04.2015Понятие доверительного интервала, сущность и определение критерия согласия Пирсона. Особенности точечного оценивания неизвестных параметров, основные требования к оценкам и статистикам. Характеристика классической линейной модели регрессионного анализа.
дипломная работа [440,4 K], добавлен 23.07.2013Определение числовых характеристик производной случайной функции. Расчет корреляционной функции и дисперсии спектральной плотности. Группировка заданной выборки, построение выборочной функции распределения и гистограммы, доверительного интервала.
контрольная работа [681,0 K], добавлен 02.06.2010Понятие доверительной вероятности и доверительного интервала и его границ. Закон распределения оценки. Построение доверительного интервала, соответствующего доверительной вероятности для математического ожидания. Доверительный интервал для дисперсии.
презентация [124,9 K], добавлен 01.11.2013Построение статистических таблиц. Оценка достоверности влияния организованных и неучтенных факторов на величину результативного признака. Определение числа степеней свободы в однофакторном комплексе. Обработка двухфакторного дисперсионного комплекса.
презентация [134,4 K], добавлен 14.04.2013Проверка адекватности линейной регрессии. Вычисление выборочного коэффициента корреляции. Обработка одномерной выборки методами статистического анализа. Проверка гипотезы значимости с помощью критерия Пирсона. Составление линейной эмпирической регрессии.
задача [409,0 K], добавлен 17.10.2012Расчет эффективности ведения многоотраслевого хозяйства, отображение связей между отраслями в таблицах балансового анализа. Построение линейной математической модели экономического процесса, приводящей к понятию собственного вектора и значения матрицы.
реферат [271,1 K], добавлен 17.01.2011Оценка надежности аналитической методики. Дисперсионный анализ результатов опытов и аппроксимация результатов эксперимента. Расчет линейного уравнения связи. Определение полного квадратного уравнения. Вычисление типа и объема химического реактора.
курсовая работа [229,2 K], добавлен 06.01.2015Нахождение выборочной средней и дисперсии. Построение гистограммы продолжительности телефонных разговоров и нормальной кривой Гаусса. Нахождение групповых средних и коэффициента корреляции. Выборочные характеристики и параметры уравнений регрессии.
контрольная работа [87,8 K], добавлен 30.11.2013Сущность линейного программирования. Изучение математических методов решения экстремальных задач, которые характеризуются линейной зависимостью между переменными и линейной целевой функцией. Нахождение точек наибольшего или наименьшего значения функции.
реферат [162,8 K], добавлен 20.05.2019Составление математической модели для предприятия, характеризующей выручку предприятия "АВС" в зависимости от капиталовложений (млн. руб.) за последние 10 лет. Расчет поля корреляции, параметров линейной регрессии. Сводная таблица расчетов и вычислений.
курсовая работа [862,4 K], добавлен 06.05.2009Cтатистический анализ зависимости давления. Построение диаграммы рассеивания и корреляционной таблицы. Вычисление параметров для уравнений линейной и параболической регрессии, выборочных параметров. Проверка гипотезы о нормальном распределении признака.
курсовая работа [613,3 K], добавлен 24.10.2012Значения коэффициента регрессии (b) и сводного члена уравнения регрессии (а). Определение стандартной ошибки предсказания являющейся мерой качества зависимости величин Y и х с помощью уравнения линейной регрессии. Значимость коэффициента регрессии.
задача [133,0 K], добавлен 21.12.2008Цели линейной модели множественной регрессии (прогноз, имитация, сценарий развития, управление). Анализ эконометрической сущности изучаемого явления на априорном этапе. Параметризация и сбор необходимой статистической информации, значимость коэффициентов.
контрольная работа [68,7 K], добавлен 21.09.2009Исследование зависимости потребления бензина в городе от количества автомобилей с помощью методов математической статистики. Построение диаграммы рассеивания и определение коэффициента корреляции. График уравнения линейной регрессии зависимости.
курсовая работа [593,2 K], добавлен 28.06.2009Построение модели множественной регрессии теоретических значений динамики ВВП, определение средней ошибки аппроксимации. Выбор фактора, оказывающего большее влияние. Построение парных моделей регрессии. Определение лучшей модели. Проверка предпосылок МНК.
курсовая работа [352,9 K], добавлен 26.01.2010