Анализ данных в линейной регрессионной модели
Рассмотрение статистического описания и выборочных характеристик двумерного случайного вектора. Построение диаграммы рассеяния, нанесение на нее уравнения регрессии. Определение качества аппроксимации результатов наблюдений выборочной регрессии.
Рубрика | Математика |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 13.10.2017 |
Размер файла | 23,7 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Московский Государственный Институт
Электронной Техники (ТУ)
Курсовая работа по
Теории вероятностей и математической статистике
Анализ данных в линейной регрессионной модели
Выполнил:
Кудинов П.В.
ЭКТ-21
Преподаватель:
Ремарова Т.В.
МОСКВА
2003 г
Статистическое описание и выборочные характеристики двумерного случайного вектора.
Пусть (xi,yi), i = 1,2,......,n ,- выборка объема n из наблюдений случайного двумерного вектора (X,Y). Предварительное представление о двумерной генеральной совокупности можно получить, изображая элементы выборки точками на плоскости с выбранной декартовой прямоугольной системой координат. Это представление выборки называется диаграммой рассеивания.
Построить диаграмму рассеяния нанести на нее уравнения регрессии Y на X
y=*0 +*1x и X на Y x=*0 +*1y.
Сначала вычислим суммы
xi , yi ,x2i ,y2i , xiyi , (xi+yi)2
Для контроля правильности вычислений используется тождество
(xi+yi)2= x2i + 2 xiyi + y2i
Выборочные средние находятся по формулам
x*=*1,0=(1/n) xi , y*=*0,1=(1/n) yi . (1)
Затем вычисляются суммы квадратов отклонений от среднего и произведений отклонений от средних :
Qx=(xi - x*)2=x2i - (x)2i/n , (2)
Qy=(yi - y*)2=y2i - (y)2i/n , (3)
Qxy=(xi - x*)(yi - y*)=xiyi - (x i)(yi )/n , (4)
Отсюда
D*x= (1/n) Qx , D*y= (1/n) Qy ,
R=(*1,1)/ (D*x D*y)1/2= (Qxy)/( Qx Qy)1/2 (5)
Выборочная линейная регрессия Y на X по выборке (xi , yi ), i= 1,......, n определяется уравнением
y=*0 +*1x= y* + r (D*y / D*x ) (x - x*)
Коэффициенты *0 и *1 называются выборочными коэффициентами регрессии. Они вычисляются по формулам
1*=[n xiyi - (x i)(yi )]/(n x2i - (xi)2 ) = Qxy / Qx (6)
0* = y*- 1*x* (7)
Аналогично определяется выборочная линейная регрессия X на Y :
x=*0 +*1y = x* + r (D*x / D*y ) (y - y*)
1*=[n xiyi - (x i)(yi )]/(n y2i - (yi)2 ) = Qxy / Qy (8)
0*= x*- *1y* (9)
Для контроля правильности расчетов используют соотношение
(1*1*)1/2= r (10)
Прямые
y=*0 +*1x , x=*0 +*1y
Пересекаются в точке с координатами (x*, y* )
Функция y=*0 +*1x
Определяет выборочную (эмпирическую ) регрессию Y на x. Последняя является оценкой предполагаемой (теоретической) регрессии по результатам наблюдений. Разности между наблюдаемыми значениями переменной Y при x=xi , i=1,2,....,n, и расчетными значениями yi=*0 +*1x называются остатками и обозначаются ei :
ei = yi - y i, i = 1,2,......,n . Все остатки приведены в таблице 1. (11)
двумерный вектор регрессия выборочный
Качество аппроксимации результатов наблюдений (xi,yi), i = 1,2,......,n , выборочной регрессии определяется величиной остаточной дисперсии , вычисляемой по формуле
S2= e2i /(n-2)=1/(n-2) [ yi - (*0 +*1xi)]2=Qe/(n-2) (12)
Величина Qe определяемая выражением
Qe = e2i= (yi - y i)2 (13)
Называется остаточной суммой квадратов.
В практических вычислениях остаточную сумму квадратов получают из тождества
(yi - y*i)2 = (yi - y*i )2 + (yi - yi) 2 (14)
Которое записывается в виде
Qy = Qr + Qe , где
Qy= (yi - y*i)2= y2i - n*(y*i )2,
Qr = (yi - y*i )2=*1 Qxy=2*1 Qx= Q2xy/ Qx (15)
Величина Qr называется суммой квадратов, обусловленной регрессией
Полезной характеристикой линейной регрессии является коэффициент детерминации R2 , вычисляемый по формуле
R2= Qr / Qy =1 - (Qe / Qy) (16)
Коэффициент детерминации R2 равен той доле разброса результатов наблюдений (xi,yi), i = 1,2,......,n , относительно горизонтальной прямой y=y*, которая объясняется выборочной регрессией . Величина R= + (R2)1/2 является оценкой коэффициента корреляции между результатами наблюдений yi и вычисленными значениями yi , предсказываемыми регрессией , т.е.
R= p*yy= ryy
В случае линейной регрессии Y на x (одной независимой переменной x) между коэффициентом R и выборочным коэффициентом корреляции rxy имеется следующее соотношение :
rxy = ( знак *1 ) R .
Однофакторный дисперсионный анализ.
Пусть результаты наблюдений составляют l независимых выборок ( групп ), полученных из l нормально распределенных генеральных совокупностей, которые имеют, вообще говоря, различные средние m1 , m2 , ..... , ml и равные дисперсии 2. Проверяется гипотеза о равенстве средних H0 m1= m2 = ..... =ml. На практике такая задача возникает при исследовании влияния, которое оказывает изменение некоторого фактора на измеряемую величину. Например, если измерения проводятся на l различных приборах, то можно исследовать влияние фактора «прибор» на результаты измерений. В данном случае нас интересует вопрос, имеют ли различные приборы одну и ту же систематическую ошибку ( гипотеза H0 ) . При l=2 для проверки гипотезы H0 используется известные критерии значимости. Если l>2, то для проверки гипотезы о равенстве l средних применяют однофакторный дисперсионный анализ, суть которого состоит в следующем.
Пусть xik обозначает i-й элемент k-й выборки , i = 1,2,......,n , k = 1,2,......,n , x*k-выборочное среднее k-й выборки, т.е.
x*k=(1/nk) xik = (1/n) x ..k ,
k*- общее выборочное среднее, т.е.
x*=(1/n) xik = (1/n) x . . ,
где n - общее число наблюдений, n= nk
Общая сумма квадратов отклонений наблюдений от общего среднего x* может быть представлена так :
( xik - x*)2= nk ( x*k - x*)2+ ( xik - x*k)2 (17)
Это основное тождество дисперсионного анализа. Запишем его в виде
Q=Q1+Q2 (18)
Где Q- общая сумма квадратов отклонений наблюдений от общего среднего, Q1 - сумма квадратов отклонений выборочных средних x*k от общего среднего x* (между группами), Q2-сумма квадратов отклонений наблюдений от выборочных средних групп (внутри групп).
Тождество (1) легко проверяется , если воспользоваться очевидным равенством
( xik - x*)= [( x*k - x*)+ ( xik - x*k)]
и учесть, что ( xik - x*k) ( x*k - x*)=0
в силу определения средних x*k и x*
Если верна гипотеза H0: m1= m2 = .....= ml, то статистики Q1/2 и Q2/2 независимы и имеют распределение 2 с l-1 и n-l степенями свободы. Следовательно, статистики S21= Q1/(l-1) и S22= Q2/(n-l) являются несмещенными оценками неизвестной дисперсии 2. Оценка S21 характеризует рассеяние групповых средних, а оценка S22-рассеяние внутри групп, которое обусловлено случайными вариациями результатов наблюдений. Значительное превышение величины S21 над значением величины S22 можно объяснить различием средних в группах. Отношение этих оценок имеет распределение Фишера с l-1 и n-l степенями свободы, т.е.
S21/S22= Q1/(l-1)Q2/(n-l)=F(l-1,n-l)
Статистика используется для проверки гипотезы H0: m1= m2 = .....= ml. Гипотеза H0 не противоречит результатам наблюдений, если выборочное значение Fв статистики меньше квантили F1-(l-1,n-l) , т.е. если Fв< F1-(l-1,n-l). В этом случае x* и Q2/(n-l) являются несмещенными оценками параметров m и 2 .Если Fв< F1-(l-1,n-l), то гипотеза H0 отклоняется и следует считать, что среди средних m1, m2 , ....., ml имеется хотя бы два не равных друг другу.
Линейные контрасты
Если гипотеза о равенстве средних отклоняется, то требуется определить, какие именно группы имеют значимое различие средних. Для этих целей используется метод линейных контрастов. Линейный контраст Lk определяется как линейная комбинация
Lk=ckmk
где ck k = 1,2,......,l- константы, однозначно определяемые из формулировки проверяемых гипотез, причем ck = 0 . Оценка Lk равна Lk* =ckx*k, а оценка дисперсии Lk* равна
S2LK = D[Lk*] = *2 (c2k/nk) = Q2/(n-l) (c2k/nk)
Границы доверительного интервала для Lk имеют вид
Lk* SLK [(l-1) F1-(l-1,n-l)]1/2
Практическая часть
1)Уравнения регрессии Y на X y=*0 +*1x и X на Y x=*0 +*1y
Объем выборки n=50. Предварительно вычислим
xi = 400,61, yi = 43,31, x2i = 3256,75, y2i = 185,15 , xiyi = 402,02
Тогда по формуле (1)
x*== 8,0122, y*== 0,8662
Для контроля правильности вычислений используется тождество
(xi+yi)2= 4245,94
x2i + 2 xiyi + y2i = 3256,75+2*402,02+185,15=4245,94
Следовательно, вычисления проведены верно. Предварительно найдем
Qx=3256,75- = 46,9793
Qy=185,15 - = 147,6396
Qxy=402,02- = 53,9158
Окончательно из соотношений (5) получаем
D*x=0,9396, D*y = 2,9528
R=0,6606
По формулам (6) и (7) найдем оценки коэффициентов регрессии
1*= = 1,1710
0* = = -8,5161
1*= = 0,3726
0*== 7,6894
Таким образом, выборочная линейная регрессия Y на Х имеет вид:
y=-8,5161+1,1710*x
выборочная линейная регрессия X на Y:
x=7,6894+0,3726*y
Точка пересечения (8,0122; 0,8662)
2)Вычисление ei , Qe , Qr , S2 , R2, rxy
Вычисляем остатки:
ei = yi - y i, i = 1,2,......,n . Все остатки приведены в таблице 1.
Находим остаточную сумму квадратов Qe
Qe = e2i= 83,2197
По формуле (15) находим сумму квадратов, обусловленную регрессией Qr
Qr= Qy -Qe = 147,6396-83,2197=64,4199
Оценка дисперсии ошибок наблюдений по формуле (12) равна
S2=83,2197/(50-2)= 1,7337
Коэффициент детерминации R2 по формуле (16)
R2= = 0,4363
Выборочный коэффициент корреляции
rxy= + (0,4363)1/2=0,6606
3)Доверительные интервалы
Значение квантили t1-/2(n-2)= t1-/2(48) = 1,678 (таблица П6)
Границы доверительных интервалов равны: для коэффициента 0*:
0* = -8,5161 2,6016
для коэффициента 1*
1* t1-/2(n-2) * s * []1/2 = 1,1710 0,1818
Границы доверительного интервала для значения Y0 соответствующего заданному значению переменной x=x0:
y0* t1-/2(n-2) * s *[ + ()]1/2 = y0* 1,0422*
Границы доверительного интервала для дисперсии ошибок наблюдений 2
< 2 <
1,2869 < 2 < 2,5066
Этот результат означает, что полученное уравнение регрессии на 54,93% объясняет общий разброс результатов наблюдений относительно горизонтальной прямой y=17,9212. Выборочный
4)Однофакторный дисперсионный анализ
Задача заключается в проверке гипотезы H0 : m1=m2 где mk- математическое ожидание чисел k-й группы. В нашем случае l=2,n=100.
Вычисления удобно проводить в такой последовательности
x . .= xik=400,61+43,31 = 443,9200
x2ik=3256,75 + 185,15 = 3441,9
Далее из (17) и (18) получаем
Q=3441,9 - = 1471,2517
Q1= = 1276,6329
Q2 = Q - Q1= 194,6188
Найдем статистики S21 и S22
S21= = 1276,6329
S21= = 1,9859
Найдем выборочное значение статистики H0
Fв= = 642,85
Так как квантиль распределения Фишера F1-(1,n-2)= F0,9 (1,48)=2,84 , что меньше выборочного значения статистики Fв, то гипотеза H0 отклоняется на уровне значимости = 0,1.
Размещено на Allbest.ru
...Подобные документы
Статистическое описание и выборочные характеристики двумерного случайного вектора. Оценка параметров линейной регрессии, полученных по методу наименьших квадратов. Проверка гипотезы о равенстве средних нормальных совокупностей при неизвестных дисперсиях.
контрольная работа [242,1 K], добавлен 05.11.2011Значения коэффициента регрессии (b) и сводного члена уравнения регрессии (а). Определение стандартной ошибки предсказания являющейся мерой качества зависимости величин Y и х с помощью уравнения линейной регрессии. Значимость коэффициента регрессии.
задача [133,0 K], добавлен 21.12.2008Знакомство с уравнениями линейной регрессии, рассмотрение распространенных способов решения. Общая характеристика метода наименьших квадратов. Особенности оценки статистической значимости парной линейной регрессии. Анализ транспонированной матрицы.
контрольная работа [380,9 K], добавлен 05.04.2015Построение модели множественной регрессии теоретических значений динамики ВВП, определение средней ошибки аппроксимации. Выбор фактора, оказывающего большее влияние. Построение парных моделей регрессии. Определение лучшей модели. Проверка предпосылок МНК.
курсовая работа [352,9 K], добавлен 26.01.2010Построение уравнения регрессии. Оценка параметров линейной парной регрессии. F-критерий Фишера и t-критерий Стьюдента. Точечный и интервальный прогноз по уравнению линейной регрессии. Расчет и оценка ошибки прогноза и его доверительного интервала.
презентация [387,8 K], добавлен 25.05.2015Методика и основные этапы расчета параметров линейного уравнения парной регрессии с помощью программы Excel. Анализ качества построенной модели, с использованием коэффициента парной корреляции, коэффициента детерминации и средней ошибки аппроксимации.
лабораторная работа [22,3 K], добавлен 15.04.2014Проверка адекватности линейной регрессии. Вычисление выборочного коэффициента корреляции. Обработка одномерной выборки методами статистического анализа. Проверка гипотезы значимости с помощью критерия Пирсона. Составление линейной эмпирической регрессии.
задача [409,0 K], добавлен 17.10.2012Cтатистический анализ зависимости давления. Построение диаграммы рассеивания и корреляционной таблицы. Вычисление параметров для уравнений линейной и параболической регрессии, выборочных параметров. Проверка гипотезы о нормальном распределении признака.
курсовая работа [613,3 K], добавлен 24.10.2012Исследование зависимости потребления бензина в городе от количества автомобилей с помощью методов математической статистики. Построение диаграммы рассеивания и определение коэффициента корреляции. График уравнения линейной регрессии зависимости.
курсовая работа [593,2 K], добавлен 28.06.2009Цели линейной модели множественной регрессии (прогноз, имитация, сценарий развития, управление). Анализ эконометрической сущности изучаемого явления на априорном этапе. Параметризация и сбор необходимой статистической информации, значимость коэффициентов.
контрольная работа [68,7 K], добавлен 21.09.2009Построение многофакторной корреляционно-регрессионной модели доходности предприятия: оценка параметров функции регрессии, анализ факторов на управляемость, экономическая интерпретация модели. Прогнозирование доходности на основе временных рядов.
дипломная работа [5,1 M], добавлен 28.06.2011Предпосылки корреляционного анализа - математико-статистического метода выявления взаимозависимости компонентов многомерной случайной величины и оценки их связи. Точечные оценки параметров двумерного распределения. Аппроксимация уравнений регрессии.
контрольная работа [648,3 K], добавлен 03.04.2011Определение частных производных первого и второго порядков заданной функции, эластичности спроса, основываясь на свойствах функции спроса. Выравнивание данных по прямой методом наименьших квадратов. Расчет параметров уравнения линейной парной регрессии.
контрольная работа [99,4 K], добавлен 22.07.2009Точечное оценивание основных числовых характеристик, функции и плотности распределения компонент многомерного случайного вектора. Статистическая проверка характера распределения. Особенности корреляционного анализа признаков этой математической категории.
курсовая работа [1,1 M], добавлен 01.10.2013Методы составления закона распределения случайной величины. Вычисление средней арифметической и дисперсии распределения. Расчет средней квадратической ошибки бесповторной выборки. Построение эмпирических линий регрессии, поиск уравнения прямых регрессий.
контрольная работа [77,6 K], добавлен 20.07.2010Согласование выборочных распределений. Отбор статистических данных с помощью таблицы случайных чисел. Расчет числовых характеристик распределения выборочных частот. Проверка предположения, что распределение генеральной совокупности является нормальным.
курсовая работа [276,6 K], добавлен 19.01.2016Построение диаграммы рассеивания, полигонов, гистограмм нормированных относительных частот, эмпирических функций распределения по X и по Y. Параметры для уравнения параболической регрессии. Проверка гипотезы о нормальном распределении признака Х.
курсовая работа [511,8 K], добавлен 08.12.2013Построение теоретико-вероятностной модели исследуемого явления случайной величины математическими выводами. Реализация выборки статистической моделью, описывающей серию опытов. Точечная (выборочная) оценка неизвестного параметра и кривая регрессии.
курсовая работа [311,7 K], добавлен 10.04.2011Составление математической модели для предприятия, характеризующей выручку предприятия "АВС" в зависимости от капиталовложений (млн. руб.) за последние 10 лет. Расчет поля корреляции, параметров линейной регрессии. Сводная таблица расчетов и вычислений.
курсовая работа [862,4 K], добавлен 06.05.2009Обработка и анализ статистической информации. Выборочная теория; интервальные оценки и графическое представление параметров распределения. Точечные оценки характеристик положения и мер изменчивости. Корреляционная зависимость; уравнение регрессии.
курсовая работа [1023,9 K], добавлен 21.03.2015