Анализ данных в линейной регрессионной модели

Рассмотрение статистического описания и выборочных характеристик двумерного случайного вектора. Построение диаграммы рассеяния, нанесение на нее уравнения регрессии. Определение качества аппроксимации результатов наблюдений выборочной регрессии.

Рубрика Математика
Вид курсовая работа
Язык русский
Дата добавления 13.10.2017
Размер файла 23,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Московский Государственный Институт

Электронной Техники (ТУ)

Курсовая работа по

Теории вероятностей и математической статистике

Анализ данных в линейной регрессионной модели

Выполнил:

Кудинов П.В.

ЭКТ-21

Преподаватель:

Ремарова Т.В.

МОСКВА

2003 г

Статистическое описание и выборочные характеристики двумерного случайного вектора.

Пусть (xi,yi), i = 1,2,......,n ,- выборка объема n из наблюдений случайного двумерного вектора (X,Y). Предварительное представление о двумерной генеральной совокупности можно получить, изображая элементы выборки точками на плоскости с выбранной декартовой прямоугольной системой координат. Это представление выборки называется диаграммой рассеивания.

Построить диаграмму рассеяния нанести на нее уравнения регрессии Y на X

y=*0 +*1x и X на Y x=*0 +*1y.

Сначала вычислим суммы

xi , yi ,x2i ,y2i , xiyi , (xi+yi)2

Для контроля правильности вычислений используется тождество

(xi+yi)2= x2i + 2 xiyi + y2i

Выборочные средние находятся по формулам

x*=*1,0=(1/n) xi , y*=*0,1=(1/n) yi . (1)

Затем вычисляются суммы квадратов отклонений от среднего и произведений отклонений от средних :

Qx=(xi - x*)2=x2i - (x)2i/n , (2)

Qy=(yi - y*)2=y2i - (y)2i/n , (3)

Qxy=(xi - x*)(yi - y*)=xiyi - (x i)(yi )/n , (4)

Отсюда

D*x= (1/n) Qx , D*y= (1/n) Qy ,

R=(*1,1)/ (D*x D*y)1/2= (Qxy)/( Qx Qy)1/2 (5)

Выборочная линейная регрессия Y на X по выборке (xi , yi ), i= 1,......, n определяется уравнением

y=*0 +*1x= y* + r (D*y / D*x ) (x - x*)

Коэффициенты *0 и *1 называются выборочными коэффициентами регрессии. Они вычисляются по формулам

1*=[n xiyi - (x i)(yi )]/(n x2i - (xi)2 ) = Qxy / Qx (6)

0* = y*- 1*x* (7)

Аналогично определяется выборочная линейная регрессия X на Y :

x=*0 +*1y = x* + r (D*x / D*y ) (y - y*)

1*=[n xiyi - (x i)(yi )]/(n y2i - (yi)2 ) = Qxy / Qy (8)

0*= x*- *1y* (9)

Для контроля правильности расчетов используют соотношение

(1*1*)1/2= r (10)

Прямые

y=*0 +*1x , x=*0 +*1y

Пересекаются в точке с координатами (x*, y* )

Функция y=*0 +*1x

Определяет выборочную (эмпирическую ) регрессию Y на x. Последняя является оценкой предполагаемой (теоретической) регрессии по результатам наблюдений. Разности между наблюдаемыми значениями переменной Y при x=xi , i=1,2,....,n, и расчетными значениями yi=*0 +*1x называются остатками и обозначаются ei :

ei = yi - y i, i = 1,2,......,n . Все остатки приведены в таблице 1. (11)

двумерный вектор регрессия выборочный

Качество аппроксимации результатов наблюдений (xi,yi), i = 1,2,......,n , выборочной регрессии определяется величиной остаточной дисперсии , вычисляемой по формуле

S2= e2i /(n-2)=1/(n-2) [ yi - (*0 +*1xi)]2=Qe/(n-2) (12)

Величина Qe определяемая выражением

Qe = e2i= (yi - y i)2 (13)

Называется остаточной суммой квадратов.

В практических вычислениях остаточную сумму квадратов получают из тождества

(yi - y*i)2 = (yi - y*i )2 + (yi - yi) 2 (14)

Которое записывается в виде

Qy = Qr + Qe , где

Qy= (yi - y*i)2= y2i - n*(y*i )2,

Qr = (yi - y*i )2=*1 Qxy=2*1 Qx= Q2xy/ Qx (15)

Величина Qr называется суммой квадратов, обусловленной регрессией

Полезной характеристикой линейной регрессии является коэффициент детерминации R2 , вычисляемый по формуле

R2= Qr / Qy =1 - (Qe / Qy) (16)

Коэффициент детерминации R2 равен той доле разброса результатов наблюдений (xi,yi), i = 1,2,......,n , относительно горизонтальной прямой y=y*, которая объясняется выборочной регрессией . Величина R= + (R2)1/2 является оценкой коэффициента корреляции между результатами наблюдений yi и вычисленными значениями yi , предсказываемыми регрессией , т.е.

R= p*yy= ryy

В случае линейной регрессии Y на x (одной независимой переменной x) между коэффициентом R и выборочным коэффициентом корреляции rxy имеется следующее соотношение :

rxy = ( знак *1 ) R .

Однофакторный дисперсионный анализ.

Пусть результаты наблюдений составляют l независимых выборок ( групп ), полученных из l нормально распределенных генеральных совокупностей, которые имеют, вообще говоря, различные средние m1 , m2 , ..... , ml и равные дисперсии 2. Проверяется гипотеза о равенстве средних H0 m1= m2 = ..... =ml. На практике такая задача возникает при исследовании влияния, которое оказывает изменение некоторого фактора на измеряемую величину. Например, если измерения проводятся на l различных приборах, то можно исследовать влияние фактора «прибор» на результаты измерений. В данном случае нас интересует вопрос, имеют ли различные приборы одну и ту же систематическую ошибку ( гипотеза H0 ) . При l=2 для проверки гипотезы H0 используется известные критерии значимости. Если l>2, то для проверки гипотезы о равенстве l средних применяют однофакторный дисперсионный анализ, суть которого состоит в следующем.

Пусть xik обозначает i-й элемент k-й выборки , i = 1,2,......,n , k = 1,2,......,n , x*k-выборочное среднее k-й выборки, т.е.

x*k=(1/nk) xik = (1/n) x ..k ,

k*- общее выборочное среднее, т.е.

x*=(1/n) xik = (1/n) x . . ,

где n - общее число наблюдений, n= nk

Общая сумма квадратов отклонений наблюдений от общего среднего x* может быть представлена так :

( xik - x*)2= nk ( x*k - x*)2+ ( xik - x*k)2 (17)

Это основное тождество дисперсионного анализа. Запишем его в виде

Q=Q1+Q2 (18)

Где Q- общая сумма квадратов отклонений наблюдений от общего среднего, Q1 - сумма квадратов отклонений выборочных средних x*k от общего среднего x* (между группами), Q2-сумма квадратов отклонений наблюдений от выборочных средних групп (внутри групп).

Тождество (1) легко проверяется , если воспользоваться очевидным равенством

( xik - x*)= [( x*k - x*)+ ( xik - x*k)]

и учесть, что ( xik - x*k) ( x*k - x*)=0

в силу определения средних x*k и x*

Если верна гипотеза H0: m1= m2 = .....= ml, то статистики Q1/2 и Q2/2 независимы и имеют распределение 2 с l-1 и n-l степенями свободы. Следовательно, статистики S21= Q1/(l-1) и S22= Q2/(n-l) являются несмещенными оценками неизвестной дисперсии 2. Оценка S21 характеризует рассеяние групповых средних, а оценка S22-рассеяние внутри групп, которое обусловлено случайными вариациями результатов наблюдений. Значительное превышение величины S21 над значением величины S22 можно объяснить различием средних в группах. Отношение этих оценок имеет распределение Фишера с l-1 и n-l степенями свободы, т.е.

S21/S22= Q1/(l-1)Q2/(n-l)=F(l-1,n-l)

Статистика используется для проверки гипотезы H0: m1= m2 = .....= ml. Гипотеза H0 не противоречит результатам наблюдений, если выборочное значение Fв статистики меньше квантили F1-(l-1,n-l) , т.е. если Fв< F1-(l-1,n-l). В этом случае x* и Q2/(n-l) являются несмещенными оценками параметров m и 2 .Если Fв< F1-(l-1,n-l), то гипотеза H0 отклоняется и следует считать, что среди средних m1, m2 , ....., ml имеется хотя бы два не равных друг другу.

Линейные контрасты

Если гипотеза о равенстве средних отклоняется, то требуется определить, какие именно группы имеют значимое различие средних. Для этих целей используется метод линейных контрастов. Линейный контраст Lk определяется как линейная комбинация

Lk=ckmk

где ck k = 1,2,......,l- константы, однозначно определяемые из формулировки проверяемых гипотез, причем ck = 0 . Оценка Lk равна Lk* =ckx*k, а оценка дисперсии Lk* равна

S2LK = D[Lk*] = *2 (c2k/nk) = Q2/(n-l) (c2k/nk)

Границы доверительного интервала для Lk имеют вид

Lk* SLK [(l-1) F1-(l-1,n-l)]1/2

Практическая часть

1)Уравнения регрессии Y на X y=*0 +*1x и X на Y x=*0 +*1y

Объем выборки n=50. Предварительно вычислим

xi = 400,61, yi = 43,31, x2i = 3256,75, y2i = 185,15 , xiyi = 402,02

Тогда по формуле (1)

x*== 8,0122, y*== 0,8662

Для контроля правильности вычислений используется тождество

(xi+yi)2= 4245,94

x2i + 2 xiyi + y2i = 3256,75+2*402,02+185,15=4245,94

Следовательно, вычисления проведены верно. Предварительно найдем

Qx=3256,75- = 46,9793

Qy=185,15 - = 147,6396

Qxy=402,02- = 53,9158

Окончательно из соотношений (5) получаем

D*x=0,9396, D*y = 2,9528

R=0,6606

По формулам (6) и (7) найдем оценки коэффициентов регрессии

1*= = 1,1710

0* = = -8,5161

1*= = 0,3726

0*== 7,6894

Таким образом, выборочная линейная регрессия Y на Х имеет вид:

y=-8,5161+1,1710*x

выборочная линейная регрессия X на Y:

x=7,6894+0,3726*y

Точка пересечения (8,0122; 0,8662)

2)Вычисление ei , Qe , Qr , S2 , R2, rxy

Вычисляем остатки:

ei = yi - y i, i = 1,2,......,n . Все остатки приведены в таблице 1.

Находим остаточную сумму квадратов Qe

Qe = e2i= 83,2197

По формуле (15) находим сумму квадратов, обусловленную регрессией Qr

Qr= Qy -Qe = 147,6396-83,2197=64,4199

Оценка дисперсии ошибок наблюдений по формуле (12) равна

S2=83,2197/(50-2)= 1,7337

Коэффициент детерминации R2 по формуле (16)

R2= = 0,4363

Выборочный коэффициент корреляции

rxy= + (0,4363)1/2=0,6606

3)Доверительные интервалы

Значение квантили t1-/2(n-2)= t1-/2(48) = 1,678 (таблица П6)

Границы доверительных интервалов равны: для коэффициента 0*:

0* = -8,5161 2,6016

для коэффициента 1*

1* t1-/2(n-2) * s * []1/2 = 1,1710 0,1818

Границы доверительного интервала для значения Y0 соответствующего заданному значению переменной x=x0:

y0* t1-/2(n-2) * s *[ + ()]1/2 = y0* 1,0422*

Границы доверительного интервала для дисперсии ошибок наблюдений 2

< 2 <

1,2869 < 2 < 2,5066

Этот результат означает, что полученное уравнение регрессии на 54,93% объясняет общий разброс результатов наблюдений относительно горизонтальной прямой y=17,9212. Выборочный

4)Однофакторный дисперсионный анализ

Задача заключается в проверке гипотезы H0 : m1=m2 где mk- математическое ожидание чисел k-й группы. В нашем случае l=2,n=100.

Вычисления удобно проводить в такой последовательности

x . .= xik=400,61+43,31 = 443,9200

x2ik=3256,75 + 185,15 = 3441,9

Далее из (17) и (18) получаем

Q=3441,9 - = 1471,2517

Q1= = 1276,6329

Q2 = Q - Q1= 194,6188

Найдем статистики S21 и S22

S21= = 1276,6329

S21= = 1,9859

Найдем выборочное значение статистики H0

Fв= = 642,85

Так как квантиль распределения Фишера F1-(1,n-2)= F0,9 (1,48)=2,84 , что меньше выборочного значения статистики Fв, то гипотеза H0 отклоняется на уровне значимости = 0,1.

Размещено на Allbest.ru

...

Подобные документы

  • Статистическое описание и выборочные характеристики двумерного случайного вектора. Оценка параметров линейной регрессии, полученных по методу наименьших квадратов. Проверка гипотезы о равенстве средних нормальных совокупностей при неизвестных дисперсиях.

    контрольная работа [242,1 K], добавлен 05.11.2011

  • Значения коэффициента регрессии (b) и сводного члена уравнения регрессии (а). Определение стандартной ошибки предсказания являющейся мерой качества зависимости величин Y и х с помощью уравнения линейной регрессии. Значимость коэффициента регрессии.

    задача [133,0 K], добавлен 21.12.2008

  • Знакомство с уравнениями линейной регрессии, рассмотрение распространенных способов решения. Общая характеристика метода наименьших квадратов. Особенности оценки статистической значимости парной линейной регрессии. Анализ транспонированной матрицы.

    контрольная работа [380,9 K], добавлен 05.04.2015

  • Построение модели множественной регрессии теоретических значений динамики ВВП, определение средней ошибки аппроксимации. Выбор фактора, оказывающего большее влияние. Построение парных моделей регрессии. Определение лучшей модели. Проверка предпосылок МНК.

    курсовая работа [352,9 K], добавлен 26.01.2010

  • Построение уравнения регрессии. Оценка параметров линейной парной регрессии. F-критерий Фишера и t-критерий Стьюдента. Точечный и интервальный прогноз по уравнению линейной регрессии. Расчет и оценка ошибки прогноза и его доверительного интервала.

    презентация [387,8 K], добавлен 25.05.2015

  • Методика и основные этапы расчета параметров линейного уравнения парной регрессии с помощью программы Excel. Анализ качества построенной модели, с использованием коэффициента парной корреляции, коэффициента детерминации и средней ошибки аппроксимации.

    лабораторная работа [22,3 K], добавлен 15.04.2014

  • Проверка адекватности линейной регрессии. Вычисление выборочного коэффициента корреляции. Обработка одномерной выборки методами статистического анализа. Проверка гипотезы значимости с помощью критерия Пирсона. Составление линейной эмпирической регрессии.

    задача [409,0 K], добавлен 17.10.2012

  • Cтатистический анализ зависимости давления. Построение диаграммы рассеивания и корреляционной таблицы. Вычисление параметров для уравнений линейной и параболической регрессии, выборочных параметров. Проверка гипотезы о нормальном распределении признака.

    курсовая работа [613,3 K], добавлен 24.10.2012

  • Исследование зависимости потребления бензина в городе от количества автомобилей с помощью методов математической статистики. Построение диаграммы рассеивания и определение коэффициента корреляции. График уравнения линейной регрессии зависимости.

    курсовая работа [593,2 K], добавлен 28.06.2009

  • Цели линейной модели множественной регрессии (прогноз, имитация, сценарий развития, управление). Анализ эконометрической сущности изучаемого явления на априорном этапе. Параметризация и сбор необходимой статистической информации, значимость коэффициентов.

    контрольная работа [68,7 K], добавлен 21.09.2009

  • Построение многофакторной корреляционно-регрессионной модели доходности предприятия: оценка параметров функции регрессии, анализ факторов на управляемость, экономическая интерпретация модели. Прогнозирование доходности на основе временных рядов.

    дипломная работа [5,1 M], добавлен 28.06.2011

  • Предпосылки корреляционного анализа - математико-статистического метода выявления взаимозависимости компонентов многомерной случайной величины и оценки их связи. Точечные оценки параметров двумерного распределения. Аппроксимация уравнений регрессии.

    контрольная работа [648,3 K], добавлен 03.04.2011

  • Определение частных производных первого и второго порядков заданной функции, эластичности спроса, основываясь на свойствах функции спроса. Выравнивание данных по прямой методом наименьших квадратов. Расчет параметров уравнения линейной парной регрессии.

    контрольная работа [99,4 K], добавлен 22.07.2009

  • Точечное оценивание основных числовых характеристик, функции и плотности распределения компонент многомерного случайного вектора. Статистическая проверка характера распределения. Особенности корреляционного анализа признаков этой математической категории.

    курсовая работа [1,1 M], добавлен 01.10.2013

  • Методы составления закона распределения случайной величины. Вычисление средней арифметической и дисперсии распределения. Расчет средней квадратической ошибки бесповторной выборки. Построение эмпирических линий регрессии, поиск уравнения прямых регрессий.

    контрольная работа [77,6 K], добавлен 20.07.2010

  • Согласование выборочных распределений. Отбор статистических данных с помощью таблицы случайных чисел. Расчет числовых характеристик распределения выборочных частот. Проверка предположения, что распределение генеральной совокупности является нормальным.

    курсовая работа [276,6 K], добавлен 19.01.2016

  • Построение диаграммы рассеивания, полигонов, гистограмм нормированных относительных частот, эмпирических функций распределения по X и по Y. Параметры для уравнения параболической регрессии. Проверка гипотезы о нормальном распределении признака Х.

    курсовая работа [511,8 K], добавлен 08.12.2013

  • Построение теоретико-вероятностной модели исследуемого явления случайной величины математическими выводами. Реализация выборки статистической моделью, описывающей серию опытов. Точечная (выборочная) оценка неизвестного параметра и кривая регрессии.

    курсовая работа [311,7 K], добавлен 10.04.2011

  • Составление математической модели для предприятия, характеризующей выручку предприятия "АВС" в зависимости от капиталовложений (млн. руб.) за последние 10 лет. Расчет поля корреляции, параметров линейной регрессии. Сводная таблица расчетов и вычислений.

    курсовая работа [862,4 K], добавлен 06.05.2009

  • Обработка и анализ статистической информации. Выборочная теория; интервальные оценки и графическое представление параметров распределения. Точечные оценки характеристик положения и мер изменчивости. Корреляционная зависимость; уравнение регрессии.

    курсовая работа [1023,9 K], добавлен 21.03.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.