Проверка адекватности уравнения регрессии
Сущность и типы уравнения регрессии как формулы статистической связи между переменными. Теоретическая и прямая линии регрессии, проверка адекватности уравнения регрессии. Оценка значимости парного коэффициента корреляции и коэффициент детерминации.
Рубрика | Математика |
Вид | контрольная работа |
Язык | русский |
Дата добавления | 26.06.2014 |
Размер файла | 264,3 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
2
Контрольная работа
Проверка адекватности уравнения регрессии
Содержание
1.Теоретическая часть
1.1 Уравнение регрессии: сущность и типы
1.2 Проверка адекватности уравнения регрессии
Список используемой литературы
переменная коэффициент корреляция регрессия детерминация
1.Теоретическая часть
1.1 Уравнение регрессии: сущность и типы
Регрессия (лат. regressio - обратное движение, переход от более сложных форм развития к менее сложным) - одно из основных понятий в теории вероятности и математической статистике, выражающее зависимость среднего значения случайной величины от значений другой случайной величины или нескольких случайных величин. Это понятие введено Фрэнсисом Гальтоном в 1886 году .
Теоретическая линия регрессии - это та линия, вокруг которой группируются точки корреляционного поля и которая указывает основное направление, основную тенденцию связи.
Теоретическая линия регрессии должна отображать изменение средних величин результативного признака «y» по мере изменения величин факторного признака «x» при условии полного взаимопогашения всех прочих - случайных по отношению к фактору «x» - причин. Следовательно, эта линия должна быть проведена так, чтобы сумма отклонений точек поля корреляции от соответствующих точек теоретической линии регрессии равнялась нулю, а сумма квадратов этих отклонений была бы минимальной величиной.
Уравнение регрессии - это формула статистической связи между переменными:
Прямая линия на плоскости (в пространстве двух измерений) задается уравнением . Более подробно: переменная (??) может быть выражена через константу (??) и угловой коэффициент (??), умноженный на переменную (??). Константу иногда называют также свободным членом, а угловой коэффициент - регрессионным или b-коэффициентом.
Важным этапом регрессионного анализа является определение типа функции, с помощью которой характеризуется зависимость между признаками. Главным основанием должен служить содержательный анализ природы изучаемой зависимости, ее механизма. Вместе с тем теоретически обосновать форму связи каждого из факторов с результативным показателем можно далеко не всегда, поскольку исследуемые социально-экономические явления очень сложны и факторы, формирующие их уровень, тесно переплетаются и взаимодействуют друг с другом. Поэтому на основе теоретического анализа нередко могут быть сделаны самые общие выводы относительно направления связи, возможности его изменения в исследуемой совокупности, правомерности использования линейной зависимости, возможного наличия экстремальных значений и т.п. Необходимым дополнением такого рода предположений должен быть анализ конкретных фактических данных.
Приблизительно представление о линии связи можно получить на основе эмпирической линии регрессии. Эмпирическая линия регрессии обычно является ломаной линией, имеет более или менее значительный излом. Объясняется это тем, что влияние прочих неучтенных факторов, оказывающих воздействие на вариацию результативного признака, в средних погашается не полностью, в силу недостаточно большого количества наблюдений, поэтому эмпирической линией связи для выбора и обоснования типа теоретической кривой можно воспользоваться при условии, что число наблюдений будет достаточно велико.
Одним из элементов конкретных исследований является сопоставление различных уравнений зависимости, основанное на использовании критериев качества аппроксимации эмпирических данных конкурирующими вариантами моделей. Наиболее часто для характеристики связей экономических показателей используют следующие типы функций:
1. Линейная:
2. Гиперболическая:
3. Показательная:
4. Параболическая:
5. Степенная:
6. Логарифмическая:
7. Логистическая:
Модель парной регрессии - это модель с одной объясняющей и одной объясняемой переменными. Если объясняющих (факторных) переменных используется две или более, то говорят об использовании модели множественной регрессии. При этом, в качестве вариантов могут быть выбраны линейная, экспоненциальная, гиперболическая, показательная и другие виды функций, связывающие эти переменные.
Для нахождения параметров ?? и ?? уравнения регрессии используют метод наименьших квадратов. При применении метода наименьших квадратов для нахождения такой функции, которая наилучшим образом соответствует эмпирическим данным, считается, что сумка квадратов отклонений эмпирических точек от теоретической линии регрессии должна быть величиной минимальной.
Критерий метода наименьших квадратов можно записать таким образом: или
Следовательно, применение метода наименьших квадратов для определения параметров ?? и ?? прямой, наиболее соответствующей эмпирическим данным, сводится к задаче на экстремум.
Относительно оценок можно сделать следующие выводы:
1. Оценки метода наименьших квадратов являются функциями выборки, что позволяет их легко рассчитывать.
2. Оценки метода наименьших квадратов являются точечными оценками теоретических коэффициентов регрессии.
3. Эмпирическая прямая регрессии обязательно проходит через точку (??,??).
4. Эмпирическое уравнение регрессии построено таким образом, что сумма отклонений равна нулю.
Коэффициент регрессии - это параметр ?? в уравнении регрессии. При наличии прямой корреляционной зависимости коэффициент регрессии имеет положительное значение, а в случае обратной зависимости коэффициент регрессии - отрицательный. Коэффициент регрессии показывает на сколько в среднем изменяется величина результативного признака «??» при изменении факторного признака «??» на единицу. Геометрически коэффициент регрессии представляет собой наклон прямой линии, изображающей уравнение корреляционной зависимости, относительно оси «Х» (для уравнения ).
Раздел многомерного статистического анализа, посвященный восстановлению зависимостей, называется регрессионным анализом. Термин «линейный регрессионный анализ» используют, когда рассматриваемая функция линейно зависит от оцениваемых параметров (от независимых переменных зависимость может быть произвольной). Теория оценивания
неизвестных параметров хорошо развита именно в случае линейного регрессионного анализа. Если же линейности нет и нельзя перейти к линейной задаче, то, как правило, хороших свойств от оценок ожидать не приходится. Продемонстрируем подходы в случае зависимостей различного вида. Если зависимость имеет вид многочлена (полинома). Если расчёт корреляции характеризует силу связи между двумя переменными, то регрессионный анализ служит для определения вида этой связи и дает возможность для прогнозирования значения одной (зависимой) переменной отталкиваясь от значения другой (независимой) переменной. Для проведения линейного регрессионного анализа зависимая переменная должна иметь интервальную (или порядковую) шкалу. В то же время, бинарная логистическая регрессия выявляет зависимость дихотомической переменной от некой другой переменной, относящейся к любой шкале. Те же условия применения справедливы и для пробит-анализа. Если зависимая переменная является категориальной, но имеет более двух категорий, то здесь подходящим методом будет мультиномиальная логистическая регрессия можно анализировать и нелинейные связи между переменными, которые относятся к интервальной шкале. Для этого предназначен метод нелинейной регрессии.
1.2 Проверка адекватности уравнения регрессии
Для практического использования моделей регрессии большое значение имеет их адекватность, т.е. соответствие фактическим статистическим данным. При анализе адекватности уравнения регрессии возможны следующие варианты:
1. Построенная модель на основе F-критерия Фишера в целом адекватна и все коэффициенты регрессии значимы. Такая модель может быть использована для принятия решений и осуществления прогнозов.
2. Модель по F-критерию Фишера адекватна, но часть коэффициентов не значима. Модель пригодна для принятия некоторых решений, но не для прогнозов.
3. Модель по F-критерию адекватна, но все коэффициенты регрессии не значимы. Модель полностью считается неадекватной. На ее основе не принимаются решения и не осуществляются прогнозы.
Корреляционный и регрессионный анализ, как правило, проводится для ограниченной по объёму совокупности. Поэтому показатели регрессии и корреляции - параметры уравнения регрессии, коэффициент корреляции и коэффициент детерминации могут быть искажены действием случайных факторов. Чтобы проверить, насколько эти показатели характерны для всей генеральной совокупности, не являются ли они результатом стечения случайных обстоятельств, необходимо проверить адекватность построенных статистических моделей.
Проверить значимость уравнения регрессии - значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.
Чтобы иметь общее суждение о качестве модели, из относительных отклонений по каждому наблюдению определяют среднюю ошибку аппроксимации. Проверка адекватности уравнения регрессии (модели) осуществляется с помощью средней ошибки аппроксимации, величина которой не должна превышать 10-12% (рекомендовано).
Оценка значимости уравнения регрессии в целом производится на основе F-критерия Фишера, которому предшествует дисперсионный анализ. В математической статистике дисперсионный анализ рассматривается как самостоятельный инструмент статистического анализа. В эконометрике он применяется как вспомогательное средство для изучения качества регрессионной модели. Согласно основной идее дисперсионного анализа, общая сумма квадратов отклонений переменной (??) от среднего значения (??сред.) раскладывается на две части - «объясненную» и «необъясненную»:
Схема дисперсионного анализа имеет следующий вид (n -число наблюдений, m-число параметров при переменной ?? ):
Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F-критерия Фишера.
Фактическое значение F -критерия Фишера сравнивается с табличным значением Fтабл. (б, k1, k2) при заданном уровне значимости б и степенях свободы k1= m и k2=n-m-1. При этом, если фактическое значение F-критерия больше табличного Fфакт >Fтеор , то признается статистическая значимость уравнения в целом. Для парной линейной регрессии m=1 , поэтому:
Эта формула в общем виде может выглядеть так:
Отношение объясненной части дисперсии переменной (у) к общей дисперсии называют коэффициентом детерминациии используют для характеристики качества уравнения регрессии или соответствующей модели связи. Соотношение между объясненной и необъясненной частями общей дисперсии можно представить в альтернативном варианте:
Коэффициент детерминации R2 принимает значения в диапазоне от нуля до единицы 0? R2 ?1. Коэффициент детерминации R2 показывает, какая часть дисперсии результативного признака (y) объяснена уравнением регрессии. Чем больше R2, тем большая часть дисперсии результативного признака (y) объясняется уравнением регрессии и тем лучше уравнение регрессии описывает исходные данные. При отсутствии зависимости между (у) и (x) коэффициент детерминации R2 будет близок к нулю. Таким образом, коэффициент детерминации R2 может применяться для оценки качества (точности) уравнения регрессии. Возникает вопрос, при каких значениях R2 уравнение регрессии следует считать статистически незначимым, что делает необоснованным его использование в анализе? Ответ на этот вопрос дает F - критерий Фишера Fфакт > Fтеор - делаем вывод о статистической значимости уравнения регрессии. Величина F - критерия связана с коэффициентом детерминации R2xy (r2xy), и ее можно рассчитать по следующей формуле:
Либо при оценке значимости индекса (аналог коэффициента) детерминации:
где: - индекс (коэффициент) детерминации, который рассчитывается:
Использование коэффициента множественной детерминации R2 для оценки качества модели, обладает тем недостатком, что включение в модель нового фактора (даже несущественного) автоматически увеличивает величину R2. Поэтому, при большом количестве факторов, предпочтительнее использовать, так называемый, улучшенный, скорректированный коэффициент множественной детерминации R2, определяемый соотношением:
где p - число факторов в уравнении регрессии, n - число наблюдений. Чем больше величина p, тем сильнее различия между множественным коэффициентом детерминации R2 и скорректированным R2. При использовании скорректированного R2, для оценки целесообразности включения фактора в уравнение регрессии, следует учитывать, что увеличение его величины (значения), при включении нового фактора, не обязательно свидетельствует о его значимости, так как значение увеличивается всегда, когда t-статистика больше единицы (|t|>1). При заданном объеме наблюдений и при прочих равных условиях, с увеличением числа независимых переменных (параметров), скорректированный коэффициент множественной детерминации убывает. При небольшом числе наблюдений, скорректированная величина коэффициента множественной детерминации R2 имеет тенденцию переоценивать долю вариации результативного признака, связанную с влиянием факторов, включенных в регрессионную модель. Низкое значение коэффициента множественной корреляции и коэффициента множественной детерминации R2 может быть обусловлено следующими причинами: в регрессионную модель не включены существенные факторы; неверно выбрана форма аналитической зависимости, не реально отражающая соотношения между переменными, включенными в модель.
Для оценки значимости парного коэффициента корреляции (корень квадратный из коэффициента детерминации), при условии линейной формы связи между факторами, можно использовать t-критерий Стьюдента:
При численности объектов анализа до 30 единиц возникает необходимость проверки значимости (существенности) каждого коэффициента регрессии. При этом выясняют насколько вычисленные параметры характерны для отображения комплекса условий: не являются ли полученные значения параметров результатами действия случайных причин. Значимость коэффициентов простой линейной регрессии (применительно к совокупностям, у которых n<30) осуществляют с помощью t-критерия Стьюдента. При этом вычисляют расчетные (фактические) значения t-критерия для параметров ??0 и ??1:
n-число наблюдений, m-число параметров уравнения регрессии, ???? -(остаточное) среднее квадратическое отклонение результативного признака от выровненных значений ?? ; - среднее квадратическое отклонение факторного признака от общей средней.
Вычисленные, по вышеприведенным формулам, значения сравнивают с критическими t, которые определяют по таблице значений Стьюдента с учетом принятого уровня значимости б и числа степеней свободы вариации k (н)=n-2. В социально-экономических исследованиях уровень значимости б обычно принимают равным 0,05. Параметр признаётся значимым (существенным) при условии, если tрасч. > tтабл. В этом случае, практически невероятно, что найденные значения параметров обусловлены только случайными совпадениями.
Список используемой литературы
1. Белько И.В., Кузьмич К.К. Высшая математика для экономистов: Экспресс-курс. - М.: Новое знание, 2008.
2. Батаранов И.Л., Дежин В.В., Жуковская З.Д. Организация эксперимента. Ч.1. Статистические оценки измеряемых величин. Учебное пособие. Воронеж: Изд-во ВГТУ, 1999.
3. Батаранов И.Л., Дежин В.В., Жуковская З.Д. Организация эксперимента. Ч.2.Построение статистических зависимостей: Учебное пособие. Воронеж: Изд-во ВГТУ, 1999.
4.Гмурман В.Е. Теория вероятностей и математическая статистика. - М.: Высшая школа, 1997.
5. Елисеева И.И., Юзбашев М.М. Общая теория статистики. - М.: Финансы и статистика, 2007.
6. Кремер Н.Ш., Путко Б.А. Эконометрика: Учебник для ВУЗов/ Под ред. Проф. Н.Ш.Кремера. - М.: ЮНИТИ-ДАНА, 2008.
7. Орлов А.И. Эконометрика: Учебное пособие для ВУЗов. - М.:ЭКЗАМЕН, 2007.
8. Корреляционный и регрессионный анализ// http://dvo.sut.ru/libr/opds/i130hod2/7.htm
9. Регрессионный анализ// http://www.kgafk.ru/kgufk/html/korandreg3.html
Размещено на Allbest.ru
...Подобные документы
Значения коэффициента регрессии (b) и сводного члена уравнения регрессии (а). Определение стандартной ошибки предсказания являющейся мерой качества зависимости величин Y и х с помощью уравнения линейной регрессии. Значимость коэффициента регрессии.
задача [133,0 K], добавлен 21.12.2008Проверка адекватности линейной регрессии. Вычисление выборочного коэффициента корреляции. Обработка одномерной выборки методами статистического анализа. Проверка гипотезы значимости с помощью критерия Пирсона. Составление линейной эмпирической регрессии.
задача [409,0 K], добавлен 17.10.2012Знакомство с уравнениями линейной регрессии, рассмотрение распространенных способов решения. Общая характеристика метода наименьших квадратов. Особенности оценки статистической значимости парной линейной регрессии. Анализ транспонированной матрицы.
контрольная работа [380,9 K], добавлен 05.04.2015Методика и основные этапы расчета параметров линейного уравнения парной регрессии с помощью программы Excel. Анализ качества построенной модели, с использованием коэффициента парной корреляции, коэффициента детерминации и средней ошибки аппроксимации.
лабораторная работа [22,3 K], добавлен 15.04.2014Построение уравнения регрессии. Оценка параметров линейной парной регрессии. F-критерий Фишера и t-критерий Стьюдента. Точечный и интервальный прогноз по уравнению линейной регрессии. Расчет и оценка ошибки прогноза и его доверительного интервала.
презентация [387,8 K], добавлен 25.05.2015Определения оптимизации схемы планирования эксперимента при работе со швейной машиной. Расчёт коэффициентов уравнения регрессии и выделение значимых коэффициентов прочности ткани и растяжения между лапкой и иглой. Проверка гипотезы адекватности модели.
курсовая работа [1,2 M], добавлен 30.12.2014Прямолинейные, обратные и криволинейные связи. Статистическое моделирование связи методом корреляционного и регрессионного анализа. Метод наименьших квадратов. Оценка значимости коэффициентов регрессии. Проверка адекватности модели по критерию Фишера.
курсовая работа [232,7 K], добавлен 21.05.2015Построение модели множественной регрессии теоретических значений динамики ВВП, определение средней ошибки аппроксимации. Выбор фактора, оказывающего большее влияние. Построение парных моделей регрессии. Определение лучшей модели. Проверка предпосылок МНК.
курсовая работа [352,9 K], добавлен 26.01.2010Методы составления закона распределения случайной величины. Вычисление средней арифметической и дисперсии распределения. Расчет средней квадратической ошибки бесповторной выборки. Построение эмпирических линий регрессии, поиск уравнения прямых регрессий.
контрольная работа [77,6 K], добавлен 20.07.2010Установление корреляционных связей между признаками многомерной выборки. Статистические параметры регрессионного анализа линейных и нелинейных выборок. Нахождение функций регрессии и проверка гипотезы о значимости выборочного коэффициента корреляции.
курсовая работа [304,0 K], добавлен 02.03.2017Построение диаграммы рассеивания, полигонов, гистограмм нормированных относительных частот, эмпирических функций распределения по X и по Y. Параметры для уравнения параболической регрессии. Проверка гипотезы о нормальном распределении признака Х.
курсовая работа [511,8 K], добавлен 08.12.2013Сортировка размера пенсии по возрастанию прожиточного минимума. Параметры уравнений парных регрессий. Значения параметров логарифмической регрессии. Оценка гетероскедастичности линейного уравнения с помощью проведения теста ранговой корреляции Спирмена.
контрольная работа [178,0 K], добавлен 23.11.2013Построение математической модели технологического процесса напыления резисторов методами полного и дробного факторного эксперимента. Составление матрицы планирования. Рандомизация и проверка воспроизводимости. Оценка коэффициентов уравнения регрессии.
курсовая работа [694,5 K], добавлен 27.12.2021Исследование сходимости рядов. Степенной ряд интеграла дифференциального уравнения. Определение вероятности событий, закона распределения случайной величины, математического ожидания, эмпирической функции распределения, выборочного уравнения регрессии.
контрольная работа [420,3 K], добавлен 04.10.2010Определение вероятности наступления события по формуле Бернулли. Построение эмпирической функции распределения и гистограммы для случайной величины. Вычисление коэффициента корреляции, получение уравнения регрессии. Пример решения задачи симплекс-методом.
контрольная работа [547,6 K], добавлен 02.02.2012Характеристика экзогенных и эндогенных переменных. Теорема Гаусса-Маркова. Построение двухфакторного и однофакторных уравнения регрессии. Прогнозирование значения результативного признака. Оценка тесноты связи между результативным признаком и факторами.
курсовая работа [575,5 K], добавлен 19.05.2015Основные задачи регрессионного анализа в математической статистике. Вычисление дисперсии параметров уравнения регрессии и дисперсии прогнозирования эндогенной переменной. Установление зависимости между переменными. Применение метода наименьших квадратов.
презентация [100,3 K], добавлен 16.12.2014Планирование эксперимента и факторы параметра оптимизации. Математическая модель и матрица планирования, коэффициенты уравнения регрессии и абсолютная величина доверительного интервала. Имитационный эксперимент и дифференциальные уравнения колебаний.
курс лекций [240,8 K], добавлен 22.09.2011История квадратных уравнений: уравнения в Древнем Вавилоне и Индии. Формулы четного коэффициента при х. Квадратные уравнения частного характера. Теорема Виета для многочленов высших степеней. Исследование биквадратных уравнений. Сущность формулы Кордано.
реферат [75,8 K], добавлен 09.05.2009Исследование зависимости потребления бензина в городе от количества автомобилей с помощью методов математической статистики. Построение диаграммы рассеивания и определение коэффициента корреляции. График уравнения линейной регрессии зависимости.
курсовая работа [593,2 K], добавлен 28.06.2009