Линейная регрессия
Сущность линейной регрессии как метода восстановления зависимости между двумя переменными. Особенности регрессионной модели. Рассмотрение основных функций предиктора. Характеристика метода наименьших квадратов. Порядок определения линейной регрессии.
Рубрика | Математика |
Вид | краткое изложение |
Язык | русский |
Дата добавления | 17.03.2015 |
Размер файла | 949,7 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru
Линейная регрессия
Линейная регрессия - метод восстановления зависимости между двумя переменными: независимой ч (факторы, регрессоры) с линейной функцией зависимости y.
Рассмотрим регрессионную модель:
,
где -- параметры модели, -- случайная ошибка модели, называется линейной регрессией, если функция регрессии имеет вид
,
где -- параметры (коэффициенты) регрессии, -- регрессоры (факторы модели), k -- количество факторов модели.
Линия регрессии
Математическое уравнение, которое оценивает линию простой (парной) линейной регрессии:
y=a + bx. (1)
x называется независимой переменной или предиктором.
y - зависимая переменная или переменная отклика. Это значение, которое мы ожидаем для y (в среднем), если мы знаем величину x, т.е. это «предсказанное значение y»
a - свободный член (пересечение) линии оценки; это значение y, когда x=0 (Рис.1).
b - угловой коэффициент или градиент оценённой линии; она представляет собой величину, на которую y увеличивается в среднем, если мы увеличиваем x на одну единицу.
a и b называют коэффициентами регрессии оценённой линии, хотя этот термин часто используют только для b.
Парную линейную регрессию можно расширить, включив в нее более одной независимой переменной; в этом случае она известна как множественная регрессия.
Для расчета коэффициентов a и b используется метод наименьших квадратов (МНК):
Пусть -- набор неизвестных переменных (параметров), -- совокупность функций от этого набора переменных. Задача заключается в подборе таких значений x, чтобы значения этих функций были максимально близки к некоторым значениям . По существу речь идет о «решении» переопределенной системы уравнений в указанном смысле максимальной близости левой и правой частей системы. Сущность МНК заключается в выборе в качестве «меры близости» суммы квадратов отклонений левых и правых частей --
Коэффициент b получим из формулы:
Где - среднее значение независимого параметра x
- среднее значение y
Коэффициент a:
Подставив коэффициенты a и b в уравнение (1) получим необходимые нам значения линейной регрессии.
Использование Excel для определения линейной регрессии
Для того, чтобы воспользоваться инструментом регрессионного анализа встроенного в Excel, необходимо активировать надстройку Пакет анализа. Найти ее можно, перейдя по вкладке Файл -> Параметры (2007+), в появившемся диалоговом окне Параметры Excel переходим во вкладку Надстройки. В поле Управление выбираем Надстройки Excel и щелкаем Перейти. В появившемся окне ставим галочку напротив Пакет анализа, жмем ОК.
регрессия предиктор квадрат
Во вкладке Данные в группе Анализ появится новая кнопка Анализ данных.
Перейдите во вкладку Данные, в группе Анализ щелкните Анализ данных. В появившемся окне Анализ данных выберите Регрессия, как показано на рисунке, и щелкните ОК.
Установите необходимыe параметры регрессии в окне Регрессия, как показано на рисунке:
Щелкните ОК. На рисунке ниже показаны полученные результаты:
Проверка значимости оценок параметров регрессии
Дисперсия случайной величины -- мера разброса данной случайной величины, то есть её отклонения от математического ожидания.
формула для вычисления дисперсии случайной последовательности :
Коэффициент детерминации ( -- R-квадрат) -- это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью зависимости, то есть объясняющими переменными. Более точно -- это единица минус доля необъяснённой дисперсии (дисперсии случайной ошибки модели, или условной по факторам дисперсии зависимой переменной) в дисперсии зависимой переменной. Его рассматривают как универсальную меру зависимости одной случайной величины от множества других. В частном случае линейной зависимости является квадратом так называемого множественного коэффициента корреляции между зависимой переменной и объясняющими переменными. В частности, для модели парной линейной регрессии коэффициент детерминации равен квадрату обычного коэффициента корреляции между y и x.
где -- условная (по факторам x) дисперсия зависимой переменной (дисперсия случайной ошибки модели).
В данном определении используются истинные параметры, характеризующие распределение случайных величин. Если использовать выборочную оценку значений соответствующих дисперсий, то получим формулу для выборочного коэффициента детерминации (который обычно и подразумевается под коэффициентом детерминации):
где -- сумма квадратов остатков регрессии, -- фактические и расчётные значения объясняемой переменной.
-- общая сумма квадратов.
-- выборочное среднее.
Коэффициент детерминации, как и коэффициент корреляции, принимает значения от -1 до+1. Чем ближе его значение коэффициента по модулю к 1, тем теснее связь результативного признака Y с исследуемыми параметрами X.
Величина коэффициента детерминации служит важным критерием оценки качества линейных и нелинейных моделей. Чем значительнее доля объясненной вариации, тем меньше роль прочих факторов, и значит, модель регрессии хорошо аппроксимирует исходные данные и такой регрессионной моделью можно воспользоваться для прогноза значений результативного показателя.
Стандартная ошибка линейной регрессии.
Качество подбора функции регрессии можно оценить с помощью стандартных ошибок или дисперсий остатков и оценок параметров регрессии. Стандартные ошибки коэффициентов регрессии используются аналогично стандартной ошибке среднего -- для нахождения доверительных интервалов и проверки гипотез.
Стандартная ошибка (дисперсия остатков) коэффициента множественной регрессии имеет такой же смысл, как и в парном регрессионном анализе, в том плане, что она является несмещенной оценкой стандартного отклонения распределения коэффициента регрессии вокруг его истинного значения.
Рассчитываем стандартную ошибку следующим образом:
Где - сумма квадратов остатков регрессии,
k- количество параметров, n - выборка измерений.
Критерий Фишера.
Критерий Фишера (или F-тест) применяется для проверки равенства дисперсий двух выборок. Статистика теста так или иначе сводится к отношению выборочных дисперсий (сумм квадратов, деленных на «степени свободы»). Чтобы статистика имела распределение Фишера необходимо, чтобы числитель и знаменатель были независимыми случайными величинами и соответствующие суммы квадратов имели распределение Хи-квадрат. Для этого требуется, чтобы данные имели нормальное распределение. Кроме того, предполагается, что дисперсия случайных величин, квадраты которых суммируются, одинакова.
Пусть имеются две выборки объемом m и n соответственно случайных величин X и Y, имеющих нормальное распределение. Необходимо проверить равенство их дисперсий.
Значение критерия Фишера есть отношение факторной суммы квадратов регрессии к остаточной на заданных степенях свободы:
Где -- выборочное среднее.
расчетные значения зависимой переменной, n - объем выборки.
P-value.
P-значение (P-value) -- величина, используемая при тестировании статистических гипотез.
Представляет собой вероятность того, что значение проверочной статистики используемого критерия (t-статистики Стьюдента, F-статистики Фишера и т.д.), вычисленное по выборке, превысит установленное p-значение. Решение о принятии или отклонении нулевой гипотезы принимается в результате сравнения p-значения с выбранным уровнем значимости. Если оно превышает указанный уровень значимости, то для отклонения нулевой гипотезы (принятия альтернативной) нет достаточных оснований.
Иначе говоря, p-значение - это наименьшее значение уровня значимости (т.е. вероятности отказа от справедливой гипотезы), для которого вычисленная проверочная статистика ведет к отказу от нулевой гипотезы. Обычно p-значение сравнивают с общепринятыми стандартными уровнями значимости 0,005 или 0,01. Например, если вычисленное по выборке значение проверочной статистики соответствует p = 0,005, это указывает на вероятность справедливости гипотезы 0,5%. Таким образом, чем p-значение меньше, тем лучше, поскольку при этом увеличивается "сила" отклонения нулевой гипотезы и увеличивается ожидаемая значимость результата.
Размещено на Allbest.ru
...Подобные документы
Знакомство с уравнениями линейной регрессии, рассмотрение распространенных способов решения. Общая характеристика метода наименьших квадратов. Особенности оценки статистической значимости парной линейной регрессии. Анализ транспонированной матрицы.
контрольная работа [380,9 K], добавлен 05.04.2015Вероятностное обоснование метода наименьших квадратов как наилучшей оценки. Прямая и обратная регрессии. Общая линейная модель. Многофакторные модели. Доверительные интервалы для оценок метода наименьших квадратов. Определение минимума невязки.
реферат [383,7 K], добавлен 19.08.2015Основные задачи регрессионного анализа в математической статистике. Вычисление дисперсии параметров уравнения регрессии и дисперсии прогнозирования эндогенной переменной. Установление зависимости между переменными. Применение метода наименьших квадратов.
презентация [100,3 K], добавлен 16.12.2014Статистическое описание и выборочные характеристики двумерного случайного вектора. Оценка параметров линейной регрессии, полученных по методу наименьших квадратов. Проверка гипотезы о равенстве средних нормальных совокупностей при неизвестных дисперсиях.
контрольная работа [242,1 K], добавлен 05.11.2011Значения коэффициента регрессии (b) и сводного члена уравнения регрессии (а). Определение стандартной ошибки предсказания являющейся мерой качества зависимости величин Y и х с помощью уравнения линейной регрессии. Значимость коэффициента регрессии.
задача [133,0 K], добавлен 21.12.2008Построение уравнения регрессии. Оценка параметров линейной парной регрессии. F-критерий Фишера и t-критерий Стьюдента. Точечный и интервальный прогноз по уравнению линейной регрессии. Расчет и оценка ошибки прогноза и его доверительного интервала.
презентация [387,8 K], добавлен 25.05.2015Цели линейной модели множественной регрессии (прогноз, имитация, сценарий развития, управление). Анализ эконометрической сущности изучаемого явления на априорном этапе. Параметризация и сбор необходимой статистической информации, значимость коэффициентов.
контрольная работа [68,7 K], добавлен 21.09.2009Определение коэффициентов элементарных функций: линейной, показательной, степенной, гиперболической, дробно-линейной, дробно-рациональной. Использование метода наименьших квадратов. Приближённые математические модели в виде приближённых функций.
лабораторная работа [253,6 K], добавлен 05.01.2015Проверка адекватности линейной регрессии. Вычисление выборочного коэффициента корреляции. Обработка одномерной выборки методами статистического анализа. Проверка гипотезы значимости с помощью критерия Пирсона. Составление линейной эмпирической регрессии.
задача [409,0 K], добавлен 17.10.2012Определение частных производных первого и второго порядков заданной функции, эластичности спроса, основываясь на свойствах функции спроса. Выравнивание данных по прямой методом наименьших квадратов. Расчет параметров уравнения линейной парной регрессии.
контрольная работа [99,4 K], добавлен 22.07.2009Построение линейной множественной регрессии для моделирования потребления продукта в разных географических районах. Расчет оценки дисперсии случайной составляющей. Вычисление и корректировка коэффициентов детерминации. Расчет доверительного интервала.
контрольная работа [814,0 K], добавлен 19.12.2013Алгоритм построения ранговой оценки неизвестных параметров регрессии. Моделирование регрессионных зависимостей с погрешностями, имеющими распределения с "тяжёлыми" хвостами. Вычисление асимптотической относительной эффективности рангового метода.
курсовая работа [1,2 M], добавлен 05.01.2015Исследование точности прогнозирования случайного процесса с использованием метода наименьших квадратов. Анализ расхождения между трендом и прогнозом, последующая оценка близости распределения расхождений наблюдений и распределения сгенерированного шума.
курсовая работа [1,0 M], добавлен 29.01.2010Понятие интерполяционного многочлена Лагранжа как многочлена минимальной степени, порядок его построения. Решение и оценка остаточного члена. Нахождение приближающей функции в виде линейной функции, квадратного трехчлена и других элементарных функций.
курсовая работа [141,5 K], добавлен 23.07.2011Прямолинейные, обратные и криволинейные связи. Статистическое моделирование связи методом корреляционного и регрессионного анализа. Метод наименьших квадратов. Оценка значимости коэффициентов регрессии. Проверка адекватности модели по критерию Фишера.
курсовая работа [232,7 K], добавлен 21.05.2015Cтатистический анализ зависимости давления. Построение диаграммы рассеивания и корреляционной таблицы. Вычисление параметров для уравнений линейной и параболической регрессии, выборочных параметров. Проверка гипотезы о нормальном распределении признака.
курсовая работа [613,3 K], добавлен 24.10.2012Характеристика экзогенных и эндогенных переменных. Теорема Гаусса-Маркова. Построение двухфакторного и однофакторных уравнения регрессии. Прогнозирование значения результативного признака. Оценка тесноты связи между результативным признаком и факторами.
курсовая работа [575,5 K], добавлен 19.05.2015Функциональные и корреляционные зависимости. Сущность корреляционной связи. Методы выявления наличия корреляционной связи между двумя признаками и измерение степени ее тесноты. Построение корреляционной таблицы. Уравнение регрессии и способы его расчета.
контрольная работа [55,2 K], добавлен 23.07.2009Построение модели множественной регрессии теоретических значений динамики ВВП, определение средней ошибки аппроксимации. Выбор фактора, оказывающего большее влияние. Построение парных моделей регрессии. Определение лучшей модели. Проверка предпосылок МНК.
курсовая работа [352,9 K], добавлен 26.01.2010Составление математической модели для предприятия, характеризующей выручку предприятия "АВС" в зависимости от капиталовложений (млн. руб.) за последние 10 лет. Расчет поля корреляции, параметров линейной регрессии. Сводная таблица расчетов и вычислений.
курсовая работа [862,4 K], добавлен 06.05.2009