Линейная регрессия

Сущность линейной регрессии как метода восстановления зависимости между двумя переменными. Особенности регрессионной модели. Рассмотрение основных функций предиктора. Характеристика метода наименьших квадратов. Порядок определения линейной регрессии.

Рубрика Математика
Вид краткое изложение
Язык русский
Дата добавления 17.03.2015
Размер файла 949,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru

Линейная регрессия

Линейная регрессия - метод восстановления зависимости между двумя переменными: независимой ч (факторы, регрессоры) с линейной функцией зависимости y.

Рассмотрим регрессионную модель:

,

где -- параметры модели, -- случайная ошибка модели, называется линейной регрессией, если функция регрессии имеет вид

,

где -- параметры (коэффициенты) регрессии, -- регрессоры (факторы модели), k -- количество факторов модели.

Линия регрессии

Математическое уравнение, которое оценивает линию простой (парной) линейной регрессии:

y=a + bx. (1)

x называется независимой переменной или предиктором.

y - зависимая переменная или переменная отклика. Это значение, которое мы ожидаем для y (в среднем), если мы знаем величину x, т.е. это «предсказанное значение y»

a - свободный член (пересечение) линии оценки; это значение y, когда x=0 (Рис.1).

b - угловой коэффициент или градиент оценённой линии; она представляет собой величину, на которую y увеличивается в среднем, если мы увеличиваем x на одну единицу.

a и b называют коэффициентами регрессии оценённой линии, хотя этот термин часто используют только для b.

Парную линейную регрессию можно расширить, включив в нее более одной независимой переменной; в этом случае она известна как множественная регрессия.

Для расчета коэффициентов a и b используется метод наименьших квадратов (МНК):

Пусть -- набор неизвестных переменных (параметров), -- совокупность функций от этого набора переменных. Задача заключается в подборе таких значений x, чтобы значения этих функций были максимально близки к некоторым значениям . По существу речь идет о «решении» переопределенной системы уравнений в указанном смысле максимальной близости левой и правой частей системы. Сущность МНК заключается в выборе в качестве «меры близости» суммы квадратов отклонений левых и правых частей --

Коэффициент b получим из формулы:

Где - среднее значение независимого параметра x

- среднее значение y

Коэффициент a:

Подставив коэффициенты a и b в уравнение (1) получим необходимые нам значения линейной регрессии.

Использование Excel для определения линейной регрессии

Для того, чтобы воспользоваться инструментом регрессионного анализа встроенного в Excel, необходимо активировать надстройку Пакет анализа. Найти ее можно, перейдя по вкладке Файл -> Параметры (2007+), в появившемся диалоговом окне Параметры Excel переходим во вкладку Надстройки. В поле Управление выбираем Надстройки Excel и щелкаем Перейти. В появившемся окне ставим галочку напротив Пакет анализа, жмем ОК.

регрессия предиктор квадрат

Во вкладке Данные в группе Анализ появится новая кнопка Анализ данных.

Перейдите во вкладку Данные, в группе Анализ щелкните Анализ данных. В появившемся окне Анализ данных выберите Регрессия, как показано на рисунке, и щелкните ОК.

Установите необходимыe параметры регрессии в окне Регрессия, как показано на рисунке:

Щелкните ОК. На рисунке ниже показаны полученные результаты:

Проверка значимости оценок параметров регрессии

Дисперсия случайной величины -- мера разброса данной случайной величины, то есть её отклонения от математического ожидания.

формула для вычисления дисперсии случайной последовательности :

Коэффициент детерминации ( -- R-квадрат) -- это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью зависимости, то есть объясняющими переменными. Более точно -- это единица минус доля необъяснённой дисперсии (дисперсии случайной ошибки модели, или условной по факторам дисперсии зависимой переменной) в дисперсии зависимой переменной. Его рассматривают как универсальную меру зависимости одной случайной величины от множества других. В частном случае линейной зависимости является квадратом так называемого множественного коэффициента корреляции между зависимой переменной и объясняющими переменными. В частности, для модели парной линейной регрессии коэффициент детерминации равен квадрату обычного коэффициента корреляции между y и x.

где -- условная (по факторам x) дисперсия зависимой переменной (дисперсия случайной ошибки модели).

В данном определении используются истинные параметры, характеризующие распределение случайных величин. Если использовать выборочную оценку значений соответствующих дисперсий, то получим формулу для выборочного коэффициента детерминации (который обычно и подразумевается под коэффициентом детерминации):

где -- сумма квадратов остатков регрессии, -- фактические и расчётные значения объясняемой переменной.

-- общая сумма квадратов.

-- выборочное среднее.

Коэффициент детерминации, как и коэффициент корреляции, принимает значения от -1 до+1. Чем ближе его значение коэффициента по модулю к 1, тем теснее связь результативного признака Y с исследуемыми параметрами X.

Величина коэффициента детерминации служит важным критерием оценки качества линейных и нелинейных моделей. Чем значительнее доля объясненной вариации, тем меньше роль прочих факторов, и значит, модель регрессии хорошо аппроксимирует исходные данные и такой регрессионной моделью можно воспользоваться для прогноза значений результативного показателя.

Стандартная ошибка линейной регрессии.

Качество подбора функции регрессии можно оценить с помощью стандартных ошибок или дисперсий остатков и оценок параметров регрессии. Стандартные ошибки коэффициентов регрессии используются аналогично стандартной ошибке среднего -- для нахождения доверительных интервалов и проверки гипотез.

Стандартная ошибка (дисперсия остатков) коэффициента множественной регрессии имеет такой же смысл, как и в парном регрессионном анализе, в том плане, что она является несмещенной оценкой стандартного отклонения распределения коэффициента регрессии вокруг его истинного значения.

Рассчитываем стандартную ошибку следующим образом:

Где - сумма квадратов остатков регрессии,

k- количество параметров, n - выборка измерений.

Критерий Фишера.

Критерий Фишера (или F-тест) применяется для проверки равенства дисперсий двух выборок. Статистика теста так или иначе сводится к отношению выборочных дисперсий (сумм квадратов, деленных на «степени свободы»). Чтобы статистика имела распределение Фишера необходимо, чтобы числитель и знаменатель были независимыми случайными величинами и соответствующие суммы квадратов имели распределение Хи-квадрат. Для этого требуется, чтобы данные имели нормальное распределение. Кроме того, предполагается, что дисперсия случайных величин, квадраты которых суммируются, одинакова.

Пусть имеются две выборки объемом m и n соответственно случайных величин X и Y, имеющих нормальное распределение. Необходимо проверить равенство их дисперсий.

Значение критерия Фишера есть отношение факторной суммы квадратов регрессии к остаточной на заданных степенях свободы:

Где -- выборочное среднее.

расчетные значения зависимой переменной, n - объем выборки.

P-value.

P-значение (P-value) -- величина, используемая при тестировании статистических гипотез.

Представляет собой вероятность того, что значение проверочной статистики используемого критерия (t-статистики Стьюдента, F-статистики Фишера и т.д.), вычисленное по выборке, превысит установленное p-значение. Решение о принятии или отклонении нулевой гипотезы принимается в результате сравнения p-значения с выбранным уровнем значимости. Если оно превышает указанный уровень значимости, то для отклонения нулевой гипотезы (принятия альтернативной) нет достаточных оснований.

Иначе говоря, p-значение - это наименьшее значение уровня значимости (т.е. вероятности отказа от справедливой гипотезы), для которого вычисленная проверочная статистика ведет к отказу от нулевой гипотезы. Обычно p-значение сравнивают с общепринятыми стандартными уровнями значимости 0,005 или 0,01. Например, если вычисленное по выборке значение проверочной статистики соответствует p = 0,005, это указывает на вероятность справедливости гипотезы 0,5%. Таким образом, чем p-значение меньше, тем лучше, поскольку при этом увеличивается "сила" отклонения нулевой гипотезы и увеличивается ожидаемая значимость результата.

Размещено на Allbest.ru

...

Подобные документы

  • Знакомство с уравнениями линейной регрессии, рассмотрение распространенных способов решения. Общая характеристика метода наименьших квадратов. Особенности оценки статистической значимости парной линейной регрессии. Анализ транспонированной матрицы.

    контрольная работа [380,9 K], добавлен 05.04.2015

  • Вероятностное обоснование метода наименьших квадратов как наилучшей оценки. Прямая и обратная регрессии. Общая линейная модель. Многофакторные модели. Доверительные интервалы для оценок метода наименьших квадратов. Определение минимума невязки.

    реферат [383,7 K], добавлен 19.08.2015

  • Основные задачи регрессионного анализа в математической статистике. Вычисление дисперсии параметров уравнения регрессии и дисперсии прогнозирования эндогенной переменной. Установление зависимости между переменными. Применение метода наименьших квадратов.

    презентация [100,3 K], добавлен 16.12.2014

  • Статистическое описание и выборочные характеристики двумерного случайного вектора. Оценка параметров линейной регрессии, полученных по методу наименьших квадратов. Проверка гипотезы о равенстве средних нормальных совокупностей при неизвестных дисперсиях.

    контрольная работа [242,1 K], добавлен 05.11.2011

  • Значения коэффициента регрессии (b) и сводного члена уравнения регрессии (а). Определение стандартной ошибки предсказания являющейся мерой качества зависимости величин Y и х с помощью уравнения линейной регрессии. Значимость коэффициента регрессии.

    задача [133,0 K], добавлен 21.12.2008

  • Построение уравнения регрессии. Оценка параметров линейной парной регрессии. F-критерий Фишера и t-критерий Стьюдента. Точечный и интервальный прогноз по уравнению линейной регрессии. Расчет и оценка ошибки прогноза и его доверительного интервала.

    презентация [387,8 K], добавлен 25.05.2015

  • Цели линейной модели множественной регрессии (прогноз, имитация, сценарий развития, управление). Анализ эконометрической сущности изучаемого явления на априорном этапе. Параметризация и сбор необходимой статистической информации, значимость коэффициентов.

    контрольная работа [68,7 K], добавлен 21.09.2009

  • Определение коэффициентов элементарных функций: линейной, показательной, степенной, гиперболической, дробно-линейной, дробно-рациональной. Использование метода наименьших квадратов. Приближённые математические модели в виде приближённых функций.

    лабораторная работа [253,6 K], добавлен 05.01.2015

  • Проверка адекватности линейной регрессии. Вычисление выборочного коэффициента корреляции. Обработка одномерной выборки методами статистического анализа. Проверка гипотезы значимости с помощью критерия Пирсона. Составление линейной эмпирической регрессии.

    задача [409,0 K], добавлен 17.10.2012

  • Определение частных производных первого и второго порядков заданной функции, эластичности спроса, основываясь на свойствах функции спроса. Выравнивание данных по прямой методом наименьших квадратов. Расчет параметров уравнения линейной парной регрессии.

    контрольная работа [99,4 K], добавлен 22.07.2009

  • Построение линейной множественной регрессии для моделирования потребления продукта в разных географических районах. Расчет оценки дисперсии случайной составляющей. Вычисление и корректировка коэффициентов детерминации. Расчет доверительного интервала.

    контрольная работа [814,0 K], добавлен 19.12.2013

  • Алгоритм построения ранговой оценки неизвестных параметров регрессии. Моделирование регрессионных зависимостей с погрешностями, имеющими распределения с "тяжёлыми" хвостами. Вычисление асимптотической относительной эффективности рангового метода.

    курсовая работа [1,2 M], добавлен 05.01.2015

  • Исследование точности прогнозирования случайного процесса с использованием метода наименьших квадратов. Анализ расхождения между трендом и прогнозом, последующая оценка близости распределения расхождений наблюдений и распределения сгенерированного шума.

    курсовая работа [1,0 M], добавлен 29.01.2010

  • Понятие интерполяционного многочлена Лагранжа как многочлена минимальной степени, порядок его построения. Решение и оценка остаточного члена. Нахождение приближающей функции в виде линейной функции, квадратного трехчлена и других элементарных функций.

    курсовая работа [141,5 K], добавлен 23.07.2011

  • Прямолинейные, обратные и криволинейные связи. Статистическое моделирование связи методом корреляционного и регрессионного анализа. Метод наименьших квадратов. Оценка значимости коэффициентов регрессии. Проверка адекватности модели по критерию Фишера.

    курсовая работа [232,7 K], добавлен 21.05.2015

  • Cтатистический анализ зависимости давления. Построение диаграммы рассеивания и корреляционной таблицы. Вычисление параметров для уравнений линейной и параболической регрессии, выборочных параметров. Проверка гипотезы о нормальном распределении признака.

    курсовая работа [613,3 K], добавлен 24.10.2012

  • Характеристика экзогенных и эндогенных переменных. Теорема Гаусса-Маркова. Построение двухфакторного и однофакторных уравнения регрессии. Прогнозирование значения результативного признака. Оценка тесноты связи между результативным признаком и факторами.

    курсовая работа [575,5 K], добавлен 19.05.2015

  • Функциональные и корреляционные зависимости. Сущность корреляционной связи. Методы выявления наличия корреляционной связи между двумя признаками и измерение степени ее тесноты. Построение корреляционной таблицы. Уравнение регрессии и способы его расчета.

    контрольная работа [55,2 K], добавлен 23.07.2009

  • Построение модели множественной регрессии теоретических значений динамики ВВП, определение средней ошибки аппроксимации. Выбор фактора, оказывающего большее влияние. Построение парных моделей регрессии. Определение лучшей модели. Проверка предпосылок МНК.

    курсовая работа [352,9 K], добавлен 26.01.2010

  • Составление математической модели для предприятия, характеризующей выручку предприятия "АВС" в зависимости от капиталовложений (млн. руб.) за последние 10 лет. Расчет поля корреляции, параметров линейной регрессии. Сводная таблица расчетов и вычислений.

    курсовая работа [862,4 K], добавлен 06.05.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.