Двухфакторная линейная модель: предсказание одного фактора на основании другого
Основные цели анализа двумерных данных. Линейный коэффициент корреляции. Анализ двумерной диаграммы рассеяния. Сущность линейного регрессионного анализа. Проверка надежности регрессионной модели. Прогнозирование среднего значения нового наблюдения.
Рубрика | Экономико-математическое моделирование |
Вид | лекция |
Язык | русский |
Дата добавления | 29.09.2013 |
Размер файла | 26,7 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Двухфакторная линейная модель: предсказание одного фактора на основании другого
1. Коэффициент корреляции
Тремя основными целями анализа двумерных данных, представленных парами (Х, У), являются: (1) описание и понимание взаимосвязи, (2) прогнозирование и предсказание нового наблюдения и (3) корректировка и управление процессом.
Корреляционный анализ позволяет сделать вывод о силе взаимосвязи, а регрессионный анализ используется для прогнозирования одной переменной на основании другой (как правило, У на основании X).
Двумерные данные анализируют с использованием диаграммы рассеяния в координатах У и X, которая дает визуальное представление о взаимосвязи в данных. Корреляция, или точнее линейный коэффициент корреляции (г), представляет собой безразмерное (не имеющее единиц измерения) число в диапазоне от -1 до 1, которое характеризует силу взаимосвязи. Равенство коэффициента корреляции 1 свидетельствует об идеальной взаимосвязи в виде прямой линии с наклоном вверх. Равенство коэффициента корреляции -1 свидетельствует об идеальной взаимосвязи в виде наклоненной вниз (отрицательно) прямой линии. Коэффициент корреляции говорит о том, насколько близко к этой наклоненной прямой линии расположены точки диаграммы, однако он не характеризует крутизну наклона этой линии. Формула вычисления коэффициента корреляции для тех, кто умеет пользоваться Excel имеет следующий вид:
.
Ковариация X и У представляет собой числитель в формуле для коэффициента корреляции. Поскольку единицы измерения ковариации трудно интерпретировать, удобнее работать с коэффициентом корреляции.
Корреляцию нельзя рассматривать как причинную обусловленность. Коэффициент корреляции характеризует связь между числами, но не объясняет ее. Корреляция может быть вызвана тем, что переменная X влияет на У, или тем, что переменная У влияет на X. Кроме того, корреляция может быть вызвана также тем, что на X и У влияет некий скрытый "третий фактор", что создает впечатление связи между X и У. Термином ложная корреляция обозначают высокую корреляцию, которая возникает благодаря действию некоторого третьего фактора.
2. Диаграмма рассеяния
При анализе двумерной диаграммы рассеяния можно обнаружить различные взаимосвязи. Простейшей, с точки зрения анализа, является линейная взаимосвязь, которая выражается в том, что точки на диаграмме рассеяния с постоянным разбросом группируются случайным образом вдоль прямой линии. Диаграмма свидетельствует об отсутствии взаимосвязи, если точки размещены случайно и при перемещении слева направо невозможно обнаружить какой-либо уклон (ни вверх, ни вниз). Двумерная диаграмма рассеяния характеризуется нелинейной взаимосвязью, если точки на ней группируются вдоль кривой, а не прямой линии. Поскольку количество видов кривых практически безгранично, анализ нелинейной взаимосвязи оказывается намного сложнее, однако взаимосвязь можно приблизить к линейной, применив к данным соответствующее преобразование. Проблема неравной вариации возникает тогда, когда при перемещении по горизонтали на диаграмме рассеяния вариация точек по вертикали сильно меняется. Неравная вариация приводит к снижению надежности коэффициента корреляции и регрессионного анализа. Проблему неравной вариации можно решить с помощью соответствующих преобразований данных или с помощью, так называемой взвешенной регрессии. Проблема кластеринга (разделение совокупности на группы более однородных объектов) возникает в случае образования на диаграмме рассеяния отдельных, ярко выраженных групп точек; в таких случаях каждую группу следует анализировать отдельно. Некоторая точка данных является выбросом (резко отклоняющимся значением), если она не соответствует взаимосвязи между остальными данными; резко отклоняющиеся значения могут исказить статистические характеристики двумерной совокупности данных.
3. Регрессионный анализ
Регрессионный анализ заключается в прогнозировании одной переменной на основании другой. Линейный регрессионный анализ прогнозирует значение одной переменной на основании другой с помощью прямой линии. Наклон этой линии, выражается в единицах измерения У на одну единицу X и характеризует крутизну подъема или спуска (если b отрицательное) линии. Сдвиг, a, равен значению, которое принимает У при X, равном 0. Уравнение прямой линии имеет следующий вид:
Y = Сдвиг + (Наклон)(Х) = а + bХ.
Линия наименьших квадратов характеризуется наименьшей из всех возможных линий суммой возведенных в квадрат ошибок прогнозирования по вертикали и используется как лучшая линия прогнозирования, основанная на данных. Наклон этой линии, b, называют также коэффициентом регрессии У по X, а сдвиг а (отрезок отсекаемый на оси У) называют также постоянным членом регрессии. Ниже приведены уравнения для наклона и сдвига, соответствующие линии наименьших квадратов.
Наклон равен:
.
Сдвиг равен:
.
Формула для линии наименьших квадратов имеет следующий вид:
Прогнозируемое значение У равно:
.
Прогнозируемое значение для У при заданном значении X определяется путем подстановки этого значения X в уравнение для линии наименьших квадратов. Каждая из точек данных характеризуется остатком - ошибкой прогнозирования, указывающей, насколько выше или ниже линии находится точка. корреляция двумерная регрессионный прогнозирование
4. Проверка надежности регрессионной модели
Существуют две меры соответствия линии наименьших квадратов имеющимся данным. Стандартная ошибка оценки (или предсказания), которую обозначают , приблизительно указывает величину ошибок прогнозирования (остатков) для имеющихся данных в тех же единицах, в которых измерена и переменная У. Соответствующие формулы приведены ниже.
(для вычисления)
(для интерпретации).
Значение , часто называемое коэффициентом детерминации, говорит о том, какой процент вариации У объясняется поведением X.
Доверительные интервалы и проверка гипотез для коэффициента регрессии связаны с определенными предположениями относительно анализируемой совокупности данных, которые должны гарантировать, что она состоит из независимых наблюдений, характеризующихся линейной взаимосвязью с равной вариацией и приблизительно нормально распределенной случайностью. Во-первых, эти данные должны представлять собой произвольную выборку из интересующей нас генеральной совокупности. Во-вторых, линейная модель указывает, что наблюдаемое значение У определяется взаимосвязью в генеральной совокупности плюс случайная ошибка, имеющая нормальное распределение. Существуют параметры генеральной совокупности, соответствующие наклону и сдвигу линии наименьших квадратов, построенной на данных выборки:
Y = (?+?Х)+? = (Взаимосвязь в генеральной совокупности) + случайность,
где ? имеет нормальное распределение со средним значением, равным 0, и постоянным стандартным отклонением ?.
Статистические выводы (использование доверительных интервалов и проверки статистических гипотез) относительно коэффициентов линии наименьших квадратов основываются, как обычно, на их стандартных ошибках и значениях из t-таблицы для п - 2 степеней свободы. Стандартная ошибка коэффициента наклона, , указывает приблизительную величину отклонения оценки наклона, b (коэффициент регрессии, вычисленный на основе данных выборки), от наклона в генеральной совокупности, ?, вызванного случайным характером выборки. Стандартная ошибка сдвига, , указывает приблизительно, насколько далеко оценка сдвига а отстоит от истинного сдвига ? в генеральной совокупности. Соответствующие формулы выглядят следующим образом:
- стандартная ошибка коэффициента регрессии b:
;
- стандартная ошибка сдвига:
.
Доверительный интервал для наклона в генеральной совокупности, ?:
от до .
Доверительный интервал для сдвига в генеральной совокупности, ?:
от до .
Один из способов проверки, является ли обнаруженная взаимосвязь между X и У реальной или это просто случайное совпадение, заключается в сравнении ? с заданным значением ?0 = 0. О значимой связи можно говорить в том случае, если 0 не попадает в доверительный интервал, базирующийся на b и Sb, или если абсолютное значение t = b/Sb превосходит соответствующее t-значение в t-таблице.
t - таблица (t - критерий Стьюдента)
Доверительный интервал |
||||||||
Двухсторонний |
80 % |
90 % |
95 % |
98 % |
99 % |
99,8 % |
99,9 % |
|
Односторонний |
90 % |
95 % |
97,5 % |
99 % |
99,5 % |
99,9 % |
99,95 % |
|
Уровень значимости проверки гипотезы |
||||||||
Двухсторонний тест |
0,20 |
0,10 |
0,05 |
0,02 |
0,01 |
0,002 |
0,001 |
|
Односторонний тест |
0,10 |
0,05 |
0,025 |
0,01 |
0,005 |
0,001 |
0,0005 |
|
В целом: степени свободы |
Критические значения t |
|||||||
1 |
3,078 |
6,314 |
12,706 |
31,821 |
63,657 |
318,309 |
636,619 |
|
2 |
1,886 |
2,920 |
4,303 |
6,965 |
9,925 |
22,327 |
31,599 |
|
3 |
1,638 |
2,353 |
3,182 |
4,541 |
5,841 |
10,215 |
12,924 |
|
4 |
1,533 |
2,132 |
2,776 |
3,747 |
4,604 |
7,173 |
8,610 |
|
5 |
1,476 |
2,015 |
2,571 |
3,365 |
4,032 |
5,893 |
6,869 |
|
6 |
1,440 |
1,943 |
2,447 |
3,143 |
3,707 |
5,208 |
5,959 |
|
7 |
1,415 |
1,895 |
2,365 |
2,998 |
3,499 |
4,785 |
5,408 |
|
8 |
1,397 |
1,860 |
2,306 |
2,896 |
3,355 |
4,505 |
5,041 |
|
9 |
1,383 |
1,833 |
2,262 |
2,821 |
3,250 |
4,297 |
4,781 |
|
10 |
1,372 |
1,812 |
2,228 |
2,764 |
3,169 |
4,144 |
4,587 |
|
11 |
1,363 |
1,796 |
2,201 |
2,718 |
3,106 |
4,025 |
4,437 |
|
12 |
1,356 |
1,782 |
2,179 |
2,681 |
3,055 |
3,930 |
4,318 |
|
13 |
1,350 |
1,771 |
2,160 |
2,650 |
3,012 |
3,852 |
4,221 |
|
14 |
1,345 |
1,761 |
2,145 |
2,624 |
2,977 |
3,787 |
4,140 |
|
15 |
1,341 |
1,753 |
2,131 |
2,602 |
2,947 |
3,733 |
4,073 |
|
… |
… |
… |
… |
… |
… |
… |
… |
|
… |
… |
… |
… |
… |
… |
… |
… |
|
38 |
1,304 |
1,686 |
2,024 |
2,429 |
2,712 |
3,319 |
3,566 |
|
39 |
1,304 |
1,685 |
1,023 |
2,426 |
2,708 |
3,313 |
3,558 |
|
Бесконечность |
1,282 |
1,645 |
1,960 |
2,326 |
2,576 |
3,090 |
3,291 |
Эта проверка эквивалентна проверке значимости коэффициента корреляции и означает, по сути, то же самое, что и F-тест для случая, когда уравнение содержит только одну переменную X. Разумеется, любой из коэффициентов (a или b) можно сравнить с любым подходящим заданным значением, воспользовавшись одно- или двусторонней проверкой (в зависимости от конкретных обстоятельств) и с использованием тех же методов проверки, что были рассмотрены для среднего генеральной совокупности.
5. Прогнозирование
Для прогнозирования среднего значения нового наблюдения У при условии, что X = Х 0 (где Х 0 - интересующий исследователя параметр X, который еще ни разу не встречался в обыденной практике), неопределенность прогноза оценивают с помощью стандартной ошибки прогноза S(прогнозируемое Y/X0), которая также имеет п - 2 степеней свободы. Это позволяет построить доверительные интервалы и проверить гипотезы для нового наблюдения:
.
Доверительный интервал для прогнозируемого среднего значения У при заданном значении Х 0 имеет следующий вид:
от
до .
Размещено на Allbest.ru
...Подобные документы
Построение математической модели выбранного экономического явления методами регрессионного анализа. Линейная регрессионная модель. Выборочный коэффициент корреляции. Метод наименьших квадратов для модели множественной регрессии, статистические гипотезы.
курсовая работа [1,1 M], добавлен 22.05.2015Построение диаграммы рассеяния, иллюстрирующей взаимосвязь переменных, гипотеза о виде их функциональной зависимости. Сущность линейной однофакторной регрессии, интервальные оценки ее коэффициентов. Расчет значения линейного коэффициента корреляции.
контрольная работа [235,6 K], добавлен 04.11.2013Взаимосвязи экономических переменных. Понятие эконометрической модели. Коэффициент корреляции и его свойства. Линейная парная регрессия. Метод наименьших квадратов. Основные предпосылки и принципы регрессионного анализа. Статистика Дарбина-Уотсона.
шпаргалка [142,4 K], добавлен 22.12.2011Определение методом регрессионного и корреляционного анализа линейных и нелинейных связей между показателями макроэкономического развития. Расчет среднего арифметического по столбцам таблицы. Определение коэффициента корреляции и уравнения регрессии.
контрольная работа [4,2 M], добавлен 14.06.2014Выбор факторных признаков для построения регрессионной модели неоднородных экономических процессов. Построение диаграммы рассеяния. Анализ матрицы коэффициентов парной корреляции. Определение коэффициентов детерминации и средних ошибок аппроксимации.
контрольная работа [547,6 K], добавлен 21.03.2015Расчет параметров линейного уравнения множественной регрессии; определение сравнительной оценки влияния факторов на результативный показатель с помощью коэффициентов эластичности и прогнозного значения результата; построение регрессионной модели.
контрольная работа [1,1 M], добавлен 29.03.2011Основные методы анализа линейной модели парной регрессии. Оценки неизвестных параметров для записанных уравнений парной регрессии по методу наименьших квадратов. Проверка значимости всех параметров модели (уравнения регрессии) по критерию Стьюдента.
лабораторная работа [67,8 K], добавлен 26.12.2010Оценить влияние определенных факторов на изучаемый показатель и друг на друга с помощью коэффициентов линейной корреляции. Среднее квадратическое отклонение фактора. Коэффициент линейной корреляции. Линейные регрессионные модели изучаемого показателя.
контрольная работа [381,3 K], добавлен 21.04.2010Теоретические основы прикладного регрессионного анализа. Проверка предпосылок и предположений регрессионного анализа. Обнаружение выбросов в выборке. Рекомендации по устранению мультиколлинеарности. Пример практического применения регрессионного анализа.
курсовая работа [1,2 M], добавлен 04.02.2011Сущность и основные этапы проведения регрессионного анализа. Виды ошибок и возможности их прогнозирования. Построение поля корреляции и гипотеза о форме связи. Порядок произведения расчета прогнозного значения результата по линейному уравнению регрессии.
контрольная работа [372,7 K], добавлен 29.04.2010Понятие и особенности прогнозирования. Стандартная ошибка предсказываемого среднего значения. Прогнозирование при наличии авторегрессии ошибок. Точечное и интервальное прогнозирование, основанное на модели линейной регрессии, коэффициент ее детерминации.
контрольная работа [827,9 K], добавлен 08.01.2016Статистический анализ по выборке. Проведение регрессионного анализа исходных данных и выбор аналитической формы записи производственной функции. Выполнение экономического анализа в выбранной регрессионной модели на основе коэффициентов эластичности.
курсовая работа [2,2 M], добавлен 22.07.2015Порядок построения линейного регрессионного уравнения, вычисление его основных параметров и дисперсии переменных, средней ошибки аппроксимации и стандартной ошибки остаточной компоненты. Построение линии показательной зависимости на поле корреляции.
контрольная работа [75,1 K], добавлен 29.01.2010Эконометрическое исследование признаков деятельности предприятий: доля расходов на закупку товаров, среднедневная заработная плата одного работающего. Построение линейного графика регрессионной зависимости между показателями, оценка адекватности модели.
контрольная работа [93,3 K], добавлен 14.12.2011Сущность корреляционно-регрессионного анализа и его использование в сельскохозяйственном производстве. Этапы проведения корреляционно-регрессионного анализа. Области его применения. Анализ объекта и разработка числовой экономико-математической модели.
курсовая работа [151,0 K], добавлен 27.03.2009Построение уравнения множественной регрессии в линейной форме, расчет интервальных оценок его коэффициентов. Создание поля корреляции, определение средней ошибки аппроксимации. Анализ статистической надежности показателей регрессионного моделирования.
контрольная работа [179,4 K], добавлен 25.03.2014Понятие, задачи и основные цели регрессионного анализа. Прогнозирование, основанное на использовании моделей временных рядов. Определение степени детерминированности вариации критериальной переменной предикторами. Ошибки, возникающие при измерении данных.
контрольная работа [785,9 K], добавлен 13.11.2011Построение линейной модели зависимости цены товара в торговых точках. Расчет матрицы парных коэффициентов корреляции, оценка статистической значимости коэффициентов корреляции, параметров регрессионной модели, доверительного интервала для наблюдений.
лабораторная работа [214,2 K], добавлен 17.10.2009Построение классической нормальной линейной регрессионной модели. Проведение корреляционно-регрессионного анализа уровня безработицы - социально-экономической ситуации, при которой часть активного, трудоспособного населения не может найти работу.
реферат [902,8 K], добавлен 15.03.2015Процесс построения и анализа эконометрической модели в пакете Econometric Views. Составление, расчет и анализ существующей проблемы. Проверка адекватности модели реальной ситуации на числовых данных в среде Eviews. Построение регрессионного уравнения.
курсовая работа [1,3 M], добавлен 17.02.2014