Основы эконометрики

Определение и характеристика сущности парной регрессии и корреляции. Изучение примеров гетероскедастичности. Ознакомление с традиционном методом наименьших квадратов для многомерной регрессии. Рассмотрение критических значений критерия Стьюдента.

Рубрика Экономико-математическое моделирование
Вид курсовая работа
Язык русский
Дата добавления 26.09.2017
Размер файла 319,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

1. Парная регрессия и корреляция

1.1 Оценка параметров, оценка адекватности модели

В регрессионном анализе рассматривается односторонняя стохастическая зависимость случайной переменной у от одной (или нескольких) неслучайной независимой переменной х.

Рассмотрим линейную модель и представим ее в виде

= b0 + b1x.(1)

Для решения поставленной задачи определим формулы расчета неизвестных параметров уравнения линейной регрессии (b0, b1) используя метод наименьших квадратов (МНК).

Согласно МНК неизвестные параметры b0 и b1 выбираются таким образом, чтобы сумма квадратов отклонений эмпирических значений yi от значений , найденных по уравнению регрессии (1), была минимальной:

.(2)

На основании необходимого условия экстремума функции двух переменных S = S(b0, b1) (4) приравняем к нулю ее частные производные, откуда после преобразований получим систему нормальных уравнений для определения параметров линейной регрессии. Затем, разделив обе части уравнений системы на n, получим систему нормальных уравнений в следующем виде:

(3)

где соответствующие средние определяются по формулам:

;(4);

;(5)

(6)

(7)

Решая систему (3), найдем

,(8)

где выборочная дисперсия переменной х:

,(9)

выборочный корреляционный момент или выборочная ковариация:

.(10)

Коэффициент b1 называется выборочным коэффициентом регрессии Y по X.

Коэффициент регрессии у по х показывает, на сколько единиц в среднем изменяется переменная у при увеличении переменной х на одну единицу.

Для двух случайных переменных можно определить выборочный коэффициент корреляции, который является показателем тесноты связи.

Если r > 0 (b1 > 0), то корреляционная связь между переменными называется прямой, если r < 0 (b1 < 0), обратной.

Формулы для расчета коэффициента корреляции имеют следующий вид:

;(11)

.(12)

Выборочный коэффициент корреляции обладает следующими свойствами:

1. Коэффициент корреляции принимает значения на отрезке [1: 1], т.е. 1 ? r ? 1.

2. При r=±1 корреляционная связь представляет линейную функциональную зависимость. При этом все наблюдения располагаются на прямой линии.

3. При r = 0 линейная корреляционная связь отсутствует. При этом линия регрессии параллельна оси ОХ.

В силу воздействия неучтенных факторов и причин отдельные наблюдения переменной у будут в большей или меньшей мере отклоняться от функции регрессии (х). В этом случае уравнение взаимосвязи двух переменных (парная регрессионная модель) может быть представлена в виде:

у = (х) + ,

где случайная переменная (случайный член), характеризующая отклонение от функции регрессии.

Отметим основные предпосылки регрессионного анализа (условия Гаусса-Маркова).

1. В модели yi = 0 + 1xi + i возмущение i есть величина случайная, а объясняющая переменная xi - величина неслучайная.

2. Математическое ожидание возмущения i равно нулю:

M(i) = 0.(13)

3. Дисперсия возмущения i постоянна для любого i:

D(i) = 2.(14)

4. Возмущения i и j не коррелированны:

M(i j) = 0 (i j).(15)

5. Возмущения i есть нормально распределенная случайная величина.

Оценкой модели yi = 0 + 1xi + i по выборке является уравнение регрессии = b0 + b1x. Параметры этого уравнения b0 и b1 определяются на основе МНК. Воздействие неучтенных случайных факторов и ошибок наблюдений в модели определяется с помощью дисперсии возмущений (ошибок) или остаточной дисперсии.

Теорема ГауссаМаркова. Если регрессионная модель yi = 0 + 1xi + i удовлетворяет предпосылкам 15, то оценки b0, b1 имеют наименьшую дисперсию в классе всех линейных несмещенных оценок.

Таким образом, оценки b0 и b1 в определенном смысле являются наиболее эффективными линейными оценками параметров 0 и 1.

Проверить значимость уравнения регрессии - значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной. Для проверки значимости выдвигают нулевую гипотезу о надежности параметров.

Нулевая гипотеза Н0 - это основное проверяемое предположение, которое обычно формулируется как отсутствие различий, отсутствие влияние фактора, отсутствие эффекта, равенство нулю значений выборочных характеристик и т.п.

Другое проверяемое предположение (не всегда строго противоположное или обратное первому) называется конкурирующей или альтернативной гипотезой.

Коэффициент регрессии (b1) является случайной величиной. Отсюда после вычисления возникает необходимость проверки гипотезы о значимости полученного значения. Выдвигаем нулевую гипотеза (Н0) о равенстве нулю коэффициента регрессии (Н0:b1 = 0) против альтернативной гипотезы (Н1) о неравенстве нулю коэффициента регрессии (Н1:b1 0). Для проверки гипотезы Н0 против альтернативы используется t-статистика, которая имеет распределение Стьюдента с (n 2) степенями свободы (парная линейная регрессия).

Коэффициент регрессии надежно отличается от нуля (отвергается нулевая гипотеза Н0), если tнабл > t;n-2. В этом случае вероятность нулевой гипотезы будет меньше выбранного уровня значимости. t;n-2 критическая точка, определяемая по математико-статистическим таблицам.

Проверка значимости уравнения регрессии производится на основе дисперсионного анализа.

Согласно основной идее дисперсионного анализа

(16)

Q = QR + Qe,(17)

где Q - общая сумма квадратов отклонений зависимой переменной от средней, а QR и Qe - соответственно сумма квадратов, обусловленная регрессией, и остаточная сумма квадратов, характеризующая влияние неучтенных факторов.

Схема дисперсионного анализа имеет вид, представленный в табл. 1.

Средние квадраты и s2 (табл. 1) представляют собой несмещенные оценки дисперсий зависимой переменной, обусловленных соответственно регрессией или объясняющей переменной х и воздействием неучтенных случайных факторов и ошибок; m - число оцениваемых параметров уравнения регрессии; п - число наблюдений.

При отсутствии линейной зависимости между зависимой и объясняющими(ей) переменными случайные величины и имеют 2-распределение соответственно с т - 1 и п - т степенями свободы.

Таблица 1

Компоненты дисперсии

Сумма квадратов

Число степеней свободы

Средние квадраты

Объясненная

m - 1

Остаточная

n - m

Общая

n - 1

Поэтому уравнение регрессии значимо на уровне , если фактически наблюдаемое значение статистики

,(18)

где табличное значение F-критерия ФишераСнедекора, определяемое на уровне значимости при k1 = m - 1 и k2 = n - m степенях свободы.

Учитывая смысл величин и s2, можно сказать, что значение F показывает, в какой мере регрессия лучше оценивает значение зависимой переменной по сравнению с ее средней.

Для парной линейно регрессии т = 2, и уравнение регрессии значимо на уровне (отвергается нулевая гипотеза), если

.(19)

Следует отметить, что значимость уравнения парной линейной регрессии может быть проведена и другим способом, если оценить значимость коэффициента регрессии b1, который имеет t-распределение Стьюдента с k = n - 2 степенями свободы.

Уравнение парной регрессии или коэффициент регрессии b1 значимы на уровне (иначе - гипотеза Н0 о равенстве параметра b1 нулю, т.е. Н0:b1 = 0, отвергается), если фактически наблюдаемое значение статистики

(20)

больше критического (по абсолютной величине), т.е. |t| > t1 ; n 2.

Коэффициент корреляции r значим на уровне (Н0: r = 0), если

.(21)

Одной из наиболее эффективных оценок адекватности регрессионной модели, мерой качества уравнения регрессии, характеристикой прогностической силы анализируемой регрессионной модели является коэффициент детерминации, определяемый по формуле:

.(22)

Величина R2 показывает, какая часть (доля) вариации зависимой переменной обусловлена вариацией объясняющей переменной.

В случае парной линейной регрессионной модели коэффициент детерминации равен квадрату корреляции, т.е. R2 = r2.

1.2 Виды нелинейной регрессии. Оценка параметров модели

Если между экономическими явлениями существуют нелинейные соотношения, то они выражаются с помощью соответствующих нелинейных функций, например равносторонней гиперболы: ; параболы второй степени: и др.

Различают два класса нелинейных регрессий:

· относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам;

· по оцениваемым параметрам.

Рассмотрим нелинейные регрессии по включаемым в нее объясняющим переменным, но линейные по оцениваемым параметрам.

Данный класс нелинейных регрессий включает уравнения, в которых у линейно связан с параметрами. Примером могут служить следующие функции.

1. Полиномы разных степеней. Например, полином k-й степени .

2. Равносторонняя гипербола - .

При оценке параметров регрессий нелинейных по объясняющим переменным используется подход, именуемый "замена переменных". Суть его состоит в замене "нелинейных" объясняющих переменных новыми "линейными" переменными и сведение нелинейной регрессии к линейной. К новой "преобразованной" регрессии может быть применен обычный метод наименьших квадратов (МНК).

Рассмотрим применение данного подхода к параболе второй степени: . Заменяя переменную х2 на z, получим двухфакторное уравнение линейной регрессии: , для оценки параметров которого используется обычный МНК.

Среди нелинейной полиноминальной регрессии чаще всего используется парабола второй степени; в отдельных случаях полином третьего порядка. Ограничение в использовании полиномов более высоких степеней связаны с требованием однородности исследуемой совокупности: чем выше порядок полинома, тем больше изгибов имеет кривая и, соответственно, менее однородна совокупность по результативному признаку.

Среди класса нелинейных функций, параметры которых без особых затруднений оцениваются МНК, следует назвать хорошо известную в эконометрике равностороннюю гиперболу: . Она может быть использована, например, для характеристики связи удельных расходов сырья, материалов и топлива с объемом выпускаемой продукции.

Для оценки параметров равносторонней гиперболы используется тот же подход "замены переменных": заменив 1/х на z, получим линейное уравнение регрессии: , для которого может быть применен обычный МНК.

Регрессии нелинейные по оцениваемым параметрам. К данному классу регрессий относятся уравнения, в которых у нелинейно связан с параметрами. Примером таких нелинейных регрессий являются функции:

· степенная - ;

· показательная - ;

· экспоненциальная - .

Данный класс нелинейных моделей подразделяется на два типа:

1) нелинейные модели внутренне линейные;

2) нелинейные модели внутренне нелинейные.

Если нелинейная модель внутренне линейна, то она с помощью соответствующих преобразований может быть приведена к линейному виду (например, логарифмированием и заменой переменных). Если же нелинейная модель внутренне нелинейна, то она не может быть сведена к линейной функции.

Примером нелинейной по параметрам регрессии внутренне линейной является степенная функция, которая широко используется в эконометрических исследованиях при изучении спроса от цен:

Где у - спрашиваемое количество;

х - цена;

- случайная составляющая.

Данная модель нелинейна относительно оцениваемых параметров, так как включает параметры а и b неаддитивно. Однако ее можно считать внутренне линейной, ибо логарифмирование данного уравнения по основанию е приводит его к линейному виду: . Заменив переменные и параметры, получим линейную регрессию, оценки параметров которой а и b могут быть найдены МНК.

В рассматриваемой выше степенной функции предполагалось, что случайная составляющая u мультипликативно связана с объясняющей переменной х. Если же модель представить в виде , то она становится внутренне нелинейной, т. к. ее невозможно преобразовать к линейному виду.

Если модель внутренне нелинейна по параметрам, то для оценки параметров используются итеративные процедуры, успешность которых зависит от вида уравнений и особенностей применяемого итеративного подхода.

Применение МНК для оценки параметров нелинейных моделей внутренне линейных. В моделях, нелинейных по оцениваемым параметрам, но приводимых к линейному виду, МНК применяется к преобразованным уравнениям. В таких моделях преобразованию подвергается результативный признак у, в отличие от нелинейных моделей 1-го типа, где результативный признак у остается неизменным, а преобразуется факторный признак.

Если в линейной модели и моделях, нелинейных по переменным, при оценке параметров исходят из критерия , то в моделях, нелинейных по оцениваемым параметрам, требование МНК применяется не к исходным данным результативного признака, а к их преобразованным величинам, т. е. , . Это значит, что оценка параметров основывается на минимизации суммы квадратов отклонений логарифмов:

.(23)

Соответственно, если в линейных моделях и моделях, нелинейных по переменным, , то в моделях, нелинейных по оцениваемым параметрам, , а . Вследствие этого оценка параметров с помощью МНК для нелинейных моделей, внутренне линейных, оказывается несколько смещенной.

В отдельных случаях может использоваться так называемая обратная функция: , являющаяся разновидностью гиперболы. Но если в равносторонней гиперболе , преобразованию подвергается объясняющая переменная и , то для получения линейной формы зависимости в обратной модели преобразовывается у: . Тогда модель обратной зависимости принимает вид: .

Обратная модель является внутренне линейной по параметрам. Требование МНК при этом выполняется для обратных значений результативного признака - , а именно: .

Поскольку уравнение обратной функции линейно относительно величин , то, если обратные значения имеют экономический смысл, коэффициент регрессии интерпретируется так же, как в линейном уравнении регрессии. Если, например, под у подразумеваются затраты на рубль продукции, а под х - производительность труда (выработка продукции на одного работника), то обратная величина характеризует затратоотдачу, и параметр b имеет экономическое содержание - средний прирост продукции в стоимостном измерении на 1 руб. затрат с ростом производительности труда на единицу своего измерения.

1.3 Коэффициент эластичности как характеристика силы связи фактора с результатом

Коэффициент эластичности представляет собой показатель силы связи фактора x с результатом у, показывающий, на сколько процентов изменится значение у при изменении значения фактора на 1 %. Коэффициент эластичности (Э) рассчитывается как относительное изменение у на единицу относительного изменения x:

.(24)

Различают обобщающие (средние) и точечные коэффициенты эластичности.

Обобщающий коэффициент эластичности рассчитывается для среднего значения : и показывает, на сколько процентов изменится у относительно своего среднего уровня при росте х на 1 % относительно своего среднего уровня.

Точечный коэффициент эластичности рассчитывается для конкретного значения х = х0: и показывает, на сколько процентов изменится у относительно уровня у(х0) при увеличении х на 1% от уровня х0.

В зависимости от вида зависимости между х и у формулы расчета коэффициентов эластичности будут меняться. Основные формулы приведены в табл. 2.

Таблица 2

Вид функции

Точечный коэффициент эластичности

Средний коэффициент эластичности

Линейная

Парабола

Равносторонняя гипербола

Степенная

Показательная

Полулогарифмическая у = a + b • lnx

Только для степенных функций коэффициент эластичности представляет собой постоянную независящую от х величину (равную в данном случае параметру b). Именно поэтому степенные функции широко используются в эконометрических исследованиях. Параметр b в таких функциях имеет четкую экономическую интерпретацию - он показывает процентное изменение результата при увеличении фактора на 1 %. Так, если зависимость спроса у от цен p характеризуется уравнением вида: , то, следовательно, с увеличением цен на 1 % спрос снижается в среднем на 1,5 %.

Несмотря на широкое использование в эконометрике коэффициентов эластичности, возможны случаи, когда их расчет экономического смысла не имеет. Это происходит тогда, когда для рассматриваемых признаков бессмысленно определение изменения значений в процентах. Например, бессмысленно определять, на сколько процентов изменится заработная плата с ростом возраста рабочего на 1%. В такой ситуации степенная функция, даже если она оказывается наилучшей по формальным соображениям (исходя из наибольшего значения R2), не может быть экономически интерпретирована.

1.4 Анализ гетероскедастичности

В соответствии с третьей предпосылкой метода наименьших квадратов требуется, чтобы дисперсия остатков была гомоскедастичной. Это значит, что для каждого значения фактора хi остатки имеют одинаковую дисперсию. Если это условие применения МНК не соблюдается, то имеет место гетероскедастичность (рис. 1).

Гомоскедастичность остатков означает, что дисперсия остатков i одинакова для каждого значения х.

Рис. 1. Примеры гетероскедастичности

Гетероскедастичность будет сказываться на уменьшении эффективности оценок bi. В частности, становится затруднительным использование формулы стандартной ошибки коэффициента регрессии , предполагающей единую дисперсию остатков для любых значений фактора.

Рассмотрим тесты, которые позволяют провести анализ модели на гомоскедастичность.

При малом объеме выборки, что наиболее характерно для эконометрических исследований, для оценки гетероскедастичности может использоваться метод ГольдфельдаКвандта, разработанный в 1965 г. Гольдфельд и Квандт рассмотрели однофакторную линейную модель, для которой дисперсия остатков возрастает пропорционально квадрату фактора. Для того чтобы оценить нарушение гомоскедастичности, они предложили параметрический тест, который включает в себя следующие шаги:

1. Упорядочение п наблюдений по мере возрастания переменной х.

2. Исключение из рассмотрения С центральных наблюдений; при этом (п С)/2 > р, где р число оцениваемых параметров.

Из экспериментальных расчетов, проведенных авторами метода для случая одного фактора, рекомендовано при п = 30 принимать С = 8, а при п = 60 - соответственно С = 16.

3. Разделение совокупности из (п С) наблюдений на две группы (соответственно с малыми и большими значениями фактора х) и определение по каждой из групп уравнений регрессии.

4. Определение остаточной суммы квадратов для первой (S1) и второй (S2) групп и нахождение их отношения: R = S1/S2, где S1 > S2.

При выполнении нулевой гипотезы о гомоскедастичности отношение R будет удовлетворять F-критерию с (пС2р)/2 степенями свободы для каждой остаточной суммы квадратов. Чем больше величина R превышает табличное значение F-критерия, тем более нарушена предпосылка о равенстве дисперсий остаточных величин.

Критерий ГольдфельдаКвандта используется и при проверке остатков множественной регрессии на гетероскедастичность.

Наличие гетероскедастичности в остатках регрессии можно проверить и с помощью ранговой корреляции Спирмэна. Суть проверки заключается в том, что в случае гетероскедастичности абсолютные остатки i коррелированы со значениями фактора хi. Эту корреляцию можно измерять с помощью коэффициента ранговой корреляции Спирмэна:

,(25)

где d абсолютная разность между рангами значений хi и |i|.

Статистическую значимость можно оценить с помощью t-критерия:

.(26)

Сравнив эту величину с табличной величиной при = 0,05 и числе степеней свободы (п m). Принято считать, что если t > t, то корреляция между i и хi статистически значима, т. е. имеет место гетероскедастичность остатков. В противном случае принимается гипотеза об отсутствии гeтероскедастичности остатков.

Рассмотренные критерии не дают количественной оценки зависимости дисперсии ошибок регрессии от соответствующих значений факторов, включенных в регрессию. Они позволяют лишь определить наличие или отсутствие гетероскедастичности остатков. Поэтому если гетероскедастичность остатков установлена, можно количественно оценить зависимость дисперсии ошибок регрессии от значений факторов. С этой целью могут быть использованы тесты Уайта, Парка, Глейзера и др.

Тест Уайта предполагает, что дисперсия ошибок регрессии представляет собой квадратичную функцию от значений факторов, т.е. при наличии одного фактора 2 = а+ bx + cx2 + u, или при наличии факторов:

2 = a + b1x1 + b11 + b2x2 + b22 + b12x1x2 + … + bpxp + bpp + b1px1xp + b2px2xp + … + u.

Так что модель включает в себя не только значения факторов, но и их квадраты, а также попарные произведения. Поскольку каждый параметр модели = f(хi) должен быть рассчитан на основе достаточного числа степеней свободы, то чем меньше объем исследуемой совокупности, тем в меньшей мере квадратичная функция сможет содержать попарные произведения факторов. Например, если регрессия строится по 30 наблюдениям как yi = a + b1x + i, то последующая квадратичная функция для остатков может быть представлена лишь как

2 = а + b1x + b11х2 + u,

поскольку на каждый параметр при х должно приходиться не менее 67 наблюдений. В настоящее время тест Уайта включен в стандартную программу регрессионного анализа в пакете Econometric Views. О наличии или отсутствии гетероскедастичности остатков судят по величине F-критерия Фишера для квадратичной функции регрессии остатков. Если фактическое значение F-критерия выше табличного, то, следовательно, существует четкая корреляционная связь дисперсии ошибок от значений факторов, включенных в регрессию, и имеет место гетероскедастичность остатков. В противном случае (Fфакт < Fтабл) делается вывод об отсутствии гeтероскедастичности остатков регрессии.

Тест Парка также относится к формализованным тестам гетероскедастичности. Предполагается, что дисперсия остатков связана со значениями факторов функций ln 2 = а + b ln х + и. Данная регрессия строится для каждого фактора в условиях многофакторной модели. Проверяется значимость коэффициента регрессии b по t-критерию Стьюдента. Если коэффициент регрессии для уравнения ln2 окажется статистически значимым, то, следовательно, существует зависимость ln2 от lnх, т.е. имеет место гетероскедастичность остатков.

Если тесты Уайта и Парка предназначены для оценки гетероскедастичности для квадрата остатков 2, то тест Глейзера основывается на регрессии абсолютных значений остатков ||, т.е. рассматривается функция |i| = а + b + иi. Регрессия |i| от хi строится при разных значениях параметра с, и далее отбирается та функция, для которой коэффициент регрессии b оказывается наиболее значимым, т.е. имеет место наибольшее значение t-критерия Стьюдента или F-критерия Фишера и R2.

При обнаружении гетероскедастичности остатков регрессии ставится цель ее устранения, чему служит применение обобщенного метода наименьших квадратов (см. ниже).

2. Множественная регрессия и корреляция

2.1 Нормальная линейная модель множественной регрессии

Естественным обобщением линейной регрессии с двумя переменными является многомерная регрессионная модель (multiple regression model) или модель множественной регрессии:

(27)

где уi - значение признака-результата (зависимой переменной) для i-го наблюдения; хji - значение j-го фактора (независимей или объясняющей переменной) (j = 1;т) для i-го наблюдения; i - случайная составляющая результативного признака для i-го наблюдения; b0 - свободный член, который формально показывает среднее значение у при х1 = х2 = ... = хт = 0; bj - коэффициент «чистой» регрессии при j факторе (j=1,m).

Коэффициент регрессии характеризует среднее изменение признака-результата у с изменением соответствующего фактора хj. на единицу, при условии, что прочие факторы модели не изменяются и фиксированы на средних уровнях.

Обычно для многомерной регрессионной модели делаются следующие предпосылки.

1. - детерминированные (нестохастические) переменные.

, (i = 1, n) - математическое ожидание случайной составляющей равно 0 в любом наблюдении.

, (i = 1, n) - теоретическая дисперсия случайной составляющей; постоянна для всех наблюдений.

- отсутствие систематической связи между значениями случайной составляющей в любых двух наблюдениях.

Часто добавляется условие: , т. е. i - нормально распределенная случайная величина.

Модель линейной множественной регрессии, для которой выполняются данные предпосылки, называется нормальной линейной регрессионной (Classical Normal Regression model).

В матричной форме нормальная (классическая) регрессионная, модель имеет вид:

,(28)

где Y - случайный вектор-столбец размерности (n1) наблюдаемых значений результативного признака; X - матрица размерности (n(m+1)) наблюдаемых значений факторных признаков. Добавление 1 к общему числу факторов т учитывает свободный член b0 в уравнении регрессии. Значения фактора х0 для свободного члена принято считать равным единице; b - вектор-столбец размерности ((т+1)1) неизвестных, подлежащих оценке параметров модели (коэффициентов регрессии); - случайный вектор-столбец размерности (n1) ошибок наблюдений.

Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям.

1. Они должны быть количественно измеримы. Если не обходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность (например, в модели урожайности качество почвы задается в виде баллов).

2. Каждый фактор должен быть достаточно тесно связан с результатом (т. е. коэффициент парной линейной корреляции между фактором и результатом должен существенно отличаться от нуля).

3. Факторы не должны сильно коррелировать друг с другом, тем более находиться в строгой функциональной связи (т. е. они не должны быть интеркоррелированны).

2.2 Традиционный метод наименьших квадратов для многомерной регрессии (OLS)

Основная задача регрессионного анализа заключается в нахождении по выборке объемом n оценки неизвестных коэффициентов регрессии модели или вектора b.

Оценка параметров многомерной модели, как и в случае парной регрессии, осуществляется обычно традиционным методом наименьших квадратов (МНК). Согласно данному методу, в качестве оценки вектора 1 принимают вектор b, который минимизирует сумму квадратов отклонений наблюдаемых значений yi от рассчитанных по модели .

В матричной форме функционал S будет записан так:

(29)

МНК-оценки в матричной форме находят по формулам:

, .(30)

Оценим с помощью МНК параметры линейной двухфакторной модели: , i=1; n. Для этого минимизируем функционал:

(31)

Функционал S является функцией трех переменных b0, b1, b2. Чтобы найти экстремум функции нескольких переменных, нужно взять ее частные производные по этим переменным и приравнять их нулю:

, , .

Получим следующую систему нормальных линейных уравнений:

(32)

Параметры этой системы могут быть найдены, например, методом К. Гаусса, либо методом итераций.

Для сравнения влияния на зависимую переменную различных объясняющих переменных используют стандартизированные коэффициенты регрессии и коэффициенты эластичности Ej (j = 1, 2, …, n):

;.(33)

Стандартизированный коэффициент регрессии показывает, на сколько величин Sy изменится в среднем зависимая переменная у при увеличении только j-й объясняющей переменной на Sxj. Коэффициент эластичности Ej показывает, на сколько процентов (от средней) изменится в среднем у при увеличении только хj на 1%.

2.3 Парный, частный и множественный коэффициент корреляции

Выполним корреляционный анализ множественной модели. Для этого рассчитаем матрицу выборочных парных коэффициентов корреляции, используя формулу (12). Для модели, в которой используются две факторные переменные, матрица выборочных коэффициентов имеет вид:

.(34)

Во множественных моделях необходимо проверить модель на мультиколлинеарность. Под мультиколлинеарностью понимается высокая взаимная коррелированность объясняющих переменных. Один из подходов выявления мультиколлинеарности является анализ матрицы парных коэффициентов корреляции и выявление пар факторов, имеющих высокие коэффициенты корреляции.

Показатели парной корреляции - ryx характеризуют тесноту связи результата и фактора, не принимая во внимание возможного влияния на результат других факторных признаков. Поэтому во множественном регрессионном анализе возникает проблема определения тесноты связи между двумя признаками в чистом виде, т.е. при устранении воздействия других факторов. Нам под силу исключить влияние только учтенных в модели факторов.

Показателем «чистого» влияния фактора на результат при устранении влияния прочих факторов, включенных в модель регрессии, является частный коэффициент корреляции или частный индекс корреляции (в зависимости от формы связи).

Частные коэффициенты корреляции для двухфакторной модели рассчитываются по формуле.

; (35)

.(36)

Коэффициент множественной корреляции вычисляют по формуле:

(37)

Оценку адекватности множественной модели производим по формулам (18), (21).

3. Моделирование одномерных временных рядов

3.1 Основные понятия и определения

В современной экономике и в бизнесе без прогноза не обойтись. Любое серьезное решение, в особенности связанное с вложением денег, требует прогноза, предвидения развития экономической ситуации.

Имеется два подхода к прогнозированию. Первый - использование методов качественного прогнозирования. Эти методы применимы в тех ситуациях, когда данные за прошедшие периоды времени недоступны и/или ненадежны, например, при прогнозировании объема продаж совершенно нового товара, не существовавшего ранее на рынке. Второй подход - использование количественных методов. В этом случае данные за прошедшие периоды времени доступны для исследователя.

Информационной базой для анализа экономических процессов являются динамические и временные ряды. Совокупность наблюдений некоторого явления (показателя), упорядоченная в зависимости от последовательности значений другого явления (признака), называют динамическим рядом. Динамические ряды, у которых в качестве признака упорядочения используется время, называют временными.

В экономике и бизнесе временные ряды - это очень распространенный тип данных. Во временном ряде содержится информация об особенностях и закономерностях протекания процесса, а статистический анализ позволяет выявить закономерности и использовать их для оценки характеристик процесса в будущем, т.е. для прогнозирования.

Временной ряд - это набор чисел, привязанный к последовательным, обычно равноотстоящим моментам времени. Числа, составляющие временной ряд и получающиеся в результате наблюдения за ходом некоторого процесса, называются уровнями временного ряда, или элементами. Интервал между двумя последовательными моментами времени называют тактом (шагом, квантом). Под длиной временного ряда понимают количество входящих в него уровней n. Временной ряд обычно обозначают Y(t), или yt, где t = 1, 2, … n.

Формально задача прогнозирования сводится к получению оценок значений ряда для некоторого периода будущего, т.е. к получению значения Yпрогноз(t), где t = n + 1, n + 2, … При использовании методов экстраполяции исходят из предположения о сохранении закономерностей прошлого развития на период прогнозирования. Во многих случаях (но не всегда!) при разработке оперативного (до года) и краткосрочного (до 2 лет) прогноза эти предположения являются справедливыми.

Статистические методы исследования исходят из предположения возможности представлять уровни временного ряда в виде суммы нескольких компонент, отражающих закономерность и случайность развития, в частности, в виде суммы четырех компонент:

Y(t) = f(t) + S(t) + U(t) + E(t),(38)

где f(t) - тренд (долговременная тенденция) развития;

S(t) - сезонная компонента;

U(t) - циклическая компонента;

E(t) - остаточная компонента.

В модели временного ряда принято выделять две основные составляющие: детерминированную (систематическую) и случайную. Под детерминированной составляющей временного ряда у1, у2, …, yn понимают числовую последовательность, элементы которой вычисляются по определенному правилу как функция времени t. Исключив детерминированную составляющую из данных, мы получим колеблющийся вокруг нуля ряд, который может в одном предельном случае представлять случайные скачки, а в другом - плавное колебательное движение.

Детерминированная составляющая может содержать следующие структурные компоненты.

1. Тренд, или тенденция f(t), представляет собой устойчивую закономерность, наблюдаемую в течение длительного периода времени. В качестве примера таких факторов в экономике можно назвать:

а) изменение демографических характеристик популяции (численности, возрастной структуры);

б) технологическое и экономическое развитие;

в) рост потребления.

Обычно тренд (тенденция) описывается с помощью той или иной неслучайной функции Fтр(t) (аргументом которой является время), как правило, монотонной. Эту функцию называют функцией тренда, или просто - трендом.

2. Сезонная компонента S(t) связана с наличием факторов, действующих с заранее известной периодичностью. Это регулярные колебания, которые носят периодический или близкий к нему характер и заканчиваются в течение года. Типичные примеры сезонного эффекта: изменение загруженности автотрассы в течение суток, по дням недели, временам года, пик продаж товаров для школьников в конце августа - начале сентября. Сезонная компонента со временем может меняться либо иметь плавающий характер.

3. Циклическая компонента U(t) - неслучайная функция, описывающая длительные периоды (более одного года) относительного подъема и спада и состоящая из циклов переменной длительности и амплитуды. Примером циклической (конъюнктурной) компоненты являются волны Кондратьева, демографические «ямы» и т.п. Подобная компонента весьма характерна для рядов макроэкономических показателей. Здесь циклические изменения обусловлены взаимодействием спроса и предложения, а также наложением таких факторов, как истощение ресурсов, погодные условия, изменения в налоговой политике и т.п. Отметим, что циклическую компоненту крайне трудно идентифицировать формальными методами, исходя * только из данных изучаемого ряда,

4. Случайная составляющая E(t) ряда отражает воздействие многочисленных факторов случайного характера и может иметь разнообразную структуру, начиная от простейшей в виде «белого шума» до весьма сложных, описываемых моделями авторегрессии и скользящего среднего.

Основная цель статистического анализа временных рядов изучение соотношения между закономерностью и случайностью в формировании значений уровней ряда, оценка количественной меры их влияния. Закономерности, объясняющие динамику показателя в прошлом, используются для прогнозирования его значений в будущем, а учет случайности позволяет определить вероятность отклонения от закономерного развития и его возможную величину.

3.2 Требования к исходной информации

Анализ временных рядов, отражающих развитие экономических процессов, начинается с оценки данных. Уровни исследуемого показателя обязательно должны быть сопоставимыми, однородными и устойчивыми, а их число должно быть достаточно велико.

Сопоставимость достигается в результате одинакового подхода к наблюдениям на разных этапах формирования динамического ряда.

Однородность данных означает отсутствие сильных изломов тенденций, а также аномальных (т.е. резко выделяющихся, нетипичных для данного ряда) наблюдений. Аномальные наблюдения проявляются в виде сильного изменения уровня - скачка или спада - с последующим приблизительным восстановлением предыдущего уровня. Наличие аномалии резко искажает результаты моделирования. Поэтому аномальные наблюдения необходимо исключить из временного ряда, заменив их расчетными значениями.

Устойчивость характеризуется преобладанием закономерности над случайностью в изменении уровней ряда. На графиках устойчивых временных рядов закономерность прослеживается визуально, на графиках неустойчивых рядов изменения последовательных уровней представляются хаотичными, и поэтому поиск закономерностей в формировании значений уровней таких рядов лишен смысла.

Требование полноты данных обусловливается тем, что закономерность может обнаружиться лишь при наличии минимально допустимого объема наблюдений.

3.3 Этапы построения прогноза по временным рядам

Экстраполяционное прогнозирование экономических процессов, представленных одномерными временными рядами, сводится к выполнению следующих основных этапов:

1) предварительный анализ данных;

2) построение моделей: формирование набора аппроксимирующих функций (кривых роста) и численное оценивание параметров моделей;

3) проверка адекватности моделей и оценка их точности;

4) выбор лучшей модели;

5) расчет точечного и интервального прогнозов.

На первом этапе производится:

· выявление аномальных наблюдений;

· проверка наличия тренда;

· сглаживание временных рядов;

· расчет показателей развития динамики экономических процессов.

Так как наличие аномальных наблюдений приводит к искажению результатов моделирования, то необходимо убедиться в отсутствии аномалий данных. В качестве примера аномалии может служить скачок курса доллара, зафиксированный в «черный вторник».

Следующая процедура этапа предварительного анализа данных - выявление наличия тенденций в развитии исследуемого показателя. Отметим, что тенденция прослеживается не только в увеличении или уменьшении среднего текущего значения временного ряда, но она присуща и другим его характеристикам: дисперсии, автокорреляции, корреляции с другими показателями и т.д. Тенденцию среднего визуально можно определить из графика исходных данных, а более точно - с помощью метода Фостера-Стьюарта, метода проверки существенности разности средних, подробное описание которых дано в работе.

Наличие тенденции среднего уровня на графике становится более заметным, когда на нем отражены сглаженные значения исходных данных.

Процедура сглаживания необходима при построении некоторых математических моделей и для устранения аномальных наблюдений. Чаще всего для сглаживания применяются методы простой скользящей средней, взвешенной скользящей средней и экспоненциального сглаживания.

Традиционными показателями, характеризующими развитие экономических процессов, были и остаются показатели роста и прироста. Для характеристики динамики изменения экономических показателей все чаще используется понятие автокорреляции, которая характеризует не только взаимозависимость уровней одного и того же ряда, относящихся к разным моментам наблюдений, но и степень устойчивости развития процесса во времени, величину оптимального периода прогнозирования и т.п.

Второй, третий, четвертый и пятый этапы построения модели и прогноза по временным рядам рассмотрим на примере (задача 8).

4. Типичные примеры анализа моделей

Задача 1

Торговое предприятие имеет сеть, состоящую из 12 магазинов, информация о деятельности которых представлена следующими данным (табл. 3).

Таблица 3

№ магазина

Среднее число посетителей в день, тыс. чел, х

Годовой товарооборот, млн руб., у

№ магазина

Среднее число посетителей в день, тыс. чел, х

Годовой товарооборот, млн руб., у

1

8,25

19,76

7

12,36

75,01

2

10,24

38,09

8

10,81

89,05

3

9,31

40,95

9

9,89

91,13

4

11,01

41,08

10

13,72

91,26

5

8,54

56,29

11

12,27

99,84

6

7,51

68,51

12

13,92

108,55

Задания:

1. Построить линейную модель y = b0 + b1x, параметры которой оценить методом наименьших квадратов.

2. Оценить тесноту и направление связи между переменными с помощью коэффициента корреляции, найти коэффициент детерминации и пояснить его смысл.

3. Проверить значимость уравнения регрессии на 5%-м уровне по F-критерию, проверить значимость коэффициента регрессии по t-статистике.

Решение:

При анализе статистических зависимостей широко используются графические методы, которые задают направление его дальнейшего анализа. В Excel для этого можно использовать средство Мастер диаграмм. Для создания диаграммы необходимо выделить данные, запустить мастер диаграмм, выбрать тип и вид диаграммы (для нашего примера тип диаграммы - Точечная), выбрать и уточнить ориентацию диапазона данных и ряда, настроить параметры диаграммы.

Для описания закономерностей в исследуемой выборке наблюдений строится линия тренда.

Для добавления линии тренда в диаграмму необходимо выполнить следующие действия:

1) щелкнуть правой кнопкой мыши по ряду данных;

2) в динамическом меню выбрать команду Добавить линию тренда. На экране появится окно Линия тренда (рис. 2);

3) выбрать вид зависимости регрессии. Для нашего примера тип тренда определим, как Линейный;

4) перейти на вкладку Параметры. В поле Показать уравнение на диаграмме установить подтверждение;

5) в случае необходимости можно задать остальные параметры.

Изобразим полученную зависимость графически точками координатной плоскости (рис. 2). Такое изображение статистической зависимости называется полем корреляции.

Рис. 2. Диалоговое окно для выбора типа тренда

По расположению эмпирических точек можно предполагать наличие линейной корреляционной (регрессионной) зависимости между переменными х и у.

По данным табл. 2 найдем уравнение регрессии у по х. Расчеты произведем в Excel по формулам (4) - (10), промежуточные вычисления представим в табл. 4.

Рис. 3. Поле корреляции

Таблица 4

N

X

Y

X*Y

X*X

Y*Y

1

8,25

19,76

163,02

68,0625

390,4576

2

10,24

38,09

390,0416

104,8576

1450,848

3

9,31

40,95

381,2445

86,6761

1676,903

4

10,01

41,08

411,2108

100,2001

1687,566

5

8,54

56,29

480,7166

72,9316

3168,564

6

7,51

68,51

514,5101

56,4001

4693,62

7

12,36

75,01

927,1236

152,7696

5626,5

8

10,81

89,05

962,6305

116,8561

7929,903

9

11,89

91,13

1083,536

141,3721

8304,677

10

13,72

91,26

1252,087

188,2384

8328,388

11

12,27

99,84

1225,037

150,5529

9968,026

12

13,92

108,55

1511,016

193,7664

11783,1

Сумма

128,83

819,52

9302,173

1432,684

65008,55

Среднее

10,73583333

68,2933

775,1811

119,3903

5417,38

Дисперсия

4,132174306

753,4001222

b1

10,163

Cov(x,y)

41,99527222

b0

-40,8149

Итак, уравнение регрессии у по х:

= 40,81 + 10,16x.

Из полученного уравнения регрессии следует, что при увеличении среднего числа посетителей на 1 тыс. чел. годовой товарооборот увеличивается в среднем на 10,16 млн руб.

По исходным данным вычислим коэффициент корреляции.

Расчеты произведем в Excel, промежуточные вычисления см. табл. 4 и формулы (11), (12).

= 0,753,

т.е. связь между переменными достаточно тесная.

Оценим на уровне значимости = 0,05 значимость уравнения регрессии у по х.

1-й способ. Используя данные табл. 5 вычислим необходимые суммы по формулам табл. 1:

= 9040,801 (см. столбец 6);

QR = = 5121,574 (см. столбец 7);

Qe = Q QR = 9040,801 - 5121,574 = 3919,228

По формуле (19)

F = = 13,07.

По статистическим таблицам F-распределения F0,05;1;10 = 4,96. Так как F > F0,05;1;26, то уравнение регрессии значимо.

Таблица 5

N

X

Y

Yрег

Yi-Yрег

(Yi-Yср)^2

(Yрег-Yср)^2

(Xi-Xcp)^2

1

8,25

19,76

43,03

-23,2698

2355,484

638,2452

6,179367

2

10,24

38,09

63,254

-25,1642

912,2413

25,39306

0,245851

3

9,31

40,95

53,802

-12,8526

747,6579

209,9815

2,033001

4

10,01

41,08

60,916

-19,8367

740,5655

54,41484

0,526834

5

8,54

56,29

45,977

10,3129

144,08

498,0148

4,821684

6

7,51

68,51

35,509

33,0008

0,046944

1074,799

10,406

7

12,36

75,01

84,799

-9,7897

45,11361

272,4612

2,637917

8

10,81

89,05

69,047

20,0029

430,8392

0,568147

0,005501

9

11,89

91,13

80,023

11,1069

521,5133

137,588

1,332101

10

13,72

91,26

98,621

-7,3614

527,4678

919,7921

8,905251

11

12,27

99,84

83,886

15,9549

995,1922

243,102

2,353667

12

13,92

108,55

100,654

7,8960

1620,599

1047,213

10,13892

Сумма

128,83

819,52

0,00

9040,801

5121,574

49,58609

Среднее

10,736

68,293

b1

10,163

b0

-40,8149

2-й способ. Учитывая, что b1 = 10,163, = 49,586 (табл. 4), = =391,92 (табл. 1), по формуле (20)

t = = 3,61.

По таблице t-распределения t0,95;10 = 2,23. Так как t > t0,95;26, то коэффициент регрессии b1, а значит, и уравнение парной линейной регрессии значимо.

Найдем коэффициент детерминации и поясним его смысл. Ранее было получено QR = 5121,574, Q = 9040,801. По формуле (22) = 0,5665 (или R2 = r2 = 0,7532 = 0,95665). Это означает, что изменения зависимой переменной у - годовой товарооборот ...


Подобные документы

  • Анализ метода наименьших квадратов для парной регрессии, как метода оценивания параметров линейной регрессии. Рассмотрение линейного уравнения парной регрессии. Исследование множественной линейной регрессии. Изучение ошибок коэффициентов регрессии.

    контрольная работа [108,5 K], добавлен 28.03.2018

  • Основные методы анализа линейной модели парной регрессии. Оценки неизвестных параметров для записанных уравнений парной регрессии по методу наименьших квадратов. Проверка значимости всех параметров модели (уравнения регрессии) по критерию Стьюдента.

    лабораторная работа [67,8 K], добавлен 26.12.2010

  • Понятие взаимосвязи между случайными величинами. Ковариация и коэффициент корреляции. Модель парной линейной регрессии. Метод наименьших квадратов, теорема Гаусса-Маркова. Сравнение регрессионных моделей. Коррекция гетероскедастичности, логарифмирование.

    курс лекций [485,1 K], добавлен 02.06.2011

  • Определение параметров линейной регрессии и корреляции с использованием формул и табличного процессора MS Excel. Методика расчета показателей парной нелинейной регрессии и корреляции. Вычисление значений линейных коэффициентов множественной детерминации.

    контрольная работа [110,4 K], добавлен 28.07.2012

  • Методика расчета линейной регрессии и корреляции, оценка их значимости. Порядок построения нелинейных регрессионных моделей в MS Exсel. Оценка надежности результатов множественной регрессии и корреляции с помощью F-критерия Фишера и t-критерия Стьюдента.

    контрольная работа [3,6 M], добавлен 29.05.2010

  • Построение модели множественной линейной регрессии по заданным параметрам. Оценка качества модели по коэффициентам детерминации и множественной корреляции. Определение значимости уравнения регрессии на основе F-критерия Фишера и t-критерия Стьюдента.

    контрольная работа [914,4 K], добавлен 01.12.2013

  • Параметры уравнения линейной регрессии. Вычисление остаточной суммы квадратов, оценка дисперсии остатков. Осуществление проверки значимости параметров уравнения регрессии с помощью критерия Стьюдента. Расчет коэффициентов детерминации и эластичности.

    контрольная работа [248,4 K], добавлен 26.12.2010

  • Экономическая интерпретация коэффициента регрессии. Нахождение статочной суммы квадратов и оценка дисперсии остатков. Проверка значимости параметров уравнения регрессии с помощью t-критерия Стьюдента. Расчет средней относительной ошибки аппроксимации.

    контрольная работа [261,1 K], добавлен 23.03.2010

  • Построение линейного уравнения парной регрессии, расчет линейного коэффициента парной корреляции и средней ошибки аппроксимации. Определение коэффициентов корреляции и эластичности, индекса корреляции, суть применения критерия Фишера в эконометрике.

    контрольная работа [141,3 K], добавлен 05.05.2010

  • Задачи эконометрики, ее математический аппарат. Взаимосвязь между экономическими переменными, примеры оценки линейности и аддитивности. Основные понятия и проблемы эконометрического моделирования. Определение коэффициентов линейной парной регрессии.

    контрольная работа [79,3 K], добавлен 28.07.2013

  • Расчет параметров парной линейной регрессии. Оценка статистической значимости уравнения регрессии и его параметров с помощью критериев Фишера и Стьюдента. Построение матрицы парных коэффициентов корреляции. Статистический анализ с помощью ППП MS EXCEL.

    контрольная работа [1,6 M], добавлен 14.05.2008

  • Оценка коэффициентов парной линейной регрессии, авторегрессионное преобразование. Трехшаговый и двухшаговый метод наименьших квадратов, его гипотеза и предпосылки. Системы одновременных уравнений в статистическом моделировании экономических ситуаций.

    курсовая работа [477,2 K], добавлен 05.12.2009

  • Расчет линейного коэффициента парной и частной корреляции. Статистическая значимость параметров регрессии и корреляции. Анализ корреляционного поля данных. Точность прогноза, расчет ошибки и доверительный интервал. Коэффициент множественной детерминации.

    контрольная работа [155,8 K], добавлен 11.12.2010

  • Построение поля корреляции. Расчет параметров уравнений парной регрессии. Зависимость средней ожидаемой продолжительности жизни от некоторых факторов. Изучение "критерия Фишера". Оценка тесноты связи с помощью показателей корреляции и детерминации.

    контрольная работа [173,8 K], добавлен 22.11.2010

  • Понятие регрессии. Оценка параметров модели. Показатели качества регрессии. Проверка статистической значимости в парной линейной регрессии. Реализация регрессионного анализа в программе MS Excel. Условия Гаусса-Маркова. Свойства коэффициента детерминации.

    курсовая работа [233,1 K], добавлен 21.03.2015

  • Оценка корреляционной матрицы факторных признаков. Оценки собственных чисел матрицы парных коэффициентов корреляции. Анализ полученного уравнения регрессии, определение значимости уравнения и коэффициентов регрессии, их экономическая интерпретация.

    контрольная работа [994,1 K], добавлен 29.06.2013

  • Расчет параметров уравнения линейной регрессии, оценка тесноты связи с помощью показателей корреляции и детерминации. Определение средней ошибки аппроксимации. Статистическая надежность моделирования с помощью F-критерия Фишера и t-критерия Стьюдента.

    контрольная работа [58,3 K], добавлен 17.10.2009

  • Уравнение нелинейной регрессии и вид уравнения множественной регрессии. Преобразованная величина признака-фактора. Преобразование уравнения в линейную форму. Определение индекса корреляции и числа степеней свободы для факторной суммы квадратов.

    контрольная работа [501,2 K], добавлен 27.06.2011

  • Параметры парной линейной, линейно-логарифмической функции. Оценка статистической надёжности. Ошибка положения регрессии. Расчёт бета коэффициентов, уравнение множественной регрессии в стандартизованном масштабе. Задача на определение тесноты связи рядов.

    контрольная работа [192,2 K], добавлен 23.06.2012

  • Параметры уравнений линейной парной регрессии. Показатели корреляции и детерминации. Изменение средней заработной платы и выплат социального характера. Средняя ошибка аппроксимации. Коэффициент эластичности и стоимость активных производственных фондов.

    контрольная работа [1,1 M], добавлен 23.06.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.