Оценка факторов, влияющих на динамику развития города

Теоретические подходы к исследованию процесса социально-экономического развития города. Общие сведения о городах России, выявление факторов, влияющих на их развитие. Построение базовой регрессионной модели для заданной численности населения, ее проверка.

Рубрика Экономика и экономическая теория
Вид дипломная работа
Язык русский
Дата добавления 06.07.2016
Размер файла 558,0 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Для оценки качества подбора линейной функции рассчитывается коэффициент детерминации (R2):

[6, с. 48]

Как только построено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных ее параметров.

Оценка значимости уравнения регрессии в целом проверяется с помощью F-критерия Фишера:

,

где p - число независимых переменных в уравнении регрессии.

Более того, одним из важных тестов является Redundant Variables test - тест на лишние переменные. При помощи данного теста можно улучшить спецификацию модели, удалив из неё некоторые на первый взгляд незначимые переменные, у которых мала t-статистика и высокая вероятность незначимости.

В этом исследовании необходим тест Хаусмана. Он проводится, когда требуется сравнить модели, которые оцениваются разными методами. [9] Тест на правильность спецификации проверяется тестом Рамсея. RESET-тест Рамсея на пропущенные регрессоры генерирует степени предсказанных значений зависимой переменной, включает их в модель в качестве регрессора и проверяет его значимость.

Необходимо отметить, что одной из главных предпосылок МНК является условие постоянства дисперсий случайных отклонений: дисперсия случайных отклонений постоянна. Выполнение этой предпосылки называется гомоскедастичностью (постоянство дисперсий отклонений). Невыполнимость предпосылки - гетероскедастичностью. [3, с. 209].

Разделяют два вида гетероскедастичности:

Истинная гетероскедастичность: модель при таком виде гетероскедастичности правильно специфицирована; однако даже в такой, правильно специфицированной модели присутствует разная дисперсия ошибок у разных наблюдений. В этом случае гетероскедастичность не ведет к смещению коэффициентов.

Ложная гетероскедастичность: такая гетероскедастичность вызвана неправильной спецификацией (пропущена переменная или же использована линейная регрессия вместо нелинейной). Гетероскедастичность этого типа ведет к смещению коэффициентов. Именно поэтому обязательно нужно проверять модель на наличие гетероскедастичности. Чтобы определить есть ли в модели гетероскедастичность или нет, используют определенные тесты:

· Тест Парка.

· Тест Глейзера.

· Тест Голдфелда-Квандта.

· Тест Уайта.

· Тест Бреуша-Пагана-Годфри.

· Тест Харви.

Если в регрессионной модели присутствует гетероскедастичность, то нужно сделать попытку её устранения. Это можно сделать следующими способами:

1. Возможно, следует скорректировать спецификацию, к примеру:

использовать логарифмическую или иную нелинейную модель

добавить переменные, которые позволяют точнее описать взаимосвязь

2. Другим способом является использование скорректированных стандартных ошибок (наиболее распространенный способ - увеличивает стандартные ошибки по сравнению с обычным МНК; если уж коэффициент значим, то такому выводу можно доверять).

3. Также возможно использование взвешенного метода наименьших квадратов. Лучше всего попробовать разделить обе части уравнения на какую-то переменную, тогда очень часто гетероскедастичность пропадает.

После устранения гетероскедастичности последнее, что необходимо провести - это тест на наличие или отсутствие мультиколлинеарности. Мультиколлинеарность - это ситуация, в которой одна переменная достаточно хорошо объясняется другими переменными. Она возможна если две переменные коррелированны, и нельзя различить их влияние на зависимую. Последствия мультиколлинеарности:

· большие дисперсии ошибок. Это затрудняет нахождение истинных значений определяемых величин;

· оценки коэффициентов по МНК и их стандартные ошибки становятся неустойчивыми, так как становятся более чувствительными даже к незначительным изменениям данных;

· возможность получения неверного знака у коэффициента регрессии.

В некоторых случаях мультиколлинеарность устранять не стоит. Нужно ли устранять её или нет, зависит от целей исследования. Если, к примеру, модель строится для того, чтобы в дальнейшем прогнозировать будущие значения зависимой переменной, то при достаточно большом (>=0,9) значении коэффициента детерминации, наличие мультиколлинеарности чаще всего не сказывается на прогнозных качествах модели. Если же цель исследования - определение степени влияния каждой из объясняющих переменных на зависимую, то наличие мультиколлинеарности исказит истинные зависимости. Для устранения мультиколлинеарности существуют следующие методы:

· Исключение переменной (-ых) из модели.

· Получение дополнительных данных или новой выборки.

· Изменение спецификации модели.

· Преобразование переменных. [3, с.247-253]

2.3 Особенности использования панельных данных в эконометрическом исследовании

Прежде чем перейти к теоретическим аспектам, касающимся панельных данных, следует обратиться к такому типу данных, как временной ряд. На сегодняшний день данные этого типа используются очень часто, так как собрать информацию по ним довольно просто, причем количество объектов по наблюдаемой переменной очень велико. К примеру, это могут быть данные по усредненному значению квартплаты за кв. метр в месяц за 25 лет. Провести исследование по временным рядам не составит труда, так как анализируется всего лишь один объект за определенный период. Переходя к теории панельных данных, нужно сказать, что в отличие от временных рядов, ситуация обстоит гораздо сложнее. Для начала следует дать определение этого типа данных. Панельные данные - это (panel data)"пространственная выборка объектов, прослеживаемая во времени, и, следовательно, она предоставляет множество наблюдений над каждым отдельным объектом". [10, с.271]

Панельные данные довольно трудно собрать по сравнению с пространственными данными или временными рядами. Для проведения исследования в какой-либо области требуется набор переменных, значения которых требуется собирать в течение всего периода. Очень часто бывает не найти конкретных данных за прошедшие периоды времени по всем исследуемым объектам. Именно поэтому значений переменных гораздо меньше в панельных данных, нежели во временных рядах, однако самих переменных больше.

Чаще всего панельные данные используются в маркетинговых обследованиях, а также социологических. Панельными данными являются результаты репрезентативных национальных опросов домохозяйств, предприятий, индивидуумов.

Следует перечислить основные преимущества использования панельных данных:

1) Предоставляя большое количество наблюдений, они уменьшают коллинеарность между объясняющими переменными, а, значит, улучшаю эффективность оценок.

2) Используя панельные данные можно проследить за индивидуальным изменением характеристик объектов во времени.

3) Панельные данные дают возможность исследовать множество важных экономических вопросов, в то время как пространственные данные и временные ряды не справятся с этой задачей.

4) Они также дают возможность предотвратить смещение агрегированности, которое постоянно возникает при анализе пространственных данных (там, где не берутся во внимание ненаблюдаемые индивидуальные характеристики объектов), а также временных рядов (там, где анализируется временное изменение усредненного "репрезентативного" объекта). [11]

Для исследования панельных данных есть возможность строить три типа регрессии:
· Общая модель регрессии.
· Модель с фиксированными эффектами.
· Модель со случайными эффектами. [27, c.346-347]
Первый тип регрессионный модели, можно сказать, является исключительно теоретическим, потому как вводятся сильные ограничения относительно переменных. Дело в том, что для построения регрессии предпосылка для данных заключается в том, что других переменных, кроме уже выбранных для исследования, не существует. К примеру, если необходимо проанализировать систему здравоохранения какого-либо города, исследователь может собрать данные по таким переменным, как количество больничных учреждений в городе, количество проделанных операций и, допустим, уровень смертности в городе. Построив общую регрессионную модель, исследователь будет руководствоваться предпосылкой о том, что других переменных просто не существует для исследования системы здравоохранения, однако в реальности это не так.
Второй тип регрессии - модель с фиксированными эффектами - имеют уже другую предпосылку о данных, и построение модели регрессии осуществляется, соответственно, принимая её во внимание. Предпосылка заключается в следующем. К примеру, оценивается всё та же модель регрессии, связанная со здравоохранением. Однако различие по сравнению с общей моделью регрессии заключается в том, что в модели учитываются не только те факторы, которые были собраны для исследования. Предполагается, что помимо данных, собранных для проведения исследования, существуют другие факторы, которые не учтены в модели. Такие переменные принято называть ненаблюдаемыми. Стоит отметить, что в модели с фиксированными эффектами ненаблюдаемые переменные обязательно должны коррелировать с теми, которые включены в регрессию. В примере со здравоохранением такими ненаблюдаемыми переменными могут выступать количество определенного рода лекарственных препаратов в детских больницах или же среднее количество пациентов, приходящих на прием к специалисту за месяц. Эти ненаблюдаемые переменные связаны или коррелируют с теми, которые включены в регрессию. Безусловно, нельзя найти их количественные значения, в связи с отсутствием информации о них, но, в ходе построения модели с фиксированными эффектами оценивается качество всех ненаблюдаемых переменных за счет знания о том, что они коррелируют с переменными, включенными в регрессию.
Последний тип регрессионной модели - модель со случайными эффектами. Помимо ненаблюдаемых факторов, описанных во втором типе регрессионной модели, в реальности существуют некие другие факторы, которые не коррелируют с теми, что включены в регрессию. Это и есть допущение, которое отличает эту модель от модели с фиксированными эффектами. (Термины коррелированны и не коррелированны более понятно описывают в данном случае различия в моделях, нежели термины фиксированный и случайный, соответственно). В модели со случайными эффектами учитывается влияние некоррелируемых ненаблюдаемых переменных на зависимую переменную. В итоге все три модели будут построены в данной работе, после чего будет проведен тест Хаусмана, который позволит выявить, какая модель является оптимальной для данного исследования.

2.4 Описание данных

В данной работе используются панельные данные. Количественные значения переменных были взяты из базы данных Мультистат (Многофункциональный статистический портал). Данные брались за 7 лет с 2005 по 2011 гг. База данных по городам огромна, поэтому, прежде всего, данные выбирались, исходя из их наличия за эти годы и из соответствия переменных заданной тематике работы. Предположительно, были выбраны все данные, которые могут влиять на развитие города.
Первоначально был выбран 41 фактор (без зависимой переменной), которые могут влиять на динамику развития города. Зависимая переменная - это численность населения, ведь именно увеличение численности населения стимулирует рост и устойчивое развитие городов. В базе Мультистата данные предоставляются для городов с постоянной численностью жителей от 10000 человек. Однако в процессе работы с базой было выявлено, что по всем имеющимся городам не хватает огромного количества наблюдений. В связи с этим необходимо было убрать некоторые переменные. Более того, были отобраны города, численность которых была от 50000человек. Так как панельные данные, это данные в которых ряд имеющихся объектов, по которым ведется исследование, одинаков на протяжении всего периода вместе со всеми переменными, то было нужно устранить еще несколько переменных и объектов, чтобы панельные данные были сбалансированными. Это также было сделано в связи с отсутствием большого количества наблюдений. В итоге для исследования, связанного с развитием городов РФ были отобраны следующие переменные:
Таблица 7. Описание переменных

Название переменной

Интерпретация

1

pop_0

Численность постоянного населения (на конец года), человек

2

agents_0

Всего субъектов хозяйственной деятельности, учтенных в статистическом регистре хозяйствующих субъектов, единиц

3

empl_0

Среднесписочная численность работников организаций - человек

4

empl_1

Среднемесячная заработная плата работников, рублей

5

empl_4

Количество человек, получающих пособие по безработице, человек

6

ind_1

Количество действующих организаций по видам экономической деятельности (без субъектов малого предпринимательства) - обрабатывающие производства, единиц

7

ind_2

Количество действующих организаций по видам экономической деятельности (без субъектов малого предпринимательства) - производство и распределение электроэнергии, газа и воды, единиц

8

inv_13

Совместная российская и иностранная форма собственности, тыс. руб.

9

constr_0

Ввод в действие жилых зданий, квартир в них и общей площади квартир за счет всех источников финансирования: жилые дома и общежития (общая площадь), тыс. кв. м

10

hous_0

Жилищный фонд города: общая площадь жилых помещений, тыс. кв. метров

11

health_0

Численность врачей - всего, человек

12

health_4

Число больничных учреждений, единиц

13

sport_1

Число спортивных сооружений, единиц

14

envir_0

Выбросы загрязняющих атмосферу веществ, отходящих от стационарных источников, - всего, тыс. тонн

15

cult_3

Число учреждений культурно-досугового типа, единиц

16

educ_0

Число дошкольных образовательных учреждений, единиц

17

educ_2

мест (в дошкольных образовательных учреждениях), единиц

18

educ_5

Число государственных и муниципальных образовательных учреждений среднего профессионального образования (включая филиалы), единиц

19

educ_12

Число государственных и муниципальных образовательных учреждений высшего профессионального образования (включая филиалы), единиц

20

soc_3

Число стационарных учреждений социального обслуживания (домов-интернатов), единиц

Названия переменных соответствуют названиям базы данных Мультистат. Нужно также отметить, что для обработки массива данных используется офисный пакет Microsoft Excel (в нем лучше всего работать со сбором данных), а для проведения исследования используется программа EViews. Это один из лучших инструментов для статического и эконометрического анализа данных.

Глава 3. Выявление основных факторов, влияющих на развитие городов России

3.1 Изучение основных описательных статистик

Описательный анализ данных необходимо начать с построения гистограммы и расчета описательных статистик зависимой переменной Pop_0. Так как данные являются панельными, следует проанализировать описательные статистики за первый период - 2005 год и, соответственно, за последний период - 2011 год.

Рисунок 4. Описательные статистики зависимой переменной за 2005 год

На графике (Рисунок 4) по вертикальной оси расположено количество наблюдений, по горизонтальной - количество человек в городе. На рисунке видно, что среднее количество населения, проживающее в городах равно 462670 человек. Медианное значение равно 230837 человек, это означает, что в половине городов проживает такое количество человек, которое не выше этого значения. Размах составляет 10371974 человек, что можно видеть на ящичковой диаграмме (Рисунок 2). Размах очень велик. Два значения очень сильно отличаются от других. Это два крупнейших города России, Москва и Санкт-Петербург. Для того, чтобы они не искажали результаты исследования, необходимо исключить выбросы.

Рисунок 5. Ящичковая диаграмма

После удаления двух городов, получились следующие результаты описательных статистик:

Рисунок 6. Описательные статистики зависимой переменой после устранения выбросов за 2005 год

В 2005 году среднее значение населения, проживающего в городах, было равно 333492 человек. Размах равен 1343914 человек. Он является большим, так как в России лишь малая часть городов миллионников. Именно эти города и являются причиной столь большого разброса. Но так как взятый для исследования массив данных - это не генеральная совокупность по всем городам, и так как главная цель - выявление факторов, влияющих на развитие городов РФ, то различие в минимальных и максимальных пределах не столь влиятельно для анализа.
На Рисунке 6 можно видеть, что распределение населения несимметрично:
1) Асимметрия равна 1,58. Это значение больше нуля, следовательно, у распределения длинный правый хвост.
2) Эксцесс равен 4,85, что больше 3. Значит, распределение имеет острый пик по сравнению с нормальный распределением.
3) Медиана отличается от среднего. Это также можно видеть на Рис. 2.
Теперь следует построить гистограмму для 2011 года. Это поможет сравнить значения на начало и конец взятого периода. Из данных заранее были удалены два крупнейших города.
Рисунок 7. Описательные статистики зависимой переменой за 2011 год
Сравнение графиков за 2005 и 2011 гг. дает понять, что за 6 лет население в городах росло. Все описательные статистики увеличились. К примеру, с 333492 человек в 2005 году среднее количество населения увеличилось до 342169 человек, значит, за 6 лет в среднем в городах стало жить на 8677 человек больше. Распределение также осталось распределенным неравномерно:
Рисунок 8. Распределение зависимой переменой за 2011 год
На Рисунке 8 показано ненормальное распределение зависимой переменной, так как график эмпирической плотности расходится с графиком теоретической плотности нормального распределения.

3.2 Корреляционный анализ

Теперь обратимся к количественным независимым переменным. До построения модели регрессии необходимо выявить те факторы, которые тесно связаны между собой. Ведь если не устранить тесную взаимосвязь между ними, это приведет к неверным значениям коэффициентов в самой регрессии. В процессе корреляционного анализа рассчитываются коэффициенты корреляции. Именно по их значениям будет определено, какие факторы нужно оставить, а какие следует исключить из выборки. Матрица корреляций представлена в Приложении.
В таблице выделены значения, которые говорят о высокой корреляции. Всего получилось 32 взаимосвязей между переменными с сильной корреляцией. Сильно коррелируемые между собой переменные связаны с образованием, сферой здравоохранения, спорта, жилья, а также занятостью населения. Следует устранить некоторые из переменных во избежание искажения коэффициентов регрессии. В данном случае, следует удалить переменные, между которыми присутствует очень сильная связь (больше или равно 0,9). В ином случае, если устранять переменные, между которыми коэффициент корреляции принадлежит промежутку от 0,8 до 0,9, имеется большая вероятность того, что для исследования останутся факторы, большинство из которых могут оказаться незначимыми.
Прежде всего, одними из первых следует удалить переменные Educ_2 (места в дошкольных образовательных учреждениях) и Educ_0 (число дошкольных образовательных учреждений, единиц) в силу принадлежности обеих переменных к дошкольным образовательным учреждениям. Они сильно коррелируют с двумя другими переменными, связанными с образованием Educ_5 и Educ_12 (число учреждений среднего и высшего профессионального образования). Было решено удалить первые две переменные, в связи с предположением о том, что число студентов (в основном приезжих) и школьников в большей степени влияют на рост населения.
Empl_0 (Среднесписочная численность работников организаций, человек) сильно коррелирует с некоторыми другими переменными. Её следует удалить, так как в будущем возможно смещение коэффициентов регрессии.
Более того, необходимо убрать регрессор Health_0 (Численность врачей, человек). Этот фактор играет важную роль в развитии города. Так как врачи востребованы в каждом городе и люди зачастую стремятся попасть в определенный город на прием к специалисту. Очень часто приходится быть под постоянным наблюдением у врача, и люди ради этого готовы переехать и жить в другом городе. Логично то, что чем в городе больше проживает отличных специалистов, тем больше становится население. Однако, так как этот регрессор сильно коррелирует с другими регрессорами, его необходимо устранить. Более того, переменная измеряется в людях, а следовательно, велика вероятность того, что она будет сильно коррелировать с зависимой переменной и приведет к смещению коэффициентов.
Независимая переменная Ind_1 (обрабатывающие производства, единиц) сильно взаимодействует с Ind_2 (производство и распределение электроэнергии, газа и воды, единиц). Для людей в городе, прежде всего, важно наличие газа, воды и электричества. Следовательно, оставляем переменную Ind_2.
После удаления некоторых из переменных с целью недопущения смещения коэффициентов, следующим шагом является построение базовой или общей модели регрессии.

3.3 Построение базовой модели

Построим базовую регрессионную модель для численности населения по городам РФ за период с 2005 по 2011 гг. Следует использовать линейную спецификацию для базовой модели регрессии, так как по ней лучше всего интерпретировать влияние переменных (прямое соотношение). Прежде всего, необходимо построить первичную модель регрессии, которая включает в себя все переменные, за исключением тех, которые были извлечены из выборки в ходе корреляционного анализа, а затем следует решить, какие из этих характеристик имеет смысл оставить в модели.

Таблица 8. Первоначальная модель регрессии

Dependent Variable: POP_0

Method: Panel Least Squares

Sample: 2005 2011

Periods included: 7

Cross-sections included: 109

Total panel (balanced) observations: 763

Variable

Coefficient

Std. Error

t-Statistic

Prob.

AGENTS_0

0.181329

0.054066

3.353880

0.0008

CONSTR_0

0.023911

0.081251

0.294288

0.7686

CULT_3

437.9117

90.87410

4.818884

0.0000

EDUC_5

2196.812

336.8400

6.521824

0.0000

EDUC_12

549.8166

374.4065

1.468502

0.1424

EMPL_1

-0.773057

0.141294

-5.471282

0.0000

EMPL_4

1.609319

0.739217

2.177059

0.0298

ENVIR_0

80.89477

17.79732

4.545334

0.0000

HEALTH_4

1159.481

249.7417

4.642718

0.0000

HOUS_0

37.51265

0.599939

62.52745

0.0000

IND_2

-77.83770

43.11021

-1.805551

0.0714

INV_13

-0.000496

0.000364

-1.363050

0.1733

SOC_3

2362.482

851.9652

2.772980

0.0057

SPORT_1

30.35636

5.969679

5.085092

0.0000

C

2376.458

3161.857

0.751602

0.4525

R-squared

0.991989

Mean dependent var

335876.9

Adjusted R-squared

0.991839

S. D. dependent var

325692.5

S. E. of regression

29422.58

Akaike info criterion

23.43638

Sum squared resid

6.48E+11

Schwarz criterion

23.52754

Log likelihood

-8925.977

Hannan-Quinn criter.

23.47148

F-statistic

6615.882

Durbin-Watson stat

0.220478

Prob (F-statistic)

0.000000

По результатам построенной модели (Таблица 8) можно сделать вывод о том, что она значима в целом (Prob (F-statistic) <0.05, на 5% -ом уровне значимости, есть основания отвергнуть нулевую гипотезу о том, что модель не значима в целом). Коэффициент детерминации, который показывает долю объясненной дисперсии, очень большой - 99% фактических значений модель описала. Помимо этого, также очень высокий скорректированный на количесвто объясняющих переменных коэффициент детерминации (Adjusted R-squared) составляет 99%.

Для улучшения спецификации регрессионной модели можно убрать некоторые на первый взгляд незначимые переменные, у которых t-статистика мала и высока вероятность незначимости (такие факторы выделены в Таблице 8). Для проверки надо использовать тест на лишние переменные (Redundant Variables).

Таблица 9. Тесты на лишние переменные

Redundant Variables: CONSTR_0

F-statistic

0.086606

Prob. F (1,748)

0.7686

Log likelihood ratio

0.088337

Prob. Chi-Square (1)

0.7663

Redundant Variables: EDUC_12

F-statistic

2.156497

Prob. F (1,748)

0.1424

Log likelihood ratio

2.196578

Prob. Chi-Square (1)

0.1383

Redundant Variables: IND_2

F-statistic

3.260016

Prob. F (1,748)

0.0714

Log likelihood ratio

3.318165

Prob. Chi-Square (1)

0.0685

Redundant Variables: INV_13

F-statistic

1.857907

Prob. F (1,748)

0.1733

Log likelihood ratio

1.892814

Prob. Chi-Square (1)

0.1689

Значение вероятности превысило значение 0,05, следовательно, указанные переменные можно исключить из модели. Новая модель выглядит следующим образом:

социальное экономическое развитие город

Таблица 10. Базовая модель

Dependent Variable: POP_0

Method: Panel Least Squares

Sample: 2005 2011

Periods included: 7

Cross-sections included: 109

Total panel (balanced) observations: 763

Variable

Coefficient

Std. Error

t-Statistic

Prob.

AGENTS_0

0.186457

0.053793

3.466187

0.0006

CULT_3

442.5020

90.32871

4.898797

0.0000

EDUC_5

2301.232

306.2413

7.514439

0.0000

EMPL_1

-0.760401

0.139829

-5.438085

0.0000

EMPL_4

1.740031

0.736657

2.362065

0.0184

ENVIR_0

70.97753

16.88941

4.202487

0.0000

HEALTH_4

1103.609

241.7053

4.565926

0.0000

HOUS_0

37.40999

0.591894

63.20391

0.0000

SOC_3

2436.025

849.9781

2.865985

0.0043

SPORT_1

31.51700

5.928385

5.316288

0.0000

C

1484.502

3107.320

0.477744

0.6330

R-squared

0.991920

Mean dependent var

335876.9

Adjusted R-squared

0.991813

S. D. dependent var

325692.5

S. E. of regression

29469.94

Akaike info criterion

23.43444

Sum squared resid

6.53E+11

Schwarz criterion

23.50130

Log likelihood

-8929.239

Hannan-Quinn criter.

23.46018

F-statistic

9231.846

Durbin-Watson stat

0.215598

Prob (F-statistic)

0.000000

Новая модель также осталась значимой.
Не осталось незначимых переменных и при этом, значения коэффициента детерминации и скорректированного коэффициента детерминации остались столь же высокими, что подтверждает правильной выбор удаления лишних переменных.
Эконометрические тесты (базовая модель).
После построения регрессионной модели требуется провести тест на спецификацию модели.
Для этого используется RESET-тест Рамсея на пропущенные регрессоры. Нулевая гипотеза: в модели нет пропущенных регрессоров.
Таблица 11. Тест Рамсея

Ramsey RESET Test:

F-statistic

12.12738

Prob. F (1,751)

0.0005

Log likelihood ratio

12.22274

Prob. Chi-Square (1)

0.0005

Test Equation:

Dependent Variable: POP_0

Method: Least Squares

Sample: 1 763

Included observations: 763

Variable

Coefficient

Std. Error

t-Statistic

Prob.

AGENTS_0

0.143479

0.054807

2.617895

0.0090

CULT_3

464.8929

89.89797

5.171340

0.0000

EDUC_5

2260.746

304.2226

7.431222

0.0000

EMPL_1

-0.787170

0.139018

-5.662345

0.0000

EMPL_4

1.781190

0.731362

2.435442

0.0151

ENVIR_0

76.04882

16.82895

4.518929

0.0000

HEALTH_4

1103.296

239.9367

4.598281

0.0000

HOUS_0

35.73938

0.758528

47.11676

0.0000

SOC_3

2242.790

845.5811

2.652365

0.0082

SPORT_1

33.20070

5.904831

5.622633

0.0000

C

7511.652

3536.956

2.123762

0.0340

FITTED^2

3.27E-08

9.38E-09

3.482439

0.0005

R-squared

0.992049

Mean dependent var

335876.9

Adjusted R-squared

0.991932

S. D. dependent var

325692.5

S. E. of regression

29254.30

Akaike info criterion

23.42104

Sum squared resid

6.43E+11

Schwarz criterion

23.49398

Log likelihood

-8923.128

Hannan-Quinn criter.

23.44912

F-statistic

8517.875

Durbin-Watson stat

0.531659

Prob (F-statistic)

0.000000

Согласно тесту, на 5% уровне значимости мы не отвергаем нулевую гипотезу о равенстве нулю коэффициентов при добавленных переменных, другими словами, нет ошибки спецификации.
Тесты на гетероскедастичность.
Проведем несколько тестов на наличие гетероскедастичности.
Таблица 12. Тест на гетероскедастичность: Глейзер

Heteroskedasticity Test: Glejser

F-statistic

44.39485

Prob. F (10,752)

0.0000

Obs*R-squared

283.2335

Prob. Chi-Square (10)

0.0000

Scaled explained SS

401.2206

Prob. Chi-Square (10)

0.0000

Таблица 13. Тест на гетероскедастичность: Харви

Heteroskedasticity Test: Harvey

F-statistic

22.81651

Prob. F (10,752)

0.0000

Obs*R-squared

177.6129

Prob. Chi-Square (10)

0.0000

Scaled explained SS

223.5021

Prob. Chi-Square (10)

0.0000

Таблица 14. Тест на гетероскедастичность: Уайт

Heteroskedasticity Test: White

F-statistic

14.68340

Prob. F (65,697)

0.0000

Obs*R-squared

440.9676

Prob. Chi-Square (65)

0.0000

Scaled explained SS

986.9910

Prob. Chi-Square (65)

0.0000

Тест Глейзера проверяет значимость регрессии, в которой зависимой переменной являются абсолютные значения остатков, а регрессоры взяты из исходной модели. Поэтому, если значимость регрессии не будет отвергнута, тест подтвердит наличие гетероскедастичности. В этом случае нулевая гипотеза принимается на 1% уровне значимости.

Тест Харви говорит о том, что на 5-% -ном уровне есть основания отвергнуть нулевую гипотезу о гомоскедастичности. Т.е. выявлена гетероскедастичность. Тест Уайта строит регрессию квадратов значений остатков на все комбинации исходных регрессоров. С помощью этого теста выявлена гетероскедастичность.

Итак, было выяснено, что гетероскедастичность по результатам всех тестов присутствует. Однако это истинная гетероскедастичность, т.к. регрессионная модель правильно специфицирована, а значит, гетероскедастичность является неизбежным свойством этих данных. Об истинности гетероскедастичности говорит следующий график, на котором практически не видно отклонений значений и остатков.

Рисунок 9. График отклонения значений и остатков

Диагностика мультиколлинеарности.
Диагностика мультиколлинеарности проводилась на этапе анализа данных. Это значит, что модель не включает сильно коррелированные регрессоры. Для подтверждения следует рассчитать показатель VIF:
Таблица 15. Тест VIF

Variance Inflation Factors

Date: 05/27/14 Time: 01: 24

Sample: 1 763

Included observations: 763

Coefficient

Uncentered

Centered

Variable

Variance

VIF

VIF

AGENTS_0

0.002894

4.317196

2.866257

CULT_3

8159.054

2.296225

1.302641

EDUC_5

93780.12

14.35868

6.505800

EMPL_1

0.019552

5.924161

1.061033

EMPL_4

0.542655

4.006417

2.309689

ENVIR_0

285.2567

1.613236

1.248095

HEALTH_4

58420.57

23.71489

10.65282

HOUS_0

0.350330

32.07002

15.44331

SOC_3

722439.0

2.345001

1.363127

SPORT_1

35.14816

11.30264

5.660535

C

9655619.

8.483040

NA

Такие результаты не были ожидаемыми. Необходимо проводить оценку по коэффициенту Centered VIF, который должен быть меньше 10. Результат: две данные вызывают этот эффект. Мультиколлинеарность - это такая ситуация, при которой одна переменная очень хорошо объясняется другими переменными. Эта ситуация возможна, если 2 переменные коррелированны между собой, и поэтому становится очень сложно различить их влияние на зависимую переменную. Однако в построенной модели регрессоры не коррелируют сильно между друг другом. Это означает, что результаты, полученные при помощи теста VIF, можно обосновать, как внутренние факторы каждой переменной. Скорее всего, такие переменные могут коррелировать с каким-то определенные набором других переменных (множественная корреляция). Мультиколлинеарность же чаще всего возникает при взаимосвязи на парном уровне. Следовательно, с моделью ничего не следует делать (это позволяют правила эконометрики), чтобы избежать смещения коэффициентов из-за неверной спецификации, при условии того, что сильная корреляция между факторами была заранее предотвращена).

3.4 Построение моделей с фиксированными и случайными эффектами. Выбор регрессионной модели

Построим модель с фиксированными эффектами, которая учитывает ненаблюдаемые переменные, которые коррелируют с переменными в модели.
После построения модели с фиксированными эффектами (Таблица 16), можно сделать вывод о том, что модель значима в целом, так как Prob (F-statistic) <0,05. Коэффициент детерминации по-прежнему очень высокий. Однако, последствием изменения общей регрессионной модели на модель с коррелируемыми между собой наблюдаемыми и ненаблюдаемыми переменными привела к тому, что явно сократилось количество не зависимых переменных. Пять переменных из десяти регрессоров стали незначимыми.
Таблица 16. Модель с фиксированными эффектами

Dependent Variable: POP_0

Method: Panel Least Squares

Sample: 2005 2011

Periods included: 7

Cross-sections included: 109

Total panel (balanced) observations: 763

Variable

Coefficient

Std. Error

t-Statistic

Prob.

AGENTS_0

-0.028173

0.015948

-1.766543

0.0778

CULT_3

286.3074

73.73873

3.882728

0.0001

EDUC_5

-311.2042

160.4362

-1.939738

0.0528

EMPL_1

-0.138843

0.061258

-2.266537

0.0237

EMPL_4

-0.857739

0.250468

-3.424546

0.0007

ENVIR_0

18.64554

16.36240

1.139536

0.2549

HEALTH_4

-182.6333

172.3138

-1.059887

0.2896

HOUS_0

13.73294

0.636430

21.57810

0.0000

SOC_3

-21.62404

350.7875

-0.061644

0.9509

SPORT_1

-13.26904

5.222408

-2.540790

0.0113

C

247137.3

5061.631

48.82563

0.0000

Effects Specification

Cross-section fixed (dummy variables)

R-squared

0.999552

Mean dependent var

335876.9

Adjusted R-squared

0.999470

S. D. dependent var

325692.5

S. E. of regression

7499.150

Akaike info criterion

20.82533

Sum squared resid

3.62E+10

Schwarz criterion

21.54858

Log likelihood

-7825.865

Hannan-Quinn criter.

21.10379

F-statistic

12175.02

Durbin-Watson stat

0.914125

Prob (F-statistic)

0.000000

Перейдем к построению модели со случайными эффектами.
Следует отметить, что значения обоих коэффициентов детерминации снизились до 88% (Таблица 17). Но это значение все также является довольно высоким. Модель является значимой. Кроме того, в модели имеется всего одна незначимая переменная, в то время как другие являются на 100% значимыми, их вероятность незначимости равно 0.
Таблица 17. Модель со случайными эффектами

Dependent Variable: POP_0

Method: Panel EGLS (Cross-section random effects)

Sample: 2005 2011

Periods included: 7

Cross-sections included: 109

Total panel (balanced) observations: 763

Swamy and Arora estimator of component variances

Variable

Coefficient

Std. Error

t-Statistic

Prob.

AGENTS_0

-0.021655

0.015886

-1.363135

0.1732

CULT_3

619.8475

68.09677

9.102450

0.0000

EDUC_5

2173.859

146.7745

14.81087

0.0000

EMPL_1

-1.053625

0.056628

-18.60609

0.0000

EMPL_4

-1.211914

0.247866

-4.889397

0.0000

ENVIR_0

77.56576

14.51179

5.345016

0.0000

HEALTH_4

1842.426

155.9606

11.81341

0.0000

HOUS_0

32.46385

0.458361

70.82588

0.0000

SOC_3

1647.504

343.7681

4.792485

0.0000

SPORT_1

20.37471

4.710998

4.324923

0.0000

C

46173.92

3192.455

14.46345

0.0000

Effects Specification

S. D.

Rho

Cross-section random

22277.35

0.8982

Idiosyncratic random

7499.150

0.1018

Weighted Statistics

R-squared

0.881595

Mean dependent var

42392.84

Adjusted R-squared

0.880020

S. D. dependent var

42264.83

S. E. of regression

14639.72

Sum squared resid

1.61E+11

F-statistic

559.9076

Durbin-Watson stat

0.612743

Prob (F-statistic)

0.000000

Unweighted Statistics

R-squared

0.976016

Mean dependent var

335876.9

Sum squared resid

1.94E+12

Durbin-Watson stat

0.050942

Проведем тест Хаусмана, который поможет выявить, какую из двух моделей следует использовать. Нулевая гипотеза: модель со случайными эффектами является оптимальной.

Таблица 18. Тест Хаусмана на определение модели

Correlated Random Effects - Hausman Test

Equation: Untitled

Test cross-section random effects

Test Summary

Chi-Sq. Statistic

Chi-Sq. d. f.

Prob.

Cross-section random

2123.890402

10

0.0000

Так как p-уровень <0,01, значит, мы отклоняем нулевую гипотезу. Полученные результаты позволяют сделать вывод, что из двух моделей подходит...

Подобные документы

  • Проблемы и резервы социально-экономического развития города Кемерово в долгосрочной перспективе. Основные задачи роста экономического потенциала города. Развитие образовательного, научного и культурного потенциала. Особенности улучшения городской среды.

    курсовая работа [1,3 M], добавлен 15.03.2009

  • Краткая история развития города. Активность развития рынка недвижимости в городе. Влияние на его динамику деятельности двух крупных предприятий - НТМК и УВЗ. Разброс цен на жилье. Анализ основных факторов, влияющих на платежеспособность покупателей.

    реферат [9,2 K], добавлен 19.05.2014

  • Обзор факторов, влияющих на эффективность производственно-хозяйственной деятельности предприятия. Анализ социальных, внешних и технических факторов, влияющих на систему перевозки груза на примере перевозки пакетированных досок. Порядок укладки пакета.

    курсовая работа [644,0 K], добавлен 13.01.2014

  • Существующие подходы к исследованию проблем экономического роста. Количественный анализ факторов влияния на динамику экономического роста по продуктам перегонки нефти. Проверка на аномальность и гипотеза о существовании тренда, расчет по критерию Ирвина.

    контрольная работа [638,2 K], добавлен 26.02.2013

  • Место и роль города в экономике Российской Федерации. Специфика города Набережные Челны. Итоги социально-экономического развития города. Экономические проблемы и перспективы развития города Набережные Челны. Пищевая и перерабатывающая отрасль.

    дипломная работа [57,9 K], добавлен 03.12.2008

  • Показатели естественного движения населения, структура его доходов и расходов. Построение и анализ вариационного ряда по уровню номинальной оплаты труда. Применение статистических методов в анализе факторов, влияющих на изменение уровня жизни населения.

    курсовая работа [831,9 K], добавлен 06.11.2014

  • Оценка уровня развития инженерной и социальной инфраструктуры города Москвы. Анализ тенденций инвестиционной деятельности в регионе. Оценка уровня развития отраслей московской промышленности. Определение показателей уровня жизни населения Москвы.

    реферат [1,5 M], добавлен 15.04.2018

  • Концептуальные основы разработки и обеспечения реализации стратегии социально-экономического развития г. Ханты-Мансийска до 2020 г. Оценка существующего состояния экономики города, его потенциал, конкурентоспособность, проблемы и перспективы развития.

    научная работа [1,6 M], добавлен 01.05.2011

  • Систематизация и теоретическое исследование основных факторов эффективного экономического роста. Анализ состояния промышленности, сельского хозяйства и научного потенциала России. Основные приоритеты и оценка факторов эффективного развития экономики РФ.

    дипломная работа [170,5 K], добавлен 30.09.2011

  • Разработка модели для анализа зависимости между объясняемой и объясняющими переменными. Построение матрицы парных коэффициентов корреляции; диаграммы рассеивания. Тесты, определяющие зависимость занятого населения в РФ от социально-экономических факторов.

    курсовая работа [904,7 K], добавлен 09.05.2016

  • Социальное развитие города как объект управленческого взаимодействия города и предприятия. Социологический анализ наиболее актуальных проблем, волнующих население в городе Нижнекамске. Отечественный опыт решения проблем в монопрофильных городах.

    дипломная работа [161,0 K], добавлен 05.12.2010

  • Теоретические основы изучения проблем малых городов и повышения их экономической стабильности. Демографическая ситуация и уровень жизни населения города Уварово. Состояние городского хозяйства. Организация муниципального управления. Проблемы развития.

    дипломная работа [192,7 K], добавлен 25.04.2012

  • Анализ социально-экономического положения города Ярославля (условия, факторы и направление развития). История развития города. Анализ отраслевой структуры: основные проблемы и перспективы. Наблюдения за уровнем и оценка загрязнения воздуха в городе.

    реферат [5,2 M], добавлен 15.08.2013

  • Общая характеристика и анализ конкурентных позиций города Гурьевска. Анализ развития реального сектора экономики, финансовой и социальной сферы города. Прогноз объема добычи руды и выпуска промышленной продукции. Прогноз дебиторской задолженности города.

    курсовая работа [587,8 K], добавлен 29.01.2012

  • Понятие категорий и факторов экономического роста и развития. Воздействие экономических факторов на темпы развития экономики. Факторы экономического роста национальной экономики Республики Татарстан, их оценка и разработка комплексной программы развития.

    курсовая работа [55,2 K], добавлен 20.05.2009

  • Определение природы понятия "стратегия". Сущность и этапы стратегического планирования социально-экономического развития муниципального образования в РФ. Разработка проекта стратегического плана социально-экономического развития города Нижнекамска.

    дипломная работа [592,3 K], добавлен 05.12.2010

  • Социально-экономическое положение города Геленджик, SWOT-анализ его развития. Анализ соотношений сильных и слабых сторон с возможностями и угрозами. Основные проблемы социально-экономического развития. Анализ экологической обстановки, когнинтивная карта.

    курсовая работа [142,5 K], добавлен 14.12.2009

  • Характеристика макроэкономических факторов, влияющих на динамику уровня инфляции в Российской Федерации. Анализ объема государственного внутреннего и внешнего долга. Исследование индексов потребительских цен на все товары и услуги в 2008-2013 годах.

    контрольная работа [364,3 K], добавлен 30.05.2015

  • Анализ состояния рынка хлеба и хлебобулочных изделий в Республике Казахстан. Оценка факторов, влияющих на ценообразование продукции ТОО "Дастархан". Разработка ценовой стратегии с учетом рыночной конкуренции. Снижение затрат на производство продукции.

    дипломная работа [596,2 K], добавлен 13.03.2015

  • Сущность и теоретическое содержание спирали социально-экономического развития экономических систем. Построение коммунизма по теории спирали общественного развития в Советской России. График социально-экономического развития России на перспективу.

    курсовая работа [269,1 K], добавлен 02.06.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.