Оценка факторов, влияющих на динамику развития города
Теоретические подходы к исследованию процесса социально-экономического развития города. Общие сведения о городах России, выявление факторов, влияющих на их развитие. Построение базовой регрессионной модели для заданной численности населения, ее проверка.
Рубрика | Экономика и экономическая теория |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 06.07.2016 |
Размер файла | 558,0 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Для оценки качества подбора линейной функции рассчитывается коэффициент детерминации (R2):
[6, с. 48]
Как только построено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных ее параметров.
Оценка значимости уравнения регрессии в целом проверяется с помощью F-критерия Фишера:
,
где p - число независимых переменных в уравнении регрессии.
Более того, одним из важных тестов является Redundant Variables test - тест на лишние переменные. При помощи данного теста можно улучшить спецификацию модели, удалив из неё некоторые на первый взгляд незначимые переменные, у которых мала t-статистика и высокая вероятность незначимости.
В этом исследовании необходим тест Хаусмана. Он проводится, когда требуется сравнить модели, которые оцениваются разными методами. [9] Тест на правильность спецификации проверяется тестом Рамсея. RESET-тест Рамсея на пропущенные регрессоры генерирует степени предсказанных значений зависимой переменной, включает их в модель в качестве регрессора и проверяет его значимость.
Необходимо отметить, что одной из главных предпосылок МНК является условие постоянства дисперсий случайных отклонений: дисперсия случайных отклонений постоянна. Выполнение этой предпосылки называется гомоскедастичностью (постоянство дисперсий отклонений). Невыполнимость предпосылки - гетероскедастичностью. [3, с. 209].
Разделяют два вида гетероскедастичности:
Истинная гетероскедастичность: модель при таком виде гетероскедастичности правильно специфицирована; однако даже в такой, правильно специфицированной модели присутствует разная дисперсия ошибок у разных наблюдений. В этом случае гетероскедастичность не ведет к смещению коэффициентов.
Ложная гетероскедастичность: такая гетероскедастичность вызвана неправильной спецификацией (пропущена переменная или же использована линейная регрессия вместо нелинейной). Гетероскедастичность этого типа ведет к смещению коэффициентов. Именно поэтому обязательно нужно проверять модель на наличие гетероскедастичности. Чтобы определить есть ли в модели гетероскедастичность или нет, используют определенные тесты:
· Тест Парка.
· Тест Глейзера.
· Тест Голдфелда-Квандта.
· Тест Уайта.
· Тест Бреуша-Пагана-Годфри.
· Тест Харви.
Если в регрессионной модели присутствует гетероскедастичность, то нужно сделать попытку её устранения. Это можно сделать следующими способами:
1. Возможно, следует скорректировать спецификацию, к примеру:
использовать логарифмическую или иную нелинейную модель
добавить переменные, которые позволяют точнее описать взаимосвязь
2. Другим способом является использование скорректированных стандартных ошибок (наиболее распространенный способ - увеличивает стандартные ошибки по сравнению с обычным МНК; если уж коэффициент значим, то такому выводу можно доверять).
3. Также возможно использование взвешенного метода наименьших квадратов. Лучше всего попробовать разделить обе части уравнения на какую-то переменную, тогда очень часто гетероскедастичность пропадает.
После устранения гетероскедастичности последнее, что необходимо провести - это тест на наличие или отсутствие мультиколлинеарности. Мультиколлинеарность - это ситуация, в которой одна переменная достаточно хорошо объясняется другими переменными. Она возможна если две переменные коррелированны, и нельзя различить их влияние на зависимую. Последствия мультиколлинеарности:
· большие дисперсии ошибок. Это затрудняет нахождение истинных значений определяемых величин;
· оценки коэффициентов по МНК и их стандартные ошибки становятся неустойчивыми, так как становятся более чувствительными даже к незначительным изменениям данных;
· возможность получения неверного знака у коэффициента регрессии.
В некоторых случаях мультиколлинеарность устранять не стоит. Нужно ли устранять её или нет, зависит от целей исследования. Если, к примеру, модель строится для того, чтобы в дальнейшем прогнозировать будущие значения зависимой переменной, то при достаточно большом (>=0,9) значении коэффициента детерминации, наличие мультиколлинеарности чаще всего не сказывается на прогнозных качествах модели. Если же цель исследования - определение степени влияния каждой из объясняющих переменных на зависимую, то наличие мультиколлинеарности исказит истинные зависимости. Для устранения мультиколлинеарности существуют следующие методы:
· Исключение переменной (-ых) из модели.
· Получение дополнительных данных или новой выборки.
· Изменение спецификации модели.
· Преобразование переменных. [3, с.247-253]
2.3 Особенности использования панельных данных в эконометрическом исследовании
Прежде чем перейти к теоретическим аспектам, касающимся панельных данных, следует обратиться к такому типу данных, как временной ряд. На сегодняшний день данные этого типа используются очень часто, так как собрать информацию по ним довольно просто, причем количество объектов по наблюдаемой переменной очень велико. К примеру, это могут быть данные по усредненному значению квартплаты за кв. метр в месяц за 25 лет. Провести исследование по временным рядам не составит труда, так как анализируется всего лишь один объект за определенный период. Переходя к теории панельных данных, нужно сказать, что в отличие от временных рядов, ситуация обстоит гораздо сложнее. Для начала следует дать определение этого типа данных. Панельные данные - это (panel data)"пространственная выборка объектов, прослеживаемая во времени, и, следовательно, она предоставляет множество наблюдений над каждым отдельным объектом". [10, с.271]
Панельные данные довольно трудно собрать по сравнению с пространственными данными или временными рядами. Для проведения исследования в какой-либо области требуется набор переменных, значения которых требуется собирать в течение всего периода. Очень часто бывает не найти конкретных данных за прошедшие периоды времени по всем исследуемым объектам. Именно поэтому значений переменных гораздо меньше в панельных данных, нежели во временных рядах, однако самих переменных больше.
Чаще всего панельные данные используются в маркетинговых обследованиях, а также социологических. Панельными данными являются результаты репрезентативных национальных опросов домохозяйств, предприятий, индивидуумов.
Следует перечислить основные преимущества использования панельных данных:
1) Предоставляя большое количество наблюдений, они уменьшают коллинеарность между объясняющими переменными, а, значит, улучшаю эффективность оценок.
2) Используя панельные данные можно проследить за индивидуальным изменением характеристик объектов во времени.
3) Панельные данные дают возможность исследовать множество важных экономических вопросов, в то время как пространственные данные и временные ряды не справятся с этой задачей.
4) Они также дают возможность предотвратить смещение агрегированности, которое постоянно возникает при анализе пространственных данных (там, где не берутся во внимание ненаблюдаемые индивидуальные характеристики объектов), а также временных рядов (там, где анализируется временное изменение усредненного "репрезентативного" объекта). [11]
Для исследования панельных данных есть возможность строить три типа регрессии:
· Общая модель регрессии.
· Модель с фиксированными эффектами.
· Модель со случайными эффектами. [27, c.346-347]
Первый тип регрессионный модели, можно сказать, является исключительно теоретическим, потому как вводятся сильные ограничения относительно переменных. Дело в том, что для построения регрессии предпосылка для данных заключается в том, что других переменных, кроме уже выбранных для исследования, не существует. К примеру, если необходимо проанализировать систему здравоохранения какого-либо города, исследователь может собрать данные по таким переменным, как количество больничных учреждений в городе, количество проделанных операций и, допустим, уровень смертности в городе. Построив общую регрессионную модель, исследователь будет руководствоваться предпосылкой о том, что других переменных просто не существует для исследования системы здравоохранения, однако в реальности это не так.
Второй тип регрессии - модель с фиксированными эффектами - имеют уже другую предпосылку о данных, и построение модели регрессии осуществляется, соответственно, принимая её во внимание. Предпосылка заключается в следующем. К примеру, оценивается всё та же модель регрессии, связанная со здравоохранением. Однако различие по сравнению с общей моделью регрессии заключается в том, что в модели учитываются не только те факторы, которые были собраны для исследования. Предполагается, что помимо данных, собранных для проведения исследования, существуют другие факторы, которые не учтены в модели. Такие переменные принято называть ненаблюдаемыми. Стоит отметить, что в модели с фиксированными эффектами ненаблюдаемые переменные обязательно должны коррелировать с теми, которые включены в регрессию. В примере со здравоохранением такими ненаблюдаемыми переменными могут выступать количество определенного рода лекарственных препаратов в детских больницах или же среднее количество пациентов, приходящих на прием к специалисту за месяц. Эти ненаблюдаемые переменные связаны или коррелируют с теми, которые включены в регрессию. Безусловно, нельзя найти их количественные значения, в связи с отсутствием информации о них, но, в ходе построения модели с фиксированными эффектами оценивается качество всех ненаблюдаемых переменных за счет знания о том, что они коррелируют с переменными, включенными в регрессию.
Последний тип регрессионной модели - модель со случайными эффектами. Помимо ненаблюдаемых факторов, описанных во втором типе регрессионной модели, в реальности существуют некие другие факторы, которые не коррелируют с теми, что включены в регрессию. Это и есть допущение, которое отличает эту модель от модели с фиксированными эффектами. (Термины коррелированны и не коррелированны более понятно описывают в данном случае различия в моделях, нежели термины фиксированный и случайный, соответственно). В модели со случайными эффектами учитывается влияние некоррелируемых ненаблюдаемых переменных на зависимую переменную. В итоге все три модели будут построены в данной работе, после чего будет проведен тест Хаусмана, который позволит выявить, какая модель является оптимальной для данного исследования.
2.4 Описание данных
В данной работе используются панельные данные. Количественные значения переменных были взяты из базы данных Мультистат (Многофункциональный статистический портал). Данные брались за 7 лет с 2005 по 2011 гг. База данных по городам огромна, поэтому, прежде всего, данные выбирались, исходя из их наличия за эти годы и из соответствия переменных заданной тематике работы. Предположительно, были выбраны все данные, которые могут влиять на развитие города.
Первоначально был выбран 41 фактор (без зависимой переменной), которые могут влиять на динамику развития города. Зависимая переменная - это численность населения, ведь именно увеличение численности населения стимулирует рост и устойчивое развитие городов. В базе Мультистата данные предоставляются для городов с постоянной численностью жителей от 10000 человек. Однако в процессе работы с базой было выявлено, что по всем имеющимся городам не хватает огромного количества наблюдений. В связи с этим необходимо было убрать некоторые переменные. Более того, были отобраны города, численность которых была от 50000человек. Так как панельные данные, это данные в которых ряд имеющихся объектов, по которым ведется исследование, одинаков на протяжении всего периода вместе со всеми переменными, то было нужно устранить еще несколько переменных и объектов, чтобы панельные данные были сбалансированными. Это также было сделано в связи с отсутствием большого количества наблюдений. В итоге для исследования, связанного с развитием городов РФ были отобраны следующие переменные:
Таблица 7. Описание переменных
№ |
Название переменной |
Интерпретация |
|
1 |
pop_0 |
Численность постоянного населения (на конец года), человек |
|
2 |
agents_0 |
Всего субъектов хозяйственной деятельности, учтенных в статистическом регистре хозяйствующих субъектов, единиц |
|
3 |
empl_0 |
Среднесписочная численность работников организаций - человек |
|
4 |
empl_1 |
Среднемесячная заработная плата работников, рублей |
|
5 |
empl_4 |
Количество человек, получающих пособие по безработице, человек |
|
6 |
ind_1 |
Количество действующих организаций по видам экономической деятельности (без субъектов малого предпринимательства) - обрабатывающие производства, единиц |
|
7 |
ind_2 |
Количество действующих организаций по видам экономической деятельности (без субъектов малого предпринимательства) - производство и распределение электроэнергии, газа и воды, единиц |
|
8 |
inv_13 |
Совместная российская и иностранная форма собственности, тыс. руб. |
|
9 |
constr_0 |
Ввод в действие жилых зданий, квартир в них и общей площади квартир за счет всех источников финансирования: жилые дома и общежития (общая площадь), тыс. кв. м |
|
10 |
hous_0 |
Жилищный фонд города: общая площадь жилых помещений, тыс. кв. метров |
|
11 |
health_0 |
Численность врачей - всего, человек |
|
12 |
health_4 |
Число больничных учреждений, единиц |
|
13 |
sport_1 |
Число спортивных сооружений, единиц |
|
14 |
envir_0 |
Выбросы загрязняющих атмосферу веществ, отходящих от стационарных источников, - всего, тыс. тонн |
|
15 |
cult_3 |
Число учреждений культурно-досугового типа, единиц |
|
16 |
educ_0 |
Число дошкольных образовательных учреждений, единиц |
|
17 |
educ_2 |
мест (в дошкольных образовательных учреждениях), единиц |
|
18 |
educ_5 |
Число государственных и муниципальных образовательных учреждений среднего профессионального образования (включая филиалы), единиц |
|
19 |
educ_12 |
Число государственных и муниципальных образовательных учреждений высшего профессионального образования (включая филиалы), единиц |
|
20 |
soc_3 |
Число стационарных учреждений социального обслуживания (домов-интернатов), единиц |
Названия переменных соответствуют названиям базы данных Мультистат. Нужно также отметить, что для обработки массива данных используется офисный пакет Microsoft Excel (в нем лучше всего работать со сбором данных), а для проведения исследования используется программа EViews. Это один из лучших инструментов для статического и эконометрического анализа данных.
Глава 3. Выявление основных факторов, влияющих на развитие городов России
3.1 Изучение основных описательных статистик
Описательный анализ данных необходимо начать с построения гистограммы и расчета описательных статистик зависимой переменной Pop_0. Так как данные являются панельными, следует проанализировать описательные статистики за первый период - 2005 год и, соответственно, за последний период - 2011 год.
Рисунок 4. Описательные статистики зависимой переменной за 2005 год
На графике (Рисунок 4) по вертикальной оси расположено количество наблюдений, по горизонтальной - количество человек в городе. На рисунке видно, что среднее количество населения, проживающее в городах равно 462670 человек. Медианное значение равно 230837 человек, это означает, что в половине городов проживает такое количество человек, которое не выше этого значения. Размах составляет 10371974 человек, что можно видеть на ящичковой диаграмме (Рисунок 2). Размах очень велик. Два значения очень сильно отличаются от других. Это два крупнейших города России, Москва и Санкт-Петербург. Для того, чтобы они не искажали результаты исследования, необходимо исключить выбросы.
Рисунок 5. Ящичковая диаграмма
После удаления двух городов, получились следующие результаты описательных статистик:
Рисунок 6. Описательные статистики зависимой переменой после устранения выбросов за 2005 год
В 2005 году среднее значение населения, проживающего в городах, было равно 333492 человек. Размах равен 1343914 человек. Он является большим, так как в России лишь малая часть городов миллионников. Именно эти города и являются причиной столь большого разброса. Но так как взятый для исследования массив данных - это не генеральная совокупность по всем городам, и так как главная цель - выявление факторов, влияющих на развитие городов РФ, то различие в минимальных и максимальных пределах не столь влиятельно для анализа.
На Рисунке 6 можно видеть, что распределение населения несимметрично:
1) Асимметрия равна 1,58. Это значение больше нуля, следовательно, у распределения длинный правый хвост.
2) Эксцесс равен 4,85, что больше 3. Значит, распределение имеет острый пик по сравнению с нормальный распределением.
3) Медиана отличается от среднего. Это также можно видеть на Рис. 2.
Теперь следует построить гистограмму для 2011 года. Это поможет сравнить значения на начало и конец взятого периода. Из данных заранее были удалены два крупнейших города.
Рисунок 7. Описательные статистики зависимой переменой за 2011 год
Сравнение графиков за 2005 и 2011 гг. дает понять, что за 6 лет население в городах росло. Все описательные статистики увеличились. К примеру, с 333492 человек в 2005 году среднее количество населения увеличилось до 342169 человек, значит, за 6 лет в среднем в городах стало жить на 8677 человек больше. Распределение также осталось распределенным неравномерно:
Рисунок 8. Распределение зависимой переменой за 2011 год
На Рисунке 8 показано ненормальное распределение зависимой переменной, так как график эмпирической плотности расходится с графиком теоретической плотности нормального распределения.
3.2 Корреляционный анализ
Теперь обратимся к количественным независимым переменным. До построения модели регрессии необходимо выявить те факторы, которые тесно связаны между собой. Ведь если не устранить тесную взаимосвязь между ними, это приведет к неверным значениям коэффициентов в самой регрессии. В процессе корреляционного анализа рассчитываются коэффициенты корреляции. Именно по их значениям будет определено, какие факторы нужно оставить, а какие следует исключить из выборки. Матрица корреляций представлена в Приложении.
В таблице выделены значения, которые говорят о высокой корреляции. Всего получилось 32 взаимосвязей между переменными с сильной корреляцией. Сильно коррелируемые между собой переменные связаны с образованием, сферой здравоохранения, спорта, жилья, а также занятостью населения. Следует устранить некоторые из переменных во избежание искажения коэффициентов регрессии. В данном случае, следует удалить переменные, между которыми присутствует очень сильная связь (больше или равно 0,9). В ином случае, если устранять переменные, между которыми коэффициент корреляции принадлежит промежутку от 0,8 до 0,9, имеется большая вероятность того, что для исследования останутся факторы, большинство из которых могут оказаться незначимыми.
Прежде всего, одними из первых следует удалить переменные Educ_2 (места в дошкольных образовательных учреждениях) и Educ_0 (число дошкольных образовательных учреждений, единиц) в силу принадлежности обеих переменных к дошкольным образовательным учреждениям. Они сильно коррелируют с двумя другими переменными, связанными с образованием Educ_5 и Educ_12 (число учреждений среднего и высшего профессионального образования). Было решено удалить первые две переменные, в связи с предположением о том, что число студентов (в основном приезжих) и школьников в большей степени влияют на рост населения.
Empl_0 (Среднесписочная численность работников организаций, человек) сильно коррелирует с некоторыми другими переменными. Её следует удалить, так как в будущем возможно смещение коэффициентов регрессии.
Более того, необходимо убрать регрессор Health_0 (Численность врачей, человек). Этот фактор играет важную роль в развитии города. Так как врачи востребованы в каждом городе и люди зачастую стремятся попасть в определенный город на прием к специалисту. Очень часто приходится быть под постоянным наблюдением у врача, и люди ради этого готовы переехать и жить в другом городе. Логично то, что чем в городе больше проживает отличных специалистов, тем больше становится население. Однако, так как этот регрессор сильно коррелирует с другими регрессорами, его необходимо устранить. Более того, переменная измеряется в людях, а следовательно, велика вероятность того, что она будет сильно коррелировать с зависимой переменной и приведет к смещению коэффициентов.
Независимая переменная Ind_1 (обрабатывающие производства, единиц) сильно взаимодействует с Ind_2 (производство и распределение электроэнергии, газа и воды, единиц). Для людей в городе, прежде всего, важно наличие газа, воды и электричества. Следовательно, оставляем переменную Ind_2.
После удаления некоторых из переменных с целью недопущения смещения коэффициентов, следующим шагом является построение базовой или общей модели регрессии.
3.3 Построение базовой модели
Построим базовую регрессионную модель для численности населения по городам РФ за период с 2005 по 2011 гг. Следует использовать линейную спецификацию для базовой модели регрессии, так как по ней лучше всего интерпретировать влияние переменных (прямое соотношение). Прежде всего, необходимо построить первичную модель регрессии, которая включает в себя все переменные, за исключением тех, которые были извлечены из выборки в ходе корреляционного анализа, а затем следует решить, какие из этих характеристик имеет смысл оставить в модели.
Таблица 8. Первоначальная модель регрессии
Dependent Variable: POP_0 |
|||||
Method: Panel Least Squares |
|||||
Sample: 2005 2011 |
|||||
Periods included: 7 |
|||||
Cross-sections included: 109 |
|||||
Total panel (balanced) observations: 763 |
|||||
Variable |
Coefficient |
Std. Error |
t-Statistic |
Prob. |
|
AGENTS_0 |
0.181329 |
0.054066 |
3.353880 |
0.0008 |
|
CONSTR_0 |
0.023911 |
0.081251 |
0.294288 |
0.7686 |
|
CULT_3 |
437.9117 |
90.87410 |
4.818884 |
0.0000 |
|
EDUC_5 |
2196.812 |
336.8400 |
6.521824 |
0.0000 |
|
EDUC_12 |
549.8166 |
374.4065 |
1.468502 |
0.1424 |
|
EMPL_1 |
-0.773057 |
0.141294 |
-5.471282 |
0.0000 |
|
EMPL_4 |
1.609319 |
0.739217 |
2.177059 |
0.0298 |
|
ENVIR_0 |
80.89477 |
17.79732 |
4.545334 |
0.0000 |
|
HEALTH_4 |
1159.481 |
249.7417 |
4.642718 |
0.0000 |
|
HOUS_0 |
37.51265 |
0.599939 |
62.52745 |
0.0000 |
|
IND_2 |
-77.83770 |
43.11021 |
-1.805551 |
0.0714 |
|
INV_13 |
-0.000496 |
0.000364 |
-1.363050 |
0.1733 |
|
SOC_3 |
2362.482 |
851.9652 |
2.772980 |
0.0057 |
|
SPORT_1 |
30.35636 |
5.969679 |
5.085092 |
0.0000 |
|
C |
2376.458 |
3161.857 |
0.751602 |
0.4525 |
|
R-squared |
0.991989 |
Mean dependent var |
335876.9 |
||
Adjusted R-squared |
0.991839 |
S. D. dependent var |
325692.5 |
||
S. E. of regression |
29422.58 |
Akaike info criterion |
23.43638 |
||
Sum squared resid |
6.48E+11 |
Schwarz criterion |
23.52754 |
||
Log likelihood |
-8925.977 |
Hannan-Quinn criter. |
23.47148 |
||
F-statistic |
6615.882 |
Durbin-Watson stat |
0.220478 |
||
Prob (F-statistic) |
0.000000 |
По результатам построенной модели (Таблица 8) можно сделать вывод о том, что она значима в целом (Prob (F-statistic) <0.05, на 5% -ом уровне значимости, есть основания отвергнуть нулевую гипотезу о том, что модель не значима в целом). Коэффициент детерминации, который показывает долю объясненной дисперсии, очень большой - 99% фактических значений модель описала. Помимо этого, также очень высокий скорректированный на количесвто объясняющих переменных коэффициент детерминации (Adjusted R-squared) составляет 99%.
Для улучшения спецификации регрессионной модели можно убрать некоторые на первый взгляд незначимые переменные, у которых t-статистика мала и высока вероятность незначимости (такие факторы выделены в Таблице 8). Для проверки надо использовать тест на лишние переменные (Redundant Variables).
Таблица 9. Тесты на лишние переменные
Redundant Variables: CONSTR_0 |
||||
F-statistic |
0.086606 |
Prob. F (1,748) |
0.7686 |
|
Log likelihood ratio |
0.088337 |
Prob. Chi-Square (1) |
0.7663 |
Redundant Variables: EDUC_12 |
||||
F-statistic |
2.156497 |
Prob. F (1,748) |
0.1424 |
|
Log likelihood ratio |
2.196578 |
Prob. Chi-Square (1) |
0.1383 |
Redundant Variables: IND_2 |
||||
F-statistic |
3.260016 |
Prob. F (1,748) |
0.0714 |
|
Log likelihood ratio |
3.318165 |
Prob. Chi-Square (1) |
0.0685 |
Redundant Variables: INV_13 |
||||
F-statistic |
1.857907 |
Prob. F (1,748) |
0.1733 |
|
Log likelihood ratio |
1.892814 |
Prob. Chi-Square (1) |
0.1689 |
Значение вероятности превысило значение 0,05, следовательно, указанные переменные можно исключить из модели. Новая модель выглядит следующим образом:
социальное экономическое развитие город
Таблица 10. Базовая модель
Dependent Variable: POP_0 |
|||||
Method: Panel Least Squares |
|||||
Sample: 2005 2011 |
|||||
Periods included: 7 |
|||||
Cross-sections included: 109 |
|||||
Total panel (balanced) observations: 763 |
|||||
Variable |
Coefficient |
Std. Error |
t-Statistic |
Prob. |
|
AGENTS_0 |
0.186457 |
0.053793 |
3.466187 |
0.0006 |
|
CULT_3 |
442.5020 |
90.32871 |
4.898797 |
0.0000 |
|
EDUC_5 |
2301.232 |
306.2413 |
7.514439 |
0.0000 |
|
EMPL_1 |
-0.760401 |
0.139829 |
-5.438085 |
0.0000 |
|
EMPL_4 |
1.740031 |
0.736657 |
2.362065 |
0.0184 |
|
ENVIR_0 |
70.97753 |
16.88941 |
4.202487 |
0.0000 |
|
HEALTH_4 |
1103.609 |
241.7053 |
4.565926 |
0.0000 |
|
HOUS_0 |
37.40999 |
0.591894 |
63.20391 |
0.0000 |
|
SOC_3 |
2436.025 |
849.9781 |
2.865985 |
0.0043 |
|
SPORT_1 |
31.51700 |
5.928385 |
5.316288 |
0.0000 |
|
C |
1484.502 |
3107.320 |
0.477744 |
0.6330 |
|
R-squared |
0.991920 |
Mean dependent var |
335876.9 |
||
Adjusted R-squared |
0.991813 |
S. D. dependent var |
325692.5 |
||
S. E. of regression |
29469.94 |
Akaike info criterion |
23.43444 |
||
Sum squared resid |
6.53E+11 |
Schwarz criterion |
23.50130 |
||
Log likelihood |
-8929.239 |
Hannan-Quinn criter. |
23.46018 |
||
F-statistic |
9231.846 |
Durbin-Watson stat |
0.215598 |
||
Prob (F-statistic) |
0.000000 |
Новая модель также осталась значимой.
Не осталось незначимых переменных и при этом, значения коэффициента детерминации и скорректированного коэффициента детерминации остались столь же высокими, что подтверждает правильной выбор удаления лишних переменных.
Эконометрические тесты (базовая модель).
После построения регрессионной модели требуется провести тест на спецификацию модели.
Для этого используется RESET-тест Рамсея на пропущенные регрессоры. Нулевая гипотеза: в модели нет пропущенных регрессоров.
Таблица 11. Тест Рамсея
Ramsey RESET Test: |
|||||
F-statistic |
12.12738 |
Prob. F (1,751) |
0.0005 |
||
Log likelihood ratio |
12.22274 |
Prob. Chi-Square (1) |
0.0005 |
||
Test Equation: |
|||||
Dependent Variable: POP_0 |
|||||
Method: Least Squares |
|||||
Sample: 1 763 |
|||||
Included observations: 763 |
|||||
Variable |
Coefficient |
Std. Error |
t-Statistic |
Prob. |
|
AGENTS_0 |
0.143479 |
0.054807 |
2.617895 |
0.0090 |
|
CULT_3 |
464.8929 |
89.89797 |
5.171340 |
0.0000 |
|
EDUC_5 |
2260.746 |
304.2226 |
7.431222 |
0.0000 |
|
EMPL_1 |
-0.787170 |
0.139018 |
-5.662345 |
0.0000 |
|
EMPL_4 |
1.781190 |
0.731362 |
2.435442 |
0.0151 |
|
ENVIR_0 |
76.04882 |
16.82895 |
4.518929 |
0.0000 |
|
HEALTH_4 |
1103.296 |
239.9367 |
4.598281 |
0.0000 |
|
HOUS_0 |
35.73938 |
0.758528 |
47.11676 |
0.0000 |
|
SOC_3 |
2242.790 |
845.5811 |
2.652365 |
0.0082 |
|
SPORT_1 |
33.20070 |
5.904831 |
5.622633 |
0.0000 |
|
C |
7511.652 |
3536.956 |
2.123762 |
0.0340 |
|
FITTED^2 |
3.27E-08 |
9.38E-09 |
3.482439 |
0.0005 |
|
R-squared |
0.992049 |
Mean dependent var |
335876.9 |
||
Adjusted R-squared |
0.991932 |
S. D. dependent var |
325692.5 |
||
S. E. of regression |
29254.30 |
Akaike info criterion |
23.42104 |
||
Sum squared resid |
6.43E+11 |
Schwarz criterion |
23.49398 |
||
Log likelihood |
-8923.128 |
Hannan-Quinn criter. |
23.44912 |
||
F-statistic |
8517.875 |
Durbin-Watson stat |
0.531659 |
||
Prob (F-statistic) |
0.000000 |
Согласно тесту, на 5% уровне значимости мы не отвергаем нулевую гипотезу о равенстве нулю коэффициентов при добавленных переменных, другими словами, нет ошибки спецификации.
Тесты на гетероскедастичность.
Проведем несколько тестов на наличие гетероскедастичности.
Таблица 12. Тест на гетероскедастичность: Глейзер
Heteroskedasticity Test: Glejser |
||||
F-statistic |
44.39485 |
Prob. F (10,752) |
0.0000 |
|
Obs*R-squared |
283.2335 |
Prob. Chi-Square (10) |
0.0000 |
|
Scaled explained SS |
401.2206 |
Prob. Chi-Square (10) |
0.0000 |
Таблица 13. Тест на гетероскедастичность: Харви
Heteroskedasticity Test: Harvey |
||||
F-statistic |
22.81651 |
Prob. F (10,752) |
0.0000 |
|
Obs*R-squared |
177.6129 |
Prob. Chi-Square (10) |
0.0000 |
|
Scaled explained SS |
223.5021 |
Prob. Chi-Square (10) |
0.0000 |
Таблица 14. Тест на гетероскедастичность: Уайт
Heteroskedasticity Test: White |
||||
F-statistic |
14.68340 |
Prob. F (65,697) |
0.0000 |
|
Obs*R-squared |
440.9676 |
Prob. Chi-Square (65) |
0.0000 |
|
Scaled explained SS |
986.9910 |
Prob. Chi-Square (65) |
0.0000 |
Тест Глейзера проверяет значимость регрессии, в которой зависимой переменной являются абсолютные значения остатков, а регрессоры взяты из исходной модели. Поэтому, если значимость регрессии не будет отвергнута, тест подтвердит наличие гетероскедастичности. В этом случае нулевая гипотеза принимается на 1% уровне значимости.
Тест Харви говорит о том, что на 5-% -ном уровне есть основания отвергнуть нулевую гипотезу о гомоскедастичности. Т.е. выявлена гетероскедастичность. Тест Уайта строит регрессию квадратов значений остатков на все комбинации исходных регрессоров. С помощью этого теста выявлена гетероскедастичность.
Итак, было выяснено, что гетероскедастичность по результатам всех тестов присутствует. Однако это истинная гетероскедастичность, т.к. регрессионная модель правильно специфицирована, а значит, гетероскедастичность является неизбежным свойством этих данных. Об истинности гетероскедастичности говорит следующий график, на котором практически не видно отклонений значений и остатков.
Рисунок 9. График отклонения значений и остатков
Диагностика мультиколлинеарности.
Диагностика мультиколлинеарности проводилась на этапе анализа данных. Это значит, что модель не включает сильно коррелированные регрессоры. Для подтверждения следует рассчитать показатель VIF:
Таблица 15. Тест VIF
Variance Inflation Factors |
||||
Date: 05/27/14 Time: 01: 24 |
||||
Sample: 1 763 |
||||
Included observations: 763 |
||||
Coefficient |
Uncentered |
Centered |
||
Variable |
Variance |
VIF |
VIF |
|
AGENTS_0 |
0.002894 |
4.317196 |
2.866257 |
|
CULT_3 |
8159.054 |
2.296225 |
1.302641 |
|
EDUC_5 |
93780.12 |
14.35868 |
6.505800 |
|
EMPL_1 |
0.019552 |
5.924161 |
1.061033 |
|
EMPL_4 |
0.542655 |
4.006417 |
2.309689 |
|
ENVIR_0 |
285.2567 |
1.613236 |
1.248095 |
|
HEALTH_4 |
58420.57 |
23.71489 |
10.65282 |
|
HOUS_0 |
0.350330 |
32.07002 |
15.44331 |
|
SOC_3 |
722439.0 |
2.345001 |
1.363127 |
|
SPORT_1 |
35.14816 |
11.30264 |
5.660535 |
|
C |
9655619. |
8.483040 |
NA |
Такие результаты не были ожидаемыми. Необходимо проводить оценку по коэффициенту Centered VIF, который должен быть меньше 10. Результат: две данные вызывают этот эффект. Мультиколлинеарность - это такая ситуация, при которой одна переменная очень хорошо объясняется другими переменными. Эта ситуация возможна, если 2 переменные коррелированны между собой, и поэтому становится очень сложно различить их влияние на зависимую переменную. Однако в построенной модели регрессоры не коррелируют сильно между друг другом. Это означает, что результаты, полученные при помощи теста VIF, можно обосновать, как внутренние факторы каждой переменной. Скорее всего, такие переменные могут коррелировать с каким-то определенные набором других переменных (множественная корреляция). Мультиколлинеарность же чаще всего возникает при взаимосвязи на парном уровне. Следовательно, с моделью ничего не следует делать (это позволяют правила эконометрики), чтобы избежать смещения коэффициентов из-за неверной спецификации, при условии того, что сильная корреляция между факторами была заранее предотвращена).
3.4 Построение моделей с фиксированными и случайными эффектами. Выбор регрессионной модели
Построим модель с фиксированными эффектами, которая учитывает ненаблюдаемые переменные, которые коррелируют с переменными в модели.
После построения модели с фиксированными эффектами (Таблица 16), можно сделать вывод о том, что модель значима в целом, так как Prob (F-statistic) <0,05. Коэффициент детерминации по-прежнему очень высокий. Однако, последствием изменения общей регрессионной модели на модель с коррелируемыми между собой наблюдаемыми и ненаблюдаемыми переменными привела к тому, что явно сократилось количество не зависимых переменных. Пять переменных из десяти регрессоров стали незначимыми.
Таблица 16. Модель с фиксированными эффектами
Dependent Variable: POP_0 |
|||||
Method: Panel Least Squares |
|||||
Sample: 2005 2011 |
|||||
Periods included: 7 |
|||||
Cross-sections included: 109 |
|||||
Total panel (balanced) observations: 763 |
|||||
Variable |
Coefficient |
Std. Error |
t-Statistic |
Prob. |
|
AGENTS_0 |
-0.028173 |
0.015948 |
-1.766543 |
0.0778 |
|
CULT_3 |
286.3074 |
73.73873 |
3.882728 |
0.0001 |
|
EDUC_5 |
-311.2042 |
160.4362 |
-1.939738 |
0.0528 |
|
EMPL_1 |
-0.138843 |
0.061258 |
-2.266537 |
0.0237 |
|
EMPL_4 |
-0.857739 |
0.250468 |
-3.424546 |
0.0007 |
|
ENVIR_0 |
18.64554 |
16.36240 |
1.139536 |
0.2549 |
|
HEALTH_4 |
-182.6333 |
172.3138 |
-1.059887 |
0.2896 |
|
HOUS_0 |
13.73294 |
0.636430 |
21.57810 |
0.0000 |
|
SOC_3 |
-21.62404 |
350.7875 |
-0.061644 |
0.9509 |
|
SPORT_1 |
-13.26904 |
5.222408 |
-2.540790 |
0.0113 |
|
C |
247137.3 |
5061.631 |
48.82563 |
0.0000 |
|
Effects Specification |
|||||
Cross-section fixed (dummy variables) |
|||||
R-squared |
0.999552 |
Mean dependent var |
335876.9 |
||
Adjusted R-squared |
0.999470 |
S. D. dependent var |
325692.5 |
||
S. E. of regression |
7499.150 |
Akaike info criterion |
20.82533 |
||
Sum squared resid |
3.62E+10 |
Schwarz criterion |
21.54858 |
||
Log likelihood |
-7825.865 |
Hannan-Quinn criter. |
21.10379 |
||
F-statistic |
12175.02 |
Durbin-Watson stat |
0.914125 |
||
Prob (F-statistic) |
0.000000 |
Перейдем к построению модели со случайными эффектами.
Следует отметить, что значения обоих коэффициентов детерминации снизились до 88% (Таблица 17). Но это значение все также является довольно высоким. Модель является значимой. Кроме того, в модели имеется всего одна незначимая переменная, в то время как другие являются на 100% значимыми, их вероятность незначимости равно 0.
Таблица 17. Модель со случайными эффектами
Dependent Variable: POP_0 |
|||||
Method: Panel EGLS (Cross-section random effects) |
|||||
Sample: 2005 2011 |
|||||
Periods included: 7 |
|||||
Cross-sections included: 109 |
|||||
Total panel (balanced) observations: 763 |
|||||
Swamy and Arora estimator of component variances |
|||||
Variable |
Coefficient |
Std. Error |
t-Statistic |
Prob. |
|
AGENTS_0 |
-0.021655 |
0.015886 |
-1.363135 |
0.1732 |
|
CULT_3 |
619.8475 |
68.09677 |
9.102450 |
0.0000 |
|
EDUC_5 |
2173.859 |
146.7745 |
14.81087 |
0.0000 |
|
EMPL_1 |
-1.053625 |
0.056628 |
-18.60609 |
0.0000 |
|
EMPL_4 |
-1.211914 |
0.247866 |
-4.889397 |
0.0000 |
|
ENVIR_0 |
77.56576 |
14.51179 |
5.345016 |
0.0000 |
|
HEALTH_4 |
1842.426 |
155.9606 |
11.81341 |
0.0000 |
|
HOUS_0 |
32.46385 |
0.458361 |
70.82588 |
0.0000 |
|
SOC_3 |
1647.504 |
343.7681 |
4.792485 |
0.0000 |
|
SPORT_1 |
20.37471 |
4.710998 |
4.324923 |
0.0000 |
|
C |
46173.92 |
3192.455 |
14.46345 |
0.0000 |
|
Effects Specification |
|||||
S. D. |
Rho |
||||
Cross-section random |
22277.35 |
0.8982 |
|||
Idiosyncratic random |
7499.150 |
0.1018 |
|||
Weighted Statistics |
|||||
R-squared |
0.881595 |
Mean dependent var |
42392.84 |
||
Adjusted R-squared |
0.880020 |
S. D. dependent var |
42264.83 |
||
S. E. of regression |
14639.72 |
Sum squared resid |
1.61E+11 |
||
F-statistic |
559.9076 |
Durbin-Watson stat |
0.612743 |
||
Prob (F-statistic) |
0.000000 |
||||
Unweighted Statistics |
|||||
R-squared |
0.976016 |
Mean dependent var |
335876.9 |
||
Sum squared resid |
1.94E+12 |
Durbin-Watson stat |
0.050942 |
Проведем тест Хаусмана, который поможет выявить, какую из двух моделей следует использовать. Нулевая гипотеза: модель со случайными эффектами является оптимальной.
Таблица 18. Тест Хаусмана на определение модели
Correlated Random Effects - Hausman Test |
||||
Equation: Untitled |
||||
Test cross-section random effects |
||||
Test Summary |
Chi-Sq. Statistic |
Chi-Sq. d. f. |
Prob. |
|
Cross-section random |
2123.890402 |
10 |
0.0000 |
Так как p-уровень <0,01, значит, мы отклоняем нулевую гипотезу. Полученные результаты позволяют сделать вывод, что из двух моделей подходит...
Подобные документы
Проблемы и резервы социально-экономического развития города Кемерово в долгосрочной перспективе. Основные задачи роста экономического потенциала города. Развитие образовательного, научного и культурного потенциала. Особенности улучшения городской среды.
курсовая работа [1,3 M], добавлен 15.03.2009Краткая история развития города. Активность развития рынка недвижимости в городе. Влияние на его динамику деятельности двух крупных предприятий - НТМК и УВЗ. Разброс цен на жилье. Анализ основных факторов, влияющих на платежеспособность покупателей.
реферат [9,2 K], добавлен 19.05.2014Обзор факторов, влияющих на эффективность производственно-хозяйственной деятельности предприятия. Анализ социальных, внешних и технических факторов, влияющих на систему перевозки груза на примере перевозки пакетированных досок. Порядок укладки пакета.
курсовая работа [644,0 K], добавлен 13.01.2014Существующие подходы к исследованию проблем экономического роста. Количественный анализ факторов влияния на динамику экономического роста по продуктам перегонки нефти. Проверка на аномальность и гипотеза о существовании тренда, расчет по критерию Ирвина.
контрольная работа [638,2 K], добавлен 26.02.2013Место и роль города в экономике Российской Федерации. Специфика города Набережные Челны. Итоги социально-экономического развития города. Экономические проблемы и перспективы развития города Набережные Челны. Пищевая и перерабатывающая отрасль.
дипломная работа [57,9 K], добавлен 03.12.2008Показатели естественного движения населения, структура его доходов и расходов. Построение и анализ вариационного ряда по уровню номинальной оплаты труда. Применение статистических методов в анализе факторов, влияющих на изменение уровня жизни населения.
курсовая работа [831,9 K], добавлен 06.11.2014Оценка уровня развития инженерной и социальной инфраструктуры города Москвы. Анализ тенденций инвестиционной деятельности в регионе. Оценка уровня развития отраслей московской промышленности. Определение показателей уровня жизни населения Москвы.
реферат [1,5 M], добавлен 15.04.2018Концептуальные основы разработки и обеспечения реализации стратегии социально-экономического развития г. Ханты-Мансийска до 2020 г. Оценка существующего состояния экономики города, его потенциал, конкурентоспособность, проблемы и перспективы развития.
научная работа [1,6 M], добавлен 01.05.2011Систематизация и теоретическое исследование основных факторов эффективного экономического роста. Анализ состояния промышленности, сельского хозяйства и научного потенциала России. Основные приоритеты и оценка факторов эффективного развития экономики РФ.
дипломная работа [170,5 K], добавлен 30.09.2011Разработка модели для анализа зависимости между объясняемой и объясняющими переменными. Построение матрицы парных коэффициентов корреляции; диаграммы рассеивания. Тесты, определяющие зависимость занятого населения в РФ от социально-экономических факторов.
курсовая работа [904,7 K], добавлен 09.05.2016Социальное развитие города как объект управленческого взаимодействия города и предприятия. Социологический анализ наиболее актуальных проблем, волнующих население в городе Нижнекамске. Отечественный опыт решения проблем в монопрофильных городах.
дипломная работа [161,0 K], добавлен 05.12.2010Теоретические основы изучения проблем малых городов и повышения их экономической стабильности. Демографическая ситуация и уровень жизни населения города Уварово. Состояние городского хозяйства. Организация муниципального управления. Проблемы развития.
дипломная работа [192,7 K], добавлен 25.04.2012Анализ социально-экономического положения города Ярославля (условия, факторы и направление развития). История развития города. Анализ отраслевой структуры: основные проблемы и перспективы. Наблюдения за уровнем и оценка загрязнения воздуха в городе.
реферат [5,2 M], добавлен 15.08.2013Общая характеристика и анализ конкурентных позиций города Гурьевска. Анализ развития реального сектора экономики, финансовой и социальной сферы города. Прогноз объема добычи руды и выпуска промышленной продукции. Прогноз дебиторской задолженности города.
курсовая работа [587,8 K], добавлен 29.01.2012Понятие категорий и факторов экономического роста и развития. Воздействие экономических факторов на темпы развития экономики. Факторы экономического роста национальной экономики Республики Татарстан, их оценка и разработка комплексной программы развития.
курсовая работа [55,2 K], добавлен 20.05.2009Определение природы понятия "стратегия". Сущность и этапы стратегического планирования социально-экономического развития муниципального образования в РФ. Разработка проекта стратегического плана социально-экономического развития города Нижнекамска.
дипломная работа [592,3 K], добавлен 05.12.2010Социально-экономическое положение города Геленджик, SWOT-анализ его развития. Анализ соотношений сильных и слабых сторон с возможностями и угрозами. Основные проблемы социально-экономического развития. Анализ экологической обстановки, когнинтивная карта.
курсовая работа [142,5 K], добавлен 14.12.2009Характеристика макроэкономических факторов, влияющих на динамику уровня инфляции в Российской Федерации. Анализ объема государственного внутреннего и внешнего долга. Исследование индексов потребительских цен на все товары и услуги в 2008-2013 годах.
контрольная работа [364,3 K], добавлен 30.05.2015Анализ состояния рынка хлеба и хлебобулочных изделий в Республике Казахстан. Оценка факторов, влияющих на ценообразование продукции ТОО "Дастархан". Разработка ценовой стратегии с учетом рыночной конкуренции. Снижение затрат на производство продукции.
дипломная работа [596,2 K], добавлен 13.03.2015Сущность и теоретическое содержание спирали социально-экономического развития экономических систем. Построение коммунизма по теории спирали общественного развития в Советской России. График социально-экономического развития России на перспективу.
курсовая работа [269,1 K], добавлен 02.06.2011