Прогнозирование социально-экономических индикаторов с использованием статистики поисковых систем

Описание поисковых систем как источника информации о поведении пользователей всемирной паутины. Оценка релевантности частоты запросов по поиску работы в системе Google для прогнозирования социально-экономических показателей РФ на примере безработицы.

Рубрика Экономико-математическое моделирование
Вид дипломная работа
Язык русский
Дата добавления 20.08.2020
Размер файла 5,4 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

5

«НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ

«ВЫСШАЯ ШКОЛА ЭКОНОМИКИ»

Факультет экономики

МАГИСТЕРСКАЯ ДИССЕРТАЦИЯ

Тема «Прогнозирование социально-экономических индикаторов с использованием статистики поисковых систем»

по основной профессиональной образовательной программе высшего образования - программы магистратуры «Экономика» направления подготовки 38.04.01«Экономика»

Угарова Татьяна Игоревна

Руководитель

д-р ф.-м. наук, проф.

А.М. Силаев

Оглавление

Введение

Глава 1. Статистика поисковых систем

Описание поисковых систем

GoogleTrends

Yandex Wordstat

Обзор литературы

Коммерческие исследования статистики Google Trends

Экономические исследования статистики Googletrends

Глава 2 Исследование безработицы России с помощью GoogleTrends

Описание данных

Статистика по безработице в России

Статистика интенсивности поиска работы в Google.

Методология исследования

Оценивание моделей

Сравнение моделей

Проверка робастности

Глава 3 Эмпирически оценки качества моделей безработицы

Анализ прогнозной силы запросов по поиску работы

Оценивание моделей методом скользящего окна

Анализ предсказательной силы альтернативных запросов

Прогнозная сила статистики Google для регионов России

Заключение

Литература

Введение

В последнее десятилетие наблюдается бурное развитие цифровых технологий. Этот процесс сопровождается накоплением больших массивов информации, характеризующих поведение, потребности и интересы людей в виртуальном пространстве. Данные сведения широко используются в коммерческих целях для продвижения товаров и услуг целевой аудитории, для изменения ассортимента в соответствии с потребностями покупателей.

Исследователи разных стран также проявили интерес к статистике поисковых систем и предприняли попытку использовать её в научных целях. Результаты различных исследованийTobias Preis, Daniel Reith and H. Eugene Stanley. Complexdynamicsofoureconomiclifeondifferentscales: insights from search engine query data (англ.) // Philosophical Transactions of the Royal Society A (англ.)русск. : journal. - 2010. - Vol. 368. - P. 5707-5719. - doi:10.1098/rsta.2010.0284. показывают, что с помощью информации о популярности определенных поисковых запросов можно прогнозировать индикаторы экономической активности населения.

Однако, к настоящему времени исследования социально-экономических показателей России с применением статистики интернет запросов не обрели высокую популярность. В связи с этим возникает необходимость изучения связи статистики поисковых систем и официально публикуемых социально-экономических индикаторов как для России в целом, так и для российских регионов.

Цель настоящей работы - оценить релевантность частоты запросов по поиску работы в системе Google для прогнозирования социально-экономических показателей России на примере безработицы.

Из цели работы становится очевидным объект исследования: российская статистика поисковых систем. Предметом изучения становится феномен поиска работы в сети интернет.

В ходе изучения проблемы реализованы следующие этапы работы:

· Собрана статистика по запросам в Google за 15 лет по ключевым словам «вакансия», «работа» и по альтернативным словам, связанным с поиском работы, а также официальная статистика по безработице.

· Оценены авторегрессионные модели и расширенные модели с использованием лагированных переменных, связанных с поиском работы в Google.

· Рассчитаны прогнозы по набору моделей и получены результаты, подтверждающие высокую точность моделей с использованием данных по запросам в сети интернет для прогнозирования безработицы.

· Протестирована робастность результатов к изменению набора регрессоров (ключевых слов) к изменению выборки методом скользящего окна.

· Модели апробируются как на общероссийских данных, так и на региональном уровне для каждого субъекта Российской Федерации.

Структура исследования соответствует этапам выполнения работы.

В первой главе описаны поисковые системы как основной источник информации о поведении пользователей всемирной паутины. Изучены данные, связанные с поиском работы через интернет. Эта информация сопоставляется с официальной статистикой по безработице.

Во второй главе подробна описана методология моделирования и прогнозирования безработицы в России с помощью информации системы GoogleTrends.

В третьей главе приводится регрессионный анализ и результаты прогнозирования безработицы посредством статистики поисковых систем. В заключении подведены итоги исследования.

Настоящая работа базируется на исследовании, посвященном прогнозированию безработицы в США с помощью запросов в Google по поиску работыFrancesco D'Amuri, JuriMaccruci, The Predictive Power of Google Searches in Forecasting US Unemployment, Bank of Italy, 2017.. Авторы этого исследования проводят многостороннюю проверку гипотезы о предшествовании всплеска популярности запросов по поиску работы официально фиксируемой безработице и началу экономической рецессии.

Методология настоящего исследования во многом заимствована из вышеупомянутого труда. При этом научная новизна настоящей работы заключается в изучении российских данных.

Практическая ценность исследования состоит в том, что она демонстрирует релевантность баз данных поисковых систем для прогнозирования социально-экономической статистики в России. Это особенно значимо в условиях, когда официальная статистика публикуется с некоторым временным лагом, а решения по макроэкономической политике должны приниматься с учетом, как текущей ситуации, так и возможных сценариев и прогнозов на ближайшее будущее.

поисковая система экономический показатель безработица

Глава 1. Статистика поисковых систем

Базы данных поисковых систем

GoogleTrends

GoogleTrends является публичным приложением корпорации Google, которое показывает, как интенсивно пользователи поисковой системы запрашивают определенный терминпо отношению к общему объему поисковых запросов за указанный промежуток времени.

В системе доступна статистика с 2004 года. Могут быть представлены ежемесячные, еженедельные и ежедневные оценки интенсивности поиска, вСистема анализа поисковых запросов работает уже достаточно давно. 5 августа 2008 года Google запустил GoogleInsightsforSearch, более сложную и передовую службу отображения тенденций поиска, которая в 2012 году была объединена с GoogleTrends.

GoogleTrends также позволяет пользователю сравнивать объем поисковых запросов по двум или более поисковым фразам. Дополнительная особенность GoogleTrends заключается в его способности отображать новости, связанные с поисковыми фразами, накладывая их на график, который показывает, как новые события влияют на поисковую популярность.

Инструменты Googletrends были разработаны для мониторинга популярности сайтов, товаров, услуг. Однако исследователи адаптировали статистическую информацию и для научных целей.

Джереми Гинсбергпредоставили доказательства того, что данные GoogleTrends могут быть использованы для отслеживания заболеваемости гриппом среди населения.Jeremy Ginsberg, Matthew H. Mohebbi, Rajan S. Patel, Lynnette Brammer, Mark S. Smolinski and Larry Brilliant. Detecting influenza epidemics using search engine query data (англ.) // Nature : journal. -- 2009. -- Vol. 457. -- P. 1012--1014. -- doi:10.1038/nature07634. По словам автора, может быть представлена еженедельная оценка интенсивности распространения гриппа, поскольку относительная частота запросов, связанных с поиском способов лечения, «health-seekingbehaviour», в значительной мере связана с процентом посещений врача, при котором у пациента обнаруживаются симптомы гриппа.

Тобиасом Прейсом было показано, что существует корреляция между данными GoogleTrends по названию компаний и объему соответствующих биржевых сделок на еженедельном масштабе времени Tobias Preis, Daniel Reith and H. Eugene Stanley. Complex dynamics of our economic life on different scales: insights from search engine query data (англ.) // Philosophical Transactions of the Royal Society A (англ.)русск. : journal. -- 2010. -- Vol. 368. -- P. 5707--5719. -- doi:10.1098/rsta.2010.0284..

GoogleHotTrends является дополнением к GoogleTrends, которое отображает 20 лучших, «горячих», то есть с наиболее быстрым ростом, поисковых запросов за последний час в Соединенных Штатах.[5] Для каждого из поисковых терминов, он обеспечивает 24-часовой график объема поисковых запросов, а также записей блогов, новостей и результатов поиска в Интернете. HotTrends имеет функцию отображения истории для желающих просмотреть прошлые «горячие» поисковые запросы. HotTrends также могут быть установлены как гаджет iGoogle.

YandexWordstat

YandexWordstat - это бесплатный интернет-сервис статистики поисковых запросов, которые пользователи вводят в Яндекс. Приложение является рабочим инструментом для маркетологов, владельцев бизнеса. Позволяет оценивать уровень пользовательского интереса к различным тематикам и выявлять наиболее популярные ниши бизнеса, а также проверять сезонность и географию ключевых фраз.

Используя сервис, можно узнать абсолютное и относительное число запросов по теме в поисковой системе. По умолчанию, отображается общее количество запросов, путем настройки параметров можно фильтровать результаты по региону запроса, по типу устройства с которого производился поиск.

Яндекс представляет для публичного пользования ежемесячную или еженедельную статистику о популярности запросов за период не более чем два года. Это существенно снижает возможности использования инструментов поисковой системы Яндекс для ретроспективного анализа.

Обзор литературы

Статистика поисковых систем достаточно широко к настоящему времени используется исследователями для изучения и прогнозирования социально-экономических показателей.

Коммерческие исследования статистики GoogleTrends

Наиболее ранние исследования прогнозной силы поисковых запросов проводились сотрудниками корпорации GoogleChoi&VarianTrends Hyunyoung Choi Hal Varian Predicting the Present with Google Trends / Hyunyoung Choi Hal Varian // Google Inc, 2005 с целью оценить релевантность статистики GoogleTrends для описания спроса потребителей на товары и услуги разных отраслей.

На примере автомобильной отрасли ученые показали, что статистика запросов в категории автомобили марки Форд позволяет улучшить прогноз объема продаж автомобилей соответствующей марки. Также выявлена высокая корреляция между интенсивностью запросов по поиску мотоциклов и грузовых автомобилей и фактическим объемом продаж в соответствующих категориях.

Также исследователи предприняли попытку прогнозирования объема продаж на рынке недвижимости в США с применением статистики запросов в категории недвижимость. Ученые показали, что индекс Google, отражающий популярность запроса имеет высокую корреляцию с фактическим количеством сделок по продаже домов в США.

Еще исследователи привели пример того, как статистика Google может использоваться в туристической отрасли. Ученые провели сравнение частоты запросов с названиями стран USA, Canada, Britain, Germany, France и др. с числом поездок в соответствующем направлении.

В целом исследователи показали, что статистика Googletrends может использоваться в ряде отраслей экономики для прогнозирования потребительского спроса и объема продаж.

Экономические исследованиястатистикиGoogletrends

Идею исследования статистики поисковых систем для оценивания социально-экономических показателей развили итальянские исследователи FasuloetAlAndrea Fasulo Google Trends for Noewcasting Quarterly Houshold Consumption Expenditure / Andrea Fasulo, AlessioGuandalini, Marco D. Terribili // RivistaItaliana di EconomiaDemografia e Statistica. - Vol. LXXI. - №.4, 2017. Авторы использовали информацию ресурса GoogleTrends для прогнозирования квартальных данных о потребительских расходах домохозяйств в Италии. В качестве базовой модели в работе оценена интегрированная авторегрессионная модель (ARIMA). Альтернативные модели дополнены данными GoogleTrends, а также официальной статистикой. Авторы обнаружили, что коэффициент при переменной GoogleTrends значим, а модель с использованием такого регрессора превосходит по качеству подгонки базовую модель и все альтернативные.

Канадские ученые предприняли попытку использовать статистику поисковых запросов для прогнозирования экономической рецессииGreg Tkacz Predicting Recessions in Real-Time: Mining Google Trends and Electronic Payments Data for Clues / Greg Tkacz // Institute C.D. HOWE Institute Commentary № 387, 2013 . В ходе исследования была собрана информация по запросам «recession» и «job». Ученые обнаружили, что увеличение популярности выбранных запросов на два-три месяца предвосхищает начало экономического спада в 2009 году, фиксируемого официальной статистикой.

Достаточно популярное направление исследований с применением статистики GoogleTrends - прогнозирование безработицыBetsey Stevenson The Internet and Job Search / Betsey Stevenson // NBER Working Paper Series. - Working Paper 13886 Cambridge, 2008 [электронныйресурс] URL: http://www.nber.org/papers/w1388 (датаобращения: 03.02.2020).. Например, D'Amuri, MarcucciFrancesco D'Amuri and JuriMarcucci “Google it!” Forecasting the US Unemployment Rate with a Google Job Search Index / Francesco D'Amuri and JuriMarcucci //Nota di Lavoro, Bank of Italy. - №31, 2010 написали несколько работ, посвященных изучению прогнозной силы запросов в Google для предсказания безработицы в США.

В исследовании проводится сравнение качества прогнозов базовой авторегрессионной модели и регрессий с использованием статистики поисковой системы Google. Для сравнения моделей используются такие критерии как RMSE и QRMSE - корень среднеквадратичной ошибки и накопленная ошибка соответственно. Авторы демонстрируют превосходство прогнозов моделей, в которые задействована информация о поиске работы в интернете.

Ученые проводят многостороннюю проверку робастности результатов. В частности, для оценивания регрессий используется метод скользящего окна. Это требуется для поиска периодов, когда информация Google обеспечивает наилучшие результаты. Обнаружено, что всплеск активности по поиску работы в интернете предшествует спаду в экономике и росту безработицы, которая фиксируется официальной статистикой.

Также проводится регрессионный анализ в региональном разрезе. Обнаружено, что для большинства штатов использование статистики Google позволяет улучшить качество прогнозов безработицы. Наличие регионов, где статистика Google оказывается бесполезной, исследователи связывают с недостаточным развитием сети интернет в отдельных штатах.

Изучается чувствительность результатов к выбору ключевых слов, характеризующих интенсивность поиска работы. Для США наилучшим индикатором становится частота запросов со словом «Job».

Помимо этого, проводится тест на «фальсификацию». Исследователи подобрали словосочетание, связанное со словом «работа», но никак не связанное с процессом трудоустройства. На английском языке запрос «job» созвучен с именем SteveJobs. Проведен регрессионный анализ, который показывает, что запросы «SteveJobs» не улучшает качества прогнозов уровня безработицы, в то время, как статистика по запросу «job» справляется с этой задачей. Это позволяет доказать, что статистика позволяет отделить запросы, связанные с трудоустройством, от посторонней информации и оценить интенсивность поиска работы даже при внешней схожести разных запросов. Результатом работы ученных стал индекс интенсивности поиск работы в сети, как опережающий индикатор уровня безработицы в США.

Глава 2 Исследование безработицы России с помощью GoogleTrends

Описание данных

Статистика по безработице в России

Для исследования безработицы в России, использованы данные, публикуемые Федеральной Службой государственной статистики. Для изучения выбран показатель ««Ууровень безработицы (по методологии МОТ)».Согласно описанию , выбранный расчетный показатель - это отношение численности безработных определенной возрастной группы к численности рабочей силы соответствующей возрастной группы, рассчитанное в процентах. Данные получены по материалам выборочных обследований рабочей силы. С 2017 года обследованию подлежат лица в возрасте от 15 лет и старше (до 2017 года - лица в возрасте 15-72 лет).

Для выбранной переменной доступны данные, как в агрегированном виде, для Российской Федерации в целом, так и в разрезе регионов. Для Российской Федерации доступны ежемесячные данные. Для регионов годовая статистика доступна с 2000 года, ежеквартальная - с 2010.

Рисунок 1. Уровень безработицы в Российской Федерации, SA

К исходным данным был применен алгоритм сезонного сглаживания seasonaladjustment x13 в Eviews, поскольку показатель подвержен цикличным колебаниям.

Для региональных данных была изменена частотность. Квартальные данные переведены в ежемесячные путем заполнения пропусков средними значениями.

Статистика интенсивности поиска работы в Google.

Для изучения интенсивности поиска работы в сети интернет использованы две переменные: относительная частота запросов со словами «работа» и «вакансия» в Google.

Статистическая система рассчитывает показатель как отношение числа запросов с указанным словом к общему числу запросов за определенный период времени. Для наглядности и сопоставимости в момент времени, когда относительная частота была максимальной, значение относительной частоты принимается за 10 условных единиц. Остальные наблюдения нормируются относительно этого значения.

Рисунок 2.Относительная частота запросов “работа”

Источник: GoogleTrendshttps://trends.google.ru/trends/

Рисунок 3. Относительная частота запросов «вакансия»

Источник: GoogleTrends, расчеты автора

Описательная статистика приведена в приложении 1.

Для исследования альтернативных слов, связанных с поиском работы выбраны запросы с названиями популярных сайтов с подборками вакансий: «SuberJob» «HeadHunter» «hh.ru», а также возможные варианты запросов- обращений в государственные службы занятости: «биржа труда», «служба занятости», «центр занятости».

Рисунок 4. Популярность запросов сайтов по поиску работы

Источник: GoogleTrends, расчеты автора

Рисунок 5 Популярность запросов по поиску службы занятости

Источник: GoogleTrends, расчеты автора

Для выбранных ключевых слов собраны данные за 15 лет с 2004 по 2019 год для Российской Федерации в целом, а для слов «работа», «вакансия», «курсовая», «диплом» и в разрезе регионов. Данные также очищены от сезонных колебаний с помощью алгоритма seasonaladjustment X13.

Методология исследования

Оценивание моделей

Для прогнозирования уровня безработицы оценено два типа моделей - авторегрессионные модели и модели авторегрессии с лагированными экзогенными переменными. Все спецификации оценены на данных за период с 2013 по 2018 г.г. Сравнение качества моделей проводилось на выборке за 2018-2019 г.г.

Авторегрессионная модель безработицы:

Для оценивания параметров авторегрессии использовано следующее уравнение (формула 1):

- прогноз уровня безработицы на h месяцев вперёд,

- постоянное слагаемое,

- авторегрессия безработицы, до трех лагов.

Модель безработицы с внешними лагированными регрессорами:

Альтернативой авторегрессионной модели для оценки безработицы является использование дополнительной информации: статистики поисковых систем. Модифицированное регрессионное уравнение имеет вид (формула 2)

- прогноз уровня безработицы на h месяцев вперёд,

- постоянное слагаемое,

- авторегрессия безработицы с одним лагом,

- лагированные объясняющие переменные

В качестве экзогенного регрессора , описывающего интенсивность поиска работы используется число запросов по одному из ключевых слов: «работа» и «вакансия». Ожидается, что использование слов «работа», вакансия», позволит улучшить прогноз безработицы.

Сравнение моделей

Для сравнения качества моделей используется показатель - RootMeanSquaredError(формула 3).

Смысл показателя - среднее отклонение прогноза от фактического уровня безработицы. RMSE = 0.1 имеет следующую интерпретацию: прогноз безработицы отклоняется от фактического уровня безработицы в соответствующий период на 0.1.п.п.

Сравнение точности прогнозов позволяет ответить на поставленные ранее исследовательские вопросы:

Содержится ли дополнительная полезная информация в статистике поисковых систем?

Опережает ли статистика поисковых систем по поиску работы официальную статистику?

Если такое опережение существует, то на сколько периодов?

Проверка робастности

Для исследования устойчивости результатов используется методология предложенная FrancescoD'Amuri. Francesco D'Amuri, JuriMaccruci, The Predictive Power of Google Searches in Forecasting US Unemployment, Bank of Italy, 2017.

Изучение безработицы на региональном уровне

Помимо изучения общероссийской безработицы проводится регрессионный анализ данных на региональном уровне.

На первом этапе для каждого из 85 регионов России оценивается набор базовых авторегрессионных моделей, соответствующих уравнению … Для каждой модели рассчитан предложенный критерий качества подгонки.

Аналогичным образом оцениваются модели с регрессором, характеризующим интенсивность поиска работы, частота запросов «работа» или «вакансия». Рассчитаны ошибки для каждой из этих моделей.

Далее по формуле 4для удобства сравнения рассчитана разница ошибки прогноза между базовой моделью и соответствующей по числу лагов моделью с регрессором.

где

- разница ошибок,

- величина ошибки в базовой модели,

- величина ошибки альтернативной модели.

Положительная разница свидетельствует о том, что ошибки базовой модели выше, а модель с использованием статистики поисковых систем улучшает прогноз.

Оценивание моделей методом скользящего окна

Для оценивания робастности результатов также применяется алгоритм движущегося окна.

Были оценены модели авторегрессии с одним лагом и модели, дополненные регрессором, на подвыборке длинною в пять лет, начиная с января 2010 года. Рассчитаны прогнозы и ошибки по методологии описанной выше. Вычислена разница между ошибками базовой и альтернативной модели.

Далее подвыборка сдвигается на 3 точки вперед, (на 1 квартал), производится повторная оценка моделей и вычисление ошибок прогноза. Процедура позволяет оценить, как величина ошибок и точность прогноза зависит от момента оценивания модели.периода. Оценивание ошибок методом скользящего окна позволяет понять, помогают ли прогнозы моделей с использованием статистики поисковых систем предсказывать точки разворота безработицы.

Тестирование чувствительности к выбору ключевых слов

Для тестирования устойчивости к выбору ключевых слов собрана дополнительная статистика: относительная частота запросов по словам, которые пользователи сети могут набирать при поиске работы.

Сделано предположение, что для поиска работы заинтересованное лицо может запрашивать сайты с подборками вакансий, коммерческие сервисы трудоустройства или информацию о государственной службе занятости. Поэтому, в качестве альтернативных слов, которые служат индикаторами поиска работы, выбраны следующие запросы: «hh.ru», «headhunter», «Superjob», «биржа труда», «служба занятости», «центр занятости».

Для данных слов оценены регрессии по формуле 2. Сделаны прогнозы и рассчитаны ошибки. Регрессии оценены также методом скользящего окна, для того чтобы отследить, как менялась во времени популярность каждого запроса и его предсказательная сила.

Глава 3 Эмпирически оценки качества моделей безработицы

Анализ прогнозной силы запросов по поиску работы

Результаты оценивания размера ошибок и разницы ошибок альтернативной и базовой модели представлены в таблицах.

Модели авторегрессии и модели, дополненные статистикой GoogleTrends по частоте запроса «работа», были оценены на длинной и короткой подвыборке.

В таблице 1А- величина ошибки RMSE для моделей авторегрессии и моделей с запросом «работа» взятых с разным лагом. Модель оценена на «короткой» подвыборке с 2013 года по 2017. Прогноз рассчитан на 2018 и год и первый квартал 2019 года. В таблице 1Б - разница между величиной ошибок базовой и соответствующей расширенной модели.

Таблица 1А RMSE моделей «короткой» выборки с GI«работа»

лаг GIЗдесь и далее GI - GoogleIndex,относительная частота поисковых запросов\\ работа

-

1

2

3

4

5

6

AR(1)

0.609

0.542

0.549

0.563

0.577

0.579

0.585

AR(2)

0.608

0.543

0.549

0.563

0.578

0.580

0.585

AR(3)

0.587

0.532

0.536

0.554

0.578

0.584

0.572

Таблица 1Б РазницаRMSE моделей «короткой» выборки с GI «работа»

лаг GIработа

1

2

3

4

5

6

AR(1)

0.066

0.059

0.046

0.031

0.029

0.024

AR(2)

0.065

0.058

0.045

0.030

0.028

0.023

AR(3)

0.055

0.051

0.033

0.009

0.003

0.015

При включении любого лага популярности запросов Google от первого до шестого обеспечивает уменьшение ошибки и повышению точности прогноза. Для авторегрессии любого порядка наилучший результат достигается при включении первого лага.

Рисунок 6 Улучшения прогноза моделей«короткой» выборки с GI«работа»

Источник: Расчеты автора.

Далее рассмотрена удлиненная выборка. Оценка проводится на данных за 2010-2017 год, прогноз рассчитан на 2018 год - I квартал 2019 года.

Таблица 2А RMSE моделей «удлиненной» выборки с GI «работа»

Лаг GI работа

-

1

2

3

4

5

6

AR(1)

0.464

0.462

0.479

0.421

0.518

0.440

0.440

AR(2)

0.427

0.424

0.430

0.384

0.480

0.402

0.393

AR(3)

0.361

0.317

0.373

0.286

0.401

0.289

0.342

Аналогичным образом рассчитана разница ошибок прогноза.

Таблица 2Б Разница RMSE моделей «удлиненной» выборки с GI «работа»

Лаг GI работа

1

2

3

4

5

6

AR(1)

0.002

-0.014

0.043

-0.054

0.025

0.024

AR(2)

0.003

-0.003

0.043

-0.053

0.025

0.033

AR(3)

0.044

-0.012

0.075

-0.041

0.072

0.019

Для подвыборки 2010-2017 года наибольшее улучшение прогноза обеспечивает включение третьего лага. Например, в модели авторегрессии первого или второго порядка добавление третьего лага дает улучшение точности прогноза на 0.043п.п. В модели AR(3) улучшение достигает 0.075п.п.

Рисунок 7 Улучшения прогноза моделей«удлиненной» выборки GI«работа»

Источник: Расчеты автора.

Однако оценивание моделей на удлиненной выборке вызывает ухудшение некоторых прогнозов. Например, модели с использованием статистики о запросах по поиску работа отстоящие на четыре месяца ухудшают качество прогнозов. Этому явлению можно предложить некоторое объяснение. В более ранние периоды использование сети интернет не было так развито, как в настоящее время. По этой причине статистика об относительной частоте запросов подвержена большей волатильности. Это может повлиять на качество прогнозов.

Предположение о причинах изменения качества моделей проверяется при оценке регрессий с использованием еще более ранних данных о безработице и относительной частоте запросов в Google.

Модели повторно оценены на подвыборке с 2004 по 2017 г.г. Прогнозы и ошибки рассчитаны на 2018 - первый квартал 2019 г.г.

Таблица 3А RMSE моделей «длинной» выборки с GI «работа»

Лаг GI работа

-

1

2

3

4

5

6

AR(1)

0.575

0.516

0.631

0.495

0.577

0.583

0.541

AR(2)

0.540

0.506

0.639

0.489

0.533

0.546

0.503

AR(3)

0.465

0.342

0.561

0.387

0.466

0.453

0.424

Использование данных с начала 2004 года привело к еще более выраженному изменению в разнице ошибок прогноза. Например, включение первого лага статистики Google по слову «работа» в модели первого порядка привело к уменьшению ошибки на 0.123, что на порядок выше, чем в предыдущих случаях. С другой стороны, еще более выраженным стало ухудшение прогноза моделей с включение второго лага частоты интернет-запросов. Например, ошибка выросла на 0.099 в модели второго порядка и на 0.096 в авторегрессии третьего порядка.

Таблица 3Б РазницаRMSE моделей «длинной» выборки с GI «работа»

Лаг GI работа

1

2

3

4

5

6

AR(1)

0.060

-0.055

0.081

-0.002

-0.008

0.034

AR(2)

0.034

-0.099

0.051

0.007

-0.007

0.037

AR(3)

0.123

-0.096

0.078

-0.001

0.012

0.040

Рисунок 8 Улучшения прогноза моделей«длинной» выборки GI«работа»

Источник: Расчеты автора.

Полученные результаты позволяют сделать ряд выводов.

Статистика Google по запросу «работа» действительно в ряде случаев помогает повысить точность прогнозов безработицы.

Наибольшее улучшение обеспечивает включение информации о первом или третье лаге запросов по слову «работа». Данный результат устойчив к изменению длины выборки при оценивании регрессий.

Альтернативным словом для поиска работы является запрос «вакансия». С использованием статистики по этому запросу также оценивается ряд моделей и рассчитываются ошибки прогноза. Оценка проводится на данных за 2013-2017г.г Прогноз и критерий точности RMSE рассчитан на 2018 - I квартал 2019г.г

Таблица 4А RMSE моделей «короткой» выборки с GI«вакансия»

Лаг GI

вакансия

-

1

2

3

4

5

6

AR(1)

0.609

0.565

0.546

0.588

0.588

0.556

0.515

AR(2)

0.608

0.551

0.536

0.583

0.585

0.544

0.494

AR(3)

0.587

0.512

0.494

0.566

0.549

0.532

0.463

Положительная разница ошибок между базовой и расширенными моделями демонстрирует преимущества, которые обеспечивает использование статистики поисковых систем.

Таблица 4БРазница RMSE моделей «короткой» выборки с GI«вакансия»

Лаг GI

вакансия

1

2

3

4

5

6

AR(1)

0.0437

0.0627

0.0200

0.0210

0.0528

0.0933

AR(2)

0.0563

0.0712

0.0242

0.0231

0.0636

0.1137

AR(3)

0.0753

0.0932

0.0215

0.0384

0.0551

0.1240

При оценивании регрессионных моделей на короткой выборке выявлено, что статистика позапроса «вакансия» также достаточно хорошо позволяет прогнозировать безработицу. Статистика по запросу «вакансия» обеспечивает даже большее преимущество, чем GI по запросу «работа».

Рисунок 9 Улучшения прогноза моделей«короткой» выборки GI«вакансия»

Источник: Расчеты автора.

Наиболее точные прогнозы можно получить, используя интернет-статистику месячной, двухмесячной и полугодовалой давности. При включении дынных об интенсивности запросов «вакансия» с лагом 6 месяцев обеспечивает улучшение прогнозов на 0.09-0.12п.п в моделях от первого до третьего порядка авторегрессии включительно.

Возможно следующее интуитивное объяснение: вероятно запрос «вакансия» используют соискатели с более высоким образованием/квалификацией. Более естественна формулировка «вакансия экономиста», чем «вакансия грузчика». Также вероятно процесс увольнения/трудоустройства таких специалистов требует больше времени, поэтому они начинают искать работу заранее, еще не будучи уволенным. Поэтому и в статистике изменения сведений о занятости таких работников появляются значительно позднее, чем они начинают фактически искать работу. Это предположение, однако, требует дополнительной проверки, которая выходит за рамки настоящего исследования.

Оценивание моделей методом скользящего окна

Для оценивания ошибок методом скользящего окна был применен алгоритм, описанный в разделе методология. Аналогично предыдущим случаям была вычислена разница ошибок между базовой моделью AR(1) и расширенными моделями. График показывает, как меняется проигрыш/ выигрыш в зависимости от периода оценивания и прогнозирования.

Временная ось показывает начало периода длительностью 1 год, для которого рассчитан прогноз и соответствующие ошибки. Оценивалась каждая модель на данных за пять лет, предшествующих точке начала периода прогнозирования.

Разница ошибок колеблется около нулевой отметки. Наибольший провал в точности прогнозов, рассчитанных на второе полугодие 2013 - первое полугодие 2014 года. Эти модели оценивались на данных, содержащих сведения о динамик запросов во время рецессии 2009-2010 г.г. и восстановительного периода. Можно предположить, процессы порождающие данные в периоды спада и подъема, разные: поведение экономических агентов в кризис отличается от обычной модели поведения. Следовательно, статистика о поведении экономических агентов в кризис оказывается мало полезной для прогнозирования относительно спокойных периодов.

Рисунок 10 Динамика разницыRMSE длямоделей с GI «работа»

Источник: Расчеты автора.

За исключением 2013-2014 года, выигрыш в точности обеспечивает модель с добавлением регрессора GI «работа» (-3). Модель и использование третьего лага (зеленая линия), оцененная на данных предкризисного периода 2004-2008г.г. обеспечивает достаточно точные прогнозы безработицы в период развития экономического кризиса в 2009 году. Это позволяет заключить, что рост популярности запросов связанных с поиском работы действительно опережает официальную статистику по росту безработицы в среднем на три месяца.

Аналогичная процедура оценки моделей для скользящей выборки был применена и для статистики по запросу «вакансия». Результаты оценивания графически отображены на рисунке …. Можно сделать общее замечание, что GI по запросу «вакансия» приводит к снижению точности прогноза в 2014 году и 2016-2017г.г.

Рисунок 10 Динамика разницыRMSE длямоделей с GI«вакансия»

Источник: Расчеты автора.

Можно заключить, что качество прогноза зависит периода оценки/прогнозирования. Природа и свойства такой зависимости не изучаются в настоящей работе, но могут быть предметом дальнейших исследований. Можно только предположить, что в периоды снижения точности менялась модель поведения экономических агентов при поиске работы.

Анализ предсказательной силы альтернативных запросов

Альтернативная оценка моделей проводится по набору слов «hh.ru», «HeadHunter», «Superjob», «биржа труда», «служба занятости», «центр занятости». Оценка проводится на данных с 2013 по 2017г.г. Прогноз рассчитан на 2018 - апрель 2019 г.г.

Первая группа запросов характеризует интенсивность поиска работы непосредственно в пространстве сети интернет на сайтах с подборками вакансий.

Таблица 5А RMSE для запросов сайтов по поиску работы

Лаг GI

-

1

2

3

4

5

6

GI hh.ru

AR(1)

0.629

0.704

0.712

0.721

0.730

0.725

0.718

AR(2)

0.628

0.700

0.710

0.718

0.729

0.724

0.717

AR(3)

0.611

0.667

0.641

0.679

0.688

0.684

0.682

GI headhunter

AR(1)

0.629

0.570

0.559

0.547

0.529

0.521

0.513

AR(2)

0.628

0.573

0.561

0.549

0.531

0.522

0.514

AR(3)

0.611

0.574

0.591

0.562

0.550

0.547

0.542

GI Superjob

AR(1)

0.629

0.586

0.576

0.566

0.548

0.539

0.531

AR(2)

0.628

0.587

0.577

0.567

0.549

0.540

0.532

AR(3)

0.611

0.585

0.597

0.574

0.564

0.560

0.554

Анализ разницы ошибок позволяет сделать следующие выводы:

Запрос «hh.ru» не релевантен для описания уровня безработицы в России: для каждой из 18 оцененных спецификаций качество прогнозов хуже, чем в рамках базовой модели.

Популярность запроса «headhunter» может быть использован как опережающий индикатор изменения уровня безработицы: о всех случаях добавление соответствующего регрессора приводит к улучшению прогнозной силы моделей. Наибольшей точности можно достигнуть включением пятого или шестого лага GI по запросу «headhunter».

Относительная частота запроса «SuperJob» аналогично предыдущему случаю позволяет повысить качество прогнозов безработицы и снизить величину ошибки.

Таблица 5Б Разница RMSE для запросов сайтов по поиску работы

Лаг GI

1

2

3

4

5

6

GI hh.ru

AR(1)

-0.075

-0.083

-0.092

-0.101

-0.096

-0.089

AR(2)

-0.072

-0.082

-0.090

-0.100

-0.095

-0.089

AR(3)

-0.056

-0.030

-0.068

-0.077

-0.073

-0.071

GI headhunter

AR(1)

0.059

0.070

0.082

0.100

0.108

0.116

AR(2)

0.056

0.067

0.080

0.098

0.106

0.114

AR(3)

0.037

0.020

0.049

0.061

0.064

0.070

GI Superjob

AR(1)

0.043

0.053

0.063

0.081

0.090

0.098

AR(2)

0.041

0.051

0.061

0.079

0.088

0.097

AR(3)

0.027

0.015

0.037

0.048

0.051

0.057

Вторая группа регрессоров условно соответствует поиску информации о государственной службе занятости.

Таблица 6А RMSE для запросов по поиску службы занятости

Лаг GI

-

1

2

3

4

5

6

GI биржа труда

AR(1)

0.629

0.592

0.586

0.580

0.570

0.563

0.558

AR(2)

0.628

0.593

0.587

0.581

0.570

0.564

0.558

AR(3)

0.611

0.588

0.600

0.584

0.578

0.576

0.573

GI служба занятости

AR(1)

0.629


Подобные документы

  • Создание модели анализа и прогнозирования социально-экономического развития Российских регионов методом главных компонент. Оценка основных экономических показателей региона. Формирование индикаторов устойчивого развития с использованием программы МИДАС.

    курсовая работа [969,1 K], добавлен 29.08.2015

  • Обзор основных инструментов, применяемых в прогнозировании. Характеристика базовых методов построения прогнозов социально-экономических систем при помощи программного обеспечения MS EXCEL. Особенности разработки прогнозных моделей на 2004, 2006 и 2009 гг.

    лабораторная работа [218,4 K], добавлен 04.12.2012

  • Методы исследования и моделирования социально-экономических систем. Этапы эконометрического моделирования и классификация эконометрических моделей. Задачи экономики и социологии труда как объект эконометрического моделирования и прогнозирования.

    курсовая работа [701,5 K], добавлен 14.05.2015

  • Структурная равноинтервальная группировка. Определение связи между численностью постоянного населения и потреблением продуктов на душу населения. Динамический ряд для характеристики изменения социально-экономических показателей по Псковскому району.

    контрольная работа [252,9 K], добавлен 07.03.2011

  • Методы социально-экономического прогнозирования. Статистические и экспертные методы прогнозирования. Проблемы применения методов прогнозирования в условиях риска. Современные компьютерные технологии прогнозирования. Виды рисков и управление ими.

    реферат [42,4 K], добавлен 08.01.2009

  • Основные понятия теории моделирования экономических систем и процессов. Методы статистического моделирования и прогнозирования. Построение баланса производства и распределение продукции предприятий с помощью балансового метода и модели Леонтьева.

    курсовая работа [1,5 M], добавлен 21.04.2013

  • Использование методов линейного программирования для целей оптимального распределения ресурсов. Методы математической статистики в экономических расчетах. Прогнозирование экономических показателей методом простого экспоненциального сглаживания.

    курсовая работа [976,0 K], добавлен 13.08.2010

  • Зависимость численности пользователей Интернет в конкретной стране от экономических показателей, таких как ВВП на душу населения, национальный доход на душу населения, количество пользовательских компьютеров, а также степень урбанизации населения.

    эссе [46,4 K], добавлен 27.03.2008

  • Сущность, содержание и цели экономического прогнозирования. Классификация и обзор базовых методов прогнозирования спроса. Основные показатели динамики экономических процессов. Моделирование сезонных колебаний при использовании фиктивных переменных.

    дипломная работа [372,5 K], добавлен 29.11.2014

  • Сущность социально-экономического прогнозирования. Роль сахара в жизни человека. Математический аппарат, используемый при прогнозировании потребления. Регрессионный анализ. Методы наименьших квадратов и моментов. Оценка качества моделей прогнозирования.

    курсовая работа [1,5 M], добавлен 26.11.2012

  • Применение метода аналитической группировки при оценке показателей розничного товарооборота. Определение эмпирического корреляционного отношения, издержек обращения и товарооборота с помощью уравнения линейной регрессии метода математической статистики.

    контрольная работа [316,4 K], добавлен 31.10.2009

  • Анализа циклического поведения нелинейных динамических экономических систем. Периоды экономических циклов. Признаки кризиса и катастроф в поведении системы. Результаты моделирования с производственным лагом и сроком службы. Начальный дефицит товара.

    лабораторная работа [982,3 K], добавлен 22.12.2012

  • Оценка среднего значения выручки по кварталам на примере ОАО "РуссНефть". Оценка моды, медианы, абсолютных и относительных показателей. Построение тренда на 3 периода вперед. Анализ колеблемости и экспоненциальное сглаживание динамического ряда.

    курсовая работа [1,4 M], добавлен 18.04.2011

  • Предмет, метод, показатели статистики. Понятия и категории статистического наблюдения. Показатели вариации, абсолютные и относительные величины, графический и индексный методы. Взаимосвязь социально-экономических явлений. Сглаживание рядов динамики.

    курс лекций [132,9 K], добавлен 23.02.2009

  • Статистические методы прогнозирования и их роль в экономической практике. Классификация экономических прогнозов. Требования, предъявляемые к временным рядам, и их компонентный состав. Сопоставимость уровней ряда и допустимая длина временных рядов.

    контрольная работа [1,2 M], добавлен 13.08.2010

  • Ряды основных технико-экономических показателей. Расчет валового объема продукции цепным и базисным способом. Численность промышленно-производственного персонала. Стоимость основных производственных фондов. Прогнозирование развития динамических рядов.

    курсовая работа [54,7 K], добавлен 15.11.2013

  • Характеристики и свойства условно-гауссовской модели ARCH для прогнозирования волатильности стоимости ценных бумаг. Акции предприятия на рынке ЦБ. Оценка параметров модели ARCH для прогнозирования их доходности методом максимального правдоподобия.

    курсовая работа [161,5 K], добавлен 19.07.2014

  • Правила построения экономико-математической модели влияния технико-экономических показателей работы предприятия на фондоотдачу. Проверка отсутствия мультиколлинеарности. Расчет коэффициента автокорреляции. Построение модели в стандартизированном виде.

    контрольная работа [193,1 K], добавлен 18.11.2010

  • Особенности торговли на фондовом рынке. Крупнейшие эмитенты российского рынка акций. Влияние мирового финансового кризиса 2008-2009 гг. на его деятельность. Особенности применения индикаторов технического анализа и эконометрического прогнозирования.

    дипломная работа [758,3 K], добавлен 27.09.2012

  • Теория математического анализа моделей экономики. Сущность и необходимость моделей исследования систем управления в экономике и основные направления их применения. Выявление количественных взаимосвязей и закономерностей в социально-экономической системе.

    курсовая работа [366,0 K], добавлен 27.09.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.