Прогнозирование социально-экономических индикаторов с использованием статистики поисковых систем
Описание поисковых систем как источника информации о поведении пользователей всемирной паутины. Оценка релевантности частоты запросов по поиску работы в системе Google для прогнозирования социально-экономических показателей РФ на примере безработицы.
Рубрика | Экономико-математическое моделирование |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 20.08.2020 |
Размер файла | 5,4 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
5
«НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ
«ВЫСШАЯ ШКОЛА ЭКОНОМИКИ»
Факультет экономики
МАГИСТЕРСКАЯ ДИССЕРТАЦИЯ
Тема «Прогнозирование социально-экономических индикаторов с использованием статистики поисковых систем»
по основной профессиональной образовательной программе высшего образования - программы магистратуры «Экономика» направления подготовки 38.04.01«Экономика»
Угарова Татьяна Игоревна
Руководитель
д-р ф.-м. наук, проф.
А.М. Силаев
Оглавление
Введение
Глава 1. Статистика поисковых систем
Описание поисковых систем
GoogleTrends
Yandex Wordstat
Обзор литературы
Коммерческие исследования статистики Google Trends
Экономические исследования статистики Googletrends
Глава 2 Исследование безработицы России с помощью GoogleTrends
Описание данных
Статистика по безработице в России
Статистика интенсивности поиска работы в Google.
Методология исследования
Оценивание моделей
Сравнение моделей
Проверка робастности
Глава 3 Эмпирически оценки качества моделей безработицы
Анализ прогнозной силы запросов по поиску работы
Оценивание моделей методом скользящего окна
Анализ предсказательной силы альтернативных запросов
Прогнозная сила статистики Google для регионов России
Заключение
Литература
Введение
В последнее десятилетие наблюдается бурное развитие цифровых технологий. Этот процесс сопровождается накоплением больших массивов информации, характеризующих поведение, потребности и интересы людей в виртуальном пространстве. Данные сведения широко используются в коммерческих целях для продвижения товаров и услуг целевой аудитории, для изменения ассортимента в соответствии с потребностями покупателей.
Исследователи разных стран также проявили интерес к статистике поисковых систем и предприняли попытку использовать её в научных целях. Результаты различных исследованийTobias Preis, Daniel Reith and H. Eugene Stanley. Complexdynamicsofoureconomiclifeondifferentscales: insights from search engine query data (англ.) // Philosophical Transactions of the Royal Society A (англ.)русск. : journal. - 2010. - Vol. 368. - P. 5707-5719. - doi:10.1098/rsta.2010.0284. показывают, что с помощью информации о популярности определенных поисковых запросов можно прогнозировать индикаторы экономической активности населения.
Однако, к настоящему времени исследования социально-экономических показателей России с применением статистики интернет запросов не обрели высокую популярность. В связи с этим возникает необходимость изучения связи статистики поисковых систем и официально публикуемых социально-экономических индикаторов как для России в целом, так и для российских регионов.
Цель настоящей работы - оценить релевантность частоты запросов по поиску работы в системе Google для прогнозирования социально-экономических показателей России на примере безработицы.
Из цели работы становится очевидным объект исследования: российская статистика поисковых систем. Предметом изучения становится феномен поиска работы в сети интернет.
В ходе изучения проблемы реализованы следующие этапы работы:
· Собрана статистика по запросам в Google за 15 лет по ключевым словам «вакансия», «работа» и по альтернативным словам, связанным с поиском работы, а также официальная статистика по безработице.
· Оценены авторегрессионные модели и расширенные модели с использованием лагированных переменных, связанных с поиском работы в Google.
· Рассчитаны прогнозы по набору моделей и получены результаты, подтверждающие высокую точность моделей с использованием данных по запросам в сети интернет для прогнозирования безработицы.
· Протестирована робастность результатов к изменению набора регрессоров (ключевых слов) к изменению выборки методом скользящего окна.
· Модели апробируются как на общероссийских данных, так и на региональном уровне для каждого субъекта Российской Федерации.
Структура исследования соответствует этапам выполнения работы.
В первой главе описаны поисковые системы как основной источник информации о поведении пользователей всемирной паутины. Изучены данные, связанные с поиском работы через интернет. Эта информация сопоставляется с официальной статистикой по безработице.
Во второй главе подробна описана методология моделирования и прогнозирования безработицы в России с помощью информации системы GoogleTrends.
В третьей главе приводится регрессионный анализ и результаты прогнозирования безработицы посредством статистики поисковых систем. В заключении подведены итоги исследования.
Настоящая работа базируется на исследовании, посвященном прогнозированию безработицы в США с помощью запросов в Google по поиску работыFrancesco D'Amuri, JuriMaccruci, The Predictive Power of Google Searches in Forecasting US Unemployment, Bank of Italy, 2017.. Авторы этого исследования проводят многостороннюю проверку гипотезы о предшествовании всплеска популярности запросов по поиску работы официально фиксируемой безработице и началу экономической рецессии.
Методология настоящего исследования во многом заимствована из вышеупомянутого труда. При этом научная новизна настоящей работы заключается в изучении российских данных.
Практическая ценность исследования состоит в том, что она демонстрирует релевантность баз данных поисковых систем для прогнозирования социально-экономической статистики в России. Это особенно значимо в условиях, когда официальная статистика публикуется с некоторым временным лагом, а решения по макроэкономической политике должны приниматься с учетом, как текущей ситуации, так и возможных сценариев и прогнозов на ближайшее будущее.
поисковая система экономический показатель безработица
Глава 1. Статистика поисковых систем
Базы данных поисковых систем
GoogleTrends
GoogleTrends является публичным приложением корпорации Google, которое показывает, как интенсивно пользователи поисковой системы запрашивают определенный терминпо отношению к общему объему поисковых запросов за указанный промежуток времени.
В системе доступна статистика с 2004 года. Могут быть представлены ежемесячные, еженедельные и ежедневные оценки интенсивности поиска, вСистема анализа поисковых запросов работает уже достаточно давно. 5 августа 2008 года Google запустил GoogleInsightsforSearch, более сложную и передовую службу отображения тенденций поиска, которая в 2012 году была объединена с GoogleTrends.
GoogleTrends также позволяет пользователю сравнивать объем поисковых запросов по двум или более поисковым фразам. Дополнительная особенность GoogleTrends заключается в его способности отображать новости, связанные с поисковыми фразами, накладывая их на график, который показывает, как новые события влияют на поисковую популярность.
Инструменты Googletrends были разработаны для мониторинга популярности сайтов, товаров, услуг. Однако исследователи адаптировали статистическую информацию и для научных целей.
Джереми Гинсбергпредоставили доказательства того, что данные GoogleTrends могут быть использованы для отслеживания заболеваемости гриппом среди населения.Jeremy Ginsberg, Matthew H. Mohebbi, Rajan S. Patel, Lynnette Brammer, Mark S. Smolinski and Larry Brilliant. Detecting influenza epidemics using search engine query data (англ.) // Nature : journal. -- 2009. -- Vol. 457. -- P. 1012--1014. -- doi:10.1038/nature07634. По словам автора, может быть представлена еженедельная оценка интенсивности распространения гриппа, поскольку относительная частота запросов, связанных с поиском способов лечения, «health-seekingbehaviour», в значительной мере связана с процентом посещений врача, при котором у пациента обнаруживаются симптомы гриппа.
Тобиасом Прейсом было показано, что существует корреляция между данными GoogleTrends по названию компаний и объему соответствующих биржевых сделок на еженедельном масштабе времени Tobias Preis, Daniel Reith and H. Eugene Stanley. Complex dynamics of our economic life on different scales: insights from search engine query data (англ.) // Philosophical Transactions of the Royal Society A (англ.)русск. : journal. -- 2010. -- Vol. 368. -- P. 5707--5719. -- doi:10.1098/rsta.2010.0284..
GoogleHotTrends является дополнением к GoogleTrends, которое отображает 20 лучших, «горячих», то есть с наиболее быстрым ростом, поисковых запросов за последний час в Соединенных Штатах.[5] Для каждого из поисковых терминов, он обеспечивает 24-часовой график объема поисковых запросов, а также записей блогов, новостей и результатов поиска в Интернете. HotTrends имеет функцию отображения истории для желающих просмотреть прошлые «горячие» поисковые запросы. HotTrends также могут быть установлены как гаджет iGoogle.
YandexWordstat
YandexWordstat - это бесплатный интернет-сервис статистики поисковых запросов, которые пользователи вводят в Яндекс. Приложение является рабочим инструментом для маркетологов, владельцев бизнеса. Позволяет оценивать уровень пользовательского интереса к различным тематикам и выявлять наиболее популярные ниши бизнеса, а также проверять сезонность и географию ключевых фраз.
Используя сервис, можно узнать абсолютное и относительное число запросов по теме в поисковой системе. По умолчанию, отображается общее количество запросов, путем настройки параметров можно фильтровать результаты по региону запроса, по типу устройства с которого производился поиск.
Яндекс представляет для публичного пользования ежемесячную или еженедельную статистику о популярности запросов за период не более чем два года. Это существенно снижает возможности использования инструментов поисковой системы Яндекс для ретроспективного анализа.
Обзор литературы
Статистика поисковых систем достаточно широко к настоящему времени используется исследователями для изучения и прогнозирования социально-экономических показателей.
Коммерческие исследования статистики GoogleTrends
Наиболее ранние исследования прогнозной силы поисковых запросов проводились сотрудниками корпорации GoogleChoi&VarianTrends Hyunyoung Choi Hal Varian Predicting the Present with Google Trends / Hyunyoung Choi Hal Varian // Google Inc, 2005 с целью оценить релевантность статистики GoogleTrends для описания спроса потребителей на товары и услуги разных отраслей.
На примере автомобильной отрасли ученые показали, что статистика запросов в категории автомобили марки Форд позволяет улучшить прогноз объема продаж автомобилей соответствующей марки. Также выявлена высокая корреляция между интенсивностью запросов по поиску мотоциклов и грузовых автомобилей и фактическим объемом продаж в соответствующих категориях.
Также исследователи предприняли попытку прогнозирования объема продаж на рынке недвижимости в США с применением статистики запросов в категории недвижимость. Ученые показали, что индекс Google, отражающий популярность запроса имеет высокую корреляцию с фактическим количеством сделок по продаже домов в США.
Еще исследователи привели пример того, как статистика Google может использоваться в туристической отрасли. Ученые провели сравнение частоты запросов с названиями стран USA, Canada, Britain, Germany, France и др. с числом поездок в соответствующем направлении.
В целом исследователи показали, что статистика Googletrends может использоваться в ряде отраслей экономики для прогнозирования потребительского спроса и объема продаж.
Экономические исследованиястатистикиGoogletrends
Идею исследования статистики поисковых систем для оценивания социально-экономических показателей развили итальянские исследователи FasuloetAlAndrea Fasulo Google Trends for Noewcasting Quarterly Houshold Consumption Expenditure / Andrea Fasulo, AlessioGuandalini, Marco D. Terribili // RivistaItaliana di EconomiaDemografia e Statistica. - Vol. LXXI. - №.4, 2017. Авторы использовали информацию ресурса GoogleTrends для прогнозирования квартальных данных о потребительских расходах домохозяйств в Италии. В качестве базовой модели в работе оценена интегрированная авторегрессионная модель (ARIMA). Альтернативные модели дополнены данными GoogleTrends, а также официальной статистикой. Авторы обнаружили, что коэффициент при переменной GoogleTrends значим, а модель с использованием такого регрессора превосходит по качеству подгонки базовую модель и все альтернативные.
Канадские ученые предприняли попытку использовать статистику поисковых запросов для прогнозирования экономической рецессииGreg Tkacz Predicting Recessions in Real-Time: Mining Google Trends and Electronic Payments Data for Clues / Greg Tkacz // Institute C.D. HOWE Institute Commentary № 387, 2013 . В ходе исследования была собрана информация по запросам «recession» и «job». Ученые обнаружили, что увеличение популярности выбранных запросов на два-три месяца предвосхищает начало экономического спада в 2009 году, фиксируемого официальной статистикой.
Достаточно популярное направление исследований с применением статистики GoogleTrends - прогнозирование безработицыBetsey Stevenson The Internet and Job Search / Betsey Stevenson // NBER Working Paper Series. - Working Paper 13886 Cambridge, 2008 [электронныйресурс] URL: http://www.nber.org/papers/w1388 (датаобращения: 03.02.2020).. Например, D'Amuri, MarcucciFrancesco D'Amuri and JuriMarcucci “Google it!” Forecasting the US Unemployment Rate with a Google Job Search Index / Francesco D'Amuri and JuriMarcucci //Nota di Lavoro, Bank of Italy. - №31, 2010 написали несколько работ, посвященных изучению прогнозной силы запросов в Google для предсказания безработицы в США.
В исследовании проводится сравнение качества прогнозов базовой авторегрессионной модели и регрессий с использованием статистики поисковой системы Google. Для сравнения моделей используются такие критерии как RMSE и QRMSE - корень среднеквадратичной ошибки и накопленная ошибка соответственно. Авторы демонстрируют превосходство прогнозов моделей, в которые задействована информация о поиске работы в интернете.
Ученые проводят многостороннюю проверку робастности результатов. В частности, для оценивания регрессий используется метод скользящего окна. Это требуется для поиска периодов, когда информация Google обеспечивает наилучшие результаты. Обнаружено, что всплеск активности по поиску работы в интернете предшествует спаду в экономике и росту безработицы, которая фиксируется официальной статистикой.
Также проводится регрессионный анализ в региональном разрезе. Обнаружено, что для большинства штатов использование статистики Google позволяет улучшить качество прогнозов безработицы. Наличие регионов, где статистика Google оказывается бесполезной, исследователи связывают с недостаточным развитием сети интернет в отдельных штатах.
Изучается чувствительность результатов к выбору ключевых слов, характеризующих интенсивность поиска работы. Для США наилучшим индикатором становится частота запросов со словом «Job».
Помимо этого, проводится тест на «фальсификацию». Исследователи подобрали словосочетание, связанное со словом «работа», но никак не связанное с процессом трудоустройства. На английском языке запрос «job» созвучен с именем SteveJobs. Проведен регрессионный анализ, который показывает, что запросы «SteveJobs» не улучшает качества прогнозов уровня безработицы, в то время, как статистика по запросу «job» справляется с этой задачей. Это позволяет доказать, что статистика позволяет отделить запросы, связанные с трудоустройством, от посторонней информации и оценить интенсивность поиска работы даже при внешней схожести разных запросов. Результатом работы ученных стал индекс интенсивности поиск работы в сети, как опережающий индикатор уровня безработицы в США.
Глава 2 Исследование безработицы России с помощью GoogleTrends
Описание данных
Статистика по безработице в России
Для исследования безработицы в России, использованы данные, публикуемые Федеральной Службой государственной статистики. Для изучения выбран показатель ««Ууровень безработицы (по методологии МОТ)».Согласно описанию , выбранный расчетный показатель - это отношение численности безработных определенной возрастной группы к численности рабочей силы соответствующей возрастной группы, рассчитанное в процентах. Данные получены по материалам выборочных обследований рабочей силы. С 2017 года обследованию подлежат лица в возрасте от 15 лет и старше (до 2017 года - лица в возрасте 15-72 лет).
Для выбранной переменной доступны данные, как в агрегированном виде, для Российской Федерации в целом, так и в разрезе регионов. Для Российской Федерации доступны ежемесячные данные. Для регионов годовая статистика доступна с 2000 года, ежеквартальная - с 2010.
Рисунок 1. Уровень безработицы в Российской Федерации, SA
К исходным данным был применен алгоритм сезонного сглаживания seasonaladjustment x13 в Eviews, поскольку показатель подвержен цикличным колебаниям.
Для региональных данных была изменена частотность. Квартальные данные переведены в ежемесячные путем заполнения пропусков средними значениями.
Статистика интенсивности поиска работы в Google.
Для изучения интенсивности поиска работы в сети интернет использованы две переменные: относительная частота запросов со словами «работа» и «вакансия» в Google.
Статистическая система рассчитывает показатель как отношение числа запросов с указанным словом к общему числу запросов за определенный период времени. Для наглядности и сопоставимости в момент времени, когда относительная частота была максимальной, значение относительной частоты принимается за 10 условных единиц. Остальные наблюдения нормируются относительно этого значения.
Рисунок 2.Относительная частота запросов “работа”
Источник: GoogleTrendshttps://trends.google.ru/trends/
Рисунок 3. Относительная частота запросов «вакансия»
Источник: GoogleTrends, расчеты автора
Описательная статистика приведена в приложении 1.
Для исследования альтернативных слов, связанных с поиском работы выбраны запросы с названиями популярных сайтов с подборками вакансий: «SuberJob» «HeadHunter» «hh.ru», а также возможные варианты запросов- обращений в государственные службы занятости: «биржа труда», «служба занятости», «центр занятости».
Рисунок 4. Популярность запросов сайтов по поиску работы
Источник: GoogleTrends, расчеты автора
Рисунок 5 Популярность запросов по поиску службы занятости
Источник: GoogleTrends, расчеты автора
Для выбранных ключевых слов собраны данные за 15 лет с 2004 по 2019 год для Российской Федерации в целом, а для слов «работа», «вакансия», «курсовая», «диплом» и в разрезе регионов. Данные также очищены от сезонных колебаний с помощью алгоритма seasonaladjustment X13.
Методология исследования
Оценивание моделей
Для прогнозирования уровня безработицы оценено два типа моделей - авторегрессионные модели и модели авторегрессии с лагированными экзогенными переменными. Все спецификации оценены на данных за период с 2013 по 2018 г.г. Сравнение качества моделей проводилось на выборке за 2018-2019 г.г.
Авторегрессионная модель безработицы:
Для оценивания параметров авторегрессии использовано следующее уравнение (формула 1):
- прогноз уровня безработицы на h месяцев вперёд,
- постоянное слагаемое,
- авторегрессия безработицы, до трех лагов.
Модель безработицы с внешними лагированными регрессорами:
Альтернативой авторегрессионной модели для оценки безработицы является использование дополнительной информации: статистики поисковых систем. Модифицированное регрессионное уравнение имеет вид (формула 2)
- прогноз уровня безработицы на h месяцев вперёд,
- постоянное слагаемое,
- авторегрессия безработицы с одним лагом,
- лагированные объясняющие переменные
В качестве экзогенного регрессора , описывающего интенсивность поиска работы используется число запросов по одному из ключевых слов: «работа» и «вакансия». Ожидается, что использование слов «работа», вакансия», позволит улучшить прогноз безработицы.
Сравнение моделей
Для сравнения качества моделей используется показатель - RootMeanSquaredError(формула 3).
Смысл показателя - среднее отклонение прогноза от фактического уровня безработицы. RMSE = 0.1 имеет следующую интерпретацию: прогноз безработицы отклоняется от фактического уровня безработицы в соответствующий период на 0.1.п.п.
Сравнение точности прогнозов позволяет ответить на поставленные ранее исследовательские вопросы:
Содержится ли дополнительная полезная информация в статистике поисковых систем?
Опережает ли статистика поисковых систем по поиску работы официальную статистику?
Если такое опережение существует, то на сколько периодов?
Проверка робастности
Для исследования устойчивости результатов используется методология предложенная FrancescoD'Amuri. Francesco D'Amuri, JuriMaccruci, The Predictive Power of Google Searches in Forecasting US Unemployment, Bank of Italy, 2017.
Изучение безработицы на региональном уровне
Помимо изучения общероссийской безработицы проводится регрессионный анализ данных на региональном уровне.
На первом этапе для каждого из 85 регионов России оценивается набор базовых авторегрессионных моделей, соответствующих уравнению … Для каждой модели рассчитан предложенный критерий качества подгонки.
Аналогичным образом оцениваются модели с регрессором, характеризующим интенсивность поиска работы, частота запросов «работа» или «вакансия». Рассчитаны ошибки для каждой из этих моделей.
Далее по формуле 4для удобства сравнения рассчитана разница ошибки прогноза между базовой моделью и соответствующей по числу лагов моделью с регрессором.
где
- разница ошибок,
- величина ошибки в базовой модели,
- величина ошибки альтернативной модели.
Положительная разница свидетельствует о том, что ошибки базовой модели выше, а модель с использованием статистики поисковых систем улучшает прогноз.
Оценивание моделей методом скользящего окна
Для оценивания робастности результатов также применяется алгоритм движущегося окна.
Были оценены модели авторегрессии с одним лагом и модели, дополненные регрессором, на подвыборке длинною в пять лет, начиная с января 2010 года. Рассчитаны прогнозы и ошибки по методологии описанной выше. Вычислена разница между ошибками базовой и альтернативной модели.
Далее подвыборка сдвигается на 3 точки вперед, (на 1 квартал), производится повторная оценка моделей и вычисление ошибок прогноза. Процедура позволяет оценить, как величина ошибок и точность прогноза зависит от момента оценивания модели.периода. Оценивание ошибок методом скользящего окна позволяет понять, помогают ли прогнозы моделей с использованием статистики поисковых систем предсказывать точки разворота безработицы.
Тестирование чувствительности к выбору ключевых слов
Для тестирования устойчивости к выбору ключевых слов собрана дополнительная статистика: относительная частота запросов по словам, которые пользователи сети могут набирать при поиске работы.
Сделано предположение, что для поиска работы заинтересованное лицо может запрашивать сайты с подборками вакансий, коммерческие сервисы трудоустройства или информацию о государственной службе занятости. Поэтому, в качестве альтернативных слов, которые служат индикаторами поиска работы, выбраны следующие запросы: «hh.ru», «headhunter», «Superjob», «биржа труда», «служба занятости», «центр занятости».
Для данных слов оценены регрессии по формуле 2. Сделаны прогнозы и рассчитаны ошибки. Регрессии оценены также методом скользящего окна, для того чтобы отследить, как менялась во времени популярность каждого запроса и его предсказательная сила.
Глава 3 Эмпирически оценки качества моделей безработицы
Анализ прогнозной силы запросов по поиску работы
Результаты оценивания размера ошибок и разницы ошибок альтернативной и базовой модели представлены в таблицах.
Модели авторегрессии и модели, дополненные статистикой GoogleTrends по частоте запроса «работа», были оценены на длинной и короткой подвыборке.
В таблице 1А- величина ошибки RMSE для моделей авторегрессии и моделей с запросом «работа» взятых с разным лагом. Модель оценена на «короткой» подвыборке с 2013 года по 2017. Прогноз рассчитан на 2018 и год и первый квартал 2019 года. В таблице 1Б - разница между величиной ошибок базовой и соответствующей расширенной модели.
Таблица 1А RMSE моделей «короткой» выборки с GI«работа»
лаг GIЗдесь и далее GI - GoogleIndex,относительная частота поисковых запросов\\ работа |
- |
1 |
2 |
3 |
4 |
5 |
6 |
|
AR(1) |
0.609 |
0.542 |
0.549 |
0.563 |
0.577 |
0.579 |
0.585 |
|
AR(2) |
0.608 |
0.543 |
0.549 |
0.563 |
0.578 |
0.580 |
0.585 |
|
AR(3) |
0.587 |
0.532 |
0.536 |
0.554 |
0.578 |
0.584 |
0.572 |
Таблица 1Б РазницаRMSE моделей «короткой» выборки с GI «работа»
лаг GIработа |
1 |
2 |
3 |
4 |
5 |
6 |
|
AR(1) |
0.066 |
0.059 |
0.046 |
0.031 |
0.029 |
0.024 |
|
AR(2) |
0.065 |
0.058 |
0.045 |
0.030 |
0.028 |
0.023 |
|
AR(3) |
0.055 |
0.051 |
0.033 |
0.009 |
0.003 |
0.015 |
При включении любого лага популярности запросов Google от первого до шестого обеспечивает уменьшение ошибки и повышению точности прогноза. Для авторегрессии любого порядка наилучший результат достигается при включении первого лага.
Рисунок 6 Улучшения прогноза моделей«короткой» выборки с GI«работа»
Источник: Расчеты автора.
Далее рассмотрена удлиненная выборка. Оценка проводится на данных за 2010-2017 год, прогноз рассчитан на 2018 год - I квартал 2019 года.
Таблица 2А RMSE моделей «удлиненной» выборки с GI «работа»
Лаг GI работа |
- |
1 |
2 |
3 |
4 |
5 |
6 |
|
AR(1) |
0.464 |
0.462 |
0.479 |
0.421 |
0.518 |
0.440 |
0.440 |
|
AR(2) |
0.427 |
0.424 |
0.430 |
0.384 |
0.480 |
0.402 |
0.393 |
|
AR(3) |
0.361 |
0.317 |
0.373 |
0.286 |
0.401 |
0.289 |
0.342 |
Аналогичным образом рассчитана разница ошибок прогноза.
Таблица 2Б Разница RMSE моделей «удлиненной» выборки с GI «работа»
Лаг GI работа |
1 |
2 |
3 |
4 |
5 |
6 |
|
AR(1) |
0.002 |
-0.014 |
0.043 |
-0.054 |
0.025 |
0.024 |
|
AR(2) |
0.003 |
-0.003 |
0.043 |
-0.053 |
0.025 |
0.033 |
|
AR(3) |
0.044 |
-0.012 |
0.075 |
-0.041 |
0.072 |
0.019 |
Для подвыборки 2010-2017 года наибольшее улучшение прогноза обеспечивает включение третьего лага. Например, в модели авторегрессии первого или второго порядка добавление третьего лага дает улучшение точности прогноза на 0.043п.п. В модели AR(3) улучшение достигает 0.075п.п.
Рисунок 7 Улучшения прогноза моделей«удлиненной» выборки GI«работа»
Источник: Расчеты автора.
Однако оценивание моделей на удлиненной выборке вызывает ухудшение некоторых прогнозов. Например, модели с использованием статистики о запросах по поиску работа отстоящие на четыре месяца ухудшают качество прогнозов. Этому явлению можно предложить некоторое объяснение. В более ранние периоды использование сети интернет не было так развито, как в настоящее время. По этой причине статистика об относительной частоте запросов подвержена большей волатильности. Это может повлиять на качество прогнозов.
Предположение о причинах изменения качества моделей проверяется при оценке регрессий с использованием еще более ранних данных о безработице и относительной частоте запросов в Google.
Модели повторно оценены на подвыборке с 2004 по 2017 г.г. Прогнозы и ошибки рассчитаны на 2018 - первый квартал 2019 г.г.
Таблица 3А RMSE моделей «длинной» выборки с GI «работа»
Лаг GI работа |
- |
1 |
2 |
3 |
4 |
5 |
6 |
|
AR(1) |
0.575 |
0.516 |
0.631 |
0.495 |
0.577 |
0.583 |
0.541 |
|
AR(2) |
0.540 |
0.506 |
0.639 |
0.489 |
0.533 |
0.546 |
0.503 |
|
AR(3) |
0.465 |
0.342 |
0.561 |
0.387 |
0.466 |
0.453 |
0.424 |
Использование данных с начала 2004 года привело к еще более выраженному изменению в разнице ошибок прогноза. Например, включение первого лага статистики Google по слову «работа» в модели первого порядка привело к уменьшению ошибки на 0.123, что на порядок выше, чем в предыдущих случаях. С другой стороны, еще более выраженным стало ухудшение прогноза моделей с включение второго лага частоты интернет-запросов. Например, ошибка выросла на 0.099 в модели второго порядка и на 0.096 в авторегрессии третьего порядка.
Таблица 3Б РазницаRMSE моделей «длинной» выборки с GI «работа»
Лаг GI работа |
1 |
2 |
3 |
4 |
5 |
6 |
|
AR(1) |
0.060 |
-0.055 |
0.081 |
-0.002 |
-0.008 |
0.034 |
|
AR(2) |
0.034 |
-0.099 |
0.051 |
0.007 |
-0.007 |
0.037 |
|
AR(3) |
0.123 |
-0.096 |
0.078 |
-0.001 |
0.012 |
0.040 |
Рисунок 8 Улучшения прогноза моделей«длинной» выборки GI«работа»
Источник: Расчеты автора.
Полученные результаты позволяют сделать ряд выводов.
Статистика Google по запросу «работа» действительно в ряде случаев помогает повысить точность прогнозов безработицы.
Наибольшее улучшение обеспечивает включение информации о первом или третье лаге запросов по слову «работа». Данный результат устойчив к изменению длины выборки при оценивании регрессий.
Альтернативным словом для поиска работы является запрос «вакансия». С использованием статистики по этому запросу также оценивается ряд моделей и рассчитываются ошибки прогноза. Оценка проводится на данных за 2013-2017г.г Прогноз и критерий точности RMSE рассчитан на 2018 - I квартал 2019г.г
Таблица 4А RMSE моделей «короткой» выборки с GI«вакансия»
Лаг GI вакансия |
- |
1 |
2 |
3 |
4 |
5 |
6 |
|
AR(1) |
0.609 |
0.565 |
0.546 |
0.588 |
0.588 |
0.556 |
0.515 |
|
AR(2) |
0.608 |
0.551 |
0.536 |
0.583 |
0.585 |
0.544 |
0.494 |
|
AR(3) |
0.587 |
0.512 |
0.494 |
0.566 |
0.549 |
0.532 |
0.463 |
Положительная разница ошибок между базовой и расширенными моделями демонстрирует преимущества, которые обеспечивает использование статистики поисковых систем.
Таблица 4БРазница RMSE моделей «короткой» выборки с GI«вакансия»
Лаг GI вакансия |
1 |
2 |
3 |
4 |
5 |
6 |
|
AR(1) |
0.0437 |
0.0627 |
0.0200 |
0.0210 |
0.0528 |
0.0933 |
|
AR(2) |
0.0563 |
0.0712 |
0.0242 |
0.0231 |
0.0636 |
0.1137 |
|
AR(3) |
0.0753 |
0.0932 |
0.0215 |
0.0384 |
0.0551 |
0.1240 |
При оценивании регрессионных моделей на короткой выборке выявлено, что статистика позапроса «вакансия» также достаточно хорошо позволяет прогнозировать безработицу. Статистика по запросу «вакансия» обеспечивает даже большее преимущество, чем GI по запросу «работа».
Рисунок 9 Улучшения прогноза моделей«короткой» выборки GI«вакансия»
Источник: Расчеты автора.
Наиболее точные прогнозы можно получить, используя интернет-статистику месячной, двухмесячной и полугодовалой давности. При включении дынных об интенсивности запросов «вакансия» с лагом 6 месяцев обеспечивает улучшение прогнозов на 0.09-0.12п.п в моделях от первого до третьего порядка авторегрессии включительно.
Возможно следующее интуитивное объяснение: вероятно запрос «вакансия» используют соискатели с более высоким образованием/квалификацией. Более естественна формулировка «вакансия экономиста», чем «вакансия грузчика». Также вероятно процесс увольнения/трудоустройства таких специалистов требует больше времени, поэтому они начинают искать работу заранее, еще не будучи уволенным. Поэтому и в статистике изменения сведений о занятости таких работников появляются значительно позднее, чем они начинают фактически искать работу. Это предположение, однако, требует дополнительной проверки, которая выходит за рамки настоящего исследования.
Оценивание моделей методом скользящего окна
Для оценивания ошибок методом скользящего окна был применен алгоритм, описанный в разделе методология. Аналогично предыдущим случаям была вычислена разница ошибок между базовой моделью AR(1) и расширенными моделями. График показывает, как меняется проигрыш/ выигрыш в зависимости от периода оценивания и прогнозирования.
Временная ось показывает начало периода длительностью 1 год, для которого рассчитан прогноз и соответствующие ошибки. Оценивалась каждая модель на данных за пять лет, предшествующих точке начала периода прогнозирования.
Разница ошибок колеблется около нулевой отметки. Наибольший провал в точности прогнозов, рассчитанных на второе полугодие 2013 - первое полугодие 2014 года. Эти модели оценивались на данных, содержащих сведения о динамик запросов во время рецессии 2009-2010 г.г. и восстановительного периода. Можно предположить, процессы порождающие данные в периоды спада и подъема, разные: поведение экономических агентов в кризис отличается от обычной модели поведения. Следовательно, статистика о поведении экономических агентов в кризис оказывается мало полезной для прогнозирования относительно спокойных периодов.
Рисунок 10 Динамика разницыRMSE длямоделей с GI «работа»
Источник: Расчеты автора.
За исключением 2013-2014 года, выигрыш в точности обеспечивает модель с добавлением регрессора GI «работа» (-3). Модель и использование третьего лага (зеленая линия), оцененная на данных предкризисного периода 2004-2008г.г. обеспечивает достаточно точные прогнозы безработицы в период развития экономического кризиса в 2009 году. Это позволяет заключить, что рост популярности запросов связанных с поиском работы действительно опережает официальную статистику по росту безработицы в среднем на три месяца.
Аналогичная процедура оценки моделей для скользящей выборки был применена и для статистики по запросу «вакансия». Результаты оценивания графически отображены на рисунке …. Можно сделать общее замечание, что GI по запросу «вакансия» приводит к снижению точности прогноза в 2014 году и 2016-2017г.г.
Рисунок 10 Динамика разницыRMSE длямоделей с GI«вакансия»
Источник: Расчеты автора.
Можно заключить, что качество прогноза зависит периода оценки/прогнозирования. Природа и свойства такой зависимости не изучаются в настоящей работе, но могут быть предметом дальнейших исследований. Можно только предположить, что в периоды снижения точности менялась модель поведения экономических агентов при поиске работы.
Анализ предсказательной силы альтернативных запросов
Альтернативная оценка моделей проводится по набору слов «hh.ru», «HeadHunter», «Superjob», «биржа труда», «служба занятости», «центр занятости». Оценка проводится на данных с 2013 по 2017г.г. Прогноз рассчитан на 2018 - апрель 2019 г.г.
Первая группа запросов характеризует интенсивность поиска работы непосредственно в пространстве сети интернет на сайтах с подборками вакансий.
Таблица 5А RMSE для запросов сайтов по поиску работы
Лаг GI |
- |
1 |
2 |
3 |
4 |
5 |
6 |
|
GI hh.ru |
||||||||
AR(1) |
0.629 |
0.704 |
0.712 |
0.721 |
0.730 |
0.725 |
0.718 |
|
AR(2) |
0.628 |
0.700 |
0.710 |
0.718 |
0.729 |
0.724 |
0.717 |
|
AR(3) |
0.611 |
0.667 |
0.641 |
0.679 |
0.688 |
0.684 |
0.682 |
|
GI headhunter |
||||||||
AR(1) |
0.629 |
0.570 |
0.559 |
0.547 |
0.529 |
0.521 |
0.513 |
|
AR(2) |
0.628 |
0.573 |
0.561 |
0.549 |
0.531 |
0.522 |
0.514 |
|
AR(3) |
0.611 |
0.574 |
0.591 |
0.562 |
0.550 |
0.547 |
0.542 |
|
GI Superjob |
||||||||
AR(1) |
0.629 |
0.586 |
0.576 |
0.566 |
0.548 |
0.539 |
0.531 |
|
AR(2) |
0.628 |
0.587 |
0.577 |
0.567 |
0.549 |
0.540 |
0.532 |
|
AR(3) |
0.611 |
0.585 |
0.597 |
0.574 |
0.564 |
0.560 |
0.554 |
Анализ разницы ошибок позволяет сделать следующие выводы:
Запрос «hh.ru» не релевантен для описания уровня безработицы в России: для каждой из 18 оцененных спецификаций качество прогнозов хуже, чем в рамках базовой модели.
Популярность запроса «headhunter» может быть использован как опережающий индикатор изменения уровня безработицы: о всех случаях добавление соответствующего регрессора приводит к улучшению прогнозной силы моделей. Наибольшей точности можно достигнуть включением пятого или шестого лага GI по запросу «headhunter».
Относительная частота запроса «SuperJob» аналогично предыдущему случаю позволяет повысить качество прогнозов безработицы и снизить величину ошибки.
Таблица 5Б Разница RMSE для запросов сайтов по поиску работы
Лаг GI |
1 |
2 |
3 |
4 |
5 |
6 |
|
GI hh.ru |
|||||||
AR(1) |
-0.075 |
-0.083 |
-0.092 |
-0.101 |
-0.096 |
-0.089 |
|
AR(2) |
-0.072 |
-0.082 |
-0.090 |
-0.100 |
-0.095 |
-0.089 |
|
AR(3) |
-0.056 |
-0.030 |
-0.068 |
-0.077 |
-0.073 |
-0.071 |
|
GI headhunter |
|||||||
AR(1) |
0.059 |
0.070 |
0.082 |
0.100 |
0.108 |
0.116 |
|
AR(2) |
0.056 |
0.067 |
0.080 |
0.098 |
0.106 |
0.114 |
|
AR(3) |
0.037 |
0.020 |
0.049 |
0.061 |
0.064 |
0.070 |
|
GI Superjob |
|||||||
AR(1) |
0.043 |
0.053 |
0.063 |
0.081 |
0.090 |
0.098 |
|
AR(2) |
0.041 |
0.051 |
0.061 |
0.079 |
0.088 |
0.097 |
|
AR(3) |
0.027 |
0.015 |
0.037 |
0.048 |
0.051 |
0.057 |
Вторая группа регрессоров условно соответствует поиску информации о государственной службе занятости.
Таблица 6А RMSE для запросов по поиску службы занятости
Лаг GI |
- |
1 |
2 |
3 |
4 |
5 |
6 |
|
GI биржа труда |
||||||||
AR(1) |
0.629 |
0.592 |
0.586 |
0.580 |
0.570 |
0.563 |
0.558 |
|
AR(2) |
0.628 |
0.593 |
0.587 |
0.581 |
0.570 |
0.564 |
0.558 |
|
AR(3) |
0.611 |
0.588 |
0.600 |
0.584 |
0.578 |
0.576 |
0.573 |
|
GI служба занятости |
||||||||
AR(1) |
0.629 |
Подобные документы
|