Восстановление истинной динамики поисковых запросов из данных googletrends и улучшение параметров соответствующих моделей
Комплексное исследование инструмента Google Trends, показывающего динамику популярности поисковых запросов в интернете и используемого для прогнозирования разных социально-экономических показателей. Наличие нестационарного множителя в данных GoogleTrends.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 25.09.2018 |
Размер файла | 18,2 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru//
Размещено на http://www.allbest.ru//
Восстановление истинной динамики поисковых запросов из данных googletrends и улучшение параметров соответствующих моделей
Аннотация
Статья посвящена комплексному исследованию инструмента GoogleTrends, показывающего динамику популярности поисковых запросов в интернете и используемого для прогнозирования различных социально-экономических показателей.Показаны наличие нестационарного множителя в данных GoogleTrends, алгоритм его расчета и порядок применения для корректирования данных GoogleTrends. Доказано, что использование скорректированных данных приводит к увеличению качества моделей.
Ключевые слова: GoogleTrends, поисковые запросы, интернет
google trends поисковый запрос
Abstract
This studyincludes a comprehensive study of the Google Trends tool. We show theexistence of a non-stationary component in Google Trends data. We provide the algorithm to calculate that component and to adjust it to Google Trends data.We demonstrate negative influence of discovered component on quality of models, which use Google Trends as predictor.
Key words: Google Trends, search queries, internet
Сегодня поисковые системы публикуют в открытом доступе информацию о популярности практически любого поискового запроса, что открывает новые возможности для своевременной оценки и прогнозирования социально-экономических показателей. Так, для изучения динамики популярности запросов в поисковой системе Google, используется инструмент GoogleTrends.
Изучение данного инструмента началось с момента его появления. Ряд исследователей из разных стран доказали возможность использования GoogleTrends для предсказания вспышек эпидемий гриппа [1], прогнозирования ставки безработицы, спроса на автомобили, инфляции, оборота розничной торговли [2],[3], результаты референдумов [4] и многих других процессов.
GoogleTrends является одним из наиболее популярных инструментов для исследования поведения пользователей интернета и прогнозирования. GoogleTrends- это инструмент анализа динамики поисковых запросов, разработанный и предоставляемый компанией GoogleInc. [5]
GoogleTrends предоставляет данные в виде временных рядов, характеризующих динамику популярности того или иного запроса или группы запросов в поисковой системе Google. Каждое значение ряда рассчитывается как доля поисковых запросов по заданной ключевой фразе к общему числу поисковых запросов в указанном регионе. Данные нормализованы: наибольшее значение в указанном периоде приравнено к 100%. [5]. Все данные доступны за период от 1 января 2004 года, однако методика сбора данных с 1 января 2011 года изменилась.
Согласно описанию GoogleTrends, каждую точку на графике можно представить следующим образом:
(1) |
Где:
Xt значение,выдаваемое сервисом GoogleTrendsза период t;
ДYt- доля запросов по заданному ключевому слову от общего числа запросов в поисковой системе Googleза период t;
ДYmax - максимальное значение ДYt за весь период наблюдений.
Раскроем показатели ДYt и ДYmax:
(2) |
Где Zt - общее количество запросов в системе Googleза период t, а k-номер периода, в которомДYt = ДYmax. Заметим, чтоYk не всегда равноYmax, так как значение Ymax зависит от двух переменных. Дальнейшее преобразование приведет нас к следующему равенству:
(3) |
Из уравнения (3) следует, что данные GoogleTrends содержат непостоянный множитель Gmt = Zk / Zt.
Динамика Zk и Zt совпадает с динамикой посещаемости поисковой системы Google в данном регионе. Посещаемость Googleв России оценивает и публикует компания TNS. [6]
Тест KPSS[7] указывает на нестационарность рядов Zt и Gmt. Таким образом, использование данных GoogleTrendsбез удаления множителя Gmtприведет к смещенным оценкам. Случаи построения моделей с удалением множителя Gmt автору неизвестны.
Докажем это на примере:
Используются ежемесячные данные пассажирооборота общественного транспорта [8] (Yt) и динамики популярности поисковых запросов по ключевым фразам «Билет на самолет + авиабилет + авиаперелет», «Отпуск», «Купить билет» в России [5](X it), а также ежемесячные данные посещаемости поисковой системы Googleдля расчета множителя Gmt.[6]
Для получения корректных оценок значения Yt были нормированы на максимальное значение Y't = Yt / Ymax. Для X it были рассчитаны множители Gm it и получены модифицированные временные ряды X' it. Было проверено, что временные ряды Y't, X itX' itявляются интегрированными первого порядка.
Была рассчитана парная коинтеграционная регрессия между зависимой переменной Y't и каждой из объясняющих переменных X it,X' it на различных лагах. Значения F и tстатистик при оценке коинтеграции не рассматриваются. Наилучшего результата удалось добиться на первом лаге, что говорит об опережающем характере объясняющих временных рядов. Коэффициенты регрессии и описательные статистики отражены в Таблице 1.
Таблица 1. Параметры коинтеграционной регрессии и описательные статистики
Исходные ряды |
Скорректированные ряды |
||||||||
Ключевая фраза |
1 |
2 |
3 |
4 |
1 |
2 |
3 |
4 |
|
R2 |
0,50 |
0,37 |
0,14 |
0,26 |
0,69 |
0,50 |
0,17 |
0,43 |
|
KPSS - статистика |
1,35 |
1,15 |
0,25 |
0,89 |
1,37 |
1,25 |
0,13 |
1,15 |
|
Значимость KPSS статистики |
0,01 |
0,01 |
0,10 |
0,01 |
0,01 |
0,01 |
0,10 |
0,01 |
Из значений KPSS-статистики следует, что как исходная, так и модифицированная динамика запросов по ключевым фразам 1, 2 и 4 коинтегрирована с нормированным пассажирооборотом в России. Динамику запросов по ключевой фразе «Отпуск» нельзя назвать коинтегрированной с Y't, так как уровень значимости KPSS-теста остатков превышает критическое значение 0,1. Таким образом, наличие связи между динамикой поисковых запросов ключевым фразам 1, 2 и 4 с пассажирооборотом доказано.
При переходе от исходной динамики X itк скорректированной на Gmt наблюдается рост коэффициента коинтеграционной детерминации, что доказывает существование Gmtи говорит о его верной оценке.
Литература
1. Polgreen, P.M., Chen, Y., Pennock, D.M., Nelson, F.D. Using Internet Searches for Influenza Surveillance // Clinical Infectious Diseases, 47, 1443-8, 2008 г.
2. Борочкин А.А. Использование статистики поисковых запросов в сети интернет для краткосрочного прогнозирования макроэкономических переменных // Деньги и Кредит № 8, 2013 г.
3. Nich McLaren, Rachana Shanbhoge. Using internet search data as economic indicators // Bank of England Quarterly Bulletin. June 2011.
4. Amaryllis Mavragani, Konstantinos P. Tsagarakis YES or NO: Predicting the 2015 GReferendum results using Google Trends // Technological Forecasting and Social Change Том 109, Стр. 1-5, 2016 г.
5. Справка по инструменту GoogleTrends // [Электронный ресурс]. Режим доступа: https://support.google.com/trends/answer/4365533?hl=ru&ref_topic=6248052
6. Данные о посещаемости крупнейших интернет-ресурсов // TNS [Электронный ресурс]. Режим доступа: http://mediascope.net/services/media/media-audience/internet/information/?arrFilter_pf[YEAR]=2017&set_filter=Y
7. Kwiatkowski, D.; Phillips, P. C. B.; Schmidt, P.; Shin, Y. Testing the null hypothesis of stationarity against the alternative of a unit root // Journal of Econometrics. №54 (1-3), стр. 159-178. 1992
8. Мониторинг социально-экономического развития
Размещено на Allbest.ru
...Подобные документы
Анализ возможностей поисковых систем Яндекс и Google, их сравнение с точки зрения полезности. История создания поисковых систем, характеристика их интерфейса, поисковых инструментов и алгоритмов. Формирование вопроса и критерий к ответу на него.
реферат [30,0 K], добавлен 07.05.2011Изучение классификации поисковых средств по В.В. Дудихину. Поиск информации с помощью поисковых ресурсов. Формирование запросов. Использование ключевых слов. Индексация документов, размещенных на различных серверах. Зарубежные лидеры поисковых систем.
презентация [775,3 K], добавлен 10.03.2015Обработка распределенных данных и запросов. Многопотоковые и многосерверные архитектуры. Основные типы параллелелизма при обработке запросов. Структура компонентов поддержки удаленного доступа. Доступ к базам данных в двухзвенных моделях клиент-сервер.
презентация [123,1 K], добавлен 19.08.2013Краткая история развития поисковых систем. Обзор мировых и российских поисковых систем: Google, Yahoo, Baidu, Yandex, Rambler, Апорт, Mail.ru. Текстовый процессор Microsoft Word. Табличный редактор Excel. Организация рабочего места оператора ЭВМ.
курсовая работа [66,3 K], добавлен 20.12.2008Теоретические сведения и основные понятия баз данных. Системы управления базами данных: состав, структура, безопасность, режимы работы, объекты. Работа с базами данных в OpenOffice.Org BASE: создание таблиц, связей, запросов с помощью мастера запросов.
курсовая работа [3,2 M], добавлен 28.04.2011Рассмотрение поисковых систем интернета как программно-аппаратного комплекса с веб-интерфейсом, предоставляющего возможность поиска информации. Виды поисковых систем: Archie, Wandex, Aliweb, WebCrawler, AltaVista, Yahoo!, Google, Яндекс, Bing и Rambler.
реферат [24,3 K], добавлен 10.05.2013Понятие и основное содержание баз данных. Разновидности информационных моделей. Этапы практического создания нормализованной базы данных средствами Microsoft Access. Использование маски ввода, создание запросов для выдачи соответствующих справок.
контрольная работа [553,8 K], добавлен 03.03.2015Понятие запросов как объектов СУБД Access, предназначенных для отбора данных и удовлетворяющих заданным условиям. Основные виды запросов: простой, перекрестный, с параметром, группировкой, вычисляемым полем. Отличия запросов-действий от других запросов.
контрольная работа [2,9 M], добавлен 29.06.2015Понятие и классификация поисковых систем, история их развития и структурные элементы. Характеристика существующих моделей поиска, анализ его качества. Особенности обработки запроса поисковой системой, подготовки базы данных и процесса выдачи результатов.
курсовая работа [2,6 M], добавлен 15.04.2014Хранение данных в сети Internet. Гипертекстовые документы, виды файлов. Графические файлы, их виды и особенности. Поисковые системы и правила поиска информации. Обзор поисковых систем сети Internet. Все о поисковых системах Yandex, Google, Rambler.
курсовая работа [918,3 K], добавлен 26.03.2011Построение информационно-логической модели базы данных. Корректировка данных средствами запросов. Проектирование алгоритмов обработки данных. Реализация пользовательского интерфейса средствами форм. Разработка запросов для корректировки и выборки данных.
курсовая работа [680,9 K], добавлен 19.10.2010Информация о поисковых системах, принцип их работы. Первая поисковая система в мире. Рейтинг самых популярных поисковых систем. Измерение популярности поисковых систем среди интернет-пользователей. Эффективная работа с разными поисковыми системами.
творческая работа [2,2 M], добавлен 21.06.2023Организация хранения данных. Система управления базами данных. Поиск информации, обзор существующих поисковых систем. Особенности работы поискового движка. Использование индексов в поисковых системах. Особенности поиска различных видов информации.
курсовая работа [4,6 M], добавлен 14.05.2014Контекстная реклама как основная статья дохода поисковых систем-лидеров. Понятие цены клика. Формирование цены на основе частот запросов (на примере поисковой системы Рамблер). Основные поисковые системы на российском рынке, перспективы их развития.
творческая работа [373,4 K], добавлен 07.04.2009Авторизация с каталогами проектирования базы данных магазина. Задачи базы данных: учет всех товаров, поиск и выдача данных о клиентах, адрес, телефоны, цена и наличие товара. Этапы проектирования базы данных. Схема данных, создание запросов и их формы.
реферат [1,6 M], добавлен 22.10.2009Виды запросов в информационной системе. Модель выдачи информации по каждому из сотрудников. Сбор данных о поставках корма, животных, потомстве и совместимости видов. Основные параметры структуры таблиц и схем данных. Создание запросов, отчетов и форм.
курсовая работа [1,1 M], добавлен 15.05.2014Создание визуального построителя запросов на извлечение данных с помощью оператора SELECT и его разделов. Постановка задачи; язык запросов SQL, общие сведения; агрегатные функции и результаты запросов. Программная реализация и алгоритм работы приложения.
курсовая работа [152,8 K], добавлен 12.08.2011Разработка структуры базы данных в приложении Access. Создание запросов. Создание отчета для эффективного представления данных в печатном формате. Панель элементов, используемых при создании формы. Обработка данных с помощью языка запросов в SQL.
курсовая работа [1,7 M], добавлен 09.05.2012Работа с хранящейся в базах данных информацией. Язык описания данных и язык манипулирования данными. Распространение стандартизованных языков. Структурированный язык запросов SQL. Язык запросов по образцу QBE. Применение основных операторов языка.
презентация [76,2 K], добавлен 14.10.2013История развития поисковых систем, особенности механизма поиска. Сравнительный обзор справочно-поисковых систем Интернета. Понятие поисковых роботов. Наиболее популярные поисковики для русскоязычного пользователя. Перспективы развития поисковых систем.
реферат [64,0 K], добавлен 20.12.2012