Исследование динамики цен на фондовом рынке посредвом анализа временных рядов Twitter

Основы анализа зависимости временных рядов и тональности текста, линейные и нелинейные методы. Формы гипотезы эффективного рынка. Методы анализа тональности записей Twitter, кросскорреляционный и кросс-рекуррентный анализ. Характеристика сервисов.

Рубрика Экономика и экономическая теория
Вид дипломная работа
Язык русский
Дата добавления 04.12.2019
Размер файла 7,3 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕВЫСШЕГО ОБРАЗОВАНИЯ

«НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ

«ВЫСШАЯ ШКОЛА ЭКОНОМИКИ»

Факультет бизнеса и менеджмента
Выпускная квалификационная работа
Исследование динамики цен на фондовом рынке посредвом анализа временных рядов Twitter
по направлению подготовки 38.03.05 Бизнес-информатика
образовательная программа «Бизнес-Информатика»
Меркушина Мария
Москва 2019

Оглавление

  • Введение
  • ГЛАВА 1. ТЕОРЕТИЧЕСКИЕ ОСНОВЫ
    • Гипотеза эффективного рынка
    • Обзор современных исследований
    • Теоретические основы анализа тональности текста
    • Теоретические основы анализа зависимости временных рядов
      • Линейные методы
      • Нелинейные методы
  • ГЛАВА 2. МЕТОДЫ ИССЛЕДОВАНИЯ
    • Общее описание работы
    • Методы сбора данных
      • Сбор данных Twitter
      • Сбор финансовых данных
    • Методы анализа тональности записей Twitter
    • Методы анализа зависимости временных рядов
      • Кросскорреляционный анализ
      • Кросс-рекуррентный анализ
  • ГЛАВА 3. РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ
    • Boeing
    • Procter&Gamble
  • Заключение
  • Список литературы

Введение

Опыт мировой экономики наглядно показывает, что не только государственный бюджет и банковская система поддерживают устойчивое развитиестраны, но и еще один механизм распределения денежных потоков - фондовый рынок. Вкладывая деньги, акционеры ожидают получения среднего дохода на конкретном рынке, поэтому чистая прибыль фирмы может быть потрачена на ее дальнейшее развитие. Именно поэтому инвестиции в фондовый рынок могут способствовать экономическому росту бизнеса и страны в целом.

В настоящее время фондовый рынок - очень быстро меняющаяся, живаясистема, где почти все документы хранятся в базах данных, а операции могут быть выполнены за считанные секунды. Доступность современных фондовых рынков привлекает множество трейдеров, которые заинтересованы в получении прибыли. Вследствие этого вопрос о моделировании и прогнозировании изменений на фондовом рынке стоит очень остро.

  • Согласно гипотезе эффективного рынка[4], цена акций отражает всю информацию, доступную для трейдеров, поэтому, на мой взгляд, невозможно предсказать ее изменения на основе предыдущих данных о ценах. С другой стороны, новая информация может оказать реальное влияние на цены акций, поэтому, если будут обнаружены некоторые зависимости между новой информацией и котировками, появится возможность прогнозировать их динамику. Данное исследование использует данные Twitter в качестве источника новой информации для дальнейшего анализа динамики цен на фондовом рынке. тональность текст сервис twitter
    • Существует несколько исследовательских работ, использующих похожий подход к прогнозированию финансовых временных рядов[6], [7], [9], [10], [11]: авторы используют открытые источники информации, такие как данные новостных агентств, финансовых сообществ в сети, GoogleTrends,Twitter, однако в этих исследованиях используется небольшой набор методов для идентификации зависимости. В частности, нелинейные методыанализа зависимости в них не используются. Как известно, одним из ключевых факторов, влияющих на котировки акций компании, является репутация компании. Любые новости, события, способные повлиять на мнение инвесторов о фирме, могут кардинально изменить уровень цен на фондовом рынке. Этот факт стал решающим при выборе исследуемой области: источник информации для прогнозирования динамики цен на фондовом рынке должен быть популярным среди пользователей, должен отражать их мнение о той или иной компании, кроме того,вся информация должна появляться в источнике достаточно быстро. Таким образом, мнение о компании в социальной сети Twitter стало основным источником информации для исследования зависимостей путем применения линейных и нелинейных методов анализа.
    • Данное исследование описывает поиск и анализ зависимостей между мнением о компании в социальной сети Twitter, представленном в виде временного ряда, и динамикой цен на акции компании посредством линейных и нелинейных методов анализа зависимости.
    • Для достижения цели исследования необходимо понять, существует ли какая-либо зависимость между данными Twitter и изменениями цен на акции. Кроме того, предлагаемое исследование проверяет, есть ли временной лаг между изменениями данных Twitter и динамикой цен на акции. Наконец, если есть какое-либо опережение данных Twitterво времени, его следует сравнить с тем, которое было обнаружено в других исследованиях. Иными словами, исследование должно определить, появляется ли новая релевантная информация в Twitter раньше, чем в других источниках[11].
    • В рамках исследования был проведен причинно-следственный анализ данных Twitter и динамики цен на фондовом рынке с использованием линейных и нелинейных методов. Данные социальной сети Twitterбыли собраны с помощью поиска по ключевым словам и проанализированы на предмет наличия позитивного или негативного мнения с использованием методов обработки естественного языка. После этого данные Twitter были преобразованы во временные ряды, для которых анализ причинно-следственных связей с финансовыми временными рядами.
    • Описываемоеисследование может иметь первостепенное значение для финансовых аналитиков в коммерческих и инвестиционных банках, руководителей государственных финансовых институтов, трейдеров. Во-первых, полученные данные могут помочь финансистам взглянуть на фондовый рынок с новой точки зрения. Что касается трейдеров, эта работа может помочь им найти новый источник скрытой информации, который поможет предсказать изменения фондового рынка раньше, чем это сделают другие.
    • Кроме того, в рамках данного исследованиябыла использована новая техника анализа причинно-следственных связей в финансовой области: кросс-рекуррентный количественный анализ (cross-recurrencequantificationanalysis)ранее не использовался для финансового анализа. Тем не менее, он идеально подходит для выявления нелинейной корреляции ивременного лага между двумя временными рядами.

ГЛАВА 1. ТЕОРЕТИЧЕСКИЕ ОСНОВЫ

Гипотеза эффективного рынка

Современная история технического анализа берет начало в исследовании Юджина Фама[4], [5]. Егостатья «Efficient Capital Markets: Review of Theory and Empirical Work» (1970) предлагаетгипотезуэффективногорынка. Согласно этой теории, цены акций в конкретный момент времени отражают всю информацию, доступную для трейдеров, и, по мере появления новой информации, цены акций отражают эти изменения. Эта теория стала основой для многих исследований, в том числе описываемого в настоящий момент.

Гипотеза эффективного рынка, по Юджину Фаме, имеет три формы: слабая, средняя и сильная. Наглядное различие между формами и местоположение данного исследования в терминах теории представлено на Рисунке 1.

Рисунок 1. Формы гипотезы эффективного рынка

Формы гипотезы эффективного рынка отличаются, прежде всего, информацией, которая может быть использована в качестве источника для технического анализа. Согласно слабой форме, информация, которую отражают котировки на фондовом рынке, представляется собой лишь данные о предыдущих показателях цен.Базируясь на этом утверждении, многие трейдеры с появлением онлайн-трейдинга стали использовать различные методы технического анализа для прогнозирования ситуации на рынке ценных бумаг. Этот метод исследования подразумевает выполнение трех основных аксиом технического анализа[22]:

1) Движение цен на рынке учитывает всю информацию, то есть все необходимый политические, социально-экономические, репутационные идругие факторы уже учтены в показателях цен на акции. Иными словами, достаточно лишь анализировать котировки и объемы торгов для прогнозирования ситуации на рынке.

2) Движение цен подчинено тенденциям, то есть даже если в отдельные изменения цены имеют случайный характер, совокупность изменений котировок имеет общее направление - тренд.Тренд конечен, однако в пределах некоторого периода вероятность продолжения тренда выше, чем его смена.

3) История повторяется - поведение участников рынка не меняется со временем, что означает возможность применения графических моделей для прогнозирования динамики цен (паттернов).

Однако, существует достаточное количество критики в адрес применения технического анализа и слабой формы гипотезы эффективного рынка[23]. Основная претензия состоит в том, что при анализе данных лишь о предыдущих характеристиках рынка теряется возможность незамедлительного реагирования на вновь происходящие события.

Преимуществом следующей формы гипотезы эффективного рынка - средней - является то, что она, в отличие от предыдущей формы, подразумевает использованиене только данных о предыдущих состояниях рынка, но и данных всех публичных источников информации. Таким образом, появляется возможность незамедлительно учитывать всю доступную ситуацию на мировом рынке.

На мой взгляд, технический анализ является хорошей основой для алгоритмов онлайн-трейдинга. Действительно, мгновенное открытие позиций по достаточно простому алгоритму, базирующемуся на предыдущих показателях цен и объема рынка, может принести прибыль при постоянной работе. Однако, действительно крупный доход можно получить, по моему мнению, только при «игре в долгую», то есть при тщательно обдуманных, стратегических решениях на покупку акций. Анализ публичных источников информации - лучший способ для проработки стратегии «игры в долгую». Прекрасным примером этой точки зрения является опыт Уоррена Баффета - одного из самых известных в мире бизнесменов и инвесторов. Он использовал методы фундаментального анализа для выбора компании для инвестиций.

Фундаментальный анализ подразумевает использование информации о финансовых и производственных показателях фирмыиз открытых источников для оценки динамики цен на акции этой фирмы. Большинство инвесторов используют именно эту разновидность анализа для распределения своих финансовых средств.

Говорить о третьей форме гипотезы эффективного рынка почти не приходится, так как использование приватной информации для торговли на фондовом рынке в большинстве стран преследуется по закону.

Таким образом, применение средней формы гипотезы эффективного рынка для анализа динамики цен на акции оставляется множество открытых вопросов, таких как: выбор источника данных, выбор метода анализа публичных данных.Далее, будут рассмотреныисследовательские работы современных авторов с целью общего понимания тенденций развития анализа публичных источников информации с целью прогнозирования финансовых показателей на фондовом рынке.

Обзор современных исследований

Самая большая проблема применения теории Юджина Фамасостоит в поиске такого источника информации, который был бы репрезентативным и анализируемым. Конечно, анализ публичной информации о компании вручную, может принести наилучшие результаты, однако этот процесс может оказаться очень ресурсозатратным. Во время колоссального развития компьютерных технологий появляется возможность автоматизировать анализ практически любого вида информации от цифровой до визуальной или текстовой. Многие исследователи фондового рынка столкнулись с проблемой поиска релевантного источника данных, по этой причинепоявилось множество примечательных способов организации данных для прогнозирования фондового рынка.

Проведенное Тобиасом Прейсом исследование «Quantifying Trading Behavior in Financial Markets Using Google Trends» (2013)[6] предлагает использование количества поисковых запросов в Google по экономической тематике в качестве источника данных для прогнозирования цен акций компаний, формирующих DJIA. Промышленный индекс Доу-Джонса (DJIA)-масштабируемое среднее цен на акции 30 крупнейших компанийСША. Автор исследования пробовал множество разных комбинаций поисковых терминов, но лучшая стратегия заключалась в том, чтобы посчитать количество поисковых запросов Google словом «dept» («долг»). Этот метод увеличил стоимость портфеля на 326%, в то время как обычная стратегия покупки и удержания дала только 16%. Результаты использований этих стратегий проиллюстрированы на Рисунке 2.

Рисунок 2. Совокупная эффективность инвестиционной стратегии на основе данных Google Trends.

Автор объясняет свои результаты тем, что периоды беспокойства предшествуют тенденциям покупки или продажина рынке ценных бумаг. В эти периоды трейдеры начинают искать какие-либо новости или другую информацию, в основном используя Google.В результатеизменения в цене акций фирм, формирующих DJIA, могут быть идентифицированы заранее, что дает несомненное преимущество при торговле на фондовом рынке.

Еще одно исследование на эту тему было опубликовано Хелен Сюзанной Моат и Тобиасом Прейсомпод названием «Quantifying Wikipedia Usage Patterns Before Stock Market Moves» (2013)[7]. Это исследование предлагает использование количества просмотров статей Википедии на финансовые темы для прогнозирования цен на акции. Сравнительные показатели выбранной ими стратегии представлены на Рисунке 3.

Рисунок 3. Сравнительные показатели доходности инвестиционной стратегии на основе данных Wikipedia.

В результате авторы исследования обнаружили, что прибыль от использования инвестиционной стратегии, основанной на количестве просмотров страниц Wikipedia на финансовые тематики, значительно выше, чем прибыль от торговли по стратегии покупки и удержания. Однако разница была значительной не во всем периоде исследования: между исследуемой и базовой стратегиями, по данным за период с 2009 по 2010 год, почти нет различий. Объяснение результата данного исследования связано с предыдущим: люди пытаются найти как можно больше информации в сети Интернет, прежде чем принимать решение о покупке или продаже акций. По этой причине, также, анализ данных, предоставляемых Wikipedia в открытом доступе, может стать конкурентным преимуществом при торговле на фондовом рынке.

Еще один способ прогнозирования изменений на фондовом рынке, который становится популярным в настоящее время -анализ текстовых данных. АрманХаджеНассируссивстатье «Textminingformarketprediction: Asystematicreview» (2014) [8]разъясняетособенности использованияэтого метода. По сути, анализ текста для прогнозирования на фондовом рынке представляет собой сочетание различных дисциплин: лингвистика, поведенческая экономика и машинное обучение. Данные для такого рода исследований - огромный текстовый корпус из статей, новостей, сообщений на форумах или статей в социальных сетях. Например, Майкл Хагенау использовал ежедневные новости в сфере экономики и финансов для прогнозирования динамики цен. Точность такого подхода была неплохой - 65% прогнозов о повышении или понижении цены оказались верными. Торговая стратегия, созданная на основе анализа ежедневных новостей работала с временным лагом в один день. Иными словами, потребовался один день, чтобы новости отразились на ценах акций.

Другое исследование, в котором используется тот же подход к прогнозированию динамики цен на фондовом рынке, было предложено Рамиро Галвезом в 2016 году[10]. Гипотеза его исследования заключалась в том, что текстовые данные с финансового форума должны повысить качество прогнозирования в стандартных моделях. В ходе исследования он дополнил обычные модели, прогнозирующие цены на основе индикаторов технического анализа, данными, собранными из публикаций в сообществе онлайн-трейдеров. В результате исследования гипотеза подтвердилась, показатели качества обогащенной модели были выше практически для всех рассматриваемых ценных бумаг, однако разница в точности была не велика.

После широкого обзора литературы становится ясно, что в финансовом анализе наблюдается тенденция к дополнению базовых моделей, использующих индикаторы технического анализа, внешними данными, часто даже неструктурированными (текстовыми). Этот огромный массив данных помогает исследователям определить, как рынок отреагирует на появление новой информации заранее.

Теоретические основы анализа тональности текста

Проанализировав большое количество современных исследований по данной тематике, я пришла к выводу о том, что одним из самых перспективных вариантов решения поставленной задачи является анализ текстовых данных.

Анализ тональности текста[15] - одна из наиболее обсуждаемых задач машинного обучения в области обработки естественного языка на данный момент. Эта задача заключается в переводе текстовых данных в векторную или скалярную величину, отражающую мнение, настроение автора на описываемую им тему. В общем случае эта задача относится к типу задач классификации текста -присвоению тексту метки определенного класса: позитивного или негативного, объективного или субъективного и других.При разделении объектов на классы, модели машинного обучения зачастую просчитывают вероятность попадания объекта в той или иной класс, таким образом, на выходе есть возможность получить не только категориальные признаки, но числовые значения, которые будут отражать, к примеру, степень объективности или субъективности рассматриваемого текста.

Перед тем как перейти к основным стадиям анализа тональности текста стоит определиться с понятием «мнение» в целом. Текстовые данные могут быть разделены на две группы: факты и мнения, фактам присуща объективность утверждения, мнения же, наоборот, выражают эмоции автора, его отношение к описываемому объекту. Таким образом, задачей машинного обучения в рамках данной темы является полярная классификация мнений (polarityclassification).

Базовая схема работы по анализу тональности текста представлена на Рисунке 4.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Рисунок 4. Основные стадии анализа тональности текста

Первым этапом анализа являетсяпредобработка текста - разбиение текста на структурные единицы, или токенизация. В самом простом случае разбить текст на токены можно посредством разделения его на отдельные слова, словом, в этом случае будет считаться любой участок текста, отделенный от других пробелами. Однако, в данном случае, одинаковые слова могут быть определеныкак разные из-за наличия пунктуационных символов и других знаков. Поэтому перед разделением текста на токены необходимо убрать из текста пунктуационные символы (если они не важные для анализа), преобразовать все символы в нижний регистр, убрать из текста цифры.

Также, сложности могут возникнуть с обработкой разных форм одного и того же слова. Для этого должен быть произведен стемминг текста, то есть приведение структурных единиц текста к начальное форме или выделение основы слова. На самом деле, стемминг является также одной из задач машинного обучения: некоторые модели показывают неплохое качество стемминга, в особенности для слов английского языка. Кроме того, в процессе очистки текста может быть использована проверка на стоп-слова (stopwords): те слова, которые включены в этот список будут удалены из текста, так как не помогают в определении эмоциональной составляющей текста.

Все же, методы машинного обучения могут обрабатывать только числовые данные, поэтому следующим этапом анализа тональности текста является выбор атрибутов и преобразование текста в набор векторов. Базовые методы предлагают рассматривать текст как набор слов, или «мешок слов» («bagofwords»). Иными словами, текст выступает при классификации объектом анализа, а его составляющие - слова, или токены -его атрибутами. Тогда значение каждого атрибута для рассматриваемого текста будет показывать, сколько раз встречается данныйтокен (атрибут) в данном тексте (объекте). Таким образом, количество атрибутов для каждого объекта будет одинаковым и равняться количеству уникальных слов во всех объектах анализа (текстах). К примеру, для анализа тональности двух предложений текста, потребуется разделить их на следующие токены:

Я люблю учиться. А еще я люблю читать книги.

1: [любить, учиться]

2: [любить, читать, книги]

любить

учиться

читать

книги

1

1

1

0

0

2

1

0

1

1

Схема 1. Пример токенизации и выделения атрибутов текста

Вышеописанный пример показывает, в первую очередь, предварительно очищение текста от стоп-слов («я», «а», «еще»). Также, проиллюстрирован результат стемминга текста и выделение атрибутов текста. В результате имеется матрица «объекты-признаки», где каждый объект представлен вектором, что делает возможным применение методов машинного обучения к данным.

Проиллюстрированный подход структуризациитекста - метод «мешка слов» - является лишь базовым методом, который не учитывает множество факторов, таких как: наличие в тексте устойчивых словосочетаний (в данном случае, токеном будет являться всегда только одно слово), важность порядка слов в предложении. Этот базовый подход может быть расширен использованием дополнительных методов для выделения устойчивых словосочетаний или скрытых тем текста, однако не всегда в таких задачах дополнительные усилия дают значимый прирост качества классификации.

После выделения объектов и признаков для анализа начинается этап обучения модели, то есть поиска алгоритма, который будет выделять группы позитивных и негативных мнений наиболее правильно, то есть с наименьшей ошибкой. Иными словами, на данном этапе происходит решение задачи оптимизации: минимизируется функция ошибки алгоритма, переменными которой являются коэффициенты при переменных в основной функции алгоритма. Алгоритм, выполнивший классификацию с наименьшей ошибкой, станет базовым алгоритмом, который будет применяться к вновь пришедшим входным данным.

Таким образом, в результате выполнения вышеописанных шагов может быть создана модель машинного обучения, классифицирующая тексты на негативные и позитивные по их эмоциональной окраске.

Теоретические основы анализа зависимости временных рядов

Линейные методы

Кросскорреляционный анализ[24] является инструментом, наиболее часто используемым при анализе нескольких временных рядов. Он является обобщением стандартного линейного корреляционного анализа и позволяется определить степень зависимости временных рядов друг от друга, а также временной лаг, при котором зависимость выражена наиболее сильно.

Ограничениями применения кросскорреляционного анализа являются:

1) Ограничение на размер данных: количество объектов ряда должно превышать количество признаков в 5-6 раз, тогда по «закону больших чисел» случайные малые отклонения уравновешивают друг друга.

2) Нормальное распределение (или многомерное нормальное распределение) рассматриваемых переменных.

3) Однородность совокупности значений.

Во-первых, для первичной оценки зависимости временных рядов нужно оценить коэффициент корреляции между ними. К примеру, коэффициент линейной корреляции Пирсона:

(1)

Далее, производятся сдвиги рядов относительно друг друга и для каждой величины временного лага рассчитывается выбранный коэффициент корреляции.

В общем виде кросскорреляционную функциюдля стохастических процессов Xи Yв период времени между t1и t2 для стохастических процессов можно записать как:

(2)

где E - оператор математического ожидания.

Таким образом, в результате проведения кросскорреляционного анализа могут быть оценены две величины:значение коэффициента корреляции (максимальное из рассчитанных) и временной лаг, то есть сдвиг, соответствующий максимальному значению корреляции. Эти величины позволяют определить степени схожести временных рядов, а возможность прогнозирования одного ряда по значениям первого.

Нелинейные методы

При анализе временных рядов также часто используются нелинейные методы исследования.Это становится возможным из-за фрактальности структуры временных рядов[25]. Фрактал представляет собой самоподобное множество, похожие свойства наблюдаются и у временных рядов (Рисунок

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Рисунок 5. Самоподобие временных рядов

Свойство фрактальности временного ряда лучше всего проиллюстрировать на примере. Допустим, имеется почасовые данные о цене на акции какой-либо компании. Две соседние временные отметки на графике ряда будут соединены прямой, но это совершенно не значит того, что цена в течение часа изменялась линейно. Если данные дополнятся ежеминутными показателями цены акции, то те две отметки будут соединены хаотичной ломаной. Таким образом, каждый участок временного ряда подобен целому, что говорит о фрактальности его структуры.

При анализе поведения системы в большинстве случаев нет возможности измерить абсолютно все ее характеристики, чаще всего система представленная в виде изменения во времени одной ее переменной - временного ряда. Однако, даже одного измерения часто бывает достаточно для понимания динамики системы в целом. По значениям временного ряда можно вычислить фазовую траекторию всей системы с помощью теоремы Такенса[26]:

(3)

где m - размерность вложения, - временной лаг.Таким образом, по теореме рекуррентности (Пуанкаре, 1890)[25]: если система сводит свою динамику к ограниченному подмножеству фазового пространства, то система почти наверняка, то есть с вероятностью, практически равной 1, сколь угодно близко возвращается к какому-либо изначально заданному режиму.

Это означает, что динамическая система становится предсказуемой, появляется возможность ее прогнозировать.

Аналогом кросскорреляционного анализа в области нелинейной науки является кросс-рекуррентный анализ (cross-recurrencequantificationanalysis). Он также позволяет оценить зависимость между двумя временными рядами, а также временной лаг, при котором эта зависимость максимальна.

По аналогии с корреляцией рекурретность временных рядов может быть вычислена по формуле:

(4)

гдеN - количество рассматриваемых состояний (длина временного ряда), R- рекуррентная диаграмма (матрица размера NхN),-окрестность точки x (состояния системы) в момент времени.

Таким образом, зависимость рассматриваемых временных рядов - Twitter и финансового - будет оценена посредством анализа с двух сторон: как линейной системы, а также как нелинейной.

ГЛАВА 2. МЕТОДЫ ИССЛЕДОВАНИЯ

Общее описание работы

Работа над исследованием была разделена на три основных этапа:

1) Сбор данных социальной сети Twitter и данных по ценам акций;

2) Анализ тональности текстовых данныхTwitterи формирование временного ряда на их основе;

3) Оценка зависимости временных рядов (Twitter и финансового) и вычисление временной задержки между ними.

Также, важно упомянуть о том, как были выбраны компаниидля анализа. По данным на 2018 год в социальной сети Twitterпоявляется 500 миллионов записей каждый день - здесь, скорее всего, можно найти упоминания о любой компании, акции которой можно купить на фондовой бирже США. Однако есть несколько факторов, руководствуясь которыми были выбраны компании для данного исследования.

Во-первых, компании должны быть довольно популярны и обсуждаемы в сети, так как для анализа тональности текста требуется достаточный объем данных, в противном случае, анализ будет не точным. Также, важно иметь текстовые данные в каждый промежуток времени, так как пропущенные значения временного ряда невозможно интерпретировать при анализе.

Во-вторых,почасовые данные о ценах акций этих компаний должны присутствовать в открытых источниках за достаточно долгий период. Проблема заключается в том, что большинство сервисов, которые предоставляют данные о ценах на акции (YahooFinance, GoogleFinanceи другие) хранят почасовую информацию за очень коротких срок - 5-30дней, что в результате дает лишь 35-150 состояний системы, чего часто оказывается недостаточно для анализа зависимости.

В-третьих, компании не должны быть схожи с именами нарицательными (например, «Apple»), так как, в этом случае, записи о компании невозможно быть отделить от упоминаний их омонимов.

Наконец, текстовые данные в социальной сети об этих компаниях должны быть представлены, в большинстве, на английском языке, так как большинство библиотек для анализа тональности текста, на данный момент, могут обрабатывать качественно только английский текст.

Исходя из определенных мною факторов для анализа были выбраны следующие компании: Boeing-производитель авиационной, космической и военной техники; Procter&Gamble-транснациональная компания, производитель продовольственных товаров.

Далее, будут описаны основные причины выбора методов для сбора и анализа данных, использованных в данное работе. Результаты проведенной исследовательской работы отражены в третьей главе настоящего документа.

Методы сбора данных

Сбор данныхTwitter

Существует несколько методов сбора данных с публичных источников в сети Интернет, таких как социальных сетей, новостных агрегаторов, развлекательных платформ и других.

Во-первых, есть возможность собирать и структурировать данные вручную. Этот способ является самым ресурсозатрантраным, а также сильно ограничен по размеру выходных данных. Однако, существует несколько платформ для распределениямонотонных задач между людьми, к примеру Яндекс.Толока. Все же, этот метод подходят для сбора и разметки неструктурированных данных. Данные в сети Интернет имеют более-менее структурированный формат - HTML-код.

Во-вторых, многие Интернет-ресурсы предоставляют для разработчиков специальные сервисы - API. API-интерфейс для программирования приложний, который позволяет разработчикам получать данные с Интернет-платформы в удобном едином формате (json). Подключение к API происходит по типу запрос - ответ. Формат запросов всегда прописан в документации к сервису, формат ответа же, как говорилось ранее, всегда один - json.

TwitterAPI очень популярен среди разработчиков, он позволяет производить поиск записей по ключевым словам, именам автором, временным меткам, языкам и так далее. Результатом поискового запроса является список объектов типа Tweet, которые содержат следующие параметры:

· created_at - временная создания записи

· id - уникальный ключ записи

· id_str - уникальный ключ записи в строковом формате

· text - текст записи

· source - источник записи (Web-приложение, приложение для смартфона и т.п.)

· truncated - сокращен ли текст (в случае если текст записи превышает лимит в 140 символов)

· in_reply_to_status_id, in_reply_to_status_id_str, in_reply_to_user_id, in_reply_to_screen_name - историябеседы (еслизаписьбылаответомнадругую)

· user - имя автора записи

· coordinates - локация, где была сделала запись

· place - объект, содержащий информацию о том, где была сделана запись (страна, город и т.п.)

· quoted_status_id, quoted_status_id_str, is_quote_status, quoted_status, retweeted_status - длязаписей, которыевключаютвсебяцитатыдругих

· quote_count - количество ссылок на запись

· reply_count - количество ответов на запись

· retweet_count - количество копирований записи

· favorite_count - количество отметок «Мне нравится» у записи

· entities, extended_entities - список сущностей, которые включает в себя запись

· favorited-отметка, если запись кому-то понравилась

· retweeted - отметка, если запись был скопирована

· possibly_sensitive - длязаписей, содержащих ссылки на другие источники

· lang - язык записи

· matching_rules - запросы, которым соответствует запись

Для подключения к TwitterAPI необходимо зарегистрировать developer-аккаунт на сайте и описать свое приложение, которое будет использовать данные Twitter. По завершении регистрации приложения разработчику будут выданы 4 кода: APIkey, APIsecretkey, Accesstoken и Accesstokensecret, с помощью них появится возможность отправлять запросы серверу Twitter. Однако, стандартный типа аккаунта, который создается при прохождении регистрации, позволяет собирать данные запись лишь за последние 7 дней, что существенно ограничивает качество исследования, так как за 7 календарных дней будет возможность собрать лишь 35 (7 рабочих часов биржи х 5 рабочих дней в неделе) почасовых измерений цены акций.

Для более эффективного сбора данные TwitterAPI предоставляет возможность создания бесплатного premium-аккаунта. Для этого необходим кратко описать цель своего исследования, работы, однако, бесплатный premium-аккаунт не может быть использован в целях бизнеса (для этого естьплатный enterprise-аккаунт). После одобрения расширенного типа аккаунта появляется доступ к данным за весь период существования социальной сети (с 2006 года). Интерфейс личного кабинета разработчика представлен на Рисунке 6.

Рисунок 6. Интерфейс личного кабинета разработчика TwitterAPI.

В личном кабинете разработчика отображена важнейшая информация по работе с API: лимиты запросов и ответов на месяц. Как видно, в режиме чтения полного архива записей есть возможно сделать только 50 запросов к серверу, а в документации к API отмечено, что лимит записей на один запрос - 500. Таким образом, даже с premium-аккаунтом есть возможность скачать только 25 тысяч записей в месяц, что на самом деле является очень серьезным ограничением. Для сравнения, за минуту в социальной сетиTwitter генерируется около 350тысяч записей.

Множество разработчиков сталкивается с проблемой жестких лимитов API, поэтому стал популярным еще один метод сбора данных с Интернет-платформ -краулинг, или сканирование, сайтов с помощью программных средств.Поисковый робот, или краулер, сначала собирает данные сервера в формате HTML (в том же формате, что выдает сервер для обычного пользователя), далее обрабатывает из в соответствии с установленными разработчиком правилами.

Таким образом, краулер полностью имитирует действия человека при поиске записей на сайте Twitter:

1) Вводит запрос для поиска записей по ключевым словам (Рисунок 7);

Рисунок 7. Строка поиска записей

2) Собирает информацию по всем записям в поисковой выдаче (Рисунок 8).

Рисунок 8. Поисковая выдача

Существует большое количество разработанных библиотек для краулинга сайта Twitter. В данной работе будет описано использование библиотеки TwitterScraper для Python.Данная библиотека имеет открытый код и доступна для скачивания на публичном репозитории Github.

Запрос на получение данных с использованием данной библиотеки имеет несколько стандартных составляющих:

· Ключевые слова/фразы для поиска;

· Лимит записей для результата одного запроса;

· Язык записи;

· Промежуток времени, в котором осуществляется поиск;

· Автор записи;

· Количество параллельно запускаемых процессов поиска;

· Имя и тип файла с результатом поиска.

Ответом на запрос к сайту с использованием данной библиотеки является список объектов, обладающих следующими атрибутами:

· fullname, user - автор записи;

· id - уникальный ключ записи;

· likes - количество отметок «Мне нравится»;

· replies - количество ответов на запись;

· retweets - количество копий записи;

· text - полный текст записи.

Данный функционал, конечно, сильно уже, чем функционал официального TwitterAPI, однако вся необходимая для данного исследования информацияздесь присутствует.

Сбор финансовых данных

Как было описано ранее, найти Интернет-ресурс с почасовой информацией о ценах на акции за длительный срок найти довольно сложно. Краткая сравнительная характеристика наиболее известных сервисов, предоставляющих финансовые данные представлена в Таблице 1.

Таблица 1. Сравнительная характеристика сервисов, предоставляющих финансовые данные

Бесплатный источник данных

Минимальная частота

Максимальный период

Google Finance

1 минута

10 дней

Yahoo Finance

1 минута

5 дней

AlphaVantage

1 минута

10-15 дней

IEX

1 минута

30 дней

Finam

1 минута

Несколько месяцев

Stooq

Секунда

Несколько дней

Единственным источником финансовых данных, предоставляющем данные за сравнительно большой период из рассмотренных, оказался сервис российского инвестиционного холдинга Финам. Сервис предоставляется данные с нескольких бирж, в том числе BATS (США), МосБиржа (Россия) и других.На вебсайте холдинга можно найти только данные по ценам акций крупнейших компаний, поэтому фирмы для анализы были выбраны в соответствии со списком Финам.

Интерфейс сервиса достаточно прост, он представлен на Рисунке 9.

Рисунок 9. Интерфейс сервиса для выгрузки финансовых данных Финам

Методы анализа тональности записей Twitter

Задача анализа тональности текстовых данных, как было описано ранее, набирает популярность на данный момент, поэтому существует несколько библиотек, в основном, для Python, которые предоставляют огромный функционал для анализа текстов. Также, есть возможность использования готовых алгоритмов, обучая их на своих данных, или же полностью готовых, обученных на большом количестве данных, моделей.

  • Для полноценного обучения модели для анализа текста нужен огромный корпус данных. Однако, только текста недостаточно: задача классификации текста является разновидностью задач обучения с учителем, то есть для каждого анализируемого предложения или текста, модель должна знать действительную метку класса (позитивный или негативный окрас имеет конкретный текст). Только тогда модель сможет «обучиться», то есть понять логику разделения текстов на классы и самостоятельно определять эмоциональный окрас нового текста. Так как сбор качественно размеченных текстовых данных - очень ресурсоемкая задача, которой занимаются зачастую большие корпорации (Google, Amazon, Яндекс), целесообразнее в данном исследовании использовать заранее обученную на огромной корпусе данных модель. тональность текст сервис twitter
    • Библиотека TextBlobпредоставляет готовые модели для анализа тональности текста. Она была разработана на основеNLTK (NaturalLanguageToolkit)- разработкеСтенфордского университета.Для определения полярности текста здесь используетсяНаивный Байесовский Классификатор. Принцип его работы представлен на Рисунке 10.
    • Рисунок 10. Классификация нового объекта Наивным Байесовским классификатором
    • Сутьметода заключается в том, что при появлении нового,ранее не классифицированного, объекта, вероятность принадлежности к каждому из классов вычисляется при помощи априорной вероятности принадлежности к определенному классу и объектном, лежащих в его окрестности. Априорная вероятность принадлежности к классу вычисляется как отношение объектов данного класса к общему количеству объектов. Также, учитывается отношение количестваобъектов каждого класса в окрестности нового объекта к общему количество объектов каждого класса. В результате, каждому новому объекту соответствует вектор вероятностей принадлежности его к каждому из имеющих классов.
    • Стандартный класс библиотеки TextBlobдля анализа тональности текста имеет возможность определять полярность текста [ -1;1], где -1 - отрицательный окрас текста, 1 - положительная оценка описываемого объекта. Обучение данной модели проводилось на огромном корпусе отзывов и рецензий на фильмы, поэтому данный алгоритм не всегда будет точен при анализе текстов из социальной сети, где часто употребляются сокращения, сленговые фразы и другие неиспользуемые в более формальных текстах слова. Тем не менее, данная модель показывает хорошее качество классификациипри обработке текстов и на другие тексты, так что может быть рассмотрена в качестве метода анализа полярности текста.
    • В результате сбора данных по ключевым словам имеется список записей, атрибутами которых являются время создания и текст. Однако, чтобы этот набор данных стал временным рядом, промежуток времени между состояниями должен быть одинаковым. Поэтому с помощью агрегации текстовых данных, был сформирован список, индексами которого являются почасовые метки времени, а элементами - все тексты записей, созданных за соответствующий промежуток времени (преобразование №1 на Рисунке 11). Далее, список почасовых текстовых данных был отформатирован в соответствии с финансовыми данными, так как записи в Twitterо выбранных мной компаниях появляются ежечасно, а биржа СШАработает только 35 часов в неделю. Все текстовые данные, которые были сгенерированыдо начала работы биржи попадают во временной промежуток последнего рабочего часа предыдущего дня воизбежание потери текста(преобразование №2 на Рисунке 11).На Рисунке 11 наглядно проиллюстрировано преобразование текстовых данных для последующего анализа.
    • Рисунок 11. Агрегирование записей Twitter
    • Далее, сформированный список текстов отправляется на вход модели библиотеки TextBlob. В результате ее работы формируется временной ряд, совпадающий по длине с собранным ранее временным рядом состояний фондового рынка.

Методы анализа зависимости временных рядов

Существует несколько широко используемых инструментов для статистического анализа данных, в том числе, анализа зависимости временных рядов. Одним из наиболее популярных является язык программирования статистических вычислений R, он был написан на Cи Fortran. Это бесплатное средство разработки с большим количеством пользовательских библиотек, созданных под любые задачи статистического анализа. Дистрибутив R и множество библиотек к нему с подробной документацией хранятся в TheComprehensiveRArchiveNetwork (CRANrepository). Также, для более удобного отображения информации можно использовать среду разработки RStudio (Рисунок 12).

Рисунок 12. Интерфейс среды разработки RStudio.

Интерфейс RStudio представляет собой три основные панели. Панель разработки в виде консоли (1) последовательно отображает информацию, введенную пользователем и выводимую программой. Графические результаты работы программы отображаются на панели графиков (2), информация по текущим значениям переменных - на панели среды (3). Существует возможность посмотреть историю команд, введенных пользователем (4), а также включить/отключить и загрузить с репозитория CRAN необходимые библиотеки (5).

Кросскорреляционный анализ

Для кросскорреляционного анализа используется встроенная функция ccf (cross-correlationfunction):

ccf (x, y, lag = length(x)-1, pl = TRUE)

Xи Y в данном случае - исследуемые временных ряды, lag-максимальный временной сдвиг для построения кросскорреляционной функции, pl- построение графика функции (TRUE/FALSE).

Результатом работы функции ccfявляется объект со свойствами:

· acf - массив значений кросскорреляционной функции в зависимости от временного лага;

· lag - массив использованных для анализа значений временного лага.

Оптимальный временной лаг, то есть временной сдвиг, при котором достигается максимальная корреляция временных рядов, может быть найдет как элемент массива lag, соответствующий максимальному элементу массива acf.

Кросс-рекуррентный анализ

Для анализа нелинейной зависимости между временными рядам используется библиотека crqa (cross-recurrencequantificationanalysis), доступная в репозитории CRAN.

Функцияcrqa:

crqa(ts1, ts2, delay, embed, rescale, radius, normalize,mindiagline, minvertline, tw, whiteline, recpt, side, checkl)

ts1, ts2 - исследуемые временные ряды, delay - максимальный временной сдвиг между ними,embed-размерность фазового пространства (размерность вложения),rescale - масштабировниематрицырасстояний (0 - не масштабировать, 1 - среднее расстояние, 2 - максимальное расстояние),radius - порог, по которому точки определяются как рекуррентные,normalize - нормированиевременных рядов,mindiagline-минимальнаядлина диагонали, состоящей изрекуррентных точек,minvertline - длинадиагонали, состоящейизрекуррентныхточек,tw - параметр Тейлера (окно),whiteline - флаг, показывающий считать ли пустые вертикали, recpt - флаг, показывающий проводится расчет по графику или нет,side - индикатор, показывающийпокакойчастиматрицы (выше диагонали или ниже)рассчитываютсяпоказатели.

Результат работы функции содержит:

· RR - процент рекуррентных точек (чем ближе к 100, тем выше рекуррентность ряда),

· maxL - длина наибольшей диагонали рекуррентной матрицы,

· L - средняя длина линейных структур,

· RP - рекуррентная матрица.

Для построения cross-recurrenceplot нужно представить полученную разреженную рекуррентную матрицу в виде изображения. Наличие облаков точек, параллельных главной диагонали матрицы, свидетельствует о наличии перекрестной рекуррентности временных рядов,

ГЛАВА 3. РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ

Как было описано ранее, для исследования были выбраныдве крупные американские компании Boeing и Procter&Gamble. Далее, будут описаны результаты исследования для этих компаний.

Boeing

Для начала был визуально исследован график цен акций компании, с целью выявления наиболее сильных изменений цены за короткий срок. Это было сделано для того, чтобы выбрать период скачивания данных Twitter, так как ресурсы моего компьютера не позволяют выкачать данные Twitter за всю доступную историю. На Рисунке 13 представлен график цены акций Boeing за год.

Рисунок 13. Динамика цены акций Boeing.

На графике явно видно несколько сильных изменений цены, одно из них произошло в марте 2019 года - цена акций за пару дней упала на 16%, что является очень весомым изменением. На нижнем графике также виден сильный всплеск объема торгов, связанный с этим изменением. В связи с этим был выбран исследуемый период - с 14 февраля по 18 апреля 2019 года. Далее, в заданном промежутке были собраны и агрегированы данные Twitter (Рисунок 14).

Рисунок 14. Количество записей в Twitterо компании Boeing в час

График показывает количество собранных записей Twitterс упоминанием компании Boeing в час. Видно, что до середины марта компания не так сильно обсуждалась в сети, с 10 марта количество записей в час резко увеличивается, и далее ряд становится менее стационарным, появляются частые всплески. Причины яркого всплеска будут описаны далее.

Также, наблюдается зависимость между количеством записей и объемами торгов на фондовом рынке: после 10 марта объемы торгов на рынке также резко увеличились. Гипотеза это зависимости не была выдвинута до начала исследования, однако эта зависимость также должна быть проверена. На Рисунке 15 сопоставлены нормированные значения количества записей в Twitter с упоминанием компании Boeing и объема торгов акциями этой компании.

Рисунок 15. Объемы торгов и количество записей о Boeingв Twitter

Временной ряд Twitter иметь меньше колебаний, однако общие тренды графиков совпадают. Был проведен тест на значимость корреляции.

Pearson's product-moment correlation

data: volume and qty

t = 14.898, df = 313, p-value < 2.2e-16

alternative hypothesis: true correlation is not equal to 0

95 percent confidence interval:

0.5745088 0.7044851

sample estimates:

cor

0.6441229

Тест показал, что коэффициент корреляции значим и находится в промежутке от 0.57 до 0.70, что является достаточно высоким показателем. Однако, на графике видно, что временного лага между рядами нет, то есть причинно-следственной связи между этими показателями, скорее всего, нет. Так как явная зависимость между рассматриваемыми величинами видна только в пиковые моменты (11 марта - 14 марта), то высокий коэффициент корреляции объясняется тем, что оба этих показателя зависят в большей степени о какого-либо другого показателя.

Действительно, 10 марта, за день до рассматриваемого периода повышенной активности, произошло печальное событие - крушение самолета Boeing 737 MAX 8 компании «EthiopianAirlines»,что послужило причиной яркого всплеска обсуждений в социальных сетях и повышенной активности на фондовом рынке.

Возвращаясь к основной теме исследования, на Рисунке 16 представлены нормированные значения цены акций и тональности записей Twitter

Рисунок 16.Цена акций Boeing и тональность записей Twitter.

На графике цены акций Boeing и тональности записей о ней в Twitter явно проявляется наличие зависимости между ряда, причем на протяжении всего периода, в отличие от представленных ранее данных. Также, на некоторых участках графика видно, что изменения тональности записей происходит раньше, чем изменений цены акций. АнализзначимостикорреляцииПирсона:

Pearson's product-moment correlation

data: sentimentand price

t = 16.313, df = 312, p-value < 2.2e-16

alternative hypothesis: true correlation is not equal to 0

95 percent confidence interval:

0.6138764 0.7340241

sample estimates:

cor

0.6784615

Тест показал, что корреляция значима и лежит в промежутке от 0.61 до 0.73, что является очень высоким значением. Чтобы выяснить, наблюдается ли более высокая корреляция при смещении рядов относительно друг друга, была построена кросскорреляционная функция (Рисунок 17).

Рисунок 17. Кросскорреляционная функция.

На графике выделены точки, в которых значение кросскорреляционной функции выше, чем значение корреляции рядов, не сдвинутых по времени. Максимальная корреляция наблюдается при сдвиге в 8 часов, то есть тональность записей в Twitterна рассматриваемом периоде менялась на 8 часов раньше, чем менялись цены. Проверказначимостиразличиякорреляции:

Pearson's product-moment correlation

data: sentimentand price

t = 16.82, df = 304, p-value < 2.2e-16

alternative hypothesis: true correlation is not equal to 0

95 percent confidence interval:

0.6312981 0.7481613

sample estimates:

cor

0.6942783

Доверительные интервалы значений корреляции имеют пересечение, однако смещены относительно друг друга, что говорит о частичной значимости различия корреляции.

Линейные методы исследования зависимости временных рядов показали, что исследуемые величины действительно коррелируют. Также, была вычислен временной лаг, при котором зависимость между рядами становится выше, что говорит о наличии причинно-следственной связи между исследуемыми величинами.

Далее, будут рассмотрены результаты применения нелинейных методов для поиска зависимости между исследуемыми временными рядами. Как было описано ранее, аналогом кросскорреляционной функции в нелинейной науке является recurrencerate (RR). График зависимости этой величины от временного сдвига представлен на Рисунке 18.

Рисунок 18. График Recurrencerate.

На графике Recurrencerateвыделено максимальное значение, ему соответствует временной лаг 9, что соотносится с результатами, полученными в результате исследования зависимости линейными методами (метод построения графиков другой, поэтому сдвиг отображается зеркально). Также, для временных рядов был построенcross-recurrenceplot (Рисунок 19).

...

Подобные документы

  • Сущность и отличительные черты статистических методов анализа: статистическое наблюдение, группировка, анализа рядов динамики, индексный, выборочный. Порядок проведения анализа рядов динамики, анализа основной тенденции развития в рядах динамики.

    курсовая работа [1,0 M], добавлен 09.03.2010

  • Понятие и основные этапы разработки прогноза. Задачи анализа временных рядов. Оценка состояния и тенденций развития прогнозирования на основе анализа временных рядов СУ-167 ОАО "Мозырьпромстрой", практические рекомендации по его совершенствованию.

    курсовая работа [378,6 K], добавлен 01.07.2013

  • Машинное обучение и статистические методы анализа данных. Оценка точности прогнозирования. Предварительная обработка данных. Методы классификации, регрессии и анализа временных рядов. Методы ближайших соседей, опорных векторов, спрямляющего пространства.

    контрольная работа [833,1 K], добавлен 04.09.2016

  • Статистический анализ рядов динамики. Показатели изменения уровней ряда динамики. Связный анализ рядов динамики. Корреляционный анализ рядов динамики. Элементы интерполяции и экстраполяции. Встроенные функции MS Excel для анализа рядов динамики.

    курсовая работа [1,0 M], добавлен 17.12.2015

  • Методика проведения анализа динамических рядов социально-экономических явлений. Компоненты, формирующие уровни при анализе рядов динамики. Порядок составления модели экспорта и импорта Нидерландов. Уровни автокорреляции. Корреляция рядов динамики.

    курсовая работа [583,6 K], добавлен 13.05.2010

  • Система производственных показателей выпуска продукции. Ряды динамики: общее понятие и значение. Теория определения и построения тренда. Использование метода сглаживания временных рядов в изучении динамики выпуска продукции на примере ООО "Прогресс".

    курсовая работа [1,8 M], добавлен 23.12.2013

  • Понятие и значение временного ряда в статистике, его структура и основные элементы, значение. Классификация и разновидности временных рядов, особенности сферы их применения, отличительные характеристики и порядок определения в них динамики, стадии, ряды.

    контрольная работа [30,9 K], добавлен 13.03.2010

  • Экономико-статистический анализ временных рядов развития строительства Тюменской области. Выявление и измерение сезонных колебаний. Корреляция рядов динамики и проведение регрессионного анализа показателей. Экстраполяция по мультипликативной схеме.

    курсовая работа [521,5 K], добавлен 20.01.2016

  • Методы анализа структуры временных рядов, содержащих сезонные колебания. Рассмотрение подхода методом скользящей средней и построение аддитивной (или мультипликативной) модели временного ряда. Расчет оценок сезонной компоненты в мультипликативной модели.

    контрольная работа [57,9 K], добавлен 12.02.2015

  • Определение понятия цен на продукцию и услуги; принципы их регистрации. Расчет индивидуальных и общих индексов стоимости товаров. Сущность базовых методов социально-экономических исследований - структурных средних, рядов распределения и рядов динамики.

    курсовая работа [1,2 M], добавлен 12.05.2011

  • Анализ системы статистических показателей, характеризующих аналитические показатели рядов динамики. Статистические методы, применяемые при изучении рядов динамики. Исследование структуры совокупности. Определение ошибки выборки. Расчет объема оборота.

    курсовая работа [569,2 K], добавлен 03.10.2010

  • Понятие временного ряда, компоненты. Сглаживание, анализ периодических колебаний. Сезонность, аддитивная и мультипликативная модели. Понятие белого шума в моделях динамики рядов. Оператор лагового сдвига. Оценка и вывод автокорреляционной функции.

    курсовая работа [659,4 K], добавлен 13.09.2015

  • Анализ понятий о диаграммах динамики и диаграммах рядов распределения, линейные диаграммы с равномерными шкалами и на полулогарифмической сетке, радиальные диаграммы. Диаграммы рядов распределения: полигон, гистограмма, кумулята, огива, график Лоренца.

    контрольная работа [4,6 M], добавлен 07.08.2010

  • Методы анализа детерминированных моделей. Построение моделей факторного анализа. Методы анализа стохастических моделей. Методы оптимизации в экономическом анализе. Методы комплексного анализа. Рейтинговая оценка финансового состояния.

    курсовая работа [47,9 K], добавлен 12.05.2008

  • Средние показатели в рядах динамики. Проверка ряда на наличие тренда. Непосредственное выделение тренда. Анализ сезонных колебаний. Анализ взаимосвязанных рядов динамики. Статистико-детерминированный характер социально-экономических явлений.

    реферат [98,1 K], добавлен 07.12.2006

  • Изучение динамики общественных явлений. Классификация рядов динамики, правила их построения и показатели анализа. Основные показатели вариации курса акций АО "Газпром". Расчетная таблица для определения параметров линейной функции. Анализ тенденции.

    курсовая работа [184,1 K], добавлен 10.02.2013

  • Предмет и методы фундаментального анализа на рынке ценных бумаг. Постулаты и предпосылки технического анализа. Формы предоставления данных в техническом анализе. Конфигурационные, фильтрационные и циклические методы технического анализа ценных бумаг.

    курсовая работа [64,5 K], добавлен 17.12.2007

  • Определение и классификация спроса. Статистические методы анализа спроса. Краткая экономическая характеристика деятельности ООО "Интеграл" и продукции ТМ "Новотроицкая". Анализ статистических показателей рядов динамики и метод скользящей средней.

    курсовая работа [209,6 K], добавлен 20.11.2010

  • Охрана рыбных ресурсов, принципы и подходы, законодательно-правовая база данного процесса. Порядок проведения математического анализа рыбных ресурсов современной России: корреляционный, временных рядов (выделение трендов) и регрессионный анализ.

    курсовая работа [245,9 K], добавлен 06.03.2012

  • Место статистических методов в общей системе управления качеством. Семь простых инструментов качества. Экономические ряды динамики, правила их построения и смыкания. Построение динамического ряда с помощью электронной таблицы Microsoft Office Excel.

    курсовая работа [1,4 M], добавлен 07.01.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.