Главная Коллекция "Revolution" Экономико-математическое моделирование Событийный анализ. Выбор предсказательной модели

Событийный анализ. Выбор предсказательной модели

Методология и результаты событийного анализа. Выбор пиков, событийного окна и периода оценки вокруг пика. Проверка статистической значимости. Методология построения предсказательной модели. Описание используемых факторов. Модели для компаний и групп.

Рубрика	Экономико-математическое моделирование
Вид	реферат
Язык	русский
Дата добавления	29.06.2017
Размер файла	1,9 M

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

Размещено на http://www.allbest.ru/

Содержание

Введение

Глава 1. Обзор существующей научной литературы

Глава 2. Используемые данные

Описание данных

Тестируемые гипотезы

Глава 3. Методология и результаты событийного анализа

Выбор пиков, событийного окна и периода оценки вокруг пика

Построение модели для получения уравнения для нормальных доходностей на оценочном периоде

Экстраполяция модели с оценочного периода на событийного окно для получения нормальных доходностей; получение абнормальной доходности (AR) и кумулятивной абнормальной доходности (CAR) для компаний

Проверка статистической значимости AR и CAR

Глава 4. Методология построения предсказательной модели

Описание используемых факторов

Выбор предсказательной модели

Глава 5. Результаты прогнозирования

Индивидуальные предсказательные модели для компаний

Предсказательные модели для групп компаний

Заключение

Список литературы

Введение

В традиционных, классических моделях экономического человека, который используется для экономического и финансового моделирования, не отводится значительного места нерациональному, эмоциональному поведению. Агент в таких моделях является рациональным, максимизирующим собственную полезность и эгоистичным. Если отталкиваться от такой модели инвестора, то динамика стоимости компании, а, следовательно, и доходность ценных бумаг должны формироваться сугубо под действием фундаментальных показателей финансового состояния компании. С данной теорией согласуется гипотеза эффективного рынка (ГЭР), в рамках которой инвестор не может стабильно получать доходность выше нормального для рынка уровня. Однако, в противовес модели экономического человека и ГЭР возникли поведенческие теории в экономике и финансах, в рамках которых поведение агента не всегда является рациональным. Наиболее признанными авторами в поведенческой теории экономики и финансов являются Канеман Д. и Тверски А., в работах которых были сформулированы различные типы отклонений от рационального поведения, которые могут приводить к аномалиям на рынках финансов. В последствии было проведено множество попыток обнаружения эмпирических подтверждений подверженности инвесторов эмоциям.

Вместе с тем, следует отметить, что существуют проблемы с измерением факторов, которые могут послужить прокси для отражения настроений и эмоций участников финансового рынка. В первую очередь, большинство факторов основаны на опросах, однако, создать высокочастотный опрос с репрезентативной выборкой затруднительно и дорого, к тому же несмещенность результатов таких опросов - отдельный вопрос, по которому необходимо проводить исследования. Предпочтительно, чтобы существовал фактор, который отражает эмоции и настроения участников рынка не через третьих лиц, а в добровольном и самостоятельном режиме - в таком случае результаты будут более надежными и менее вероятно будут смещенными.

Благодаря технологическому прогрессу, в особенности в мобильных и интернет технологиях, социальные сети различного типа получили обширное распространение и стали важной и, главное, нормальной частью рутинной жизни людей. Именно в связи с рутинностью использования социальных сетей пользователи этих сервисов активно используют социальные сети не только для общения с другими людьми, но также для потребления и создания новой, важной информации. В особенности данный тезис применим к блог-сервисам, а конкретно к микроблогинг-социальной сети Twitter. Данная сеть отличается от других (например, Facebook) тем, что основной фокус направлен не на частную переписку между пользователями, а на публикацию частных мнений о событиях, товарах, услугах, контенте и т.д., а также на взаимный обмен такими мнениями путем ретвитов и цитаций других пользователей. Благодаря тому, что все публикации свободно доступны публике (если автор не скрыл свои публикации), а также то, что твиты (публикации в сети Твиттер) хранятся долгое время на серверах и доступны для скачивания, возможно построение алгоритмов анализа настроений в режиме реального времени. В контексте поведенческих финансов это уникальная и важная отличительная черта социальных сетей - возможность анализа в "прямом эфире". В связи с этим, Твиттер представляет особый интерес для исследователей общественных настроений, мнений и эмоций. В данном контексте, данные Твиттера активно используются в маркетинговых, рекламных и пропагандистских целях различными компаниями, политиками, знаменитостями, звездами и т.д. Эмоциональный анализ публикаций в Твиттере и других социальных сетях уже несколько лет успешно применяется, например, для прогнозирования результатов политических выборов (Wang, Kazemzadeh, 2012).

В сфере финансов анализ настроений и мнений Твиттера довольно активно применяется в моделях хэдж-фондов. Показателем растущего интереса к такому роду данных может служить подписание соглашений между Twitter с одной стороны и Bloomberg и Thomson Reuters с другой. В рамках данного соглашения эти компании получают более полный доступ к базам данных Твиттера для составления собственных, проприетарных индексов настроений в сети. Следует отметить, что под "настроением" и "эмоцией" в данном исследовании будет пониматься эмоциональный окрас мнения, выраженного и опубликованного в социальной сети Твиттер. Например, публикация "iPhone 7 is the worst iPhone ever, Apple is doomed" будет восприниматься как твит, содержащий негативное настроение о компании Apple, а твит "Vitaly bot is awesome, Telegram rules!!!!" - позитивным о мессенджере Телеграм.

В рамках данной работы ставится следующая исследовательская цель: проверить, улучшается ли точность предсказательной модели при включении в модель индекса настроений в социальной сети Твиттер в качестве прокси-переменной для настроений участников финансовых рынков.

Для достижения поставленной цели были сформулированы следующие задачи:

· Изучить имеющуюся научную литературу на схожую тематику

· Составить выборку компаний, для которых будут строиться модели; собрать необходимые данные для каждой компании

· Составить различные модификации индексов настроений в сети Твиттер

· Провести событийный анализ на основе событий, составленных вокруг экстремальных значений количества публикаций твитов

· Выбрать лучшую спецификацию для построения предсказательной модели

· Провести анализ влияния полученного индекса на точность предсказания

· Сформулировать выводы на основе полученных результатов

Объектом исследования в настоящей работе является динамика курсовой стоимости акций компаний.

Предметом исследования является влияние настроений в социальной сети Твиттер на динамику курсовой стоимости акций компаний.

Академическая новизна данной исследовательской работы выражена в трех основных аспектах:

· Оценка влияния настроений в Твиттере на динамику акций как индивидуальных компаний, так и групп компаний, объединенных по индустриальной принадлежности

· Использование методов машинного обучения для предсказания направления динамики акций, а также в использовании методов машинного обучения для выбора оптимальных спецификаций предсказательных моделей (что так же может указать на существование влияния настроений в Твиттере на динамику акций)

· Использование больших массивов данных, чем в работах на схожие темы

С практической точки зрения данная исследовательская работа может служить своего рода ориентиром для того, следует ли использовать индекс настроений в Твиттере при принятии инвестиционных решений. Более того, если результаты построения моделей окажутся успешными и будут обеспечивать высокую точность предсказаний на других, независимых выборках, то обозначенные модели можно использовать для создания торговых и инвестиционных стратегий.

событийный анализ предсказательная модель

Глава 1. Обзор существующей научной литературы

Возможность построения моделей, предсказывающих цену акций, являлась и является одной из наиболее привлекательных финансовых тем как в научном сообществе, так и среди участников рынка. Несмотря на то, что первые серьезные научные публикации на данную тему начали появляться еще в первой половине ХХ века (Graham and Dodd, 1934), все еще не удалось дать исчерпывающий ответ на вопрос о возможности построения предсказательных финансовых моделей, в связи с чем среди ученых и финансистов сложилось два идейных лагеря: сторонников и противников идеи о возможности предсказаний курса акций.

В определенном смысле, отправной точкой для дискуссий о том, может ли цена акции быть предсказана и можно ли из этого предсказания извлечь абнормальную прибыли, послужило выдвижение гипотезы эффективного рынка. Несмотря на то, что само определение эффективного рынка в современном понимании было дано относительно поздно (сам термин "efficient markets hypothesis" впервые был использован в "Statistical versus clinical prediction of the stock market" (Roberts, 1967)), первые серьезные аргументы появились в начале ХХ века. Так, М. Кейнс (Keynes, J. M., 1923) утверждал, что инвесторы получают прибыль на финансовых рынках не по причине того, что они обладают уникальной способностью "переигрывать" рынок, но из-за того, что они готовы нести риски, связанные с конкретными инвестициями. Эта идея позднее была во многом отражена в работах Ю. Фама, который и сформулировал понимание ГЭР в современной трактовке (Fama E. F. 1965a, 1965b). В том же году была опубликована работа П. Самуэльсона (Samuelson, 1965), в которой он так же, как и Фама, доказывал, что рынки эффективны. Однако, Фама доказывал свою гипотезу через доказательство того, что движения цен акций описывается моделью случайного блуждания, а Самуэльсон, в свою очередь, случайным процессом мартингала. В другой работе (Fama, 1969) Фама применил событийный анализ, который так же поддерживал идею эффективности рынка. Важно так же отметить, что гипотеза эффективного рынка не отвергает возможности извлечения сверхприбыли как таковой, но исключает возможность систематического извлечения сверхприбыли. Так, если модель ГЭР построена на модели случайного блуждания, инвестор может случайным образом "переигрывать" рынок, и в 50 % случаев прибыль может быть выше рыночной случайным образом.

Таким образом, основываясь на работах Фама и других экономистов, можно сформулировать определение гипотезы эффективного рынка следующим образом: цена ценной бумаги в любое время полностью включает в себя всю доступную информацию. Выделяется три формы гипотезы эффективного рынка: слабая, средняя и сильная.

· Слабая эффективность рынка подразумевает, что цена актива включает в себя всю доступную прошлую рыночную информацию (в частности, исторические данные об активе и т.д.) и что исторические данные не влияют на то, как будет вести себя цена актива в будущем. Таким образом, технический анализ невозможен.

· Средняя эффективность рынка подразумевает, что цена актива включает в себя не только прошлую публичную информацию, но и в принципе любую публично доступную информацию (выпущенную как в прошлом, так и в настоящем). Иными словами, рынок достаточно быстро корректирует цену актива таким образом, чтобы свежедоступная публичная информация была заложена в цену и не могла бы использоваться в целях извлечения абнормальных доходностей. В связи с этим, исключается возможность и фундаментального анализа для извлечения сверхприбыли.

· Сильная эффективность рынка подразумевает, что цена актива включает в себя всю вышеперечисленную информацию, а также инсайдерскую информацию. Под действием такой формы эффективности систематическое и "запланированное" получение избыточной доходности невозможно.

Тем не менее критика гипотезы эффективного рынка появилась сразу же, более того, еще до того, как сама гипотеза была окончательно сформулирована Фама. Так, Коулз и Джоунс (Cowles, Jones, 1937) одними из первых указали на наличие автокорреляции во временных рядах усредненных цен акций, что прямо указывало на неэффективность рынка и возможность построение предсказательных моделей на основе исторических данных. Большинство критических научных статей ХХ века опирались на статистическое доказательство неэффективности рынка (часто через выявление автокорреляции). Так, (Poterba, Summers, 1988) показали, что на длинном временном периоде акции имеют отрицательную негативную автокорреляцию, а на коротком - положительную.

Однако, в рамках данной работы больший интерес представляют другие волны критики ГЭР, основанные на поведенческих финансах и на попытках объяснить рыночные аномалии (эффект размера, эффект низкого мультипликатора P/BV, эффект января, эффект разворота, эффект дней недели, эффект "собак Доу" и др.). Отдельный интерес представляет феномен моментума и его трактовка через призму поведенческих финансов, однако данная тема не входит в рамки данной работы.

Суть рассмотрения аномалий как потенциальных причин нарушения гипотезы эффективности рынка заключается в том, что данные аномалии проявляются в существовании паттернов в динамике курсовой стоимости акций. Так, эффект размера подразумевает, что исторически компании с меньшей капитализацией приносили большую доходность, в связи с чем возможно существование стратегий, использующих такие компании, и которые позволяют получить доходность выше нормальной. Другой тип аномалий так же заключается в существовании паттернов в динамике цен акций, однако паттернов другого рода, например, известный эффект января, когда цены акций компаний растут сильнее, чем в другие месяцы. Наличие такого устойчивого паттерна поведения цен акций противоречит гипотезе эффективного рынка, так как позволяет учитывать этот рост и получать доходность выше нормальной. Более того, в каком-то смысле эти эффекты могут накладываться друг на друга, так, эффект января выражен сильнее для компаний с меньшей капитализацией (Keim, 1983).

Несмотря на то, что наличие влияния аномалий на динамику курса акций было показано во множестве эмпирических работ, сторонники гипотезы эффективного рынка не отказались от гипотезы. Основная проблема использования аномалий в качестве потенциального доказательства неэффективности рынка заключается в том, что, во-первых, данные эффекты наблюдаются, как правило, только в краткосрочном периоде, а также в том, что сами эффекты слабы и зачастую исчезают, если переопределить понятие "нормальной доходности", относительно которой и тестировались аномалии. Часто в качестве теоретического бенчмарка использовалась модель CAPM, на что сторонники ГЭР возражали, что данная модель не корректно отражает реальный рынок и не учитывает дополнительные факторы риска. В связи с этим, предлагались другие модели, призванные более корректно учитывать риск. Так, Фама и Френч предложили модель, которая включала риск-фактор, отражающий размер компании, а также фактор, отражающий разницу в рисках у компаний с разными показателями отношения балансовой стоимости к капитализации (Fama, French, 1993). В работе 1996 года "Multifactor explanations of asset pricing anomalies" Фама и Френч непосредственно продемонстрировали, что использование трехфакторной модели успешно устраняет проблему аномалий в силу "поглощения" большего количества рисков, нежели CAPM. В связи с этим, при проведении event study для выявления возможности получении абнормальной доходности при использовании мнений и настроений в Твиттере как дополнительного фактора в эмпирической модели будет применяться модель Фама и Френча, а не CAPM.

Если говорить о поведенческих финансах как о разделе финансов, объясняющем нарушение стандартных предпосылок и гипотезы эффективного рынка, то авторы одной из первых основополагающих работ (DeBondt, Thaler, 1995) показали, что существует тенденция рынка на избыточное или недостаточное реагирование на определенные события. Авторы связывали отклонения цен акций от фундаментальных тем, что инвесторы были подвержены эмоциям и нерациональному поведению, становясь либо чересчур уверенными в собственных решениях, либо, наоборот, становились пессимистичны относительно инвестиционных решений. Авторы опирались на работу Канемана и Тверски для объяснения процессов нерационального принятия инвестиционных решений. Основываясь на поведенческих финансах, можно выделить несколько причин нерационального поведения инвесторов, которое, в свою очередь, может нарушать гипотезу эффективности рынка:

· Overconfidence - нарушение рациональности агентов, проявляющееся в субъективном завышении вероятностей успеха или занижении вероятностей провала на основании собственного опыта. Данное отклонение на финансовых рынках ведет к учащению сделок и к проблемам в диверсификации инвестиций (Wang, 2001)

· Representativeness - склонность присваивать вероятности к неизвестным событиям на основе известных событий (Kahneman, Tversky, 1972)

· Herding - склонность принимать решения на индивидуальном уровне, опираясь на выбор и решения социальных групп. В финансах это может привести к серьезным последствиям, но несмотря на это инвесторы в значительной степени подвержены данному отклонению (Hirshleifer, Subrahmanyam, Titman, 1994)

· Anchoring - склонность придавать больший вес информации, полученной раньше, даже если новая информация опровергает старую (Kahneman, Tversky, 1974)

· Conservatism - склонность изменять уже сложившиеся взгляды и шаблоны мышления медленно, даже если новые реалия и информация требуют изменений (Edwards, 1968)

В контексте данной работы наибольший интерес представляет эффект стадности (herding), так как в каком-то смысле именно эффект стадности потенциально должен быть отражен в связи настроений в Твиттере и доходности ценных бумаг. Теоретически, индекс настроений может отражать настроение общества в момент составления индекса, что, соответственно, может служить своего рода прокси для выявления стадности инвесторов. Например, можно ожидать, что в ответ на некое финансовое событие в отношении какой-либо фирмы, инвесторы могут начать реагировать определенным образом на это событие. Если иметь инструмент, который достаточно точно и быстро, а желательно в режиме реального времени, может отслеживать общественные настроения и/или настроения среди инвесторов, возможно будет создание стратегий, которые будут учитывать эффект стадности и делать поправку на него, что, соответственно, может привести к получению доходностей выше нормальной.

Более того, индексы настроений могут быть использованы и в целях определения ожиданий общества относительно некоторого события, компании или общества и государства в целом. Широко используются индексы уверенности потребителей, бизнеса и финансовых рынков (Сonsumer confidence index, Business confidence index), построенные на прямых опросах агентов. Эти индексы пользуются популярностью как среди инвесторов, так и среди компаний при принятии производственных и инвестиционных решений. Существует также индекс уверенности участников фондовых рынков Stock Market Confidence Indices, The Investor Behavior Project at Yale University http: //som. yale.edu/faculty-research/our-centers-initiatives/international-center-finance/data/stock-market-confidence, который в большей степени соотносится с темой данной работы. Другой примечательный индекс настроений основан на опросе Investor Intelligence, который проводится с 1964 года. Данный индекс показывает настрой участников рынка и определяет направлен рынок на "медвежье" или на "бычье" состояние. Отличительной чертой индекса Investor Intelligence является его ежедневная основа, так как другие индексы обычно проводятся с частотой в неделю или месяц, в связи с чем не способный отражать настроения рынка в оперативном режиме для осуществления краткосрочных стратегий.

Другой подход в определении общественных и рыночных настроений основан на анализе тональности новостей и публикаций в СМИ. Во многом данный метод схож с методом анализа настроений в Твиттере, более того, скорее всего, "сигналы" в данных Твиттера и в новостях сильно коррелированы так как имеет место зависимость: значительная часть финансовых твитов (публикация в сети Твиттер) есть реакция на финансовые события, освещенные в новостях, и зачастую на сами новостные заметки. Методы, используемые в выявлении сигналов также схожи, однако существует определенная и уникальная специфика у новостей и у Твиттера. Для анализа новостей необходимо создать классификатор тональности на "позитивный", "негативный" и (опционально)"нейтральный", тренирую классификатор на больших и сложно структурированных текстах, хотя некоторые авторы ограничиваются заголовками статей (Agarwal, et al., 2016). Несмотря на то, что это усложняет в определенной степени создание классификатора тональности, официальность и структурированность текста, а также почти полное отсутствие в нем опечаток, означает, что предобработка текста минимальна. Более того, в таких текстах отсутствуют характерные для Твиттера проблемы текста: ошибки, опечатки, сарказм, жаргон, мат и сокращения, разбиение текста на несколько публикаций (в которых целевая компания зачастую вовсе не указана, но при этом публикация несет смысловую нагрузку). Тем не менее почти все эти проблемы в значительной степени относятся к вопросу возможности создания более сложных и точных классификаторов на основе машинного и глубинного обучения. В целом, методика формирования самих индексов повторяет методику более традиционных: после того, как были получены тональности и настроения текстов в СМИ, им присваиваются значения "позитивный", "негативный", "нейтральный", после чего, например, сумма "позитивных" новостей делится на сумму всех новостей (аналогичным образом, но на основе опроса строится Consumer Confidence Index). В целом, основные различия работ данной категории заключаются в том, какие данные были использованы при формировании индекса, какие алгоритмы и классификаторы использовались для определения тональности индекса и в какую финансовую или предиктивную модель был включен индекс. В зависимости от того, как удачно были комбинированы эти характеристики, авторы разных статей получали разные уровни точности предсказаний. Например, в работе "A quantitative stock prediction system based on financial news" авторы, используя готовый алгоритм AZFinText для анализа текста, получили предсказательную точность направления цены акций 71.18 % и доходность в 8.5 % при доходности индекса S&P500 5.62 % (Schumaker, Chen, 2009).

Ключевым преимуществом использования социальных сетей (Twitter, Facebook, блоги) для определения настроений является то, что агенты сами непосредственно выражают свои мысли и идеи. Более того, использование социальных сетей позволяет расширить выборку респондентов без значительного увеличения издержек на обслуживание респондентов, составления опросника и т.д., а также в определенной степени анкетирование так или иначе дает смещенные оценки. В случае социальных сетей данная проблема отсутствует. Далее, если сравнивать настроения в социальных сетях с настроениями в новостях, то часто социальные сети оказываются более оперативными источниками информации, а также более "гибким" источником: социальные сети в некотором смысле отражают настроения в режиме реального времени, а не только на определенные события, как это устроено в случае новостных источников. Однако, "гибкость" создает и определенные методологические проблемы: существует множество различных способов как обработки информации, так и сбора самой информации из Твиттера. Например, часть исследователей использует для анализа только количество твитов в день, часть - твиты от конкретного, ограниченного круга пользователей (официальные аккаунты компаний, инвестиционных фирм или известных финансистов и инвесторов), но чаще всего используется весь массив твитов о компании, от всех пользователей. Более того, так как крайне редко можно наблюдать публикацию о компании, которая прямо отражает эмоцию автора твита о компании (например, "Ford находится в плачевном состоянии"), то можно по-разному подходить к вопросу классификации эмоций. Очевидно так же, что от успешности выбора методологии формирования классификатора эмоциональности/тональности твитов зависит точность предиктивной модели, использующей настроения в Твиттере как фактор. Ниже будут представлены несколько признанных и успешных работ, в которых используются разные подходы использования Твиттера в финансовых моделях.

Одними из первых и наиболее значимых работ в данной области являются статьи Боллена и Мао "Twitter mood predicts the stock market" и "Predicting financial markets: Comparing survey, news, twitter and search engine data" (Bollen, Mao, 2011a и 2011b). В первой работе авторы предприняли попытку выявить связь между динамикой индекса DJIA и настроениями в Твиттере. Отличительной чертой работы является использование двух методов определения настроений: с помощью сервиса OpinionFinder, который делит твиты на негативные и позитивные, а также с помощью Google-Profile of Mood States (GPOMS), который выявляет более сложный спектр эмоций ("спокойный", "тревожный", "уверенный", "добрый", "счастливый", "жизнерадостный". Авторы провели корреляционный анализ и тест Грейнджера на причинность и обнаружили, что наиболее значимой предсказательной силой обладает эмоция "спокойный" из GPOMS. В целом, и корреляция, и казуальность оказались статистически значимыми, хотя и значимость причинной связи оказалась достаточно низкой. Далее авторы использовали данные из Твиттера для построения предиктивной модели. Была использована нейронная сеть Self-Organizing Fuzzy Neural Network для предсказания направления рынка на основе настроения твитов; в качестве параметров модели использовались значения индекса за три предшествующих дня и различные "эмоции" из GPOMS за соответствующие значениям индекса в течении трех дней. Тренировочная выборка - период с 28 февраля 2008 по 28 ноября 2008. В качестве тестовой выборки был выбран период с первого по 19 декабря 2008 года. В итоге, авторами был достигнут уровень точности предсказания направления (Up or Down) индекса 87.6 %. Несмотря на то, что в целом использование подходящих нейронных сетей действительно могло поспособствовать улучшению прогноза, а так же то, что скорее всего GPOMS работает в достаточной степени надежно и точно, необходимо отметить, что тестовая выборка крайне мала и относиться к результатам следует с долей скептицизма.

В работе "Predicting financial markets: Comparing survey, news, twitter and search engine data" авторы применяют другой подход: сравнивается предсказательная сила и значимость различных методов получения информации о настроении участников фондового рынка. В качестве таких прокси авторы используют данные Твиттера, объемы поисковых запросов финансовых терминов в Google, тональность новостей, а также индексы, построенные на двух опросах: на Investor Intelligence, который обсуждался выше, а также ежедневный индекс DSI (Daily Sentiment Index) - краткосрочный индекс настроений участников рынка фьючерсов. Если индекс находится выше отметки 90 % или ниже 10 %, то это сигнал к тому, что вершина или дно либо скоро будут достигнуты, либо уже были достигнуты. В качестве индексов, построенных на данных Твиттера, авторы используют два индекса:

1) индекс Twitter Investor Sentiment (TIS), который попросту представляет из себя количество "бычьих" по настрою твитов деленное на сумму "бычьих" и "медвежьих" твитов;

2) Tweet Volumes of Financial Search Terms (TV-FST) - количество твитов, в которых используются финансовые термины (список терминов совпадает с теми, которые использовались при формировании параметра поисковых запросов). Для каждого полученного в итоге параметра был проведен корреляционный тест и тест причинности Грейнджера, а также была построена мультифакторная регрессия из наиболее значимых параметров. Важными для данной работы результатами является то, что авторы обнаружили, что при использовании нескольких индексов настроений, индексы, основанные на данных Твиттера оказались наиболее значимыми, а в свою очередь DSI при наличии других индикаторов (новостных и на основе Твиттера) оказывался незначимым фактором. Более того, и индексы, основанные на твиттере, и индексы новостные и поисковых запросов оказались значимы и коррелированы как с доходностью индекса DJIA, так и с показателем рыночной волатильности VIX. Важно также, что наиболее значимыми оказались именно индексы, основанные на Твиттере, но, что примечательно, TIS и TV-FST были более значимы, если рассматривались значения за 1-2 предыдущих дня.

В следущей работе, "The Effects of Twitter Sentiment on Stock Price Returns" под авторством Г. Ранко и Д. Алексовского (Ranco, Aleksovski, et al., 2015) анализируется связь настроений в Твиттере и динамики акций компаний из индекса DJIA30. Как и в работах, рассмотренных ранее, авторы применяют корреляционный анализ и тест причинности Грейнджера. Согласно результатам, приведенным в статье, связь между настроениями в Твиттере и ценовой динамикой акций имеется, хотя и слабее, чем в предыдущих работах. Отдельно следует отметить то, что авторы использовали достаточно большую выборку твитов для обучения и тестирования классификатора: общая выборка составила 1.555.770, из которых более 100.000 были отсортированы вручную людьми как "негативный", "нейтральный" или "позитивный", а 6.000 из них были отсортированы двумя независимыми экспертами. Это позволило получить классификатор тональности достаточной точности. В отличии от предыдущих работ, в данной статье авторами не ставится цель разработки предсказательной модели, но проводится событийный анализ для выявления абнормальных доходностей на основе пиков в настроениях в Твиттере, а также на основе общего количество публикаций о компании в Твиттере. Авторы так же учли проблему, что многие "всплески" в Твиттере могут быть сопряжены с традиционными событиями и новостями в жизненном цикле компании (например, публикация отчетности и превышение ожидаемого уровня прибыли компанией), в связи с чем могут быть нерелевантными для анализа непосредственно настроений в социальной сети. Исходя из этого, авторы разбили выборку на две подвыборки: общую (260 событий) и за исключением пиков в Твиттере, связанных с более традиционными событиями (таким образом, нетрадиционных событий осталось 182). В итоге было получено, что на основе уникальных событий, выявленных с помощью Твиттера действительно наличие доходности выше нормальной (CAR), однако величина ее невелика - всего 1-2 %.

Несмотря на то, что есть еще ряд примечательных работ, кажется нецелесообразным приводить их в данном обзоре, так как различия в основном заключаются в методах построения классификатора и в спецификации регрессии. Тем не менее следует отметить, что в большинстве работ применяется метод Support Vector Machines для сортировки твитов по эмоциям. Данный метод хорошо зарекомендовал себя в различных сферах, где применяется машинное обучение, а также конкретно в задачах классификации текстов и выявления их тональности. Более подробно данный вопрос будет разобран в следующей главе при разработке методологии.

Глава 2. Используемые данные

Описание данных

Данные, используемые в данной работе можно разделить на две группы: финансовые данные и данные, отражающие настроения рынка на основе социальных сетей и поисковых запросов. Финансовые данные включают в себя ежедневные котировки акций, индекса S&P 500, данные по волатильности цен акций и значений выбранного индекса, а также общие объемы торгов. Вторая группа данных включает в себя количество положительных, отрицательных и нейтральных по тональности и настроению публикаций о компании в Твиттере, общее количество публикаций о компании в Твиттере, а также объем поисковых запросов о компании в Google.

Финансовые данные были получены из баз данных Bloomberg Professional, Yahoo Finance, Google Finance. Были использованы цены закрытия и открытия на ежедневной основе во временном окне от 2 января 2015 года до 10 апреля 2017 года. Выборка компаний состоит из 22 компаний рынка США, разделенных по следующим категориям:

· IT: Apple, Amazon, Alphabet, Microsoft, Facebook

· Финансовые компании: Bank of America, JP Morgan Chase & Co, Citigroup Inc., Wells Fargo

· Телекоммуникационные компании: Verizon Communications, T-Mobile US, AT&T, Sprint

· Автомобильные компании: Ford Motor Company, General Motors

· Другие: General Electric, 3M, ExxonMobil, Chevron Corporation, McDonald's, The Coca-Cola Company, Wal-Mart Stores

Данные о трендах в поисковых запросах будет получены с помощью Google Insights for Search и Google Trends.

Выборка публикаций в Твиттере (далее - твитов) была собрана двумя способами. Первый способ: непосредственный сбор "сырых", первичных твитов с Твиттера путем использования публичных API (Application programming interface). На момент написания данной работы Твиттер предлагает два вида API для сбора твитов, которые доступны бесплатно и публично: The Search API и Streaming API. Первый позволяет выгрузить твиты по ключевым словам (в случае данной работы ключевым словом является название компании, её биржевой тикер, название ключевых продуктов компании). Однако, данные подход имеет ограничения: он позволяет выгрузить твиты только опубликованные в течении последних 7 дней, а также ограничивает количество запросов в рамках 15 минутного окна, позволяя выгружать лишь случайную подвыборку из общих доступных твитов. Другое API, Streaming API, позволяет выгружать выборку в "прямом эфире", то есть, по мере публикации твитов. Однако, данный метод так же имеет ограничения по объему доступных для выгрузки твитов: возможно скачать лишь 1 % от общего количества публикаций по ключевому слову. Очевидно, что ни тот, ни другой способ не подходят для сбора данных в рамках данной работы: для того, чтобы выгрузить достаточную выборку твитов на протяжении года необходимо ежедневно выгружать твиты непосредственно в течении этого года, что является слишком затратным способом как в плане вычислительных мощностей, так и в плане прямых денежных издержек. Другой метод - использование Enterprise API через официальны сервис Твиттера - Gnip, но, как следует из названия, данный API предназначен для компаний (в частности, Bloomberg и различные хэдж фонды используют именно этот API) и является слишком дорогим. На момент написания данной работы не был получен ответ на вопрос о том, возможно ли получить данные бесплатно (или за разумную цену) для проведения научного исследования. Таким образом, имеет место проблема доступа к первичным данным по твитам для построения индекса настроений. Таким образом, получение исторических, архивных твитов для проведения событийного анализа и построения предиктивной модели невозможно.

Однако, несмотря на то, что доступ к самим твитам невозможен (точнее, возможен, но доступ слишком дорогостоящий), оказалось возможным получить вторичные данные. Как уже отмечалось выше, Bloomberg имеет доступ к историческим данным, а также к расширенной версии Streaming API.

Несмотря на то, что через Bloomberg невозможно получить непосредственно сами твиты, тем не менее можно получить необходимые обработанные Bloomberg данные для составления индекса: доступны ежедневные данные по общему количеству твитов о компании и по количеству положительных, негативных, нейтральных твитов. Несмотря на то, что метод классификации твитов по тональности в данном случае является проприетарным, можно предположить, что точность классификации высокая, так как этими данными активно пользуются инвесторы и фонды с 2015 года (в 2015 году данные стали доступны пользователям Bloomberg Professional после заключения соглашения между Twitter и Bloomberg), да и в целом в возможности Bloomberg составления точного классификатора сомневаться не приходится. Таким образом, индекс был построен на основе исторических данных Bloomberg Professional (как и в случае с финансовыми данными, временное окно - от 2 января 2015 года до 10 апреля 2017 года).

Тем не менее видится необходимым построение собственного классификатора, который в дальнейшем может быть использован в предиктивной модели, которая будет предложена в данной работе. Использование собственного классификатора представляется полезным в силу возможности использования его в практических целях, а также для проведения будущих исследований в данном направлении. Вместе с тем, для построения классификатора необходимо иметь достаточно большую выборку твитов для тренировочной и тестовой выборок.

Проблема недостатка данных для тренировки классификатора была частично решена следующим образом: данные за последние 30 дней были собраны с помощью публичных API, а твиты для тренировочной выборки для классификатора твитов по тональности были получены на сервисе CrowdFlower (суммарно около 20 тысяч наблюдений), на сайте Sanders Analitics (5513 твитов), а также 1.600.000 твитов, которые использовались для отладки классификатора твитов Sentiment140. Несмотря на то, что масштабность последнего источника и того, что на основе его можно добиться 75 % точности классфикации твитов, наибольшую ценность представляют первые два источника в силу того, что они были предварительно вручную помечены людьми как положительные, негативные или нейтральные. Кажется логичным предположить, что верхней границей точности классификации твитов алгоритмом можно считать точность ручной классификации людьми.

Тестируемые гипотезы

Как следует из названия работы и из того, что было описано выше, целью данной работы является выявления связи между настроениями в социальной сети Twitter и поведением цены акций. В целом, необходимо установить, возможно ли получить абнормальную доходность на рынке ценных бумаг, если использовать настроения в Твиттере как фактор при принятии инвестиционных решений. Для ответа на этот вопрос следует протестировать две гипотезы:

Гипотеза 1: настроения в сети Твиттер являются прокси для поведения участников рынка, следовательно, на пиках настроений можно получать доходность/убыток, превышающий нормальный.

Гипотеза 2: использование индекса настроений в сети Твиттер позволяет увеличить точность предсказания направления цены акции по сравнению с базовой моделью.

Глава 3. Методология и результаты событийного анализа

Для обнаружения возможности получения доходности выше нормальной будет использоваться метод событийного анализа. Данный метод начал использоваться еще в начале ХХ века, однако сформировался в том виде, в котором используется и сейчас, в 1969 в работе "The adjustment of stock prices to new information" (Fama, Fisher, et al., 1969). Сфера применений событийного анализа в финансах достаточно широка: данный метод применяется для оценки эффективности сделок слияний и поглощений, для анализа эффекта сплитов на цену акций, для оценки избыточной и недостаточной реакции на новости и т.д. В общем случае, событийным анализом тестируется гипотеза о наличии реакции рынка на определенное событие, что ведет к получению абнормальной доходности или убытка. Как уже отмечалось в обзоре литературы, данный метод служит способом подтверждения или опровержения гипотезы эффективного рынка (по крайней мере, ГЭР в сильной форме). В рамках данной работы твиты и их эмоциональное содержание будут использоваться как прокси для настроений участников рынка. В таком случае, экстремальные значения тональности твитов будут отражать какое-либо событие, касающееся компании, которое, в свою очередь, ведет к "ненормальному", "эмоциональному" поведению участников рынка и, как следствие, к появлению абнормальных доходностей или убытков.

К анализу экстремальных значений количества и тональности твитов можно подходить с нескольких сторон:

1. Анализировать только пики общего количества твитов. В данном случае не производится разделения по тональности в твитах, однако экстремальное количество твитов может быть отражением какого-либо "стандартного" корпоративного события (например, публикация финансовых результатов, скандалов, презентации новых продуктов и т.д.). С одной стороны, в таком случае можно изучать непосредственно влияние самих событий традиционным событийным анализом или событийным анализом новостей. Однако, использование Твиттера имеет ряд преимуществ: в первую очередь, новости в Твиттере появляются значительно раньше, чем в традиционных медиа, что можно использовать для построения стратегий на основе ранних новостей; во-вторых, в то время как для традиционного событийного анализа необходимо выбирать события, в случае пиков Твиттера этот процесс можно автоматизировать; в-третьих, сейчас и в будущем могут появляться значимые события, влияющие на компанию, но не связанные с компанией или отраслью, и такие события так же возможно будет наблюдать как пики в твитах

2. Анализировать экстремальные объемы опубликованных твитов, разделенных по тональности на негативные и позитивные (возможно добавление нейтральных, а также более сложных эмоций). Кажется, что такой подход должен давать более значимые и существенные результаты.

3. Использовать один из двух представленных выше подходов, но фильтруя пики. Например, выбирать события, которые отражают только скандалы, только финансовые события и т.д.

В данной работе будет использоваться второй подход: события не будут фильтроваться по категориям (для больших выборок это затруднительно и в каком-то смысле имеет мало смысла: для фильтрации событий необходимо выявить, какой пик в твитах отвечает за какой тип событий, а, значит, необходимо выявить само событие в дату, на которую пришелся твит), но будут разделены по тональности на позитивные и негативные. Следует отметить, что скорее всего, значимых результатов получено не будет в связи с тем, что на данный момент в твитах содержится слишком много "шума". В машинном обучении существуют методы для классификации текстов по тональности не только по словам и словосочетаниям, но и с применением контекстуального анализа, который позволяет "очистить" данные от нерелевантных тем. Применив такой анализ для классификации твитов, скорее всего, удастся получить более качественные сигналы из твитов, а значит, возможно, и значимые результаты для событийного анализа. Однако, на момент написания данной работы доступ к достаточной выборке твитов для тренировки такого классификатора отсутствует, и построить его не представляется возможным. Более того, даже событийный анализ классических событий (сделок слияний и поглощений, сплитов) часто бывает незначим, что может указывать на эффективность рынка. Тем не менее вероятность получения значимых абнормальных доходностей существует, что создает необходимость проведения событийного анализа для выявления абнормальных доходностей.

В качестве методологической основы используются работы (Fama, Fisher, et al., 1969) и (MacKinlay, 1997). Будет использоваться следующий подход к анализу:

1) Выбор пиков, событийного окна и периода оценки вокруг пика

2) Построение модели для получения уравнения для нормальных доходностей на оценочном периоде

3) Экстраполяция модели с оценочного периода на событийного окно для получения нормальных доходностей

4) Получение абнормальной доходности (AR) на событийном окне для каждой компании

5) Подсчет кумулятивной абнормальной доходности (CAR) по всем компаниям

6) Проверка статистической значимости AR и CAR

Выбор пиков, событийного окна и периода оценки вокруг пика

Как уже отмечалось выше, в данной работе не будет производиться разделение по типу событий, в связи с чем в качестве события для анализа будет использоваться максимум опубликованных твитов за весь период. Далее, по аналогии с другими работами, использующими событийный анализ, были выбраны периоды для построения модели оценки нормальных доходностей и событийное окно. В качестве событийного окна было решено использовать интервал (-20, 20]. Выбор такого окна обусловлен тем, что оно применяется во множестве работ, в том числе в (MacKinlay, 1997). Модель оценки нормальных доходностей строилась на всех доступных данных на оценочном периоде , т.е. с момента, когда стали доступны первые наблюдения по включительно момент времени - 20 на границе с событийным окном. Для наглядности, можно представить периоды в виде диаграммы:

Рисунок 1 Диаграмма используемых временных периодов

Рисунок 2 Динамика количества публикаций о компании Apple

Источник: Bloomberg Professional и данные, полученные с использованием Twitter API

На Рисунке 2 представлено распределение позитивных твитов о компании Apple на всем доступном временном периоде. Отчетливо видно, что имеются экстремальные значения, которые в разы превосходят средний уровень объема позитивных твитов. Именно такие экстремальные пики будут рассматриваться в данной работе как события, вокруг которых будет проводиться событийный анализ.

Построение модели для получения уравнения для нормальных доходностей на оценочном периоде

Под абнормальной доходностью понимается разница между реальной, наблюдаемой доходностью и доходностью нормальной. Исходя из самого определения абнормальной доходности в рамках анализа, необходимо для начала обнаружить уровень нормальной доходности. Для этого существуют различные способы, которые сводятся к тому, что модель строится на оценочном периоде, получаются необходимые коэффициенты для построения тренда - нормального уровня доходности, который затем и экстраполируется на событийное окно, в котором осуществляется поиск наличия доходностей, отличающихся от нормальных. Самыми популярными методами моделирования нормальной доходности являются модель средней скорректированной доходности (MAR), рыночная модель (MM), CAPM, и различные многофакторные модели (APT, модификации моделей Фама и Френча, и т.д.). Выбор наиболее точной и адекватной реальности модели играет важную роль в значимости анализа: упрощенные модели могут показывать заниженные оценки ожидаемой доходности, что может вести к тому, что расхождения с реальной доходностью будут велики, т.е. будет наблюдаться абнормальная доходность даже в случаях, когда её на самом деле нет. Как уже отмечалось выше, критика работ, опровергавших гипотезу эффективного рынка с использованием событийного анализа, чаще всего как раз и заключалось в том, что в этих работах использовалась модель CAPM. Утверждалось, что данная модель неадекватно моделирует ожидаемую доходность в силу того, что упускает из виду многие значимые риск-факторы.

В связи с этим, в данной работе для моделирования ожидаемой доходности будет применяться пятифакторная модель Фама и Френча (Fama, French, 2014). Помимо факторов, использовавшихся в трехфакторной модели (Fama, French, 1993), были добавлены два дополнительных риск-фактора:

1) RMW (Robust Minus Weak) - фактор, отражающий разницу в доходностях диверсифицированных портфелей, состоящих из компаний с исторически стабильной, надежной (robust) прибыльностью и из компаний со слабой (weak) прибыльностью.

2) CMA (Conservative Minus Aggressive) - фактор, отражающий разницу между средней доходностью "консервативных" инвестиционных портфелей и средней доходностью "агрессивных" инвестиционных портфелей.

Таким образом, модель (для каждой компании) имеет вид:

=0

Коэффициенты и константа оцениваются при помощи линейной регрессии (МНК). Ожидается, что данная модель будет в значительной степени "покрывать" факторы риска и что если абнормальная доходность и будет иметь место, то размер этой доходности (или убытка) будет невелик.

Нулевой гипотезой будет отсутствие влияния событий, отражаемых пиками в объеме твитов, на доходности акций компаний.

Экстраполяция модели с оценочного периода на событийного окно для получения нормальных доходностей; получение абнормальной доходности (AR) и кумулятивной абнормальной доходности (CAR) для компаний

После того, как на оценочном были построены модели и получены коэффициенты при каждом факторе, были получены ожидаемые, нормальные доходности на событийном окне для каждой компании. Далее, были высчитаны аномальные доходности для каждой компании как разница между фактически наблюдаемой в момент времени t доходностью (R) и нормальной для момента t доходностью из модели (E [R]):

В свою очередь, формула подсчета кумулятивной абнормальной доходности (CAR) имеет вид:

Проверка статистической значимости AR и CAR

Для проверки статистической значимости будет использоваться факт, что под нулевой гипотезой абнормальные доходности имеют нормальное распределение (Campbell, MacKinlay, 1997).

,

где ,

соответственно, для ,

,

В других работах (MacKinlay, 1997) в формулу дисперсии абнормальных доходностей так же прибавляют поправку на ошибки, связанные с качеством выборки, однако, в той же работе (MacKinlay, 1997) отмечается, что для разумно больших выборок поправка стремится к нулю. В случае данной работы наблюдений в оценочном периоде больше 300, что в целом лишает смысл использования поправки.

Таким образом, для проверки возможности отвергнуть нулевую гипотезой можно использоваться традиционные тесты. Вместе с тем, истинные значения неизвестны, в связи с чем необходимо использовать оценку для дисперсии . Так как дисперсия абнормальной доходности сводится к дисперсии случайной ошибки модели, то будет использоваться традиционная оценка стандартной ошибки случайной величины:

, где

После того, как были получены все указанные величины (а именно значения AR и CAR с соответствующими дисперсиями), можно оценить статистическую значимость, посчитав тестовую статистику :

Как можно заметить на представленной ниже таблице (Таблица 1), на событийном окне большинство наблюдений незначимы, кумулятивные абнормальные доходности каждой компании также незначимы. В целом, аналогичная картина наблюдается и для оставшихся 19 компаний в выборке.

Таблица 1 Посчитанные значения событийного анализа для трех компаний

В указанных ранее работах, посвященных событийному анализу, авторы анализируют и агрегированные показатели по компаниям: для каждого периода в событийном окне считается среднее значение абнормальной (AAR) доходности и соответствующее значение кумулятивной абнормальной доходности (CAAR).

Дисперсии для построения тестовой статистики были получены путем преобразований формулы:

Получив значения этих показателей и предполагая, что является оценкой для , возможно посчитать значение тестовой статистики для средней по компаниям кумулятивной абнормальной доходности (CAAR), :
...

Страница:

1
2

реферат "Событийный анализ. Выбор предсказательной модели" скачать

Подобные документы

Построение трендовой модели
Данные для разработки трендовой модели изменения объемов грузооборота предприятий транспорта. Проверка гипотезы на наличие тенденции. Понятие и обоснование периода упреждения прогноза. Выбор оптимальной прогнозной модели по коэффициенту детерминации.

курсовая работа [1008,3 K], добавлен 01.10.2014

Регрессионный анализ. Факторный эксперимент
Построение уравнения регрессии, учитывающего взаимодействия факторов, проверка полученной модели на адекватность. Построение математической модели и нахождение численных значений параметров этой модели. Вычисление коэффициентов линейной модели.

курсовая работа [1005,0 K], добавлен 07.08.2013

Исследование эконометрической модели с использованием пакета Eviews
Процесс построения и анализа эконометрической модели в пакете Econometric Views. Составление, расчет и анализ существующей проблемы. Проверка адекватности модели реальной ситуации на числовых данных в среде Eviews. Построение регрессионного уравнения.

курсовая работа [1,3 M], добавлен 17.02.2014

Основы регрессионного анализа. Парная линейная регрессия
Основные методы анализа линейной модели парной регрессии. Оценки неизвестных параметров для записанных уравнений парной регрессии по методу наименьших квадратов. Проверка значимости всех параметров модели (уравнения регрессии) по критерию Стьюдента.

лабораторная работа [67,8 K], добавлен 26.12.2010

Построение регрессионной модели экономической деятельности компаний нефтегазовой отрасли
Выбор факторных признаков для построения регрессионной модели неоднородных экономических процессов. Построение диаграммы рассеяния. Анализ матрицы коэффициентов парной корреляции. Определение коэффициентов детерминации и средних ошибок аппроксимации.

контрольная работа [547,6 K], добавлен 21.03.2015

Построение двухфакторной модели, моделей парной линейной прогрессии и множественной линейной регрессии
Выбор факторных признаков для двухфакторной модели с помощью корреляционного анализа. Расчет коэффициентов регрессии, корреляции и эластичности. Построение модели линейной регрессии производительности труда от факторов фондо- и энерговооруженности.

задача [142,0 K], добавлен 20.03.2010

Эконометрика. Корреляционный анализ
Построение уравнения регрессии. Эластичность степенной модели. Уравнение равносторонней гиперболы. Оценка тесноты связи, качества и точности модели. Индекс корреляции и коэффициент детерминации. Оценка статистической значимости регрессионных уравнений.

курсовая работа [1,3 M], добавлен 25.03.2015

Зависимость цены от качества
Расчет матрицы парных коэффициентов корреляции и статистической значимости коэффициентов регрессии. Оценка статистической значимости параметров регрессионной модели с помощью t-критерия. Уравнение множественной регрессии со статистически факторами.

лабораторная работа [30,9 K], добавлен 05.12.2010

Анализ предприятий одной отрасли РФ
Проведение анализа экономической деятельности предприятий отрасли: расчет параметров линейного уравнения множественной регрессии с полным перечнем факторов, оценка статистической значимости параметров регрессионной модели, расчет прогнозных значений.

лабораторная работа [81,3 K], добавлен 01.07.2010

Детерминанты рыночных мультипликаторов
Методология эмпирического анализа детерминант рыночных мультипликаторов. Спецификация модели и выборка эмпирического исследования. Статистика и анализ корреляции детерминант и рыночных мультипликаторов. Модели влияния детерминант на мультипликаторы.

дипломная работа [2,5 M], добавлен 30.01.2016

Построение многофакторной модели. Прогнозирование по однофакторной модели
Построение эконометрической модели, описывающей линейную зависимость результативного признака факторов, входящих в нее, методом матрицы. Проверка ее на адекватность по критерию Фишера. Определение дисперсии, ковариации, корреляции и детерминации.

контрольная работа [180,5 K], добавлен 03.12.2014

Статистическая значимость в парной линейной регрессии
Понятие регрессии. Оценка параметров модели. Показатели качества регрессии. Проверка статистической значимости в парной линейной регрессии. Реализация регрессионного анализа в программе MS Excel. Условия Гаусса-Маркова. Свойства коэффициента детерминации.

курсовая работа [233,1 K], добавлен 21.03.2015

Построение эконометрической модели производственной функции и ее анализ в среде Excel
Статистический анализ по выборке. Проведение регрессионного анализа исходных данных и выбор аналитической формы записи производственной функции. Выполнение экономического анализа в выбранной регрессионной модели на основе коэффициентов эластичности.

курсовая работа [2,2 M], добавлен 22.07.2015

Построение регрессионной модели по панельным данным в пакете STATISTICA
Проектирование регрессионной модели по панельным данным. Скрытые переменные и индивидуальные эффекты. Расчет коэффициентов однонаправленной модели с фиксированными эффектами по панельным данным в MS Excel. Выбор переменных для построения данной регрессии.

курсовая работа [2,3 M], добавлен 26.08.2013

Оптимальное управление запасом
Описание проблемы оптимального управления запасами предприятия. Разработка модели оптимальной стратегии заказа новой партии товара. Основные стоимостные характеристики системы для построения модели. Программная реализация, результаты выполнения программы.

курсовая работа [2,7 M], добавлен 09.09.2017

Анализ модели на чувствительность
Определение экономических рисков разными авторами. Основные способы анализа чувствительности модели. Суть и технология анализа чувствительности модели как способ восстановления финансового равновесия, принятия оптимального решения, недостатки метода.

курсовая работа [205,0 K], добавлен 27.05.2009

Определение зависимости цены товара
Построение линейной модели зависимости цены товара в торговых точках. Расчет матрицы парных коэффициентов корреляции, оценка статистической значимости коэффициентов корреляции, параметров регрессионной модели, доверительного интервала для наблюдений.

лабораторная работа [214,2 K], добавлен 17.10.2009

Комплексный анализ рыбной отрасли
Характеристика рыбоперерабатывающей отрасли РФ. Эконометрический анализ выпуска рыбной продукции. Построение производственных функций. Построение статистической и динамической модели Леонтьева. Учет инфляции в этой модели. Построение модели Солоу.

курсовая работа [628,1 K], добавлен 06.03.2008

Анализ накладных расходов
Построение уравнения множественной регрессии в линейной форме с полным набором факторов, отбор информативных факторов. Проверка значимости уравнения регрессии по критерию Фишера и статистической значимости параметров регрессии по критерию Стьюдента.

лабораторная работа [217,9 K], добавлен 17.10.2009

Построение и анализ однофакторной эконометрической модели
Построение и анализ однофакторной и многофакторной эконометрической модели. Вычисление парных и частичных коэффициентов корреляции. Проверка адекватности модели по критерию Фишера. Исследование наличия мультиколлениарности по алгоритму Феррара-Глобера.

контрольная работа [172,4 K], добавлен 28.05.2010

Другие документы, подобные "Событийный анализ. Выбор предсказательной модели"

главная

рубрики

по алфавиту

вернуться в начало страницы

вернуться к началу текста

вернуться к подобным работам

Рубрики

По алфавиту

Закачать файл

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.

Событийный анализ. Выбор предсказательной модели

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Введение

Для достижения поставленной цели были сформулированы следующие задачи:

· Изучить имеющуюся научную литературу на схожую тематику

· Составить выборку компаний, для которых будут строиться модели; собрать необходимые данные для каждой компании

· Составить различные модификации индексов настроений в сети Твиттер

· Провести событийный анализ на основе событий, составленных вокруг экстремальных значений количества публикаций твитов

· Выбрать лучшую спецификацию для построения предсказательной модели

· Провести анализ влияния полученного индекса на точность предсказания

· Сформулировать выводы на основе полученных результатов

Объектом исследования в настоящей работе является динамика курсовой стоимости акций компаний.

Предметом исследования является влияние настроений в социальной сети Твиттер на динамику курсовой стоимости акций компаний.

Академическая новизна данной исследовательской работы выражена в трех основных аспектах:

· Оценка влияния настроений в Твиттере на динамику акций как индивидуальных компаний, так и групп компаний, объединенных по индустриальной принадлежности

· Использование больших массивов данных, чем в работах на схожие темы

Глава 1. Обзор существующей научной литературы

· Representativeness - склонность присваивать вероятности к неизвестным событиям на основе известных событий (Kahneman, Tversky, 1972)

· Anchoring - склонность придавать больший вес информации, полученной раньше, даже если новая информация опровергает старую (Kahneman, Tversky, 1974)

· Conservatism - склонность изменять уже сложившиеся взгляды и шаблоны мышления медленно, даже если новые реалия и информация требуют изменений (Edwards, 1968)

1) индекс Twitter Investor Sentiment (TIS), который попросту представляет из себя количество "бычьих" по настрою твитов деленное на сумму "бычьих" и "медвежьих" твитов;

Глава 2. Используемые данные

Описание данных

· IT: Apple, Amazon, Alphabet, Microsoft, Facebook

· Финансовые компании: Bank of America, JP Morgan Chase & Co, Citigroup Inc., Wells Fargo

· Телекоммуникационные компании: Verizon Communications, T-Mobile US, AT&T, Sprint

· Автомобильные компании: Ford Motor Company, General Motors

· Другие: General Electric, 3M, ExxonMobil, Chevron Corporation, McDonald's, The Coca-Cola Company, Wal-Mart Stores

Данные о трендах в поисковых запросах будет получены с помощью Google Insights for Search и Google Trends.

Тестируемые гипотезы

Гипотеза 2: использование индекса настроений в сети Твиттер позволяет увеличить точность предсказания направления цены акции по сравнению с базовой моделью.

Глава 3. Методология и результаты событийного анализа

К анализу экстремальных значений количества и тональности твитов можно подходить с нескольких сторон:

В качестве методологической основы используются работы (Fama, Fisher, et al., 1969) и (MacKinlay, 1997). Будет использоваться следующий подход к анализу:

1) Выбор пиков, событийного окна и периода оценки вокруг пика

2) Построение модели для получения уравнения для нормальных доходностей на оценочном периоде

3) Экстраполяция модели с оценочного периода на событийного окно для получения нормальных доходностей

4) Получение абнормальной доходности (AR) на событийном окне для каждой компании

5) Подсчет кумулятивной абнормальной доходности (CAR) по всем компаниям

6) Проверка статистической значимости AR и CAR

Выбор пиков, событийного окна и периода оценки вокруг пика

Рисунок 1 Диаграмма используемых временных периодов

Рисунок 2 Динамика количества публикаций о компании Apple

Источник: Bloomberg Professional и данные, полученные с использованием Twitter API

Построение модели для получения уравнения для нормальных доходностей на оценочном периоде

Таким образом, модель (для каждой компании) имеет вид:

=0

Нулевой гипотезой будет отсутствие влияния событий, отражаемых пиками в объеме твитов, на доходности акций компаний.

В свою очередь, формула подсчета кумулятивной абнормальной доходности (CAR) имеет вид:

Проверка статистической значимости AR и CAR

,

где ,

соответственно, для ,

,

, где

Таблица 1 Посчитанные значения событийного анализа для трех компаний

Дисперсии для построения тестовой статистики были получены путем преобразований формулы:

Подобные документы