Событийный анализ. Выбор предсказательной модели

Методология и результаты событийного анализа. Выбор пиков, событийного окна и периода оценки вокруг пика. Проверка статистической значимости. Методология построения предсказательной модели. Описание используемых факторов. Модели для компаний и групп.

Рубрика Экономико-математическое моделирование
Вид реферат
Язык русский
Дата добавления 29.06.2017
Размер файла 1,9 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

По результатам вычислений для позитивных твитов оказался незначимым показателем, что может говорить о том, что, при условии эффективности построения событийного анализа на пятифакторной модели Фама и Френча, использование пиков в объеме позитивных твитов в качестве событий ведет к незначимым и в то же время к небольшим абнормальным доходностям. Примечательно, что использование негативных твитов также не дает статистически значимых результатов, однако, например, средняя кумулятивная доходность значительно выше, чем в случае позитивных твитов: , что выше чем стандартное отклонение для CAAR (s. e. составило 0.016). На основании этого, можно сделать предположение, что негативные твиты несут в себе более "сильные" сигналы, чем общее количество твитов или только позитивные твиты. Это предположение в дальнейшем можно использовать при построении предсказательной модели.

Тем не менее следует заключить, что "слепое" использование пиков в Твиттере как потенциальных событий, вокруг которых возможно было бы наблюдать доходности выше нормальных, не ведет к значимым результатам. Нулевая гипотеза об отсутствии влияния событий на доходность не отвергается. Вместе с тем, кажется возможным, как уже отмечалось выше, что при разработке метода фильтраций пиков как событий с более продвинутыми методами классификации твитов по тональности, возможно будет добиться возможности отвержения нулевой гипотезы.

Глава 4. Методология построения предсказательной модели

Описание используемых факторов

В данной главе будет предложена методология построения предсказательной модели направления динамики акций на основе традиционных финансовых факторов, а также с включением определенного индекса настроений в Твиттере как фактора в предсказательную модель. Как уже отмечалось в предыдущих разделах, в данной работе выдвигается гипотеза, о том, что использование индекса настроений поможет улучшить предсказательную точность модели.

Тем не менее прежде чем перейти к описанию методологии самой модели, необходимо составить индекс настроений. Чаще всего, как отмечалось в обзоре литературы, используется простой индекс, который представляет из себя отношение позитивных или негативных твитов к сумме позитивных и негативных твитов. В связи с широким применением такого подхода не только к составлению индекса настроений в социальных сетях, но и индексов настроений и уверенности в принципе, в данной работе также будет применяться аналогичный индекс (далее в моделях - Seninx).

Другим индексом, отражающим настроение в социальной сети, будет служить индекс полярности настроений, Pol:

Однако, возможно, что настроения в сети будут оказывать влияние на динамику акций не сразу, но с определенной задержкой. В связи с этим, модели будут тестироваться с включением индексов с различными лагами в 1-3 дня.

Помимо индексов настроений в сети, в моделях в качестве факторов будут использоваться следующие факторы:

· Доходность - доходности акций по цене закрытия (доходность высчитывается без учета дивидендов)

· Momentum - показатель величины изменения сегодняшней цены относительно цен i-дневной давности. Как и в случае с индексами, будут использоваться различные модификации моментума с различными n

· lag (m) - доходность акции с лагом в m дней

· S&P 500 Close - значение закрытия индекса S&P 500. Данные индекс был выбран в силу того, что в выборке участвуют компании различных отраслей, например, не все компании в выборке входят индекс Dow Jones. В связи с этим, было решено, что более "широкий" индекс лучше будет влиять на качество и точность предсказаний

· S&P 500 Volume - объем торгов индекса. Выбран по тем же причинам, что и цены закрытия

· Волатильность - волатильность доходности акций и индекса S&P 500

· GoogVol - объем поисковых запросов о компании в Google

· Direction - направление цены/доходности относительно предыдущего периода (Up/Down)

На данном этапе, еще не приступая к моделированию, можно сделать несколько предположений о том, как факторы будут влиять на доходность и как будут взаимодействовать друг с другом: во-первых, кажется, что на имеющихся данных можно будет получить точность выше, чем точность случайного прогноза (50 %), так как выборка достаточно мала (несмотря на то, что больше, чем в аналогичных работах); во-вторых, скорее всего, максимальный значимый лаг доходности будет примерно 3-4 дня (на основе прошлого опыта автора данной работы); в-третьих, вероятно, сигналы, которые несут в себе индексы настроений Твиттера во многом будут пересекаться с сигналами из поисковых запросов, так, добавление GoogVol поверх индексов настроений вряд ли будет улучшать предсказательную точность; последнее предположение заключается в том, что с большой долей вероятности, лаг доходности в 1 и/или 2 дня и моментум будут главными объясняющими переменными, которые будут обеспечивать наибольшую долю в точности прогноза. Тем не менее, если какой-либо из индексов настроений будет улучшать точность в пределах <1 %, это будет считаться успехом в рамках данной работы. Вместе с тем, хотя и будут применяться методы обеспечения стабильности результатов, которые будут описаны ниже, но следует отметить, что наблюдения по Твиттеру были доступны начиная с 2015 года, таким образом, будут использованы данные только за период в 25 месяцев, т.е. примерно 570 наблюдений для каждой компании (поделенные в пропорции 70%/30% на тренировочную и тестовую выборки соответственно), если исключить нерабочие биржевые дни. Для более состоятельных и стабильных результатов необходимо иметь как минимум более 1000 наблюдений по каждой компании, однако это невозможно в силу недоступности данных. В связи с этим, необходимо относиться к результатам моделей с определенной долей осторожности, как и в случае других работ, изучающих влияние публикаций в Твиттере на финансовые показатели.

Выбор предсказательной модели

Как уже не раз отмечалось выше, в данной работе будет предпринята попытка построить предсказательную модель динамики курса стоимости акций, однако, целью является не предсказание самой цены в следующем периоде, но предсказание направления - Up-or-Down предсказание:

· Up - в периоде t+1 цена/доходность акции повысится в сравнении с периодом t

· Down - в периоде t+1 цена/доходность акции понизится в сравнении с периодом t.

Для целей такого рода предсказаний можно использовать класс регрессионных моделей, решающих проблемы классификации. Например, логистическую регрессию (Logit), метод опорных векторов (Support Vector Machine, SVM), а также различные формы дискриминантного анализа. Несмотря на большую сложность, во многих задачах классификации, более сложные модели, в том числе SVM и методы дискриминантного анализа, не дают значительных преимуществ в сравнении с логит-моделью, зачастую уступая ей. Использование этих методов имеет смысл при больших выборках, при большем количестве факторов, при нелинейной связи с зависимой переменной с факторами (однако, также существуют нелинейные формы логит-модели), при наличии близкого к идеальному распределению данных между классифицируемыми данными (в таком случае логит-модель неприменима и стоит применять дискриминантный анализ). Наиболее предпочтительными моделями для финансового прогнозирования являются метод опорных векторов и логистическая регрессия, однако, в случае данной работы использование метода опорных векторов нецелесообразно в силу относительно малого размера имеющейся выборки. Таким образом, в целях построения предсказательной модели в данной работе будет применяться логистическая регрессия.

Здесь и далее в качестве теоретической основы используются учебники по машинному и статистическому обучению (Hastie, Tibshiran, 2001; Hastie, Tibshiran, 2013).

С помощью логистической регрессии будет моделироваться вероятность того, что в следующем периоде цена/доходность повысятся, или:

В логистической регрессии для моделирования этой вероятности используется логистическая функция, которая, в отличии от линейной регрессии позволяет избежать проблем с вероятностями выше единицы и/или отрицательными вероятностями:

После определенных преобразований и взятия логарифма, функция принимает вид:

Коэффициенты логистической регрессии оцениваются на данных с помощью метода максимального правдоподобия, а не метода наименьших квадратов. Для логистической функции от одной переменной, функция максимального правдоподобия имеет вид:

Оценки коэффициентов при объясняющих переменных получаются максимизацией функции максимального правдоподобия.

Логистическая регрессия будет строиться на части имеющихся данных: для каждой компании выборка будет делиться на две части - на тренировочную и на тестовую выборки. Сама регрессия будет строиться на тренировочной выборке, таким образом, коэффициенты будут получены на основе только тренировочной выборки, но экстраполяция и предсказание будут делаться на тестовую выборку. Деление выборки необходимо для того, чтобы избежать проблемы переобучения машины/классификатора: если натренировать классификатор на полной выборке и пытаться оценить ее точность на части полной выборки, то качество прогноза будет завышено, так как по данным этой подвыборки регрессия уже строилась. Грубо говоря, классификатор "видел" эти данные, в связи с чем может быть подобрана модель, которая максимально хорошо описывает имеющуюся выборку данных. Это может быть достигнуто усложнением модели и спецификации, включением различных факторов и функциональных форм факторов. Вместе с тем, такая "заточенная" под конкретную выборку модель плохо описывает общую совокупность данных и/или новые данные. Для этого и производится деление на две выборки: точность регрессии на тестовой выборке (по которой регрессия не строилась и не "видела" данные с нее) может служить относительно надежным прокси для оценки точности регрессии на генеральной совокупности или на новых данных. В приложении к теме данного диплома, это значит, что при появлении данных за будущие периоды, регрессия, в идеале, все еще будет давать относительно разумные оценки коэффициентов и относительно разумную точность прогноза. Однако, как уже отмечалось выше, следует иметь ввиду, что имеющийся в распоряжении массив данных мал, необходимо с осторожностью относиться к результатам.

Следующим после выбора модели для построения прогноза шагом является подбор оптимально спецификации выбранной модели. В качестве критериев выбора спецификации признаны: сумма ошибок классификации на тестовой выборке, MSE (mean squared error) регрессии на тестовой выборке, среднюю ошибку кросс-валидации, статистика Мэллоу (Mallow's Cp).

Для выбора наилучшей спецификации существует множество различных подходов, наиболее популярные среди них: кросс-валидация, Best subset selection, backward stepwise selection (назадсмотрящий (или обратный) пошаговый выбор лучшей спецификации) и forward stepwise selection (впередсмотрящий (или прямой) пошаговый выбор лучшей спецификации).

Кросс-валидация - в рамках данного метода, тренировочная выборка делится на k случайных, равных "кусков". На каждом шаге кросс-валидации выбирается один из этих "кусков", который играет роль тестовой выборки в рамках кросс валидации. На оставшихся (k-1)"кусках" данных строится регрессия, которая затем экстраполируется на псевдотестовую в рамках кросс-валидации. Полученное при этом значение ошибки классификации/предсказания (т.е. среднее значения количества раз, когда предсказанное значение и реальное значение предсказываемой переменной не совпали) может служить прокси для истинной тестовой ошибки в рамках полной имеющейся выборки. Ошибкой кросс-валидации, таким образом, является средняя по k "кускам" ошибка классификации/предсказания. Иными словами, если имеется тренировочная выборка с n наблюдениями, которая делится на k "кусков", каждый размером в m, то ошибка кросс-валидации имеет вид:

После того, как были получены значения ошибки кросс-валидации для всех анализируемых спецификаций, выбирается та, у которой ошибка минимальна.

Best subset selection - данный метод заключается в выборе наиболее эффективной спецификации модели среди всех доступных при заданном количестве факторов спецификациях. Иными словами, в рамках данного метода сравниваются все доступные комбинации всех факторов. Лучшая спецификация выбирается в два этапа:

1. Начиная с нулевой модели (модель без переменных, только константа), для каждого количества факторов k в модели считается модель с минимальным RSS (residual sum of squares) или, соответственно, с максимальным . Таким образом, если имеется k объясняющих переменных, то получаются модели, содержащие 1, 2… (k-1), k переменных.

2. Затем, среди полученных спецификаций выбирается лучшая на основе либо минимальной ошибки кросс-валидации, либо минимального Mallow's Cp (есть и другие критерии, однако, в рамках данной работы были выбраны эти два, определение Mallow's Cp будет представлено ниже).

Очевидно, что данный метод неэффективен в плане временных затрат и в плане требуемой вычислительной мощности, если количество факторов велико. В рамках данной работы применение метода оправдано.

Backward stepwise selection - данный метод частично упрощает вычисление лучшей спецификации, если сравнивать с Best subset selection. Обратный пошаговый выбор так же можно разбить на два шага:

1. На первом шаге строится полная спецификация модели, включающая все доступные факторы k. Затем, поочередно из модели удаляется один из факторов, приводя таким образом к модели с (k-1) факторам. Среди всех спецификаций, содержащих (k-1) фактор, выбирается лучшая на основе RSS или . И так шаг за шагом, пока не будет достигнута нулевая модель без объясняющих переменных.

2. Среди всех полученных спецификаций выбирается лучшая на основе либо минимальной ошибки кросс-валидации, либо минимального Mallow's Cp.

Forward stepwise selection (Прямой пошаговый выбор) - как следует из названия, данный метод обратен предыдущему. Выбор оптимальной спецификации осуществляется по следующему алгоритму:

1. Начиная на первом шаге с нулевой модели, на каждой последующей итерации в модель добавляется по одной объясняющей переменной. Также, как и в предыдущих методах, на каждом шаге для заданного количества переменных в спецификации выбирается лучшая на основе RSS или . Итерации продолжаются, пока не будут исчерпаны переменные.

2. Среди всех полученных спецификаций выбирается лучшая на основе либо минимальной ошибки кросс-валидации, либо минимального Mallow's Cp.

В данной работе для выбора оптимальной спецификации и для определения вхождения в оптимальную спецификацию индекса настроений в Твиттере, будут применяться метод кросс-валидации, backward selection и метод best subset selection. Для методов backward selection и best subset selection выбор лучшей финальной спецификации будет производиться на основе статистики Mallow's Cp, который вычисляется по формуле:

После того, как была выбрана оптимальная спецификация и были произведены последующие вычисления, необходимо оценить точность предсказания. Для оценки точности предсказания в данной работе будет приводиться таблица распределения предсказаний, которая покажет истинные (для которых предсказания и фактическое значение совпали) предсказания Up, истинные предсказания Down, ложные предсказания Up, ложные предсказания Down.

Непосредственно под термином "точность" или "accuracy" будет пониматься следующее значение:

Помимо данных показателей точности будут применяться кривая ROC и показатель AUC (area under the curve). ROC кривая показывает соотношение правильно классифицированных по признаку объектов против неверно классифицированных объектов; чем ближе кривая ROC к левому верхнему углу графика, тем более точным признается классификатора/предсказательная модель. AUC - площадь графика, находящегося под кривой, по сути представляет численное представление точности с помощью ROC кривой.

Таким образом, применяя представленные и разобранные выше методы, можно представить следующий методологический план построения предиктивной модели:

1. На первом этапе будет произведен простой графический анализ в попытке визуального выявления наиболее важных для обеспечения точности переменных

2. Будут применены методы выбора спецификации оптимальной предсказательной модели на основе методов машинного обучения (Best subset selection, Backward stepwise selection, кросс-валидация)

3. После выбора оптимальных спецификаций, модели будут использованы на имеющихся данных с включением одного или нескольких (в зависимости от результатов шага 2) индексом настроений в Твиттере и без индекса

4. Для каждого вида моделей (с индексом и без индекса) будут измерены точности прогнозов с помощью представленных выше метрик, а также с помощью кривой ROC

5. Если точность предсказания увеличивается при использовании индекса настроений, то делается вывод о существовании влияния настроений на динамику курса акций

Глава 5. Результаты прогнозирования

Индивидуальные предсказательные модели для компаний

В данном разделе будет применен методологический план, описанный в предыдущем разделе. Глава будет разделена на две части:

· Построение индивидуальных моделей для компаний из выборки

· Объединение компаний в группы по индустриям, по которым и будут построены предсказательные регрессионные модели.

Необходимо определить, какую спецификацию следует исследовать. Для этого, в соответствии с планом, будет проведен графический анализ переменных. В силу того, что количество потенциальных переменных велико, на рисунке снизу будут отображены не все, а предварительно определенные как наиболее вероятные кандидаты в финальную спецификацию.

Рисунок 3. Попарное распределение переменных

На рисунке 3 представлены попарные распределения переменных, однако цвет наблюдений закодирован в соответствии с соответствующим значением предсказываемой переменной Direction: синий цвет - Down, коралловый цвет - Up. Исходя из представленного графика можно сделать вывод: наиболее важными объясняющими переменными для модели будут моментум и доходность с лагом (т.к. наиболее явное разделение по цветам). Среди различных модификаций использованных моментумов, моментум с лагом 3 оказался наиболее значимым и именно он отражен на графике. По остальным переменным сделать однозначных выводов невозможно, необходим дальнейший анализ.

В первую очередь, будет использован тест Best subset selection, описанный ранее. Ниже будут представлены графики проведенных тестов для различных компаний. Черный цвет на графике обозначает включение в спецификацию переменной, белый - отсутствие в модели переменной. Модель с минимальным Cp будет считаться лучшей моделью.

Рисунок 4 Выбор спецификации для компании Google

Рисунок 5 Выбор спецификации для компании Walmart

Как можно заметить, в случае компании Google ни один из факторов, так или иначе отражающий настроения в социальной сети Твиттер не попал в лучшую спецификацию по методу Best subset selection.

Рисунок 6 Выбор спецификации для компании T-Mobile US

Однако, следует заметить, что для большинства компаний переменная полярности настроений с лагом в 1 день входит в лучшую модель. На рисунках 5 и 6 будут представлены результаты выбора спецификации для телекоммуникационной компании T-Mobile US и крупнейшего ритейлера в США - Walmart. Видно, что для обеих компаний полярность значима, а для Walmart следует использовать и общее количество твитов о компании.

Рисунок 7. Выбор спецификации для компании Facebook

В большинстве случаев, когда полярность включалась в модель, помимо неё ожидаемо включались моментум с лагом 3 и доходности с однодневным лагом. Модель, состоящая из этих трех факторов, встречалась как лучшая среди компаний чаще всего.

Рисунок 8 Выбор спецификации для компании Facebook

Похожие результаты были достигнуты и с помощью метода Backward stepwise selection. Именно эти три фактора встречались чаще всего. Более того, часто эти два метода согласовывались в том, какая спецификация для данной компании является лучшей. Для примера, на рисунках представлены графики обоих методов для компании Facebook. Как можно заметить, для обоих методов графики идентичны.

Последним шагом при выборе оптимальной модели стало использование кросс-валидации для определения спецификации модели с наименьшей ошибкой кросс-валидации, и, следовательно, наиболее оптимальной спецификации. Применение данного метода показало, что наиболее часто среди компаний наилучшей спецификацией оказывались две спецификации: модель с Momentum, lag1, lagPol и модель, состоящая только из Momentum, lag1. То, что все три метода предлагают для многих компаний спецификации с индексом полярности настроений в Твиттере в качестве оптимальной, указывает на то, что данный фактор действительно влияет на динамику курса акции.

После использования всех методов выбора оптимальной классификации, можно построить предиктивную модель. Для каждой компании была использована модель, которая предлагалась как оптимальная одним или несколькими из предыдущих методов выбора спецификации. Далее, после построения модели заданной спецификации, был высчитан показатель точности предсказания. Последним этапом стал подсчет точности предсказания аналогичной модели, но без того или иного индекса (почти во всех случаях lagPol - индекс полярности настроений с лагом в один день), для того, чтобы определить, насколько улучшается прогноз при добавлении индекса настроений. Для примера, ниже будет представлена таблица посчитанных значений для 4 компаний. Примечательно, что для некоторых компаний, например, как в представленном ниже случае для Chevron, точность прогноза по обеим моделям совпала. Тем не менее это может быть связано с относительно маленьким размером выборки.

Таблица 2 Точность прогноза для различных компаний

Точность прогноза

Amazon

Bank of America

Sprint

Chevron

С индексом полярности

0.82443

0.84733

0.84733

0.87023

Без индекса полярности

0.81679

0.83969

0.83206

0.87023

Источник: Расчеты автора в R

В среднем по общей выборке компаний, среднее значение точности прогноза для моделей с индексом полярности - 0.8351839, а для моделей без полярности - 0.8310201. Таким образом, в среднем по выборке, включение индекса улучшает прогноз на 0.4%.

Ниже представлены две метрики ROC и AUC для компании Facebook, соответствующий AUC составил 0.9. Несмотря на то, что на основе этих метрик можно сделать вывод о высоком качестве прогноза, следует относиться с осторожностью к результатам, как уже отмечалось не раз, по причине размера выборки.

Рисунок 9 ROC кривая для Facebook

Предсказательные модели для групп компаний

Далее, аналогичные расчеты и действия были применены для различных групп компаний. Компании были собраны в группы по индустрии, всего получилось три группы:

1. IT компании: Apple, Amazon, Facebook, Microsoft. Тренировочной выборкой послужили первые три компании, а тестовой - Microsoft.

2. Финансовые компании: Bank of America, Wells Fargo, JPMorgan Chase, Citibank. Тренировочной выборкой послужили первые три компании, а тестовой - Citibank.

3. Телекоммуникационные компании: Sprint, AT&T, Verizon, T-Mobile US. Тренировочной выборкой послужили первые три компании, а тестовой - T-Mobile US.

Рисунок 10 Выбор спецификации модели для финансовой индустрии

По результатам всех трех используемых методов выбора спецификации оказалось, что для обозначенных групп полярность настроений в сети Твиттер входит в лучшую спецификацию у компаний IT и Телекоммуникационной индустрии. Справа представлен график Backward Stepwise Selection для финансовой индустрии. Для компаний IT и Телекоммуникационной индустрии были построены соответствующие модели, а также посчитаны метрики, отражающие точность прогноза.

Таблица 3. Точность прогноза для индустрий

Точность прогноза

IT

Телекоммуникации

С индексом полярности

0.83099

0.83451

Без индекса полярности

0.82923

0.84331

Источник: Расчеты автора в R

Примечательно, что AUC для индустрии IT так же составил близкое к 0.9 значение, AUC = 0.907. Соответствующая ROC кривая представлена ниже.

Рисунок 11 ROC кривая для IT индустрии

В итоге, основываясь на имеющихся данных, можно заключить, что в большинстве случаев включение в предсказательную модель индекса полярности настроений в сети Твиттер действительно увеличивает предсказательную силу модели, но не для всех компаний и не для всех индустрий. Можно заметить, что для компаний, о которых часто идут обсуждения в сети, в частности о качестве продуктов компании или услуг, либо в целом о компании, увеличение предсказательной силы наблюдается чаще, чем для компаний, о которых пишут редко и/или только новости. Это наталкивает на вывод, что с дальнейшим развитием социальных сетей, а также с более обширным применением инвесторами различных индексов, основанных на социальных сетях типа Twitter, эта связь будет усиливаться. На данный же момент, можно сделать вывод, что индексы настроений надежнее применять для компаний, которые так или иначе связаны с интернетом: IT компании, телекоммуникационные компании, компании, активные в социальных сетях (чаще всего, оказывающие разного рода услуги).

Заключение

В данной работе было проанализировано влияние индекса настроений в социальной сети Твиттер на динамику курса акций. На первом этапе исследования был проведен событийный анализ в попытке выяснить, возможно ли использовать пики объемов публикаций позитивных и негативных твитов в качестве событий, вокруг которых можно выявить доходность выше нормальной. Ожидаемо, на этом этапе не было получено статистически значимых результатов. На втором этапе была проведена основная запланированная работа: были построены различные предиктивные модели, как включающие различные факторы, отражающие настроения в Твиттере, так и не включающие их.

В рамках работы было выявлено, что для большинства использованных для анализа компаний на имеющихся данных включение индекса полярности настроений в Твиттере с лагом в один день увеличивает точность прогноза на 0.5-2 % - в среднем, с учетом всех компаний (и тех, для которых эффект от добавления индекса отрицательный) точность прогноза модели с индексом составила 83.5 %, а у модели без индекса 83.1 %. Также, был сделан вывод, что наибольшая точность при использовании индекса наблюдается для компаний из IT отрасли и телекоммуникационной отрасли, в то время как для компаний энергетической отрасли использование индекса даже ухудшает прогноз, скорее всего по причине отсутствия вносимых индексом в модель дополнительных "сигналов" и/или, наоборот, по причине добавления в модель "шумов" от индекса. Тем не менее, кажется разумным, что при росте популярности Твиттера как социальной сети среди людей и самих компаний (при активном использовании корпоративных аккаунтов), а также при более обширном использовании индекса на финансовых рынках, индекс начнет нести в себе больше "сигналов" и меньше "шумов", что сделает его более важным фактором для предсказательных моделей.

Таким образом, можно заключить, что в работе были выполнены как объявленная исследовательская цель, так и сопряженные с ней задачи, а именно:

· Был проведен событийный анализ

· Были построены различные предиктивные модели

· Было выявлено, что включение в предиктивную модель индекса настроений в Твиттере действительно улучшает точность прогноза, хотя и не для всех компаний. В среднем по всей выборке компаний прогноз улучшается на 0.4%. Для отдельных компаний (телекоммуникации, IT) прогноз улучшается на ~2%.

Следует также отметить, что в работе для получения более точных прогнозов были использованы современные методы и подходы машинного обучения. Вместе с тем, несмотря на то, что были предприняты попытки обеспечить состоятельность полученных предсказаний, результаты могут быть до определенной степени искажены качеством имеющихся данных, однако, на момент написания работы не имелось практической возможности решения данной проблемы.

В связи с обозначенной выше проблемой существует простор для дальнейших исследований и улучшения методологии, разработанной в работе:

· В первую очередь, при возникновении возможности получить доступ к большему массиву данных, желательно с количеством наблюдений как минимум более 1000 на каждую компанию, появится возможность: а) улучшить не только точность предсказания, но, главное, качество и состоятельность прогноза б) применить более продвинутые методы и модели машинного обучения, а затем выбрать из всех доступных методов предсказания лучший метод.

· Во-вторых, если получить доступ к полному историческому архиву твитов, можно решить две проблемы: получить более обширную выборку и получить возможность построить собственный классификатор твитов. Наличие собственного классификатора позволит построить предсказательную модель, которая будет в состоянии делать прогнозы в режиме реального времени. Как уже отмечалось в работе, часть данных для тренировки классификатора имеется, классификатор был построен. Однако, так как методология построения классификатора не имеет отношения к теме данной работы, то сама методология не была описана. Более того, имеющиеся данные являются общими твитами на случайные темы, а не о компаниях. В связи с этим точность построенного классификатора оказалась ниже 80 %. Таким образом, остается возможность построить более совершенный классификатор твитов.

Результаты работы можно рекомендовать к использованию при составлении инвестиционных и торговых стратегий, в особенности для акций крупных компаний телекоммуникационной и IT отраслей. Имплементация довольно проста, так как по предложенной методологии получаются предсказания по типу Up-or-Down, таким образом, Up может служить сигналом к покупке, а Down, соответственно, к продаже.

Список литературы

1. Agarwal, A., Sharma, V., Sikka, G., & Dhir, R. (2016, March). Opinion mining of news headlines using SentiWordNet. In Colossal Data Analysis and Networking (CDAN), Symposium on (pp.1-5). IEEE.

2. Bollen, Johan, Huina Mao, and Xiaojun Zeng. "Twitter mood predicts the stock market." Journal of computational science 2.1 (2011): 1-8.

3. Campbell, J. Y., Lo, A. W. C., & MacKinlay, A. C. (1997). The econometrics of financial markets. princeton University press.

4. Cowles, 3rd, A. and Jones, H. E. (1937), Some a posteriori probabilities in stock market action, Econometrica 5 (3), 280-294.

5. De Bondt, W. F. M. and Thaler, R. (1985), Does the stock market overreact?, The Journal of Finance 40 (3), 793-805

6. Dhankar, Raj S. and Maheshwari, Supriya, Behavioural Finance: A New Paradigm to Explain Momentum Effect (May 27, 2016). Available at SSRN: https: // ssrn.com/abstract=2785520

7. Edwards, W. (1968). Conservatism in human information processing. Formal representation of human judgment, 17, 51.

8. Fama, E.F. (1965a), Random walks in stock market prices, Financial Analysts Journal 21 (5), 55-59.

9. Fama, E.F. (1965b), The behavior of stock-market prices, Journal of Business 38 (1), 34-105.

10. Fama, E.F. (1995). Random walks in stock market prices. Financial analysts journal, 51 (1), 75-80.

11. Fama, E.F., & French, K. R. (1993).common risk factors in the returns on stocks and bonds. Journal of financial economics, 33 (1), 3-56.

12. Fama, E.F., & French, K. R. (1996). Multifactor explanations of asset pricing anomalies. The journal of finance, 51 (1), 55-84.

13. Fama, E.F., & Kenneth, R. French, 2014a,“A Five-factor Asset Pricing Model”. Journal of Financial Economics forthcoming.

14. Fama, E.F., Fisher, L., Jensen, M. C. and Roll, R. (1969), The adjustment of stock prices to new information, International Economic Review 10 (1), 1-21.

15. Fama, E.F., Fisher, L., Jensen, M.C., & Roll, R. (1969). The adjustment of stock prices to new information. International economic review, 10 (1), 1-21.

16. Friedman, J., Hastie, T., & Tibshirani, R. (2001). The elements of statistical learning (Vol.1). Springer, Berlin: Springer series in statistics.

17. Hirshleifer, D., Subrahmanyam, A., & Titman, S. (1994). Security analysis and trading patterns when some investors receive information before others. The Journal of Finance, 49 (5), 1665-1698.

18. James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning (Vol.6). New York: springer.

19. Kahneman, D., & Tversky, A. (1972). Subjective probability: A judgment of representativeness. Cognitive psychology, 3 (3), 430-454.

20. Kahneman, D., & Tversky, A. (1977). Intuitive prediction: Biases and corrective procedures. DECISIONS AND DESIGNS INC MCLEAN VA.

21. Kahneman, Daniel and A. Tversky (1973), “On the Psychology of Prediction," Psychological Review, vol.80, 237-251

22. Kahneman, Daniel and Mark W. Riepe, “Aspects of Investor Psychology," Journal of Portfolio Management, vol.24, 4, Summer 1998, 52-65.

23. Keim, D.B. (1983). Size-related anomalies and stock return seasonality: Further empirical evidence. Journal of financial economics, 12 (1), 13-32., Chicago

24. Keynes, J.M. (1923), Some aspects of commodity markets, Manchester Guardian Commercial: European Recon - struction Series pp.784-786. Section 13.29 March 1923. Reprinted in The Collected Writings of John Maynard Keynes, Volume XII, London: Macmillan, 1983.

25. MacKinlay, A. Craig. "Event studies in economics and finance." Journal of economic literature 35.1 (1997): 13-39.

26. Mao, H., Counts, S., & Bollen, J. (2011). Predicting financial markets: Comparing survey, news, twitter and search engine data. arXiv preprint arXiv: 1112.1051.

27. P.C. Tetlock. Giving content to investor sentiment: The role of media in the stock market. Journal of Finance, 62 (3): 1139-1168, 2007

28. Poterba, J.M. and Summers, L.H. (1988), Mean reversion in stock prices: Evidence and implications, Journal of Financial Economics 22 (1), 27-59.

29. Ranco G, Aleksovski D, Caldarelli G, Grc?ar M, Mozetic? I (2015) The Effects of Twitter Sentiment on Stock Price Returns. PLoS ONE 10 (9): e0138441. doi: 10.1371/journal. pone.0138441

30. Roberts (1967), Statistical versus clinical prediction of the stock market

31. Samuelson, P.A. (1965), Proof that properly anticipated prices fluctuate randomly, Industrial Management Review 6 (2), 41-49.

32. Schumaker, R.P., & Chen, H. (2009). A quantitative stock prediction system based on financial news. Information Processing & Management, 45 (5), 571-583.

33. Sewell, Martin. "History of the efficient market hypothesis." RN 11.04 (2011): 04.

34. Tversky, Amos, and Daniel Kahneman. "Judgment under uncertainty: Heuristics and biases." Utility, probability, and human decision making. Springer Netherlands, 1975.141-162.

35. Chan, Wesley S. "Stock price reaction to news and no-news: drift and reversal after headlines." Journal of Financial Economics 70.2 (2003): 223-260.

36. Wang, F.A. (2001). Overconfidence, investor sentiment, and evolution. Journal of Financial Intermediation, 10 (2), 138-170.

37. Wang, H., Can, D., Kazemzadeh, A., Bar, F., & Narayanan, S. (2012, July). A system for real-time twitter sentiment analysis of 2012 us presidential election cycle. In Proceedings of the ACL 2012 System Demonstrations (pp. 115-120). Association for Computational Linguistics.

Размещено на Allbest.ru

...

Подобные документы

  • Данные для разработки трендовой модели изменения объемов грузооборота предприятий транспорта. Проверка гипотезы на наличие тенденции. Понятие и обоснование периода упреждения прогноза. Выбор оптимальной прогнозной модели по коэффициенту детерминации.

    курсовая работа [1008,3 K], добавлен 01.10.2014

  • Построение уравнения регрессии, учитывающего взаимодействия факторов, проверка полученной модели на адекватность. Построение математической модели и нахождение численных значений параметров этой модели. Вычисление коэффициентов линейной модели.

    курсовая работа [1005,0 K], добавлен 07.08.2013

  • Процесс построения и анализа эконометрической модели в пакете Econometric Views. Составление, расчет и анализ существующей проблемы. Проверка адекватности модели реальной ситуации на числовых данных в среде Eviews. Построение регрессионного уравнения.

    курсовая работа [1,3 M], добавлен 17.02.2014

  • Основные методы анализа линейной модели парной регрессии. Оценки неизвестных параметров для записанных уравнений парной регрессии по методу наименьших квадратов. Проверка значимости всех параметров модели (уравнения регрессии) по критерию Стьюдента.

    лабораторная работа [67,8 K], добавлен 26.12.2010

  • Выбор факторных признаков для построения регрессионной модели неоднородных экономических процессов. Построение диаграммы рассеяния. Анализ матрицы коэффициентов парной корреляции. Определение коэффициентов детерминации и средних ошибок аппроксимации.

    контрольная работа [547,6 K], добавлен 21.03.2015

  • Выбор факторных признаков для двухфакторной модели с помощью корреляционного анализа. Расчет коэффициентов регрессии, корреляции и эластичности. Построение модели линейной регрессии производительности труда от факторов фондо- и энерговооруженности.

    задача [142,0 K], добавлен 20.03.2010

  • Построение уравнения регрессии. Эластичность степенной модели. Уравнение равносторонней гиперболы. Оценка тесноты связи, качества и точности модели. Индекс корреляции и коэффициент детерминации. Оценка статистической значимости регрессионных уравнений.

    курсовая работа [1,3 M], добавлен 25.03.2015

  • Расчет матрицы парных коэффициентов корреляции и статистической значимости коэффициентов регрессии. Оценка статистической значимости параметров регрессионной модели с помощью t-критерия. Уравнение множественной регрессии со статистически факторами.

    лабораторная работа [30,9 K], добавлен 05.12.2010

  • Проведение анализа экономической деятельности предприятий отрасли: расчет параметров линейного уравнения множественной регрессии с полным перечнем факторов, оценка статистической значимости параметров регрессионной модели, расчет прогнозных значений.

    лабораторная работа [81,3 K], добавлен 01.07.2010

  • Методология эмпирического анализа детерминант рыночных мультипликаторов. Спецификация модели и выборка эмпирического исследования. Статистика и анализ корреляции детерминант и рыночных мультипликаторов. Модели влияния детерминант на мультипликаторы.

    дипломная работа [2,5 M], добавлен 30.01.2016

  • Построение эконометрической модели, описывающей линейную зависимость результативного признака факторов, входящих в нее, методом матрицы. Проверка ее на адекватность по критерию Фишера. Определение дисперсии, ковариации, корреляции и детерминации.

    контрольная работа [180,5 K], добавлен 03.12.2014

  • Понятие регрессии. Оценка параметров модели. Показатели качества регрессии. Проверка статистической значимости в парной линейной регрессии. Реализация регрессионного анализа в программе MS Excel. Условия Гаусса-Маркова. Свойства коэффициента детерминации.

    курсовая работа [233,1 K], добавлен 21.03.2015

  • Статистический анализ по выборке. Проведение регрессионного анализа исходных данных и выбор аналитической формы записи производственной функции. Выполнение экономического анализа в выбранной регрессионной модели на основе коэффициентов эластичности.

    курсовая работа [2,2 M], добавлен 22.07.2015

  • Проектирование регрессионной модели по панельным данным. Скрытые переменные и индивидуальные эффекты. Расчет коэффициентов однонаправленной модели с фиксированными эффектами по панельным данным в MS Excel. Выбор переменных для построения данной регрессии.

    курсовая работа [2,3 M], добавлен 26.08.2013

  • Описание проблемы оптимального управления запасами предприятия. Разработка модели оптимальной стратегии заказа новой партии товара. Основные стоимостные характеристики системы для построения модели. Программная реализация, результаты выполнения программы.

    курсовая работа [2,7 M], добавлен 09.09.2017

  • Определение экономических рисков разными авторами. Основные способы анализа чувствительности модели. Суть и технология анализа чувствительности модели как способ восстановления финансового равновесия, принятия оптимального решения, недостатки метода.

    курсовая работа [205,0 K], добавлен 27.05.2009

  • Построение линейной модели зависимости цены товара в торговых точках. Расчет матрицы парных коэффициентов корреляции, оценка статистической значимости коэффициентов корреляции, параметров регрессионной модели, доверительного интервала для наблюдений.

    лабораторная работа [214,2 K], добавлен 17.10.2009

  • Характеристика рыбоперерабатывающей отрасли РФ. Эконометрический анализ выпуска рыбной продукции. Построение производственных функций. Построение статистической и динамической модели Леонтьева. Учет инфляции в этой модели. Построение модели Солоу.

    курсовая работа [628,1 K], добавлен 06.03.2008

  • Построение уравнения множественной регрессии в линейной форме с полным набором факторов, отбор информативных факторов. Проверка значимости уравнения регрессии по критерию Фишера и статистической значимости параметров регрессии по критерию Стьюдента.

    лабораторная работа [217,9 K], добавлен 17.10.2009

  • Построение и анализ однофакторной и многофакторной эконометрической модели. Вычисление парных и частичных коэффициентов корреляции. Проверка адекватности модели по критерию Фишера. Исследование наличия мультиколлениарности по алгоритму Феррара-Глобера.

    контрольная работа [172,4 K], добавлен 28.05.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.