Исследование динамики цен на фондовом рынке посредвом анализа временных рядов Twitter
Основы анализа зависимости временных рядов и тональности текста, линейные и нелинейные методы. Формы гипотезы эффективного рынка. Методы анализа тональности записей Twitter, кросскорреляционный и кросс-рекуррентный анализ. Характеристика сервисов.
Рубрика | Экономика и экономическая теория |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 04.12.2019 |
Размер файла | 7,3 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Рисунок 19. Recurrenceplot.
Матрица показывает, что нелинейная зависимость наблюдается, в основном, только во второй половине рассматриваемого периода. Диагональное направление облаков точек говорит о том, что рекуррентность присутствует. Действительно, возвращаясь к графику, иллюстрирующему нормированные значения временных рядов (Рисунок 16), наибольше соответствие динамики величин наблюдается после 10 марта. Это объясняется тем, что после резонансного случая, компанию Boeing стали чаще обсуждать в сети, а цены на акции стали очень непостоянны.
Таким образом, первый рассмотренный пример компании Boeing подтверждает выдвинутые гипотезы: зависимость рядов - Twitterи финансового-была найдена, временной лаг, а значит и причинно-следственная связь, присутствует.
Procter&Gamble
Вторым объектом исследования стала международная корпорация Procter&Gamble(P&G), которая занимается производством и продажей продовольственных товаров. Продуктовый портфель компании включается в себя множество брендов, такие как: Gillette, Ariel, OldSpice, Pantene и другие. Для полноты данных о компании в Twitter можно было бы скачивать записи по запросу, включающему все бренды продуктового портфеля компании, однако данное исследование ограничивается данными Twitter только с упоминанием названия компании для всех объектов исследования. Итак, сначала стоит визуально оценить график цены акций P&G и объема торгов (Рисунок 20).
Рисунок 20. Цена акций Procter&Gamble и объем торгов.
По данным за 2019 год в ценах на акции не было резких скачков и спадов, поэтому для исследования был выбран период с наиболее интересными для исследования изменениями - с 14 января по 27 февраля 2019 года. При анализе предыдущей компании была выявлена зависимость между количество записей в Twitter и объемами торгов. Поэтому в результате агрегирования данных Twitterи подсчета количества созданных записей в час был сформирован первый временной ряд. Совместный график нормированных значений количества записей и объемов торгов представлен на Рисунке 21.
Рисунок 21. Количество записей Twitter и объем торговP&G.
На графике явно виден один достаточно резкий скачок объема торгов и опережающий его скачок количества записей Twitter. Было достаточно сложно понять, чем был вызвано резкое увеличение количества записей в Twitter. Скорее всего, это было вызвано резонансной рекламой Gillette, которая у многих вызвала негативные отзывы, в этот же день наблюдалось небольшое увеличение объемов торгов. Более заметное увеличение объемов торгов акциями P&G на фондовом рынке наблюдалось через 8 дней. Возможно, эти события связаны, однако также 23 января, в день резкого увеличения объемов торгов, проводилась презентация финансовых показателей компании, что скорее повлияло на цену и объемы торгов. В другие дни также заметно некоторое сходство динамики рядов, однако в большинстве случаев зависимость не наблюдается.
Кросскорреляционный анализ вышеописанных временных рядов показал, что наибольшее значение кросскорреляционной функции достигается при временной задержке, равной 32 часа, что примерно равно одной рабочей неделе (Рисунок 22).
Рисунок 22. Значения кросскорреляционной функции.
Для оптимального временного лага был проведен тест на значимость корреляции временных рядов, значение корреляции не очень высокое (0.46), но значимое:
Pearson's product-moment correlation
data: qty and volume
t = 6.9239, df = 183, p-value = 7.195e-11
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.3332538 0.5628866
sample estimates:
cor
0.4556172
Также было вычислено значение показателя рекуррентности для данных временных рядов в зависимости от величины временного сдвига между ними. В результате, также был определен оптимальный временной лаг, его значение оказалось равным 20 часам, что не совсем соотносится с результатом, вычисленным линейным методом.
Вычисленный с помощью построения кросскорреляционной функции временной лаг соотносится со значением, найденным визуально, однако, как было описано ранее, это больше похоже на проявление ложной корреляции.
Переходя к анализу зависимости между тональностью записей Twitter и ценой акции P&G, стоит отметить, что при визуальном анализе данных временных рядов была выявлена разнонаправленность их общих трендов, что противоречит гипотезе исследования. Однако, было принято решение убрать трендовую составляющую обоих временных рядов, для анализа зависимости их динамики. Графики временных рядов без трендовой составляющей представлены на Рисунке 23.
Рисунок 23. Цена акций P&Gи тональность записей Twitter.
Сложно говорить о наличии зависимости по графикам данных временных рядов, однако наблюдаются некоторые сходства в их динамике: нисходящий тренд в конце периода, резкий скачок в начале периода. Для вычисления оптимального временного лага и установления причинно-следственной связи между ними был также проведен кросскорреляционный анализ (Рисунок 24).
Рисунок 24. Значения кросскорреляционной функции.
Оптимальное значение временного лага в этом случае равно 24 часам, что составляет примерно 4 рабочих дня. Коэффициент корреляциидлясмещенныхвременныхрядов в данном случае низкий, но значимый (0.35):
Pearson's product-moment correlation
data: sentiment and price
t = 5.1344, df = 191, p-value = 6.943e-07
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.2177256 0.4665480
sample estimates:
cor
0.3482563
Таким образом, поиск зависимости линейными методами говорит, скорее, об отсутствии причинно-следственной связи для данных временных рядов, однако на некоторых участках периода связь все же идентифицируется. Использование нелинейных методов анализа, в данном случае, будет полезно для идентификации участков временных рядов, на которых присутствует зависимость.
Для начала, был построен график зависимости уровня рекуррентности от временного сдвига между рядами для поиска оптимального значения временного лага (Рисунок 25).
Рисунок 25. Recurrencerate.
Интересно, что в данном случае, результат противоречит полученным данным при использовании линейных методов. Показатель рекуррентности растет при сдвиге рядов в обратную сторону, то есть изменение цены влечет за собой изменение тональности записей Twitterо компании.
Пографикуcrossrecurrenceplot (Рисунок 26)заметнынекоторые облака точек, параллельные главной диагонали, что говорит о наличии перекрестной рекуррентности временных рядов, особенно в период резкого скачка цен и после него. Действительно, на совместном графике временных рядов прослеживаются общие тренды в этот период (Рисунок 23).
Рисунок 25. Crossrecurrenceplot.
Таким образом, результаты исследования зависимости цен на фондовом рынке от показателей тональности записей о компаниях в Twitter свидетельствуют о частичном наличии причинно-следственной связи между величинами. Анализ зависимости временных рядов был проведен как линейными, так и нелинейными методами: в некоторых случаях результаты противоречили друг другу. Метод построения crossrecurrenceplots, который ранее не использовался для подобных исследований, оказался очень полезен для исследования зависимости на отдельных участках временных рядов, так как чаще всего причинно-следственная связь проявляется не на всем исследуемом периоде.
Также, в процессе исследования была замечена зависимость, которая не входила в список гипотез данного исследования: чаще всего одновременного наблюдаются увеличения в числе записей о компании в Twitter и объемов торгов акциями этой компании на фондовом рынке. Однако, в данном случае, причинно-следственная связь не наблюдается, другими словами, временного сдвига между этими временными рядами не обнаружено.
Заключение
В результате проведенного исследования было выяснено, что финансовые показатели акций рассмотренных компаний зависят от данных, полученных из социальной сети Twitter. Во-первых, динамика цены акций рассмотренных компаний частично имеет схожие тренды с тональностью записей Twitter.Иными словами, мнение о компании в Twitter коррелирует с ценой ее акций чаще не на протяжении всего рассматриваемого периода, а на некоторых участках. Было замечено, что эти данные имеют более высокую зависимость во время и после появления каких-либо резонансных новостей о компании. Для компании Boeing - после катастрофы 10 марта в Эфиопии, для компании Procter&Gamble- после выпуска рекламы Gilletteи презентации финансовой отчетности. Это может быть связано с тем, что в упомянутые выше периоды активность и обсуждение компаний в социальной сети возрастает, люди больше выражают свое мнение в отношении той или иной компании. Вследствие чего зависимость становится более выраженной, что лишний раз подтверждает гипотезу исследования.Судя по показателям количества записей в час, периоды, когда зависимость между рядами не наблюдается, характеризуются низкой активностью, следовательно, становится сложно оценить тональность текста методами машинного обучения.
Также, в большинстве случаев имеет место временной лаг между вышеописанными временными рядами. Как было замечено и другими исследователями, этот временной лаг различен для разных компаний.Иными словами, зависимость между временными рядами оказалась выше при их сдвиге относительно друг друга, поэтому есть основание полагать, что присутствует причинно-следственная связь между ними. Вмомент появления резонансных новостей временной лаг минимален - 7 часов (1 рабочий день) и меньше, так как в эти моменты и тональность записей Twitterи цена акций изменяются вследствие какого-либо события, то есть причинно-следственной связи нет. Однако после этого момента, когда новости начинают активно обсуждаться в сети, формируется мнение общества к произошедшей ситуации, тогда временной лаг начинает расти, так как обсуждение в социальных сетях распространяются с огромной скоростью, арешения о покупке/продаже акций принимаются дольше. Следовательно, в такие периоды можно говорить о наличии причинно-следственной связи.
Следующей гипотезой исследования было предположение о том, что временной лаг, вычисленный в результате этого исследования, будет выше, чем тот, что был найден исследователями, использующими другие источники информации. В части наблюдений временной лаг действительно был достаточно высоким - 3-4 рабочих дня, однако для полного исследования данной гипотезы требуются более высокие мощности компьютера для скачивания большего массива записей Twitter и их анализа.
Кроме того, в процессе исследования была обнаружена зависимость между активностью в социальной сети Twitterи объемами торгов на фондовом рынке, которая не была заявлена в начальном списке гипотез. Действительно, эти временный ряды в ряде случаев демонстрируют высокую корреляцию как визуально, так и аналитически. Однако, скорее всего, речь о причинно-следственной связи в этом случае не идет, так как активность в социальных сетях и объемы торгов повышаются практически одновременно в результате появления резонансной новости.
Метод построения crossrecurrenceplot для временных рядов, который ранее не применялся в подобных исследованиях, позволил сделать довольно полезные выводы о наличии зависимости. Точнее, он смог показать периоды, где перекрестная рекуррентность временных рядов наиболее выражена.
Продолжением данного исследования я вижу построение модели машинного обучения для предсказания цены акций или ее динамики. Модель, основанная на результатах данного исследования, должна иметь неплохую точность предсказаний, так как было замечены периоды, когда цена акций повторяла динамику тональности записей Twitter, причем с некоторым опозданием. На базе построенной модели может быть создана алгоритмическая стратегия для торговли на фондовом рынке. Исследователи, которые тестировали подобные алгоритмические стратегии говорят о увеличении прибыли о покупки и продажи акций в 2 раза.
Для опытного трейдера, скорее всего, не составит труда сделать подобный прогноз: «После крушения самолета Boeing, мнение о компании в обществе сильно ухудшится, уровень доверия понизится, скорее всего, акции компании сильно подешевеют». Однако, факт того, что к этому же результату можно прийти путем статистического анализа данных и математических вычислений не может не поражать.
Список литературы
1. Лоскутов А. Ю., Котляров О.Л., Истомин И.А., Журавлев Д.И. (2002) Проблемы нелинеи?нои? динамики. III. Локальные методы прогнозирования временных рядов.// Вестн. Моск. ун-та, сеp. Физ.-астр., 2002, No6, c.3-21.
2. Лоскутов А. Ю. (2010)Очарование хаоса.// Успехи физ. наук, т.180, No 12, с.1305-1329.
3. Золотова, Н. В., Понявин, Д. И. (2005). Рекуррентный и кросс-рекуррентный анализ естественных временных рядов. // Издательство Санкт-Петербургского университета.
4. Fama, E. F. (1970). Efficient Capital Markets: A Review of Theory and Empirical Work. // The Journal of Finance, 25(2), 383
5. Fama, E.F. (1991). Efficient Capital Markets: II. // The Journal of Finance 46(5): 1575-1617.
6. Preis, T., Moat, H. S., & Stanley, H. E. (2013). Quantifying Trading Behavior in Financial Markets Using Google Trends. // Scientific Reports, 3(1).
7. Moat, H. S., Curme, C., Avakian, A., Kenett, D. Y., Stanley, H. E., & Preis, T. (2013). Quantifying Wikipedia Usage Patterns Before Stock Market Moves. // Scientific Reports, 3(1).
8. Nassirtoussi, A. K., Aghabozorgi, S., Wah, T. Y., & Ngo, D. C. (2014). Text mining for market prediction: A systematic review. // Expert Systems with Applications, 41(16), 7653-7670.
9. Hagenau, M., Liebmann, M., Hedwig, M., & Neumann, D. (2012). Automated News Reading: Stock Price Prediction Based on Financial News Using Context-Specific Features. // 2012 45th Hawaii International Conference on System Sciences.
10. Gбlvez, R. H., & Gravano, A. (2017). Assessing the usefulness of online message board mining in automatic stock prediction systems. // Journal of Computational Science, 19, 43-56.
11. Arias, M., Arratia, A., & Xuriguera, R. (2013). Forecasting with Twitter data. // ACM Transactions on Intelligent Systems and Technology, 5(1), 1-24.
12. Bollen, J. and Mao, H. (2011). Twitter Mood as a Stock Market Predictor. // Computer, 44(10), 91-94.
13. Li, T., van Dalen, J. and van Rees, P. (2018). More than just Noise? Examining the Information Content of Stock Microblogs on Financial Markets. // Journal of Information Technology, 33(1), 50-69.
14. Wallot, S. and Leonardi, G. (2018). Analyzing Multivariate Dynamics Using Cross-Recurrence Quantification Analysis (CRQA), Diagonal-Cross-Recurrence Profiles (DCRP), and Multidimensional Recurrence Quantification Analysis (MdRQA) - A Tutorial in R. // Frontiers in Psychology, 9.
15. Ramalingam, V., Pandian, A., Dwivedi, s. and Bhatt, J. (2018). Analysing News for Stock Market Prediction. // Journal of Physics: Conference Series, 1000, p.12026.
16. Gidofalvi, Gyozo (2001). Using News Articles to Predict Stock Price Movements. // Department of Computer Science and Engineering, University of California, San Diego.
17. Fung, Gabriel, (2015) et. al. The Predicting Power of Textual Information on Financial Markets. // IEEE Intelligent Informatics Bulletin. Vol. 5. No. 1.
18. Timmons, Kari,(2007). Predicting the stock market with news articles,// CS224N, Final Report.
19. Baker, M. and Wurgler, J. (2007). Investor sentiment in the stock market. // The Journal of Economic Perspectives 21(2): 129-151.
20. Fusaroli, Konvalinka, Wallot (2014). Analyzing Social Interactions: The Promises and Challenges of Using Cross Recurrence Quantification Analysis.// Translational Recurrences, Springer Proceedingsin Mathematics & Statistics 103.
21. Yu, Y., Duan, W. and Cao, Q. (2013). The impact of social and conventional media on firm equity value: A sentiment analysis approach. // Decision Support Systems 55(4): 919-926.
22. Zeledon, M. (2009). StockTwits may change how you trade. //New York: Bloomberg Businessweek.
23. Technical Analysis. (n.d.). In Wikipedia. Retrieved April 23, 2019, fromhttps://en.wikipedia.org/wiki/Technical_analysis
24. Buffet W. E. (1977). How inflation swindles the equity investor. // Fortune May 1977: 250-267
25. Cross-correlation. (n.d.). In Wikipedia. Retrieved April23, 2019, fromhttps://en.wikipedia.org/wiki/Cross-correlation
26. MandelbrotB.B., J.W. van Ness. (1968). Fractional Brownian motions, fractional noises and applications, // SIAM Review 10, 422.
27. G.E.P. Box, G.M. Jenkins, G.C. Reinsel. (1994) Time-series Analysis. // Prentice Hall, New Jersey.
28. C. Chatfield. (2003). The analysis of time series. An introduction.// Taylor & Francis Ltd.
29. D.T. Schmitt, M. Schulz. (2006). Analyzing memory effects of complex systems from time series. // Phys. Rev. E 73, 056204.
30. M.S. Taqqu, V. Teverovsky, W. Willinger. (1995). Estimators for long-range dependence: An empirical study. // Fractals 3, 785.
31. D. Delignieresa, S. Ramdania, L. Lemoinea, K. Torrea, M. Fortesb, G. Ninot. (29916). Fractal analyses for 'short' time series: A re-assessment of classical methods. // J. Math. Psychol. 50, 525.
32. J. Mielniczuk, P. Wojdyllo. (2007). Estimation of Hurst exponent revisited. // Comp. Stat. Data. Anal. 51, 4510.
33. G.A. Hunt. (1951). Random Fourier transforms. // Trans. Amer. Math. Soc. 71, 38.
34. G. Rangarajan, M. Ding. (2000). Integrated approach to the assessment of long-range correlation in time series data. // Phys. Rev. E 61, 4991.
35. C.-K. Peng, S.V. Buldyrev, A.L. Goldberger, S. Havlin, F. Sciortino, M. Simons, H.E. Stanley. (1992). Long-range correlations in nucleotide sequences. // Nature 356, 168.
36. P. Goupillaud, A. Grossmann, J. Morlet. (1984). Cycle-octave and related transforms in seismic signal analysis. // Geoexploration 23, 85.
37. I. Daubechies. (1988). Orthogonal bases of compactly supported wavelets. // Commun. Pure Appl. Math. 41, 909.
38. J. W. Kantelhardt, H. E. Roman, M. Greiner, Discrete wavelet approach to multifractality. // Physica A 220, 219 (1995).
39. C.-K. Peng, S.V. Buldyrev, S. Havlin, M. Simons, H.E. Stanley, A.L. Goldberger. (1994). Mosaic organization of DNA nucleotides. // Phys. Rev. E 49, 1685.
40. J.W. Kantelhardt, S.A. Zschiegner, A. Bunde, S. Havlin, E. Koscielny- Bunde, H.E. Stanley. (2002). Multifractal detrended fluctuation analysis of non- stationary time series. // Physica A 316, 87.
41. G.-F. Gu, W.-X. Zhou. (2006). Detrended fluctuation analysis for fractals and multifractals in higher dimensions. // Phys. Rev. E 74, 061104.
42. J.W. Kantelhardt, E. Koscielny-Bunde, H.H.A. Rego, S. Havlin, A. Bunde. (2001). Detecting long-range correlations with detrended fluctuation analysis. // Physica A 295, 441.
Размещено на Allbest.ru
...Подобные документы
Сущность и отличительные черты статистических методов анализа: статистическое наблюдение, группировка, анализа рядов динамики, индексный, выборочный. Порядок проведения анализа рядов динамики, анализа основной тенденции развития в рядах динамики.
курсовая работа [1,0 M], добавлен 09.03.2010Понятие и основные этапы разработки прогноза. Задачи анализа временных рядов. Оценка состояния и тенденций развития прогнозирования на основе анализа временных рядов СУ-167 ОАО "Мозырьпромстрой", практические рекомендации по его совершенствованию.
курсовая работа [378,6 K], добавлен 01.07.2013Машинное обучение и статистические методы анализа данных. Оценка точности прогнозирования. Предварительная обработка данных. Методы классификации, регрессии и анализа временных рядов. Методы ближайших соседей, опорных векторов, спрямляющего пространства.
контрольная работа [833,1 K], добавлен 04.09.2016Статистический анализ рядов динамики. Показатели изменения уровней ряда динамики. Связный анализ рядов динамики. Корреляционный анализ рядов динамики. Элементы интерполяции и экстраполяции. Встроенные функции MS Excel для анализа рядов динамики.
курсовая работа [1,0 M], добавлен 17.12.2015Методика проведения анализа динамических рядов социально-экономических явлений. Компоненты, формирующие уровни при анализе рядов динамики. Порядок составления модели экспорта и импорта Нидерландов. Уровни автокорреляции. Корреляция рядов динамики.
курсовая работа [583,6 K], добавлен 13.05.2010Система производственных показателей выпуска продукции. Ряды динамики: общее понятие и значение. Теория определения и построения тренда. Использование метода сглаживания временных рядов в изучении динамики выпуска продукции на примере ООО "Прогресс".
курсовая работа [1,8 M], добавлен 23.12.2013Понятие и значение временного ряда в статистике, его структура и основные элементы, значение. Классификация и разновидности временных рядов, особенности сферы их применения, отличительные характеристики и порядок определения в них динамики, стадии, ряды.
контрольная работа [30,9 K], добавлен 13.03.2010Экономико-статистический анализ временных рядов развития строительства Тюменской области. Выявление и измерение сезонных колебаний. Корреляция рядов динамики и проведение регрессионного анализа показателей. Экстраполяция по мультипликативной схеме.
курсовая работа [521,5 K], добавлен 20.01.2016Методы анализа структуры временных рядов, содержащих сезонные колебания. Рассмотрение подхода методом скользящей средней и построение аддитивной (или мультипликативной) модели временного ряда. Расчет оценок сезонной компоненты в мультипликативной модели.
контрольная работа [57,9 K], добавлен 12.02.2015Определение понятия цен на продукцию и услуги; принципы их регистрации. Расчет индивидуальных и общих индексов стоимости товаров. Сущность базовых методов социально-экономических исследований - структурных средних, рядов распределения и рядов динамики.
курсовая работа [1,2 M], добавлен 12.05.2011Анализ системы статистических показателей, характеризующих аналитические показатели рядов динамики. Статистические методы, применяемые при изучении рядов динамики. Исследование структуры совокупности. Определение ошибки выборки. Расчет объема оборота.
курсовая работа [569,2 K], добавлен 03.10.2010Понятие временного ряда, компоненты. Сглаживание, анализ периодических колебаний. Сезонность, аддитивная и мультипликативная модели. Понятие белого шума в моделях динамики рядов. Оператор лагового сдвига. Оценка и вывод автокорреляционной функции.
курсовая работа [659,4 K], добавлен 13.09.2015Анализ понятий о диаграммах динамики и диаграммах рядов распределения, линейные диаграммы с равномерными шкалами и на полулогарифмической сетке, радиальные диаграммы. Диаграммы рядов распределения: полигон, гистограмма, кумулята, огива, график Лоренца.
контрольная работа [4,6 M], добавлен 07.08.2010Методы анализа детерминированных моделей. Построение моделей факторного анализа. Методы анализа стохастических моделей. Методы оптимизации в экономическом анализе. Методы комплексного анализа. Рейтинговая оценка финансового состояния.
курсовая работа [47,9 K], добавлен 12.05.2008Средние показатели в рядах динамики. Проверка ряда на наличие тренда. Непосредственное выделение тренда. Анализ сезонных колебаний. Анализ взаимосвязанных рядов динамики. Статистико-детерминированный характер социально-экономических явлений.
реферат [98,1 K], добавлен 07.12.2006Изучение динамики общественных явлений. Классификация рядов динамики, правила их построения и показатели анализа. Основные показатели вариации курса акций АО "Газпром". Расчетная таблица для определения параметров линейной функции. Анализ тенденции.
курсовая работа [184,1 K], добавлен 10.02.2013Предмет и методы фундаментального анализа на рынке ценных бумаг. Постулаты и предпосылки технического анализа. Формы предоставления данных в техническом анализе. Конфигурационные, фильтрационные и циклические методы технического анализа ценных бумаг.
курсовая работа [64,5 K], добавлен 17.12.2007Определение и классификация спроса. Статистические методы анализа спроса. Краткая экономическая характеристика деятельности ООО "Интеграл" и продукции ТМ "Новотроицкая". Анализ статистических показателей рядов динамики и метод скользящей средней.
курсовая работа [209,6 K], добавлен 20.11.2010Охрана рыбных ресурсов, принципы и подходы, законодательно-правовая база данного процесса. Порядок проведения математического анализа рыбных ресурсов современной России: корреляционный, временных рядов (выделение трендов) и регрессионный анализ.
курсовая работа [245,9 K], добавлен 06.03.2012Место статистических методов в общей системе управления качеством. Семь простых инструментов качества. Экономические ряды динамики, правила их построения и смыкания. Построение динамического ряда с помощью электронной таблицы Microsoft Office Excel.
курсовая работа [1,4 M], добавлен 07.01.2011