Главная Коллекция "Revolution" Экономика и экономическая теория Текстовый анализ новостей в применении к прогнозированию банкротства компаний

Текстовый анализ новостей в применении к прогнозированию банкротства компаний

Описание основных моделей прогнозирования банкротства компаний: логистическая регрессия, многослойный персептрон, метод опорных векторов и случайный лес. Значение текстового анализа новостей в повышении точности моделей предсказания банкротства фирм.

Рубрика	Экономика и экономическая теория
Вид	дипломная работа
Язык	русский
Дата добавления	01.12.2019
Размер файла	3,0 M

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

Можно привести статью(Back, Laitinen, Sere, & Wezel, 1996), в которой генетический алгоритм сравнивался с нейросетью, однако однозначных результатов получено не было: оба метода давали точность около 90%. К аналогичным выводам привело исследование(K. S. Shin&Lee, 2002). Генетические алгоритмы, однако, иногда используются для отбора факторовв составе гибридных классификаторов, как, например, в исследовании(Zhou et al., 2012), где они были использованы как основа для метода опорных векторов.

Гибридные классификаторы, начиная с середины 2010-х годов, стали применять многие исследователи, тем или иным комбинируя результаты нескольких статистических методов и методов машинного обучения. Примером может послужить статья(Mselmi et al., 2017), в которой сравнивается предсказательная сила логит-регрессии, нейросети, методе опорных векторов и некоторых других специфических подходов. Оказывается, что точность всех моделей выше на горизонте в два года, чем на горизонте в один год, а наилучшей из них является метод опорных векторов. Также в статье(Fedorova, Gilenko, & Dovzhenko, 2013) используется нейросеть, логистическая регрессия, МДА и решающие деревья для построения комбинированного классификатора в два этапа: сначала согласно показаниям некоторых моделей отбираются значимые переменные, а потом они используются по назначению другой моделью. Оказалось, что нейросеть, построенная на отобранных с помощью логит-регрессии и решающих деревьев факторах, показывает наибольшую точность (около 95%).

В России вплоть до 2010-х годов методы машинного обучения практически не использовались для прогнозирования банкротства. Одной из первых работ в этой области стала статья(Макеева & Бакурова, 2012), однако в ней исследовались европейские нефтегазовые компании; предсказательная сила нейронной сети - многослойного персептрона значительно превзошла таковую у логистической регрессии (до 95%). Далее в работе(Демешев & Тихонова, 2014a) был успешно применен алгоритм случайного леса на финансовых и нефинансовых факторах, прогнозная сила которого оказалась выше, чем у логистической регрессии (ROC = 0.75); важно, что, в отличие от большинства других российских исследований, выборка состояла из компаний малого и среднего бизнеса и была весьма большой (около 3 млн. наблюдений на протяжении 8 лет).

Кроме того, в статье(Демешев & Тихонова, 2014b) аналогичное исследование было проведено в разрезе по отраслям с использованием ряда методов, включая классификатор на основе решающих деревьев и случайный лес, в результате которого случайный лес был снова признан наилучшим методом вне зависимости от отрасли. Наконец, превосходство в предсказательной силе решающих деревьев над логит-регрессией было подтверждено в работе (Макушина & Шихлярова, 2018).

Общие выводы российских исследователей ничем не отличаются от таковых у зарубежных: методы машинного обучения, более пригодные к обработке больших и гетерогенных объемов данных и спецификаций и позволяющие отыскивать нелинейные зависимости, дают более качественные результаты при прогнозировании банкротства.

3.3. Текстовый анализ

Текстовый анализ как таковой - явление не новое. Разбор текста с целью выявления его лексических, синтаксических и стилевых особенностей использовался для проверки тех или иных гипотез касательно него задолго до зарождения статистики как науки. Его ранняя история рассматривается, например, в статье(Loughran & McDonald, 2016), которая, кроме того, является одним из наиболее актуальных на момент написания данной работы обобщений использования текстового анализа в финансах.

Следует упомянуть обзор литературы(F. Li, 2011), в котором обсуждаются работы по извлечению текстовой информации из финансовой отчетности и ее применение для анализа финансовых показателей компании - приложение текстового анализа, ставшее наиболее популярным. Было показано, что тональность отчетности фирмы может иметь осмысленную корреляцию с ее финансовыми результатамии динамикой цены акции, а также что текстовый анализ может быть использован для исследования и улучшения качества корпоративного управления. Более того, в данной статье, возможно, впервые ставится вопрос о применимости текстовой информации к предсказанию банкротства.

Так как врассматриваемой области текстовые данные используются для извлечения качественной информации, применение, в основном, находит анализ тональности или сентиментов (sentimentanalysis) - совокупность методов различения текстов, несущих разную эмоциональную нагрузку. Так, в обзоре (Kearney & Liu, 2014)приводится описание различных эмпирических методов извлечения эмоций из текста, а также способы агрегации тональности слов в тональность текста и, в свою очередь, тональности корпуса текстов - в тональность объекта исследования, такого как конкретная фирма. Кроме того, обсуждается методология предсказания динамики некоторого показателя в зависимости от изменения тональности текстовых сообщений во времени. Согласно приведенным статьям, текстовый анализ вполне применим к моделированию временных рядов, например, цены акции или индекса.

На данный момент релевантен ряд методов анализа тональности(Kearney & Liu, 2014; Loughran & McDonald, 2016; Федорова et al., 2019):

Рисунок 1. Методы анализа тональности

Мешок слов(Loughran & McDonald, 2011)-метод, подразумевающий составление списка содержащихся в тексте семантически релевантных и эмоционально окрашенных слов без внимания к их синтаксическим взаимоотношениям и с приведением всей словоизменительной парадигмы каждой лексемы к одной словоформе - то есть, токенизацию и лемматизацию текста - методики, описанные в(Feldman, 1998).После этого подсчитывается количество уникальных слов, и уже эти числа используются в качестве входных параметров классификаторов или напрямую для измерения тональности текста.

Методы глубокого обучения- это методы, учитывающие грамматику и синтаксическую структуру текста(Mai et al., 2018). Они призваны исправить недостатки мешка слов, в первую очередь - неспособность различить объект, на которой направлена эмоция.

Словарный подход подразумевает использование словарей тональности - списков значимых слов, каждому из которых присвоен ряд сентиментальных признаков, обычно - в форме отсутствия или присутствия некоторой эмоции, в числе от двух до шести. Каждому слову из текста, входящего в словарь, с его помощью приписывается тональность, и затем агрегированная тональность текста далее служит в качестве объясняющей переменной (количественной) непосредственно для анализа интересующего исследователя явления.

Статистический подход подразумевает, чтоколичество уникальных значимых слов подается на вход некоего классификатора - алгоритма машинного обучения, разделяющего тексты на классы по преобладающей в них эмоции. Этоможет происходить с учителем и без: в первом случае текстам из обучающей выборки заранее присваивается тональность на основании экспертного заключения или с использованием словарей тональности; во втором случае этого не требуется. Далее объясняющей переменной (качественной) становится принадлежность текста к определенному классу тональности.

Таким образом, анализ сентиментов предполагают либо классификацию текста на основе его содержания (обычно - бинарную: положительная и отрицательная тональность), либо присваивание тексту ряда количественных показателей, отражающих содержащиеся в нем эмоции. Затем на основе этой информации создаются переменные, с помощью которых можно объяснить ту или иную характеристику объекта, на которого направлены найденные в тексте эмоции. Как правило, для этого используются различные алгоритмы суммирования информации, полученной из крупной выборки текстов, ассоциированных с одним объектом(L. Chen et al., 2014). В контексте предсказания банкротства посты, статьи, новости или отчеты, в которых упоминается некая компания, могут быть использованы для измерения ассоциированного с ней эмоционального фона и, в конце концов, ожиданий агентов относительно ее финансовой устойчивости.

Среди других аспектов текстового анализа следует упомянуть, по крайней мере, анализ читаемости текста и поиск ключевых фраз. Так, в статье(F. Li, 2008) различные меры читаемости, примененные к годовым отчетам публичных компаний, оказываются значимыми при предсказании дивидендной доходности: отчетность успешных фирм читать легче, чем отчетность аутсайдеров. В свою очередь, в работе(You & Zhang, 2009) предоставляются подтверждения того, что поведение рынка учитывает не только количественную раскрытую информацию, но и качественную: сложность отчетов 10-К оказывается существенной при анализе объемов торгов акции соответствующей компании.

Исследования по анализу тональности в финансах, в основном, сосредоточены на трех моментах: во-первых, разработка методологии, позволяющей извлекать релевантную для вероятности банкротства компании информацию из текста; во-вторых, составление подходящего словаря тональностей, позволяющего наиболее эффективно использовать метод мешка слов; в-третьих, поиск источников текстовой информации (Kearney & Liu, 2014).

Благодаря своей простоте мешок слов остается наиболее популярным методом текстового анализа в финансах. Среди первых исследований на эту тему следует упомянуть статью(Tetlock, Tsechansky, & Macskassy, 2007), в которой обнаруживается корреляция между тональностью (положительной или отрицательной) текстовых сообщений о фирме и динамикой цены ее акции, что обосновывается способностью инвесторов учитывать такую качественную информацию при принятии решений. Проблематика относительного или абсолютного учета тональности текстов в составе корпуса была рассмотрена в статье(Loughran & McDonald, 2011), где была предложена методика TF-IDF (termfrequency-inversedocumentfrequency), а также представлена методика составления словаря тональностей.

При использовании статистического подхода могут применяться разнообразные алгоритмы классификации текстов, дающие высокую точность предсказания. Гибридный классификатор на основе ряда специальных методов был разработан в статье(Das & Chen, 2007), посвященной изучению динамики цены акции в зависимости от сентиментов, выраженных в сообщениях на финансовых форумах и сайтах. Это позволило достичь точности, превышающей точность байесовского классификатора (60-70%). В исследовании (Guo et al., 2017) дается обзор таких методов, как наивный байесовский классификатор, BPNN и метод опорных векторов; на основании изученных работ делается вывод о превосходстве нейронной сети в предсказательной силе.

Изначально в финансах использовался ряд неспециализированных словарей тональности, таких как гарвардский общий словарь (HarvardGeneralInquirer) - наиболее популярный из всех(Loughran & McDonald, 2016). Этот словарь содержит около 100 различных сентиментов; в исследованиях, однако, они группируются во всего несколько, в простейшем случае - два, положительный и отрицательный. В дальнейшем был разработан ряд других словарей, так или иначе приспособленных под финансовый дискурс или же расширяющих или актуализирующих список слов и состав пространства сентиментов(Федорова et al., 2019):

Таблица 4. Некоторые словари тональностей

Источник

Словарь

Число слов

Сентименты

(Henry, 2008)

Henry

190

Позитивный, негативный

(Mohammad & Turney, 2010)

NRC

6468

Злость, симпатия, отвращение, страх, радость, грусть, удивление, доверие

(Demers & Vega, 2010)

DICTION

Не применимо

Чистый оптимизм (оптимизм минус пессимизм), уверенность

(Nielsen, 2011)

AFINN

2477

Пространство «позитивный-негативный»

(Loughran & McDonald, 2011)

Loughran & McDonald

3916

Позитивный, негативный, спорный, ограничивающий, избыточный

С помощью словаря Henry, несмотря на его кажущуюся примитивность, удалось составить значимые для предсказания абнормальной доходности акций переменные тональности. Существует множество аналогичных небольших словарей, которые, как правило, не используются кем-то помимо их авторов с тем или иным успехом(F. Li, 2011).Словарь NRC напрямую не связан с финансами, однако далее был успешно использован в некоторых исследованиях(Федорова et al., 2019). Под DICTIONимеется в виду группа словарей, составленная с помощью одноименной программы анализа текста. В статье (Demers&Vega, 2010) доказывается превосходство одного из них, указанного в таблице, по отношению к гарвардскому словарю при предсказании доходности.

Финансовый словарьLoughran&McDonald - возможно, самый успешный и пригодный для использования в финансах(Loughran & McDonald, 2016). В этих двух статьях была приведена подробная критика, обосновывающая малопригодность неспециализированных словарей. С помощью этого словаря удалось достичь точности около 60-70%, в то время как общие словари на той же самой репрезентативной выборке вообще оказывались несостоятельными, показывая точность около 50%. По мнению авторов, причина заключалась в множественных различиях тональностей многих слов в обычной речи и в финансовой отчетности.

В качестве источника текстовых данных, как правило, благодаря своей гомогенности и общедоступности, избиралась форма K-10 -обязательная для всех публичных компаний США форма отчетности, содержащая информацию о ее финансовом состоянии.Помимо этого, периодически используются и другие источники текстовых данных. Так, одно из самых ранних исследований (Antweiler & Frank, 2004)было проведено на сообщениях в социальных сетях, и было показано, что их тональность действительно может иметь воздействие на динамику цен акций. В работе(Huang, Zang, & Zheng, 2014) исследовались статьи финансовых аналитиков - возможно, наиболее естественный источник текстовой информации, релевантной для принятия инвестиционных решений - для предсказания движений рынка с помощью наивного байесовского классификатора.

В контексте данной же работы наиболее интересна проблематика извлечения тональности из новостных сообщений. Так, в работе(L. Chen et al., 2014) было показано, что при предсказании доходности акций в зависимости от тональности ассоциированных с компанией новостей словарный подход работает лучше, причем существенного различия между гарвардским словарем и словарем Loughran&McDonaldвыявлено не было. Кроме того, в статье (Heston & Sinha, 2016) новости, переведенные в сентименты с помощью словаря Loughran&McDonald, были успешно использованы для предсказания краткосрочной динамики акций с применением нейросети.

Существует не так много исследований, прилагающих текстовый анализ к прогнозированию корпоративного дефолта. Следует упомянуть исследование (Hajek et al., 2014), в котором в качестве прокси-переменной для финансовой результативности компании используется ее Z-счет из МДА-моделей предсказания банкротства.Путем комбинирования словаря Loughran&McDonaldи DICTIONотчеты по форме K-10 были переведены в пространство из 11 сентиментов, которое затем было использовано на входе логистической регрессии и нескольких методов машинного обучения: нейросети, опорных векторов и решающих деревьев. Было показано, что текстовая информация может быть использована для определения попадания компании в одну из зон модели Альтмана с достаточной точностью (около 70%). Вероятно, наиболее актуальной на момент написания данного исследования работой по текстовому анализу в применении к прогнозированию банкротства компаний является статья(Mai et al., 2018). Она же описывает применение глубокой нейросети для классификации тональности текстов.

4. Методология исследования

Цель данной работы достигается путем обучения всех четырех моделей предсказания банкротства с использованием переменных тональности и без них, после чего сравнивается предсказательная сила в том и в другом случае. Чтобы это осуществить, необходимо было выполнить следующие задачи исследования:

(1) Собрать данные и подготовить методологическую базу:

a. Проанализировав литературу, выбрать ряд подходящих для исследования моделей предсказания банкротства, методологию анализа сентиментов и ряд словарей тональностей;

b. Составить выборку фирм-банкротов, разработать и применить алгоритм ее дополнения за счет финансово стабильных аналогов;

c. На основе существующих исследований составить набор объясняющих переменных, охватив необходимые их категории, и найти их значения для составленной выборки за период исследования;

d. Агрегировать новости за период исследования, ассоциированные с фирмами из составленной выборки;

(2) Обработать данные, переведя их в форму панельных данных, готовых к использованию в моделях:

a. Осуществить токенизацию и лемматизацию корпуса новостей;

b. Провести корреляционный анализ факторов, удалив некоторые из них ради устранения мультиколлинеарности и повышения интерпретируемости модели;

(3) Провести обучение модели:

a. Используя только переменные тональности,найти словарь тональности, предоставляющий наибольшую прогнозную силу;

b. Составить и обучить модель предсказания банкротства с помощью ранее отобранных методов без переменных тональности на трех горизонтах предсказания (1, 2 и 3 года) и пяти пропорциях (20%, 25%, 33% и 50% банкротов в выборке);

c. Сделать то же самое, включив в модели переменные тональности;

(4) Получить и интерпретировать результаты:

a. Вычислить и сравнить метрики качества у разных моделей;

b. Сравнить прогнозную силу разных моделей на разных горизонтах предсказания и пропорциях, сделать выводы о различиях в применимости четырех моделей;

c. Основываясь на метриках качества, проверить истинность поставленных гипотез;

d. Сделать выводы об экономическом смысле полученных результатов, их научной и практической ценности.

Были достигнуты все задачи исследования, кроме агрегации текстов новостей. В силу недоступности достаточно обширной базы данных текстов, были извлечены только новостные заголовки в ограниченном количестве. Тем не менее, они послужили удовлетворительным источником информации.

4.1. Работа с текстом

Для упрощения работы с текстовыми данными все собранные заголовки новостей были распределены по ячейкам матрицы «компания - год», и каждое множество подходящих документов далее интерпретировалось как один. Далее после удаления незначимых символов была произведена токенизация каждого документа, то есть разделение документа на вектор отдельных слов с удалением «стоп-слов» - незначимых слов служебных частей речи и некоторых других, не несущих информации. Вместо лемматизации, обычно использующейся в таком случае (Hajek et al., 2014), был осуществлен стемминг-удаление суффиксов слов с использованием универсального алгоритма, не требующего словаря(Porter, 1980), что дало качественно тот же результат с меньшими усилиями.

Среди всех существующих словарей тональности были избраны три. Во-первых, словарьLoughran-McDonaldSentimentWordList(L&M)сталочевидным выбором благодаря вышеупомянутой практике успешного применения в финансах, своей специализированности на экономическом лексиконе и релевантности набора сентиментов для анализа риска и процедуры банкротства (наличие «неопределенной» и «юридически спорной» тональностей). Во-вторых, словарьNRCWord-EmotionAssociationLexicon(NRC)былвыбранкак наиболее крупный словарь как по количеству слов, так и по полноте пространства сентиментов, а также благодаря его универсальности - в предположении того, что лексикон новостных заголовков может отличаться от профессионального финансового дискурса. В-третьих, словарьHarvardGeneralInquirer (GI)в форме трех семантических измерений Осгода из категорий IV-4 был взят как наиболее популярный словарь в практике анализа тональности (Loughran&McDonald, 2011). Все словари также были подвержены стеммингу.

Таблица 5. Словари, сентименты и количество слов после стемминга

L&M

NRC

GI

Всего основ

3917

Всего основ

6468

Всего основ

5136

Отрицательная

2355

Злость

1247

Положительная

1596

Положительная

354

Симпатия

839

Отрицательная

1938

Неопределенная

297

Отвращение

1058

Сильная

1405

Спорная

904

Страх

1476

Слабая

603

Ограничивающая

184

Радость

689

Активная

1447

Избыточная

56

Пессимизм

3324

Пассивная

631

Оптимизм

2312

Грусть

1191

Неожиданность

534

Доверие

1231

Словари DICTION, успешно применявшиеся для прогнозирования банкротства(Demers & Vega, 2010),не были использованы из-за отсутствия единого общедоступного списка слов и трудоемкости вычисления сентиментов.

В своей оригинальной трактовке метод мешка слов подразумевает подсчет числа включений каждой словарной основы в состав документа, после чего соотнесенные с тональностями числа тем или иным образом усредняются.Однако в данном случае чрезвычайно важно уравнять масштаб между наблюдениями «компания - год» с разным числом новостей, разрыв в котором в некоторых случаях может достигать двух порядков. Поэтому после получения вектора основ к нему был применен алгоритмtermfrequency-inversedocumentfrequency (TF-IDF), сгладивший различия как в информационном покрытии, так и в распространенности (а следовательно - значимости) отдельных слов.

После получения матрицы весов в координатах «документ - слово» результирующие факторы тональностей были получены путем перемножения этой матрицы с матрицами самих словарей в координатах «слово - тональность».

Вся работа с текстом была осуществлена с помощью библиотекиNaturalLanguageToolkit 3.4.1 (Bird, Klein, & Loper, 2009).

4.2. Моделирование

Основное предположение данной работы состоит в качественно эквивалентном потенциале стандартных инструментов бинарной классификации и наиболее продвинутых современных методов прогнозирования банкротства, таких как гибридные классификаторы, к извлечению информации из переменных тональности. Поэтому задача моделирования банкротства сводится к выбору ряда простых и эффективных, зарекомендовавших себя в вышеупомянутой литературе, уже существующих методов:

1. Логистическая регрессия - в качестве бенчмарк-модели, позволяющей быстро сравнивать различные спецификации и проверять знаки коэффициентов при переменных;

2. Многослойный персептрон - благодаря универсально высокой результативности и нечувствительности к характеру данных;

3. Метод опорных векторов - благодаря малому числу гиперпараметров, производительности и способности отыскивать глобальный оптимум;

4. Случайный лес - как, пожалуй, простейший в использовании ансамбль классификаторов, один из немногих легко интерпретируемых и визуализируемых методов машинного обучения.

При выборе спецификации моделей использовались стандартные методы, такие как корреляционный анализ, F-тест и метод последовательного исключения переменных.

Случайный лес подразумевал обучение модели стандартным образом, однако вместо моды ответов решающих деревьев было использовано среднее их оценок вероятности принадлежности к классу, благодаря чему такие модели можно анализировать с помощью PR- и ROC-кривых.В остальных случаях обучение происходило с помощью алгоритмаLBFGS и включало L2-регуляризацию, предпочтенную L1-регуляризации несмотря на большую размерность пространства регрессоров благодаря заранее осуществленному отбору факторов.

Также все модели были обучены посредством исчерпывающего поиска по сетке гиперпараметров с применением кросс-валидации по методу k-fold (k = 5), причем доля отложенных наблюдений составила 25%. Сетка для каждой модели задавалась путем подбора таким образом, чтобы на всех выборках оптимальные гиперпараметры попадали ближе к середине диапазона. Среди гиперпараметров разных моделей интерес представляет разве что конфигурация многослойного персептрона. Известно, что двухслойный персептрон способен решать задачи любого порядка нелинейности, а количество нейронов на каждом скрытом слое следует выбирать в диапазоне от 1/3 до 1/2 от суммы их количества на входном и выходном слое (Heaton, 2008). В данном случае этот диапазон примерно равен 16-4 на каждом из двух слоев с учетом разницы в спецификациях.

Так как прогнозирование финансовой нестабильности - это, в первую очередь, задача риск-менеджмента, основным требованием к прогнозной модели является минимизация ошибки второго рода (если обозначить банкротство как класс «1», а его отсутствие - как класс «0»).Недопустимость недооценки рискаделает естественным выбор чувствительности модели (recall), то есть доли верно предсказанных банкротств,в качестве основной метрики качества. Она, однако, должна быть уравновешена точностью (precision), то есть долей верных предсказаний банкротства. Поэтому при валидации моделей в качестве целевого показателя была выбрана площадь под кривой Precision-Recall. Кроме того, такие метрики, как достоверность (accuracy) и специфичность (specifity), то есть доля верных предсказаний и доля верных предсказаний отсутствия банкротства, были вычислены для справки.

Обучение моделей и нахождение метрик было осуществлено с помощью библиотекиscikit-learn 0.20.3 (Pedregosa et al., 2011)на языке Python 3.7.1 (Rossum, 1995). Существенные части исходного кода (см. прил. Д), а также параметризация моделей (см. прил. Г., табл. 36) предоставляются.

5. Описание данных

Основа исследования -база данных банкротств публичных крупных американских компаний Калифорнийского университета в Лос-Анджелесе. Из общего списка, содержащего около 1150 случаев банкротства, была составлена выборка размером в 173 наблюдения, которые отвечают следующим критериям:

1. Компания допустила один и только один дефолт в соответствии с главой 7 или главой 11 Кодекса США о банкротстве на протяжении 2011 - 2018 годов включительно;

2. Дефолт не был допущен по обязательствам, возникшим по решению суда вследствие признания за компанией правонарушения (tort);

3. Стоимость всех активов компании на момент банкротства находилась в диапазоне 10⁷ - 10¹⁰;

4. Местом регистрации компании (incorporationstate) являлся один из штатов США. Фирмы и нетекстовые факторы

После первичной обработки данных и удаления наблюдений с большим количеством пропущенных значений, в конечную выборку вошло 137 компаний-банкротов (см. прил. Е, табл. 37).Данные по наблюдениям с несущественным количеством пропущенных значений были линейно интерполированы, экстраполированы или же дополнены на основе базовых правил составления финансовой отчетности.

Рисунок 2. Число банкротств в год за период наблюдения

Большую часть выборки составили компании из отраслейдобывающей промышленности и услуг. Несмотря на общепринятую практику отдельного рассмотрения финансовых компаний, было решено включить их в общую выборку из-за слишком большой цены удаления наблюдений.

Рисунок 3. Деление выборки банкротов по размеру активов и отраслям

Далее к каждой компании-банкроту были подобраны аналоги, принадлежащие тому же сектору экономики и имеющие тот же порядок размера активов, но при этом остававшиеся финансово стабильными на протяжении всего периода наблюдения.Аналоги случайно выбирались из листинга NYSEи NASDAQ при условии непрерывного нахождения в нем на протяжении всего периода наблюдения - всего 526 компаний (см. прил. Е, табл. 38-40).

Таблица 6. Номинальное и реальное количество наблюдений в выборках

(1) 20

(1) 25

(1) 33

(1) 50

(2) 20

(2) 25

(2) 33

(2) 50

(3) 20

(3) 25

(3) 33

(3) 50

Доля ном.

0.200

0.250

0.330

0.500

0.200

0.250

0.330

0.500

0.200

0.250

0.330

0.500

Доля реал.

0.207

0.251

0.335

0.502

0.206

0.252

0.336

0.503

0.208

0.255

0.339

0.507

Банкротов

137

137

137

137

267

267

267

267

382

382

382

382

Аналогов

526

408

272

136

1028

792

528

264

1454

1116

744

372

Всего

663

545

409

273

1295

1059

795

531

1836

1498

1126

754

Всего было сформировано 12 выборок; если к той или иной компании-банкроту не находилось аналога, разница между номинальной и реальной долей банкротов компенсировалась за счет дублирования наблюдений. Сначала была случайно сформирована самая большая (20) выборка, затем из нее детерминировано удалялась часть наблюдений для формирования меньших выборок. Тестовая выборка всегда составляла одну четверть от полной и выбиралась из нее также случайно.

Изначальный набор подлежащих исследованию нетекстовых факторов (см. прил. А, табл. 16) включал в себя 42 количественные переменные (35 финансовых, 5 рыночных и 3 макроэкономических), а также категориальную переменную отрасли (всего 6 фиктивных переменных). Между некоторыми факторами обнаружилась существенная корреляция, а корреляция между факторами и объясняемой переменной в большинстве случаев соответствовала экономическому смыслу (см. прил. А, табл. 18-20).

Вид распределений основных финансовых коэффициентов позволил уже на данном этапе сделать некоторые выводы о взаимозависимости между ними и вероятностью банкротства компании. Так, компании-банкроты естественным образом имеют более высокий финансовый рычаг в среднем, однако выше и разброс этого показателя. Отрицательный финансовый рычаг - одна из характерных черт финансово нестабильных компаний с очень низкой отрицательной нераспределенной прибылью, сумма обязательств которых превышает сумму активов.

Рисунок 4. Распределение отношения заемного капитала к собственному на (1) 20

Платежеспособность компаний-банкротов, как и следовало ожидать, по всем показателям ниже, чем у аналогов. Операционная прибыль половины из них недостаточна для обслуживания долга общей стоимостью более 14%, а у 75% из них ее хватает на выплату процентов не более чем на 1.3 года.

Рисунок 5. Распределение коэфф. покрытия долга и процентных расходовна (1) 20

То же верно и в отношении ликвидности, хотя разрыв в коэффициенте быстрой ликвидности не столь велик: его медианное значение у нестабильных компаний находится чуть выше уровня 25%-й персентили такового у аналогов. Более того, значительно более весомую часть их обязательств составляют краткосрочные, и, значит, более дорогие обязательства.

Рисунок 6. Распределение коэфф. быстрой ликвидности и доли кратк. обяз. на (1) 20

Около половины компаний-банкротов имеют не только отрицательную чистую прибыль, но и отрицательную прибыль до налогообложения и уплаты процентов. Их операционная рентабельность и отдача от капитала, однако, сильно варьирует; у 25% дефолтеров эти показатели превышают 13% и 9%, соответственно.

Рисунок 7. Распределение операционной рентабельности и отдачи от активов на (1) 20

Средние значения основных финансовых коэффициентов значительно разнятся в зависимости от отрасли. Так, наиболее закредитованными отраслями традиционно остаются финансы и энергетика, однако наибольшие трудности с покрытием долговой нагрузки испытывают производители товаров потребления.

Долгосрочный и низкомаржинальный характер инвестиций в здравоохранение оправдывает отрицательное среднее значение рентабельности активов.

Многие другие коэффициенты демонстрировали большой разброс и обилие выбросов (см. прил. А, табл. 17); было, однако, решено не исключать выбросы из выборки, так как зачастую очень высокие или очень низкие значения коэффициентов отражают экономическую природу феномена банкротства, как, например, очень низкий показатель собственного капитала или операционной прибыли.

Таблица 7. Средние значения основных финансовых переменных на выборке (1) 20

	D/E	CFFO/D	EBITDA/IE	CL/A	QA/A	EBIT/R	NI/A
Добыча	0.57	0.20	3.19	0.14	0.17	0.03	0.01
Потреб. товары	0.37	0.55	17.90	0.26	0.17	0.08	0.06
Финансы	1.02	0.12	2.10	0.21	0.21	0.08	0.01
Здравоохранение	0.20	0.09	2.99	0.23	0.30	0.10	-0.01
Пром. товары	0.55	0.22	7.06	0.20	0.30	0.07	0.03
Услуги	0.51	0.22	5.43	0.23	0.28	0.06	0.04
Технологии	0.48	0.20	6.74	0.19	0.33	0.07	0.03
Инфраструктура	0.87	0.17	4.47	0.11	0.14	0.21	0.03

Текстовые факторы

По практическим соображениям в исследовании были использованы не тексты новостей, как обычно делается(Heston & Sinha, 2016), а только их заголовки, что можно сравнить с анализом сообщений из Twitter(Nielsen, 2011). Все они были размещены в сервисе ThomsonReutersNews (RTRS/REUTES) в разделе Research, причем за каждым была закреплена ассоциация с одной или с несколькими компаниями из исследованной выборки.

Из более чем 23 тысяч заголовков было выбрано 4896 содержательных и непересекающихся, в которых упоминалось всего 209 компаний (в среднем 23.4 новости на компанию на протяжении 8 лет - см. прил. Б, табл. 21-23). Новости, относящиеся к компаниям-банкротам, были включены в выборку в том случае, если они были опубликованы не позднее чем за месяц от даты объявления банкротства.

Таблица 8. Средние числа новостей на компанию; слов и значимых слов на новость

2011

2012

2013

2014

2015

2016

2017

2018

Новостей

10.13

6.96

5.56

7.00

5.29

3.53

2.83

11.74

Слов

9.80

9.59

8.81

10.16

10.65

10.06

11.07

10.48

Значимых слов

2.57

2.37

1.86

1.87

1.74

2.33

2.44

2.00

В большинстве случаев между тональностями наблюдалась осмысленная корреляция, однако ее, зачастую, не существовало между ними и объясняемой переменной (см. прил. Б, табл. 25-27). Словарь L&Mоказался наиболее осмысленным в этом отношении (см. прил. Б, табл. 26).: негативный и неопределенный характер новостных сообщений коррелировал с повышенной вероятностью банкротства, а положительный - со сниженной. Подозрений на избыточность переменных и наличие мультиколлинеарности не возникло. Более того, средняя спорная тональность (litigious - «спорный» в юридическом смысле) продемонстрировала высокую корреляцию с количеством банкротств в год.

Рисунок 8. Усредненные тональности и число банкротств по годам, L&M

В целом, переменные тональности продемонстрировали незначительный разброс, а их матрица оказалась достаточно разреженной: большинство новостей содержало всего 1-2 тональности, а алгоритм TF-IDFпозволил сгладить большую разницу между популярностью различных компаний в корпусе новостных сообщений.

Таблица 9. Описательные статистики переменных тональностей, L&M

Тональность

Отриц.

Полож.

Неопр.

Спорн.

Огранич.

Избыт.

Банкроты

Максимум

2.75

1.13

0.79

1.54

0.34

0.00

Медиана

1.39

0.00

0.00

0.00

0.00

0.00

Среднее

1.36

0.20

0.16

0.20

0.03

0.00

Минимум

0.00

0.00

0.00

0.00

0.00

0.00

Отклонение

0.69

0.36

0.22

0.41

0.08

0.00

Аналоги

Максимум

3.16

2.14

1.41

1.52

1.00

1.00

Медиана

1.00

0.00

0.00

0.00

0.00

0.00

Среднее

0.86

0.30

0.10

0.29

0.02

0.02

Минимум

0.00

0.00

0.00

0.00

0.00

0.00

Отклонение

0.59

0.41

0.25

0.41

0.10

0.13

Анализ данных позволил заключить, что, во-первых, как финансовые, так и текстовые факторы несут некоторую информацию об объясняемой; во-вторых, в большинстве случаев взаимосвязь между ними соответствует экономическим процессам, сопряженным с феноменом банкротства; наконец,словарь L&M, в отличие от двух других, вполне годится для формирования переменных тональности, осмысленно связанных с объясняемой переменной.

6. Результаты исследования

В целом результаты удовлетворительны. Удалось добиться весьма высокой точности предсказания банкротства, аиз новостных заголовков удалось извлечь некоторую информацию.Ее полезность для еще большего увеличения прогнозной силыбанкротства, однако, неочевидна.

Выдвинутые гипотезы подтвердились лишь частично:

H1. Результаты неоднозначны: улучшение прогнозной силы произошло только для одной из четырех моделей и не превысило статистической погрешностив 1-2%;

H2. Гипотеза подтверждается с осторожностью для переменных словаря L&M, значимых согласно F-тесту: негативная и неопределенная тональности повышают вероятность банкротства, а позитивная - уменьшает;

H3. Результаты неоднозначны: среди словарей не удается выделить стабильно более результативный, хотя факторы словарей NRCи GI, в отличие от таковых у L&M,практически не поддаются интерпретации;

H4. Гипотеза отвергается: чаще всего метрики качества растут с увеличением горизонта, а не снижаются, однако разница между однолетними и трехлетними метриками весьма мала;

H5. Гипотеза отвергается: все фиктивные переменные отраслей оказались незначимыми.

6.1. Выбор нетекстовых факторов и словаря

После обработки собранных данных возникла необходимость уменьшить размерность матрицы объясняющих переменных, число которых изначально не более чем в 5-6 раз превышал количество наблюдений в наименьшей из выборок. Предполагалось, что это позволит улучшить интерпретируемость моделей и повысит устойчивость ее коэффициентов.

Сначала была устранены переменные, порождающие очевидную мультиколлинеарность. Всего в матрице регрессоров оказалось 8 пар переменных, корреляция между которыми превышала 0.9. В каждой из них выбиралась и удалялась та переменная, взаимная информация которой с объясняющей переменной была меньше.

Рисунок 9. Пары скоррелированных объясняющих переменных и выбор одной из них

Парная корреляция

Факторы

Взаимная информация с Y

Корреляция с Y

-0.970

ы L/A

0.1178

0.233

ь CE/A

0.1214

-0.231

1.000

ы A

0.0330

-0.031

ь A/GNP

0.0491

-0.032

0.936

ы CA/CL

0.0368

-0.058

ь QA/CL

0.0480

-0.051

0.992

ы WC/D

0.0588

0.032

ь CA/D

0.0592

0.028

0.938

ь NI/R

0.1891

-0.086

ы EBIT/R

0.1071

-0.105

0.902

ы CFFO/A

0.1039

-0.017

ь CFFO/D

0.1178

-0.006

-0.973

ы C/GP

0.0565

-0.002

ь EBITDA/IE

0.1593

-0.007

0.964

ь CA/D

0.0592

0.028

ы GP/D

0.0324

0.016

Былиудаленыпеременные: Liabilities/Assets, Assets, Current Assets/Current liabilities, Working Capital/Debt, EBIT/Revenue, Cash flow from operations/Assets, Cash and equivalents/Gross profit, Gross profit/Debt, послечегоосталось 28 финансовыхпеременных. Это число все еще очень велико:...

Страница:

1
2
3
4

дипломная работа "Текстовый анализ новостей в применении к прогнозированию банкротства компаний" скачать

Подобные документы

Модели прогнозирования банкротства компаний в российской практике
Модели дискриминантного анализа. Эффективность классических западных и российских моделей предсказания банкротства. Отраслевая специфика. Описание статей, включающее характеристики выборки, метод, список факторов и прогнозную силу метода анализа.

реферат [68,6 K], добавлен 24.07.2016

Диагностика банкротства по моделям Давыдовой-Беликова
Определение возможности банкротства субъектов хозяйствования. Характеристика моделей экспресс-прогнозирования вероятности наступления банкротства Давыдовой-Беликова и Сайфулина-Кадыкова. Юридические аспекты и акты регулирования процедуры банкротства.

курсовая работа [84,1 K], добавлен 30.09.2009

Система банкротства в Российской Федерации. Методы прогнозирования возможного банкротства предприятия
Два подхода к прогнозированию банкротства. Три модели Альтмана. Методика О.П. Зайцевой. Методика ФСФО РФ. Методика определения класса кредитоспособности. Методика балльных оценок. Критерии А.И. Ковалева, В.П. Привалова. Методика А.О. Недосекина.

реферат [19,8 K], добавлен 10.05.2007

Понятие и признаки банкротства
Институт банкротства как механизм обеспечения социальной ответственности предпринимателей. Сущность и виды банкротства, количественные и качественные факторы его предсказания. Диагностика, контроль и предупреждение неплатежеспособности предприятий.

презентация [1,5 M], добавлен 21.05.2015

Диагностика банкротства по модели Зайцевой
Понятие банкротства, его основные причины и необходимость прогнозирования. Отечественные и зарубежные модели экспресс-прогнозирования возможности наступления банкротства. Сущность модели О.П. Зайцевой и расчет вероятности наступления банкротства.

курсовая работа [98,7 K], добавлен 30.09.2009

Диагностика банкротства предприятия и пути финансового оздоровления
Понятие и признаки банкротства, его причины и виды. Факторы возникновения кризисных ситуаций на предприятиях. Методы диагностики вероятности банкротства многокритериальным способом, при помощи дискриминантных факторных моделей на примере ОАО "АКВА".

курсовая работа [51,7 K], добавлен 09.12.2013

Риск банкротства в предпринимательской деятельности
Экономическая сущность банкротства предприятия, его основные критерии в мировой хозяйственной практике. Методы диагностики финансовой несостоятельности хозяйствующих субъектов. Разработка мероприятий по прогнозированию банкротства конкретного предприятия.

курсовая работа [69,8 K], добавлен 12.04.2012

Институт банкротства
Понятие банкротства и его предпосылки. Социально экономические последствия банкротства. Развитие института банкротства в России и за рубежом. Банкротство физического лица и его особенности в РФ. Правовое регулирование порядка банкротства юридических лиц.

курсовая работа [57,3 K], добавлен 26.05.2015

Прогнозирование несостоятельности (банкротства) предприятия
Проблема прогнозирования банкротства предприятий в Российской Федерации. Организационно-экономическая характеристика ООО "Мана", анализ его финансовой устойчивости, платежеспособности и кредитоспособности. Диагностика банкротства по модели Альтмана.

реферат [101,5 K], добавлен 08.06.2013

Диагностика банкротства предприятия
Рассмотрение теоретических основ диагностики банкротства. Исследование методик прогнозирования несостоятельности. Анализ финансового состояния ООО "Отчизна". Изучение мероприятий по повышению финансовой устойчивости для уменьшения риска банкротства.

курсовая работа [302,1 K], добавлен 12.10.2010

Использование экономического анализа при процедуре банкротства предприятия
Правовая природа отношений несостоятельности (банкротства) в Украине. Критерии вероятности банкротства. Финансовый анализ при процедуре банкротства предприятия на основании данных финансовой отчетности ремонтно-строительного предприятия "Импульс".

дипломная работа [206,5 K], добавлен 07.11.2011

Диагностика риска банкротства предприятия
Понятие и признаки банкротства. Причины и виды банкротства. Процедуры банкротства. Методы диагностики вероятности банкротства. Многокритериальный подход. Дискриминантные факторные модели. Оценка вероятности банкротства предприятия по модели Альтмана.

курсовая работа [59,3 K], добавлен 16.12.2007

Методы прогнозирования банкротства предприятия
Определение понятия "банкротство". Рассмотрение роли бухгалтерской финансовой отчетности в оценке вероятности банкротства; изучение методик оценки. Исследование риска наступления банкротства. Описание мероприятий по укреплению финансовой устойчивости.

курсовая работа [366,6 K], добавлен 08.12.2014

Разработка современной модели оценки вероятности банкротства компании
Основные понятия финансовой несостоятельности предприятий. Создание математической модели прогнозирования банкротства компании. Выявление факторов финансового состояния ЗАО "Управление механизации №276", информационная база анализа угрозы банкротства.

курсовая работа [388,7 K], добавлен 18.05.2014

Методы прогнозирования потенциального банкротства фирмы на примере ОАО "Удмуртагрохим"
Теоретические основы банкротства предприятия и методы анализа вероятности его наступления. Диагностика банкротства на примере анализа финансового состояния ОАО "Удмуртагрохим". Краткая характеристика предприятия. Пути выхода из кризисного состояния.

курсовая работа [51,4 K], добавлен 29.06.2009

Понятие банкротства. Факторы, влияющие на предприятия, и причины банкротства
Причины банкротства. Процедура банкротства в целях финансового оздоровления предприятия. Финансовый анализ как способ предотвращения кризисных ситуаций. Банкротство как механизм оздоровления экономики. Процедура банкротства в России.

реферат [19,7 K], добавлен 10.05.2007

Анализ прогнозирования банкротства предприятия и пути его оздоровления на примере ОАО "Техно-Мастер"
Экономическое содержание несостоятельности и банкротства предприятия, анализ его прогнозирования по зарубежным и отечественным методикам. Анализ финансового состояния предприятия с целью предотвращения его банкротства на примере ОАО "Техно-Мастер".

дипломная работа [226,3 K], добавлен 24.10.2011

Процедура банкротства
Изучение понятия и экономической природы банкротства как неотъемлемого атрибута рыночной экономики, содержание и значение. Определение основных критериев несостоятельности и процедуры банкротства, установленные современным российским законодательством.

курсовая работа [56,7 K], добавлен 18.02.2011

Сущность и содержание понятия "банкротство"
Современный кризис как угроза банкротства банков. Методическое обеспечение системы банкротства предприятия. Характеристика ООО "Антураж", диагностика банкротства компании. Характеристика основных этапов банкротства предприятия, меры противостояния.

курсовая работа [4,6 M], добавлен 12.11.2014

Прогнозирование потенциального банкротства предприятия
Методы прогнозирования банкротства, особенности их использования в России и за рубежом. Организационно-экономическая характеристимка и анализ потенциального банкротства ОАО "Живая вода". Пути повышения финансовой устойчивости исследуемого предприятия.

курсовая работа [498,3 K], добавлен 02.12.2009

Другие документы, подобные "Текстовый анализ новостей в применении к прогнозированию банкротства компаний"

главная

рубрики

по алфавиту

вернуться в начало страницы

вернуться к началу текста

вернуться к подобным работам

Рубрики

По алфавиту

Закачать файл

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.

Источник	Словарь	Число слов	Сентименты
(Henry, 2008)	Henry	190	Позитивный, негативный
(Mohammad & Turney, 2010)	NRC	6468	Злость, симпатия, отвращение, страх, радость, грусть, удивление, доверие
(Demers & Vega, 2010)	DICTION	Не применимо	Чистый оптимизм (оптимизм минус пессимизм), уверенность
(Nielsen, 2011)	AFINN	2477	Пространство «позитивный-негативный»
(Loughran & McDonald, 2011)	Loughran & McDonald	3916	Позитивный, негативный, спорный, ограничивающий, избыточный

L&M	NRC	GI
Всего основ	3917	Всего основ	6468	Всего основ	5136
Отрицательная	2355	Злость	1247	Положительная	1596
Положительная	354	Симпатия	839	Отрицательная	1938
Неопределенная	297	Отвращение	1058	Сильная	1405
Спорная	904	Страх	1476	Слабая	603
Ограничивающая	184	Радость	689	Активная	1447
Избыточная	56	Пессимизм	3324	Пассивная	631
		Оптимизм	2312
		Грусть	1191
		Неожиданность	534
		Доверие	1231

	(1) 20	(1) 25	(1) 33	(1) 50	(2) 20	(2) 25	(2) 33	(2) 50	(3) 20	(3) 25	(3) 33	(3) 50
Доля ном.	0.200	0.250	0.330	0.500	0.200	0.250	0.330	0.500	0.200	0.250	0.330	0.500
Доля реал.	0.207	0.251	0.335	0.502	0.206	0.252	0.336	0.503	0.208	0.255	0.339	0.507
Банкротов	137	137	137	137	267	267	267	267	382	382	382	382
Аналогов	526	408	272	136	1028	792	528	264	1454	1116	744	372
Всего	663	545	409	273	1295	1059	795	531	1836	1498	1126	754

	2011	2012	2013	2014	2015	2016	2017	2018
Новостей	10.13	6.96	5.56	7.00	5.29	3.53	2.83	11.74
Слов	9.80	9.59	8.81	10.16	10.65	10.06	11.07	10.48
Значимых слов	2.57	2.37	1.86	1.87	1.74	2.33	2.44	2.00

	Тональность	Отриц.	Полож.	Неопр.	Спорн.	Огранич.	Избыт.
Банкроты	Максимум	2.75	1.13	0.79	1.54	0.34	0.00
	Медиана	1.39	0.00	0.00	0.00	0.00	0.00
	Среднее	1.36	0.20	0.16	0.20	0.03	0.00
	Минимум	0.00	0.00	0.00	0.00	0.00	0.00
	Отклонение	0.69	0.36	0.22	0.41	0.08	0.00
Аналоги	Максимум	3.16	2.14	1.41	1.52	1.00	1.00
	Медиана	1.00	0.00	0.00	0.00	0.00	0.00
	Среднее	0.86	0.30	0.10	0.29	0.02	0.02
	Минимум	0.00	0.00	0.00	0.00	0.00	0.00
	Отклонение	0.59	0.41	0.25	0.41	0.10	0.13

Парная корреляция	Факторы	Взаимная информация с Y	Корреляция с Y
-0.970	ы L/A	0.1178	0.233
	ь CE/A	0.1214	-0.231
1.000	ы A	0.0330	-0.031
	ь A/GNP	0.0491	-0.032
0.936	ы CA/CL	0.0368	-0.058
	ь QA/CL	0.0480	-0.051
0.992	ы WC/D	0.0588	0.032
	ь CA/D	0.0592	0.028
0.938	ь NI/R	0.1891	-0.086
	ы EBIT/R	0.1071	-0.105
0.902	ы CFFO/A	0.1039	-0.017
	ь CFFO/D	0.1178	-0.006
-0.973	ы C/GP	0.0565	-0.002
	ь EBITDA/IE	0.1593	-0.007
0.964	ь CA/D	0.0592	0.028
	ы GP/D	0.0324	0.016