Прогнозирование дефолтов по корпоративным облигациям
Анализ состояния российского рынка корпоративных облигаций. Выявление основных финансовых причин дефолтов компаний. Выявление ряда основных показателей, влияющих на наступление дефолта. Механизм расчета моделей для предсказания дефолта компаний.
Рубрика | Экономика и экономическая теория |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 01.12.2019 |
Размер файла | 2,2 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Построение логит и пробит моделей
Для построения данных моделей дефолтным компаниям был присвоен индекс «1», а не дефолтным - «0». Для построения моделей выборка делится на 2 части:
1) Контролирующая выборка, состоящая из случайно выбранных 15 компаний с различными индексами. На этой выборке проверяется качество построенных моделей (Таблица №15).
Таблица №!5
Наименование компании |
Дефолт |
Год анализируемой отчетности |
|
Агрокомплекс |
Да |
2016 |
|
Автоприбор |
Да |
2009 |
|
ВолгаБурМаш |
Да |
2008 |
|
Рост-Лайн |
Да |
209 |
|
ЗапСиб-ТрансСервис |
Да |
2016 |
|
ГОТЭК |
Да |
2008 |
|
Агрохолдинг-финанс |
Да |
2008 |
|
Domo |
Да |
2017 |
|
Аэрофлот |
Нет |
2012 |
|
Вертолеты России |
Нет |
2014 |
|
Нижнесергинский метизно-металлургический завод |
Нет |
2006 |
|
Атэк |
Нет |
2012 |
|
Мосэнерго |
Нет |
2012 |
|
Югфинсервис |
Нет |
2012 |
|
Русснефть |
Нет |
2008 |
2) Обучающая выборка (вся выборка за исключением компаний из контролирующей выборки), на основе которой происходит расчет модели и выявление значимых и не значимых факторов.
На данных обучающей выборки строятся логит и пробит модели, а затем выбирается лучшая из них на основе информационных критериев Акаике и Шварца. На данных контролирующей выборки проверяется качество модели.
Правило определения класса компании: если рассчитанная вероятность дефолта компании превышает 0.5, то компания считается дефолтной, если менее 0.5 - то не дефолтной.
Логит-модель.
Результаты построенной логит-модели приведены на рисунке №7. При уровне значимости 10%, значимыми оказались следующие факторы: х2- коэффициент быстрой ликвидности; х11- финансовая устойчивость; х12- коэффициент покрытия процентных выплат.
Рисунок №7. «Результаты логит-модели на основе обучающей выборки»
Точность модели на обучающей выборке равна 70,95%. В таблице №16 указано соотношение фактических значений индекса и предсказанных.
Таблица №16
Факт/ Прогноз |
Дефолтные |
Не дефолтные |
|
Дефолтные |
31 |
24 |
|
Не дефолтные |
19 |
74 |
Точность модели на контролирующей выборке равна 73,33%. В таблице №17 указано соотношение фактических значений индекса и предсказанных.
Таблица №17
Факт/ Прогноз |
Дефолтные |
Не дефолтные |
|
Дефолтные |
5 |
3 |
|
Не дефолтные |
1 |
6 |
Для пробит-модели была построения ROC -кривая с различными барьерами отсечения, на основе которой было выявлено, что лучшим барьером является вероятность, равная 0.424(рисунок №8). Значение AUC=0.792 означает, что модель эффективней, чем метод простого угадывания (0.5).
Рисунок №8 «ROC кривая для логит-модели»
Пробит-модель
Результаты построенной пробит -модели приведены на рисунке №8. При уровне значимости 10%, значимыми оказались следующие факторы: х2- коэффициент быстрой ликвидности; х11- финансовая устойчивость; х12- коэффициент покрытия процентных выплат.
Рисунок №8 «Результаты пробит-модели на основе обучающей выборки»
Точность модели на обучающей выборке равна 73,65%. В таблице №18 указано соотношение фактических значений индекса и предсказанных.
Таблица №18
Факт/ Прогноз |
Дефолтные |
Не дефолтные |
|
Дефолтные |
3 |
25 |
|
Не дефолтные |
14 |
79 |
Точность модели на контролирующей выборке равна 73,33%. В таблице №19 указано соотношение фактических значений индекса и предсказанных, а на рисунке №9 показано реальный класс компании (столбец default, где с1- дефолт, с2- недефолт), рассчитанная вероятность дефолта (столбец prob), и класс компании, полученной на основе модели (столбец prob2).
Таблица №19
Факт/ Прогноз |
Дефолтные |
Не дефолтные |
|
Дефолтные |
5 |
3 |
|
Не дефолтные |
1 |
6 |
Рисунок №9 «Рассчитанные вероятности дефолтов компаний обучающей выборки»
Для пробит-модели была построения ROC -кривая с различными барьерами отсечения, на основе которой было выявлено, что лучшим барьером является вероятность, равная 0.437(рисунок №10). Значение AUC=0.793 означает, что модель эффективней, чем метод простого угадывания (0.5).
Рисунок №10. «ROC кривая для пробит модели»
С помощью информационных критериев Акаике и Шварца можно определить, что логит-модель является наилучшей (рисунок №10). Напомним, что лучшей считается модель, у которой данные критерии минимальны.
Рисунок №10. «Сравнение моделей с помощью информационных критериев»
Снижение размерности анализируемого признакового пространства и отбор наиболее информативных показателей
Для каждой компании в выборке определены 14 предикторов, предназначенных для эффективного определения класса компании, при этом некоторые из низ взаимосвязаны (например, ROA, ROE, и эффект финансового рычага). В этом разделе предлагается представить наблюдения по каждой из компании в виде вектора Z некоторых вспомогательных признаков z(1), z(2),.., z(p) с существенно меньшим (чем 14) числом компонент. Эта идея обусловлена следующими причинами:
1) Дублирование информации, доставляемой сильно взаимосвязанными признаками;
2) Неинформативность признаков, мало меняющихся при переходе от одного объекта к другому (малая «вариабельность признаков»);
3) Возможность агрегирования, т.е. простого или взвешенного суммирования по некоторым признакам;
4) Стремление к лаконизму исследуемых моделей, обусловленное необходимостью упрощения счета и интерпретации полученных статистических выводов;
5) Возможностью наглядного представления (визуализации данных), что достигается их проецированием на специально подобранное n-мерное пространство (n<=3).
При этом новые признаки могут выбираться из числа исходных или определяться по какому-либо правилу по совокупности исходных признаков, например, как их линейные комбинации. В качестве способа снижения размерности в работе предлагается использовать метод главных компонент. Пусть Х-исходная матрица предикторов. Тогда вектор искомых вспомогательных переменных Z(X)=(z(1)(X), z(2)(X),.., z(p)(X)) определяется как такая линейная комбинация Z=L*X, где строки матрицы L удовлетворяют условию ортогональности. Полученные таким образом переменные z(1)(X), z(2)(X),.., z(p)(X) называют главными компонентами вектора Х. Первой главной компонентой исследуемой системы называется такая нормированно-центрированная линейная комбинация этих показателей, которая среди всех прочих нормированно-центрированных линейных комбинаций переменных x(1), x(2),…, x(14) обладает наибольшей дисперсией. К-ой главной компонентной (k=2,3,…,14) исследуемой системы называется такая нормированно-центрированная линейная комбинация этих показателей, которая не коррелирована с k-1 предыдущими главными компонентами и среди всех прочих нормированно-центрированных и не коррелированных с предыдущими k-1 главными компонентами линейных комбинаций x(1), x(2),…, x(14) обладает наибольшей дисперсией. Исследуем корреляцию предикторов с классом компаний (дефолт/ не дефолт). Результаты представлены на рисунке №11.
Рисунок №11 «Статистика предикторов и их корреляция с объясняемой переменной»
Стоит отметить, что наибольшую взаимосвязь с определяемым классом компаний имеют предиктор х6 - ROA (-0.242) и х4 - долгосрочный долг/ собственный капитал (0.177). С помощью функции “rda” пакета “vegan” рассчитываем главные компоненты по исходному набору предикторов, результаты приведены на рисунке №12.
Рисунок №12 «Расчет главных компонент»
По исходному набору предикторов были рассчитаны 11 главных компонент. Собственные значения каждой компоненты указаны в строке Eigenvalue. В строке Proportion Explained указано какую долю дисперсии данных описывают главные компоненты. Например, первая главная компонента описывает 55,9% всей дисперсии данных (убеждаемся, что 1 компонента наиболее информативная). Вторая компонента описывает 23,3% дисперсии данных. В строке Cumulative Proportion суммируются значения срок Proportion Explained, т.е. указывается совокупная дисперсия, описанная несколькими компонентами. Например, для 2 главной компоненты (PC2) в данной строке этот показатель равен 0,792. Это значение получается суммированием значений показателя Proportion Explained для 1 и 2 компоненты (0,5593+0,233=0,792). В таблице Species Scores показаны коэффициенты, на которое каждый предиктор умножается для определения каждой компоненты. Например, при определении значения главной компоненты значение предиктора х1 умножается на 1,636. В таблице Site scores показан вклад каждого предиктора в определении значения каждой компоненты. Определим оптимальную размерность пространства главных компонент по критерию Кайзера-Гуттмана, который рекомендует оставить только те главные компоненты, собственные значения которых превышают их среднее (рисунок №13).
Рисунок №13 «Определение оптимального количества главных компонент»
Как видно из результатов на картинке №13 для качественного описания дисперсии исходного набора данных достаточно использовать 3 главные компоненты (Cumulative Proportion = 0,986), т.е. исходная размерность данных снижается с 163х14 до 163х3. Рассмотрим, какую конфигурацию имеет распределение наблюдений в пространстве первых двух главных компонент. Интерес представляет взаимное расположение сгущений точек, принадлежащих 2 классам (Рисунок №14).
Рисунок №14 «Конфигурация распределения наблюдений в пространстве первых двух главных компонент»
На картинке №14 FAC=1 - это дефолтные компании, FAC=2 - это не дефолтные компании. По оси ОХ отложены значения первой главной компоненты, а по оси OY отложены значения второй главной компоненты. Используя 2 главные компоненты на плоскости удалось показать разделение компаний на классы.
Построение логит-модели на основе главных компонент
В данном разделе строится логит-модель, использующая в качестве предикторов 3 главные компоненты, полученные в предыдущем разделе. Используя такие предикторы, модель теряет объяснительную способность, то есть она не дает возможность показать какие предикторы и как влияют на вероятность дефолта. Но, ввиду взаимной независимости предикторов, такая модель может дать лучший результат при классификации компаний. Для построения модели используются те же 2 подвыборки, описанные в начале главы 3. На рисунке №15 показаны результаты расчета логит-модели на основе проверочной выборки.
Рисунок №15 «Результаты логит модели на основе главных компонент»
По результатам анализа видно, что каждый предиктор является значимым при любом выбранном уровне значимости. В таблице № 20 показаны результаты классификации компаний, входящих в обучающую выборку, на основе построенной модели. Точность модели на обучающей выборке составила 95,27%.
Таблица №20
Факт/ Прогноз |
Дефолтные |
Не дефолтные |
|
Дефолтные |
50 |
4 |
|
Не дефолтные |
2 |
91 |
Для проверки качества модели были классифицированы компании, включенные в контролирующую выборку. Точность модели на контролирующей выборке составила 100% (таблица №21).
Таблица №21
Факт/ Прогноз |
Дефолтные |
Не дефолтные |
|
Дефолтные |
8 |
0 |
|
Не дефолтные |
0 |
7 |
На рисунке №15 показана ROC-кривая, построенная для данной модели. Оптимальное значение вероятности дефолта для наиболее качественной классификации компаний равна 0,442.
Рисунок №16 «ROC кривая логит модели на основе главных компонент»
Построение модели методом опорных векторов
Метод опорных веторов был разработан В.Н. Вапником и А.Я. Червоненкисом в 1974 году. Основная идея модели заключается в том, чтобы построить разделяющую поверхность с использованием только небольшого подмножества точек, лежащих в зоне, критической для разделения, тогда как остальные, верно классифицируемые наблюдения обучающей выборки вне этой зоны, не рассматриваются.
Так как в нашей выборке содержатся только 2 класса, то возможны 2 случая. Первый вариант связан с возможностью идеального разделения данных при помощи гиперплоскости (рис. 16). Так как таких гиперплоскостей может быть несколько, то оптимальной является та, которая максимально удалена от обучающих точек, то есть имеющая максимальный зазор M. При втором варианте облако точек линейно неразделимо (рис. 17).
Рисунок №17. Слева идеально линейно разделимая выборка, справа идеально линейно неразделимая.
В таком случае оптимальную гиперплоскость также ищут, максимизирующую ширину зазора M, при этом допускается неверно классифицировать некоторую небольшую группу наблюдений. Для этого задается дополнительное условие оптимизации , где С - допустимое число нарушений границы зазора и их выраженности, которая выбирается с использованием перекрестной проверки. Задача сводится к квадратичной оптимизации с линейными ограничениями, которая гарантировано сходится к одному глобальному минимуму.
Реализуем метод опорных векторов, используя проверочную выборку. Для подбора параметров модели задаем перекрестную проверку с делением выборки на 10 равных частей (рис. №17)
Рисунок №17 «Результаты модели метода опорных векторов с линейной разделяющей гиперплоскостью»
Результат классификации модели на обучающей выборке представлен в таблице №22. Точность модели составила 73,47%
Таблица №22
Факт/ Прогноз |
Дефолтные |
Не дефолтные |
|
Дефолтные |
17 |
37 |
|
Не дефолтные |
2 |
91 |
Результат классификации модели на контролирующей выборке представлен в таблице №23. Точность модели составила 87%.
Таблица №23
Факт/ Прогноз |
Дефолтные |
Не дефолтные |
|
Дефолтные |
7 |
1 |
|
Не дефолтные |
1 |
6 |
Применение ядерных функций машины опорных векторов
Ввиду невысокой точности модели на обучающей выборке, автор делает предположение о наличии нелинейной связи между предикторами и классом компаний. Предлагается использовать следующие ядра: полиномиальное ядро со степенью p, гауссово ядро с радиальной базовой функцией, сигмоидное ядро.
Для метода опорных векторов с полиномиальным ядром необходимо нужно оптимизировать Cost - допустимый штраф за нарушение границы зазора и Gamma - параметр полиномиальной функции. Для оценивания модели также используется перекрестная проверка с делением выборки на 10 равных частей. В таблице №24 показаны точность модели (Accuracy) при варьировании указанных параметров.
Таблица №24
№ |
Gamma |
Cost |
Accuracy |
|
1 |
2 |
256 |
0,803681 |
|
2 |
4 |
32 |
0,803681 |
|
3 |
4 |
128 |
0,803681 |
|
4 |
4 |
256 |
0,803681 |
|
5 |
2 |
128 |
0,797546 |
|
6 |
4 |
64 |
0,791411 |
|
7 |
1 |
256 |
0,785276 |
|
8 |
1 |
128 |
0,760736 |
|
9 |
64 |
128 |
0,748466 |
|
10 |
32 |
64 |
0,742331 |
Окончательными параметрами могут быть значения Gamma и Cost в строках 1-4. Для дальнейших расчетов используются значения строки 1. В таблице №25 показан результат классификации на обучающей выборке (точность модели равна 89,8%), а в таблице №26 - результаты классификации на контролирующей выборке (точность модели равна 100%).
Таблица №25
Факт/ Прогноз |
Дефолтные |
Не дефолтные |
|
Дефолтные |
41 |
13 |
|
Не дефолтные |
2 |
91 |
Таблица №26
Факт/ Прогноз |
Дефолтные |
Не дефолтные |
|
Дефолтные |
8 |
0 |
|
Не дефолтные |
0 |
7 |
Результаты построения модели с использованием сигмоидного ядра и вариации параметра ядра (coef0), представлены в таблице №27. Для дальнейших расчетов используется значение Coef0=0,0625.
Таблица №27
№ |
coef0 |
Accuracy |
|
12 |
0,0625 |
0,741496599 |
|
13 |
0,125 |
0,741496599 |
|
9 |
0,0078125 |
0,727891156 |
|
10 |
0,015625 |
0,727891156 |
|
7 |
0,001953125 |
0,721088435 |
|
8 |
0,00390625 |
0,721088435 |
|
11 |
0,03125 |
0,721088435 |
|
1 |
3,05E-05 |
0,714285714 |
|
2 |
6,10E-05 |
0,714285714 |
В таблице №28 показан результат классификации на обучающей выборке (точность модели равна 74,15%), а в таблице №29 - результаты классификации на контролирующей выборке (точность модели равна 80%).
Таблица №28
Факт/ Прогноз |
Дефолтные |
Не дефолтные |
|
Дефолтные |
19 |
35 |
|
Не дефолтные |
3 |
90 |
Таблица №29
Факт/ Прогноз |
Дефолтные |
Не дефолтные |
|
Дефолтные |
6 |
2 |
|
Не дефолтные |
1 |
6 |
Результаты модели с использованием радиального ядра, оптимизируя параметры Gamma и Cost, представлены в таблице №30. Лучшими параметрами являются значения, указанные в строке 1.
Таблица №30
№ |
Gamma |
Cost |
Accuracy |
|
1 |
8 |
256 |
0,993197279 |
|
2 |
16 |
64 |
0,993197279 |
|
3 |
16 |
128 |
0,993197279 |
|
4 |
32 |
16 |
0,993197279 |
|
5 |
32 |
32 |
0,993197279 |
|
6 |
64 |
8 |
0,993197279 |
|
7 |
16 |
32 |
0,986394558 |
|
8 |
64 |
4 |
0,986394558 |
|
9 |
8 |
128 |
0,979591837 |
В таблице №31 показан результат классификации на обучающей выборке (точность модели равна 97,9%), а в таблице №32 - результаты классификации на контролирующей выборке (точность модели равна 100%).
Таблица №31
Факт/ Прогноз |
Дефолтные |
Не дефолтные |
|
Дефолтные |
52 |
2 |
|
Не дефолтные |
1 |
92 |
Таблица №32
Факт/ Прогноз |
Дефолтные |
Не дефолтные |
|
Дефолтные |
8 |
0 |
|
Не дефолтные |
0 |
7 |
Сравнение моделей
Итак, в работе были построены 7 различных моделей. На рисунке №17 построены ROC-кривые для всех моделей, а также показаны AUC значения. По рисунку №17 можно сделать вывод о том, что наилучшими моделями являются: логит модель на основе главных компонент и модель на основе метода опорных векторов с радиальным ядром (AUC равны 0.959 и 0.922 соответственно). Эти модели показали себя практически одинаково как на обучающей, так и на контролирующей выборке. Результаты прочих моделей значительно хуже. В результате удалось разработать модель, способную эффективно классифицировать компании, а, следовательно, предопределять дефолт компаний по их финансовым показателям.
Рисунок №18 «ROC кривые моделей»
Для расчета вероятности дефолта компании, не представленной в выборке, необходимо следовать данному алгоритму:
1) рассчитать финансовые показатели для компании за отчетный период;
2) Рассчитать значения главных компонент (pc1, pc2, pc3);
3) используя логит модель на основе главных компонент, рассчитать вероятность дефолта;
4) если значение вероятности дефолта превышает 0,442 (на основании построенной ROC кривой на рисунке №16), то такая компания рассматривается как близкая к дефолту.
Заключение
Оценка вероятности дефолта компании-эмитента корпоративной облигации играет важную роль в принятии инвестиционных решений. В данной работе был проведен анализ всех дефолтных облигационных займов российского рынка. Было выявлено, что дефолты по купону встречаются чаще других, при это объем невыполненных обязательств при дефолте по оферте является самым большим. Также было выявлено, что дефолт по причине нехватки денежных средств и банкротство являются самыми часто встречаемыми причинами невыполнения собственных обязательств. В работе были построены 7 различных моделей, при это наиболее эффективными из них оказались: модель логита на основе главных компонент и модель на основе метода опорных векторов с радиальным ядром. Такие модели не дают возможности показать какие финансовые показатели и как влияют на вероятность дефолта, но, тем не менее, они способны эффективно предопределять наступления дефолта. В работе даны рекомендации о том, как рассчитать вероятности дефолтов для других компаний. Таким образом, в работе удалось разработать эффективный метод определения наступления дефолта компании на российском рынке корпоративных облигаций компаний нефинансового сектора.
Список литературы
1) E. Altman. «Financial Ratios, Discriminant Analysis and the Prediction of Corporate Bankruptcy», 1968.
2) E. Altman, R. Haldeman, P. Narayanan, «Zeta Analysis: A New Model to Identify Bankruptcy Risk of Corporations», 1977.
3) E. Altman, G. Sabato, «Modeling Credit Risk for SMEs: Evidence from the US Market», 2005
4) M.Blums, D-Score: «Bankruptcy Prediction Model for Middle Market Public Firms», 2003.
5) A. Sironi, E. Altman, B. Brady, «The link between default and recovery rates: implications for credit risk models and procyclicality», 2002г.
6) R. Merton, «On Pricing of Corporate Debt: The Risk Structure of Interest Rates», 1974.
7) G. Grass, «Using structural models for default predictions», 2003.
8) B. Becker, T. Milbourn, «How did increased competition affect credit ratings?»,2010г.
9) W. Miller, Introducing Morningstar solvency score, a bankruptcy prediction metric, 2009.
10) Arthur G. Korteweg, Nick Polson, «Corporate Credit Spreads under Parameter Uncertainty AFA», San Francisco Meetings Paper, March, 2008
11) Robert A. Jarrow and Stuart Turnbull, "Pricing Derivatives on Financial Securities Subject to Credit Risk" Journal of Finance, vol. 50, March, 1995)
12) Sattar Mansi, John K. Wald, «Debt Covenants, Bankruptcy Risk, and Issuance Costs», 2011
13) Borgonovo E., Gatti S., "Risk Analysis with Contractual Default. Does Covenant Breach Matter?", in European Journal of Operational Research, vol. 230, n. 2, 2013.
14) Р. Кабаков, R в действии. Анализ и визуализация данных на языке R, 2016.
15) С.А. Айвазян, В.М. Бухштабер, И.С. Енюков, Л.Д. Мешалкин, «Прикладная статистика, Классификация и снижение размерности», 1989г.
16) В.К. Шитиков, С.Э. Мастицкий, «Классификация, регрессия и другие алгоритмы Data Mining с использованием R, 2017г.
17) Сайт Cbonds.ru.
18) Терминал Bloomberg.
Приложения
Сравнение результатов моделей, используя различные методы заполнения пропущенных значений переменных
В разделе 6.1 упоминалось, что ввиду значительного количества пропущенных значений предикторов для компаний, были использованы различные методы заполнения пропущенных значений. Были описаны 2 способа заполнения пропущенных значений: метод средних и бэггинг-модель. Напомним, что во всех представленных в работе расчетах использовались данные, в которых пропущенные значения заполнялись методом средних. В данном приложении ставится задача выяснить как влияет метод заполнения пропущенных значений на итоговые результаты модели и ее точность на примере логит и пробит моделей.
Логит, пробит модели для данных, в которых пропущенные значения были заполнены бэггинг-моделью.
На рисунке №1 показаны результаты расчета логит модели. Предикторы, использованные для построения модели те же, что и в модели, рассчитанной в разделе 6.2. Стоит отметить, что x2 и x12 оказались статистически незначимыми на 10% уровне значимости. Значения информационных критериев Акаике и Шварца равны 163,203 и 175, 1918 соответственно.
Рисунок №1 «Результаты расчета логит модели»
В таблице №1 показаны результаты классификации компаний, из проверочной выборки (точность равна 75%), а в таблице №2 показаны результаты классификации компаний из контролирующей выборки (точность классификации равна 66,67%).
Таблица №1
Факт/ Прогноз |
Дефолтные |
Не дефолтные |
|
Дефолтные |
36 |
19 |
|
Не дефолтные |
18 |
75 |
Таблица №2
Факт/ Прогноз |
Дефолтные |
Не дефолтные |
|
Дефолтные |
5 |
3 |
|
Не дефолтные |
2 |
5 |
По полученным расчетным значениям вероятностей дефолта посроена ROC кривая (рис №2).
Рисунок №2 « ROC кривая логит модели для данных, где пропущенные значения заполнены с помощью бэггинг-модели»
На рисунке №3 показаны результаты пробит модели. Предикторы, использованные для построения модели те же, что и в модели, рассчитанной в разделе 6.2. Стоит отметить, что x12 оказался статистически незначимым на 10% уровне значимости. Значения информационных критериев Акаике и Шварца равны 164,5698 и 176,5586 соответственно.
Рисунок №3 «Результаты пробит модели»
В таблице №3 показаны результаты классификации компаний, из проверочной выборки (точность равна 71,62%), а в таблице №4 показаны результаты классификации компаний из контролирующей выборки (точность классификации равна 73,33%).
Таблица №3
Факт/ Прогноз |
Дефолтные |
Не дефолтные |
|
Дефолтные |
41 |
14 |
|
Не дефолтные |
28 |
65 |
Таблица №4
Факт/ Прогноз |
Дефолтные |
Не дефолтные |
|
Дефолтные |
6 |
2 |
|
Не дефолтные |
2 |
5 |
По полученным расчетным значениям вероятностей дефолта построена ROC кривая (рис №4).
Рисунок №4 « ROC кривая пробит модели для данных, где пропущенные значения заполнены с помощью бэггинг-модели»
В таблице №5 показаны результат сравнения моделей, построенных на выборках с разными методами заполнения пропущенных значений, и качество их классификации.
Таблица №5
Показатель |
Метод средних |
Метод множественной бэггинг-модели |
|
AIC (logit) |
164, 986 |
163,203 |
|
BIC (logit) |
176, 9748 |
175, 1918 |
|
Точность logit модели на обучающей выборке |
70,95% |
75% |
|
Точность logit модели на контролирующей выборке |
73,33% |
66,67% |
|
AIC (probit) |
166, 986 |
164,5698 |
|
BIC (probit) |
178, 4168 |
176,5586 |
|
Точность probit модели на обучающей выборке |
73,65%. |
71,62% |
|
Точность probit модели на контролирующей выборке |
73,33% |
73,33% |
В итоге, нельзя явно выделить более качественный способ обработки пропущенных значений, ведь разница между показателями AIC и BIC незначительны. Поэтому, для заполнения пропущенных значений можно использовать любой способ, но, все же, метод множественной бэггинг-модели является более предпочтительным, во-первых, потому что он учитывает взаимную связь между предикторами, а во-вторых, ввиду меньших значений информационных критериев Акаике и Шварца.
«Список компаний, которые использовались для построения моделей»
Наименование компании |
Сектор экономики |
Дефолт(0, если нет) |
Год, за который бралась отчетность |
|
Автобан Финанс |
Строительство |
0 |
2016 |
|
Главная дорога |
Строительство |
0 |
2016 |
|
ЛСР Недвижимость |
Строительство |
0 |
2013 |
|
ГК Пионер |
Строительство |
0 |
2016 |
|
ПИК |
Строительство |
0 |
2013 |
|
ВИС девелопмент |
Строительство |
0 |
2016 |
|
СтройАльянс |
Строительство |
0 |
2016 |
|
Сэтл сити |
Строительство |
0 |
2014 |
|
ТрансБлатСтрой |
Строительство |
0 |
2015 |
|
Группа ЛСР |
Строительство |
0 |
2016 |
|
Стройжилинвест |
Строительство |
0 |
2015 |
|
Агросоюз |
СХ |
0 |
2009 |
|
Авангард-агро |
СХ |
0 |
2015 |
|
Комосгрупп |
СХ |
0 |
2011 |
|
Сибирская аграрная группа |
СХ |
0 |
2011 |
|
Югфинсервис |
СХ |
0 |
2012 |
|
Алроса |
Горнодобывающая |
0 |
2010 |
|
Золото Селигдара |
Горнодобывающая |
0 |
2011 |
|
Обувьрус |
Легкая |
0 |
2012 |
|
ОМЗ |
Машиностроение |
0 |
2010 |
|
ПО УОМЗ |
Машиностроение |
0 |
2012 |
|
Соллерс-финанс |
Машиностроение |
0 |
2012 |
|
ТВЗ |
Машиностроение |
0 |
2012 |
|
Трансмашхолдинг |
Машиностроение |
0 |
2012 |
|
МЗ Арсенал |
Машиностроение |
0 |
2015 |
|
Башнефть |
Нефтегаз |
0 |
2014 |
|
Газпром капитал |
Нефтегаз |
0 |
2014 |
|
Газпром нефть |
Нефтегаз |
0 |
2014 |
|
Лукойл |
Нефтегаз |
0 |
2009 |
|
Новатэк |
Нефтегаз |
0 |
2014 |
|
Нефтегазхолдинг |
Нефтегаз |
0 |
2012 |
|
Русснефть |
Нефтегаз |
0 |
2008 |
|
Сахартранснефтегаз |
Нефтегаз |
0 |
2011 |
|
Ттанефть |
Нефтегаз |
0 |
2011 |
|
Транснефть |
Нефтегаз |
0 |
2013 |
|
Белуга-Групп |
Пищевая |
0 |
2014 |
|
Вимм-билль-Данн |
Пищевая |
0 |
2011 |
|
Группа Черкизово |
Пищевая |
0 |
2014 |
|
Каравай |
Пищевая |
0 |
2013 |
|
Микояновский мясокомбинат |
Пищевая |
0 |
2014 |
|
Обьединенные кондитеры финанс |
Пищевая |
0 |
2009 |
|
РМПХолдинг |
Пищевая |
0 |
2011 |
|
Русская Аквакультура |
Пищевая |
0 |
2014 |
|
АФК Система |
Связь |
0 |
2012 |
|
МТС |
Связь |
0 |
2013 |
|
Мегафон |
Связь |
0 |
2017 |
|
Наука-связь |
Связь |
0 |
2014 |
|
Почта России |
Связь |
0 |
2013 |
|
Росстелеком |
Связь |
0 |
2014 |
|
Экспател |
Связь |
0 |
2016 |
|
Автоваз |
Машиностроение |
0 |
2008 |
|
Атомспецконструкия |
Машиностроение |
0 |
2009 |
|
Вознесенская ремонтно-эксплуатационная база |
Машиностроение |
0 |
2012 |
|
Гидромаш |
Машиностроение |
0 |
2013 |
|
РемпутьМаш |
Машиностроение |
0 |
2015 |
|
Иркут |
Машиностроение |
0 |
2012 |
|
Камаз |
Машиностроение |
0 |
2013 |
|
Авиатерминал |
транспорт |
0 |
2016 |
|
Аэрофлот |
транспорт |
0 |
2012 |
|
Аэроэкспресс |
транспорт |
0 |
2013 |
|
Вертолеты россии |
транспорт |
0 |
2014 |
|
Компания усть-луга |
транспорт |
0 |
2009 |
|
РЖД |
транспорт |
0 |
2013 |
|
Новороссийский морской торговый порт |
транспорт |
0 |
2013 |
|
Новая перевозочная компания |
транспорт |
0 |
2013 |
|
Азот (кемерово) |
хим нефтехим |
0 |
2011 |
|
Акрон |
хим нефтехим |
0 |
2014 |
|
Еврохим |
хим нефтехим |
0 |
2011 |
|
Каустик |
хим нефтехим |
0 |
2010 |
|
Нкнх |
хим нефтехим |
0 |
2009 |
|
Полипласт |
хим нефтехим |
0 |
2010 |
|
Уралкалий |
хим нефтехим |
0 |
2013 |
|
Уралхимпласт |
хим нефтехим |
0 |
2009 |
|
Гмк норильский никель |
цветная |
0 |
2014 |
|
Русал братск |
цветная |
0 |
2015 |
|
Уралэлектромедь |
цветная |
0 |
2008 |
|
Группа магнезит |
черная металлургия |
0 |
2009 |
|
Кокс |
черная металлургия |
0 |
2011 |
|
Нижнесергинский метизно-металлургический завод |
черная металлургия |
0 |
2006 |
|
Северсталь |
черная металлургия |
0 |
2010 |
|
Тмк |
черная металлургия |
0 |
2010 |
|
ЧТПЗ |
черная металлургия |
0 |
2013 |
|
Атэк |
энергетика |
0 |
2012 |
|
Башкирэнерго |
энергетика |
0 |
2007 |
|
Дальневосточная генерирующая компания |
энергетика |
0 |
2011 |
|
ЕЭСК |
энергетика |
0 |
2009 |
|
Интертехэлектро-новая генерация |
энергетика |
0 |
2013 |
|
Иркутскэнерго |
энергетика |
0 |
2009 |
|
Квадра |
энергетика |
0 |
2008 |
|
Кубаньэнерго |
энергетика |
0 |
2008 |
|
Ленэнерго |
энергетика |
0 |
2011 |
|
Лукойл-экоэнерго |
энергетика |
0 |
2009 |
|
МОЭСК |
энергетика |
0 |
2009 |
|
Мосэнерго |
энергетика |
0 |
2012 |
|
ОГК-2 |
энергетика |
0 |
2008 |
|
Русгидро |
энергетика |
0 |
2017 |
|
Т-плюс |
энергетика |
0 |
2014 |
|
Татэнерго |
энергетика |
0 |
2007 |
|
Энел россия |
энергетика |
0 |
2011 |
|
Якутскэнерго |
энергетика |
0 |
2011 |
|
Агрокомплекс |
АПК СХ |
1 |
2016 |
|
АПК Аркада |
АПК СХ |
1 |
2010 |
|
Держава финанс |
АПК СХ |
1 |
2008 |
|
Агрохолдинг -финанс |
АПК СХ |
1 |
2008 |
|
Новопластуновское |
АПК СХ |
1 |
2016 |
|
Разгуляй-финанс |
АПК СХ |
1 |
2009 |
|
Сахарная компания |
АПК СХ |
1 |
2008 |
|
Угольная Компания Заречная |
Горнодобывающая |
1 |
2014 |
|
Нижне-Ленское инвест |
Горнодобывающая |
1 |
2009 |
|
Телехаус |
Интернет и коммуникации |
1 |
2016 |
|
Промтрактор-финанс |
Машиностроение |
1 |
2009 |
|
Вагонмаш |
Машиностроение |
1 |
2009 |
|
КурганМашЗавод-финанс |
Машиностроение |
1 |
2009 |
|
ЭМА-Альянс |
Машиностроение |
1 |
2009 |
|
Автоприбор |
Машиностроение |
1 |
2009 |
|
ОДК-Сатурн |
Машиностроение |
1 |
2008 |
|
ВолгаБурМаш |
Машиностроение |
1 |
2008 |
|
Балтийский берег |
Пищевая |
1 |
2015 |
|
Зерновая компания Настюша |
Пищевая |
1 |
2009 |
|
МКХ |
Пищевая |
1 |
2009 |
|
Парнас-М |
Пищевая |
1 |
2009 |
|
Рост-Лайн |
Пищевая |
1 |
2009 |
|
Эрконпродукт |
Пищевая |
1 |
2009 |
|
Радионет |
Связь и телекоммуникации |
1 |
2008 |
|
Domo |
Торговля и ритейл |
1 |
2017 |
|
Аптечная сеть |
Торговля и ритейл |
1 |
2009 |
|
Арбат энд КО |
Торговля и ритейл |
1 |
2008 |
|
Белазкомплект |
Торговля и ритейл |
1 |
2009 |
|
Белый фрегат |
Торговля и ритейл |
1 |
2008 |
|
Веха инвест |
Торговля и ритейл |
1 |
2009 |
|
Дикая орхидея |
Торговля и ритейл |
1 |
2009 |
|
Инком лада |
Торговля и ритейл |
1 |
2008 |
|
Инпром |
Торговля и ритейл |
1 |
2008 |
|
Искрасофт |
Торговля и ритейл |
1 |
2009 |
|
ЛБР-интертрейд |
Торговля и ритейл |
1 |
2008 |
|
Матрица финанс |
Торговля и ритейл |
1 |
2008 |
|
Мир мягкой игрушки |
Торговля и ритейл |
1 |
2016 |
|
Митленд |
Торговля и ритейл |
1 |
2009 |
|
Престиж сервис |
Торговля и ритейл |
1 |
2013 |
|
Провиант сервис |
Торговля и ритейл |
1 |
2009 |
|
РК-газсетьсервис |
Торговля и ритейл |
1 |
2009 |
|
ТД Спартак-Казнь |
Торговля и ритейл |
1 |
2017 |
|
Техносила Инвести |
Торговля и ритейл |
1 |
2010 |
|
Югинвестрегион |
Торговля и ритейл |
1 |
2016 |
|