Главная Коллекция "Revolution" Экономика и экономическая теория Оценка рейтингов клиентов на основе математической модели скоринга

Оценка рейтингов клиентов на основе математической модели скоринга

История появления и развития скоринга, сущность линейного дискриминантного анализа линейной репрессии. Характеристика эмпирического Байесовского подхода, применение и особенности задачи Монжа-Кантаровича к скорингу, описание и цели нейронных сетей.

Рубрика	Экономика и экономическая теория
Вид	дипломная работа
Язык	русский
Дата добавления	14.07.2016
Размер файла	761,1 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Содержание

Введение
Глава 1. Методы построения скоринговых моделей

1.1 История появления и развития скоринга
1.2 Линейный дискриминантный анализ и линейная регрессия
1.3 Логистическая регрессия и пробит-регрессия
1.4 Нейронные сети
1.5 CHAID анализ
1.6 Другие методы
1.7 Сравнение различных методов

Глава 2. Эмпирический Байесовский подход

2.1 Постановка задачи
2.2 Построение скоринговой модели
2.3 Применение модели к данным

Глава 3. Подход, основанный на задаче Монжа-Канторовича

3.1 Задача Монжа-Канторовича
3.2 Применение задачи Монжа-Канторовича к скорингу

Заключение
Список литературы

Введение

Скоринг - это эвристический способ построения рейтингов и классификации различных объектов на группы. Он основывается на предположении о том, что люди со схожими социальными показателями ведут себя одинаково. Он применяется в банковской сфере, маркетинге, страховом деле.

Основной целью традиционного скоринга является классификация клиентов банка на “хороших” и “плохих”, исходя из которой кредитор может выбирать соответствующие действия по отношению к данному клиенту. “Плохого” клиента, к примеру, можно определить как клиента с низкой эмпирической вероятностью возвращения кредита. Но, как правило, такое определение “плохого” клиента расширяется до любого нежелательного банку поведения клиента. Классификация осуществляется на основе скоринговой карты с помощью которой рассчитывается скоринговый балл клиента. скоринг дискриминантный байесовский

Из литературы, посвященной скорингу, отметим несколько работ.

“Руководство по кредитному скорингу” под редакцией Элизабет Мейз, 2008 г. - единственная книга о скоринге на русском языке. Описываются общие понятия, разбираются методы построения скоринговой карты, обсуждается применение скоринга на практике. Книга состоит из статей написанных зарубежными специалистами в области финансов.

Диссертационная работа Сэмюэла Глассона “Метод цензурированной выборки для кредитного скоринга”, 2007 г. В ней исследуются инструменты анализа выживаемости, применительно к кредитному скорингу, в условиях цензурированных данных. Разбирается применение метода линейной регрессии и в частности метода Бакли-Джеймса. Практическая часть работы содержит в себе применение этих методов к оценке времени кредитного дефолта и времени выплаты очередного платежа.

Диссертационная работа Кристины Болтон “Логистические регрессии и их применение в кредитном скоринге”, 2009 г. Разбирается концепция кредитного скоринга применительно к банковскому делу в Южной Африке. Рассматриваются методы построения скоринговой модели с особым акцентом на метод логистической регрессии. Применяется этот метод для создания скоринговой модели.

Диссертационная работа Маттиаса Кремпля “Адаптивные модели и их применение в кредитном скоринге”, 2011. Акцент ставится на изучении методов построения предсказывающих моделей в условиях дрейфа и задержки данных. Представлен новый метод для построения скоринговых моделей, базирующийся на методе дерева принятия решений. Представленный метод применяется для оценки дрейфа в двух наборах реальных финансовых данных.

В приведённых выше работах имеется общая проблема: применение методов к построению скоринговых моделей не обосновано. Отсюда вытекает сомнение в правильности полученных данных. Задача состоит в построении метода, применение которого было бы обосновано. В данной работе представляется метод, решающий эту задачу.

Существует множество подходов к построению скоринговой модели. В главе 1 данной работы описаны методы применяемые в вышеприведённых диссертациях. В главе 2 вводится математическая модель скоринга и разбирается эмпирический Байесовский подход к построению скоринговой модели: подход описывается теоретически, а после применяется к реальным данным банка “Сбербанк России” для построения скоринговой модели. В главе 3 вводится метод, основывающийся на задаче Монжа-Канторовича. Приведено теоретическое обоснование использования данного метода. Затем он применяется для построения скоринговой модели на данных используемых в главе 2.

Глава 1. Методы построения скоринговых моделей

1.1 История появления и развития скоринга

Изначально скоринг разрабатывался с целью автоматизации процесса решения о выдаче кредита. До внедрения скоринга, решение о том, кому выдать кредит в каком размере, принималось кредитным экспертом. Он решал это, опираясь на опыт и собственное мнение, руководствуясь параметрами клиента, влияющими на его кредитоспособность.

В 1940-х годах началось внедрение скоринговых систем. В 1941 Давид Дюран опубликовал первую исследовательскую работу по кредитному скорингу, в которой оценивал роль различных факторов в прогнозирующей системе. После окончания Второй мировой войны, резко вырос спрос на кредитные продукты, и стало ясно, что традиционные методы принятия решения плохо работают в условиях большого числа клиентов. Взрыв спроса на кредиты, отчасти обусловленный введением кредитных карт, мотивировал кредиторов внедрять автоматизированные системы принятия решения о выдаче кредитов. Параллельное развитие вычислительной техники, способствовало этому и давало возможность обрабатывать большие массивы финансовых данных.

В 1956 году была создана компания FICO, занимавшаяся разработками в области потребительских кредитов. В 60-х годах началось внедрение компьютерных технологий в область скоринга. В 1963 году было предложено использование дискриминантного анализа данных для кредитного скоринга. И, наконец, в 1975 с принятием "US Equal Credit Opportunity Act I", скоринг был окончательно признан.

Важным шагом в развитии кредитного скоринга было появление скоринга поведения (behavior scoring) в начале 90-х. Его целью является предсказание выплат уже имеющихся клиентов.

В недавнее время развитие скоринговых систем было обусловлено регулированием со стороны внешней среды. Как часть требований к достаточности капитала, предъявляемых банкам в связи с вступлением в силу второго Базельского соглашения (Basel Committee for Banking Supervision 2001), учреждения должны внимательно следить за рисками, связанными с их кредитными портфелями. Методы кредитного скоринга позволяют это делать.

С момента введения первой скоринговой системы, использовалось множество математических и статистических методов. Среди статистических можно назвать: дискриминантный анализ, линейную регрессию, логистическую регрессию и дерево принятия решений. Другие методы пришли из математики: математическое программирование, нейронные сети, генетические алгоритмы и экспертные системы. Далее мы разберём наиболее распространённые методы и поговорим об их достоинствах и недостатках.

1.2 Линейный дискриминантный анализ и линейная регрессия

Линейный дискриминантный анализ - метод для классификации объектов на заранее определённые категории. Идея в том, чтобы найти такую линейную комбинацию объясняющих переменных, которая наилучшим образом разделила бы объекты на категории. Под разделением наилучшим образом имеется ввиду такое, при котором обеспечивается максимальная дистанция между средними данных категорий. Скоринговый балл рассчитывается как линейная функция от значений атрибутов клиента:

Здесь, - значения атрибутов клиента, - параметры модели, которые максимизируют отношение

где - вектор средних для хороших и плохих клиентов, - общая ковариационная матрица.

Линейный дискриминантный метод предполагает выполнение двух условий. Во-первых, ковариационные матрицы независимых переменных для обеих групп должны совпадать. Во-вторых, независимые переменные должны быть распределены нормально. Часто, в скоринге, независимые переменные дискретные или распределены не нормально. Отсюда, возникают проблемы в применении этого метода. Однако было показано, что даже в случае нарушения нормальности, данный метод широко применим. Его преимуществом можно назвать простоту применения.

Схожий метод линейной регрессии, также используется для формирования скоринговой модели. В случае двух категорий, он эквивалентен методу линейного дискриминантного анализа и выражает зависимость одной переменный (зависимой) от других (независимых). В общем виде представляется так:

- зависимая переменная;

- объясняющие независимые переменные;

- неизвестные коэффициента регрессии, которые находятся методом наименьших квадратов;

- ошибка.

Для применения модели линейного скоринга требуется выполнение следующего предположения: связь между зависимой и независимыми переменными должна быть линейной. В противном случае, точность оценки значительно ухудшается. Ошибки же должны быть независимы и распределены нормально.

Как и в случае дискриминантного анализа, в условиях кредитного скоринга, предположения, требуемые для применения линейной регрессии, нередко нарушаются. Линейная регрессия может дать оценку вероятности вне диапазона [0,1], что является неприемлемым. К примеру, логистическая регрессия лишена этого недостатка.

1.3 Логистическая регрессия и пробит-регрессия

Данные виды регрессии больше подходят для построения скоринговой модели, так как допускают категорийное представление данных. Модель логистической регрессии задаётся следующим образом:

где - оценка вероятности того, что клиент “плохой”, - вектор неизвестных параметров регрессии, который вычисляется через условие максимизации отношения правдоподобия.

Модель логистической регрессии базируется на функции логарифм. В свою очередь, пробит-регрессия базируется на нормальном распределении и задаётся следующим образом:

где . Вектор находится также как и в модели логистической регрессии.

Так как логистическая регрессия и пробит-регрессия используют схожие по форме распределения, результаты применения данных моделей также схожи. Логистическая регрессия пользуется большим предпочтением, так как вычисления проще, чем в пробит-регрессии и имеется больше инструментов для работы с ней. За счёт своей бинарной природы, логистическая регрессия предпочтительней линейной регрессии в использовании для построения скоринговых моделей. На практике же было выяснено, что разница в точности предсказываемых результатов незначительна. Тем не менее, наблюдается преобладание логистической регрессии в скоринговых системах.

1.4 Нейронные сети

Искусственные нейронные сети являются симуляцией нейронных сетей имеющихся в природе. Возникло это понятие при попытке смоделировать процессы, происходящие в мозге человека.

Нейронные сети, также называемые многослойным перцептроном, особенно подходят для решения задачи классификации. Они широко используются в различных сферах: финансах, компьютерных науках, физике и медицине. Популярность нейронных сетей отчасти обуславливается возможностью моделировать сложные ситуации без особых затрат со стороны использующего этот метод. По своей природе нейронные сети автоматически обнаруживают любую нелинейную ситуацию в данных и подстраиваются под неё. Также многослойные нейронные сети являются универсальными аппроксиматорами, то есть могут аппроксимировать любую функцию сколь угодно точно.

Нейронные сети состоят из слоев которые, в свою очередь, состоят из узлов. Есть 3 типа слоёв в сетях: входной, скрытые, выходной. Входной слой образуют атрибуты клиента, такие как пол, возраст и т.п.

Выход для k-го узла с m входами представляется так:

где - активационная функция, - вектор входных данных, - весовой вектор который обозначает силу связи между узлами.

Основным недостатком является то, что не смотря на возможность добиться высокой точности прогноза, понять причины, по которым было принято то или иное решение, невозможно.

В контексте кредитного скоринга было показано, что нейронные сети работают не хуже традиционных методов.

1.5 CHAID анализ

Данный метод отлично подходит для нахождения связей между данными, особенно если связи нелинейные. Он применяется для построения деревьев принятия решений, и имеет много общего с классическими методами, такими как дискриминантный анализ и линейная регрессия.

Аббревиатура CHAID расшифровывается как Chi-squared Automated Interaction Detector.

Гибкость данного метода делает его привлекательным для использования, но это не означает, что его стоит использовать вместо традиционных методов. В случае, когда встречаются строгие теоретические предположения о распределении, традиционные методы предпочтительней. Как техника исследования или в случае, когда традиционные методы не срабатывают, CHAID анализ является непревзойдённым инструментом.

CHAID строит не бинарные деревья (т.е. деревья у которых может быть более двух ветвей) на основе относительно простого алгоритма, который особенно хорошо подходит для анализа больших массивов данных. Алгоритм основывается на применении теста хи-квадрат.

1.6 Другие методы

Дерево принятия решений.

Метод разделяет данные на подмножества, каждое из которых более однородно в своем поведении, нежели исходное множество данных. Каждое из этих подмножеств делится далее, по такому же алгоритму. Результат деления именуется «листом» это дерева. Имеются и другие методы, работающие по схожему принципу.

Достоинства этого метода - простота и интуитивность. Метод способен работать с отсутствующими наблюдениями. Особенно он применим в случае, когда о данных до их исследования практически ничего неизвестно и нельзя построить какие-либо догадки или гипотезы.

Главный недостаток этого метода - сложность компьютерных расчетов. Вследствие громоздкости получаемых деревьев, процесс изучения модели трудоёмкий. Изменения в ситуации может привести к пересмотру всего дерева решений.

В основном метод используется как вспомогательный. К примеру для определения переменных, которые наиболее сильно объясняют поведение зависимой переменной.

Метод k ближайших соседей. Непараметрический метод классификации объектов. Основывается на метрике, определяющей схожесть между данными.

Первоначально вводятся тренировочные данные, разделенные на классы. Затем вводятся оцениваемые данные и определяется схожесть между введёнными и тренировочными данными. На основе метрики выбирается k ближайших соседей. Новый элемент относят к тому классу, к которому принадлежит большинство его соседей.

Количество соседей k определяется компромиссом между компенсацией и дисперсией. Чем меньше класс, тем меньше выбирается k. При этом необязательно, что при больших k результат будет лучше.

Одно из преимуществ данного метода - легко добавить новые данные, не изменяя при этом модель. Непараметрическая сущность этого метода позволяет работать с иррациональностями в функциях риска на пространстве признаков.

Отсутствие формального метода для выбора k и невозможность вероятностной интерпретации результата, так как результатом являются ожидаемые частоты, являются главными недостатками метода. Данные сложности могут быть решены использованием методом Байесовской аппроксимации.

Данный метод мало используется в скоринге. Одной из причин этого является то, что для классификации одного объекта необходимо иметь базу по всем объектам.

Более новый метод опорных векторов, построенный на машинном обучении, показал себя не хуже традиционных скоринговых методов. Он состоит из двух процессов: первый преобразует входные данные к данным высокой размерности в пространстве признаков; второй классифицирует данные с помощью линейного классификатора. Классификатором может выступать, например, линейный дискриминантный анализ.

1.7 Сравнение различных методов

Был проведён ряд сравнительных исследований для скоринговых методов. Критериями для ранжирования служили процент ошибок при классификации и ROC-кривая. Исследовались 8 наборов данных.

Метод	Средняя оценка
Нейронные сети	3.2
Опорных векторов	3.3
Логистическая регрессия	4.3
Линейный дискриминантный анализ	5.3
Линейные LS-SVM	5.5
Расширенное дерево Байеса	5.6
Наивный байесовский классификатор	7.8
Радиально базисные функции	9.1
k-ближайших соседей (k=100)	9.5
Линейный SVM	10.1
Квадратичный дискриминантный анализ	10.8
Дерево принятия решений	10.8
Линейное программирование	11.9
Дерево принятия решений	13.0
Дерево принятия решений	13.7
k-ближайших соседей (k=10)	14.1
Дерево принятия решений	14.7

Из таблицы видно, что нейронные сети и метод опорных векторов явились наилучшими на исследуемых 8 наборах данных. Кроме того традиционные методы, такие как линейный и дискриминантный анализ показали себя конкурентоспособными. Отсюда следует, что, вероятно, большинство данных для кредитного скоринга лишь немного нелинейны. Вследствие чего линейные методы показали себя на уровне с нелинейными.

Не существует оптимальной скоринговой модели для любой ситуации. Выбор модели зависит от данных и цели, на которую направленно создание модели. Кроме того, метод, оценивающий наилучшим образом, не обязательно будет лучшим в данной ситуации.

Глава 2. Эмпирический Байесовский подход

В данной главе разберём эмпирический Байесовский подход и с помощью него построим скоринговую модель. Построение будем вести исходя из статистики по потребительским кредитам банка “Сбербанк России”.

2.1 Постановка задачи

Предположим, имеется некий банк, занимающийся кредитованием частных лиц. В банк за получением кредита обращаются клиенты. Решение о выдаче кредита банк выносит на основе информации о клиенте.

Информацию о клиенте банк получает из разных источников: от самого клиента, от кредитного бюро и из других источников. Мы будем рассматривать информацию, предоставляемую самим клиентом. Банк получает её через заполненную заемщиком анкету.

В анкете заемщик указывает следующие данные: пол, возраст, семейное положение, наличие детей, ежемесячный доход, наличие недвижимости и прочее.

На основании этих данных разобьём клиентов на группы, в которых они схожи по определённым признакам. Для каждого клиента Байесовским методом найдём рейтинг - эмпирическая вероятность того, что клиент вернёт кредит при условии, что он принадлежит данной группе.

Найдя распределение рейтингов, мы тем самым построим скоринговую модель.

Для применения метода необходимо, чтобы данные удовлетворяли следующим условиям:

· независимость - клиенты не имеют сговора по выплате кредита;

· однородность - данные взяты из одной генеральной совокупности;

· равновероятность - клиенты равновероятно распределяются по группам .

Их выполнение проверяется ниже.

2.2 Построение скоринговой модели

Введем вероятностное пространство . Обозначим в этом пространстве - клиент банка.

Каждый клиент банка имеет набор характеристик согласно заполненной анкете. Например: в браке или нет, уровень дохода, разбитый по категориям, наличие машины и прочие характеристики. Согласно этим характеристикам введём разбиение пространства на множества

1) ;

2) ;

3) ;

4) .

Таким образом, множество клиентов разбито на группы .

Введём случайные величины.

- количество клиентов в j-й группе.

Исходя из данных, мы можем построить совместное эмпирическое распределение вероятностей .

Здесь и далее, записывая , будем иметь ввиду эмпирическую вероятность события A определяемую как отношение количества исходов удовлетворяющих событию A к общему количеству исходов.

Далее мы применим эмпирический Байесовский подход, который основывается на формуле Байеса

где - априорная эмпирическая вероятность события A,

- эмпирическая вероятность события B при условии А,

- эмпирическая вероятность события A при условии B, которую называют апостериорной вероятностью,

- эмпирическая вероятность события B.

Данная формула позволяет переоценить вероятность события A, учитывая тот факт, что произошло событие B.

Из определения условной вероятности можем записать:

(1)

Далее заметим, что .

Выразив из (1) и подставив в эту формулу выражение для , получим:

Выраженная величина является рейтингом клиента из j-го множества. Исходя из её значений, осуществляется классификация на “хороших” и “плохих”.

2.3 Применение модели к данным

В нашем распоряжении имеются данные о 1977 клиентах банка “Сбербанк России” включаю информацию о том, вернули они кредит или нет.

Для применения Байесовского подхода необходимо убедиться в выполнении 3-х гипотез:

· о независимости - клиенты не имеют сговора по выплате или не выплате кредита;

· об однородности - данные взяты из одной генеральной совокупности;

· о виде распределения - данные распределены равновероятно.

Гипотеза о независимости

Для проверки этой гипотезы воспользуемся ранговым критерием Спирмена. Статистикой данного критерия является коэффициент ранговой корреляции, определяемый следующим образом.

Даны два ряда наблюдений: и . На основании этих наблюдений построим пары рангов . Под рангом понимаем номер места, занимаемого наблюдением в вариационном ряду . Аналогично понимаем ранг . Затем, переставляем пары рангов в порядке возрастания первой компоненты. Получившийся ряд обозначим .

Коэффициент корреляции находится по формуле:

Критическая область критерия . Для нахождения воспользуемся тем, что закон распределения стремится к , при больших n. Отсюда . Здесь - функция распределения стандартного Гауссова закона.

При уровне значимости , =1.959964. Граница критической зоны . Найденный коэффициент корреляции .

Таким образом, статистика критерия не попадает в его критическую область, и мы можем принять гипотезу о независимости при уровне значимости 0.05.

Гипотеза об однородности

Формулируется гипотеза следующим образом. Даны две выборки и из распределений и соответственно, с функциями распределений и . Тогда гипотеза об однородности .

Для проверки данной гипотезы воспользуемся критерием Смирнова.

Статистикой данного критерия является , где - эмпирические функции распределения, построенные по выборкам и . Критическая область задаётся в виде . При больших n и m границу критической области можно принять равной , где . - функция распределения Колмогорова.

Таким образом, гипотеза об однородности отвергается, в случае если . При уровне значимости 0.05 . - граница критической области. Статистика .

Статистика критерия не попадает в критическую область, и мы можем принять гипотезу об однородности при уровне значимости 0.05.

Гипотеза о виде распределения

Сформулируем гипотезу. Нам дана выборка из распределения с функцией распределения , которая неизвестна. Необходимо проверить, что - функция распределения равномерного распределения на отрезке [0;0.05].

Для этого воспользуемся критерием согласия Пирсона.

Статистикой критерия является . Здесь - частота попадания наблюдений в i-й отрезок, - вероятность попадания в i-й отрезок. Если проверяемая гипотеза верна, при больших n статистика подчиняется распределению хи-квадрат с k-1 степенью свободы.

Гипотеза отвергается в случае, если статистика превышает критическое значение .

Значение статистики посчитаем с помощью программного пакета Statistica - =24,19468, k-1=39. Граница критической области при уровне значимости .

Таким образом значение статистики не превышает критического уровня и гипотеза о равномерном распределении клиентов по группам принимается при уровне значимости 0.05.

Итак, данные удовлетворяют всем гипотезам, приведённым выше, и мы можем приступить к нахождению рейтингов.

Имеющиеся данные содержат множество различных характеристик клиентов. Для построения будем использовать 4 из них, наиболее значимых. Взять большее количество элементов нам не позволяет ограниченность нашей выборки (1977 элементов).

Выбранные характеристики: возраст и пол заёмщика, наличие детей, выплаты по кредиту в % от суммарного дохода заёмщика. Характеристика возраст принимает 3 значения - 18-29, 30-45, 46-…; пол заёмщика два значения - мужской и женский; наличие детей два значения - есть дети, и нет детей; выплаты принимают 5 значений - (<5%),(6-10%), (11-16%), (17-22%),(23-55%).

Каждое конкретное значение характеристики назовём свойством заёмщика. Разобьём всех наших клиентов на множества, опираясь на наличие конкретного свойства у данного клиента. К примеру, - множество клиентов у которых нет детей.

Приведём эти обозначения:

- Дети, = Нет детей, = Есть дети;

- Возраст, =Возр1(18-29), =Возр2(30-45), =Возр3(46-…);

- Пол, =Женский, =Мужской;

- выплаты по кредиту в % от суммарного дохода заемщика, =Вып1(<5), =Вып2(6-10), =Вып3(11-16), =Вып4(17-22), =Вып5(23-55).

Образуем новые множества , как комбинацию всех возможных свойств клиента - по всевозможным К примеру, множество состоит из женщин в возрасте 18-29 лет без детей, выплачивающих <5% от своего суммарного дохода. Количество таких множеств равно 60.

Таблица 2.1. Кодировка множеств.

	Возр1	Возр2	Возр3	Женский	Мужской	Нет детей	Есть дети	Вып1	Вып2	Вып3
1	+			+		+		+
2	+			+		+			+
3	+			+		+				+
4	+			+		+
5	+			+		+
6	+				+	+		+
7	+				+	+			+
8	+				+	+				+
9	+				+	+
10	+				+	+
11		+		+		+		+
12		+		+		+			+
13		+		+		+				+
14		+		+		+
15		+		+		+
16		+			+	+		+
17		+			+	+			+
18		+			+	+				+
19		+			+	+
20		+			+	+
21			+	+		+		+
22			+	+		+			+
23			+	+		+				+
24			+	+		+
25			+	+		+
26			+		+	+		+
27			+		+	+			+
28			+		+	+				+
29			+		+	+
30			+		+	+
31	+			+			+	+
32	+			+			+		+
33	+			+			+			+
34	+			+			+
35	+			+			+
36	+				+		+	+
37	+				+		+		+
38	+				+		+			+
39	+				+		+
40	+				+		+
41		+		+			+	+
42		+		+			+		+
43		+		+			+			+
44		+		+			+
45		+		+			+
46		+			+		+	+
47		+			+		+		+
48		+			+		+			+
49		+			+		+
50		+			+		+
51			+	+			+	+
52			+	+			+		+
53			+	+			+			+
54			+	+			+
55			+	+			+
56			+		+		+	+
57			+		+		+		+
58			+		+		+			+
59			+		+		+
60			+		+		+

Заметим, что - образуют разбиение всего множества клиентов:

и .

Построим совместное эмпирическое распределение двух дискретных случайных величин - и , где ={0,1}, ={, i=1:60}. Строить его будем как отношение количества клиентов удовлетворяющих паре значений случайных величин (X,Y) к общему количеству клиентов.

Зафиксируем количество клиентов соответствующих каждой возможной паре (X,Y).

Таблица 2.2. Количество клиентов вернувших и не вернувших кредит в каждой группе. 0 - вернули кредит, 1 - не вернули кредит.

D X Y	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19
0	20	45	44	21	15	12	23	31	15	4	18	28	35	14	12	19	34	45	21
1	12	22	20	10	10	3	17	17	8	3	12	23	13	5	6	5	25	15	4
D X Y	21	22	23	24	25	26	27	28	29	30	31	32	33	34	35	36	37	38	39
0	18	36	47	19	5	20	49	52	30	28	10	21	20	16	8	11	27	27	8
1	6	11	11	6	3	5	10	16	4	10	5	17	13	3	4	6	17	10	4
D X Y	41	42	43	44	45	46	47	48	49	50	51	52	53	54	55	56	57	58	59
0	49	65	65	28	14	49	69	58	27	20	5	12	7	3	2	2	6	6	4
1	12	32	15	9	2	14	27	18	9	3	2	3	3	2	2	1	2	4	0

Построим совместное эмпирическое распределение вероятностей. Для этого разделим количество клиентов вернувших и не вернувших кредит в каждой из групп на общее количество клиентов.

Таблица 2.3. Совместное эмпирическое распределение вероятностей.

	0	1		0	1
1	0,010116	0,00607	31	0,005058	0,002529
2	0,022762	0,011128	32	0,010622	0,008599
3	0,022256	0,010116	33	0,010116	0,006576
4	0,010622	0,005058	34	0,008093	0,001517
5	0,007587	0,005058	35	0,004047	0,002023
6	0,00607	0,001517	36	0,005564	0,003035
7	0,011634	0,008599	37	0,013657	0,008599
8	0,01568	0,008599	38	0,013657	0,005058
9	0,007587	0,004047	39	0,004047	0,002023
10	0,002023	0,001517	40	0,003035	0,002529
11	0,009105	0,00607	41	0,024785	0,00607
12	0,014163	0,011634	42	0,032878	0,016186
13	0,017704	0,006576	43	0,032878	0,007587
14	0,007081	0,002529	44	0,014163	0,004552
15	0,00607	0,003035	45	0,007081	0,001012
16	0,009611	0,002529	46	0,024785	0,007081
17	0,017198	0,012645	47	0,034901	0,013657
18	0,022762	0,007587	48	0,029337	0,009105
19	0,010622	0,002023	49	0,013657	0,004552
20	0,005564	0,001517	50	0,010116	0,001517
21	0,009105	0,003035	51	0,002529	0,001012
22	0,018209	0,005564	52	0,00607	0,001517
23	0,023773	0,005564	53	0,003541	0,001517
24	0,009611	0,003035	54	0,001517	0,001012
25	0,002529	0,001517	55	0,001012	0,001012
26	0,010116	0,002529	56	0,001012	0,000506
27	0,024785	0,005058	57	0,003035	0,001012
28	0,026302	0,008093	58	0,003035	0,002023
29	0,015175	0,002023	59	0,002023	0
30	0,014163	0,005058	60	0,000506	0,000506

Рисунок 2.1. Эмпирическая функция распределения при X=0.

Рисунок 2.2. Эмпирическая функция распределения при X =1.

Рисунок 2.3. Гистограмма совместного распределения при X=0.

Рисунок 2.4. Гистограмма совместного распределения при X=1.

Найдём эмпирическое распределение вероятностей попадания в каждую из групп. Для этого разделим количество клиентов в каждой группе на общее количество клиентов. Общее количество клиентов .

Таблица 2.4. Эмпирическое распределение вероятностей попадания в каждую группу.

№		№		№		№		№
1	0,016186	13	0,024279	25	0,004047	37	0,022256	49	0,018209
2	0,03389	14	0,009611	26	0,012645	38	0,018715	50	0,011634
3	0,032372	15	0,009105	27	0,029843	39	0,00607	51	0,003541
4	0,01568	16	0,01214	28	0,034396	40	0,005564	52	0,007587
5	0,012645	17	0,029843	29	0,017198	41	0,030855	53	0,005058
6	0,007587	18	0,030349	30	0,019221	42	0,049064	54	0,002529
7	0,020233	19	0,012645	31	0,007587	43	0,040465	55	0,002023
8	0,024279	20	0,007081	32	0,019221	44	0,018715	56	0,001517
9	0,011634	21	0,01214	33	0,016692	45	0,008093	57	0,004047
10	0,003541	22	0,023773	34	0,009611	46	0,031866	58	0,005058
11	0,015175	23	0,029337	35	0,00607	47	0,048558	59	0,002023
12	0,025797	24	0,012645	36	0,008599	48	0,038442	60	0,001012

Рисунок 2.5. Гистограмма попадания в группу i.

Найдём рейтинги клиентов как эмпирическую вероятность того, что клиент вернёт кредит при условии, что он принадлежит какой-либо группе. Для этого воспользуемся тем, что .

Таблица 2.5. Рейтинги клиентов.

№		№		№
1	0,625	21	0,75	41	0,803279
2	0,671642	22	0,765957	42	0,670103
3	0,6875	23	0,810345	43	0,8125
4	0,677419	24	0,76	44	0,756757
5	0,6	25	0,625	45	0,875
6	0,8	26	0,8	46	0,777778
7	0,575	27	0,830508	47	0,71875
8	0,645833	28	0,764706	48	0,763158
9	0,652174	29	0,882353	49	0,75
10	0,571429	30	0,736842	50	0,869565
11	0,6	31	0,666667	51	0,714286
12	0,54902	32	0,552632	52	0,8
13	0,729167	33	0,606061	53	0,7
14	0,736842	34	0,842105	54	0,6
15	0,666667	35	0,666667	55	0,5
16	0,791667	36	0,647059	56	0,666667
17	0,576271	37	0,613636	57	0,75
18	0,75	38	0,72973	58	0,6
19	0,84	39	0,666667	59	1
20	0,785714	40	0,545455	60	0,5

Рисунок 2.6. Гистограмма рейтингов.

На основе полученных рейтингов можем вынести решение о выдаче кредита.

Выделим 3 варианта:

1) Рейтинг клиента лежит в полуинтервале (0.7, 1] клиент считается надёжным. Ему можно выдать кредит.

2) Рейтинг клиента лежит в полуинтервале (0.5, 0.7] клиент считается среднерисковым. Если пересмотреть условия кредитования, то клиенту можно будет выдать кредит.

3) Рейтинг клиента клиент считается рисковым. Ему не стоит выдавать кредит.

Исходя из этого, получаем классификацию:

· Клиенты из группы 60 рисковые

· Клиенты из групп 1-5, 7-12, 15, 17, 25, 31, 32, 33, 35-37, 39, 40, 42, 54-56, 58 - среднерисковые

· Клиенты из групп 6, 13, 14, 16, 18-24, 26-30, 34, 38, 41, 43-53, 57, 59 - надежные

Глава 3. Подход, основанный на задаче Монжа-Канторовича

3.1 Задача Монжа-Канторовича

Задача Монжа.

Даны два вероятностных пространства и и неотрицательная измеримая функция на , ...

дипломная работа "Оценка рейтингов клиентов на основе математической модели скоринга" скачать

Подобные документы

Метод дискриминантного анализа
Дискриминантный анализ как раздел многомерного статистического анализа. Дискриминантный анализ при нормальном законе распределения показателей. Применение дискриминантного анализа при наличии двух обучающих выборок. Решение задачи в системе statistika.

курсовая работа [140,3 K], добавлен 21.01.2011
Модели прогнозирования банкротства компаний в российской практике
Модели дискриминантного анализа. Эффективность классических западных и российских моделей предсказания банкротства. Отраслевая специфика. Описание статей, включающее характеристики выборки, метод, список факторов и прогнозную силу метода анализа.

реферат [68,6 K], добавлен 24.07.2016
Линейный множественный регрессионный анализ
Основы линейного регрессионного анализа. Особенности использования функции Кобба-Дугласа. Применение множественной линейной регрессии. Сущность метода наименьших квадратов. Пути избегания ложной корреляции. Проверка значимости коэффициентов регрессии.

реферат [101,8 K], добавлен 31.10.2009
Исследование экономической безопасности стран мира методами статистического анализа
Экономическая классификация стран, характеристика основных показателей экономического развития. Статистические методы анализа, описание дискриминантного, кластерного, факторного и графического анализа. Параметры исследование экономической безопасности.

дипломная работа [2,3 M], добавлен 14.10.2013
Методика функционально-стоимостного анализа
История появления функционально-стоимостного анализа, его методика, принципы, задачи и этапы проведения. Использование системного анализа и поэлементной отработки конструкции каждой детали Ю.М. Соболевым. Применение функционально-стоимостного анализа.

контрольная работа [43,9 K], добавлен 08.04.2012
Принципы экономического анализа
Теоретические и методологические основы экономического анализа, его предмет, объект, задачи. Характеристика принципов экономического анализа, подходы и особенности их использования на практике. Определение тенденций развития предприятия на основе анализа.

курсовая работа [53,9 K], добавлен 20.12.2010
Метод наименьших квадратов для однофакторной линейной регрессии
Сущность и применение метода наименьших квадратов для однофакторной линейной регрессии. Нахождение коэффициента эластичности для указанной модели в заданной точке X и его экономический анализ. Прогноз убыточности на основании линейной регрессии.

контрольная работа [47,3 K], добавлен 15.06.2009
Особенности модели Ольсона (ЕВО)
Сущность модели Ольсона как одной из наиболее перспективных современных разработок в теории оценки стоимости компании. ЕВО в практической оценке, особенности ее работы в России. Особенности линейной информационной динамики Ольсона и Фельтхама-Ольсона.

контрольная работа [80,3 K], добавлен 07.04.2011
Разработка экономико-математической модели оптимизации производственной структуры сельскохозяйственного предприятия
Методы разработки экономико-математической модели: постановка задачи, система переменных и ограничений. Виды решения экономико-математической модели оптимизации производственной структуры сельскохозяйственного предприятия, анализ двойственных оценок.

курсовая работа [60,3 K], добавлен 21.02.2010
Анализ финансово-хозяйственной деятельности предприятия
Понятие экономической информации, ее сущность и особенности, классификация и разновидности, характеристика и отличительные черты. Сущность, предмет и объекты экономического анализа, цели и задачи. Взаимосвязь анализа с другими науками, его организация.

шпаргалка [38,3 K], добавлен 05.04.2009
Теоретические основы формирования рейтингов развития регионов
Диагностика регионального развития, определение его основных параметров. Анализ уровня развития Ярославского региона в различных рейтингах субъектов Российской Федерации. Классификация и методика формирования рейтингов развития регионов в России.

курсовая работа [486,7 K], добавлен 12.12.2014
Оценка кредитоспособности ООО "Татарскэнергогаз" с помощью рейтинговой модели
Содержание, функции и классификация кредитных отношений. Кредитоспособность заемщика: сущность и необходимость оценки, изучение методов комплексного анализа. Применение рейтинговой модели для оценки кредитоспособности на примере ООО "Татарскэнергогаз".

дипломная работа [70,9 K], добавлен 17.01.2011
Оценка эффективности деятельности организации
Значение, цели, задачи и источники анализа финансово-хозяйственной деятельности, использование системного подхода. Классификация факторов и резервов роста производства. Анализ ритмичности производства, использования трудовых и материальных ресурсов.

курсовая работа [215,8 K], добавлен 02.08.2011
Прогнозирование финансово-экономических показателей и их обработка
Предварительная обработка статистических данных финансово-экономических показателей с помощью двухмерной модели корреляционного анализа. Прогнозирование финансово-экономических показателей на основе качественной оценки регрессионной линейной модели.

лабораторная работа [244,9 K], добавлен 24.11.2010
Предмет, содержание и задачи экономического анализа
Особенности экономического анализа и теории экономического анализа. Анализ как функция управления. Подготовка информации для принятия управленческих решений. Содержание, цели и задачи экономико-финансового анализа, проводимого органами внутренних дел.

лекция [75,4 K], добавлен 27.01.2010
Оценка кредитоспособности предприятий на основе нейросетевых технологий
Понятия нейросетевого анализа и характеристики нейросетей. Три типа нейронов: входные, выходные и промежуточные. Применение нейросетевого программного обеспечения. Использование модели трехслойного персептрона для определения кредитоспособности заемщика.

курсовая работа [227,1 K], добавлен 08.12.2014
Понятие и этапы функционально-стоимостного анализа
Задачи и цели использования функционально-стоимостного анализа, его объекты и методология проведения. Последовательность и описание этапов анализа: подготовительный, информационный, аналитический, творческий, исследовательский, рекомендательный.

реферат [25,6 K], добавлен 25.11.2010
Конкурентные возможности фирмы
Оценка отраслевой привлекательности и конкурентных возможностей фирмы на основе анализа цепочки ценностей. Рассмотрение достоинств и недостатков применения SWOT-анализа и модели пяти факторов Портера для анализа конкурентного преимущества предприятия.

реферат [136,3 K], добавлен 29.03.2012
Анализ прогнозирования в деятельности СУ-167 ОАО "МОЗЫРЬПРОМСТРОЙ"
Понятие и основные этапы разработки прогноза. Задачи анализа временных рядов. Оценка состояния и тенденций развития прогнозирования на основе анализа временных рядов СУ-167 ОАО "Мозырьпромстрой", практические рекомендации по его совершенствованию.

курсовая работа [378,6 K], добавлен 01.07.2013
Исследование линейного регрессионного анализа грузоперевозок в РБ за 2011-2012 гг.
Изучение и оценка коэффициентов и уравнения линейной регрессии показателей грузоперевозок по РБ за 2011-2012 гг. Проверка гипотез о значениях коэффициентов регрессии, построение доверительных интервалов, анализ статистической однородности и независимости.

курсовая работа [773,3 K], добавлен 23.10.2012

Другие документы, подобные "Оценка рейтингов клиентов на основе математической модели скоринга"

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.