Нейросетевые информационные технологии в банковской сфере
Анализ существующих систем кредитного скоринга, их основные недостатки. Исследование нескольких алгоритмов data mining и выбор оптимального из них. Описание системы кредитного скоринга, созданной с использованием нейронных сетей и оценка ее эффективности.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 27.05.2018 |
Размер файла | 207,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
УДК 004.9 + 336.77А 86
Нейросетевые информационные технологии в банковской сфере
В.В. Артюхин, В.С. Дятков, А.Н. Серёдкин
Аннотация
кредитный скоринг нейронный сеть
Проанализированы существующие системы кредитного скоринга, выявлены их недостатки. Рассмотрены несколько алгоритмов data mining и выбран оптимальный из них. Описана система кредитного скоринга, созданная с использованием нейронных сетей, и доказана ее эффективность.
Ключевые слова: нейросетевые технологии, информационные технологии, банковская сфера, кредитный скоринг, data mining, нейронные сети, MS SQL Server.
Кредитный риск представляет собой основной банковский риск, управление которым является ключевым фактором, определяющим эффективность деятельности банка. Обычно банки формируют значительную часть своих доходов за счет кредитной деятельности, поэтому особую актуальность представляет оценка потенциальной прибыли по отношению к вероятности непогашения кредита.
Сейчас на рынке кредитных услуг наблюдается тенденция к снижению процентных ставок по кредитам. Причины этого - снижение ЦБ ставок рефинансирования до 7,75 % и применение модернизированных систем кредитного скоринга.
Кредитный скоринг (аpplication-скоринг) -- это способ оценки кредитоспособности лица, основанный на численных статистических методах. Он заключается в присвоении баллов при заполнении анкеты, разработанной оценщиками кредитных рисков. По количеству набранных баллов системой принимается решение об одобрении или отказе в выдаче кредита.
Ранее в погоне за прибылью банки зачастую выдавали кредиты, практически поверив на слово или оценив кредитоспособность лица с помощью скоринговой системы с долго необновляемой БД. Стараясь заманить клиентов доступностью займов, целый ряд финансовых учреждений вообще отказались от надлежащей оценки их платежеспособности. Такая политика привела к росту невозвратов.
Опыт последнего времени еще раз подтвердил, что в современном мире нельзя полагаться исключительно на экспертный опыт и старые системы кредитного скоринга. Необходимо учитывать весь объем информации о клиентах-заемщиках и периодически обновлять базы данных, используемые для скоринговых моделей. Только в этом случае в отношении той или иной кредитной заявки возможно принятие оптимального решения и значительное снижение кредитных рисков.
Целью работы является выбор лучшего метода data mining и создание системы интеллектуального кредитного скоринга без привлечения дорогостоящего ПО. Для достижения поставленной цели решаются следующие задачи: сбор и подготовка исходных данных, определение лучшего метода data mining для создания системы кредитного скоринга, создание экспертной системы.
Сейчас на рынке существуют готовые продукты кредитного скоринга: программные продукты SAS Enterprise Miner, PolyAnalyst, STATISTICA Data Miner, Oracle Data Mining, аналитическая платформа Deductor. Преимуществами продуктов являются большой набор инструментов и алгоритмов прогностического и описательного моделирования, работа с разными типами данных, различные средства визуализации.
Так как готовая скоринговая система является дорогостоящим продуктом, в банковской сфере РФ она применяется в основном в крупных кредитных организациях и банках. Системы кредитного скоринга, произведенные иностранными фирмами, применяются достаточно редко, поскольку они слабо учитывают специфику российской действительности, а также из-за сложного процесса внедрения, интеграции и адаптации.
В небольших КБ или подразделениях кредитный скоринг может вообще не применяться ввиду активного сопротивления сотрудников на местах и приверженности к традиционным методам оценки заемщиков. Поэтому для таких коммерческих организаций необходимо создание системы кредитного скоринга, не перегруженной множеством способов анализа данных и выявления закономерностей, с одним оптимальным методом и максимально удобным и понятным интерфейсом.
Наиболее мощные механизмы оценки риска - это самообучающиеся алгоритмы, обладающие способностью к адаптации. Рассмотрим 5 алгоритмов data mining и выберем один оптимальный:
· логистическая регрессия;
· ассоциативные правила;
· деревья решений;
· самообучающиеся карты;
· нейронные сети.
Анализ кредитоспособности проводится на основе скоринговых анкет. Анализируемые данные представляются в виде обычной таблицы, в которой содержатся прецеденты. В нашем случае их используется 1000. Ввиду секретности банковской информации и отсутствия возможности найти необходимые данные в кредитных бюро (из-за высокой стоимости и возможности доступа к ней только юридических лиц) для создания и тестирования системы были использованы тестовые данные компании Basegroup, которые использовались компанией для создания аналогичных приложений. Таблица помимо фактов, используемых аналитиком (дата, отношение обязательства/доход, возраст, место проживания, срок проживания в регионе, семейное положение, образование, стаж работы на последнем месте, уровень должности, кредитная история, просрочка платежей по предыдущим кредитам свыше 60 дней), содержит столбец, в котором указывается ответ: выдать кредит или нет.
С применением аналитической платформы Deductor была проведена предпроцессорная обработка данных. На следующем этапе было проведено исследование и выбран лучший метод data mining для реализации системы кредитного скоринга.
Исследовалась возможность применения логистической регрессии - линейной модели для задач с бинарным результирующим полем («выдать»/«отказать»). На основе этого алгоритма была построена скоринговая карта, позволяющая подобрать оптимальный и экономически обоснованный порог отсечения. С помощью ROC-анализа подобрано пороговое значение. Оптимальный порог (точка максимума) равен 0,74. В этой точке чувствительность равна 66,9, что означает следующее: 66,9 % благонадежных заемщиков будут подтверждены моделью. Специфичность равна 57,32 %. Следовательно, 42,68 % недобросовестных заемщиков получат одобрение выдачи кредита. Этот показатель свидетельствует о большом риске в случае построения скоринговой модели на основании данного метода.
Для оценки результата построена таблица сопряженности. В ней зафиксировано 127 случаев ложного обнаружения (заемщик признан благонадежным, тогда как по факту он таковым не является) 197 случаев ложного пропуска (надежному клиенту отказано в получении кредита). Процент верно классифицированных случаев составил 67,6 %, соответственно ошибка - 32,4 %.
Ассоциативные правила - алгоритм, позволяющий находить закономерности между связанными событиями. На основании ассоциативных правил можно сделать вывод, что при отсутствии у заемщика просрочки свыше 60 дней кредит будет выдан однозначно. Также клиент с большой вероятностью получит займ, если у него будет отсутствовать или будет положительная кредитная история, если отношение обязательства/доход будет в промежутке 14-49 %. Если у заемщика есть просрочка свыше 60 дней, то с достоверностью 98,7 % он не получит кредит. Заемщик не получит кредит, когда его кредитная история отрицательна, даже при условии отсутствия просрочки свыше 60 дней, или отношение обязательства/доход превышает 49 % .
С помощью таблицы сопряженности определен процент ошибочных результатов. Ошибка первого рода составила 2,8 %, а ошибка второго рода -2,5 %. Всего ошибочно классифицировано 5,3 % заемщиков.
Следующий метод основывается на применении дерева решений - алгоритма, автоматически строящего иерархическую систему правил для решения задач анализа. Дерево содержит в себе правила, следуя которым можно отнести заемщика в одну из групп риска и сделать вывод о выдаче кредита. Если у клиента есть просрочка более 60 дней, то последует ответ «нет». Такой же ответ будет при отсутствии просрочки свыше 60 дней и отрицательной кредитной истории или при отсутствии просрочки и кредитной истории и отношении обязательства/доход более 49 %. В остальных случаях ответ будет положительный.
По таблице сопряженности выявлено 15 случаев ложного обнаружения, когда неблагонадежный заемщик был признан надежным, 29 случаев ложного пропуска, когда надежному клиенту было отказано в получении кредита. Процент верно классифицированных случаев составил 95,6 %, ошибочно классифицированных - 4,4 %. По сравнению с логистической регрессией ошибка значительно меньше, риск для банка снижается.
Самообучающиеся карты - алгоритм, разбивающий объекты на кластеры (группы близких объектов). Так же как и в предыдущих случаях, определим процент ошибки с помощью таблицы сопряженности. Общая ошибка составила 15,5 %, ошибка первого рода - 11,8 %, ошибка второго рода - 3,7 %.
Рис. 1. Формальный нейрон
Следующий метод подразумевает использование нейронной сети - самообучающегося алгоритма, автоматически определяющего вклад каждого фактора в результат и учитывающего их взаимное влияние. Нейронная сеть представляет собой совокупность нейроподобных элементов, определенным образом связанных друг с другом и внешней средой с помощью связей, определяемых весовыми коэффициентами. В процессе функционирования сети осуществляется преобразование входного вектора в выходной, некоторая переработка информации. Нейронные сети - самообучающиеся системы, имитирующие деятельность человеческого мозга. Стандартный формальный нейрон составлен из входного сумматора, нелинейного преобразователя и точки ветвления на выходе (рис. 1).
Первые попытки формализовать описание функционирования нервной клетки позволили создать математическую модель. Введем следующие обозначения:
- входные сигналы данного нейрона, приходящие от других нейронов;
- синаптические веса;
- выходной сигнал нейрона;
- пороговое значение.
Формула, описывающая функционирование нейрона, имеет вид
(1)
Нейрон преобразует полученный суммарный импульс в соответствии с некоторой передаточной функцией . Сила выходного импульса равна:
.
Таким образом, формула (1) может быть представлена в виде
,
где
а также ; .
Таким образом, нейрон полностью описывается своими весами и передаточной функцией . Получив набор чисел (вектор) в качестве входов, нейрон выдает некоторое число на выходе.
Поведение нейронной сети зависит как от весовых коэффициентов, так и от формы функции активации. В качестве функции f может приниматься не только единичная функция, но и другие пороговые функции. Наиболее часто используются пороговая, сигмоидальная, линейная и кусочно-линейная функции активации. В качестве симметричной сигмоидальной функции часто используется гиперболический тангенс
.
Нейронные сети обратного распространения - это мощнейший инструмент поиска закономерностей, прогнозирования, качественного анализа. Свое название сети обратного распространения (back propagation) получили из-за используемого алгоритма обучения, в котором ошибка распространяется от выходного слоя к входному. При использовании метода обратного распространения ошибки вычисления выполняются по следующему алгоритму:
1) проход вперёд - на вход сети подается входной вектор или несколько входных векторов, рассчитываются выходные векторы скрытых слоёв и выходной вектор всей сети, рассчитывается функционал ошибки;
2) проход назад - при движении от выходного слоя рассчитываются градиенты функционала ошибки;
3) с использованием градиента функционала ошибки корректируются веса всех слоев сети.
При обучении сетей, как правило, используется один из двух следующих критериев останова:
1. Остановка в случае успешного решения всех примеров обучающей выборки.
2. Остановка при достижении некоторого малого значения функции ошибки.
Функция ошибки численно определяет сходство всех текущих выходных сигналов сети и соответствующих желаемых выходных сигналов обучающей выборки. Наиболее распространенной функцией ошибки является функция, вычисляющая среднеквадратическую ошибку (MSE):
,,
где - количество выходов сети; - ошибка сети при подаче -го вектора; - цель (что должно получиться при подаче -го вектора); -выход сети (что получилось при подаче -го вектора).
Цель обучения - минимизировать функцию ошибки, т. е. найти такие значения параметров сети, при которых текущие выходные сигналы сети минимально отличаются от соответствующих желаемых выходных сигналов, заданных обучающей выборкой. Когда величина ошибки достигает нуля или приемлемого малого уровня, обучение останавливают, а полученную сеть считают обученной и готовой к применению на новых данных. Набор обучающих примеров формируется по усмотрению пользователя программы моделирования нейронных сетей индивидуально для каждой конкретной решаемой задачи. Результаты экспериментов, проведенных в Matlab, показали, что лучшая структура нейронной сети - двухслойная с 3 нейронами на первом слое и 5 на втором слое. В целом ошибки нейронных сетей с различной структурой меньше, чем при использовании логистической регрессии, ассоциативных правил, деревьев решений, карт Кохонена для анализа заемщиков.
Размещено на http://www.allbest.ru/
Рис. 2. Диаграмма вариантов использования
При сравнении алгоритмов выявлено: чем проще алгоритм, тем он грубее, но при этом легче объяснить полученные результаты. Наиболее мощные алгоритмы способны находить сложные нелинейные зависимости, но их интерпретация является непростой задачей. Для банка важна максимальная точность при определении благонадежности заемщика, поэтому для системы кредитного скоринга используем нейронную сеть с наилучшей структурой.
Система кредитного скоринга была создана с использованием нейронной сети на языке программирования С#, СУБД MS SQL Server. Диаграмма вариантов использования приведена на рис. 2.
При запуске программы первоначально нужно подключиться к БД, для этого указать имя сервера, логин, пароль и имя БД. На главной форме находятся три кнопки. При нажатии на «Добавление сведений о клиенте» осуществляется переход на форму добавления, где мы вносим данные, которые в дальнейшем будут подвержены обработке с помощью нейронной сети для определения возможности выдачи займа. Если нажать на «Обучение и тестирование сети», перейдем на форму, в которой определяются основные параметры обучения и запускается обучение. Также на этой форме выводится результат обучения: количество циклов обучения, ошибка на обучающем множестве и тестовом множестве. При нажатии на «Анализ данных заемщика» попадаем на форму анализа, где реализована функция поиска клиента в БД по таким параметрам, как ФИО и дата рождения. В поле «Результат поиска» выводятся данные о клиенте, если он уже брал займ, дата анализа и результат анализа. При нажатии на «Анализ заемщика» происходит анализ с помощью нейронной сети. Выдается результат обучения в процентах.
Таким образом, разработанная скоринговая система на основе нейронной сети позволит кредитной организации получить эффективное конкурентное преимущество для поддержания и улучшения своих конкурентных позиций на рынке и выживания в борьбе с конкурентами в течение длительного времени. Необходимо отметить следующее преимущество нейросетевой системы: при изменении состояния рынка и банковской системы существует возможность адаптировать модель к новым реалиям. Для этого нужно провести обучение нейронной сети на новой выборке клиентов.
Список литературы
1. Титова, Е.Н. Деньги, кредит, банки: учеб. пособие для студентов вузов / Н.Е. Титова, Ю.П. Кожаев. - М.: ВЛАДОС, 2003.
2. Палкин, Н.Б. Бизнес-аналитика: от данных к знаниям / Н. Б. Палкин, В. И. Орешков. - СПб.: Питер, 2009.
3. Горбань, А.Н. Нейроинформатика / А. Н. Горбань, В. Л. Дунин_Барковский, А. Н. Кирдин, Е. М. Миркес, А. Ю. Новоходько, Д. А. Россиев, С. А. Терехов, М. Ю. Сенашева, В. Г. Царегородцев. -Новосибирск: Наука, 1998.
4. Медведев, В.С. Нейронные сети Matlab 6 / В. С. Медведев, В. Г. Потёмкин. - М.: Диалог-МИФИ, 2002. - 496 с.
Материал поступил в редколлегию 30.09.11.
Размещено на Allbest.ru
...Подобные документы
Описание функциональных возможностей технологии Data Mining как процессов обнаружения неизвестных данных. Изучение систем вывода ассоциативных правил и механизмов нейросетевых алгоритмов. Описание алгоритмов кластеризации и сфер применения Data Mining.
контрольная работа [208,4 K], добавлен 14.06.2013Описание кредитного отдела OAO "Сбербанк". Информационные системы и технологии кредитного отдела. Программные продукты, предлагаемые для банков, в частности для кредитной сферы. Варианты улучшения существующей информационной системы кредитного отдела.
курсовая работа [457,9 K], добавлен 24.09.2014Основы для проведения кластеризации. Использование Data Mining как способа "обнаружения знаний в базах данных". Выбор алгоритмов кластеризации. Получение данных из хранилища базы данных дистанционного практикума. Кластеризация студентов и задач.
курсовая работа [728,4 K], добавлен 10.07.2017Data mining, developmental history of data mining and knowledge discovery. Technological elements and methods of data mining. Steps in knowledge discovery. Change and deviation detection. Related disciplines, information retrieval and text extraction.
доклад [25,3 K], добавлен 16.06.2012- Визуализация профиля пользователя социальной сети на основе обработки семантического описания данных
Анализ существующих музыкальных сетей, профиля музыкального файла. Технологии и возможности Web 2.0. Анализ алгоритмов в Data Mining. Структура социальной сети. Набор графических элементов, описывающий человека в зависимости от прослушиваемой музыки.
дипломная работа [3,7 M], добавлен 20.04.2012 Совершенствование технологий записи и хранения данных. Специфика современных требований к переработке информационных данных. Концепция шаблонов, отражающих фрагменты многоаспектных взаимоотношений в данных в основе современной технологии Data Mining.
контрольная работа [565,6 K], добавлен 02.09.2010Анализ проблем, возникающих при применении методов и алгоритмов кластеризации. Основные алгоритмы разбиения на кластеры. Программа RapidMiner как среда для машинного обучения и анализа данных. Оценка качества кластеризации с помощью методов Data Mining.
курсовая работа [3,9 M], добавлен 22.10.2012Разработка системы оценки кредитоспособности заемщика с использованием персептрона. Сущность скоринговых систем, нейронных сетей. Скоринговые системы как средство минимизации кредитного риска. Этапы проектирования сети. Определение значимости параметров.
презентация [882,9 K], добавлен 19.08.2013Перспективные направления анализа данных: анализ текстовой информации, интеллектуальный анализ данных. Анализ структурированной информации, хранящейся в базах данных. Процесс анализа текстовых документов. Особенности предварительной обработки данных.
реферат [443,2 K], добавлен 13.02.2014Диагностический анализ изучения алгоритмов обучения нейронных сетей "с учителем". Сбор входных и выходных переменных для наблюдений и понятие пре/пост процессирования. Подготовка и обобщение многослойного персептрона, модель обратного распространения.
курсовая работа [249,3 K], добавлен 22.06.2011Изучение методов разработки систем управления на основе аппарата нечеткой логики и нейронных сетей. Емкость с двумя клапанами с целью установки заданного уровня жидкости и построение нескольких типов регуляторов. Проведение сравнительного анализа.
курсовая работа [322,5 K], добавлен 14.03.2009Анализ существующих алгоритмов распознавания режимов работы газотурбинного двигателя. Метод группового учета аргументов, метод Байеса. Применение технологий системного моделирования на этапе проектирования интеллектуальной системы распознавания режимов.
курсовая работа [1,4 M], добавлен 11.04.2012Способы применения технологий нейронных сетей в системах обнаружения вторжений. Экспертные системы обнаружения сетевых атак. Искусственные сети, генетические алгоритмы. Преимущества и недостатки систем обнаружения вторжений на основе нейронных сетей.
контрольная работа [135,5 K], добавлен 30.11.2015Технологии решения задач с использованием нейронных сетей в пакетах расширения Neural Networks Toolbox и Simulink. Создание этого вида сети, анализ сценария формирования и степени достоверности результатов вычислений на тестовом массиве входных векторов.
лабораторная работа [352,2 K], добавлен 20.05.2013Исследование эффективности применения нейронных сетей в рамках отношений между людьми. Принцип работы с нейросимулятором. Составление обучающей выборки и проектирование персептронов. Анализ выбора супружеской пары с использованием нейросетевых технологий.
презентация [150,8 K], добавлен 19.08.2013История создания и характеристики системы SWIFT. Основные принципы создания АИС для банковской сферы, назначение и основные возможности системы "клиент-банк". Понятия баз данных и систем управления в Access, использование запросов, отчетов, форм.
контрольная работа [55,3 K], добавлен 24.11.2010Задача анализа деловой активности, факторы, влияющие на принятие решений. Современные информационные технологии и нейронные сети: принципы их работы. Исследование применения нейронных сетей в задачах прогнозирования финансовых ситуаций и принятия решений.
дипломная работа [955,3 K], добавлен 06.11.2011Классификация задач DataMining. Создание отчетов и итогов. Возможности Data Miner в Statistica. Задача классификации, кластеризации и регрессии. Средства анализа Statistica Data Miner. Суть задачи поиск ассоциативных правил. Анализ предикторов выживания.
курсовая работа [3,2 M], добавлен 19.05.2011Сущность и экономическое обоснование, методы и подходы к прогнозированию валютного курса. Описание технологии интеллектуальных вычислений. Применение генетических алгоритмов для настройки архитектуры нейронных сетей. Основные способы улучшения модели.
курсовая работа [1,3 M], добавлен 26.03.2016Способы применения нейронных сетей для решения различных математических и логических задач. Принципы архитектуры их построения и цели работы программных комплексов. Основные достоинства и недостатки каждой из них. Пример рекуррентной сети Элмана.
курсовая работа [377,4 K], добавлен 26.02.2015