Застосування алгоритму бустінга при створенні ансамблю моделей для визначення скорингової оцінки позичальників-фізичних осіб
Застосування алгоритму бустінгу на основі використання нейромереж для розв'язання задачі скорингової оцінки позичальників банку. Основні підходи до створення та застосування ансамблевих структур. Підвищення точності класифікації позичальників банку.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | украинский |
Дата добавления | 10.10.2018 |
Размер файла | 103,5 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
УДК 519.86:336.717
Застосування алгоритму бустінга при створенні ансамблю моделей для визначення скорингової оцінки позичальників-фізичних осіб
Бень Владислав Петрович
провідний спеціаліст
Акціонерне товариство «МОТОР СІЧ»
Анотація
бустінг нейромережа позичальник банк
Стаття присвячена застосуванню алгоритму бустінгу на основі використання нейромереж для розв'язання задачі скорингової оцінки позичальників банку.
Ключові слова: скоринг, бустінг, нейромережі.
Аннотация
Статья посвящена применению алгоритма бустинга на основе использования нейросетей при решении задачи скоринговой оценки заемщиков банка.
Ключевые слова: скоринг, бустинг, нейросети.
Summary
The article is devoted to the application of the bootstrap algorithm based on the use of neural networks in solving the problem of scoring the borrowers of the bank.
Key words: scoring, boosting, neural networks.
Постановка проблеми. Оцінка надійності позичальника банку є однією з важливих задач банківських установ. Недосконалі механізми оцінки кредитоспроможності здатні призвести до суттєво негативних наслідків. В найгіршому випадку -- до банкрутства банківської установи.
В інших, менш катастрофічних випадках, наслідком може бути таке негативне явище, як порушення ліквідності банку.
Найчастіше, для оцінки кредитоспроможності позичальників, банки застосовують скорингові моделі.
Скоринговою моделлю називають математичну або статистичну модель, яка, на основі наявної інформації про попередній кредитний досвід позичальників банку, дає змогу оцінити кредитоспроможність потенційного клієнта [1]. При розробці скорингової оцінки застосовується широкий клас математичних моделей. Одним з видів моделей, що дають високу якість результатів є нейромережі. Однак, при розрахунках скорингової оцінки, в якості вхідних даних доцільно використовувати інформацію, що може бути представлена як кількісними, так і якісними показниками. До останніх відносяться анкетні дані позичальника, інформація від операторів мобільного зв'язку, відомості про активність потенційного клієнта у соціальних мережах тощо. Обробка такої специфічної інформації є складною проблемою. Тому не завжди вдається на її основі отримати достатній рівень точності класифікації позичальників. Саме з метою пошуку шляхів підвищення ефективності моделей пов'язана ідея створення ансамблів (комітетів) моделей.
Створення ансамблю покликано за допомогою кількох моделей, кожна з яких окремо має досить низьку точність оцінювання, утворити таку процедуру проведення класифікації, що дасть можливість отримати більш високий рівень загальної точності класифікації ансамблем моделей [2].
Аналіз останніх досліджень і публікацій. Теоретико-методологічна база для аналізу та дослідження загальних питань кредитного ризику та зокрема розробки скорингових моделей розвинута вітчизняними вченими Вітлінським В. В., Камінським А. Б., Кишакевичем Б. Ю., Пернарівським О. В., Писанцем К. К. Сучасний математичний інструментарій -- методи нечіткої логіки та нейронних мереж в управлінні діяльності комерційного банку застосовано та розвинуто в роботі Великоіваненко Г. І., Трокоз Л. О. [3]. Однак потреби врахування специфіки інформаційного забезпечення процесу оцінювання кредитоспроможніості клієнтів банку вимагають подальших досліджень. Одним з підходів в даному напрямку є використання ансамблів моделей.
Підходи до створення та застосування ансамблевих структур почали розвиватись у кінці минулого століття з роботи Р. Шепайре [4] де було вперше запропоновано ідею бустінгу. Успішність подальших модифікацій початкової ідеї бустінгу та створення нових алгоритмів роботи комітетів моделей дали поштовх до використання ансамблів у різних сферах досліджень. Однак, лише останнім часом комітети моделей почали використовувати також і для розв'язання задачі кредитного скорингу. Тому кількість публікацій за даною темою досить обмежена. В роботі [5] розглянуто застосування алгоритму бустінгу для проведення кредитного скорингу на основі дерев рішень. Використання дерев рішень є одним з найбільш простих методів при розробці скорингових моделей, тому недоцільно обмежуватись лише результатами таких досліджень. Цікавою є робота [6], в якій описано процедуру розробки ансамбля для розв'язання задачі проведення поведінкового скорингу. В роботі наведено основні аспекти, що впливають на підвищення точності роботи ансамблевих структур та розглянуто реалізацію одного з таких аспектів, а саме -- метод узагальнення результатів окремих моделей ансамблю. Отже залишаються відкритими для дослідження інші питання. Наприклад, проблеми вибору окремих моделей, які складатимуть комітет.
Постановка завдання. Метою роботи є дослідження процесу застосування базового варіанту алгоритму бустінгу на основі використання нейромереж в якості окремих моделей ансамблю при розв'язанні задачі скорингової оцінки позичальників-фізичних осіб.
Виклад основного матеріалу. На сьогодні розроблено та описано значну кількість різноманітних видів ансамблів, які різняться за алгоритмами побудови. В процесі удосконалення таких алгоритмів деякі з них, наприклад бустінг, мають кілька модифікацій та вже перетворились у окремі сімейства алгоритмів.
За алгоритмом бустінгу (підсилення) моделі ансамблю будуються послідовно таким чином, щоб кожна наступна модель проводила класифікацію тих прикладів, які не змогли класифікувати моделі на попередніх кроках. Для цього спеціальною процедурою проводиться формування навчальних вибірок. Експерти комітету навчаються послідовно на різних масивах початкових даних. Однаковим для всіх експертів є лише обсяг навчальної вибірки. Таким чином, кожен з експертів не може повторити помилки попереднього, що забезпечує незалежність похибок окремих моделей комітету. А це, в свою чергу, є однією з умов підвищення ефективності роботи комітету [2].
Статистичною базою дослідження є дані з кредитних заявок позичальників-фізичних осіб комерційного банку та відомостей щодо виконання ними зобов'язань за отриманими кредитами. Представлена інформація містить дані за 6 чинниками та нараховує 2175 спостережень.
Досліджувався базовий варіант алгоритму бустінгу [2]. Всі наявні дані було розділено на дві частини -- навчальну та тестову вибірки. Навчальна вибірка складається з 600 значень, решта 1575 використовуються як тестова вибірка. Незначний розмір навчальної вибірки обумовлений недостатньо великим обсягом наявного масиву даних, щоб забезпечити паритет надійних та дефолтних позичальників. Зауважимо, що у літературі [2, 7] вказується на необхідність значного обсягу даних для застосування даного алгоритму. Деталізовану схему алгоритму бустінгу для досліджуваних даних проілюстровано на рис. 1.
На першому кроці навчається перший експерт комітету, для якого обсяг навчальної вибірки сформований із 600 спостережень. За результатами класифікації першим експертом формується навчальна вибірка для другого експерта. Вона повинна мати той самий обсяг, що і початкова вибірка, та містити рівно половину її прикладів, всі з яких були точно класифіковані першим експертом. Тобто, в даному випадку слід обрати по 150 надійних (0) та дефолтних (1) позичальників. Інші 300 прикладів для навчальної вибірки другого експерта випадковим чином обираються з тестового масиву. Залишок елементів з тестового масиву першого експерта стає тестовим масивом для другого експерта (в нашому дослідженні тестова вибірка для другого експерта складатиметься з 1275 значень).
За результатами обчислень, проведених першим та другим експертами, формується навчальна вибірка для третього експерта. Вона має містити також 600 прикладів, до яких із застосованих раніше мають увійти лише ті, за якими результати класифікації першим та другим експертами відрізняються. В начальній вибірці таких розбіжностей серед надійних позичальників виявлено 75, а з-поміж дефолтних -- 115. Отже, для забезпечення потрібного обсягу навчальної вибірки для третього експерта необхідно взяти із тестової вибірки другого експерта ще 225 прикладів надійних позичальників (які характеризуються нульовими значеннями) та 185 -- дефолтних (що представлені одиницями). Залишок тестової вибірки другог оексперта, який склав 865 елементів, стає тестовою вибіркою для третього експерта.
Першим експертом перш за все було взято нейромережурадіально-базисноїархітектуриз124 нейронами проміжного шару. Така мережа в проведеному раніше досніджена і [8]немоздерутіха дай - кращий результат для незначних обсягів навчальної вибірки. З метою абґрунтавака до вибалі хершаго експерта разом з цією моделлю було розглянуто ще дві нейзютннежі д виьдкою точністю класифікації (див. табл. 1).
На основі даних табл. 1 можна зробити висновок, що обраний обсяг навчальної вибірки не надає можливості якісного навчання моделі. Про це свідчить значна розбіжність між показниками точності класифікації для навчальної (близько 80%) та тестової (не перевищує 53%) вибірок. Тобто модель, налаштована на невеликій навчальній вибірці, не буде достатньо гнучкою для ефективного моделювання усього різноманіття варіантів із тестової вибірки. Для підвищення точності класифікації можна збільшити обсяг навчальної ви- Кія5и,однаквданому дселеджеяшашс ої можливості не було через незначний обсяг наявних даних.
Відповідно до табл. 1, найефективнішою моделлю дожюі^нбж аоилейнодерджу оіадіооьно-баз чаною архітектурою та 124 нейронами проміжного шару як здодказоидами алдcифiтацiїб4тeв[тдля наузтль ної та тестової вибірок, так і за узагальненими даними повочому М4СИВу знбчнхь.
При виборі другого та третього експертів проводились аналогічні попередньому випадку експериментальні розрахунки.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Таблиця 1. Розрахунки ефективності нейромереж для вибору параметрів моделі-першого експерта за алгоритмом бустінгу
Архітектура мережі, кількість входів, кількість нейронів проміжного шару |
Відсоток правильно класифікованих спостережень у навчальній вибірці, % |
Відсоток правильно класифікованих спостережень у тестовій вибірці, % |
Узагальнені дані по всьому масиву (без поділу на навчальну та тестову вибірки) |
Правильно класифікованих, % |
||
Клас |
Всього |
|||||
Тришаровий пер- |
75,5 |
52,5 |
0 |
1131 |
56,5 |
|
септрон,6,6 |
1 |
1044 |
61,3 |
|||
Радіально-базисна, |
81,7 |
53 |
0 |
1131 |
58,4 |
|
6, 124 |
1 |
1044 |
63,3 |
|||
Радіально-базисна, |
84,3 |
50 |
0 |
1131 |
57,7 |
|
6, 187 |
1 |
1044 |
62,5 |
Джерело: розробка автора
У якості другої моделі-експерта було обрано нейромережу з радіально-базисною архітектурою та 13 нейронами проміжного шару. Вона має вищі показники точності класифікації порівняно з іншими моделями як у розрізі навчальної та тестової вибірок, так і за узагальненими даними. В якості третього експерта було обрано нейромережу з радіально-базисною архітектурою та 28 нейронами проміжного шару.
Загальний результат роботи комітету моделей визначається простим голосуванням: приклад відноситься до того класу, до якого його віднесено трьома чи двома експертами. На всьому масиві даних (з 1465 значень) правильно класифікованих комітетом надійних позичальників, що представлені нулями, виявилось 58,68%, дефолтних (одиниць) -- 56%.
Для можливості співставлення ефективності роботи комітету з окремими його моделями в табл. 2 наведено показники точності класифікації першого, другого та третього експертів окремо та спільно для масиву даних із 1465 значень.
Дані табл. 2 підтверджують, що точність класифікації комітетом є вищою за окремі його моделі. Однак, все одно відсоток правильно класифікованих комітетом прикладів є досить невисоким.
На нашу думку, головною проблемою в даному випадку є неефективність використання комітетів моделей для вибірок малого обсягу. Як зазначається в [2, 7], призначення комітетів моделей -- обробка даних, що нараховують 100 тисяч і більше записів. У даному випадку малий обсяг навчальної вибірки не дає достатніх можливостей для ефективного навчання навіть першого експерта. А при подальшій послідовній зміні навчальної вибірки з неї взагалі вилучаються певні її значущі частини, що призводить до її виродження. Це є відомим недоліком даного методу [7]. Крім того, в дослідженні було реалізовано найпростіший варіант з усіх модифікацій сімейства алгоритмів бустінгу.
Таблиця 2. Показники ефективності класифікації окремими експертами та комітетом, сформованим за алгоритмом бустінгу
Архітектура мережі, кількість входів, кількість нейронів проміжного шару |
Узагальнені дані по всьому масиву (без поділу на навчальну та тестову вибірки) |
Правильно класифікованих, % |
||
Клас |
Всього |
|||
Радіально-базисна, 6, 124 Радіально-базисна, 6, 13 Радіально-базисна, 6, 28 Комітет моделей |
0 |
756 |
49 |
|
1 |
709 |
61,6 |
||
0 |
756 |
53,6 |
||
1 |
709 |
52,8 |
||
0 |
756 |
55 |
||
1 |
709 |
55 |
||
0 |
756 |
58,6 |
||
1 |
709 |
56 |
Джерело: розробка автора
Висновки з даного дослідження і перспективи подальших розвідок у даному напрямі
На сьогоднішній день, для проведення скорингової оцінки позичальників банку, слід враховувати великі обсяги різнорідної інформації. Таке завдання вимагає пошуку нових методів та підходів щодо обробки масивів даних з особливою специфікою. Одним з напрямків розв'язання цієї проблеми є застосування ансамблевих структур. В якості окремих моделей ансамблю можна використовувати різні види математичних моделей. Процес відбору окремих моделей до комітету вимагає проведення ряду експериментальних розрахунків, оскільки вибір окремих експертів значною мірою впливатиме на ефективність його роботи. Результати розрахунків підтверджують, що реалізація алгоритму бустінгу дозволяє підвищити точність класифікації позичальників банку. Однак для коректного застосування алгоритму бустінгу слід використовувати початкові данні більшої розмірності.
Отримані результати досліджень можуть бути основою для реалізації інших модифікацій алгоритму бустінгу або інших алгоритмів при створенні анасамблів моделей.
Література
1. Сорокин А. С. Построение скоринговых карт с использованием модели логистической регрессии. [Электронный ресурс] / А. С. Сорокин / Интернет-журнал «Науковедение». -- 2014. -- Вып. 2. -- С. 1-29. -- Режим доступу: http://naukovedenie.ru/PDF/180EVN214.pdf.
2. Научная сессия МИФИ-2007. IX Всероссийская научно-техническая конференция «Нейроинформатика-2007»: Лекции по нейроинформатике / [авт.тексту С. А. Терехов]. -- Часть 2. -- М.: МИФИ, 2007. -- 148 с.
3. Великоіваненко Г. І. Нейро-нечітка модель оцінювання прострочених позик комерційного банку / Г. І. Вели- коіваненко, Л. О. Трокоз // Нейро-нечіткі технології моделювання в економіці. -- 2014. -- № 3. -- С. 23-66.
4. Robert E. Schapire. Theoretical views of boosting and applications / Algorithmic Learning Theory, 10th International Conference, ALT `99, Tokyo, Japan, December 1999, Proceedings [Електронний ресурс]. -- Режим доступу: http://www-ai.cs.uni-dortmund.de/LEHRE/PG/PG445/literatur/schapire_99a.pdf.
5. Bаstoі J. Credit scoring with boosted decision trees / MPRA Paper No. 8156, posted 8. April 2008. [Електронний ресурс]. -- Режим доступу: https://mpra.ub.uni-muenchen.de/8156/1Zpaper.pdf
6. Кузнецов И. А. Разработка ансамбля алгоритмов классификации с использованием энтропийного показателя качества для решения задачи поведенческого скоринга / И. А. Кузнецов, В. С. Киреев // Труды XVIII Международной конференции DAMDID/RCDL'2016 «Аналитика и управление данными в областях с интенсивным использованием данных», Ершово, 11-14 октября 2016. [Електронний ресурс]. -- Режим доступу: http://ceur-ws.org/Vol-1752/paper07.pdf
7. Паклин Н. Б. Бизнес-аналитика: от даннях к знаниям: Учебное пособие. 2-е изд. испр. / Н. Б. Паклин,
B. П. Орешков. -- СПб: Питер. 2013. -- 704 с.
8. Савіна С. С. Вибір архітектури нейромережі для розв'язання задачі класифікації надійності позичальників-фі- зичних осіб / С. С. Савіна, В. П. Бень // Нейро-нечіткі технології моделювання в економіці. -- 2015. -- № 5. --
C. 123-151.
Размещено на Allbest.ru
...Подобные документы
Сутність та зміст алгоритму Брезенхема для цифрових графопобудовувачів, сфери його застосування. Графік похибки в алгоритмі. Результати роботи покрокового циклу. Оцінка виконання покрокового алгоритму Брезенхема генерації кола, етапи його розв'язання.
реферат [326,2 K], добавлен 25.03.2011Системи автоматичного керування. Описання методу стикування розв'язків на основі теореми по n-інтервалів. Застосування методу динамічного програмування (рівняння Р. Белмана). Моделювання задачі синтезу та аналізу на електронній обчислювальній машині.
контрольная работа [632,5 K], добавлен 31.03.2014Постановка та описання алгоритму розв’язання задачі про оптимальне призначення, формулювання вимог. Обґрунтування вибору засобів програмування. Розробка структури програми та системи її візуалізації, тестування та верифікація, оцінка ефективності.
курсовая работа [1,1 M], добавлен 12.05.2013Визначення і розв’язання задачі Коші для звичайних диференціальних рівнянь першого порядку методом Ейлера, алгоритм розв’язання, похибка при вирішенні. Складання блок-схеми. Реалізація алгоритму у середовищі Borland Pascal. Результат роботи програми.
курсовая работа [264,0 K], добавлен 20.08.2010Технологія візуального проектування. Аналітичне розв’язання задачі в загальному вигляді. Програмування в консольному режимі. Сценарій розв’язання задачі в Delphi та блок-схема алгоритму. Програмний код додатку та опис інтерфейсу з екранними копіями.
курсовая работа [2,4 M], добавлен 22.06.2009Загальна характеристика застосування верстатів з числовим програмним управлінням. Разгляд етапів та особливостей складання керуючої програми. Вимоги до алгоритму розв’язку задачі. Побудова блок-схеми алгоритму. Опис програмного забезпечення, вибір мови.
курсовая работа [1,4 M], добавлен 24.05.2015Дослідження застосування різницевого методу для розв’язання крайової задачі. Дослідження проводиться на прикладі заданого диференційного рівняння. Дається опис методу та задачі в цілому. Застосування при обчисленні формули Чебишева і формули Гаусса.
курсовая работа [157,2 K], добавлен 03.12.2009Реалізація сегментації позичальників методом карт Кохонена за допомогою пакету Deductor Studio. Послідовність дій, які необхідно провести для аналізу даних у Deductor Studio. Результат сегментації на картах Кохонена та характеристика кожного сегменту.
контрольная работа [1017,1 K], добавлен 29.09.2010Застосування симплекс-методу для розв’язання оптимізаційних задач лінійного програмування, що містять три змінні. Функції ітераційної обчислювальної процедури, що виконують приведення до зручного для розв’язання оптимального вигляду ЗЛП за кілька кроків.
курсовая работа [359,5 K], добавлен 18.09.2013Опис програми "Мала експертна система": класифікація, основні задачі; використання байєсівської системи логічного виведення. Опис програми "Редактор баз знань", її застосування. Створення власної БД з чіткою логікою та двома можливими результатами.
лабораторная работа [491,9 K], добавлен 20.03.2011Розв’язання нелінійних алгебраїчних рівнянь методом дихотомії. Вирішення задачі знаходження коренів рівняння. Розробка алгоритму розв’язання задачі і тестового прикладу. Блок-схеми алгоритмів основних функцій. Інструкція користувача програмою мовою С++.
курсовая работа [2,0 M], добавлен 24.09.2010Стандартний спосіб розв’язання задачі Коші для звичайного диференціального рівняння першого порядку чисельними однокроковими методами. Геометричний зміст методу Ейлера. Побудова графіку інтегральної кривої. Особливість оцінки похибки за методом Рунге.
курсовая работа [112,9 K], добавлен 30.11.2009Загальні відомості та геометричний зміст розв'язання задачі Коші. Використання методу Ейлера для розв'язання звичайних диференціальних рівнянь першого порядку. Розробка блок-схеми та реалізація алгоритму в середовищі програмування Borland Delphi 7.0.
курсовая работа [398,1 K], добавлен 14.10.2012Аналіз мережевих протоколів та їх основних параметрів. Описання алгоритму розв’язання задач написання мережевих програм, та реалізація їх на базі Winsock. Створення простого чату для передачі повідомлень користувачів, на основі протоколів IEEE та ISO.
курсовая работа [86,1 K], добавлен 17.06.2015Особливість знаходження найкоротшого шляху між кожною парою вершин у графі. Формалізація алгоритму Флойда-Уоршелла. Багатократне застосування алгоритму Дейкстри з послідовним вибором кожної вершини графу. Аналіз допущення наявності дуг з від’ємною вагою.
отчет по практике [151,8 K], добавлен 04.12.2021Розробка програмних модулів базових операцій обробки на підставі розрядно-логарифмічного кодування. Дослідження алгоритму розв'язку системи лінійних алгебраїчних рівнянь. Реалізація алгоритму Гауса. Покращення точності розрахунків за допомогою рл-чисел.
курсовая работа [427,2 K], добавлен 20.11.2013Специфіка та процес розробки ігрового застосування до мобільного пристрою. Діаграма послідовності варіантів використання, класів, таблиці. Середовище розробки NetBeans IDE. Рекомендації по встановленню та налаштуванню гри "Астероїди", текст застосування.
курсовая работа [2,9 M], добавлен 21.01.2013Побудова інформаційної системи, що буде слугувати для автоматизації процесу захисту персональних даних клієнтів банку. Вибір методу проектування архітектури та моделі функціонування системи. Перелік масивів, використовуваних під час розв’язання задачі.
дипломная работа [1,8 M], добавлен 02.06.2017Принципи обліку потоку рідини або газу та застосування вихрового потоковимірювача. Приймачі-перетворювачі вихрових коливань, застосування моделей шумів та фільтрів для них для розширення діапазону вимірювань. Визначення частоти синусоїдального сигналу.
дипломная работа [2,2 M], добавлен 29.06.2009Поняття черги в програмуванні, основні операції з чергою і їх реалізація. Опис алгоритму й специфікація програми. Розробка додатку з використанням задачі Ларсона по опису зв'язного неорієнтованого графа. Алгоритм розв’язку і результати виконання програми.
курсовая работа [1,1 M], добавлен 14.09.2012