Социальный скоринг

Изучение нового подхода к классификации клиента методом кредитного скоринга на основе данных из профайлов социальных сетей. Определение особенностей взаимодействия с социальной сетью, как новым источником персональных данных в кредитном процессе.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 29.04.2017
Размер файла 22,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

На сегодняшний день многие кредитные организации стремятся понять, кем в действительности является их клиент, какие на самом деле он преследует цели при обращении за кредитом и каковы его потребности в настоящий момент времени. кредитный скоринг социальный сеть

Эффективно исследуя эти три вопроса, кредитная организация с успехом может качественно реализовать задачи выдачи кредита, сопровождения кредита, наращивания кредитного портфеля за счет имеющихся и новых клиентов.

Несмотря на то, что, даже, используя дорогие и мощные кредитно-скоринговые системы, грамотно выстроенные бизнес-процессы, обладая хорошей методологией, кредитные организации не всегда получают информацию, достаточную для принятия верных решений в процессе потребительского кредитования. И причиной этому служит то, что качество и количество данных не достаточно высоко для выявления в них нужной и желаемой информации. Большинство кредитных организаций ограничиваются тем, что собирают информацию только из традиционно установленных и широко признанных источников: анкет-заявлений, бюро кредитных историй, справочников служб безопасности и других внутренних и внешних списков. Все это зачастую не позволяет провести глубокий и точный анализа клиента по причине того, что данные полученные со слов клиента не всегда могут иметь достоверность; данных, полученных из внешних источников, бывает не достаточно для принятия решения; служба безопасности, как правило, не раскрывает полученную при проверки информацию, ограничиваясь лишь результатом проведенной экспертизы.

Изучая сложившуюся ситуацию, встал вопрос о необходимости выявления таких источников данных, где клиент сам мог бы рассказать о себе, причем без необходимости заведомого искажения информации, а также, чтобы эти источники были доступными и могли законно использоваться кредитными организациями.

В связи с тем, что популярные социальные сети весьма задействованы в повседневной жизни большинством людей, было предложено рассмотреть их в качестве новых нетривиальных источников данных. При взаимодействии пользователей в социальной сети неизбежен обмен типами ресурсов или потоков (капитала, информации, технологий, изображений, звуков, символов и т.д.) вокруг которых построено все общество. Сознательно или нет, пользователи предоставляют материал для оценки рисков, сообщая массу информации -- начиная от смены семейного положения или работодателя и заканчивая сведениями о покупках или месте отдыха. Все это отлично иллюстрирует возможную кредитоспособность человека.

На основании изученной информации была вынесено решение о формировании рабочей группы для разработки программы по взаимодействию с социальными сетями, как новыми источниками данных. Подобная разработка способна модифицировать имеющуюся кредитно-скоринговую систему и, тем самым, позволит снизить кредитный риск. Проект получил название «Социальный скоринг», а в рамках его реализации, перед нами были поставлены следующие задачи:

1) Определить социальные сети, которые будут задействованы в процессе извлечения данных по профайлу клиента.

2) Найти способы и методы извлечения данных.

3) Определить доступность и ценность данных.

4) Провести трансформацию данных.

5) Решить задачу анализа.

Дальнейшее разъяснение проекта изложено по всем приведенным выше пунктам.

В рамках выбора социальной сети, в качестве нового источника данных необходимо руководствоваться такими критериями как: популярность социальной сети среди клиентов кредитной организации, доступность получения данных, набор предоставляемых данных и качество самих данных.

Востребованность той или иной социальной сети была определена как экспертным методом, так и на основе статистики, полученной из карточек клиентов. Доступность получения данных проверялась на основе размещенной информации об API на страницах сайтов социальных сетей [9]. Качество данных проверялось в течение реализации проекта и основывалось на заключениях экспертов-аналитиков.

Руководствуясь данными критериями, в период реализации проекта, было выявлено, что самым привлекательным источником данных является социальная сеть «В контакте», так как предоставляет широкий спектр данных, и при этом является популярной социальной сетью среди наших клиентов. Таким образом, используя данную социальную сеть, появляется высокая вероятность получения дополнительных данных по клиентам.

Следующим выбором, в качестве источника данных, стала социальная сеть «Facebook», которая уступает по популярности среди клиентов, но, тем не менее, по массиву получаемых данных приближена к «В контакте». Следовательно, по определенной категории людей всегда есть возможность получить хороший дополнительный набор данных.

Так как проект ориентирован на российского потребителя, еще одним источником данных была рассмотрена социальная сеть «Одноклассники», которая достаточно популярно используется среди клиентов, но относительно получаемого объема данных сильно уступает двум предыдущим.

Определившись со списком задействованных социальных сетей, следующим шагом стала необходимость определить, каким образом будут получены данные по клиентам.

Для того чтобы начать процесс получения данных по клиенту, необходимо реализовать три составляющие: во-первых, запросить администрацию социальной сети о предоставлении доступа к рабочей области, во-вторых, разработать приложение, которое будет способствовать извлечению данных и, наконец, определить программу стимулирования пользователя разрешить доступ к извлечению его персональных данных.

Каждая социальная сеть предоставляет разработчику, после соответствующей регистрации, доступ к рабочей области, где может быть разработано приложение и введено в опытно-промышленную эксплуатацию.

Выбирая разработчика приложения, следует учитывать тот факт, что список доступных данных, как и сами методы извлечения, может меняться, и это влечет за собой немедленное обновление функционала программы. Следовательно, понадобится постоянное сопровождение приложения. Таким образом, предпочтительнее иметь собственную команду программистов, нежели отдавать разработку на аутсорсинг.

Так как метод извлечения данных ориентирован на онлайн-аудиторию, следовательно, посредником между клиентом и приложением может выступать онлайн-заявка на кредит, с возможностью последующей авторизацией через приложение.

В качестве стимулирования клиента к действию по авторизации были предложены следующие маркетинговые ходы:

- Понижение процентной ставки;

- Снижение времени обработки заявки;

- Повышение максимальной суммы и срока по кредиту.

Пользователю предоставляется возможность авторизоваться через несколько социальных сетей в рамках одной заявки.

Метод извлечения данных был определен исходя из возможностей, предоставляемых социальными сетями. Так как каждая социальная сеть специфична по своей структуре, независима и не связана с остальными: имеет разное ограниченное время доступа, методы извлечения и набор извлекаемых данных, следовательно, потребовалась разработка трех приложений под каждую социальную сеть отдельно.

Запрос и извлечение данных реализован по открытому протоколу авторизации OAuth 2.0, по причине того, что данный протокол позволяет обращаться к данным профайла в автономном режиме в течение разрешенного времени, даже после закрытия пользователем браузера или ухода со страницы заявки. Таким образом, при получении большого массива данных, нет необходимости задерживать пользователя на форме заявки до момента завершения загрузки данных.

Предоставленный социальной сетью доступ к среде разработки приложения позволяет моментально проводить тестирование, определять доступность и ценность данных, выявлять и устранять замечания, а в случае необходимости, переопределять функциональные требования и вносить соответствующие изменения.

В процессе разработки приложения необходимо учитывать некоторые факторы, которые существенно влияют на процесс взаимодействия с новыми источниками данных.

Во-первых, не все данные профайла, указанные в документации API социальных сетей, как доступные, получается задействовать в действительности. Это обуславливается тем, что администрация социальной сети закрывает доступ к данным или вносит определенные корректировки без своевременного отражения этих изменений в документации и какого-либо оповещения об этом самих разработчиков приложения. При этом нам приходилось как можно чаще отслеживать подобного рода изменения, чтобы фиксировать их в уже сформированном наборе получаемых данных. Во-вторых, необходимо учитывать производительность приложения при написании алгоритма, так как социальные сети ограничивают срок доступа к извлечению данных. Как правило, доступ предоставляется до суток в зависимости от политики социальной сети.

Учитывая описанные ограничения доступности данных, так же приходится принимать во внимания факторы, влияющие на ценность данных. В процессе эксперимента нами были выявлены наиболее часто встречающиеся факторы, искажающие качество данных. Во-первых, встречается недостоверная или противоречивая информация. К примеру, это могут быть недействительные контактные данные, фамилия и имя, дата рождения, образование, место работы и др. Во-вторых, зачастую указывается неполная информация. Так же примером может выступать дата рождения, указанная без года или какое-либо поле имеет пустое значение. Такие данные предлагается либо обогащать за счет указанной информации в карточки клиента, либо исключать, но предварительно используя алгоритм верификации данных (к примеру, соответствие номера телефона маске семизначного ввода и др.).

Массив извлекаемых данных характеризуется набором свойств, которые могут повлиять на эффективность работы модели и снизить достоверность результатов анализа. Факторами, ухудшающими качество данных, могут являться дубликаты, противоречия, шумы, аномальные значения, пропуски т.д. Данные могут быть разброшены, неупорядочены, представлены в форматах, с которыми не работает тот или иной алгоритм. Трансформация данных, то есть их преобразование к определенному представлению, формату и виду, оптимальному с точки зрения решаемой задачи, призвана решить эту проблему [3].

Процессу трансформации отводится достаточно большое количество времени в проекте. Так как качество данных имеет определяющее значение на эффективность результата, именно поэтому, большое внимание уделялось обследованию получаемых данных и их преобразованию. В эксперименте к данным применялись следующие методы трансформации:

- Квантование (разбиение диапазона возможных значений числового признака на конечное количество интервалов);

- Группировка (обобщение нужной информации, объединение ее в минимально необходимое количество полей и значений);

- Настройка набора данных (преобразование типов данных, имен, названий и меток полей);

- Вычисляемые значения (расчет новых данных на основе полученных данных);

- Нормализация и кодирование (преобразование данных к числовому виду);

- Слияние (обогащение данных одной совокупности данными из другой совокупности);

- Подстановка значений (замена одних значений другими).

В процессе обработки и анализа данных по профайлам определялись наиболее качественные, пригодные к использованию, показатели. Список показателей определялся исходя из специфики решаемой задачи.

В данной статье рассматривается трансформация с точки зрения анализ данных алгоритмами аналитической системы, не затрагивая преобразование данных в процессе ETL (extraction, transforming, loading) [3]. Этому процессу стоит посвятить отдельную тему и рассмотреть его с технической стороны. Хочу заметить лишь то, что структура хранилища предполагала консолидацию данных из всех задействованных социальных сетей, учитывая тот факт, что один клиент мог авторизоваться в каждой из указанных социальных сетей.

Поле «Социальная сеть» указывает на присутствие данных в определенной социальной сети. Поле «Метод» демонстрирует методы, применяемые к данным на этапе трансформации. В процессе преобразования к одному полю могли быть применены несколько методов трансформации. Поле «Результат» объясняет результат преобразования данных. Все представленные поля являются предикторами при решении задач анализа.

В рамках проекта «Социальный скоринг» была поставлена задача классификации клиента по типу платежеспособности с помощью статистических моделей. В основе задачи заложено понимание, что люди со схожими социально-демографическими характеристиками, привычками, статусом, стилем жизни, социальными ролями обладают схожим поведением.

Так как предполагалось построение модели на исторической совокупности данных, которая была бы способна предсказать поведение нового клиента в будущем на основе оценки его профайла в социальной сети и отнести его в определенную категорию качества, был рассмотрен метод скоринга с использованием статистического инструмента - логистическая регрессия. Логистическая регрессия позволяет не только отнести клиента к определенному классу, но также определить «степень уверенности» классификации, т.е. количественно оценить степень принадлежности клиента к определенной категории [10].

Первые результаты наблюдения были получены спустя год, за который была сформирована генеральную совокупность из 1068 заявок, имеющих статус «Кредит выдан» и состоящих из клиентов, прошедших авторизацию через социальную сеть Facebook. В качестве входных параметров были использованы показатели, приведенные в таблице 1. Стоит отметить, что список сформирован из максимального числа уникальных значимых переменных под воздействием корреляционного и факторного анализа.

Выходная зависимая переменная бинарного типа была определена, основываясь на оценке жизненного цикла кредита. Положительное значение «0» - переменная принимала в том случае, если у клиента за весь срок пользования кредитом не возникала просрочка 60+ в течение первых 8 месяцев, в таком случае клиент является «хороший», иначе переменная принимала значение «1» - «плохой» клиент [2]. Первый опыт проведения социального скоринга над договорами с жизненным циклом не менее 8 месяцев объясняется следующей ситуацией. Во-первых, данные в профайле социальных сетях достаточно быстро подвергаются изменениям, во-вторых, за первые 4 месяца было собрано достаточное для анализа количество записей, и наконец, необходимость постоянного отслеживания качества модели, определения эффективности ее работы, фиксирования результатов и осуществления корректировки и переобучения.

Вся генеральная совокупность была поделена на обучающее и тестовое множество в процентном соотношении 75/25 соответственно.

По результатам анализа модель на тестовом множестве смогла верно классифицировать клиентов в 79% случаях.

В качестве графика, позволяющего оценить качество бинарной классификации, была построена ROC-кривая, которая отображает соотношение между долей верных положительных классификаций от общего числа положительных классификаций (называемой чувствительностью алгоритма классификации, Se) с долей ошибочных положительных классификаций от общего числа отрицательных классификаций (называемой специфичностью алгоритма классификации, Sp) [10]. Идеальная модель обладает 100% специфичность и чувствительностью. Однако на практике добиться этого невозможно, более того, невозможно одновременно повысить и чувствительность, и специфичность модели. Тем не менее, при решении задачи, с помощью нахождения оптимального порога отсечения (optimal cut-off value) был установлен компромисс, при котором оба показателя получают максимально возможные для себя значения: Sp = 80,8 и Se=81,7.

Для идеального классификатора график ROC-кривой проходит через верхний левый угол, где доля истинно положительных случаев составляет 100% или 1.0 (идеальная чувствительность), а доля ложно положительных примеров равна нулю. Поэтому чем ближе кривая к верхнему левому углу, тем выше предсказательная способность модели. Наоборот, чем меньше изгиб кривой и чем ближе она расположена к диагональной прямой, тем менее эффективна модель. Диагональная линия соответствует "бесполезному" классификатору, т.е. полной неразличимости двух классов [10].

Количественную интерпретацию ROC-кривой даёт показатель AUC (площадь под ROC-кривой), который представляет собой площадь, ограниченную ROC-кривой и осью доли ложных положительных классификаций. Считается, что чем выше показатель AUC, тем качественнее классификатор. В эксперименте с классификацией коэффициент AUC равен 0,89, это значение объясняет очень хорошие прогностические силы модели [10].

Социальный скоринг в потребительском кредитовании по своему происхождению очень схож с аппликационным скорингом (application scoring), но есть существенное отличие в обрабатываемых данных. Аппликационным скорингом оценивается не заемщик, а его ответы на вопросы, указанные в анкете-заявлении. Многие полученные таким образом характеристики могут оказаться недостоверными или небрежно заполненными. Очень часто клиенты не придают особого значения различным «не существенным» вопросам. Также зачастую у клиента возникает желание завысить свои определяющие характеристики, чтобы повысить степень доверия кредитной организации на получение ссуды. Еще одним интересным фактом служит причины мошеннических действий, когда клиент умышленно искажает информацию о себе и своих намерениях.

Но в повседневной жизни заемщик может иметь совсем разные цели, интересы и желания, не связанные с получением ссуды в кредитной организации. Использование такого источника информации, как социальная сеть, дает преимущество оценить клиента и его поведение более объективно в течение продолжительного времени, не учитывая его конкретные намерения в текущий момент.

Кроме того, как показала практика, заемщики, которые предоставляли доступ к данным по профайлу, оказывались более ответственными и платежеспособными, чем заемщики, отказавшиеся от авторизации через приложение.

Таким образом, эксперимент показал, что использование социальных сетей имеет ряд преимуществ в потребительском кредитовании при задачах прогнозирования поведения клиента и классификации его к определенной группе с точки зрения платежеспособности.

Данная модель должна оказаться полезной кредитно-финансовым организациям, в которых основным или сопутствующим инструментом в принятии решения по кредитной заявке является скоринговая оценка клиента. Многие кредитные учреждения могут использовать социальный скоринг как инструмент для обогащения информации по заемщику дополнительными сведениями. А также использование профайла пользователя позволяет выстроить еще один интерактивный канал взаимодействия с клиентом.

Список литературы

1. Ишина И.В. Скоринг - модель оценки кредитного риска // Аудит и финансовый анализ. 2007. № 4.

2. Мэйз Э. Руководство по кредитному скорингу. - Минск. Издательство «ГревцовПаблишер», 2008 - 464 с.

3. Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям. Учеб. пособие. -- 2-е изд., испр. - СПб.: Питер, 2013.

4. В. А. Филиппов. Интеллектуальный анализ данных: методы и средства. Издательство «Едиториал УРСС», 2001. - 52 с.

5. Сазанов В.М. Социальные сети и технологии (Интеллектуальный Интернет). - Москва. 2010 - 214 с.

6. Барановская Т. П., Лойко В. И., Семенов М. И., Трубилин А. И. Информационные системы и технологии в экономике. Издательство «Финансы и статистика», 2006. - 416 с.

7. Скиба С.А., Лойко В.И. Современный подход к оценке платежеспособности клиента при кредитовании // Научный журнал КубГАУ, №81(07), 2012 года. С 1-11.

8. Скиба С.А. Коллекторский скоринг, как инструмент управления дебиторской задолженностью // Наука Кубани. 2013. С 1-10.

9. Graph API Facebook. [Электронный ресурс.] Режим доступа: https://developers.facebook.com/docs/reference/api/

10. Логистическая регрессия и ROC-анализ - математический аппарат. [Электронный ресурс.] Режим доступа: http://www.basegroup.ru/library/analysis/regression/logistic/

Размещено на Allbest.ru

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.