Моделирование оттока клиентов в телекоммуникационной компании

Проведение исследования проблемы оттока клиентов в различных сферах и анализ распространенных методов машинного обучения, направленных на решение данной задачи. Особенность прогнозирования оттока в банковской сфере. Критерии оценки качества моделей.

Рубрика Маркетинг, реклама и торговля
Вид дипломная работа
Язык русский
Дата добавления 14.07.2020
Размер файла 563,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Ранее было упомянуто, что дополнительные сгенерированные показатели могут иметь высокую важность в модели. Однако если включать все доступные показатели, которые могут быть важны, модель может иметь низкое качество. Таким образом, необходимо отобрать значимые предикторы для построения модели (feature selection).

Для этого используется метод SelectKBest, который оставляет k значимых предикторов. Для задач классификации используется метод f_classif (библиотека scikit-learn), который основан на F-тесте и оценивает степень линейной зависимости между двумя случайными переменными.

В Приложении 1 показан процесс отбора значимых признаков, которые условно можно разделить на три категории информации о клиенте - общая, о платежном поведении и трафике клиента. Большинство предикторов можно описать следующей логикой: максимальные, минимальные, суммарные и помесячные значения показателей. Было отобрано 266 предикторов, которые в общем виде представлены в Таблице 4.

Таблица 4 Предикторы для моделирования

Информация о клиенте

Общая

Платежное поведение

Трафик

Идентификатор клиента

Баланс на конец месяца

Количество дней без трафика

Количество дней активности договора

Скидки клиента

Количество дней без активности

Факт ухода в деактивацию в предыдущие периоды

АРПУ

Количество дней без трафика с определенных ОС

9. Описание используемых алгоритмов

Градиентный бустинг

Поскольку градиентный бустинг был выбран как один из методов для построения модели оттока клиентов, необходимо рассмотреть алгоритм, лежащий в его основе, и его особенности. Начнем с того, что бустинг предполагает наличие базового или слабого алгоритма обучения, который, учитывая обучающие примеры, создает базовый или слабый классификатор. Цель бустинга состоит в том, чтобы улучшить производительность слабого алгоритма обучения, рассматривая его как «черный ящик», который можно вызывать многократно, но без возможности просмотра и изменения (Schapire R., 2012).

Следует уточнить, что в данном исследовании при моделировании будет применяться бустинг над деревьями решений, то есть в основе базового алгоритма - деревья решений. Так как решается задача классификации, то в итоге алгоритм должен определить принадлежность целевой переменной к классу 0 или 1. Таким образом, алгоритм будет восстанавливать зависимость целевой переменной от предикторов.

Для наглядности метода на Рис. 2. Представлена схема работы градиентного бустинга над деревьями решений.

Рис. 2. Схема работы градиентного бустинга

Предположим, что темно-серая область отвечает за положительный классификатор, а светло-серая за отрицательный. Под итерацией 1 понимается первое дерево решений, в котором присутствуют ошибки: некоторые положительные классификаторы определились как отрицательные. На второй итерации (дерево 2) исправлены данные ошибки, но появились другие: некоторые отрицательные классификаторы определились как положительные. Третья итерация (дерево 3) так же не исправляет все ошибочные распределения классификаторов. В таком случае все три итерации ложатся в основу итоговой модели, которая учитывает ошибки базового алгоритма.

Рассмотрим алгоритм градиентного бустинга над деревьями решений. В первую очередь необходимо учитывать, что каждое дерево имеет J листовых вершин, соответствующие J непересекающимся областям , на которые разбивается пространство объектов X. Каждой вершине дерева соответствует значение , что определяется следующей формулой:

,

где I[A] - индикатор события A.

Далее (формула 6) показывает, как добавляются слагаемые для формирования условий для градиентного бустинга.

,

,

Затем возникает необходимость определения оптимальных значений для областей.

,

Учитывая, что области не имеют пересечений, следующая формула выглядит таким образом:

,

Таким образом, это определяет отличие стандартного градиентного бустинга от бустинга над деревьями решений, так как вместо линейного поиска коэффициента, используются новые параметры дерева с фиксированными областями.

В данном случае, после применения функции потерь оптимальные параметры деревьев будут учтены как:

,

Использование данного алгоритма дает хорошее качества поскольку обновление параметров представлено взятием медианных значений, которые устойчивы к выбросам (Breiman L., Friedman J., Olshen R., Stone C., 1983).

Преимуществом градиентного бустинга является то, что он дает хорошее качество моделей за счет того, что учитывает ошибки базовых методов и функцию потерь, тем самым улучшая предсказательную силу. Однако имеет и свои недостатки. Если использовать в основе ресурсоемкие алгоритмы, то модель будет очень долго обучаться. Также необходимо учитывать тот факт, что результаты моделей на основе градиентного бустинга сложно интерпретируемы, поскольку учитывается большое количество базовых алгоритмов.

Логистическая регрессия

Логистическую регрессию можно назвать базовым методом для решения задач бинарной классификации, в основе которого лежит линейный дискриминант Фишера. Поскольку решается задача бинарной классификации, подразумевается, что модель прогнозирует значения классов 0 или 1. Но особенностью логистической регрессии является то, что с помощью нее производится предсказание не числовое, а вероятностное. Имеется в виду, что прогноз производится на основе вероятности того, что целевая переменная относится к определенному классу (Andrew Ng. Stanford CS229 Lecture Notes, n.d.). Логистическая функция выглядит следующим образом:

,

Для определения вероятности того, что некоторый объект принадлежит к определенному классу используется логистическая функция от произведения транспонированного вектора оцененных параметров модели и векторов объясняющих переменных, что можно записать следующим образом:

,

Таким образом,

,

В данном алгоритме подбор параметров осуществляется при помощи максимизации функции правдоподобия:

,

Однако удобнее максимизировать логарифм данной функции:

,

На практике применяется метод градиентного спуска.

Рис. 3. Пример распределения классов с помощью логистической регрессии

Таким образом, логистическая регрессия чаще имеет высокую точность предсказания, а также плюсом является то, что результаты легко интерпретируемы. Однако слабой стороной данного метода является возможность переобучения.

В этой главе была представлена методология исследования. Был выбран критерий, используемый для оценки качества моделей, дано описание данных, источников данных (витрин). Также был описан процесс генерирования новых показателей на основе имеющихся и выбор значимых предикторов. В завершение были представлены методы, использующиеся для построения моделей.

10. Результаты моделирования

На основании изученной литературы было выбрано два алгоритма для решения задачи моделирования оттока - градиентный бустинг и логистическая регрессия. Рассмотрим результаты каждого из них.

Градиентный бустинг

Для построения модели, прогнозирующей отток, с помощью алгоритма градиентный бустинг, была использована библиотека scikit-learn. Поскольку использование градиентного бустинга не предполагает обязательную работу с выбросами и несбалансированностью классов, на вход были поданы данные с декабря по февраль, в которых пустые значения были заменены на медиану. Далее данные были рандомным образом (70/30) разделены на тренировочную выборку (113 971) и тестовую (48 845).

Параметры для построения модели были выбраны методом подбора. Полный список представлен в Приложении 2. Рассмотрим основные из них:

max_depth = 3, максимальная глубина дерева. Увеличение этого значения делает модель более сложной и ресурсоемкой.

eta = 0,1, параметр от 0 до 1, показывающий вес каждого шага.

Для оценки качества данной модели рассмотрим матрицу ошибок.

Таблица 5 Матрица ошибок (confusion matrix), градиентный бустинг

Предсказание

Реальность

Не оттечет

Оттечет

Не оттечет

TN = 17 911

FP = 22 535

Оттечет

FN = 734

TP =7 665

Таким образом, модель хорошо предсказывает тех, кто не оттечет. Тем не менее, ее слабая сторона в том, что многих клиентов она предсказывает как отточных, но они не оттекают. Показатель качества, который был выбран для оценки модели выглядят следующим образом:

Логистическая регрессия

Для построения модели, прогнозирующей отток, с помощью метода логистическая регрессия, была также использована библиотека scikit-learn. На вход были поданы аналогичные данные, как и для градиентного бустинга, однако дополнительно были исключены предикторы со значением

value > 0,05. Таким образом, для моделирования осталось 34 показателя. Построение модели отображено в Приложении 3.

Для оценки качества данной модели рассмотрим матрицу ошибок.

Таблица 6 Матрица ошибок (confusion matrix), логистическая регрессия

Предсказание

Реальность

Не оттечет

Оттечет

Не оттечет

TN = 39 964

FP= 482

Оттечет

FN = 8 270

TP = 129

Таким образом, модель хорошо предсказывает тех, кто не оттечет, однако ошибка первого рода (FN) слишком велика.

Показатель качества для модели выглядят следующим образом:

,

Сравнение моделей

В результате проделанной работы было построено две модели, предсказывающие отток в телекоммуникационной компании, методами машинного обучения: градиентный бустинг и логистическая регрессия. Модели были оценены с помощью критерия полноты (recall) - критерий, который учитывает ошибку первого рода: отнесение отказавшихся клиентов к лояльным. Таким образом, наилучшим методом для целей компании является градиентный бустинг, со значением recall = 0,91.

Полученные в ходе работы результаты совпадают с результатами исследования (Lu, Lin et al., 2014), поскольку авторы пришли к выводу, что градиентный бустинг дает более точные результаты, чем логистическая регрессия. В работе (Coussement, Lessmann et al., 2017) указано, что логистическая регрессия конкурирует с бустингом и может показать наилучший результат. Тем не менее, на наших данных этот результат не подтвердился.

Заключение

Целью данного исследования являлось построение модели, прогнозирующей отток, с помощью методов машинного обучения.

В ходе анализа литературы были выделены два релевантных метода для прогнозирования оттока - логистическая регрессия и градиентный бустинг. Оценивание моделей было осуществлено на основании выбранного критерия - полноты (recall), который учитывает ошибку первого рода. Ожидалось, что логистическая регрессия может иметь предсказательную силу не хуже, чем градиентный бустинг, поскольку это базовый и широко распространенный метод для решения задач классификации. Однако построенная модель при помощи этого алгоритма не показала ожидаемых результатов. С точки зрения бизнес-цели, а именно минимальной ошибки первого рода, эта модель оказалась нерелевантной. В то время как градиентный бустинг показал более точную предсказательную силу, что не удивительно, поскольку он является более продвинутым методом и включает в себя несколько итераций используемых алгоритмов, при этом на каждом этапе улучшая их. Исходя из этого, градиентный бустинг можно порекомендовать для построения модели оттока на выбранном сегменте в телекоммуникационной компании.

Однако полученные результаты не означают, что на любых сегментах стоит использовать именно градиентный бустинг. В любом случае необходимо также сравнивать несколько методов машинного обучения, чтобы определить наилучший, который будет хорошо работать на имеющихся данных. Несмотря на то, что для данной работы были выбраны два достаточно базовых алгоритма для прогнозирования оттока за последнее время, эти методы показали совершенно разные результаты.

Стоит отметить, что есть возможность улучшить качество текущих моделей, если сделать более тщательную предобработку данных перед моделированием. Поскольку выборка несбалансированная, можно использовать комбинацию удаления примеров мажоритарного класса (undersampling) или дублирование примеров миноритарного класса (oversampling). Также для устранения несбалансированности может быть использован алгоритм SMOTE, который генерирует некоторое количество искусственных примеров, «похожих» на имеющиеся в миноритарном классе, но при этом не дублирующих их.

Список литературы

1. Карякина A.A, Мельников A.B., 2017. Сравнение моделеи? прогнозирования оттока клиентов интернет-проваи?деров. Машинное обучение и анализ данных, 3(4).

2. Березинец И.В., Ильина Ю.Б., Черкасская А.Д., 2013. Структура совета директоров и финансовая результативность российских открытых акфионерных обществ. Вестник С.-Петерб. ун-та. Сер. Менеджмент, Issue 2.

3. Бессмертный И., Нугуманова А., Платонов А., 2018. В: Интеллектуальные системы. Учебник и практикум для СПО. Москва: Юрайт, p. 108.

4. Пальмов С.В., Кораблин М.А., 2005. Сравнение прогностических возможностей алгоритмов поддержки принятия решений при определении лояльности клиента в компании-оператора сотовой связи. Мобильные системы7, Том 8, pp. 32-35.

5. Ali Ц., Arэtьrk U., 2014. Dynamic churn prediction framework with more effective use of rare event data: The case of private banking. Expert Systems with Applications: An International Journal, 41(17), pp. 7889-7903.

6. Andrew Ng. Stanford CS229 Lecture Notes, б.д. б.м.: б.н.

7. Anil Kumar D., Ravi V., 2008. Predicting credit card customer churn in banks using data mining. Int J Data Anal Tech Strateg, Том 1, pp. 4-28.

8. Bolance C., Guillen M., 2016. Predicting Probability of Customer Churn in Insurance from book Modeling and Simulation in Engineering. Teruel, Spain, Economics and Management: International Conference.

9. Breiman L., Friedman J., Olshen R., Stone C., 1983. Classification and Regression Trees. Wadsworth: б.н.

10. Coussement K., De Bock K., 2013. Customer churn prediction in the online gambling industry: The beneficial effect of ensemble learning. Journal of Business Research, 66(9), pp. 1629-1636.

11. Coussement K., Lessmann S., Verstraeten G., 2017. A Comparative Analysis of Data Preparation Algorithms for Customer Churn Prediction: A Case Study in the Telecommunication Industry. Decision Support Systems, Том 95, pp. 27-36.

12. Devi Prasad, U. and Madhavi, S., 2012. Prediction of churn behavior of bank customers using data mining tools. Business Intelligence Journal, 5(1).

13. Farquad M., Ravi V., Raju S., 2014. Churn prediction using comprehensible support vector machine: An analytical CRM application. Appl Soft Comput, Том 19, pp. 31-40.

14. Hadden J, Tiwaria A, Roy R, Ruta D, 2005. Computer assisted customer churn management: State-of-the-art and future trends. Comput Oper Res, Том 34, p. 2902-2917.

15. Huang, B., Kechadi, M.T. and Buckley, B., 2012. Customer churn prediction in telecommunications. Expert Systems with Applications, Том 39, pp. 1414-1425.

16. Huang, B.Q., Kechadi, T.M., Buckley, B., Kiernan, G., Keogh, E. and Rashid, T., 2010. A new feature set with new window techniques for customer churn prediction in land-line telecommunications. Expert Systems with Applications, 37(5), pp. 3657-3665.

17. Huigevoort C., 2015. Customer churn prediction for an insurance company, б.м.: б.н.

18. Ivanovic, S., Mikinac, K. and Perman, L., 2011. CRM development in hospitality companies for the purpose of increasing the competitiveness in the tourist market. UTMS Journal of Economics, 2(1), pp. 59-68.

19. Keramati A.; Ghaneei H.; Mirmohammadi S., 2016. Developing a prediction model for customer churn from electronic banking services using data mining. Financial Innovation, 2(10), pp. 1-13.

20. Keramati, A., Jafari-Marandi, R., Aliannejadi, M., Ahmadian, I., Mozzafari, M. and Abbasi, U., 2014. Improved churn prediction in telecommunication industry using data mining technique. Applied Soft Computing, Том 24, pp. 994-1012.

21. Khan A., Jamwal S., Sepehri M., 2010. Applying Data Mining to Customer Churn Prediction in an Internet Service Provider. International Journal of Computer Applications, 9(7).

22. Lu N., Lin H., Lu J., 2014. A Customer Churn Prediction Model in Telecom Industry Using Boosting. IEEE TRANSACTIONS ON INDUSTRIAL INFORMATICS, 10(2), pp. 1659-1665.

23. Mohammadi V.D., Albadvi A., Teymorpur B., 2014. Predicting customer churn using CLV in Insurance industry. Shiraz Journal of System Management, Том 5, pp. 39-49.

24. Morilk K., Kopcke H., 2004. Analysing customer churn in Insurance Data- a case study. Pisa, Italy, Knowledge Discovery in Databases.

25. Nie G., Rowe W., Zhang L., Tian Y., Shi Y., 2011. Credit card churn forecasting by logistic regression and decision tree. Expert Syst Appl, Том 38, p. 15273-15285.

26. Owczarczuk M, 2009. Churn models for prepaid customers in the cellular telecommunication industry using large data marts. Institute of Econometrics, Warsaw School of Economics Al. Niepodleglosc, Том 164, pp. 02-554.

27. Qureshi S., Rehman A., Qamar A., Kamal A., 2013. Telecommunication Subscribers' Churn Prediction Model Using Machine Learning, Islamabad, Pakistan: Ahsan Rehman Business Analytic Consultant IBM - Global Business Services.

28. Risselada H, Verhoef P, Bijmolt T., 2010. Staying power of churn prediction models. J Interact Mark, Том 24, p. 198-208.

29. Schapire R., 2012. Boosting. Foundations and Algorithms.

30. Sharma A., Panigrahi P., 2011. A neural network based approach for predicting customer churn in cellular network services. Int J Comput Appl, 27(11), pp. 26-31.

Приложение

Процесс отбора важных признаков

Построение модели градиентного бустинга с помощью xgboost

Построение модели методом «Логистическая регрессия»

Размещено на Allbest.ru

...

Подобные документы

  • Два подхода к объяснению термина "клиентоориентированность". Классификация клиентов ресторанного заведения. Различные факторы, которые могут повлиять на решение потребителя. Психологические типы клиентов. Категории клиентов на примере ресторана "Бархан".

    контрольная работа [30,4 K], добавлен 20.02.2014

  • Сегментация потребителей в сфере гостиничных услуг. План маркетингового исследования клиентов. Зависимость между уровнем доходов и потребительскими предпочтениями клиентов. Рекомендации по повышению качества обслуживания в гостинице "Маринс Парк Отель".

    курсовая работа [3,0 M], добавлен 17.05.2016

  • Особенности оценки качества услуг в ресторанном бизнесе. Проведение маркетингового анализа деятельности кафе "Сказка", расчет финансово-экономических показателей. Разработка рекомендаций по совершенствованию качества услуг и привлечению новых клиентов.

    дипломная работа [173,9 K], добавлен 11.04.2012

  • Особенности маркетинга компаний, осуществляющих свою деятельность в сфере услуг. Методы оценки качества обслуживания клиентов. Совершенствование внутреннего маркетинга ОАО "МТС Юг", система мотивации сотрудников и повышение качества обслуживания клиентов.

    дипломная работа [1,7 M], добавлен 03.11.2009

  • Управление отношениями с корпоративными клиентами как конкурентное преимущество современной компании. Исследование удовлетворенности корпоративных клиентов обслуживанием на примере компании ООО "Инком". Мероприятия по оптимизации обслуживания клиентов.

    дипломная работа [268,0 K], добавлен 26.01.2014

  • Сущность и значение ключевых клиентов компании. Управление механизмом принятия решения ключевых клиентов рекламного агентства "Модуль". Маркетинг взаимоотношений с ключевыми клиентами рекламного агентства. Алгоритм действий по привлечению клиентов.

    курсовая работа [406,8 K], добавлен 11.04.2017

  • Миссия компании, оценки аудитории со средним и высоким уровнем дохода, анализ конкурентной позиции. Маркетинговые мероприятия по привлечению новых клиентов, повышению лояльности к продуктам компании потребителей, увеличению реализацию продукции фирмы.

    курсовая работа [281,7 K], добавлен 02.06.2019

  • Поведенческие характеристики потребителей гостиничных услуг. Мотивы поведения потребителей. Поведение потребителей на рынке индустрии гостеприимства. Обследование клиентов и потенциальных клиентов гостиничного комплекса "Ангара" методом анкетирования.

    курсовая работа [48,3 K], добавлен 26.04.2008

  • Роль и место маркетинга в банковской сфере, его сущность, задачи и основные стратегии. Проведение анализа банковской маркетинговой деятельности на примере ОАО "Морской акционерный банк". Предложения и рекомендации по совершенствованию службы маркетинга.

    дипломная работа [148,4 K], добавлен 27.07.2010

  • Специфика и основные стратегии банковской рекламы. Обострение конкуренции и борьба за клиента. Планирование рекламы с учетом мотивов и ожиданий клиентов. Эффективность и общее продвижение в СМИ. Мотивационные факторы частных и корпоративных клиентов.

    курсовая работа [1,2 M], добавлен 09.06.2009

  • Рассмотрение типологии клиентов в розничной торговле. Стратегия расположения розничных торговых точек, анализ и оценка территории. Разработка интегрированной программы коммуникаций. Информационные маркетинговые стратегии, информирование клиентов.

    реферат [26,1 K], добавлен 02.12.2011

  • Информация об отеле и анализ его деятельности. Ценовая политика конкурентов. Маркетинговые техники привлечения новых клиентов. Особенности рекламы в гостиничном бизнесе. Каналы непрямого привлечения и удержания клиентов. Структура каналов дистрибуции.

    курсовая работа [427,8 K], добавлен 17.10.2016

  • Предпосылки возникновения программ лояльности и их применение на рынке В2В, принципы построения. Анализ системы работы компании Стройкомплект, направление JCB. Разработка проекта программы лояльности для существующих клиентов и потенциальных клиентов.

    курсовая работа [404,9 K], добавлен 24.04.2015

  • Значение оценки технологического совершенства обслуживания клиентов в коммерческом банке в условиях конкуренции. Принцип построения продуктовой линейки и реестра банковских услуг, их классификация. Критерии качества обслуживания клиентскими менеджерами.

    презентация [198,3 K], добавлен 16.09.2013

  • Анализ внешней и внутренней среды деятельности журнала страховой компании "Альфастрахование". Исследования конкурентной среды, портрет клиента. Разработка проекта развития компании и выстраивание верной PR-стратегии для повышения лояльности клиентов.

    курсовая работа [1,2 M], добавлен 10.10.2014

  • Сущность и этапы разработки маркетинговых коммуникаций, стадии покупательской готовности. Способы стимулирования клиентов: реклама, скидки, бесплатная доставка, дегустация, лотереи. Анализ используемых торговыми сетями методов привлечения потребителей.

    курсовая работа [3,1 M], добавлен 06.05.2013

  • Направления деятельности и организационная структура станции обслуживания ООО "Бэст Техник". Рассмотрение требований к менеджерам и сотрудникам компании. Расчет производственной программы СТО. Разработка рекомендаций по улучшению обслуживания клиентов.

    курсовая работа [168,1 K], добавлен 09.07.2014

  • Исследование рынка телекоммуникационных услуг в Российской Федерации. Характеристика уровня конкурентной борьбы в телекоммуникационной отрасли. Изучение структуры дочерних компаний ОАО "Ростелеком". Использование различных методов аналитики компании.

    курсовая работа [256,4 K], добавлен 03.12.2014

  • Разработка программы по развитию и удержанию клиентов (на примере ООО "Версаль" ресторан "Саранск"). Систематизация базы данных корпоративных клиентов, определение потенциала для дальнейшего сотрудничества. Сценарии реализации разработанной стратегии.

    курсовая работа [34,1 K], добавлен 15.11.2009

  • Особенности методологических разработок пиар-кампании. Обзор целевой аудитории Альфа-Банка. Направления оптимизации работы с клиентами. Анализ эффективности PR-программы. Оценка сильных и слабых сторон кампании, исследование влияния внешних факторов.

    курсовая работа [8,0 M], добавлен 19.03.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.