Бизнес-аналитика с использованием языка Python на примере страхования путешествий
На примере страхования путешествий рассматриваются методы прогнозной бизнес-аналитики с целью извлечения полезных бизнесу знаний для принятия решений в страховой компании. Отмечаются преимущества и потенциал прогнозной и предписательной бизнес-аналитики.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 16.02.2022 |
Размер файла | 1,6 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Бизнес-аналитика с использованием языка Python на примере страхования путешествий
М.В. Сучилина, С.В. Рындина
Аннотация
На примере страхования путешествий рассматриваются методы прогнозной бизнес-аналитики с целью извлечения полезных бизнесу знаний для принятия решений в страховой компании. Отмечается, что прогнозная и предписательная бизнес-аналитика обладают большим потенциалом для оптимизации и автоматизации операционной деятельности компании. Однако их использование во многих компаниях ограничено, несмотря на существующие бесплатные инструменты и платформенные решения.
Ключевые слова: бизнес-аналитика, прогнозная аналитика, страхование, метод ближайших соседей, логистическая регрессия.
В настоящее время предпринимательство является основой любой развитой экономики, но многие организации сталкиваются с рядом проблем, оказывающих серьезное негативное влияние на их деятельность. К числу таких организаций относятся и страховые компании, ориентирующиеся на страхование путешествий. Для страховых компаний необходим анализ собираемых данных о продажах туров и страховых полисов, что может помочь с решением задач повышения эффективности. В качестве программного про - дукта, позволяющего производить подобный анализ, можно назвать платформу Anaconda [1], являющуюся наиболее широко используемым дистрибутивом языка Python. Anaconda включает согласованный набор библиотек на языке Python, применяемых для исследования данных и машинного обучения.
Бизнес-аналитика используется во многих компаниях в основном для решения задач отчетности: мониторинга и контроля показателей деятельности. Зачастую отчетность при устоявшейся практике управленческих решений оказывается излишне подробной: в реальности решения принимаются на основе контроля динамики очень ограниченного числа собираемых данных. Иными словами, расходы на сбор и хранение данных осуществляются независимо от реальной отдачи от этих данных и приносимой ими пользы. Расходы, связанные с данными, постоянно растут, что обусловлено повышением требований к конфиденциальности, безопасности хранения, в том числе и закрепленных на законодательном уровне. Отказаться от сбора данных невозможно, обслуживать процессы, связанные с данными, - дорого. Поэтому компании вынуждены искать пути получения финансовой отдачи от собираемых данных не только для получения конкурентных преимуществ, но и для покрытия издержек на информационные процессы.
Существует ряд методов, использование которых для анализа реальных данных о клиентах и приобретаемых ими продуктах страховой компании дает возможность выявить зависимости и вероятности, связанные с показателями эффективности компании и уровнем ее продаж. Прогнозная и предписывающая аналитика данных позволяет организации на основе выявленных зависимостей корректировать свою операционную деятельность для формирования конкурентных предложений на рынке услуг.
К прогнозной бизнес-аналитике относятся метод поиска ближайших соседей, позволяющий предсказать, например, оптимальное значение комиссии страхового агентства, и логит-модель, дающая возможность предсказывать значения вероятности наступления какого-либо события, например поступления претензии, в зависимости от характеристик продукта страхования. бизнес аналитика страхование путешествие
Для страховых компаний важно мнение клиентов о работе организации, поэтому предсказание вероятности поступления претензий является актуальной практикой.
В свою очередь, анализ показателей прибыли, таких как сумма продаж полисов страхования путешествий или размер комиссии, получаемой агентством, позволяет вывести закономерности для транзакций и управлять доходом организации.
На сайте Kaggle [2] - платформе, созданной для поддержки исследования данных на основе машинного обучения, доступен набор открытых данных Travel Insurance [3], содержащий в себе 63 327 наблюдений о продажах страховых полисов туристической компании из Сингапура.
Набор данных Travel Insurance включает в себя следующие показатели:
- Agency - информация о наименовании агентства страхования;
- Agency Type - тип агентства по страхованию путешествий;
- Distribution Channel - канал распространения страховок для путешествий, принимающий значения online/offline;
- Product Name - наименование продуктов страхования путешествий ;
- Claim - наличие или отсутствие претензий клиентов ;
- Duration - продолжительность поездки в днях;
- Destination - пункт назначения путешествия;
- Net Sales - количественные данные о сумме продаж полисов страхования путешествий;
- Commission - комиссия, полученная агентством по страхованию путешествий ;
- Age - возраст застрахованного клиента.
Для набора данных страхования клиентов туристической компании используем метод ближайших соседей с целью выявления ценных для принятия бизнес-решений знаний.
Для языка Python существует несколько библиотек с классами и методами, поддерживающими анализ данных. Одна из наиболее полезных в разведочном анализе данных библиотек - pandas [4].
В Jupyter Notebook (входит в состав Anaconda) выполним следующий код для чтения данных из файла travel.csv, размещенного в директории, содержащей установленный дистрибутив Anaconda, в переменную travel_df, параметр sep определяет разделитель, который используется для данных в текстовом файле (результат на рис. 1):
Рис. 1. Результат выполнения кода
Проведем разведочный анализ данных, используя визуальное представление распределения данных каждого показателя с помощью функции pyplot() из библиотеки matplotlib [5].
Для показателя Age в данных обнаружилась аномальная совокупность наблюдений с возрастом 120 лет (рис. 2), визуализация выполнена с помощью кода:
Удалим из исходного набора наблюдения с возрастом более 90 лет и создадим новые фреймы данных: X - для предикторов (показателей, которые влияют на отклик), у - для отклика (результирующего, зависимого показателя). В качестве отклика у рассмотрим количественный показатель величины комиссии, остальные показатели будут в ы- ступать в роли предикторов.
Рис. 2. Визуализация значений переменной Age
Для дальнейшей работы с данными преобразуем категориальные показатели в фиктивные переменные с помощью метода get_dummies. Категориальные показатели описывают качественные параметры объектов (тип агентства, канал продаж и т.п.). Преобразование get_dummies позволяет перейти от текстового описания уровней показателей к меткам 0/1, определяющим то, что это значение уровня отсутствует у объекта или имеется в наличии.
Преобразуем категориальные переменные в X в числовые метки X=pd.get_dummies(X, drop_fi rst=T rue)
Метод ближайших соседей - это ленивый классификатор, фактически его работа начинается в момент поступления новых немаркированных данных. Поэтому выполним разбиение исходных данных на тренировочную и тестовую части с долей тестовых данных 30 %. Для этого используем методы библиотеки БсШЫеагп [6].
Подключаем методы из библиотеки scikit-learn
from sklearn.model_selection import train_test_split, StratifiedKFold from sklearn.neighbors import KNeighborsRegressor #Записываем в переменные результаты разбиения данных X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
Создаем объект класса KNeighborsRegressor для 10 соседей knn = KNeighborsRegressor(n_neighbors=10)
Передаем в созданный объект обучающую выборку knn.fit(X_train,y_train)
Передаем данные тестовой выборки в классификатор knn_pred = knn.predict(X_test)
В переменной knn_pred содержится результат выполнения предсказаний размера комиссии страхового агентства для тестовых наблюдений по методу ближайших соседей, число ближайших соседей было определено равным 10.
Выполнение такого предсказания в режиме реального времени помогало бы формировать конкурентоспособное предложение с учетом тарифной политики страхового агентства, при доступности для анализа представленных данных.
На тех же данных рассмотрим построение логит-модели для определения вероятности претензии. Эта модель позволяет, например, выявить профиль клиента, который с большей вероятностью предъявит претензию.
В модели логистической регрессии отклик - это Claim (наличие претензии). Остальные переменные набора рассматриваются как предикторы. Целевая переменная может иметь только два возможных значения 0 или 1, которые представляют факт отсутствия или наличия претензии соответственно.
На уже очищенных данных travel_df сформируем новый набор предикторов X (без столбца Claim) и новую переменную у (столбец Claim), а также выполним преобразование текстовых меток уровней категориальных показателей в числовые метки фиктивных переменных.
Переменная X - набор данных без столбца наличия претензии X=travel_df.drop(['Claim'], axis=1)
Переменная у - столбец со статусом претензии y=travel_df['Commision (in value)']
Преобразуем категориальные показатели в наборе X X=pd.get_dummies(X, drop_fi rst=T rue)
В Python построение модели логистической регрессии происходит в классе LogisticRegression, который импортируется из класса sklearn.linear_model (библиотека scikit-learn [6]).
Подключаем методы из библиотеки scikit-learn from sklearn.linear_model import LogisticRegression
Создаем объект класса LogisticRegression logr = LogisticRegression()
Выполняем обучение модели logr.fit(X, y)
Определяем точность модели logr.score(X,y)
Выполнение предсказания значения отклика для каждого наблюдения производится с помощью метода .рг^юШ.
Логит-модель позволяет определить профиль клиента с наибольшей вероятностью предъявления претензии, что дает возможность оценить риск и выгодность страхования таких клиентов для страхового агентства. Также анализ данных для различных страховых компаний помогает выявить, кто из них чаще продает страховые продукты с последующим предъявлением претензий. Все это делает возможным для страховой компании более взвешенно подойти к сотрудничеству с туристическим оператором и к определению страховых тарифов.
Библиографический список
Официальный сайт Anaconda. - URL: https://www.anaconda.com
Официальный сайт Kaggle. - URL: https://www.kaggle.com
Набор данных Travel Insurance. - URL: https://www.kaggle.com/mhdzahier/travel-insurance
Описание библиотеки pandas. - URL: https://pandas.pydata.org
Описание библиотеки matplotlib. - URL: https://matplotlib.org
Описание библиотеки scikit-learn. - URL: https://scikit-learn.org/stable/index.html
Размещено на Allbest.ru
...Подобные документы
Обзор архитектуры СУБД SQL Server. Описание и анализ областей применения средств бизнес-аналитики, таких как многомерный анализ данных и интеллектуальный анализ данных. Обзор языковых средств, методов и экспериментальное применение полученных сведений.
дипломная работа [2,2 M], добавлен 09.07.2014Сущность, значение и методика проведения моделирования бизнес-процессов. История развития методологий моделирования. Систематизация знаний о компании и ее бизнес-процессах в наглядной графической форме для аналитической обработки полученной информации.
реферат [409,3 K], добавлен 29.04.2009Анализ предметной области. Обзор инструментов Web-аналитики для развития бизнеса в Интернете. Построение моделей бизнес-процессов компании. Учет поискового трафика. Элементы управления доступом. Обработка и хранение данных. Видимость сайта в поисковиках.
дипломная работа [1,4 M], добавлен 27.09.2016Создание образа компании. Построение комплексной модели "AS IS". Разработка организационной, функциональной структуры и матрицы ответственности. Анализ бизнес-процессов и DFD-моделей. Построение комплексных моделей "TO BE" для бизнес-инжиниринга компании.
контрольная работа [1,5 M], добавлен 25.12.2015Анализ деятельности предприятия и моделирование основных бизнес-процессов. Моделирование бизнес-процессов при помощи CASE-средства Rational Rose. Получение прибыли путем расширения рынка товаров и услуг. Бизнес-процесс "Заказ и закупка товара".
дипломная работа [1,2 M], добавлен 31.07.2012История развития автоматизированных информационных систем, преимущества их использования. Эволюция MRP, MRP II, ERP, ERP II. Системы бизнес-аналитики. Внедрение ERP системы SAP в ООО "Газпром добыча Астрахань" и ОАО "Астраханское стекловолокно".
курсовая работа [1,6 M], добавлен 10.06.2014Развитие мобильных устройств как главная тенденция мировой компьютерной индустрии. Преимущества удаленных сотрудников. Составляющие "мобилизации" бизнеса. Выбор платформы и комплексных решений. Интеграция мобильного бизнес-софта с "облачными" сервисами.
реферат [20,6 K], добавлен 13.10.2016Моделирование бизнес-процессов как средство поиска путей оптимизации деятельности компании. Методология SADT (структурный анализ и проектирование), семейство стандартов IDEF и алгоритмические языки в основе методологий моделирования бизнес-процессов.
реферат [21,7 K], добавлен 14.12.2011Описание существующей организации бизнес и информационных процессов компании. Построение модели "как есть" и "как будет". Математическое, функциональное, информационное, программное и техническое обеспечение автоматизированной информационной системы.
курсовая работа [5,3 M], добавлен 30.04.2015Методология IDEF0 для описания бизнес-процессов с использованием графического языка. Структура ИС магазина фитнес оборудования на базе программного средства AllFusion Process Modeler, позволяющей сократить время поиска и доставки нужных клиенту товаров.
курсовая работа [1,5 M], добавлен 11.01.2015Классификация информационных систем управления деятельностью предприятия. Анализ рынка и характеристика систем класса Business Intelligence. Классификация методов принятия решений, применяемых в СППР. Выбор платформы бизнес-интеллекта, критерии сравнения.
дипломная работа [1,7 M], добавлен 27.09.2016Архитектура интегрированных информационных систем ARIS как методология моделирования бизнес-процессов, преимущества и недостатки использования. Выбор бизнес-процесса для моделирования и его содержательное описание, табличный формат его описания.
курсовая работа [2,2 M], добавлен 19.06.2015Методики и значение бизнес-моделирования в деятельности организации, применение универсальных графических языков в данном процессе. Основы работы с графическим языком IDEF0, его преимущества и недостатки. Основные бизнес-процессы трикотажной фабрики.
курсовая работа [1,6 M], добавлен 20.05.2009Организационная структура туристической компании и функциональные ее обязанности подразделений. Анализ технико-экономических показателей ООО "Югрос Консалтинг". Проектирование автоматизации бизнес-процессов предприятия на платформе 1С: Предприятие 8.2.
курсовая работа [1,5 M], добавлен 04.06.2015Разработка языка для моделирования учебных бизнес-процессов в рамках проекта "Студия компетентностных деловых игр", требования к ним. Практическая реализация разработанного языка на DSM-платформе MetaEdit+. Создание визуальных представлений объектов.
курсовая работа [2,1 M], добавлен 06.10.2014Анализ предметной области. Технико-экономическое обоснование внедрения системы управления взаимоотношениями в информационную среду транспортной компании. Функциональные требования по проектированию CRM-системы. Разработка форм отчетности и аналитики.
дипломная работа [1,9 M], добавлен 31.03.2018Разработка языка для моделирования реальных бизнес-процессов в рамках "Студии компетентностных деловых игр". Использование DSM-платформа MetaEdit+. Составление требований к разрабатываемому языку программирования. Правила разработки метамодели языка.
курсовая работа [1,6 M], добавлен 05.10.2014Сбор ключевой статистики по интерфейсам, проведение аналитики и выдвижение гипотез по улучшению продукта. Рассмотрение методов анализа данных на базе конкретного проекта. Расположение инструментов на экране и порядок взаимодействия с ними у пользователя.
курсовая работа [664,7 K], добавлен 01.01.2018Создание модели бизнес-процессов "Распродажа" в ВPwin. Цели и правила распродажи. Прогнозирование бизнес-процессов ППП "Statistica". Методы анализа, моделирования, прогноза деятельности в предметной области "Распродажа", изучение ППП VIP Enterprise.
курсовая работа [2,4 M], добавлен 18.02.2012Структура лизинговой компании. Создание функциональной и информационной модели. Моделирование бизнес-процесса "Выполнить заказ клиента". Требование к техническому обеспечению и надежности системы. Состав ИБД лизинговой компании ООО "Лизинг–Трейд".
курсовая работа [1,4 M], добавлен 29.06.2014