Бизнес-аналитика с использованием языка Python на примере страхования путешествий

На примере страхования путешествий рассматриваются методы прогнозной бизнес-аналитики с целью извлечения полезных бизнесу знаний для принятия решений в страховой компании. Отмечаются преимущества и потенциал прогнозной и предписательной бизнес-аналитики.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 16.02.2022
Размер файла 1,6 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Бизнес-аналитика с использованием языка Python на примере страхования путешествий

М.В. Сучилина, С.В. Рындина

Аннотация

На примере страхования путешествий рассматриваются методы прогнозной бизнес-аналитики с целью извлечения полезных бизнесу знаний для принятия решений в страховой компании. Отмечается, что прогнозная и предписательная бизнес-аналитика обладают большим потенциалом для оптимизации и автоматизации операционной деятельности компании. Однако их использование во многих компаниях ограничено, несмотря на существующие бесплатные инструменты и платформенные решения.

Ключевые слова: бизнес-аналитика, прогнозная аналитика, страхование, метод ближайших соседей, логистическая регрессия.

В настоящее время предпринимательство является основой любой развитой экономики, но многие организации сталкиваются с рядом проблем, оказывающих серьезное негативное влияние на их деятельность. К числу таких организаций относятся и страховые компании, ориентирующиеся на страхование путешествий. Для страховых компаний необходим анализ собираемых данных о продажах туров и страховых полисов, что может помочь с решением задач повышения эффективности. В качестве программного про - дукта, позволяющего производить подобный анализ, можно назвать платформу Anaconda [1], являющуюся наиболее широко используемым дистрибутивом языка Python. Anaconda включает согласованный набор библиотек на языке Python, применяемых для исследования данных и машинного обучения.

Бизнес-аналитика используется во многих компаниях в основном для решения задач отчетности: мониторинга и контроля показателей деятельности. Зачастую отчетность при устоявшейся практике управленческих решений оказывается излишне подробной: в реальности решения принимаются на основе контроля динамики очень ограниченного числа собираемых данных. Иными словами, расходы на сбор и хранение данных осуществляются независимо от реальной отдачи от этих данных и приносимой ими пользы. Расходы, связанные с данными, постоянно растут, что обусловлено повышением требований к конфиденциальности, безопасности хранения, в том числе и закрепленных на законодательном уровне. Отказаться от сбора данных невозможно, обслуживать процессы, связанные с данными, - дорого. Поэтому компании вынуждены искать пути получения финансовой отдачи от собираемых данных не только для получения конкурентных преимуществ, но и для покрытия издержек на информационные процессы.

Существует ряд методов, использование которых для анализа реальных данных о клиентах и приобретаемых ими продуктах страховой компании дает возможность выявить зависимости и вероятности, связанные с показателями эффективности компании и уровнем ее продаж. Прогнозная и предписывающая аналитика данных позволяет организации на основе выявленных зависимостей корректировать свою операционную деятельность для формирования конкурентных предложений на рынке услуг.

К прогнозной бизнес-аналитике относятся метод поиска ближайших соседей, позволяющий предсказать, например, оптимальное значение комиссии страхового агентства, и логит-модель, дающая возможность предсказывать значения вероятности наступления какого-либо события, например поступления претензии, в зависимости от характеристик продукта страхования. бизнес аналитика страхование путешествие

Для страховых компаний важно мнение клиентов о работе организации, поэтому предсказание вероятности поступления претензий является актуальной практикой.

В свою очередь, анализ показателей прибыли, таких как сумма продаж полисов страхования путешествий или размер комиссии, получаемой агентством, позволяет вывести закономерности для транзакций и управлять доходом организации.

На сайте Kaggle [2] - платформе, созданной для поддержки исследования данных на основе машинного обучения, доступен набор открытых данных Travel Insurance [3], содержащий в себе 63 327 наблюдений о продажах страховых полисов туристической компании из Сингапура.

Набор данных Travel Insurance включает в себя следующие показатели:

- Agency - информация о наименовании агентства страхования;

- Agency Type - тип агентства по страхованию путешествий;

- Distribution Channel - канал распространения страховок для путешествий, принимающий значения online/offline;

- Product Name - наименование продуктов страхования путешествий ;

- Claim - наличие или отсутствие претензий клиентов ;

- Duration - продолжительность поездки в днях;

- Destination - пункт назначения путешествия;

- Net Sales - количественные данные о сумме продаж полисов страхования путешествий;

- Commission - комиссия, полученная агентством по страхованию путешествий ;

- Age - возраст застрахованного клиента.

Для набора данных страхования клиентов туристической компании используем метод ближайших соседей с целью выявления ценных для принятия бизнес-решений знаний.

Для языка Python существует несколько библиотек с классами и методами, поддерживающими анализ данных. Одна из наиболее полезных в разведочном анализе данных библиотек - pandas [4].

В Jupyter Notebook (входит в состав Anaconda) выполним следующий код для чтения данных из файла travel.csv, размещенного в директории, содержащей установленный дистрибутив Anaconda, в переменную travel_df, параметр sep определяет разделитель, который используется для данных в текстовом файле (результат на рис. 1):

Рис. 1. Результат выполнения кода

Проведем разведочный анализ данных, используя визуальное представление распределения данных каждого показателя с помощью функции pyplot() из библиотеки matplotlib [5].

Для показателя Age в данных обнаружилась аномальная совокупность наблюдений с возрастом 120 лет (рис. 2), визуализация выполнена с помощью кода:

Удалим из исходного набора наблюдения с возрастом более 90 лет и создадим новые фреймы данных: X - для предикторов (показателей, которые влияют на отклик), у - для отклика (результирующего, зависимого показателя). В качестве отклика у рассмотрим количественный показатель величины комиссии, остальные показатели будут в ы- ступать в роли предикторов.

Рис. 2. Визуализация значений переменной Age

Для дальнейшей работы с данными преобразуем категориальные показатели в фиктивные переменные с помощью метода get_dummies. Категориальные показатели описывают качественные параметры объектов (тип агентства, канал продаж и т.п.). Преобразование get_dummies позволяет перейти от текстового описания уровней показателей к меткам 0/1, определяющим то, что это значение уровня отсутствует у объекта или имеется в наличии.

Преобразуем категориальные переменные в X в числовые метки X=pd.get_dummies(X, drop_fi rst=T rue)

Метод ближайших соседей - это ленивый классификатор, фактически его работа начинается в момент поступления новых немаркированных данных. Поэтому выполним разбиение исходных данных на тренировочную и тестовую части с долей тестовых данных 30 %. Для этого используем методы библиотеки БсШЫеагп [6].

Подключаем методы из библиотеки scikit-learn

from sklearn.model_selection import train_test_split, StratifiedKFold from sklearn.neighbors import KNeighborsRegressor #Записываем в переменные результаты разбиения данных X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

Создаем объект класса KNeighborsRegressor для 10 соседей knn = KNeighborsRegressor(n_neighbors=10)

Передаем в созданный объект обучающую выборку knn.fit(X_train,y_train)

Передаем данные тестовой выборки в классификатор knn_pred = knn.predict(X_test)

В переменной knn_pred содержится результат выполнения предсказаний размера комиссии страхового агентства для тестовых наблюдений по методу ближайших соседей, число ближайших соседей было определено равным 10.

Выполнение такого предсказания в режиме реального времени помогало бы формировать конкурентоспособное предложение с учетом тарифной политики страхового агентства, при доступности для анализа представленных данных.

На тех же данных рассмотрим построение логит-модели для определения вероятности претензии. Эта модель позволяет, например, выявить профиль клиента, который с большей вероятностью предъявит претензию.

В модели логистической регрессии отклик - это Claim (наличие претензии). Остальные переменные набора рассматриваются как предикторы. Целевая переменная может иметь только два возможных значения 0 или 1, которые представляют факт отсутствия или наличия претензии соответственно.

На уже очищенных данных travel_df сформируем новый набор предикторов X (без столбца Claim) и новую переменную у (столбец Claim), а также выполним преобразование текстовых меток уровней категориальных показателей в числовые метки фиктивных переменных.

Переменная X - набор данных без столбца наличия претензии X=travel_df.drop(['Claim'], axis=1)

Переменная у - столбец со статусом претензии y=travel_df['Commision (in value)']

Преобразуем категориальные показатели в наборе X X=pd.get_dummies(X, drop_fi rst=T rue)

В Python построение модели логистической регрессии происходит в классе LogisticRegression, который импортируется из класса sklearn.linear_model (библиотека scikit-learn [6]).

Подключаем методы из библиотеки scikit-learn from sklearn.linear_model import LogisticRegression

Создаем объект класса LogisticRegression logr = LogisticRegression()

Выполняем обучение модели logr.fit(X, y)

Определяем точность модели logr.score(X,y)

Выполнение предсказания значения отклика для каждого наблюдения производится с помощью метода .рг^юШ.

Логит-модель позволяет определить профиль клиента с наибольшей вероятностью предъявления претензии, что дает возможность оценить риск и выгодность страхования таких клиентов для страхового агентства. Также анализ данных для различных страховых компаний помогает выявить, кто из них чаще продает страховые продукты с последующим предъявлением претензий. Все это делает возможным для страховой компании более взвешенно подойти к сотрудничеству с туристическим оператором и к определению страховых тарифов.

Библиографический список

Официальный сайт Anaconda. - URL: https://www.anaconda.com

Официальный сайт Kaggle. - URL: https://www.kaggle.com

Набор данных Travel Insurance. - URL: https://www.kaggle.com/mhdzahier/travel-insurance

Описание библиотеки pandas. - URL: https://pandas.pydata.org

Описание библиотеки matplotlib. - URL: https://matplotlib.org

Описание библиотеки scikit-learn. - URL: https://scikit-learn.org/stable/index.html

Размещено на Allbest.ru

...

Подобные документы

  • Обзор архитектуры СУБД SQL Server. Описание и анализ областей применения средств бизнес-аналитики, таких как многомерный анализ данных и интеллектуальный анализ данных. Обзор языковых средств, методов и экспериментальное применение полученных сведений.

    дипломная работа [2,2 M], добавлен 09.07.2014

  • Сущность, значение и методика проведения моделирования бизнес-процессов. История развития методологий моделирования. Систематизация знаний о компании и ее бизнес-процессах в наглядной графической форме для аналитической обработки полученной информации.

    реферат [409,3 K], добавлен 29.04.2009

  • Анализ предметной области. Обзор инструментов Web-аналитики для развития бизнеса в Интернете. Построение моделей бизнес-процессов компании. Учет поискового трафика. Элементы управления доступом. Обработка и хранение данных. Видимость сайта в поисковиках.

    дипломная работа [1,4 M], добавлен 27.09.2016

  • Создание образа компании. Построение комплексной модели "AS IS". Разработка организационной, функциональной структуры и матрицы ответственности. Анализ бизнес-процессов и DFD-моделей. Построение комплексных моделей "TO BE" для бизнес-инжиниринга компании.

    контрольная работа [1,5 M], добавлен 25.12.2015

  • Анализ деятельности предприятия и моделирование основных бизнес-процессов. Моделирование бизнес-процессов при помощи CASE-средства Rational Rose. Получение прибыли путем расширения рынка товаров и услуг. Бизнес-процесс "Заказ и закупка товара".

    дипломная работа [1,2 M], добавлен 31.07.2012

  • История развития автоматизированных информационных систем, преимущества их использования. Эволюция MRP, MRP II, ERP, ERP II. Системы бизнес-аналитики. Внедрение ERP системы SAP в ООО "Газпром добыча Астрахань" и ОАО "Астраханское стекловолокно".

    курсовая работа [1,6 M], добавлен 10.06.2014

  • Развитие мобильных устройств как главная тенденция мировой компьютерной индустрии. Преимущества удаленных сотрудников. Составляющие "мобилизации" бизнеса. Выбор платформы и комплексных решений. Интеграция мобильного бизнес-софта с "облачными" сервисами.

    реферат [20,6 K], добавлен 13.10.2016

  • Моделирование бизнес-процессов как средство поиска путей оптимизации деятельности компании. Методология SADT (структурный анализ и проектирование), семейство стандартов IDEF и алгоритмические языки в основе методологий моделирования бизнес-процессов.

    реферат [21,7 K], добавлен 14.12.2011

  • Описание существующей организации бизнес и информационных процессов компании. Построение модели "как есть" и "как будет". Математическое, функциональное, информационное, программное и техническое обеспечение автоматизированной информационной системы.

    курсовая работа [5,3 M], добавлен 30.04.2015

  • Методология IDEF0 для описания бизнес-процессов с использованием графического языка. Структура ИС магазина фитнес оборудования на базе программного средства AllFusion Process Modeler, позволяющей сократить время поиска и доставки нужных клиенту товаров.

    курсовая работа [1,5 M], добавлен 11.01.2015

  • Классификация информационных систем управления деятельностью предприятия. Анализ рынка и характеристика систем класса Business Intelligence. Классификация методов принятия решений, применяемых в СППР. Выбор платформы бизнес-интеллекта, критерии сравнения.

    дипломная работа [1,7 M], добавлен 27.09.2016

  • Архитектура интегрированных информационных систем ARIS как методология моделирования бизнес-процессов, преимущества и недостатки использования. Выбор бизнес-процесса для моделирования и его содержательное описание, табличный формат его описания.

    курсовая работа [2,2 M], добавлен 19.06.2015

  • Методики и значение бизнес-моделирования в деятельности организации, применение универсальных графических языков в данном процессе. Основы работы с графическим языком IDEF0, его преимущества и недостатки. Основные бизнес-процессы трикотажной фабрики.

    курсовая работа [1,6 M], добавлен 20.05.2009

  • Организационная структура туристической компании и функциональные ее обязанности подразделений. Анализ технико-экономических показателей ООО "Югрос Консалтинг". Проектирование автоматизации бизнес-процессов предприятия на платформе 1С: Предприятие 8.2.

    курсовая работа [1,5 M], добавлен 04.06.2015

  • Разработка языка для моделирования учебных бизнес-процессов в рамках проекта "Студия компетентностных деловых игр", требования к ним. Практическая реализация разработанного языка на DSM-платформе MetaEdit+. Создание визуальных представлений объектов.

    курсовая работа [2,1 M], добавлен 06.10.2014

  • Анализ предметной области. Технико-экономическое обоснование внедрения системы управления взаимоотношениями в информационную среду транспортной компании. Функциональные требования по проектированию CRM-системы. Разработка форм отчетности и аналитики.

    дипломная работа [1,9 M], добавлен 31.03.2018

  • Разработка языка для моделирования реальных бизнес-процессов в рамках "Студии компетентностных деловых игр". Использование DSM-платформа MetaEdit+. Составление требований к разрабатываемому языку программирования. Правила разработки метамодели языка.

    курсовая работа [1,6 M], добавлен 05.10.2014

  • Сбор ключевой статистики по интерфейсам, проведение аналитики и выдвижение гипотез по улучшению продукта. Рассмотрение методов анализа данных на базе конкретного проекта. Расположение инструментов на экране и порядок взаимодействия с ними у пользователя.

    курсовая работа [664,7 K], добавлен 01.01.2018

  • Создание модели бизнес-процессов "Распродажа" в ВPwin. Цели и правила распродажи. Прогнозирование бизнес-процессов ППП "Statistica". Методы анализа, моделирования, прогноза деятельности в предметной области "Распродажа", изучение ППП VIP Enterprise.

    курсовая работа [2,4 M], добавлен 18.02.2012

  • Структура лизинговой компании. Создание функциональной и информационной модели. Моделирование бизнес-процесса "Выполнить заказ клиента". Требование к техническому обеспечению и надежности системы. Состав ИБД лизинговой компании ООО "Лизинг–Трейд".

    курсовая работа [1,4 M], добавлен 29.06.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.