Модели машинного обучения для идентификации потенциальноуходящих абонентов на примере телекоммуникационной компании Tele2
Доработка рекомендательной системы, используемой в телекоммуникационной сфере. Наивный Байесовский классификатор, дерево решений, градиентный бустинг деревьев решений на платформе Knime Analytics Platform. Использование абонентских услуг клиентами.
Рубрика | Коммуникации, связь, цифровые приборы и радиоэлектроника |
Вид | статья |
Язык | русский |
Дата добавления | 09.04.2021 |
Размер файла | 3,2 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Статья по теме:
Модели машинного обучения для идентификации потенциально уходящих абонентов на примере телекоммуникационной компании Tele2
Дарья Дмитриевна Кремкова, студентка факультета прикладной математики и информационных технологий, Финансовый университет, Москва, Россия
Иван Андреевич Сафонов, студент факультета прикладной математики и информационных технологий, Финансовый университет, Москва, Россия
Аннотация
Статья посвящена анализу доработок рекомендательной системы, используемой в телекоммуникационной сфере. В материале рассматриваются тенденции развития современных систем, формирующих рекомендации для увеличения аудитории в электронной коммерции. С использованием моделей машинного обучения, таких как наивный Байесовский классификатор, дерево решений, градиентный бустинг деревьев решений, случайный лес, на платформе Knime Analytics Platform был проведен анализ данных об использовании абонентских услуг клиентами. Авторами были изучены способности моделей к предсказанию уходящих абонентов. На основании полученных данных была доказана эффективность применения некоторых моделей машинного обучения для выявления абонентов, готовых уйти от оператора связи, и предложения им специальных услуг, способных повлиять на их окончательное решение и уменьшить отток аудитории телекоммуникационной компании. Ключевые слова: рекомендательная система; модели машинного обучения; электронная коммерция; уходящие абоненты; наивный Байесовский классификатор; дерево решений; градиентный бустинг деревьев решений; случайный лес; телекоммуникационная компании; KnimeAnalyticsPlatform
Machine Learning Models for Identifying Potential outgoing subscribers Using the Example of the Telecommunications Company Tele2
Abstract
Darya D. Kremkova, student, Faculty of Applied Mathematics and Information Technology, Financial University, Moscow, Russia
Ivan A. Safonov, student, Faculty of Applied Mathematics and Information Technology, Financial University, Moscow, Russia
The article is devoted to the analysis of improvements to the recommendation system used in the telecommunications sector. The article discusses the trend sinthe development of modern systems that form recommendations for increasing the audiencein e-Commerce. Using machine learning models such as the naive Bayesian classifier, decision tree, gradien boosting of the decision tree, random forest, the Knime Analytics Platform analysed data on the use of subscription services by customers. The authors studied the models' abilities to predict out going subscribers. Based on the data obtained, we have proved the effective nessofusing some machine learning models to identify subscribers who are ready to leave the Telecom operator. Weofferthemspecialservicesthatcaninfluencetheirfinaldecisionandreducetheoutflowofthetelecommunicationscompany'saudience.
Keywords: recommendation system; machine learning models; e-Commerce; outgoing subscribers; naпve Bayesian classifier; decision tree; gradient boosting of the decision tree; random forest; telecommunications company; Knime Analytics Platform
Введение
Рыночные отношения - основа существования мирового сообщества, трансформация которой побуждает к исследованиям закономерностей данного развития. При этом бизнес повсеместно растет и развивается, о чем свидетельствует увеличение товарооборота между странами, как, например, рост на 12% товарооборота между Россией и государствами - членами Евразийского экономического союза в 2019 г.
Поскольку конкуренция во всех сферах производства товаров и услуг достаточно сильна, то за каждого потребителя приходится бороться. Покупатели становятся избирательнее в своем выборе, чаще сравнивают предложения из-за высокой доступности информации о товарах и услугах разных производителей, обращают внимание на сопутствующие бонусы. Старые методы привлечения, такие как реклама через массовую рассылку, телевидение или интернет, больше не работают в современных реалиях. Конверсия от указанных методов снижается год за годом, а затраты несоизмеримо растут, что приводит к неоправданному повышению показателя customer acquisition cost (CAC), т.е. стоимости привлечения клиента, для разных видов бизнеса. Особенно остро данная проблема проявляет себя в сферах массового потребления, не занимающихся производством и реализацией товаров высшей категории. Для них важно, чтобы стоимость нового клиента была низкой, поскольку от этого зависит цена товара на рынке. Следовательно, производители вынуждены искать новые способы оказания воздействия на потенциальных и существующих потребителей. Компании стараются привлечь и удержать клиента путем персонализации предложений, т.е. способности оптимизировать послания для определенных клиентов. Под «посланиями» подразумеваются как легко реализуемые вещи, например обращение к клиенту по имени и отчеству, так и сложные функции, помогающие предугадать желания покупателей. «Определенные клиенты» - это сегменты, которые разбиты по схожести поведения или похожести каких-либо параметров. Путем персонализации решаются такие задачи бизнеса, как снижение стоимости привлечения новых клиентов и уменьшение затрат, связанных с удержанием уже имеющейся аудитории потребителей. Вдобавок, персональные предложения формируют лояльное отношение к бренду и товару, поскольку компании предлагают своим клиентам то, что им необходимо. Потребитель готов покупать у той организации, которая проявляет о нем некую форму заботы, что в итоге ведет к увеличению среднего чека и, как следствие, прибыли предприятия. О такой тенденции приверженности к персонализации свидетельствует исследование, проведенное в 2017 г. американской компанией Epsilon. Выяснилось, что 80% респондентов из 1000 в возрасте 18-64 лет указали, что они с большей вероятностью будут иметь дело с брендами, которые предоставляют персонализированные предложения. 90% потребителей признались в предпочтениях персонализированных обращений. Следовательно, первая задача организаций в этой области - обеспечить формирование и доставку до конечного пользователя персональных предложений с помощью информационных технологий. Данный вид поддержки возможно обеспечить с помощью решений в таких областях, как Data Mining, Machine Learning, рекомендательные системы на основе коллаборативной или контентой фильтраций и другие [1].
Актуальность данной работы основана на исследовании одного из методов совершенствования индустрии электронной коммерции, а именно рекомендательных систем. Они представляют собой инструменты автоматической генерации предложений по услугам на основе изучения персональных потребностей клиентов. Основные методы, используемые в данных решениях - это коллаборативная и контентная фильтрации, которые позволяют генерировать предложения, основываясь не только на персональном треке запросов потребителя, но и треках пользователей из единого с ним кластера или группы. Существует ряд проблем, связанных с разработкой алгоритмов для данных систем. Общими для любых сфер являются задачи, связанные с масштабируемостью при добавлении данных о новых потребителях, а также вопросы по рекомендациям для вновь пришедших пользователей, у которых еще нет собственного трека запросов. Также существует необходимость выявления нелояльных клиентов, готовых сменить фирму при появлении более оптимального предложения у конкурентов. Их удержание способно сохранить значительную часть прибыли компании, но в то же время затраты на такую деятельность могут быть неоправданно высокими. Поэтому алгоритмы рекомендательных систем должны быть заточены под их автоматическое выявление и генерацию предложений по удержанию. Особенно остро данный вопрос стоит в сфере телекоммуникаций, где переход между операторами связи с недавних пор перестал являться сложным процессом, строго ограниченным технической частью по таким параметрам как, например, локализация.
Объектом данного исследования стали рекомендательные системы для сферы телекоммуникаций, которые представляют собой вид специального математического и программного обеспечения систем анализа, оптимизации, управления, принятия решений и обработки информации.
Предметом исследования являются модели машинного обучения, использующие структуры данных о пользователях мобильной связи и алгоритмы выбора релевантных рекомендаций для кластера пользователей, способных потенциально сменить оператора. Состояние пользователя, характеризуемое степенью его лояльности к компании и намерением продолжать сотрудничество или сменить поставщика услуг, в дальнейшем будет определяться как статус пользователя: лоялен или готов уйти.
Цель работы - проанализировать существующие решения рынка рекомендательных систем и разработать концепцию альтернативы, способной прогнозировать статус пользователя и выбирать актуальные типы рекомендаций для клиентов из разных кластеров, определенных по статусу.
Основная часть
Рынок рекомендательных систем
На начальном этапе исследования был проведен анализ существующих алгоритмов, поддерживающих персонализацию, а также решений в области рекомендательных систем и принципов их работы. Наиболее приближенными по требуемому функционалу и возможностям можно назвать рекомендательные системы от Яндекс и Netflix. Первая является отечественной разработкой, которая функционирует начиная с 2014 г.4 Технология получила название Диско (от discovery) и нашла свое применение в сервисах с крупными каталогами объектов - в Музыке, Радио, Маркете и Видео. Генерация предложений при использовании данных из систем-источников производится по одному из трех подходов. Первый связан с анализом контента и основан на выявлении связей определенного объекта с производителем, брендом, страной распространения, целевой группой, группой товаров или иных характеристиках. Такой подход применим к тем потребителям, которые уже имеют свой трек в системе. Второй подход основан на анализе групп пользователей из Крипты, сгруппированных по возрасту, полу, местоположению или роду занятий. В данной ситуации делается допущение, что схожие пользователи будут интересоваться одинаковыми объектами в сервисах. Метод распространен не только среди устоявшихся пользователей сервиса, но и применим для так называемого холодного старта. Рекомендательная система генерирует предложения для новых пользователей, даже с учетом того, что они еще не известны сервису. Последний метод связан с персональными оценками пользователей потребляемого контента, товаров или услуг. Такой подход не только учитывает связь пользователей между собой и связи объектов по характеристикам, но и позволяет выделить нетривиальные закономерности между разрозненными группами на основе оценок потребителей. Построение рекомендательной системы из комбинации трех подходов стало возможным с применением формы машинного обучения с учетом множества факторов ранжирования - Матрикснет.
Успешное применение рекомендательных систем и их постоянное развитие позволяет Яндексу улучшать свои сервисы и создавать новые за счет роста выручки: 2017 г.- +24%, 2018 г.- +36%, 2019 г.- +39%.
Вторая рассматриваемая рекомендательная система - решение от Netflix, представляющее собой комбинированный движок на основе коллаборативной и контентой фильтраций. Данная система предполагает поиск закономерностей как между схожими пользователями, так и между похожими объектами сервиса. Потребители разделяются в кластеры на основе анализа профилей, запросов и выбранного контента, т.е. разделяются на определенные подмножества со схожими критериями [2]. Затем формируются пулы рекомендаций для пользователей с максимальным количеством совпадений на основе взаимных предложений. Система Netflix способна комбинировать предложенные системой рекомендации для нивелирования недостатков каждого из подходов, как, например, накрутка оценок злоумышленниками, изменение предпочтений пользователей с течением времени или проблем с холодным стартом.
Данное гибридное решение позволило повысить точность рекомендаций системы №:Шх на 10,06% по сравнению с предыдущей версией, использовавшей только алгоритмы коллаборативной фильтрации. На сегодняшний день компания постоянно совершенствует данную систему и даже организовала премию с грантом по лучшей доработке данной рекомендательной системы.
Рекомендательная система оператора связи Те1е2
Рассмотренные решения сочетают в себе канонные технологии, используемые в рекомендательных системах. Такой опыт успешного применения технологий говорит о возможности применения рекомендаций в разных сферах. Применительно к телекому, такие системы способны помочь в области принятия решений относительно оптимизации использования тарифов из пакетов минут, смс и гигабайтов как для абонентов, так и для операторов связи. Одной из первых компаний в России, которая запустила такого рода решение для своих клиентов, стала Те1е2. Рекомендательная система МИА отвечает за переконфигурацию пакетов интернета и минут на линейке тарифов «Мой Онлайн+» в разных регионах России. При использовании данного решения производится анализ потраченного пакета относительно доступного в рамках тарифа. Например, в Москве в данный тариф входят 800 минут и 30 ГБ за 700 руб. в месяц. Работа МИА заключается в нахождении по истечению периода использования, для данного случая - месяца, отношений фактических расходов к возможным. Рассчитываются удельные веса по гигабайтам интернета и минутам мобильной связи. Далее включается цикл калибровки для приведения к относительно равному отношению весов для двух составляющих тарифа. То есть с шагом в 50 минут и 5 Гб система старается уравнять полученные удельные веса, считая такую ситуацию оптимальной в плане использования тарифного плана. В некоторых случаях расчет происходит относительно средних показателей нескольких предшествующих месяцев, в случае если веса за один месяц оказались одинаковыми или была низкая активность абонента. Система предлагает рекомендации пользователю по перераспределению минут и Гб внутри тарифа, при этом его стоимость остается неизменной. Клиенты вправе принять предложенные изменения или отказаться от них. С точки зрения потребителя такие рекомендации дают возможность перераспределить пакеты минут и Гб в рамках оплаченной суммы без необходимости докупать дополнительные пакеты минут или интернета, если происходит постоянный перерасход одной из составляющих тарифа. Для оператора Те1е2 рекомендательная система помогает снизить затраты на обеспечение связи для абонентов за счет оптимизации их тарифных планов, а также дополнительно увеличить прибыль из-за перехода некоторых абонентов на тариф дороже и появления новых, которые хотят попробовать уникальную функциональность. Относительно узкая специализация данной системы говорит о необходимости ее распространения на другие тарифы из линейки оператора, а также об увеличении функционала системы, которая позволит генерировать рекомендации в соответствии с требуемыми условиями.
В целях развития и улучшения рекомендательной системы Те1е2 был предложен двухэтапный алгоритм по выявлению клиентов, которые потенциально могут уйти от оператора, а также по генерации для данных абонентов рекомендаций, направленных на удержание. Доработанная МИА позволит организации вовремя реагировать на изменения в поведении пользователей и формировать им предложения иных тарифов, дополнительных фич и специальных условий. Это увеличит лояльность абонентов к оператору и позволит переформировать тарифный пакет под собственные нужды. Первый этап алгоритма будет выявлять пользователей, которые могут уйти от компании Tele2. При этом совсем не важно, меняет ли человек оператора или просто прекращает пользование данным номером. На вход будут подаваться обезличенные данные об абонентах, включая их тарифный план, фактические расходы по пакетам и стоимость тарифов. В ходе машинного обучения на обучающем множестве должны выявляться скрытые зависимости между фактическими и возможными затратами пользователей, которые остались и уже ушли. Далее при работе с реальными данными абоненты будут классифицироваться как те, кто останется, и те, кто готов уйти. Второй этап алгоритма основан на принципах коллаборативной и контентной фильтраций, а также на математических расчетах отношений плановых и фактических затрат. Анализу будут подвергаться связи между схожими пользователями, зависимости между объектами, а также превышения и недобор реальных потраченных пакетов минут, смс, Гб. Применение алгоритма позволит формировать рекомендации, возможно, в форме ассоциативных правил, для тех пользователей, которые были выявлены как потенциально уходящие на предыдущем этапе. Сформированные предложения позволят удержать часть аудитории, так как система будет учитывать их реальные потребности и сразу предлагать решение их проблем, которые могут быть связаны с перерасходами по тарифам, высокими финансовыми затратами при низкой активности или использованием совершенно не тех опций, которые нужны абоненту.
Применение машинного обучения для идентификации уходящих абонентов
Предметом рекомендаций для сотрудников компании Tele2 будет являться возможный уход абонента от оператора сотовой связи. После такого заключения работники должны приложить усилия, чтобы не потерять клиента.
Для анализа был получен датасет у сотового оператора Tele2 (рис. 1, 2).
В таблице 10 000 строк и 24 столбца:
телекоммуникационный байесовский классификатор абонентский
Рис. 1 - Часть 1 полученного дата сета сотового оператора Tele2
Источник: составлено на основе данных ООО «Т2Мобайл».
Рис. 2 - Часть 2 полученного дата сета сотового оператора Tele2
Регион - субъект Российской Федерации, в котором был зарегистрирован данный абонент. В нашем случае деление всего на 2 региона: объединенные Москва и Московская область и Воронежская область.
Потребление минут в августе - количество использованных минут в данном месяце.
Потребление ГБ в августе - количество использованных ГБ интернета в данном месяце.
Доступно минут в августе - количество минут в пакете активного тарифа в данном месяце.
Доступно ГБ в августе - количество ГБ интернета в пакете активного тарифа в данном месяце.
7 Тариф в августе - используемый (активный) тариф в данном месяце.
Стоимость тарифа в августе - плата за активный тариф в данном месяце.
Траты за август - сумма всех расходов за данный месяц, включая оплату минут, ГБ и SMS сверх базового пакета тарифа и дополнительных сервисов (VAS).
Потребление минут в сентябре - количество использованных минут в данном месяце.
Потребление ГБ в сентябре - количество использованных ГБ интернета в данном месяце.
Доступно минут в сентябре - количество минут в пакете активного тарифа в данном месяце.
Доступно ГБ в сентябре - количество ГБ интернета в пакете активного тарифа в данном месяце.
Тариф в сентябре - используемый (активный) тариф в данном месяце.
Стоимость тарифа в сентябре - плата за активный тариф в данном месяце.
Траты за сентябрь - сумма всех расходов за данный месяц, включая оплату минут, ГБ и SMS сверх базового пакета тарифа и дополнительных сервисов (VAS).
Потребление минут в октябре - количество использованных минут в данном месяце.
Потребление ГБ в октябре - количество использованных ГБ интернета в данном месяце.
Доступно минут в октябре - количество минут в пакете активного тарифа в данном месяце.
Доступно ГБ в октябре - количество ГБ интернета в пакете активного тарифа в данном месяце.
Тариф в октябре - используемый (активный) тариф в данном месяце.
Стоимость тарифа в октябре - плата за активный тариф в данном месяце.
Траты за октябрь - сумма всех расходов за данный месяц, включая оплату минут, ГБ и SMS сверх базового пакета тарифа и дополнительных сервисов (VAS).
Состояние присутствия абонента - показатель ухода абонента от оператора или приостановки обслуживания сим-карты. 0 значит, что абонент ушел или приостановил обслуживание, а 1 - обратное.
Для анализа данных и выдачи рекомендательных предложений выбраны четыре алгоритма: наивный Байесовский классификатор, деревья решений, градиентный бустинг деревьев решений и «случайный лес». Алгоритмы могут анализировать как строковые значения (названия тарифов и регион), так и целочисленные, и хорошо подходят для решения поставленной задачи. Используемые алгоритмы достаточно просты и легко объяснимы, в будущем их можно будет использовать как базовый уровень для более сложных методов машинного обучения. Поскольку полученный у компанииTele2 датасет достаточно специфичен, для решения поставленной задачи невозможно использовать некоторые типы из распространенных алгоритмов машинного обучения. Например, k-means или k-medoidsне подойдут для исследуемого набора данных, так как они плохо работают с многомерными данными. Также не представляется возможным использовать различные виды регрессии, такие как линейная или логистическая, из-за наличия нечисловых переменных в используемом наборе данных.
Первый подход использует наивный Байесовский (naive Bayes) классификатор [3, с. 255]. Хотя этот алгоритм и считается одним из простых, он часто работает не хуже, а то бывает и лучше сложных алгоритмов. Байесовская модель вычисляет количество строк на значение атрибута в классе для номинальных атрибутов и гауссово распределение для числовых. Созданная модель может быть использована для прогнозирования классовой принадлежности неклассифицированных данных. Вероятностью класса в этом случае считается произведение вероятности на атрибут и вероятности самого атрибута класса. В свою очередь, вероятностью для номинальных значений - число повторений значения класса с заданным значением, деленное на число общих повторений значения класса. А вероятность численного значения вычисляется путем предположения нормального распределения по каждому признаку.
Второй подход состоит из деревьев решений (decisiontree) [4, с. 73]. В случае деревьев решений целевой (предсказываемый) атрибут должен быть номинальным, т.е. только называющим. Другие атрибуты, используемые для принятия решений, могут быть как номинальными, так и числовыми. При работе алгоритма числовое разделение является только двоичным (два результата), а номинальное разбиение - либо двоичным, либо иметь столько же исходов, сколько и номинальные значения. Алгоритм может быть запущен в нескольких потоках и, таким образом, использовать мультиплексоры или ядра.
Третьим алгоритмом является градиентный бус-тинг деревьев решений (gradient boosted decision trees). Метод использует очень мелкие деревья регрессии и специальную форму бустинга - метаалгоритм машинного обучения, применяющийся для уменьшения смещения, а также дисперсии - для построения ансамбля деревьев [5, с. 253]. По умолчанию дерево строится с использованием двоичных разбиений для числовых и номинальных атрибутов (более поздние могут быть изменены на многоходовые разбиения). Встроенная обработка пропущенных значений пытается найти наилучшее направление для пропущенных значений, проверяя каждое возможное направление и выбирая то, которое дает наилучший результат, т.е. наибольший выигрыш.
Последним из четырех подходов будет случайный лес (random forest) [6, c. 88]. Случайный лес состоит из выбранного количества деревьев решений. Каждая из моделей дерева решений изучается на другом наборе строк (записей) и другом наборе столбцов (описывающих атрибутов). Наборы строк создаются путем начальной загрузки и имеют тот же размер, что и исходная входная таблица. Для каждого узла дерева решений новый набор атрибутов определяется путем взятия случайной выборки размером корень из m, где m- общее количество атрибутов. Основная идея заключается в том, что для каждого разбиения нужно попытаться найти недостающие значения во всех возможных направлениях, затем используется то, которое дает наилучшие результаты, т.е. наибольший выигрыш. Если во время обучения отсутствуют пропущенные значения, то направление разделения, за которым следует большинство записей, выбирается как направление для пропущенных значений во время тестирования.
Рис. 3 - Модели дерева решения, наивного Байесовского классификатора, градиентного бустинга деревьев решений и случайного леса
Источник: составлено авторами по данным телекоммуникационной компании.
Машинное обучение на данных абонентов Tele2 проводилось в сервисе Knime Analytics Platform - бесплатная и открытая платформа для анализа данных. В данной платформе процесс программирования логики осуществляется через создание потока работ (workflow), который состоит из узлов (nodes), выполняющих ту или иную функцию [7].
Для машинного обучения загружены исходные данные в формате csvчерез File Reader. Затем в трех узлах String Manipulation округлены значения трат (расходов) абонентов за август, сентябрь
и октябрь и в String to Number преобразованы из строковых в числовые. Missing Value помог заменить пропущенные значения на 0. В узле Column Filter скрыты дублирующие, коррелирующие или избыточные параметры. Ими являются доступные минуты и Гб и абонентская плата во всех месяцах (available minutes in August, available GB in August, fare cost in August, available minutes in September, available GB in September, fare cost in September, available minutes in October, available GB in October, fare cost in October). После осуществилось деление данных на тестовое и тренировочное множества в пропорциях 30/70 случайным образом в Partitioning.
Naive Bayes Learner использует тренировочное множество для классификации по колонке «Состояние присутствия абонента» с максимальным количеством уникальных номинальных значений для атрибута в количестве 2, так как состояние абонента имеет только два значения: готов остаться или готов уйти от оператора. Naive Bayes Predictor предсказывает состояние присутствия абонента, используя ранее обученную модель и тестовое множество. В завершение используем Scorer для визуализации матрицы ошибок (confusion matrix) (рис. 4) и ROC-кривую (рис. 5). Модель наивного Байесовского классификатора представлена на рис. 3.
Рис. 4 - Матрица ошибок модели наивного Байесовского классификатора
Источник: Knime Analytics Platform исследованиемоделиавторов
Decision Tree Learner использует тренировочное множество для классификации по колонке «Состояние присутствия абонента» с помощью коэффициента Джини (Gini index) - метрика качества, которая применяется при оценке предсказательных моделей в задачах бинарной классификации в условиях сильной несбалансированности классов целевой переменной. Количество ветвей равно четырем. Decision Tree Predictor предсказывает состояние присутствия абонента, используя ранее обученную модель и тестовое множество. В завершение воспользуемся Scorer для визуализации матрицы ошибок (confusion matrix) (рис. 6).
Gradient Boosted Trees Learner (deprecated) использует тренировочное множество для классификации по параметру «Состояние присутствия абонента». В настройках дерева указаны количество уровней в размере четырех, количество моделей - четыре, скорость обучения - 0,1. Gradient Boosted Trees Predictor (deprecated) предсказывает состояние присутствия абонента, употребляя ранее обученную модель и тестовое множество. В завершение используем Scorer для визуализации матрицы ошибок (confusion matrix) (рис. 7) и ROC-кривую (рис. 8).
Рис. 5 - ROC-кривая модели наивного Байесовского классификатора
Источник:Knime Analytics Platform исследованиемоделиавторов.
Рис. 6 - Матрица ошибок модели дерева решений
Источник:Knime Analytics Platform исследованиемоделиавторов.
Рис. 7 - Матрица ошибок модели градиентногобустинга деревьев решений
Источник: Knime Analytics Platform исследованиемоделиавторов.
Random Forest Learner использует тренировочное множество для классификации по параметру «Состояние присутствия абонента». В настройках дерева указаны критерий разделения по коэффициенту Джини, ограничение в количестве уровней, равное трем, минимальный размер узла - 2, количество моделей - 3. Random Forest Predictor предсказывает состояние присутствия абонента, используя ранее обученную модель и тестовое множество. В завершение используем Scorer для визуализации матрицы ошибок (confusion matrix) (рис. 9).
Рис. 8 - RoC-кривая модели градиентного бустинга деревьев решений
Источник:Knime Analytics Platform исследованиемоделиавторов.
Анализируя результаты машинного обучения, можно прийти к выводу, что модель градиентного бустинга деревьев решений слишком точна (100%), а такая точность не позволит определять сомневающихся пользователей, т.е. false positive или false negative. Дополнительно это говорит о переобученности модели. Кроме того, абсолютная точность моделей машинного обучения потенциально потребует больших вычислительных мощностей. В нашем случае это существенно, так как в рамках работы рассматривается выборка только в 10 тысяч строк и с 24 параметрами, а в компании Tele2 больше 40 млн абонентов. Следовательно, решение позволяет с высокой точностью определить статус абонента на обучающей выборке, но абсолютно неприменимо к реальным данным. Модели деревьев решений и случайного леса имеют тоже весьма большую точность (99,967 и 99,97% соответственно). Модель наивного Байесовского классификатора показывает наименьшую точность из представленных моделей (98,867%).
Выводы
Таким образом, проведенное исследование показало наличие неизученных возможностей машинного обучения, технологии которого могут быть применены в самых различных сферах общественной деятельности. В эпоху цифровой трансформации понимание принципов искусственного интеллекта и машинного обучения важно для успешного ведения бизнеса, поскольку работа с данными затрагивает внешнюю и внутреннюю среды любой организации или продукта. Их использование в сфере телекоммуникационных технологий отличается широким спектром возможных предсказаний по абонентской части и информационно-технологической части.
Рис. 9 - Матрица ошибок модели случайного леса
Источник:Knime Analytics Platform исследование модели авторов.
Согласно выводам, полученным в ходе исследования, можно сказать об успешном выполнении поставленных задач по изучению рекомендательных систем, исследованию существующих решений, обеспечивающих персонализацию в разных сферах взаимодействия с клиентом, анализу текущего состояния рекомендательной системы МИА одной из ведущих телекоммуникационных компаний России Те1е2. Одним из основных результатов можно считать создание моделей машинного обучения на платформе Ктте, которые способны предсказать возможный уход абонента от данного оператора.
Следовательно, можно с уверенностью сказать об успешном достижении поставленной цели по предложению концепции развития рекомендательной системы МИА, новые модели машинного обучения будут анализировать отток клиентов компании сотового оператора Те1е2. Данная доработка позволит сформировать базу для поддержки принятия решений в отношении абонентов как в автоматическом, так и ручном режимах, что позволит бизнесу быстро реагировать на изменение в поведенческих привычках конечных пользователей и в конечном итоге сформировать доверительные отношения между компанией и ее клиентурой.
Список источников
1. Stuart J. Russell, Norvig P Artificial intelligence: a modern approach. 3rd edition. Pearson Education Limited; 2010. 1152 p.
2. Бурков А. Машинное обучение без лишних слов. СПб.:Питер; 2020. 192с.
3. Бринк Х., Ричардс Дж., Феверолф М. Машинное обучение. СПб.:Питер; 2017. 336 с.
4. Nils J. Nilsson Introduction to machine learning. Stanford, 2005. 188 p.
5. Вьюгин В. В. Математические основы теории машинного обучения и прогнозирования. М.; 2013. 387 с.
6. Мюллер А.,Гвидо С. Введение в машинное обучение с помощью Python. Руководство для специалистов по работе с данными. М.:Вильямс; 2017. 480 с.
7. Silipo R. KNIME beginner's luck: a guide to KNIME Data Mining software for beginners. KNIME Press; 2016. 384 p.
8. Stuart J. Russell, Peter Norvig. Artificial intelligence: a modern approach. 3rd ed. Pearson Education Limited; 2010. 1152 p.
9. Burkov A. Machine learning without unnecessary words. St. Petersburg: Piter; 2020. 192 p. (In Russ.).
10. Brink Henrik, Richards Joseph, Fetherolf Mark. Real-World Machine Learning. Manning Publications Co.; 2016. 264 p.
11. Nils J. Nilsson Introduction to machine learning. Stanford; 2005. 188 p.
12. Vyugin V.V. Mathematical foundations of the theory of machine learning and forecasting. Moscow; 2013. 387 p. (In Russ.).
13. Mьller Andreas C., Guido Sarah. Introduction to Machine Learning with Python: A Guide for Data Scientists. Moscow: Williams; 2017. 480 p. (In Russ.).
14. Silipo Rosaria. KNIME beginner's luck: A guide to KNIME Data Mining software for beginners. KNIME Press; 2016.384 p.
Размещено на Allbest.ru
...Подобные документы
Характеристика профессиональной деятельности ОАО "Ростелеком" - национальной телекоммуникационной компании. Схема организации сети в Астраханской области. Структура телекоммуникационной системы, ее установка и монтаж. Обслуживание системы управления.
отчет по практике [232,5 K], добавлен 18.01.2015Понятие телекоммуникационной среды и ее дидактических возможностях на уроке информатики. Веб-технологии педагогического взаимодействия. Педагогические возможности Интернет и тенденции в обучении. Система технологических средств телекоммуникационной среды.
курсовая работа [3,0 M], добавлен 27.04.2008Выбор архитектуры сети, виды работ, необходимые для строительства и запуска в строй телекоммуникационной сети. Составление графика выполнения работ, методы управления и их ход проведения. Способы предоставления услуг и техническая поддержка клиентов.
дипломная работа [3,6 M], добавлен 14.05.2011Методы организации качественной связи для передачи информации различного вида между населенными пунктами. Обоснование и характеристика существующей сети связи. Определение и расчет числа каналов. Конфигурация проектируемой телекоммуникационной сети.
дипломная работа [1,6 M], добавлен 31.05.2013Выявление и оценка качества синхросигналов. Принципы построения сети тактовой синхронизации для телекоммуникационной сети. Разработка ситуационной схемы заданного фрагмента тактовой сетевой синхронизации при различных авариях и в нормальном режиме.
курсовая работа [644,2 K], добавлен 03.02.2014Расчет отношения сигнал/шум в трафик-каналах, пилот-канале, в поисковом канале и в канале синхронизации. Определение количества активных пользователей в одной соте. Графическое определение зависимости между радиусом соты и количеством активных абонентов.
курсовая работа [204,9 K], добавлен 20.02.2011Перспективы развития IP-телефонии (Интернет-телефонии). Сеть Интернет и протокол IP. История развития IP-телефонии. Преимущества использования IP-телефонии. Показатель качества IP-телефонии. Система расчетов за услуги IP-телефонии биллинга и менеджмента.
курсовая работа [35,3 K], добавлен 16.05.2008Определение количества необходимых абонентских линий. Расчет количества соединительных и промежуточных линий, рабочих мест операторов. Схема организации внешней связи и схема с номерами телефонов распределенных абонентов. Принцип построения станции.
курсовая работа [272,1 K], добавлен 26.03.2013Проектирование локальной сети для фирмы ОАО Росэнерго. Исследование информационных потоков компании. Выбор топологии сети, технологий и сетевых протоколов. Распределение адресного пространства. Разработка архитектуры сети. Экономическая оценка проекта.
дипломная работа [1,5 M], добавлен 28.08.2016Расчёт производительности узла доступа с учётом структуры нагрузки от абонентов, пользующихся различными видами услуг. Расчёт числа пакетов абонентов. Расчет математической модели эффекта туннелирования в MPLS. Гафики зависимостей различных величин.
курсовая работа [214,2 K], добавлен 20.02.2011Разработка подсистемы сбора гидрофизических параметров, которая может применяться для автономного океанологического зондирующего комплекса мониторинга, прогнозирования экологической обстановки морской экосистемы антропогенного воздействия на океан.
дипломная работа [2,6 M], добавлен 16.08.2009Структура и монтаж телекоммуникационной системы. Мониторинг работоспособности оборудования, линий и каналов. Управление станционными и абонентскими данными. Техобслуживание интегрированных программных коммутаторов. Устранение повреждений кабельной сети.
отчет по практике [1,8 M], добавлен 18.01.2015Знакомство с внутренней организацией работы компании в связи с предоставлением услуг Интернета. Подача заявки и формирование порядка подключения абонентов. Работа монтажников по установке сетевого оборудования. Проводка кабеля и подключение компьютера.
контрольная работа [1,1 M], добавлен 23.01.2014Проблемы покрытия сотовой сети на пассажирском судне, архитектура мобильной связи на пароме, анализ необходимого трафика. Выбор орбиты, частотного диапазона, технологии передачи. Энергетический расчет спутниковой линии восходящего и нисходящего участков.
курсовая работа [471,9 K], добавлен 21.11.2010Организация аудиовидеоконференцсвязи на участке Западно-Сибирской железной дороги, на станции Входной. Использование ее в ходе служебной связи необходимых абонентов или групп абонентов между собой. Возможность подключения уже существующих сетей.
дипломная работа [10,7 M], добавлен 10.03.2013Основные направления применения беспроводных компьютерных сетей. Типы коаксиальных кабелей. Размещение сетевых устройств и оборудования. Современные маршрутизаторы, их свойства. Подключение к глобальным сетям. Выбор сетевого программного обеспечения.
курсовая работа [2,0 M], добавлен 29.08.2013Развитие рынка телекоммуникационных услуг России. Процесс работы провайдера с клиентом. Точки взаимодействия сервисного провайдера, его клиентов, его поставщиков и других провайдеров услуг. Основные направления исследований и разработок TM Forum.
курсовая работа [833,6 K], добавлен 02.05.2015Разработка схемы построения городской телефонной сети на базе систем передачи синхронной цифровой иерархии. Нумерация абонентских линий. Составление диаграмм распределения нагрузки. Структурный состав абонентов. Выбор оптимальной структуры сети SDH.
курсовая работа [1,3 M], добавлен 01.12.2014Создание телекоммуникационной инфраструктуры, связывающей удаленные офисы фирм, обеспечение безопасности информационных потоков между ними. Защита информации, передаваемой по каналам связи, на базе сертифицированных криптошлюзов и протокола IPSec.
курсовая работа [68,8 K], добавлен 27.10.2011Классификация систем радиочастотной идентификации (РЧИ) и области их применения. Состав системы РЧИ, физические принципы работы. Преимущества и недостатки радиочастотной идентификации. Характеристики систем РЧИ и её элементов, международные стандарты.
реферат [2,3 M], добавлен 15.12.2010