Теоретические и практические аспекты использования деревьев принятия решений в анализе данных

Исследование, фильтрация, преобразование и моделирование данных с целью извлечения полезной информации и принятия решений. Алгоритмы анализа структурированных данных, основанные на деревьях принятия решений. Выявление нелинейных связей между признаками.

Рубрика Экономико-математическое моделирование
Вид статья
Язык русский
Дата добавления 02.04.2019
Размер файла 253,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Теоретические и практические аспекты использования деревьев принятия решений в анализе данных

Чудинова О.С.

канд. эконом. наук, доцент

Оренбургский государственный университет

Под анализом данных в настоящее время понимают область математики и информатики, занимающуюся исследованием, фильтрацией, преобразованием и моделированием данных с целью извлечения полезной информации и принятия решений. В западной литературе под анализом данных часто подразумевается мультидисциплинарная область Data Mining, возникшая и развивающаяся на базе достижений прикладной статистики, машинного обучения, методов искусственного интеллекта, теории баз данных, методов алгоритмизации. Связь с различными дисциплинами объясняет обилие методов и алгоритмов, реализованных в действующих системах Data Mining.

Практика показывает, что на текущий момент лучшими алгоритмами анализа структурированных данных являются алгоритмы, основанных на деревьях принятия решений [1]. Эти алгоритмы работают с признаками разного типа, не требуют предварительной обработки данных (стандартизации и заполнения пропусков). Они универсальны в том смысле, что могут решать различные задачи анализа данных: классификация, кластеризация, регрессия, поиск аномальных наблюдений, ранжирование и др.

К достоинствам деревьев принятия решений можно отнести:

- наглядность представления результатов;

- возможность работать с большим количеством признаков разного типа, автоматический отбор наиболее значимых переменных;

- способность выявлять сложные, нелинейные взаимосвязи между признаками;

- нечувствительность к выбросам;

- отсутствие строгих требование к распределению признаков.

Недостатком деревьев принятия решений по сравнению с регрессионным анализом является отсутствие уравнения регрессии и невозможность строить прогноз для наблюдений, лежащих вне диапазона обучающихся данных. Другой недостаток заключается в том, что некоторым методам деревьев решений свойственно переобучение (деревья строятся слишком детализированными, имеют много узлов и ветвей, сложны для интерпретации), а также нестабильность результатов.

Алгоритмы, основанные на деревьях принятия решений, реализованы во многих современных системах обработки статистической информации, например, в статистических пакетах SPSS, Statistica, имеются программы (скрипты) на языках программирования R и Python.

Практические аспекты использования деревьев принятия решений рассмотрим на примере задачи классификации безработных по продолжительности поиска работы по данным Центра занятости населения города Оренбурга.

Классификация является одной из наиболее часто решаемых задач анализа данных, она состоит в отнесении объектов (наблюдений) к одному из заранее известных классов. Классификация относится к стратегии обучения с учителем (supervised learning), именуемой также контролируемым или управляемым обучением.

Объем выборки составил 4711 человек. Каждый безработный характеризуется результативным признаком Trud, принимающим два значения («Трудоустроен в течение 30 дней» и «Не трудоустроен в течение 30 дней») и следующими факторными признаками:

Vozrast - возраст (до 29 лет, от 30 до 49 лет, 50 лет и старше);

ProfObr - уровень профессионального образования (высшее, среднее, начальное, нет профессионального образования);

Opit - наличие опыта работы (есть опыт работы, нет опыта работы);

Prof - профессия (рабочий, специалист или служащий, нет профессии).

Для построения модели классификации безработных на два класса в среде RStudio реализованы два метода деревьев решений - CHAID и CRT.

Метод CHAID (Chi-square Automatic Interaction Detector) исследует взаимосвязь между результативной и зависимыми переменными с помощью статистических тестов. Каждый раз для разбиения узла выбирается фактор, сильнее всего взаимодействующий с зависимой переменной, при этом узел может иметь более двух потомков, что может приводить к формированию раскидистых деревьев. Метод чувствителен к настройке уровней значимости для объединения категорий и разбиения узлов. Метод CRT (Classification and Regression Tree) для построения дерева использует принцип уменьшения неоднородности в узле и характеризуется тем, что при разбиении каждый узел может иметь лишь двух потомков. В связи с этим могут формироваться высокие деревья с большим количеством уровней [1].

Диаграмма дерева классификации, построенного методом CHAID в среде RStudio, представлена на рисунке 1. Построенное дерево имеет 5 внутренних и 9 терминальных узлов, из которых по 8 узлам прогнозируется трудоустройство в течение 30 дней. Продолжительность поиска работы будет меньше месяца для следующих категорий безработных:

- есть опыт работы и нет профессии;

- нет опыта работы, нет профессии, возраст до 29 лет, уровень профессионального образования - любой;

- нет опыта работы, нет профессии, возраст от 30 до 49 лет;

- нет опыта работы, нет профессии, возраст старше 50 лет;

- нет опыта работы, профессия рабочий, специалист или служащий.

дерево принятие решение данные

Рисунок 1 - Диаграмма дерева классификации CHAID в среде RStudio

Продолжительность поиска работы больше месяца имеют безработные с наличием опыта работы и профессии. Согласно классификационной таблице построенная модель правильно распознала 84% наблюдений. Площадь под ROC-кривой составила 0,774.

Диаграмма дерева классификации, построенного методом CRT в среде RStudio, представлена на рисунке 2.

Рисунок 2 - Диаграмма дерева классификации CRT в среде RStudio

Построенное дерево имеет три терминальных узла, два из которых прогнозируют трудоустройство безработных в течение 30 дней. В построении дерева участвуют только два фактора: наличие опыта работы и профессия. Согласно модели в течение месяца трудоустраиваются безработные с опытом работы и не имеющие профессию, а также безработные без опыта работы. Безработные, имеющие профессию и опыт работы, ищут работу более 30 дней. Согласно классификационной таблице построенная модель правильно распознала 84% наблюдений. Площадь под ROC-кривой составила 0,69%.

Далее проведено сравнение результатов классификации безработных, полученных с помощью деревьев принятия решений, с результатами классификации на основе логит-модели бинарного выбора. Оценка логит-модели, учитывающей возраст, уровень профессионального образования, профессию и наличие опыта работы, имеет вид:

,

где результативный показатель принимает значение 1, если безработный трудоустроен в течение 30 дней и 0, если не трудоустроен;

, если возраст безработного от 30 до 49 лет, иначе;

, если возраст 50 лет и старше, иначе;

, если у безработного высшее профессиональное образование, иначе;

, если у безработного среднее профессиональное образование, иначе;

, если у безработного нет профессионального образования, , иначе;

, если у безработного есть опыт работы, иначе;

, если у безработного профессия специалист или служащий, иначе;

, если у безработного нет профессии, иначе.

Модель является значимой (наблюдаемое значение статистики Вальда составило Wald chi2(8)=756,29; наблюдаемый уровень значимости ), значимыми являются коэффициенты при всех признаках кроме и . Псевдо- для модели составил 0,1862. Таким образом, можно сделать вывод, что все рассматриваемые характеристики безработного (возраст, уровень профессионального образования, профессия и наличие опыта работы) влияют на вероятность трудоустройства. Учитывая знаки коэффициентов, можно сделать вывод, что при прочих равных условиях вероятность трудоустройства для безработных в возрасте до 30 лет выше, чем для безработных других рассматриваемых возрастных категорий; отсутствие профессионального образования и профессии увеличивает вероятность трудоустройства, а наличие опыта работы - снижает.

Согласно классификационной таблице построенная логит-модель правильно распознает 83,93% всех наблюдений, площадь под ROC-кривой составляет 0,768, что позволяет говорить о хорошем качестве построенной модели.

Результаты решения задачи классификации безработных, полученные с помощью методов, основанных на деревьях решений, и на основе логит-модели бинарного выбора, согласуются друг с другом и указывают на то, что наибольшим спросом на регистрируемом рынке труда города Оренбурга пользуются преимущественно работники низко квалифицированного труда, специалистам высокой квалификации сложнее найти работу. Полученные результаты в целом соответствуют результатам ранее проведенного исследования, визуализируют и дополняют их. Предлагаемые в статье методы, основанные на деревьях принятия решений, расширяют математический инструментарий анализа и моделирования продолжительности регистрируемой безработицы, описанный и реализованный в статьях [2-6].

Список литературы

1. Груздев, А.В. Прогнозное моделирование в IBM SPSS Statistics, R и Python: метод деревьев решений и случайный лес. - М.: ДМК Пресс, 2018. - 642 с.

2. Чудинова, О.С. Ранжирование категорий безработных по степени их востребованности на рынке труда // Вестник Оренбургского государственного университета: Научно-практический журнал. - 2011. - №8. - С. 205-208.

3. Чудинова, О.С. Исследование влияния качественных характеристик безработного на продолжительность поиска работы методами анализа таблиц сопряженности / О.С. Чудинова, С.М. Достова // Теоретические и практические вопросы развития научной мысли в современном мире: сборник статей II Международной научно-практической конференции. 29-30 апреля 2013 г.: в 4 ч. Ч.1. - Уфа: РИЦ БашГУ, 2013. - С. 256-261.

4. Чудинова, О.С. Методы анализа и моделирования регистрируемой безработицы // Формирование основных направлений развития современной статистики и эконометрики: материалы I-ой Международной научной конференции. Том III (26-28 сентября 2013 года). - Оренбург: ООО ИПК «Университет», 2013. - С. 339-347.

5. Чудинова, О.С. Исследование влияния факторов на продолжительность регистрируемой безработицы // Экономика и предпринимательство. - 2014. - № 12-4 (53-4). - С. 345-351.

6. Чудинова, О.С. Оценка востребованности зарегистрированных безработных на рынке труда Оренбургского района / О.С. Чудинова, С.М. Герасимова // В сборнике: Наука и образование: фундаментальные основы, технологии, инновации Сборник материалов Международной научной конференции, посвященной 60-летию Оренбургского государственного университета. - 2015. - С. 264-268.

Размещено на Allbest.ru

...

Подобные документы

  • Статистические модели принятия решений. Описание моделей с известным распределением вероятностей состояния среды. Рассмотрение простейшей схемы динамического процесса принятия решений. Проведение расчета вероятности произведенной модификации предприятия.

    контрольная работа [383,0 K], добавлен 07.11.2011

  • Разработка и принятие правильного решения как задачи работы управленческого персонала организации. Деревья решений - один из методов автоматического анализа данных, преимущества их использования и область применения. Построение деревьев классификации.

    контрольная работа [91,6 K], добавлен 08.09.2011

  • Понятие измерительной шкалы и их виды в математическом моделировании: шкала наименований (полинальная), порядковая, интервальная и шкала отношений. Статистические меры, допустимые для разных типов шкал. Основные положения теории принятия решений.

    контрольная работа [21,7 K], добавлен 16.02.2011

  • Теория статистических решений как поиск оптимального недетерминированного поведения в условиях неопределенности. Критерии принятия решений Лапласа, минимаксный, Сэвиджа, Гурвица и различия между ними. Математические средства описания неопределенностей.

    контрольная работа [66,0 K], добавлен 25.03.2009

  • Теория игр в контексте теории принятия решений. Игры без седловых точек. Использование линейной оптимизации при решении матричных игр. Критерии, используемые для принятия решений в играх с природой. Решение парных матричных игр с нулевой суммой.

    контрольная работа [437,2 K], добавлен 14.02.2011

  • Решение задач при помощи пакета прикладных программ MatLab. Загрузка в MatLab матриц A и P. Нахождение оптимальной стратегии для заданных матриц с использованием критериев принятия решений в условиях неопределённости Вальда, Гурвица, Лапласа, Сэвиджа.

    лабораторная работа [80,2 K], добавлен 18.03.2015

  • Понятие нулевой и альтернативной гипотез. Обычная процедура принятия решений. Область принятия гипотезы. Гипотетическое распределение, область принятия и распределения в действительности. Области и вероятность совершения ошибки при принятии решения.

    презентация [61,3 K], добавлен 20.01.2015

  • Задача линейного программирования. Определение количества листов фанеры и по какому способу их следует раскроить так, чтобы было получено не менее нужного количества заготовок при минимальной стоимости. Регрессионный анализ данных доходов и сбережений.

    контрольная работа [444,2 K], добавлен 24.11.2013

  • Оптимизация решений динамическими методами. Расчет оптимальных сроков начала строительства объектов. Принятие решений в условиях риска (определение математического ожидания) и неопределенности (оптимальная стратегия поведения завода, правило максимакса).

    контрольная работа [57,1 K], добавлен 04.10.2010

  • Методика получения оценок, используемых в процедурах проектирования управленческих решений. Прикладное использование модели многофакторной линейной регрессии. Создание ковариационной матрицы данных и производных от неё паттернов проектирования решений.

    статья [410,9 K], добавлен 03.09.2016

  • Экономико-математическое моделирование как метод научного познания, классификация его процессов. Экономико-математическое моделирование транспортировки нефти нефтяными компаниями на примере ОАО "Лукойл". Моделирование личного процесса принятия решений.

    курсовая работа [770,1 K], добавлен 06.12.2014

  • Принятие решений в условиях неопределенности. Критерий Лапласа и принцип недостаточного основания. Критерий крайнего пессимизма. Требования критерия Гурвица. Нахождение минимального риска по Сэвиджу. Выбор оптимальной стратегии при принятии решения.

    контрольная работа [34,3 K], добавлен 01.02.2012

  • Классическая теория оптимизации. Функция скаляризации Чебышева. Критерий Парето-оптимальность. Марковские процессы принятия решений. Метод изменения ограничений. Алгоритм нахождения кратчайшего пути. Процесс построения минимального остовного дерева сети.

    контрольная работа [182,8 K], добавлен 18.01.2015

  • Особенности формирования математической модели принятия решений, постановка задачи выбора. Понятие оптимальности по Парето и его роль в математической экономике. Составление алгоритма поиска парето-оптимальных решений, реализация программного средства.

    контрольная работа [1,2 M], добавлен 11.06.2011

  • Математическая модель задачи принятия решения в условиях риска. Нахождение оптимального решения по паре критериев. Построение реализационной структуры задачи принятия решения. Ориентация на математическое ожидание, среднеквадратичное отклонение.

    курсовая работа [79,0 K], добавлен 16.09.2013

  • Построение эконометрических моделей и адекватная оценка их параметров для принятия обоснованных экономических решений. Проведение анализа и краткосрочного прогнозирования урожайности зерновых культур в Нижнем Поволжье методом многократного выравнивания.

    реферат [51,4 K], добавлен 25.02.2011

  • Алгоритм решения задачи выбора места предполагаемого трудоустройства из трех возможных вариантов по заданным критериям (удовлетворенность работой, карьерный рост, уровень доходов, репутация фирмы) методом анализа иерархии проблемы несколькими экспертами.

    курсовая работа [350,1 K], добавлен 07.05.2011

  • Характеристика ипотечного кредитования на примере Брянской области. Обзор математических методов принятия решений: экспертных оценок, последовательных и парных сравнений, анализа иерархий. Разработка программы поиска оптимального ипотечного кредита.

    курсовая работа [1,7 M], добавлен 29.11.2012

  • Моделирование экономических процессов методами планирования и управления. Построение сетевой модели. Оптимизация сетевого графика при помощи табличного редактора Microsoft Excel и среды программирования Visual Basic. Методы принятия оптимальных решений.

    курсовая работа [217,2 K], добавлен 22.11.2013

  • Построение графа состояний и переходов процесса функционирования систем массового обслуживания. Вычисление вероятности внесения вкладов частных лиц в сберегательный банк за любой промежуток времени. Схемы принятия решений в условиях неопределенности.

    контрольная работа [118,1 K], добавлен 12.01.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.