Теоретические и практические аспекты использования деревьев принятия решений в анализе данных

Практические аспекты использования деревьев принятия решений на примере задачи классификации безработных по продолжительности поиска работы по данным Центра занятости населения. Недостатки деревьев принятия решений по сравнению с регрессионным анализом.

Рубрика Экономика и экономическая теория
Вид статья
Язык русский
Дата добавления 21.12.2019
Размер файла 156,8 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Теоретические и практические аспекты использования деревьев принятия решений в анализе данных

Чудинова О.С., канд. эконом. наук, доцент

Оренбургский государственный университет

Под анализом данных в настоящее время понимают область математики и информатики, занимающуюся исследованием, фильтрацией, преобразованием и моделированием данных с целью извлечения полезной информации и принятия решений. В западной литературе под анализом данных часто подразумевается мультидисциплинарная область Data Mining, возникшая и развивающаяся на базе достижений прикладной статистики, машинного обучения, методов искусственного интеллекта, теории баз данных, методов алгоритмизации. Связь с различными дисциплинами объясняет обилие методов и алгоритмов, реализованных в действующих системах Data Mining.

Практика показывает, что на текущий момент лучшими алгоритмами анализа структурированных данных являются алгоритмы, основанных на деревьях принятия решений [1]. Эти алгоритмы работают с признаками разного типа, не требуют предварительной обработки данных (стандартизации и заполнения пропусков). Они универсальны в том смысле, что могут решать различные задачи анализа данных: классификация, кластеризация, регрессия, поиск аномальных наблюдений, ранжирование и др.

К достоинствам деревьев принятия решений можно отнести:

- наглядность представления результатов;

- возможность работать с большим количеством признаков разного типа, автоматический отбор наиболее значимых переменных;

- способность выявлять сложные, нелинейные взаимосвязи между признаками;

- нечувствительность к выбросам;

- отсутствие строгих требование к распределению признаков.

Недостатком деревьев принятия решений по сравнению с регрессионным анализом является отсутствие уравнения регрессии и невозможность строить прогноз для наблюдений, лежащих вне диапазона обучающихся данных. Другой недостаток заключается в том, что некоторым методам деревьев решений свойственно переобучение (деревья строятся слишком детализированными, имеют много узлов и ветвей, сложны для интерпретации), а также нестабильность результатов.

Алгоритмы, основанные на деревьях принятия решений, реализованы во многих современных системах обработки статистической информации, например, в статистических пакетах SPSS, Statistica, имеются программы (скрипты) на языках программирования R и Python.

Практические аспекты использования деревьев принятия решений рассмотрим на примере задачи классификации безработных по продолжительности поиска работы по данным Центра занятости населения города Оренбурга.

Классификация является одной из наиболее часто решаемых задач анализа данных, она состоит в отнесении объектов (наблюдений) к одному из заранее известных классов. Классификация относится к стратегии обучения с учителем (supervised learning), именуемой также контролируемым или управляемым обучением.

Объем выборки составил 4711 человек. Каждый безработный характеризуется результативным признаком Trud, принимающим два значения («Трудоустроен в течение 30 дней» и «Не трудоустроен в течение 30 дней») и следующими факторными признаками:

Vozrast - возраст (до 29 лет, от 30 до 49 лет, 50 лет и старше);

ProfObr - уровень профессионального образования (высшее, среднее, начальное, нет профессионального образования);

Opit - наличие опыта работы (есть опыт работы, нет опыта работы);

Prof - профессия (рабочий, специалист или служащий, нет профессии).

Для построения модели классификации безработных на два класса в среде RStudio реализованы два метода деревьев решений - CHAID и CRT.

Метод CHAID (Chi-square Automatic Interaction Detector) исследует взаимосвязь между результативной и зависимыми переменными с помощью статистических тестов. Каждый раз для разбиения узла выбирается фактор, сильнее всего взаимодействующий с зависимой переменной, при этом узел может иметь более двух потомков, что может приводить к формированию раскидистых деревьев. Метод чувствителен к настройке уровней значимости для объединения категорий и разбиения узлов. Метод CRT (Classification and Regression Tree) для построения дерева использует принцип уменьшения неоднородности в узле и характеризуется тем, что при разбиении каждый узел может иметь лишь двух потомков. В связи с этим могут формироваться высокие деревья с большим количеством уровней [1].

Диаграмма дерева классификации, построенного методом CHAID в среде RStudio, представлена на рисунке 1. Построенное дерево имеет 5 внутренних и 9 терминальных узлов, из которых по 8 узлам прогнозируется трудоустройство в течение 30 дней. Продолжительность поиска работы будет меньше месяца для следующих категорий безработных:

- есть опыт работы и нет профессии;

- нет опыта работы, нет профессии, возраст до 29 лет, уровень профессионального образования - любой;

- нет опыта работы, нет профессии, возраст от 30 до 49 лет;

- нет опыта работы, нет профессии, возраст старше 50 лет;

- нет опыта работы, профессия рабочий, специалист или служащий.

Продолжительность поиска работы больше месяца имеют безработные с наличием опыта работы и профессии. Согласно классификационной таблице построенная модель правильно распознала 84% наблюдений. Площадь под ROC-кривой составила 0,774.

занятость безработный решение регрессионный

Рисунок 1 - Диаграмма дерева классификации CHAID в среде RStudio

Диаграмма дерева классификации, построенного методом CRT в среде RStudio, представлена на рисунке 2.

Рисунок 2 - Диаграмма дерева классификации CRT в среде RStudio

Построенное дерево имеет три терминальных узла, два из которых прогнозируют трудоустройство безработных в течение 30 дней. В построении дерева участвуют только два фактора: наличие опыта работы и профессия. Согласно модели в течение месяца трудоустраиваются безработные с опытом работы и не имеющие профессию, а также безработные без опыта работы. Безработные, имеющие профессию и опыт работы, ищут работу более 30 дней. Согласно классификационной таблице построенная модель правильно распознала 84% наблюдений. Площадь под ROC-кривой составила 0,69%.

Далее проведено сравнение результатов классификации безработных, полученных с помощью деревьев принятия решений, с результатами классификации на основе логит-модели бинарного выбора. Оценка логит-модели, учитывающей возраст, уровень профессионального образования, профессию и наличие опыта работы, имеет вид:

где результативный показатель принимает значение 1, если безработный трудоустроен в течение 30 дней и 0, если не трудоустроен;

, если возраст безработного от 30 до 49 лет, иначе;

, если возраст 50 лет и старше, иначе;

, если у безработного высшее профессиональное образование, иначе;

, если у безработного среднее профессиональное образование, иначе;

, если у безработного нет профессионального образования, , иначе;

, если у безработного есть опыт работы, иначе;

, если у безработного профессия специалист или служащий, иначе;

, если у безработного нет профессии, иначе.

Модель является значимой (наблюдаемое значение статистики Вальда составило Wald chi2(8)=756,29; наблюдаемый уровень значимости ), значимыми являются коэффициенты при всех признаках кроме и . Псевдо- для модели составил 0,1862. Таким образом, можно сделать вывод, что все рассматриваемые характеристики безработного (возраст, уровень профессионального образования, профессия и наличие опыта работы) влияют на вероятность трудоустройства. Учитывая знаки коэффициентов, можно сделать вывод, что при прочих равных условиях вероятность трудоустройства для безработных в возрасте до 30 лет выше, чем для безработных других рассматриваемых возрастных категорий; отсутствие профессионального образования и профессии увеличивает вероятность трудоустройства, а наличие опыта работы - снижает.

Согласно классификационной таблице построенная логит-модель правильно распознает 83,93% всех наблюдений, площадь под ROC-кривой составляет 0,768, что позволяет говорить о хорошем качестве построенной модели.

Результаты решения задачи классификации безработных, полученные с помощью методов, основанных на деревьях решений, и на основе логит-модели бинарного выбора, согласуются друг с другом и указывают на то, что наибольшим спросом на регистрируемом рынке труда города Оренбурга пользуются преимущественно работники низко квалифицированного труда, специалистам высокой квалификации сложнее найти работу. Полученные результаты в целом соответствуют результатам ранее проведенного исследования, визуализируют и дополняют их.

Предлагаемые в статье методы, основанные на деревьях принятия решений, расширяют математический инструментарий анализа и моделирования продолжительности регистрируемой безработицы, описанный и реализованный в статьях [2-6].

Список литературы

1. Груздев, А.В. Прогнозное моделирование в IBM SPSS Statistics, R и Python: метод деревьев решений и случайный лес. - М.: ДМК Пресс, 2018. - 642 с.

2. Чудинова, О.С. Ранжирование категорий безработных по степени их востребованности на рынке труда // Вестник Оренбургского государственного университета: Научно-практический журнал. - 2011. - №8. С. 205-208.

3. Чудинова, О.С. Исследование влияния качественных характеристик безработного на продолжительность поиска работы методами анализа таблиц сопряженности / О.С. Чудинова, С.М. Достова // Теоретические и практические вопросы развития научной мысли в современном мире: сборник статей II Международной научно-практической конференции. 29-30 апреля 2013 г.: в 4 ч. Ч.1. - Уфа: РИЦ БашГУ, 2013. - С. 256-261.

4. Чудинова, О.С. Методы анализа и моделирования регистрируемой безработицы // Формирование основных направлений развития современной статистики и эконометрики: материалы I-ой Международной научной конференции. Том III (26-28 сентября 2013 года). - Оренбург: ООО ИПК «Университет», 2013. - С. 339-347.

5. Чудинова, О.С. Исследование влияния факторов на продолжительность регистрируемой безработицы // Экономика и предпринимательство. - 2014. - № 12-4 (53-4). - С. 345-351.

6. Чудинова, О.С. Оценка востребованности зарегистрированных безработных на рынке труда Оренбургского района / О.С. Чудинова, С.М. Герасимова // В сборнике: Наука и образование: фундаментальные основы, технологии, инновации Сборник материалов Международной научной конференции, посвященной 60-летию Оренбургского государственного университета. - 2015. - С. 264-268.

Размещено на Allbest.ru

...

Подобные документы

  • Типы моделей: дескриптивный, предикативный и нормативный. Связь экономических явлений. Модель факторной системы. Элементы теории моделирования. Методы принятия решений. Платежная матрица. Дерево решений (сценариев). Теория игр.

    реферат [23,7 K], добавлен 09.12.2002

  • Теоретические основы принятия управленческих решений в строительстве. Их понятие, классификация и роль в управлении. Последовательность включения объектов в поток, соотношение квартир в застраиваемом микрорайоне. Оптимальное распределение ресурсов.

    курсовая работа [268,9 K], добавлен 15.02.2016

  • Сущность маржинального анализа и его место в управлении затратами. Использование маржинальной концепции в финансовом анализе для принятия решений по ценообразованию в ЗАО МПБК "Очаково"; оценка зависимости между затратами, объемом производства и прибылью.

    дипломная работа [1,5 M], добавлен 17.11.2012

  • Технико-экономическое обоснование разработки системы поддержки принятия решений при обеспечении коллективного доступа к интернет. Программные средства вычислительной техники. Расчет сметы затрат, себестоимости и отпускной цены программных средств.

    реферат [76,6 K], добавлен 03.12.2008

  • Экономические основы принятия решений в семьях. Теория распределения власти. Классификация семейных решений о предложении труда. Модели рынка труда с позиций домохозяйств. Значение социальных норм и представлений о гендерных ролях в принятии решений.

    реферат [44,3 K], добавлен 17.03.2013

  • Особенности теории предпочтения, стандартные типы закономерностей процессов обнаружения данных. Разнообразие задач классификации, процедура ее описания. Методы исследования и виды структур данных. Основные положения и методики статистического анализа.

    курсовая работа [218,0 K], добавлен 24.06.2009

  • Сущность управленческого решения. Логика построения и корректировки систем управления. Критерии исследования и причины патологий управленческих систем. Механизм принятия, специфика реализации и показатели оценки эффективности управленческих решений.

    реферат [22,3 K], добавлен 19.01.2012

  • Процесс производства. Выпуск продукции, совокупный продукт переменного фактора, средний и предельный продукты. Прибыль и рентабельность. Виды прибыли и рентабельности. Классификация управленческих решений. Методы подготовки, принятия и реализации решений.

    шпаргалка [141,7 K], добавлен 05.04.2009

  • Понятие "ментальность" и "менталитет". Теоретические и практические аспекты измерения занятости в неформальной экономике. Особенность современных "теневых" экономических отношений в российском бизнесе. Имидж предпринимателя в представлениях населения.

    реферат [131,5 K], добавлен 25.06.2013

  • Раскрытие сущности макроэкономического развития Брянской области. Разработка концепции построения системы поддержки принятия решений в прогнозировании макроэкономического развития. Разработка модели макроэкономического развития Брянской области.

    курсовая работа [94,9 K], добавлен 26.08.2017

  • Экономическая сущность и виды издержек производства. Психологические основы принятия решений в условиях неопределенности. Пути повышения эффективности использования издержек производства в условиях неопределенности примере ОАО "Татнефть" и его филиалов.

    курсовая работа [41,8 K], добавлен 28.02.2010

  • Теоретические основы экономической эффективности инвестиций. Методы борьбы с инвестиционными рисками. Анализ эффективности инвестиционной деятельности на примере ЗАО "Белгородский цемент". Общеэкономическое значение принятия инвестиционных решений.

    реферат [382,9 K], добавлен 12.12.2014

  • Теоретические аспекты анализа безубыточности объема продаж и зоны безубыточности предприятия. Анализ основных показателей и факторный анализ прибыли ООО СПК "Звениговский". Анализ безубыточного объема продаж и зоны безопасности ООО СПК "Звениговский".

    курсовая работа [76,6 K], добавлен 28.07.2010

  • Обратимость экономических решений и инвестиции. Гибкие и негибкие решения с точки зрения их обратимости. Значение определения точки отсчета. Обратимость в социальной сфере, а также в экономической жизни. Выгоды от принятия решения и необратимые затраты.

    контрольная работа [39,0 K], добавлен 14.11.2011

  • Подвижность населения и трудовых ресурсов как важнейшая особенность современной демографии. Миграции трудовых ресурсов, эволюция ее теорий, виды, причины и последствия. Анализ принятия миграционных решений с точки зрения теории человеческого капитала.

    контрольная работа [39,0 K], добавлен 11.10.2009

  • Изучение проблемы безработицы, анализ и рассмотрение рекомендаций, которые могли бы быть использованы для разработки и реализации эффективной экономической и социальной политики, направленной на обеспечение занятости трудоспособного населения страны.

    курсовая работа [3,6 M], добавлен 28.08.2011

  • Содержание, задачи и принципы экономического анализа, его связь с другими экономическими науками. Экономический анализ как база принятия управленческих решений. Классификация видов и роль экономического анализа в управлении коммерческой организацией.

    курсовая работа [44,7 K], добавлен 03.08.2010

  • Характеристика предприятия ООО "Рольф-Восток": правовой и организационный статус, основные задачи и направления деятельности. Информационно-аналитическое обеспечение сбора информации и принятия управленческих решений; финансово-экономические показатели.

    отчет по практике [735,0 K], добавлен 15.06.2011

  • Промышленная политика как организация работы в процессе принятия решений в области производства и инвестирования, развития инфраструктуры и человеческого капитала в целях стимулирования отечественного производства. Ее задачи и состояние в Казахстане.

    презентация [134,2 K], добавлен 10.11.2014

  • Обработка данных лесной промышленности: получение распределения случайной величины, проверка гипотезы, проведение дисперсионного, корреляционного и регрессивного анализа. Сущность и содержание, особенности применения теории принятия решений, ее принципы.

    контрольная работа [314,2 K], добавлен 12.02.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.