Оценка результатов построения деревьев решений при помощи регрессионного анализа

Возникновение и применения метода построения деревьев решений. Основные существующие алгоритмы и решаемые ими задачи. Существующие статистические методы, применяемые для решения тех же задач. Категориальная бинарная и небинарная целевая переменная.

Рубрика Экономико-математическое моделирование
Вид дипломная работа
Язык русский
Дата добавления 01.12.2019
Размер файла 591,6 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

4.1 Категориальная бинарная целевая переменная

«Diagnosing Unhappiness Dynamics: Evidence from Poland and Russia»

В работе оценивается биномиальная логистическая регрессия, в которой изучается связь между вероятностью быть несчастным (самооценка респондента) и набором социально-демографических и физиологических характеристик.

Прежде всего, кратко представим переменные. Процедура кодировки переменных в настоящей работе полностью повторяет процедуру изначального исследования. Из-за особенностей языка названия переменных и описание категорий может осуществляться только латиницей.

Таблица 2

Описание переменных в модели

Переменная

Описание

Целевая / зависимая переменная

Unhapp_k_3

Факт того, что респондент чувствует себя несчастным, порог - третья с низу категория (ни счастлив, ни несчастлив). Бинарная категориальная переменная.

Предикторы / независимые переменные

sex

Пол респондента. Категориальная бинарная.

educ

Уровень образования: «низкий», «средний», «высокий», категориальная.

Real_inc

Уровень месячного дохода из всех источников в рублях.

Poor

Факт того, что доход респондента ниже 60% медианного дохода по выборке, категориальная бинарная.

Rich

Факт того, что доход респондента выше 200% медианного дохода по выборке, категориальная бинарная

Rel_poor

Факт того, что доход респондента ниже 60% медианного дохода в его социально-демографической группе (люди с тем же полом, возрастом, уровнем образования), категориальная бинарная.

Rel_rich

Факт того, что доход респондента выше 200% медианного дохода в его социально-демографической группе (люди с тем же полом, возрастом, уровнем образования), категориальная бинарная.

Health

«Хорошее», «нормальное» или «плохое», самооценка. Категориальная бинарная.

Obese

Наличие ожирения - индекс массы тела более 30. Категориальная бинарная.

Overweight

Наличие лишнего веса - индекс массы тела выше 25, но ниже 30. Категориальная бинарная.

Employed

Статус занятости. Работает, не работает, на пенсии, не входит в трудовые силы, инвалид. Категориальная небинарная.

Status

Тип населенного пункта. Москва ил Санкт-Петербург, облстной центр, город, ПГТ, сельская местность.

Is_russian

Русский по национальности. Категориальная бинарная.

Marital

Семейное положение. Женат/замужем, неженат/не замужем, уже не женат/не замужем.

Has_children

Наличие детей. Категориальная бинарная.

Savings

Наличие сбережений. Категориальная бинарная.

Own_home

Наличие жилья в собственности. Категориальная бинарная.

После перекодировки переменных выборка была разделена на две части в соотношении 75:25 на тренировочную и тестовую. Оценка параметров модели проводится на тренировочной выборке. Размер тренировочной выборки составил 7,986 наблюдений. В следующей таблице представлены итоговые коэффициенты воспроизведенной модели в сравнении с коэффициентами оригинальной модели.

Таблица 3

Оценка бинарной логистической регрессии

Переменная

Воспроизведенная модель

Оригинальная модель

Значение коэффициента Exp(B)

Значение коэффициента Exp(B)

Sex_Female

0.023

0.014

Status_Countryside

-0.260***

-0.032

Status_Regional center

0.097

0.552**

Age_18-24

-1.019***

-0.822***

Age_25-34

-0.312***

-0.267***

Age_45-54

0.216**

0.107

Age_55-64

0.146

-0.195**

Educ_Higher

-0.313***

-0.292***

Educ_Low

0.291***

0.235**

Rich

-0.242**

-0.167

Poor

-0.027

0.247**

Rel_rich

-0.213*

0.076

Rel_poor

0.152

0.076

Health_Bad health

0.437***

0.719***

Health_Good health

-1.003***

-0.574***

Obese

-0.227**

-0.030

Overweight

-0.106

-0.136**

Employment_Disabled

-0.263

0.415*

Employment_Inactive

-0.375***

0.086

Employment_Retired

-0.042

0.124

Employment_Unemployed

-0.098

1.110***

Is_russian

0.617***

0.074

Marital_Married

-0.704***

-0.472***

Marital_No longer married

0.513***

0.089

Has_children

-0.350***

-0.062

Own_home

-0.107

-0.184**

Savings

-0.160*

-0.242***

Real_inc

-0.0023

-0.034***

Constant

1.115***

N

7,986

Log Likelihood

-4,868.482

AIC

9,796.964

*p <.05; **p <.01; ***p <.001

Сравнивая коэффициенты можно отметить, что модели согласуются между собой по направлению связи и её значимости для большинства переменных и их категорий. Существующие отличия объясняются тем, что изначальная работа была построена на данных 2014 года и, по всей видимости, на полной выборке, а в настоящей работе используются данные 2016 года и только 75% выборки. В целом можно сказать, что воспроизведенная модель сравнима с изначальной.

Далее построим конкурирующие модели при помощи алгоритмов построения деревьев решений.

CHAID

Для постройки дерева при помощи алгоритма CHAID были выбраны следующие дополнительные параметры: минимальное число наблюдений в делящемся узле - 500.

Итоговое дерево выглядит следующим образом:

Рис. 2 Дерево построенное методом CHAID. Для модели из работы «Diagnosing Unhappiness Dynamics: Evidence from Poland and Russia».

Как мы видим, несмотря на введенные ограничения, дерево получилось достаточно ветвистым, оно содержит 21 внутренний узел и 28 листов. В текстовом виде дерево можно представить следующим образом:

Правила разделения для дерева CHAID:

[1] root

| [2] Health in Fair health

| | [3] Marital in Single: Unhappy (n = 441, err = 29.9%)

| | [4] Marital in Married

| | | [5] age in 35-44

| | | | [6] Has_children in No children: Unhappy (n = 58, err = 22.4%)

| | | | [7] Has_children in Has children

| | | | | [8] Is_russian in Other: Happy (n = 90, err = 37.8%)

| | | | | [9] Is_russian in Russian_nationality

| | | | | | [10] Rel_rich in Not relatively rich: Unhappy (n = 542, err = 41.7%)

| | | | | | [11] Rel_rich in Relatively_rich: Happy (n = 95, err = 41.1%)

| | | [12] age in 18-24, 25-34

| | | | [13] status in Town, Regional center: Happy (n = 488, err = 48.6%)

| | | | [14] status in Countryside, Small town: Happy (n = 143, err = 34.3%)

| | | [15] age in 45-54, 55-64

| | | | [16] Poor in Not poor

| | | | | [17] status in Town, Countryside, Small town

| | | | | | [18] Own_home in Do not own house: Unhappy (n = 21, err = 23.8%)

| | | | | | [19] Own_home in Own house: Unhappy (n = 651, err = 45.8%)

| | | | | [20] status in Regional center: Unhappy (n = 490, err = 34.9%)

| | | | [21] Poor in Poor: Unhappy (n = 333, err = 31.5%)

| | [22] Marital in No longer married

| | | [23] Has_children in No children: Unhappy (n = 61, err = 8.2%)

| | | [24] Has_children in Has children

| | | | [25] Rel_rich in Not relatively rich: Unhappy (n = 440, err = 20.0%)

| | | | [26] Rel_rich in Relatively_rich: Unhappy (n = 150, err = 30.7%)

| [27] Health in Bad health: Unhappy (n = 484, err = 25.0%)

| [28] Health in Good health

| | [29] Marital in Single

| | | [30] Is_russian in Other: Happy (n = 199, err = 16.6%)

| | | [31] Is_russian in Russian_nationality

| | | | [32] age in 35-44, 45-54: Unhappy (n = 79, err = 40.5%)

| | | | [33] age in 18-24, 55-64: Happy (n = 409, err = 34.0%)

| | | | [34] age in 25-34: Happy (n = 185, err = 47.6%)

| | [35] Marital in Married

| | | [36] Is_russian in Other: Happy (n = 391, err = 18.4%)

| | | [37] Is_russian in Russian_nationality

| | | | [38] educ in Middle, Low

| | | | | [39] age in 35-44, 45-54, 55-64

| | | | | | [40] Savings in No savings

| | | | | | | [41] status in Town, Countryside, Regional center: Happy (n = 604, err = 42.5%)

| | | | | | | [42] status in Small town: Happy (n = 51, err = 21.6%)

| | | | | | [43] Savings in Has savings: Happy (n = 92, err = 25.0%)

| | | | | [44] age in 18-24: Happy (n = 109, err = 16.5%)

| | | | | [45] age in 25-34

| | | | | | [46] Obese in Not obese: Happy (n = 462, err = 36.6%)

| | | | | | [47] Obese in Obese: Happy (n = 52, err = 15.4%)

| | | | [48] educ in Higher: Happy (n = 784, err = 24.6%)

| | [49] Marital in No longer married: Unhappy (n = 304, err = 35.2%)

CART

Для постройки дерева при помощи алгоритма CART были выбраны следующие дополнительные параметры: минимальное число наблюдений в делящемся узле - 90, минимальное число наблюдений в листе - 30, сложность (CP-parameter - минимальное приращение R-квадрата при каждом новом разделении) - 0.0009.

Итоговое дерево выглядит следующим образом:

Рис. 2 Дерево построенное методом CART (rpart). Для модели из работы «Diagnosing Unhappiness Dynamics: Evidence from Poland and Russia»

Всего модель содержит 17 узлов и 18 листов. Правила разделения выборки приведены ниже.

1) root 8679 4313 Happy (0.5030533 0.4969467)

2) Health=Good health 3931 1320 Happy (0.6642076 0.3357924)

4) Marital=Single,Married 3612 1115 Happy (0.6913068 0.3086932)

8) Is_russian=Other 624 108 Happy (0.8269231 0.1730769) *

9) Is_russian=Russian_nationality 2988 1007 Happy (0.6629853 0.3370147)

18) educ=Higher 1019 286 Happy (0.7193327 0.2806673) *

19) educ=Middle,Low 1969 721 Happy (0.6338243 0.3661757)

38) age=18-24 475 141 Happy (0.7031579 0.2968421) *

39) age=35-44,25-34,45-54,55-64 1494 580 Happy (0.6117805 0.3882195)

78) Marital=Married 1334 492 Happy (0.6311844 0.3688156) *

79) Marital=Single 160 72 Unhappy (0.4500000 0.5500000)

158) Real_inc>=12613.96 74 30 Happy (0.5945946 0.4054054) *

159) Real_inc< 12613.96 86 28 Unhappy (0.3255814 0.6744186) *

5) Marital=No longer married 319 114 Unhappy (0.3573668 0.6426332) *

3) Health=Fair health,Bad health 4748 1755 Unhappy (0.3696293 0.6303707)

6) Marital=Married 3389 1444 Unhappy (0.4260844 0.5739156)

12) age=18-24,25-34 695 319 Happy (0.5410072 0.4589928)

24) status=Countryside,Small town 151 54 Happy (0.6423841 0.3576159) *

25) status=Town,Regional center 544 265 Happy (0.5128676 0.4871324)

50) Real_inc< 836.5103 62 21 Happy (0.6612903 0.3387097) *

51) Real_inc>=836.5103 482 238 Unhappy (0.4937759 0.5062241)

102) Real_inc>=19838.7 147 63 Happy (0.5714286 0.4285714) *

103) Real_inc< 19838.7 335 154 Unhappy (0.4597015 0.5402985)

206) Own_home=Do not own house 61 25 Happy (0.5901639 0.4098361) *

207) Own_home=Own house 274 118 Unhappy (0.4306569 0.5693431)

414) Real_inc< 7582.569 91 44 Happy (0.5164835 0.4835165)

828) Real_inc>=6061.862 30 10 Happy (0.6666667 0.3333333) *

829) Real_inc< 6061.862 61 27 Unhappy (0.4426230 0.5573770) *

415) Real_inc>=7582.569 183 71 Unhappy (0.3879781 0.6120219) *

13) age=35-44,45-54,55-64 2694 1068 Unhappy (0.3964365 0.6035635)

26) Real_inc>=19025 664 328 Unhappy (0.4939759 0.5060241)

52) status=Town,Small town 243 98 Happy (0.5967078 0.4032922) *

53) status=Countryside,Regional center 421 183 Unhappy (0.4346793 0.5653207) *

27) Real_inc< 19025 2030 740 Unhappy (0.3645320 0.6354680) *

7) Marital=Single,No longer married 1359 311 Unhappy (0.2288447 0.7711553) *

C 4.5

Для постройки дерева при помощи алгоритма C4.5 были выбраны следующие дополнительные параметры: минимальное число наблюдений в листе - 60.

Итоговое дерево выглядит следующим образом:

Рис. 3 Дерево построенное методом C4.5. Для модели из работы «Diagnosing Unhappiness Dynamics: Evidence from Poland and

Всего модель содержит 12 узлов и 26 листов. Правила разделения выборки приведены ниже.

Health = Fair health

| Marital = Single: Unhappy (432.0/128.0)

| Marital = Married

| | Rel_rich = Not relatively rich

| | | age = 35-44

| | | | Is_russian = Other: Happy (84.0/33.0)

| | | | Is_russian = Russian_nationality: Unhappy (589.0/236.0)

| | | age = 18-24: Happy (53.0/19.0)

| | | age = 25-34

| | | | status = Town: Unhappy (137.0/58.0)

| | | | status = Countryside: Happy (100.0/35.0)

| | | | status = Regional center

| | | | | sex = Male: Unhappy (94.0/44.0)

| | | | | sex = Female: Happy (104.0/44.0)

| | | | status = Small town: Happy (15.0/7.0)

| | | age = 45-54: Unhappy (588.0/208.0)

| | | age = 55-64: Unhappy (661.0/259.0)

| | Rel_rich = Relatively_rich

| | | status = Town: Happy (120.0/44.0)

| | | status = Countryside: Happy (67.0/29.0)

| | | status = Regional center: Unhappy (190.0/87.0)

| | | status = Small town: Happy (15.0/4.0)

| Marital = No longer married: Unhappy (646.0/139.0)

Health = Bad health: Unhappy (477.0/118.0)

Health = Good health

| Marital = Single

| | Is_russian = Other: Happy (191.0/33.0)

| | Is_russian = Russian_nationality

| | | age = 35-44: Unhappy (62.0/25.0)

| | | age = 18-24: Happy (387.0/131.0)

| | | age = 25-34

| | | | Real_inc <= 13951.216793: Unhappy (87.0/32.0)

| | | | Real_inc > 13951.216793: Happy (94.0/32.0)

| | | age = 45-54: Unhappy (16.0/7.0)

| | | age = 55-64: Unhappy (9.0/4.0)

| Marital = Married: Happy (2470.0/733.0)

| Marital = No longer married: Unhappy (298.0/103.0)

C 5.0

Алгоритм C5.0 не использует классические параметры вроде минимального количества наблюдений при постройке модели. Вместо этого алгоритм самостоятельно обрезает недостаточно наполненные листы, добиваясь стабильности модели.

К сожалению, дерево C5.0 не удается визуально отобразить средствами R, однако набор правил классификации выводится исправно. Полученная модель содержит 61 узел.

Health = Good health:

:...Marital = No longer married: Unhappy (323.7/114.9)

: Marital in {Single,Married}:

: :...Is_russian = Other: Happy (626.6/109)

: Is_russian = Russian_nationality:

: :...Marital = Married: Happy (2283.6/725.3)

: Marital = Single:

: :...age in {35-44,45-54,55-64}: Unhappy (96.6/40.7)

: age = 18-24: Happy (418/140.6)

: age = 25-34:

: :...Rel_poor = Not relatively poor: Happy (156.9/66.4)

: Rel_poor = Relatively_poor: Unhappy (41/15)

Health in {Fair health,Bad health}:

:...Marital in {Single,No longer married}: Unhappy (1358.9/311.9)

Marital = Married:

:...age in {18-24,25-34}:

:...status = Small town: Happy (25.5/10.5)

: status = Countryside:

: :...Health = Fair health: Happy (123.5/41.5)

: : Health = Bad health: Unhappy (3)

: status = Town:

: :...Rich = Not rich:

: : :...age = 18-24: Happy (22/7)

: : : age = 25-34: Unhappy (147.4/58)

: : Rich = Rich:

: : :...age = 18-24: Unhappy (3)

: : age = 25-34: Happy (41.4/12.4)

: status = Regional center:

: :...Own_home = Do not own house: Happy (64/22)

: Own_home = Own house:

: :...educ = Higher: Happy (152.1/66.5)

: educ = Low: Unhappy (18/6)

: educ = Middle:

: :...Rel_poor = Not relatively poor: Unhappy (75/28)

: Rel_poor = Relatively_poor: Happy (22/6)

age in {35-44,45-54,55-64}:

:...Rel_rich = Relatively_rich:

:...Is_russian = Other: Happy (52/17)

: Is_russian = Russian_nationality:

: :...status in {Town,Small town}: Happy (122.6/52.1)

: status = Countryside: Unhappy (63/29)

: status = Regional center:

: :...age in {45-54,55-64}: Unhappy (109.3/39.3)

: age = 35-44:

: :...Health = Bad health: Unhappy (3)

: Health = Fair health:

: :...Has_children = No children: Unhappy (7/1)

: Has_children = Has children: Happy (48.5/20)

Rel_rich = Not relatively rich:

:...Has_children = No children: Unhappy (138.1/35)

Has_children = Has children:

:...Own_home = Do not own house: Unhappy (119.7/35)

Own_home = Own house:

:...Health = Bad health:

:...educ in {Middle,Low}: Unhappy (177.4/45.2)

: educ = Higher:

: :...Poor = Poor: Happy (7.1/1.1)

: Poor = Not poor:

: :...Savings = No savings: Unhappy (28.3/9.1)

: Savings = Has savings: Happy (6.2/1.2)

Health = Fair health:

:...Is_russian = Other:

:...age = 35-44: Happy (76.5/29.5)

: age in {45-54,55-64}: Unhappy (133.5/56)

Is_russian = Russian_nationality:

:...Savings = Has savings:

:...Overweight = Not overweight: Happy (124.3/56.8)

: Overweight = Overweight: Unhappy (75.8/25.4)

Savings = No savings:

:...Employment in {Disabled,Inactive,

: Unemployed}: Unhappy (160.1/53.1)

Employment = Retired:

:...educ = Low: Unhappy (43.5/14.5)

: educ = Middle: [S1]

: educ = Higher: [S2]

Employment = Employed:

:...age = 45-54: Unhappy (353.7/117.9)

age in {35-44,55-64}:

:...Real_inc <= 4368.257:

:...Obese = Obese: Happy (10.2)

: Obese = Not obese:

: :...sex = Male: Unhappy (9.8/1.8)

: sex = Female: Happy (21.9/6.9)

Real_inc > 4368.257:

:...Poor = Poor: Unhappy (53.5/15)

Poor = Not poor: [S3]

LMT

Построим модель при помощи последнего алгоритма - Logistic model trees. Было задано дополнительное ограничение: число итераций при обрезке дерева - 1

Итоговое дерево выглядит следующим образом:

Всего модель содержит 11 узлов и 7 листов, каждое из которых представляет собой логистическую регрессию. Правила разделения выборки приведены ниже.

Health = Fair health

| Marital = Single: LM_1:1/3 (432)

| Marital = Married

| | Rel_rich = Not relatively rich: LM_2:1/4 (2425)

| | Rel_rich = Relatively_rich

| | | Is_russian = Other: LM_3:1/5 (47)

| | | Is_russian = Russian_nationality: LM_4:1/5 (345)

| Marital = No longer married: LM_5:1/3 (646)

Health = Bad health: LM_6:1/2 (477)

Health = Good health: LM_7:1/2 (3614)

Сравнение моделей

Поскольку целевая переменная рассматриваемых моделей - категориальная бинарная, мы оценим показатели точности, чувствительности, специфичности и площади для ROC-кривой для всех моделей. Результаты представлены в таблице ниже.

Таблица 4

Показатели качества моделей для работы Diagnosing Unhappiness Dynamics: Evidence from Poland and Russia»

Показатель

Регрессия

CHAID

CART

C5.0

C4.5

LMT

Точность

65,96%

66,24%

66,69%

66,66%

66,38%

66,14%

Чувствительность (TN/N)

65,95%

66,44%

65,06%

64,37%

70,23%

66,02%

Специфичность (TP/P)

65,97%

66,04%

68,33%

68,95%

62,51%

66,25%

AUC

69,89%

71,50%

69,38%

70,79%

70,47%

69,11%

Значимые предикторы

17

20

15

29

15

5

Из полученных данных мы можем заключить, что модели, построенные с помощью деревьев решений показывают точность, сравнимую, а в некоторых случаях даже превосходящую точность регрессионного анализа.

Оценивая общее качество модели по показателю AUC можно заключить, что модели, построенные при помощи алгоритмов CHAID, C5.0 и C4.5 показывают чуть более высокую точность классификации при учете всех пороговых значений, в то время как алгоритмы CART и LMT незначительно уступают регрессии в точности.

Наиболее значимые отличия результатов регрессионного анализа от деревьев решений (а также различия между разными алгоритмами построения деревьев) проявляются при анализе количества выявленных значимых предикторов. В то время как алгоритмы CHAID и C5.0 выявили больше значимых предикторов, чем регрессия. CART, C4.5 и в особенности LMT включили в свои деревья гораздо меньшее число исходных переменных.

Тем не менее, результатов построения всего одной группы моделей будет недостаточно для формирования окончательных выводов, даже в рамках категориальной бинарной переменной. Для получения более полной картины нам необходимо провести подобные сравнения для оставшихся работ.

Как было отмечено в начале раздела, автор посчитал лишним ещё больше утяжелять текст работы описаниями переменных и спецификациями моделей. Далее в тексте работы будут приведены только сравнения метрика качества, промежуточные результаты перемещены в приложения.

«Divergent drinking patterns and factors affecting homemade alcohol consumption (the case of Russia)»

Таблица 5

Показатели качества моделей

Показатель

Регрессия

CHAID

CART

C5.0

C4.5

LMT

Точность

54,41%

68,71%

93,0%

93,0%

93,0%

75,72%

Чувствительность (TN/N)

82,19%

63,01%

0,00%

0,00%

0,00%

43,84%

Специфичность (TP/P)

52,32%

69,14%

100,00%

100,00%

100,00%

78,12%

AUC

70,12%

71,76%

50,00%

50,00%

50,00%

60,98%

Значимые предикторы

6

4

0

0

0

1

Таблица 6

Низкооплачиваемые рабочие места на российском рынке труда: есть ли выход и куда он ведет?

Показатели качества моделей

Показатель

Регрессия

CHAID

CART

C5.0

C4.5

LMT

Точность

59,67%

76,90%

77,33%

77,27%

78,28%

77,80%

Чувствительность (TN/N)

71,17%

22,88%

29,98%

29,98%

29,06%

27,92%

Специфичность (TP/P)

56,22%

93,13%

91,55%

91,48%

93,06%

92,78%

AUC

65,39%

73,89%

71,78%

71,44%

67,14%

73,87%

Значимые предикторы

15

15

17

18

11

12

4.2 Категориальная небинарная целевая переменная

Таблица 7

Показатели качества моделей

Показатель

Регрессия

CHAID

CART

C5.0

C4.5

LMT

Точность

68,37%

64,16%

65,04%

66,81%

65,49%

65,93%

Чувствительность (TN/N)

49,33%

40,20%

40,35%

39,49%

38,43%

41,32%

Специфичность (TP/P)

87,33%

85,23%

85,65%

85,71%

84,51%

85,93%

AUC

73,60%

67,68%

69,70%

70,69%

70,83%

68,40%

Значимые предикторы

9

6

5

4

2

2

«Доступность добровольного медицинского страхования в России»

Таблица 8

Показатели качества моделей

Показатель

Регрессия

CHAID

CART

C5.0

C4.5

LMT

Точность

96,43%

96,56%

41,43%

96,51%

96,56%

96,53%

Чувствительность (TN/N)

33,70%

33,33%

49,69%

33,57%

33,33%

33,58%

Специфичность (TP/P)

66,99%

66,67%

74,72%

66,85%

66,67%

66,86%

AUC

70,11%

64,37%

70,31%

64,74%

67,24%

60,72%

Значимые предикторы

19

13

15

14

15

17

«Внутрифирменная мобильность на российском рынке труда»

Таблица 9

Показатели качества моделей

Показатель

Регрессия

CHAID

CART

C5.0

C4.5

LMT

Точность

83,09%

82,82%

72,31%

82,32%

82,82%

82,82%

Чувствительность (TN/N)

20%

20%

30,41%

20,30%

20%

20%

Специфичность (TP/P)

80%

80%

81,01%

80,31%

80%

80%

AUC

61,85%

60,40%

62,44%

51,86%

60,39%

61,57%

Значимые предикторы

14

8

19

22

7

14

4.3 Интервальная целевая переменная

«Оценки «штрафа за материнство» в России»

Таблица 10

Показатели качества моделей

Показатель

Регрессия

CART

Ctree

M5P

RMSE

0,54

0,55

0,56

0,55

Значимые предикторы

10

6

7

16

«Человеческий капитал российских рабочих: общее состояние и специфические особенности»

Таблица 11

Показатели качества моделей

Показатель

Регрессия

CART

Ctree

M5P

RMSE

1,46

1,72

1,72

1,72

Значимые предикторы

5

5

4

5

«Height and Life Satisfaction: Evidence from Russia»

Таблица 12

Показатели качества моделей

Показатель

Регрессия

CART

Ctree

M5P

RMSE

0,79

0,85

0,85

0,78

Значимые предикторы

7

4

6

7

4.4 Порядковая целевая переменная

«When information dominates comparison»

Таблица 13

Показатели качества моделей

Показатель

Регрессия

CHAID

CART

C5.0

C4.5

LMT

Точность

47,20%

48,26%

48,13%

48,42%

47,55%

48,26%

Чувствительность (TN/N)

28,00%

32,02%

30,30%

29,34%

29,47%

30,64%

Специфичность (TP/P)

83,35%

84,31%

84,07%

83,98%

83,83%

84,01%

AUC

72,47%

72,20%

72,64%

72,66%

72,04%

73,56%

Значимые предикторы

25

16

31

9

19

14

«Socio-demographic characteristics, alcohol drinking and self-rated health among Russian women»

Таблица 14

Показатели качества моделей

Показатель

Регрессия

CHAID

CART

C5.0

C4.5

LMT

Точность

56,25%

53,08%

59,57%

50,30%

50,04%

50,23%

Чувствительность (TN/N)

26,44%

27,52%

30,43%

23,61%

25,94%

25,68%

Специфичность (TP/P)

83,87%

83,95%

86,13%

82,55%

82,64%

82,68%

AUC

76,39%

73,90%

76,52%

70,77%

74,02%

72,57%

Значимые предикторы

6

7

8

5

4

8

«Пробит-моделирование национальной солидарности на примере России»

Таблица 15

Показатели качества моделей

Показатель

Регрессия

CHAID

CART

C5.0

C4.5

LMT

Точность

55,76%

55,70%

55,82%

55,58%

56,48%

56,39%

Чувствительность (TN/N)

33,68%

36,05%

37,28%

35,50%

36,62%

36,73%

Специфичность (TP/P)

66,87%

68,15%

69,14%

67,78%

68,78%

68,63%

AUC

56,25%

56,29%

58,01%

56,03%

56,02%

60,35%

Значимые предикторы

6

7

9

8

7

3

4.5 Обобщение результатов

Итак, оценив качество моделей построенных при помощи деревьев решений на 8 работах мы можем агрегировать результаты и сделать предварительные выводы. Для большей наглядности результаты работы алгоритмов будут усреднены внутри каждой из типов зависимой/целевой переменной и представлены в виде процентов от результатов регрессии.

Таблица 16

Относительные показатели качества моделей

Интервальная целевая переменная

Показатель

Регрессия

CART

Ctree

M5P

Среднее для деревьев

RMSE

100%

109%

110%

106%

108%

Значимые предикторы

100%

72%

79%

120%

90%

Категориальная бинарная целевая переменная

Показатель

Регрессия

CHAID

CART

C50

C4.5

LMT

Среднее для деревьев

Точность

100%

119%

134%

134%

134%

123%

124%

Специфичность (TP/P)

100%

70%

47%

47%

49%

64%

63%

Чувствительность (TN/N)

100%

133%

153%

153%

150%

138%

138%

AUC

100%

106%

93%

94%

92%

100%

97%

Значимые предикторы

100%

91%

81%

108%

67%

69%

86%

Категориальная небинарная целевая переменная

Точность

100%

98%

75%

99%

99%

99%

95%

Специфичность (TP/P)

100%

93%

127%

94%

92%

94%

100%

Чувствительность (TN/N)

100%

98%

104%

94%

98%

99%

99%

AUC

100%

99%

88%

90%

89%

93%

93%

Значимые предикторы

100%

64%

90%

92%

50%

71%

78%

Порядковая целевая переменная

Точность

100%

99%

103%

97%

97%

98%

99%

Специфичность (TP/P)

100%

109%

111%

100%

104%

105%

105%

Чувствительность (TN/N)

100%

101%

102%

100%

101%

101%

101%

AUC

100%

99%

101%

98%

99%

101%

100%

Значимые предикторы

100%

99%

136%

84%

86%

80%

98%

5. Выводы и рекомендации

Точность предсказаний

Из первой части таблицы следует, что модели, построенные с использованием деревьев решений в среднем делают менее точные прогнозы, нежели линейная регрессия (средняя величина корня из средних ошибок моделей больше на 16%). Подобный результат легко объясним природой предсказаний, которые дают деревья решений при работе с интервальными предикторами. В результате работы алгоритма каждое наблюдение попадает в один из листов, которому соответствует определенное жесткое значение целевой переменной (среднее для наблюдений листа). Поскольку из-за угрозы переобучения модели количество листов не может быть слишком большим, набор значений целевой переменной, которые могут быть присвоены наблюдению достаточно мал. В то же время, при использовании егрессионного анализа, зависимая переменная может, теоретически, принять любое из значений на числовой шкале. В такой ситуации оценки деревьев решений неизбежно оказываются менее точными.

Этот недостаток классических деревьев решений может частично исправить использование гибридных методов - деревьев с регрессионными моделями в листах. В нашем случае подобный алгоритм - M5P - показал наивысшую точность среди деревьев решений. Тем не менее, результат алгоритма M5P всё ещё хуже, чем у линейной регрессии. Подобный исход объясняется меньшим объемом наблюдений для построения регрессий в листьях. В отличие от классического подхода, при котором в оценке модели участвуют все наблюдения, в случае метода M5P каждой из регрессионных моделей доступны только наблюдения, попавшие в конкретный лист. Это затрудняет поиск значимых связей между переменными и уменьшает точность прогнозов. Этот эффект становится более выраженным с увеличением числа листов или уменьшением общего количества наблюдений в базе. Таким образом, можно заключить, что деревья решений в общем случае дают менее точные прогнозы для интервальных переменных. Алгоритмы использующие линейные модели в листах сильно зависимы от количества наблюдений в выборке. Теоретически, они могут получить преимущество на классической регрессий на действительно больших выборках, но это требует дополнительной проверки.

В случае оценки моделей с категориальными предикторами деревья решений показывают заметно более высокие результаты. В среднем по всем категориальным шкалам, деревья решений обладают на 3% более высокой точностью, чем регрессии. Наилучшие результаты деревья показывают при работе с бинарными целевыми переменными: все алгоритмы деревьев опережают биномиальную логистическую регрессию. Однако стоит отметить, что деревья часто уступают регрессии по дополнительным критериям качества - чувствительности и специфичности, что говорит о что разные категории целевой переменной могут выявляться с разной точностью. В настоящей работе используется макро-усреднение показателей качества для небинарных классификаторов, а значит все классы вносят равный вклад в метрики точности, независимо от их размера. Это приводит к занижению общих показателей точности в случае наличия большого количества трудно предсказываемых (например, малочисленных) категорий. Примером могут служить результаты моделей, построенных вслед за работой «Divergent drinking patterns and factors affecting homemade alcohol consumption (the case of Russia)». В работе изучаются детерминанты потребления самогона. Очевидно, в рамках страны доля людей, потребляющих самогон относительно мала (в выборке RLMS их около 7%), что делает выявление этой категории людей проблематичной для деревьев решений. Это отразилось в нулевых показателях чувствительности для некоторых алгоритмов - они определили все людей в непьющие, как в значительно более вероятную категорию.

Таким образом, можно сказать, что при работе с категориальными целевыми переменными деревья решений могут обеспечить более высокую точность, чем регрессионные модели. Однако исследователю следует обратить внимание на равномерность заполнения категорий целевой переменной, поскольку точность предсказания мало наполненных категорий может быть низкой. Некоторые алгоритмы деревьев решений предлагают возможность задать «стоимость» неверного определения каждого из классов целевой переменной. Это позволяет увеличить точность выявления малочисленных классов за счет потери точности в других классах. Изменение стоимости неверных классификаций не применялось в настоящей работе, поскольку оно не реализовано собственными средствами оцениваемых алгоритмов.

Выявление значимых связей

Из таблица можно сделать вывод, что деревья решений в среднем позволяют обнаружить значительно меньше значимых связей между целевой переменой и предикторами. Это верно, но только в случае, если мы берем во внимание только главные эффекты. Действительно, если принимать во внимание только факт появления той или иной категории независимой переменной в устойчивом дереве, то их количество будет ниже, чем количество значимых коэффициентов в регрессии на тех же данных. Однако такой способ подсчета не учитывает ключевую особенность взаимодействия предикторов в деревьях - эффекты взаимодействия. Любое дерево решений, в котором произошло более одного разделения выборки неизбежно привносит в модель эффекты взаимодействия, ведь второе разделение произошло только с частью выборки, выделенной по результатам первого разделения, а значит на значение целевой переменной влияют не только сами предикторы, но и комбинация их значений. В результате этой процедуры итоговая модель состоит по большей части из эффектов взаимодействия, которые метод нашел автоматически, независимо от исследователя. Полученные результаты могут предоставить исследователю информацию о наличии сложных взаимосвязей между предикторами, взаимосвязей, которые остались бы не выявленными в случае применения одной лишь регрессии.

В Качестве примера можно обратиться к подробно рассмотренным выше моделям, предсказывающим несчастье россиян. Регрессия построенная на этих данных выявила наличие значимой связи между вероятностью быть несчастным и, в числе прочих, состоянием здоровья, семейным положением, относительным богатством и русской национальностью человека. Построенная на тех же данных модель LMT также определила значимость этих переменных, однако в дополнение к этому мы получили информацию о том, что семейное положение влияет на счастье только среди тех, кто описывает состояние своего здоровья, как «нормальное». Уровень богатства относительно своего окружения влияет прежде всего на тех, кто обладает нормальным здоровьем, а также женат или находится замужем. А в среде выделенных таким образом богатых людей начинает играть роль национальность. В итоге, дерево позволило на выявить 3 двухмерных, 2 трехмерных и 2 четырехмерных эффекта взаимодействия, о существовании которых мы не знали до проведения анализа.

Работа с интервальными предикторами

Помимо возможных преимуществ в точности и автоматизированного выявления эффектов взаимодействий, деревья решений также позволяют автоматически определять значимые с точки зрения целевой переменной границы на шкалах интервальных предикторов. Так, в описанном выше примере, исходя из результатов применения алгоритма C4.5 граница дохода, по которой разделяются более- и менее-склонные к несчастью одинокие русские люди в возрасте 25-34 года составляет 13951 рубль. Эта информация может использоваться исследователем для определения значимых рубежей в доходе респондентов для последующей перекодировки. Кроме того, в некоторых случаях (например, количество лет обучения, возраст, стаж и т.д.) выделенные границы могут иметь отдельную смысловую интерпретацию и натолкнуть исследователя на включение дополнительных переменных в модель.

По результатам анализа можно заключить, что деревья решений позволяют решать те же задачи, что и традиционно используемые методы анализа, поскольку модели построенные с их помощью показывают сравнимую с регрессиями точность прогноза, а для бинарных целевых переменных - даже более высокую.

Деревья решений выявляют в среднем меньшее количество значимых предикторов, однако позволяют обнаружить эффекты взаимодействия между предикторами и наличие нелинейной связи даже когда исследователь не проверяет их наличие целенаправленно.

Деревья решений позволяют определить значимые граница в значениях интервальных переменных, что можно использовать для повышения качества перекодировки и даже выявления новых предикторов.

5.1 Рекомендации по применению методов

На мой взгляд, деревья решений представляют собой отличный метод для проведения предварительного, разведочного анализа перед построением более традиционных регрессионных моделей. Их имеет смысл использовать для поиска эффектов взаимодействия и нелинейных зависимостей с целью последующего включения в регрессию.

Применение деревьев решений в качестве отдельного самостоятельного метода в социологической практике осложнено более высокими требованиями к объему выборки, (особенно в случае деревьев, проводящих регрессионный анализ в листах), часто встречающейся несбалансированностью в категориальных переменных, и невозможностью получения численно выраженных коэффициентов связи между переменными.

Выбирая между конкретными алгоритмами анализа стоит учитывать, прежде всего, количество доступных наблюдений. Если в распоряжении исследователя есть несколько тысяч наблюдений и более, имеет смысл обратиться к гибридным методам для того чтобы получить преимущества деревьев решение, не отказываясь от возможности оценить коэффициенты связей. В остальном оцениваемые алгоритмы показали очень близкие результаты по точности прогноза, выявление явного фаворита среди рассмотренных в работе алгоритмов построения деревьев решений не представляется возможным.

5.2 Ограничения и направления для дальнейших исследований

Несмотря на проведенную работу, задачу по изучению особенностей применения алгоритмов построения деревьев решений в социологическом контексте нельзя считать окончательно решенной. Настоящая работа лишь ставит перед собой цель показать, что изучаемая группа методов конкурентоспособна и может привнести дополнительную, ценную информацию в исследовательский процесс. Однако множество отдельных аспектов применения метода ещё предстоит описать.

Прежде всего, требуется ввести в сравнение другие, более сложные и специфичные методы регрессионного анализа, чтобы оценить эффективность методов деревьев решений в сравнении с ними.

Кроме того, имеет смысл сделать акцент на сравнении эффективности разных алгоритмов построения деревьев между собой. В настоящей работе автор пытался избегать подобных оценок, поскольку количества проведенных итераций сравнения недостаточно для получения значимых выводов.

Хотя рассмотренные в настоящей работе алгоритмы построения деревьев и являются одними из наиболее распространенных и часто используемых, существует некоторое количество альтернативных решений. Оценка их результатов работы этих алгоритмов также может стать перспективным направлением для исследования.

Также важным кажется изучение вопроса об эффективности применения различных алгоритмов деревьев решений в ситуациях с разной наполненностью категорий целевой переменной. Хотя в настоящей работе присутствовали модели с разнообразными вариантами наполненности, целенаправленное их сравнение не проводилось из-за отсутствия достаточного количества работ. Похожая ситуация возникла с показателями количества пропущенных значений, числа и состава предикторов, а также шкалы, по которой эти предикторы измерены. Вариации в этих показателях, вероятно, могут значимо влиять на качество работы тех или иных методов анализа данных. Необходимо проведение отдельных исследований с целью оценки этого влияния.

Список литературы

1. Alexandru G. Floares, George A. Calin, Florin B. Manolache Bigger Data Is Better for Molecular Diagnosis Tests Based on Decision Trees // Data Mining and Big Data. 2016. №14. С. 288-295.

2. An Introduction to Statistical Learning / James, G., Witten, D., Hastie, T., Tibshirani, R., - New York: Springer, 2013. 418 с.

3. Bahry, D., & Kozyreva, P. (2018). Family Socialization, Trust and Change: Evidence from Russia. Comparative Sociology, 17(3-4), 261-278.

4. Breiman L., Friedman J. H., Olshen R. A., & Stone C. J. Classification and regression trees. Monterey, CA: Wadsworth & Brooks/Cole Advanced Books & Software. 1984

5. Brzezinski, M. (2017). Diagnosing Unhappiness Dynamics: Evidence from Poland and Russia. University of Warsaw. Working Papers No. 2017-27.

6. Claudia P., Foster P. Jeffrey S. S. Tree Induction vs. Logistic Regression: A Learning-Curve Analysis // Journal of Machine Learning Research. 2003. №4. С. 211-255.

7. DAVID J. HAND, ROBERT J. TILL A Simple Generalisation of the Area Under the ROC Curve for Multiple Class Classification Problems // Machine Learning. 2001. №45.

8. Decision Trees - C4.5 // Octavian's blog URL: https://octaviansima.wordpress.com/2011/03/25/decision-trees-c4-5/ (дата обращения: 18.03.2018).

9. Deng,H.; Runger, G.; Tuv, E. Bias of importance measures for multi-valued attributes and solutions. Proceedings of the 21st International Conference on Artificial Neural Networks (ICANN). 2011. pp. 293--300.

10. Earl B. Hunt, Janet Marin, Philip J. Stone Experiments in induction. Academic Press, 1966. 247 C.

11. Everitt B.S., Skrondal A. Overfitting // Cambridge Dictionary of Statistics. 2010. С. Cambridge University Press.

12. Geoffrey K.F. Tso, Kelvin K.W. Yau Predicting electricity energy consumption: A comparison of regression analysis, decision tree and neural networks // Energy. 2007. №32. С. 1761-1768.

13. GUIDE User Manual? // Department of Statistics University of Wisconsin-Madison URL: http://www.stat.wisc.edu/~loh/treeprogs/guide/guideman.pdf (дата обращения: 18.03.2018).

14. Introduction to SPSS Classification Trees / SPSS UK Ltd., UK: 2005. С. 5.

15. Kiran Singh, Raunak Sulekh The Comparison of Various Decision Tree Algorithms for Data Analysis // International Journal Of E...


Подобные документы

  • Разработка и принятие правильного решения как задачи работы управленческого персонала организации. Деревья решений - один из методов автоматического анализа данных, преимущества их использования и область применения. Построение деревьев классификации.

    контрольная работа [91,6 K], добавлен 08.09.2011

  • Этапы построения деревьев решений: правило разбиения, остановки и отсечения. Постановка задачи многошагового стохастического выбора в предметной области. Оценка вероятности реализации успешной и неуспешной деятельности в задаче, ее оптимальный путь.

    реферат [188,8 K], добавлен 23.05.2015

  • Использование системного анализа для подготовки и обоснования управленческих решений по многофакторным проблемам. Возникновение синергетики как науки о законах построения организации, возникновения упорядоченности, развитии и самоусложнении системы.

    реферат [40,4 K], добавлен 21.01.2015

  • Понятие сетевого планирования, его особенности, назначение и сферы применения. Правила и этапы построения сетевых графиков, необходимые расчеты и решение типовых задач. Общая характеристика корреляционного и регрессивного анализа, их применение.

    контрольная работа [142,3 K], добавлен 29.04.2009

  • Геометрическая интерпретация, графический и симплексный методы решения задачи линейного программирования. Компьютерная реализация задач стандартными офисными средствами, в среде пакета Excel. Задачи распределительного типа, решаемые в землеустройстве.

    методичка [574,3 K], добавлен 03.10.2012

  • Понятие математического программирования как отрасли математики, являющейся теоретической основой решения задач о нахождении оптимальных решений. Основные этапы нахождения оптимальных решений экономических задач. Примеры задач линейного программирования.

    учебное пособие [2,0 M], добавлен 15.06.2015

  • Теоретические основы прикладного регрессионного анализа. Проверка предпосылок и предположений регрессионного анализа. Обнаружение выбросов в выборке. Рекомендации по устранению мультиколлинеарности. Пример практического применения регрессионного анализа.

    курсовая работа [1,2 M], добавлен 04.02.2011

  • Использование симплексного метода решения задач линейного программирования для расчета суточного объема производства продукции. Проверка плана на оптимальность. Пересчет симплексной таблицы методом Жордана-Гаусса. Составление модели транспортной задачи.

    контрольная работа [613,3 K], добавлен 18.02.2014

  • Математическая формализация оптимизационной проблемы. Геометрическая интерпретация стандартной задачи линейного программирования, планирование товарооборота. Сущность и алгоритм симплекс-метода. Постановка транспортной задачи, последовательность решения.

    учебное пособие [126,0 K], добавлен 07.10.2014

  • Применение линейного программирования для решения транспортной задачи. Свойство системы ограничений, опорное решение задачи. Методы построения начального опорного решения. Распределительный метод, алгоритм решения транспортной задачи методом потенциалов.

    реферат [4,1 M], добавлен 09.03.2011

  • Изучение интуитивных и рациональных методов подхода к решению творческих задач. Темпы технического прогресса напрямую зависят от изобретателей, а экономические успехи зависят от темпов технического прогресса. Методы решения изобретательских задач.

    реферат [22,4 K], добавлен 17.07.2008

  • Сущность метода наименьших квадратов. Экономический смысл параметров кривой роста (линейная модель). Оценка погрешности и проверка адекватности модели. Построение точечного и интервального прогноза. Суть графического построения области допустимых решений.

    контрольная работа [32,3 K], добавлен 23.04.2013

  • Количественное обоснование управленческих решений по улучшению состояния экономических процессов методом математических моделей. Анализ оптимального решения задачи линейного программирования на чувствительность. Понятие многопараметрической оптимизации.

    курсовая работа [4,2 M], добавлен 20.04.2015

  • Навыки применения теоретических знаний по теме "Одномерный регрессионный анализ" при решении экономических задач с помощью системы GRETL. Анализ затрат в зависимости от числа ящиков, готовых к разгрузке. Обоснование результатов регрессионного анализа

    лабораторная работа [27,2 K], добавлен 15.12.2008

  • Решение задач при помощи пакета прикладных программ MatLab. Загрузка в MatLab матриц A и P. Нахождение оптимальной стратегии для заданных матриц с использованием критериев принятия решений в условиях неопределённости Вальда, Гурвица, Лапласа, Сэвиджа.

    лабораторная работа [80,2 K], добавлен 18.03.2015

  • Классическая теория оптимизации. Функция скаляризации Чебышева. Критерий Парето-оптимальность. Марковские процессы принятия решений. Метод изменения ограничений. Алгоритм нахождения кратчайшего пути. Процесс построения минимального остовного дерева сети.

    контрольная работа [182,8 K], добавлен 18.01.2015

  • Связь между случайными переменными и оценка её тесноты как основная задача корреляционного анализа. Регрессионный анализ, расчет параметров уравнения линейной парной регрессии. Оценка статистической надежности результатов регрессионного моделирования.

    контрольная работа [50,4 K], добавлен 07.06.2011

  • Построение экономических и математических моделей принятия решений в условиях неопределенности. Общая методология оптимизационных задач, оценка преимуществ выбранного варианта. Двойственность и симплексный метод решения задач линейного программирования.

    курс лекций [496,2 K], добавлен 17.11.2011

  • Основные понятия линейной алгебры и выпуклого анализа, применяемые в теории математического программирования. Характеристика графических методов решения задачи линейного программирования, сущность их геометрической интерпретации и основные этапы.

    курсовая работа [609,5 K], добавлен 17.02.2010

  • Классические подходы к анализу финансовых рынков, алгоритмы машинного обучения. Модель ансамблей классификационных деревьев для прогнозирования динамики финансовых временных рядов. Выбор алгоритма для анализа данных. Практическая реализация модели.

    дипломная работа [1,5 M], добавлен 21.09.2016

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.