Астросоциотипология и спектральный анализ личности по астросоциотипам с применением семантических информационных мультимоделей

Описание системы "Эйдос-астра" и алгоритмов голосования моделей. Алгоритм измерения достоверности идентификации классов в различных частных моделях. Зависимость достоверности идентификации в среднем по категориям от количества секторов в частной модели.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 26.04.2017
Размер файла 1,3 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Таблица 7

База данных по достоверности идентификации с различными категориями в частных моделях (фрагмент)

Код

кате-

гории

Наименование категории

Условное

наименов.

катег. для

графиков

Максимальная

достоверность

идентификации

Модель,

обеспеч.

максим.

достовер.

Кол-во

респ.,

относ.

к катег.

22

SC:B173-Sports:Football

k22

85,864

3

1613

11

SC:B111-Sports:Basketball

k11

74,773

2

2385

3

SC:A53-Sports

k3

64,398

2

4567

7

SC:A323-Sexuality

k7

28,488

6

2675

12

SC:B329-Sexuality:Sexual perversions

k12

28,266

108

2360

26

SC:A92-Birth

k26

27,115

128

1343

19

SC:C330-Sexuality:Sexual perversions:Homosexual m

k19

26,102

108

1807

29

SC:B49-Book Collection:American Book

k29

25,691

128

1178

36

SC:A23-Psychological

k36

23,313

110

1007

18

SC:A31-Business

k18

21,795

128

1813

24

SC:B21-Relationship:Number of marriages

k24

21,655

163

1417

30

SC:B26-Personality:Body

k30

21,405

162

1163

37

SC:A108-Education

k37

20,867

128

1002

1

SC:М-

k1

20,519

2

13640

31

SC:B189-Medical:Illness

k31

20,447

166

1159

33

SC:A99-Financial

k33

20,415

165

1075

35

SC:A38-Politics

k35

19,523

144

1039

27

SC:B14-Entertainment:Actor/ Actress

k27

19,212

153

1256

28

SC:?-

k28

18,776

163

1242

32

SC:B6-Entertainment:Music

k32

18,539

148

1086

34

SC:B48-Famous:Top 5% of Profession

k34

18,494

153

1073

25

SC:B2-Book Collection:Profiles Of Women

k25

18,365

148

1389

23

SC:B97-Occult Fields:Astrologer

k23

18,353

146

1480

21

SC:A29-Parenting

k21

18,265

147

1754

16

SC:A25-Personality

k16

16,442

114

2083

8

SC:A5-Entertainment

k8

16,238

152

2577

9

SC:A9-Relationship

k9

14,974

160

2442

14

SC:A19-Writers

k14

13,763

160

2223

13

SC:A55-Art

k13

13,557

165

2232

10

SC:A40-Occult Fields

k10

13,138

151

2396

17

SC:A68-Childhood

k17

13,069

162

1996

20

SC:B45-Famous:Greatest hits

k20

11,937

167

1795

6

SC:A42-Medical

k6

8,405

173

2910

5

SC:A15-Famous

k5

6,094

169

3373

15

SC:A129-Death

k15

5,422

168

2168

2

SC:Ж-

k2

5,254

152

5125

4

SC:A1-Book Collection

k4

4,514

162

4471

Весьма знаменательно, что из 172 исследованных частных моделей лишь 23 модели оказались наилучшими по достоверности идентификации каких-либо из 37 категорий, исследуемых в моделях. Причем разные частные модели оказались наилучшими для идентификации различного количества категорий (таблица 8).

Таблица 8

Сводная информация о качестве частных моделей

Наименование

модели

Кол. кат.,

для ид. кот.

мод. оказ.

наилучш.

Коды

категорий

Наимено-вание

модели

Кол. кат.,

для ид. кот.

мод. оказ.

наилучш.

Коды

категорий

1

128

4

18, 26, 29, 37

11

3

1

22

2

2

3

1, 3, 11

12

6

1

7

3

162

3

4, 17, 30

13

110

1

36

4

108

2

12,19

14

114

1

16

5

148

2

25, 32

15

144

1

35

6

152

2

2, 8

16

146

1

23

7

153

2

27, 34

17

147

1

21

8

160

2

9, 14

18

151

1

10

9

163

2

24, 28

19

166

1

31

10

165

2

13, 33

20

167

1

20

21

168

1

15

22

169

1

5

23

173

1

6

При этом всего 4 частные модели из 172 с: 128, 2, 162 и 108 секторами оказались наилучшими для идентификации 12 категорий из 37. Таким образом, 2,3 % исследованных частных моделей позволяют наиболее достоверно идентифицировать 32,4 % всех категорий, а 5,8 % моделей - 64,9 % всех категорий.

Обратим внимание также на столбец: "Модель, обеспечившая максимальную достоверность" (см. таблицу 7). Если изобразить систему концентрических колец, каждое из которых соответствует определенной частной модели, и разделить эти кольца на количество секторов в соответствующей частной модели, раскрасить эти секторы различными цветами спектра так, чтобы их было видно (можно было различить), то получим логотип данной мультимодели (рисунок 3).

Рисунок 3 Логотип мультимодели из 172 частных моделей на 37 категорий (после выбора 23 наиболее достоверных частных моделей)

Этот логотип получен с помощью программы Logoastr-v2.1, разработанной Д. Бандык (Беларусь) по алгоритму автора. Эту программу можно бесплатно скачать по ссылке: http://lc.kubagro.ru/ftp/lc_sfx.exe с сайта автора.

Необходимо пояснить, каким образом рассчитывается приведенная в таблице 7 достоверность идентификации. Достоверность идентификации по каждой категории является эвристическим критерием, который представляет собой алгебраическую сумму уровней сходства с данной категорией верно отнесенных и не отнесенных системой к данной категории респондентов минус ошибочно отнесенных и неотнесенных респондентов, деленную на их количество:

Где

- достоверность идентификации "k-й" категории;

N

- количество респондентов в распознаваемой выборке;

- уровень сходства "i-го" респондента с "k-й" категорией, к которой он был правильно отнесен системой;

- уровень сходства "i-го" респондента с "k-й" категорией, к которой он был правильно не отнесен системой;

- уровень сходства "i-го" респондента с "k-й" категорией, к которой он был ошибочно отнесен системой;

- уровень сходства "i-го" респондента с "k-й" категорией, к которой он был ошибочно не отнесен системой.

На рисунке 4 приведен фрагмент карточки идентификации респондентов с классом, по которой рассчитывается достоверность идентификации с данным классом, т. к. в тестирующей выборке было 370 респондентов, и в полном виде эта карточка слишком объемна.

Рисунок 4 Фрагмент карточки идентификации респондентов
с классом: "5 SC:A15Famous"

На рисунке 5 показано распределение (и его аппроксимация степенной функцией) достоверности идентификации респондентов по всем категориям: от категории "k22" с максимальной достоверностью идентификации и до категории "k4" с минимальной достоверностью идентификации.

По нашим данным, (см. таблицу 7) к "хорошо идентифицируемым категориям" относятся: SC:B173-Sports:Football, SC:B111-Sports:Basketball, SC:A53-Sports, а к "плохо идентифицируемым категориям" - SC:A42-Medical, SC:A15-Famous, SC:A129-Death, SC:Ж-, SC:A1-Book Collection. По-видимому, к прогнозам, содержащим "хорошо идентифицируемые категории", можно в общем случае относиться с большим доверием, чем содержащим "плохо идентифицируемые категории". В принципе последние можно вообще исключать ("отфильтровывать") из карточек идентификации, что система "Эйдос" позволяет делать автоматически.

Рисунок 5 Распределение достоверности идентификации по категориям

2. Изучение зависимости достоверности идентификации по категориям от количества секторов в частной модели

Если на основе БД Dostiden.dbf построить графики зависимости достоверности идентификации для каждой категории от количества секторов в частной модели, то получим рисунок 6, на котором наглядно видно, что существуют, по крайней мере, три группы категорий (классов), отличающиеся видом этой зависимости:

1. Достоверность максимальна в частных моделях с небольшим числом секторов и при их увеличении быстро уменьшается, а затем стабилизируется.

2. Достоверность минимальна в частных моделях с небольшим числом секторов и при их увеличении быстро увеличивается, а затем стабилизируется.

3. Достоверность мало зависит от числа секторов в частной модели.

Из рисунка 6 также видно, что:

- большинство из исследуемых в мультимодели 37 категорий относится ко 2-й или 3-й группам, что и определяет вид средней по всем классам зависимости достоверности частной модели о количества секторов в ней;

- достоверность идентификации категорий 1-й группы значительно превосходит достоверность идентификации категорий во 2-й и 3-й группах.

Рисунок 6 Графики зависимости достоверности идентификации для каждой категории от количества секторов в частной модели

Поэтому можно сделать вывод о том, что идея применения концепции "коллектива решающих правил" или использования системы частных моделей, входящих в мультимодель, оказалась вполне обоснованной и оправданной.

Приведем на рисунке 7 наиболее типичные зависимости 1-й, 2-й и 3-й групп.

Рисунок 7 Наиболее типичные зависимости 1-й, 2-й и 3-й групп с аппроксимирующими их функциями

Функции, аппроксимирующие эти зависимости (полиномы и логарифмические функции), представлены ниже:

(k22)

y = 2E-11x6 - 1E-08x5 + 3E-06x4 - 0,0004x3 + 0,0311x2 - 1,2582x + 86,253

R2 = 0,8106

(2)

(k03)

y = 2E-11x6 - 1E-08x5 + 3E-06x4 - 0,0004x3 + 0,0311x2 - 1,2582x + 86,253

R2 = 0,8106

(3)

(k11)

y = 1E-10x6 - 6E-08x5 + 1E-05x4 - 0,0015x3 + 0,097x2 - 3,0988x + 76,027

R2 = 0,9646

(4)

(k25)

y = 6,362Ln(x) - 16,478

R2 = 0,9364

(5)

(k15)

y = 4,7502Ln(x) - 21,72

R2 = 0,8839

(6)

3. Изучение зависимости достоверности идентификации респондентов в частных моделях с различным количеством секторов от категорий

На основе БД Dostiden.dbf построим графики зависимостей достоверности идентификации респондентов со всеми категориями в частных моделях с различным количеством секторов (рисунок 8). На рисунке 8 красной жирной линией обозначена наивысшая, а жирной синей линией - наинизшая достоверность идентификации респондентов по каждой категории из всех частных моделей, достоверности идентификации в которых расположены между этими линиями.

Рисунок 8 Зависимости достоверности идентификации респондентов со всеми категориями в частных моделях с различным количеством секторов

Из рисунка 8 видно, что все обобщенные категории можно разделить на две основные группы по тому, в какой степени эффективными оказались алгоритмы голосования, с точки зрения повышения достоверности, при идентификации с этими категориям. Категории, при идентификации с которыми алгоритмы голосования:

- показали высокую эффективность;

- практически не сказываются.

На рисунке 9 показаны зависимости достоверности идентификации от категории, с которой осуществляется идентификация, причем категории рассортированы таким образом, что разница между достоверностью при применении наилучшей и наихудшей частных моделей, т.е. эффективность алгоритмов голосования уменьшается.

Рисунок 9 Зависимость достоверности идентификации в частных моделях с различным количеством секторов от категории при упорядочении категорий в порядке убывания эффективности алгоритмов голосования

В таблице 9 приведены наименования категорий и частных моделей в порядке уменьшения эффективности алгоритмов голосования.

Таблица 9

Эффективность алгоритмов голосования при идентификации респондентов с разными категориями в частных моделях с различным количеством секторов

Код

катег.

Наименование категории

Наиболее

эффективная

частная модель

Наименее

эффективная

частная модель

Эффект.

голосо-

вания

Досто-

верность

Кол-во

секторов

Досто-

верность

Кол-во

секторов

k11

SC:B111-Sports:Basketball

74,773

2

35,502

40

39,271

k2

SC:Ж-

5,254

152

-26,314

2

31,568

k25

SC:B2-Book Collection:Profiles Of Women

18,365

148

-10,289

2

28,654

k31

SC:B189-Medical:Illness

20,447

166

-4,971

2

25,418

k34

SC:B48-Famous:Top 5% of Profession

18,494

153

-5,768

3

24,262

k26

SC:A92-Birth

27,115

128

3,779

2

23,336

k16

SC:A25-Personality

16,442

114

-6,580

3

23,022

k3

SC:A53-Sports

64,398

2

41,589

171

22,809

k22

SC:B173-Sports:Football

85,864

3

63,245

40

22,619

k32

SC:B6-Entertainment:Music

18,539

148

-4,050

3

22,589

k15

SC:A129-Death

5,422

168

-16,673

3

22,095

k33

SC:A99-Financial

20,415

165

-1,414

3

21,829

k17

SC:A68-Childhood

13,069

162

-8,275

2

21,344

k6

SC:A42-Medical

8,405

173

-11,402

2

19,807

k37

SC:A108-Education

20,867

128

2,078

3

18,789

k30

SC:B26-Personality:Body

21,405

162

2,691

2

18,714

k24

SC:B21-Relationship:Number of marriages

21,655

163

3,094

3

18,561

k35

SC:A38-Politics

19,523

144

2,073

3

17,450

k4

SC:A1-Book Collection

4,514

162

-11,869

4

16,383

k19

SC:C330-Sexuality:Sexual perversions:Homosexual m

26,102

108

9,741

2

16,361

k21

SC:A29-Parenting

18,265

147

2,544

2

15,721

k5

SC:A15-Famous

6,094

169

-9,297

3

15,391

k20

SC:B45-Famous:Greatest hits

11,937

167

-3,275

3

15,212

k27

SC:B14-Entertainment:Actor/ Actress

19,212

153

4,551

3

14,661

k13

SC:A55-Art

13,557

165

-0,533

3

14,090

k9

SC:A9-Relationship

14,974

160

1,666

3

13,308

k14

SC:A19-Writers

13,763

160

0,722

3

13,041

k28

SC:?-

18,776

163

5,797

2

12,979

k18

SC:A31-Business

21,795

128

9,017

2

12,778

k29

SC:B49-Book Collection:American Book

25,691

128

14,619

18

11,072

k10

SC:A40-Occult Fields

13,138

151

2,073

2

11,065

k12

SC:B329-Sexuality:Sexual perversions

28,266

108

17,391

2

10,875

k1

SC:М-

20,519

2

11,313

170

9,206

k23

SC:B97-Occult Fields:Astrologer

18,353

146

9,873

6

8,480

k8

SC:A5-Entertainment

16,238

152

7,959

3

8,279

k36

SC:A23-Psychological

23,313

110

15,164

8

8,149

k7

SC:A323-Sexuality

28,488

6

22,858

26

5,630

Сумма

17,698

Из таблицы 9 видно, что эффективность алгоритмов голосования для различных категорий изменяется от 39,2 % до 5,6 % и в среднем по всем категориям составляет 17,7 %. Продолжим исследование рисунка 8. На рисунке 10 линии максимальной и минимальной достоверностей идентификации по категориям показаны отдельно и приведены аппроксимирующие их логарифмические функции.

Рисунок 10 Максимальная и минимальная достоверности идентификации по категориям и аппроксимирующие их логарифмические функции

Из вида графиков и функций, приведенных на рисунке 9, можно сделать вывод о том, что модель, наилучшая по достоверности идентификации по категориям, превосходит наихудшую примерно на 21 % (при этом надо иметь в виду, что в качестве достоверности идентификации в данной статье рассматривается эвристический критерий, вычисляемый по формуле (1)). Это и есть тот максимальный эффект в повышении достоверности идентификации, который дает применение в системе "Эйдос-астра" системы частных моделей и алгоритмов голосования (коллективов решающих правил) и учета априорной информации о свойствах частных моделей при скоростном распознавании.

модель идентификация эйдос астра

4. Изучение зависимости достоверности идентификации в среднем по всем категориям от количества секторов в частной модели

На рисунке 11 показана средняя по всем категориям зависимость достоверности идентификации от количества секторов в частной модели.

Наиболее достоверной простой аппроксимацией зависимости средней достоверности частной модели от количества секторов в ней является аппроксимация логарифмической функцией:

y = 2,658Ln(x) + 4,6642

R2 = 0,8399.

При рассмотрении этой функции обращает на себя внимание то обстоятельство, что с увеличением количества секторов достоверность модели сначала возрастает очень быстро, затем на модели с 12 секторами скорость роста замедляется (т.е. 1-я производная становится меньше 45°) и в дальнейшем при увеличении числа секторов возрастет сравнительно незначительно. Однако 12 секторов, соответствующих разбиению на знаки Зодиака, получается довольно рационально и представляет собой результат весьма разумного компромисса между сложностью модели и ее достоверностью. Модель с разбиением на знаки Зодиака - это наиболее достоверная из сравнительно простых моделей, т.е. при дальнейшем ее упрощении она очень быстро теряет достоверность, а при усложнении ее достоверность возрастает, но очень медленно.

Рисунок 11 Средняя по всем категориям зависимость достоверности идентификации от количества секторов в частной модели

Однако следует иметь в виду, что этот вывод был сделан на основе исследования средней достоверности всех 172 частных моделей по всем 37 категориям. Для отдельных категорий или их групп он может быть не совсем верным или вообще неверным, как мы видели выше при изучении зависимости достоверности идентификации по категориям от количества секторов в частной модели (рисунки 8, 9 и 10).

5. Изучение достоверности идентификации респондентов при скоростном распознавании и в различных режимах голосования моделей

Это исследование можно провести на респондентах, как входящих в обучающую выборку, на основе которой осуществлялся синтез модели, так и не входящих в нее, например, путем тестирования участников форумов. В первом случае мы получим оценку внутренней дифференциальной валидности, а во втором - внешней дифференциальной валидности. По мнению авторов, второй вариант в общем случае является более жестким и корректным, и в этом смысле предпочтительным с точки зрения возможности на основании него делать обоснованные выводы о достоверности модели. Однако в нашем случае разницы между этими вариантами практически нет, т.к. из-за очень высокой статистической представительности категорий и огромного общего объема обучающей выборки "относительный вес" или вклад данных каждого конкретного респондента в обобщенный образ любой из исследованных категорий столь мал, что им практически можно пренебречь, т.е. приближенно, практически не ошибаясь, считать, что его данные не использовались при синтезе модели вообще и данной категории, в частности. Получается, что при увеличении статистики внутренняя валидность асимптотически стремится к внешней. В этом и состоит одна из причин исследования столь представительной в целом (20007 респондентов) и по каждой из категорий (не менее 1000 респондентов) выборки.

Система "Эйдос" формирует сводные итоговые формы по результатам идентификации, предназначенные для оценки достоверности частных моделей. Приведем эти сводные формы для пяти алгоритмов голосования и скоростного распознавания.

1-й алгоритм голосования

Всего физических анкет: 370 (100% для п.15)

Всего логических анкет: 454

4. Средняя достоверность идентификации логических анкет с учетом сходства: -20.281%

5. Среднее сходство логических анкет, правильно отнесенных к классу: 20.822%

6. Среднее сходство логических анкет, ошибочно не отнесенных к классу: 0.000%

7. Среднее сходство логических анкет, ошибочно отнесенных к классу: 41.103%

8. Среднее сходство логических анкет, правильно не отнесенных к классу: 0.000%

9. Средняя достоверность идентификации логических анкет с учетом кол-ва: -33.936%

10. Среднее количество физич-х анкет, действительно относящихся к классу: 17.956 (100% для п.11 и п.12)

Среднее количество физич-х анкет, действительно не относящихся к классу: 352.044 (100% для п.13 и п.14)

Всего физических анкет: 370.000 (100% для п.15)

11. Среднее количество и % лог-их анкет, правильно отнесенных к классу: 17.956, т.е. 100.000%

12. Среднее количество и % лог-их анкет, ошибочно не отнесенных к классу: 0.000, т.е. 0.000%

13. Среднее количество и % лог-их анкет, ошибочно отнесенных к классу: 37.068, т.е. 10.529%

14. Среднее количество и % лог-их анкет, правильно не отнесенных к классу: 0.000, т.е. 0.000%

15. Средневзвешенная вероятность случайного угадывания принадлежности объекта к классу ( % ): 4.853

16. Средневзвешенная эффективность применения модели по сравнению со случ. угадыванием (раз): 30.154

2-й алгоритм голосования

Всего физических анкет: 370 (100% для п.15)

Всего логических анкет: 1200

4. Средняя достоверность идентификации логических анкет с учетом сходства: -2.864%

5. Среднее сходство логических анкет, правильно отнесенных к классу: 2.145%

6. Среднее сходство логических анкет, ошибочно не отнесенных к классу: 0.000%

7. Среднее сходство логических анкет, ошибочно отнесенных к классу: 5.009%

8. Среднее сходство логических анкет, правильно не отнесенных к классу: 0.000%

9. Средняя достоверность идентификации логических анкет с учетом кол-ва: -29.372%

10. Среднее количество физич-х анкет, действительно относящихся к классу: 45.080 (100% для п.11 и п.12)

Среднее количество физич-х анкет, действительно не относящихся к классу: 324.920 (100% для п.13 и п.14)

Всего физических анкет: 370.000 (100% для п.15)

11. Среднее количество и % лог-их анкет, правильно отнесенных к классу: 45.080, т.е. 100.000%

12. Среднее количество и % лог-их анкет, ошибочно не отнесенных к классу: 0.000, т.е. 0.000%

13. Среднее количество и % лог-их анкет, ошибочно отнесенных к классу: 139.823, т.е. 43.033%

14. Среднее количество и % лог-их анкет, правильно не отнесенных к классу: 0.000, т.е. 0.000%

15. Средневзвешенная вероятность случайного угадывания принадлежности объекта к классу ( % ): 12.184

16. Средневзвешенная эффективность применения модели по сравнению со случ. угадыванием (раз): 11.408

3-й алгоритм голосования

Всего физических анкет: 370 (100% для п.15)

Всего логических анкет: 2079

4. Средняя достоверность идентификации логических анкет с учетом сходства: -5.834%

5. Среднее сходство логических анкет, правильно отнесенных к классу: 6.895%

6. Среднее сходство логических анкет, ошибочно не отнесенных к классу: 0.103%

7. Среднее сходство логических анкет, ошибочно отнесенных к классу: 14.421%

8. Среднее сходство логических анкет, правильно не отнесенных к классу: 1.795%

9. Средняя достоверность идентификации логических анкет с учетом кол-ва: -27.265%

10. Среднее количество физич-х анкет, действительно относящихся к классу: 87.080 (100% для п.11 и п.12)

Среднее количество физич-х анкет, действительно не относящихся к классу: 282.920 (100% для п.13 и п.14)

Всего физических анкет: 370.000 (100% для п.15)

11. Среднее количество и % лог-их анкет, правильно отнесенных к классу: 82.244, т.е. 94.446%

12. Среднее количество и % лог-их анкет, ошибочно не отнесенных к классу: 4.836, т.е. 5.554%

13. Среднее количество и % лог-их анкет, ошибочно отнесенных к классу: 230.604, т.е. 81.509%

14. Среднее количество и % лог-их анкет, правильно не отнесенных к классу: 52.316, т.е. 18.491%

15. Средневзвешенная вероятность случайного угадывания принадлежности объекта к классу ( % ): 23.535

16. Средневзвешенная эффективность применения модели по сравнению со случ. угадыванием (раз): 6.352

4-й алгоритм голосования

Всего физических анкет: 370 (100% для п.15)

Всего логических анкет: 2079

4. Средняя достоверность идентификации логических анкет с учетом сходства: 8.041%

5. Среднее сходство логических анкет, правильно отнесенных к классу: 4.768%

6. Среднее сходство логических анкет, ошибочно не отнесенных к классу: 0.771%

7. Среднее сходство логических анкет, ошибочно отнесенных к классу: 6.269%

8. Среднее сходство логических анкет, правильно не отнесенных к классу: 10.312%

9. Средняя достоверность идентификации логических анкет с учетом кол-ва: 18.563%

10. Среднее количество физич-х анкет, действительно относящихся к классу: 87.080 (100% для п.11 и п.12)

Среднее количество физич-х анкет, действительно не относящихся к классу: 282.920 (100% для п.13 и п.14)

Всего физических анкет: 370.000 (100% для п.15)

11. Среднее количество и % лог-их анкет, правильно отнесенных к классу: 62.379, т.е. 71.634%

12. Среднее количество и % лог-их анкет, ошибочно не отнесенных к классу: 24.701, т.е. 28.366%

13. Среднее количество и % лог-их анкет, ошибочно отнесенных к классу: 125.941, т.е. 44.515%

14. Среднее количество и % лог-их анкет, правильно не отнесенных к классу: 156.946, т.е. 55.474%

15. Средневзвешенная вероятность случайного угадывания принадлежности объекта к классу ( % ): 23.535

16. Средневзвешенная эффективность применения модели по сравнению со случ. угадыванием (раз): 5.396

5-й алгоритм голосования

Всего физических анкет: 370 (100% для п.15)

Всего логических анкет: 2077

4. Средняя достоверность идентификации логических анкет с учетом сходства: 0.921%

5. Среднее сходство логических анкет, правильно отнесенных к классу: 0.796%

6. Среднее сходство логических анкет, ошибочно не отнесенных к классу: 0.129%

7. Среднее сходство логических анкет, ошибочно отнесенных к классу: 1.301%

8. Среднее сходство логических анкет, правильно не отнесенных к классу: 1.556%

9. Средняя достоверность идентификации логических анкет с учетом кол-ва: 11.209%

10. Среднее количество физич-х анкет, действительно относящихся к классу: 86.993 (100% для п.11 и п.12)

Среднее количество физич-х анкет, действительно не относящихся к классу: 283.007 (100% для п.13 и п.14)

Всего физических анкет: 370.000 (100% для п.15)

11. Среднее количество и % лог-их анкет, правильно отнесенных к классу: 61.184, т.е. 70.332%

12. Среднее количество и % лог-их анкет, ошибочно не отнесенных к классу: 25.809, т.е. 29.668%

13. Среднее количество и % лог-их анкет, ошибочно отнесенных к классу: 138.381, т.е. 48.897%

14. Среднее количество и % лог-их анкет, правильно не отнесенных к классу: 144.476, т.е. 51.050%

15. Средневзвешенная вероятность случайного угадывания принадлежности объекта к классу ( % ): 23.512

16. Средневзвешенная эффективность применения модели по сравнению со случ. угадыванием (раз): 5.132

Режим скоростного распознавания

Всего физических анкет: 370 (100% для п.15)

Всего логических анкет: 2079

4. Средняя достоверность идентификации логических анкет с учетом сходства: 8.058%

5. Среднее сходство логических анкет, правильно отнесенных к классу: 4.813%

6. Среднее сходство логических анкет, ошибочно не отнесенных к классу: 0.775%

7. Среднее сходство логических анкет, ошибочно отнесенных к классу: 6.294%

8. Среднее сходство логических анкет, правильно не отнесенных к классу: 10.315%

9. Средняя достоверность идентификации логических анкет с учетом кол-ва: 18.563%

10. Среднее количество физич-х анкет, действительно относящихся к классу: 87.080 (100% для п.11 и п.12)

Среднее количество физич-х анкет, действительно не относящихся к классу: 282.920 (100% для п.13 и п.14)

Всего физических анкет: 370.000 (100% для п.15)

11. Среднее количество и % лог-их анкет, правильно отнесенных к классу: 62.379, т.е. 71.634%

12. Среднее количество и % лог-их анкет, ошибочно не отнесенных к классу: 24.701, т.е. 28.366%

13. Среднее количество и % лог-их анкет, ошибочно отнесенных к классу: 125.941, т.е. 44.515%

14. Среднее количество и % лог-их анкет, правильно не отнесенных к классу: 156.946, т.е. 55.474%

15. Средневзвешенная вероятность случайного угадывания принадлежности объекта к классу ( % ): 23.535

16. Средневзвешенная эффективность применения модели по сравнению со случ. угадыванием (раз): 5.396

Из анализа этих форм видно, что использование мультимодели и алгоритмов голосования дает результаты идентификации (по большинству категорий), существенно отличающиеся от случайного угадывания (в лучшую сторону).

Из этого можно сделать три важных вывода:

1. В обучающей выборке выявлены взаимосвязи между астрономическими признаками респондентов на момент рождения (астропризнаками) и обобщенными социальными категориями (астросоциотипами), показывающие, что эта выборка существенно отличается от случайной.

2. Знание этих выявленных закономерностей позволяет относить респондентов к обобщенным социальным категориям с достоверностью, значительно превосходящей вероятность случайного угадывания.

3. Достоверность предыдущих двух выводов, как статистических высказываний, составляет значительно более 95 %.

Более подробная информация для оценки достоверности идентификации при применении различных алгоритмов голосования и скоростном распознавании приведена в таблицах 10-15.

ФОРМУЛЫ РАСЧЕТА ПОКАЗАТЕЛЕЙ ДИФФЕРЕНЦИАЛЬНОЙ ВАЛИДНОСТИ (ПО КЛАССАМ):

C04[k] = C05[k] - C06[k] - C07[k] + C08[k]

C09[k] = ( C11[k] - C12[k] - C13[k] + C14[k] ) / ( C11[k] + C12[k] + C13[k] + C14[k] ) * 100

C10[k] = C11[k] + C12[k]

C15[k] = C10[k] / NFiz * 100

C16[k] = C09[k] / C15[k]

где k - класс (соответствует строке)

где NFiz - суммарное количество физических анкет (объектов) в распознаваемой выборке

ФОРМУЛЫ РАСЧЕТА ПОКАЗАТЕЛЕЙ ИНТЕГРАЛЬНОЙ ВАЛИДНОСТИ (СРЕДНЕВЗВЕШЕННОЕ ПО ВСЕМ КЛАССАМ):

Ci = СУММА_по_k( Ci[k] * C10[k] ) / NLog

где i = { 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16 }

где NLog = СУММА_по_k(C10[k]) - суммарное количество логических анкет в распознаваемой выборке

ПРИМЕЧАНИЕ: учтены только результаты идентификации с модулем сходства не менее: 0

Итак, в мультимодели, основанной на солидной базе прецедентов (20007 респондентов) с огромной статистической представительностью категорий (не менее 1000 респондентов на категорию), получены результаты идентификации респондентов тестирующей выборки из 370 респондентов, подобранных таким образом, чтобы их было не менее 10 на категорию.

Полученные результаты идентификации подтверждают, что (см. таблицы 9-14):

1. В созданной с помощью системы "Эйдос-астра" мультимодели выявлены зависимости между астропризнаками респондентов на момент их рождения и принадлежностью этих респондентов к обобщенным социальным категориям (типам).

2. Эти зависимости имеют такую силу, что их знание, по-видимому, может быть успешно использовано для идентификации респондентов по категориям.

3. Методы голосования моделей (коллективы решающих правил) позволяют повысить достоверность полученных результатов идентификации до 21 %, по сравнению с наихудшими частными моделями, поэтому это может представлять не только чисто научный, но, по-видимому, и практический интерес. Полученные результаты показывают, что достоверность идентификации с помощью мультимодели часто в 2,5 раза, а иногда - и в десятки раз превышает вероятность случайного угадывания, значит, их достоверность, как статистических высказываний, в этих случаях выше 95 %.

4. Выявлены категории, по которым уровень достоверности идентификации особенно высок или очень низкий. С учетом этого, предлагается при отнесении респондента системой к категориям второго типа не принимать эти результаты слишком серьезно.

5. Результаты экспериментального тестирования посетителей форума и обращающихся за консультациями в фирму: A&E Trounev IT Consulting (Canada, Toronto) показали, что научные исследования и разработки, описанные в данной статье и работах [8, 13-19], представляют не только научный, но и практический интерес, т.к. совпадение прогноза с фактом является довольно высоким и вполне очевидным как для консультанта, так и для его клиентов.

Некоторые результаты исследования модели

Формулы астросоциотипологии (информационные портреты астросоциотипов, семантические портреты астропризнаков, нелокальные нейроны) [8, 13, 19].

Естественно будет разумным и обоснованным, если формулы астросоциотипологии по каждой из категорий получать в той частной модели, в которой она идентифицируется с наивысшей достоверностью из всех исследованных частных моделей, т.е. с учетом информации, приведенной в таблице 8. В связи с ограниченным объемом данной статьи в качестве примеров приведем не все нелокальные нейроны, а только полученные в тех частных моделях, в которых их не менее двух (таблица 16).

Таблица 16

Нелокальные нейроны сгенерированные системой «Эйдос-Астра», отражающие влияние автропризнаков на принадлежность обладающих ими респондентов к обобщенным астроиоциотипам

Наименование

модели

Количество категорий, для идентификации которых

модель оказалась наилучшей

Коды

категорий

Наименование

модели

Количество категорий, для идентификации которых

модель оказалась наилучшей

Коды

категорий

2

2

3

1, 3, 11

3

162

3

4, 17, 30

Наименование

модели

Количество категорий, для идентификации которых

модель оказалась наилучшей

Коды

категорий

1

128

4

18, 26, 29, 37

Наименование

модели

Количество категорий, для идентификации которых

модель оказалась наилучшей

Коды

категорий

4

108

2

12,19

Наименование

модели

Количество категорий, для идентификации которых

модель оказалась наилучшей

Коды

категорий

5

148

2

25, 32

Наименование

модели

Количество категорий, для идентификации которых

модель оказалась наилучшей

Коды

категорий

6

152

2

2, 8

Наименование

модели

Количество категорий, для идентификации которых

модель оказалась наилучшей

Коды

категорий

7

153

2

27, 34

Наименование

модели

Количество категорий, для идентификации которых

модель оказалась наилучшей

Коды

категорий

8

160

2

9, 14

Наименование

модели

Количество категорий, для идентификации которых

модель оказалась наилучшей

Коды

категорий

9

163

2

24, 28

Наименование

модели

Количество категорий, для идентификации которых

модель оказалась наилучшей

Коды

категорий

10

165

2

13, 33

В таблице 16 изображения нелокальных нейронов не очень читабельны и для их детального просмотра рекомендуется считать doc-файл статьи и просматривать его в увеличенном масштабе (200-250 %).

Каждый астропризнак несет определенное количество информации о принадлежности или непринадлежности обладающего им респондента к той или иной обобщенной социальной категории. Астропризнаки, несущие информацию о принадлежности (способствующие факторы), соединены с центром красными линиями, а о непринадлежности - синим (препятствующие факторы). Таким образом, цвет линии несет информацию о знаке или направлении влияния астропризнака. Толщина линии отражает силу влияния данного астропризнака: чем толще линия, тем сильнее влияние. На каждой линии в маленьком кружочке сила и знак влияния указаны в виде числа, представляющего собой процент от теоретически-максимально-возможной (ТМВ) силы влияния. ТМВ сила влияния полностью определяется количеством обобщенных категорий в модели и представляет собой просто количество информации, которое мы получаем, когда точно узнаем, что респондент относится к той или иной категории. Это количество информации рассчитывается по формуле Хартли для количества информации как двоичный логарифм от количества категорий. В нашем случае во всех частных моделях исследовалось 37 категорий, поэтому ТМВ-сила влияния равна Log2(37)=5.209 бит.

Каждому нелокальному нейрону соответствует информационный потрет обобщенной социальной категории (класса, социотипа), который выводится системой "Эйдос" в текстовой и графической форме. В текстовой форме информация может быть представлена полнее, чем в графической (больше астропризнаков, точнее сила влияния), но менее наглядно, поэтому в графической форме отображается наиболее значимая информация, а незначимая отфильтровывается. Для примера приведем полностью информационные портреты социотипов с кодами: "k1", "k3" и "k11" из частной модели с двумя секторами, в которой они идентифицируются с наивысшей достоверностью из всех изученных частных моделей (таблицы 17, 18, 19). Для примера выбрана модель именно с двумя секторами, т.к. в этой модели размерность информационных портретов классов самая низкая.

В информационных портретах цветом отмечены астропризнаки, отображенные в нелокальных нейронах:

- светло-желтым - астропризнаки, способствующие принадлежности респондента к данному социотипу;

- а светло-зеленым - препятствующие.

Незначимые признаки можно отфильтровывать из информационных портретов по порогу, заданному в диалоге. Кроме того, в системе "Эйдос" реализованы другие различные виды фильтрации, ...


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.