Астросоциотипология и спектральный анализ личности по астросоциотипам с применением семантических информационных мультимоделей
Описание системы "Эйдос-астра" и алгоритмов голосования моделей. Алгоритм измерения достоверности идентификации классов в различных частных моделях. Зависимость достоверности идентификации в среднем по категориям от количества секторов в частной модели.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 26.04.2017 |
Размер файла | 1,3 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Таблица 7
База данных по достоверности идентификации с различными категориями в частных моделях (фрагмент)
Код кате- гории |
Наименование категории |
Условное наименов. катег. для графиков |
Максимальная достоверность идентификации |
Модель, обеспеч. максим. достовер. |
Кол-во респ., относ. к катег. |
|
22 |
SC:B173-Sports:Football |
k22 |
85,864 |
3 |
1613 |
|
11 |
SC:B111-Sports:Basketball |
k11 |
74,773 |
2 |
2385 |
|
3 |
SC:A53-Sports |
k3 |
64,398 |
2 |
4567 |
|
7 |
SC:A323-Sexuality |
k7 |
28,488 |
6 |
2675 |
|
12 |
SC:B329-Sexuality:Sexual perversions |
k12 |
28,266 |
108 |
2360 |
|
26 |
SC:A92-Birth |
k26 |
27,115 |
128 |
1343 |
|
19 |
SC:C330-Sexuality:Sexual perversions:Homosexual m |
k19 |
26,102 |
108 |
1807 |
|
29 |
SC:B49-Book Collection:American Book |
k29 |
25,691 |
128 |
1178 |
|
36 |
SC:A23-Psychological |
k36 |
23,313 |
110 |
1007 |
|
18 |
SC:A31-Business |
k18 |
21,795 |
128 |
1813 |
|
24 |
SC:B21-Relationship:Number of marriages |
k24 |
21,655 |
163 |
1417 |
|
30 |
SC:B26-Personality:Body |
k30 |
21,405 |
162 |
1163 |
|
37 |
SC:A108-Education |
k37 |
20,867 |
128 |
1002 |
|
1 |
SC:М- |
k1 |
20,519 |
2 |
13640 |
|
31 |
SC:B189-Medical:Illness |
k31 |
20,447 |
166 |
1159 |
|
33 |
SC:A99-Financial |
k33 |
20,415 |
165 |
1075 |
|
35 |
SC:A38-Politics |
k35 |
19,523 |
144 |
1039 |
|
27 |
SC:B14-Entertainment:Actor/ Actress |
k27 |
19,212 |
153 |
1256 |
|
28 |
SC:?- |
k28 |
18,776 |
163 |
1242 |
|
32 |
SC:B6-Entertainment:Music |
k32 |
18,539 |
148 |
1086 |
|
34 |
SC:B48-Famous:Top 5% of Profession |
k34 |
18,494 |
153 |
1073 |
|
25 |
SC:B2-Book Collection:Profiles Of Women |
k25 |
18,365 |
148 |
1389 |
|
23 |
SC:B97-Occult Fields:Astrologer |
k23 |
18,353 |
146 |
1480 |
|
21 |
SC:A29-Parenting |
k21 |
18,265 |
147 |
1754 |
|
16 |
SC:A25-Personality |
k16 |
16,442 |
114 |
2083 |
|
8 |
SC:A5-Entertainment |
k8 |
16,238 |
152 |
2577 |
|
9 |
SC:A9-Relationship |
k9 |
14,974 |
160 |
2442 |
|
14 |
SC:A19-Writers |
k14 |
13,763 |
160 |
2223 |
|
13 |
SC:A55-Art |
k13 |
13,557 |
165 |
2232 |
|
10 |
SC:A40-Occult Fields |
k10 |
13,138 |
151 |
2396 |
|
17 |
SC:A68-Childhood |
k17 |
13,069 |
162 |
1996 |
|
20 |
SC:B45-Famous:Greatest hits |
k20 |
11,937 |
167 |
1795 |
|
6 |
SC:A42-Medical |
k6 |
8,405 |
173 |
2910 |
|
5 |
SC:A15-Famous |
k5 |
6,094 |
169 |
3373 |
|
15 |
SC:A129-Death |
k15 |
5,422 |
168 |
2168 |
|
2 |
SC:Ж- |
k2 |
5,254 |
152 |
5125 |
|
4 |
SC:A1-Book Collection |
k4 |
4,514 |
162 |
4471 |
Весьма знаменательно, что из 172 исследованных частных моделей лишь 23 модели оказались наилучшими по достоверности идентификации каких-либо из 37 категорий, исследуемых в моделях. Причем разные частные модели оказались наилучшими для идентификации различного количества категорий (таблица 8).
Таблица 8
Сводная информация о качестве частных моделей
№ |
Наименование модели |
Кол. кат., для ид. кот. мод. оказ. наилучш. |
Коды категорий |
№ |
Наимено-вание модели |
Кол. кат., для ид. кот. мод. оказ. наилучш. |
Коды категорий |
|
1 |
128 |
4 |
18, 26, 29, 37 |
11 |
3 |
1 |
22 |
|
2 |
2 |
3 |
1, 3, 11 |
12 |
6 |
1 |
7 |
|
3 |
162 |
3 |
4, 17, 30 |
13 |
110 |
1 |
36 |
|
4 |
108 |
2 |
12,19 |
14 |
114 |
1 |
16 |
|
5 |
148 |
2 |
25, 32 |
15 |
144 |
1 |
35 |
|
6 |
152 |
2 |
2, 8 |
16 |
146 |
1 |
23 |
|
7 |
153 |
2 |
27, 34 |
17 |
147 |
1 |
21 |
|
8 |
160 |
2 |
9, 14 |
18 |
151 |
1 |
10 |
|
9 |
163 |
2 |
24, 28 |
19 |
166 |
1 |
31 |
|
10 |
165 |
2 |
13, 33 |
20 |
167 |
1 |
20 |
|
21 |
168 |
1 |
15 |
|||||
22 |
169 |
1 |
5 |
|||||
23 |
173 |
1 |
6 |
При этом всего 4 частные модели из 172 с: 128, 2, 162 и 108 секторами оказались наилучшими для идентификации 12 категорий из 37. Таким образом, 2,3 % исследованных частных моделей позволяют наиболее достоверно идентифицировать 32,4 % всех категорий, а 5,8 % моделей - 64,9 % всех категорий.
Обратим внимание также на столбец: "Модель, обеспечившая максимальную достоверность" (см. таблицу 7). Если изобразить систему концентрических колец, каждое из которых соответствует определенной частной модели, и разделить эти кольца на количество секторов в соответствующей частной модели, раскрасить эти секторы различными цветами спектра так, чтобы их было видно (можно было различить), то получим логотип данной мультимодели (рисунок 3).
Рисунок 3 Логотип мультимодели из 172 частных моделей на 37 категорий (после выбора 23 наиболее достоверных частных моделей)
Этот логотип получен с помощью программы Logoastr-v2.1, разработанной Д. Бандык (Беларусь) по алгоритму автора. Эту программу можно бесплатно скачать по ссылке: http://lc.kubagro.ru/ftp/lc_sfx.exe с сайта автора.
Необходимо пояснить, каким образом рассчитывается приведенная в таблице 7 достоверность идентификации. Достоверность идентификации по каждой категории является эвристическим критерием, который представляет собой алгебраическую сумму уровней сходства с данной категорией верно отнесенных и не отнесенных системой к данной категории респондентов минус ошибочно отнесенных и неотнесенных респондентов, деленную на их количество:
Где
- достоверность идентификации "k-й" категории; |
||
N |
- количество респондентов в распознаваемой выборке; |
|
- уровень сходства "i-го" респондента с "k-й" категорией, к которой он был правильно отнесен системой; |
||
- уровень сходства "i-го" респондента с "k-й" категорией, к которой он был правильно не отнесен системой; |
||
- уровень сходства "i-го" респондента с "k-й" категорией, к которой он был ошибочно отнесен системой; |
||
- уровень сходства "i-го" респондента с "k-й" категорией, к которой он был ошибочно не отнесен системой. |
На рисунке 4 приведен фрагмент карточки идентификации респондентов с классом, по которой рассчитывается достоверность идентификации с данным классом, т. к. в тестирующей выборке было 370 респондентов, и в полном виде эта карточка слишком объемна.
Рисунок 4 Фрагмент карточки идентификации респондентов
с классом: "5 SC:A15Famous"
На рисунке 5 показано распределение (и его аппроксимация степенной функцией) достоверности идентификации респондентов по всем категориям: от категории "k22" с максимальной достоверностью идентификации и до категории "k4" с минимальной достоверностью идентификации.
По нашим данным, (см. таблицу 7) к "хорошо идентифицируемым категориям" относятся: SC:B173-Sports:Football, SC:B111-Sports:Basketball, SC:A53-Sports, а к "плохо идентифицируемым категориям" - SC:A42-Medical, SC:A15-Famous, SC:A129-Death, SC:Ж-, SC:A1-Book Collection. По-видимому, к прогнозам, содержащим "хорошо идентифицируемые категории", можно в общем случае относиться с большим доверием, чем содержащим "плохо идентифицируемые категории". В принципе последние можно вообще исключать ("отфильтровывать") из карточек идентификации, что система "Эйдос" позволяет делать автоматически.
Рисунок 5 Распределение достоверности идентификации по категориям
2. Изучение зависимости достоверности идентификации по категориям от количества секторов в частной модели
Если на основе БД Dostiden.dbf построить графики зависимости достоверности идентификации для каждой категории от количества секторов в частной модели, то получим рисунок 6, на котором наглядно видно, что существуют, по крайней мере, три группы категорий (классов), отличающиеся видом этой зависимости:
1. Достоверность максимальна в частных моделях с небольшим числом секторов и при их увеличении быстро уменьшается, а затем стабилизируется.
2. Достоверность минимальна в частных моделях с небольшим числом секторов и при их увеличении быстро увеличивается, а затем стабилизируется.
3. Достоверность мало зависит от числа секторов в частной модели.
Из рисунка 6 также видно, что:
- большинство из исследуемых в мультимодели 37 категорий относится ко 2-й или 3-й группам, что и определяет вид средней по всем классам зависимости достоверности частной модели о количества секторов в ней;
- достоверность идентификации категорий 1-й группы значительно превосходит достоверность идентификации категорий во 2-й и 3-й группах.
Рисунок 6 Графики зависимости достоверности идентификации для каждой категории от количества секторов в частной модели
Поэтому можно сделать вывод о том, что идея применения концепции "коллектива решающих правил" или использования системы частных моделей, входящих в мультимодель, оказалась вполне обоснованной и оправданной.
Приведем на рисунке 7 наиболее типичные зависимости 1-й, 2-й и 3-й групп.
Рисунок 7 Наиболее типичные зависимости 1-й, 2-й и 3-й групп с аппроксимирующими их функциями
Функции, аппроксимирующие эти зависимости (полиномы и логарифмические функции), представлены ниже:
(k22) |
y = 2E-11x6 - 1E-08x5 + 3E-06x4 - 0,0004x3 + 0,0311x2 - 1,2582x + 86,253 R2 = 0,8106 |
(2) |
|
(k03) |
y = 2E-11x6 - 1E-08x5 + 3E-06x4 - 0,0004x3 + 0,0311x2 - 1,2582x + 86,253 R2 = 0,8106 |
(3) |
|
(k11) |
y = 1E-10x6 - 6E-08x5 + 1E-05x4 - 0,0015x3 + 0,097x2 - 3,0988x + 76,027 R2 = 0,9646 |
(4) |
|
(k25) |
y = 6,362Ln(x) - 16,478 R2 = 0,9364 |
(5) |
|
(k15) |
y = 4,7502Ln(x) - 21,72 R2 = 0,8839 |
(6) |
3. Изучение зависимости достоверности идентификации респондентов в частных моделях с различным количеством секторов от категорий
На основе БД Dostiden.dbf построим графики зависимостей достоверности идентификации респондентов со всеми категориями в частных моделях с различным количеством секторов (рисунок 8). На рисунке 8 красной жирной линией обозначена наивысшая, а жирной синей линией - наинизшая достоверность идентификации респондентов по каждой категории из всех частных моделей, достоверности идентификации в которых расположены между этими линиями.
Рисунок 8 Зависимости достоверности идентификации респондентов со всеми категориями в частных моделях с различным количеством секторов
Из рисунка 8 видно, что все обобщенные категории можно разделить на две основные группы по тому, в какой степени эффективными оказались алгоритмы голосования, с точки зрения повышения достоверности, при идентификации с этими категориям. Категории, при идентификации с которыми алгоритмы голосования:
- показали высокую эффективность;
- практически не сказываются.
На рисунке 9 показаны зависимости достоверности идентификации от категории, с которой осуществляется идентификация, причем категории рассортированы таким образом, что разница между достоверностью при применении наилучшей и наихудшей частных моделей, т.е. эффективность алгоритмов голосования уменьшается.
Рисунок 9 Зависимость достоверности идентификации в частных моделях с различным количеством секторов от категории при упорядочении категорий в порядке убывания эффективности алгоритмов голосования
В таблице 9 приведены наименования категорий и частных моделей в порядке уменьшения эффективности алгоритмов голосования.
Таблица 9
Эффективность алгоритмов голосования при идентификации респондентов с разными категориями в частных моделях с различным количеством секторов
Код катег. |
Наименование категории |
Наиболее эффективная частная модель |
Наименее эффективная частная модель |
Эффект. голосо- вания |
|||
Досто- верность |
Кол-во секторов |
Досто- верность |
Кол-во секторов |
||||
k11 |
SC:B111-Sports:Basketball |
74,773 |
2 |
35,502 |
40 |
39,271 |
|
k2 |
SC:Ж- |
5,254 |
152 |
-26,314 |
2 |
31,568 |
|
k25 |
SC:B2-Book Collection:Profiles Of Women |
18,365 |
148 |
-10,289 |
2 |
28,654 |
|
k31 |
SC:B189-Medical:Illness |
20,447 |
166 |
-4,971 |
2 |
25,418 |
|
k34 |
SC:B48-Famous:Top 5% of Profession |
18,494 |
153 |
-5,768 |
3 |
24,262 |
|
k26 |
SC:A92-Birth |
27,115 |
128 |
3,779 |
2 |
23,336 |
|
k16 |
SC:A25-Personality |
16,442 |
114 |
-6,580 |
3 |
23,022 |
|
k3 |
SC:A53-Sports |
64,398 |
2 |
41,589 |
171 |
22,809 |
|
k22 |
SC:B173-Sports:Football |
85,864 |
3 |
63,245 |
40 |
22,619 |
|
k32 |
SC:B6-Entertainment:Music |
18,539 |
148 |
-4,050 |
3 |
22,589 |
|
k15 |
SC:A129-Death |
5,422 |
168 |
-16,673 |
3 |
22,095 |
|
k33 |
SC:A99-Financial |
20,415 |
165 |
-1,414 |
3 |
21,829 |
|
k17 |
SC:A68-Childhood |
13,069 |
162 |
-8,275 |
2 |
21,344 |
|
k6 |
SC:A42-Medical |
8,405 |
173 |
-11,402 |
2 |
19,807 |
|
k37 |
SC:A108-Education |
20,867 |
128 |
2,078 |
3 |
18,789 |
|
k30 |
SC:B26-Personality:Body |
21,405 |
162 |
2,691 |
2 |
18,714 |
|
k24 |
SC:B21-Relationship:Number of marriages |
21,655 |
163 |
3,094 |
3 |
18,561 |
|
k35 |
SC:A38-Politics |
19,523 |
144 |
2,073 |
3 |
17,450 |
|
k4 |
SC:A1-Book Collection |
4,514 |
162 |
-11,869 |
4 |
16,383 |
|
k19 |
SC:C330-Sexuality:Sexual perversions:Homosexual m |
26,102 |
108 |
9,741 |
2 |
16,361 |
|
k21 |
SC:A29-Parenting |
18,265 |
147 |
2,544 |
2 |
15,721 |
|
k5 |
SC:A15-Famous |
6,094 |
169 |
-9,297 |
3 |
15,391 |
|
k20 |
SC:B45-Famous:Greatest hits |
11,937 |
167 |
-3,275 |
3 |
15,212 |
|
k27 |
SC:B14-Entertainment:Actor/ Actress |
19,212 |
153 |
4,551 |
3 |
14,661 |
|
k13 |
SC:A55-Art |
13,557 |
165 |
-0,533 |
3 |
14,090 |
|
k9 |
SC:A9-Relationship |
14,974 |
160 |
1,666 |
3 |
13,308 |
|
k14 |
SC:A19-Writers |
13,763 |
160 |
0,722 |
3 |
13,041 |
|
k28 |
SC:?- |
18,776 |
163 |
5,797 |
2 |
12,979 |
|
k18 |
SC:A31-Business |
21,795 |
128 |
9,017 |
2 |
12,778 |
|
k29 |
SC:B49-Book Collection:American Book |
25,691 |
128 |
14,619 |
18 |
11,072 |
|
k10 |
SC:A40-Occult Fields |
13,138 |
151 |
2,073 |
2 |
11,065 |
|
k12 |
SC:B329-Sexuality:Sexual perversions |
28,266 |
108 |
17,391 |
2 |
10,875 |
|
k1 |
SC:М- |
20,519 |
2 |
11,313 |
170 |
9,206 |
|
k23 |
SC:B97-Occult Fields:Astrologer |
18,353 |
146 |
9,873 |
6 |
8,480 |
|
k8 |
SC:A5-Entertainment |
16,238 |
152 |
7,959 |
3 |
8,279 |
|
k36 |
SC:A23-Psychological |
23,313 |
110 |
15,164 |
8 |
8,149 |
|
k7 |
SC:A323-Sexuality |
28,488 |
6 |
22,858 |
26 |
5,630 |
|
Сумма |
17,698 |
Из таблицы 9 видно, что эффективность алгоритмов голосования для различных категорий изменяется от 39,2 % до 5,6 % и в среднем по всем категориям составляет 17,7 %. Продолжим исследование рисунка 8. На рисунке 10 линии максимальной и минимальной достоверностей идентификации по категориям показаны отдельно и приведены аппроксимирующие их логарифмические функции.
Рисунок 10 Максимальная и минимальная достоверности идентификации по категориям и аппроксимирующие их логарифмические функции
Из вида графиков и функций, приведенных на рисунке 9, можно сделать вывод о том, что модель, наилучшая по достоверности идентификации по категориям, превосходит наихудшую примерно на 21 % (при этом надо иметь в виду, что в качестве достоверности идентификации в данной статье рассматривается эвристический критерий, вычисляемый по формуле (1)). Это и есть тот максимальный эффект в повышении достоверности идентификации, который дает применение в системе "Эйдос-астра" системы частных моделей и алгоритмов голосования (коллективов решающих правил) и учета априорной информации о свойствах частных моделей при скоростном распознавании.
модель идентификация эйдос астра
4. Изучение зависимости достоверности идентификации в среднем по всем категориям от количества секторов в частной модели
На рисунке 11 показана средняя по всем категориям зависимость достоверности идентификации от количества секторов в частной модели.
Наиболее достоверной простой аппроксимацией зависимости средней достоверности частной модели от количества секторов в ней является аппроксимация логарифмической функцией:
y = 2,658Ln(x) + 4,6642
R2 = 0,8399.
При рассмотрении этой функции обращает на себя внимание то обстоятельство, что с увеличением количества секторов достоверность модели сначала возрастает очень быстро, затем на модели с 12 секторами скорость роста замедляется (т.е. 1-я производная становится меньше 45°) и в дальнейшем при увеличении числа секторов возрастет сравнительно незначительно. Однако 12 секторов, соответствующих разбиению на знаки Зодиака, получается довольно рационально и представляет собой результат весьма разумного компромисса между сложностью модели и ее достоверностью. Модель с разбиением на знаки Зодиака - это наиболее достоверная из сравнительно простых моделей, т.е. при дальнейшем ее упрощении она очень быстро теряет достоверность, а при усложнении ее достоверность возрастает, но очень медленно.
Рисунок 11 Средняя по всем категориям зависимость достоверности идентификации от количества секторов в частной модели
Однако следует иметь в виду, что этот вывод был сделан на основе исследования средней достоверности всех 172 частных моделей по всем 37 категориям. Для отдельных категорий или их групп он может быть не совсем верным или вообще неверным, как мы видели выше при изучении зависимости достоверности идентификации по категориям от количества секторов в частной модели (рисунки 8, 9 и 10).
5. Изучение достоверности идентификации респондентов при скоростном распознавании и в различных режимах голосования моделей
Это исследование можно провести на респондентах, как входящих в обучающую выборку, на основе которой осуществлялся синтез модели, так и не входящих в нее, например, путем тестирования участников форумов. В первом случае мы получим оценку внутренней дифференциальной валидности, а во втором - внешней дифференциальной валидности. По мнению авторов, второй вариант в общем случае является более жестким и корректным, и в этом смысле предпочтительным с точки зрения возможности на основании него делать обоснованные выводы о достоверности модели. Однако в нашем случае разницы между этими вариантами практически нет, т.к. из-за очень высокой статистической представительности категорий и огромного общего объема обучающей выборки "относительный вес" или вклад данных каждого конкретного респондента в обобщенный образ любой из исследованных категорий столь мал, что им практически можно пренебречь, т.е. приближенно, практически не ошибаясь, считать, что его данные не использовались при синтезе модели вообще и данной категории, в частности. Получается, что при увеличении статистики внутренняя валидность асимптотически стремится к внешней. В этом и состоит одна из причин исследования столь представительной в целом (20007 респондентов) и по каждой из категорий (не менее 1000 респондентов) выборки.
Система "Эйдос" формирует сводные итоговые формы по результатам идентификации, предназначенные для оценки достоверности частных моделей. Приведем эти сводные формы для пяти алгоритмов голосования и скоростного распознавания.
1-й алгоритм голосования
Всего физических анкет: 370 (100% для п.15)
Всего логических анкет: 454
4. Средняя достоверность идентификации логических анкет с учетом сходства: -20.281%
5. Среднее сходство логических анкет, правильно отнесенных к классу: 20.822%
6. Среднее сходство логических анкет, ошибочно не отнесенных к классу: 0.000%
7. Среднее сходство логических анкет, ошибочно отнесенных к классу: 41.103%
8. Среднее сходство логических анкет, правильно не отнесенных к классу: 0.000%
9. Средняя достоверность идентификации логических анкет с учетом кол-ва: -33.936%
10. Среднее количество физич-х анкет, действительно относящихся к классу: 17.956 (100% для п.11 и п.12)
Среднее количество физич-х анкет, действительно не относящихся к классу: 352.044 (100% для п.13 и п.14)
Всего физических анкет: 370.000 (100% для п.15)
11. Среднее количество и % лог-их анкет, правильно отнесенных к классу: 17.956, т.е. 100.000%
12. Среднее количество и % лог-их анкет, ошибочно не отнесенных к классу: 0.000, т.е. 0.000%
13. Среднее количество и % лог-их анкет, ошибочно отнесенных к классу: 37.068, т.е. 10.529%
14. Среднее количество и % лог-их анкет, правильно не отнесенных к классу: 0.000, т.е. 0.000%
15. Средневзвешенная вероятность случайного угадывания принадлежности объекта к классу ( % ): 4.853
16. Средневзвешенная эффективность применения модели по сравнению со случ. угадыванием (раз): 30.154
2-й алгоритм голосования
Всего физических анкет: 370 (100% для п.15)
Всего логических анкет: 1200
4. Средняя достоверность идентификации логических анкет с учетом сходства: -2.864%
5. Среднее сходство логических анкет, правильно отнесенных к классу: 2.145%
6. Среднее сходство логических анкет, ошибочно не отнесенных к классу: 0.000%
7. Среднее сходство логических анкет, ошибочно отнесенных к классу: 5.009%
8. Среднее сходство логических анкет, правильно не отнесенных к классу: 0.000%
9. Средняя достоверность идентификации логических анкет с учетом кол-ва: -29.372%
10. Среднее количество физич-х анкет, действительно относящихся к классу: 45.080 (100% для п.11 и п.12)
Среднее количество физич-х анкет, действительно не относящихся к классу: 324.920 (100% для п.13 и п.14)
Всего физических анкет: 370.000 (100% для п.15)
11. Среднее количество и % лог-их анкет, правильно отнесенных к классу: 45.080, т.е. 100.000%
12. Среднее количество и % лог-их анкет, ошибочно не отнесенных к классу: 0.000, т.е. 0.000%
13. Среднее количество и % лог-их анкет, ошибочно отнесенных к классу: 139.823, т.е. 43.033%
14. Среднее количество и % лог-их анкет, правильно не отнесенных к классу: 0.000, т.е. 0.000%
15. Средневзвешенная вероятность случайного угадывания принадлежности объекта к классу ( % ): 12.184
16. Средневзвешенная эффективность применения модели по сравнению со случ. угадыванием (раз): 11.408
3-й алгоритм голосования
Всего физических анкет: 370 (100% для п.15)
Всего логических анкет: 2079
4. Средняя достоверность идентификации логических анкет с учетом сходства: -5.834%
5. Среднее сходство логических анкет, правильно отнесенных к классу: 6.895%
6. Среднее сходство логических анкет, ошибочно не отнесенных к классу: 0.103%
7. Среднее сходство логических анкет, ошибочно отнесенных к классу: 14.421%
8. Среднее сходство логических анкет, правильно не отнесенных к классу: 1.795%
9. Средняя достоверность идентификации логических анкет с учетом кол-ва: -27.265%
10. Среднее количество физич-х анкет, действительно относящихся к классу: 87.080 (100% для п.11 и п.12)
Среднее количество физич-х анкет, действительно не относящихся к классу: 282.920 (100% для п.13 и п.14)
Всего физических анкет: 370.000 (100% для п.15)
11. Среднее количество и % лог-их анкет, правильно отнесенных к классу: 82.244, т.е. 94.446%
12. Среднее количество и % лог-их анкет, ошибочно не отнесенных к классу: 4.836, т.е. 5.554%
13. Среднее количество и % лог-их анкет, ошибочно отнесенных к классу: 230.604, т.е. 81.509%
14. Среднее количество и % лог-их анкет, правильно не отнесенных к классу: 52.316, т.е. 18.491%
15. Средневзвешенная вероятность случайного угадывания принадлежности объекта к классу ( % ): 23.535
16. Средневзвешенная эффективность применения модели по сравнению со случ. угадыванием (раз): 6.352
4-й алгоритм голосования
Всего физических анкет: 370 (100% для п.15)
Всего логических анкет: 2079
4. Средняя достоверность идентификации логических анкет с учетом сходства: 8.041%
5. Среднее сходство логических анкет, правильно отнесенных к классу: 4.768%
6. Среднее сходство логических анкет, ошибочно не отнесенных к классу: 0.771%
7. Среднее сходство логических анкет, ошибочно отнесенных к классу: 6.269%
8. Среднее сходство логических анкет, правильно не отнесенных к классу: 10.312%
9. Средняя достоверность идентификации логических анкет с учетом кол-ва: 18.563%
10. Среднее количество физич-х анкет, действительно относящихся к классу: 87.080 (100% для п.11 и п.12)
Среднее количество физич-х анкет, действительно не относящихся к классу: 282.920 (100% для п.13 и п.14)
Всего физических анкет: 370.000 (100% для п.15)
11. Среднее количество и % лог-их анкет, правильно отнесенных к классу: 62.379, т.е. 71.634%
12. Среднее количество и % лог-их анкет, ошибочно не отнесенных к классу: 24.701, т.е. 28.366%
13. Среднее количество и % лог-их анкет, ошибочно отнесенных к классу: 125.941, т.е. 44.515%
14. Среднее количество и % лог-их анкет, правильно не отнесенных к классу: 156.946, т.е. 55.474%
15. Средневзвешенная вероятность случайного угадывания принадлежности объекта к классу ( % ): 23.535
16. Средневзвешенная эффективность применения модели по сравнению со случ. угадыванием (раз): 5.396
5-й алгоритм голосования
Всего физических анкет: 370 (100% для п.15)
Всего логических анкет: 2077
4. Средняя достоверность идентификации логических анкет с учетом сходства: 0.921%
5. Среднее сходство логических анкет, правильно отнесенных к классу: 0.796%
6. Среднее сходство логических анкет, ошибочно не отнесенных к классу: 0.129%
7. Среднее сходство логических анкет, ошибочно отнесенных к классу: 1.301%
8. Среднее сходство логических анкет, правильно не отнесенных к классу: 1.556%
9. Средняя достоверность идентификации логических анкет с учетом кол-ва: 11.209%
10. Среднее количество физич-х анкет, действительно относящихся к классу: 86.993 (100% для п.11 и п.12)
Среднее количество физич-х анкет, действительно не относящихся к классу: 283.007 (100% для п.13 и п.14)
Всего физических анкет: 370.000 (100% для п.15)
11. Среднее количество и % лог-их анкет, правильно отнесенных к классу: 61.184, т.е. 70.332%
12. Среднее количество и % лог-их анкет, ошибочно не отнесенных к классу: 25.809, т.е. 29.668%
13. Среднее количество и % лог-их анкет, ошибочно отнесенных к классу: 138.381, т.е. 48.897%
14. Среднее количество и % лог-их анкет, правильно не отнесенных к классу: 144.476, т.е. 51.050%
15. Средневзвешенная вероятность случайного угадывания принадлежности объекта к классу ( % ): 23.512
16. Средневзвешенная эффективность применения модели по сравнению со случ. угадыванием (раз): 5.132
Режим скоростного распознавания
Всего физических анкет: 370 (100% для п.15)
Всего логических анкет: 2079
4. Средняя достоверность идентификации логических анкет с учетом сходства: 8.058%
5. Среднее сходство логических анкет, правильно отнесенных к классу: 4.813%
6. Среднее сходство логических анкет, ошибочно не отнесенных к классу: 0.775%
7. Среднее сходство логических анкет, ошибочно отнесенных к классу: 6.294%
8. Среднее сходство логических анкет, правильно не отнесенных к классу: 10.315%
9. Средняя достоверность идентификации логических анкет с учетом кол-ва: 18.563%
10. Среднее количество физич-х анкет, действительно относящихся к классу: 87.080 (100% для п.11 и п.12)
Среднее количество физич-х анкет, действительно не относящихся к классу: 282.920 (100% для п.13 и п.14)
Всего физических анкет: 370.000 (100% для п.15)
11. Среднее количество и % лог-их анкет, правильно отнесенных к классу: 62.379, т.е. 71.634%
12. Среднее количество и % лог-их анкет, ошибочно не отнесенных к классу: 24.701, т.е. 28.366%
13. Среднее количество и % лог-их анкет, ошибочно отнесенных к классу: 125.941, т.е. 44.515%
14. Среднее количество и % лог-их анкет, правильно не отнесенных к классу: 156.946, т.е. 55.474%
15. Средневзвешенная вероятность случайного угадывания принадлежности объекта к классу ( % ): 23.535
16. Средневзвешенная эффективность применения модели по сравнению со случ. угадыванием (раз): 5.396
Из анализа этих форм видно, что использование мультимодели и алгоритмов голосования дает результаты идентификации (по большинству категорий), существенно отличающиеся от случайного угадывания (в лучшую сторону).
Из этого можно сделать три важных вывода:
1. В обучающей выборке выявлены взаимосвязи между астрономическими признаками респондентов на момент рождения (астропризнаками) и обобщенными социальными категориями (астросоциотипами), показывающие, что эта выборка существенно отличается от случайной.
2. Знание этих выявленных закономерностей позволяет относить респондентов к обобщенным социальным категориям с достоверностью, значительно превосходящей вероятность случайного угадывания.
3. Достоверность предыдущих двух выводов, как статистических высказываний, составляет значительно более 95 %.
Более подробная информация для оценки достоверности идентификации при применении различных алгоритмов голосования и скоростном распознавании приведена в таблицах 10-15.
ФОРМУЛЫ РАСЧЕТА ПОКАЗАТЕЛЕЙ ДИФФЕРЕНЦИАЛЬНОЙ ВАЛИДНОСТИ (ПО КЛАССАМ):
C04[k] = C05[k] - C06[k] - C07[k] + C08[k]
C09[k] = ( C11[k] - C12[k] - C13[k] + C14[k] ) / ( C11[k] + C12[k] + C13[k] + C14[k] ) * 100
C10[k] = C11[k] + C12[k]
C15[k] = C10[k] / NFiz * 100
C16[k] = C09[k] / C15[k]
где k - класс (соответствует строке)
где NFiz - суммарное количество физических анкет (объектов) в распознаваемой выборке
ФОРМУЛЫ РАСЧЕТА ПОКАЗАТЕЛЕЙ ИНТЕГРАЛЬНОЙ ВАЛИДНОСТИ (СРЕДНЕВЗВЕШЕННОЕ ПО ВСЕМ КЛАССАМ):
Ci = СУММА_по_k( Ci[k] * C10[k] ) / NLog
где i = { 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16 }
где NLog = СУММА_по_k(C10[k]) - суммарное количество логических анкет в распознаваемой выборке
ПРИМЕЧАНИЕ: учтены только результаты идентификации с модулем сходства не менее: 0
Итак, в мультимодели, основанной на солидной базе прецедентов (20007 респондентов) с огромной статистической представительностью категорий (не менее 1000 респондентов на категорию), получены результаты идентификации респондентов тестирующей выборки из 370 респондентов, подобранных таким образом, чтобы их было не менее 10 на категорию.
Полученные результаты идентификации подтверждают, что (см. таблицы 9-14):
1. В созданной с помощью системы "Эйдос-астра" мультимодели выявлены зависимости между астропризнаками респондентов на момент их рождения и принадлежностью этих респондентов к обобщенным социальным категориям (типам).
2. Эти зависимости имеют такую силу, что их знание, по-видимому, может быть успешно использовано для идентификации респондентов по категориям.
3. Методы голосования моделей (коллективы решающих правил) позволяют повысить достоверность полученных результатов идентификации до 21 %, по сравнению с наихудшими частными моделями, поэтому это может представлять не только чисто научный, но, по-видимому, и практический интерес. Полученные результаты показывают, что достоверность идентификации с помощью мультимодели часто в 2,5 раза, а иногда - и в десятки раз превышает вероятность случайного угадывания, значит, их достоверность, как статистических высказываний, в этих случаях выше 95 %.
4. Выявлены категории, по которым уровень достоверности идентификации особенно высок или очень низкий. С учетом этого, предлагается при отнесении респондента системой к категориям второго типа не принимать эти результаты слишком серьезно.
5. Результаты экспериментального тестирования посетителей форума и обращающихся за консультациями в фирму: A&E Trounev IT Consulting (Canada, Toronto) показали, что научные исследования и разработки, описанные в данной статье и работах [8, 13-19], представляют не только научный, но и практический интерес, т.к. совпадение прогноза с фактом является довольно высоким и вполне очевидным как для консультанта, так и для его клиентов.
Некоторые результаты исследования модели
Формулы астросоциотипологии (информационные портреты астросоциотипов, семантические портреты астропризнаков, нелокальные нейроны) [8, 13, 19].
Естественно будет разумным и обоснованным, если формулы астросоциотипологии по каждой из категорий получать в той частной модели, в которой она идентифицируется с наивысшей достоверностью из всех исследованных частных моделей, т.е. с учетом информации, приведенной в таблице 8. В связи с ограниченным объемом данной статьи в качестве примеров приведем не все нелокальные нейроны, а только полученные в тех частных моделях, в которых их не менее двух (таблица 16).
Таблица 16
Нелокальные нейроны сгенерированные системой «Эйдос-Астра», отражающие влияние автропризнаков на принадлежность обладающих ими респондентов к обобщенным астроиоциотипам
№ |
Наименование модели |
Количество категорий, для идентификации которых модель оказалась наилучшей |
Коды категорий |
№ |
Наименование модели |
Количество категорий, для идентификации которых модель оказалась наилучшей |
Коды категорий |
|
2 |
2 |
3 |
1, 3, 11 |
3 |
162 |
3 |
4, 17, 30 |
|
№ |
Наименование модели |
Количество категорий, для идентификации которых модель оказалась наилучшей |
Коды категорий |
|||||
1 |
128 |
4 |
18, 26, 29, 37 |
|||||
№ |
Наименование модели |
Количество категорий, для идентификации которых модель оказалась наилучшей |
Коды категорий |
|||||
4 |
108 |
2 |
12,19 |
|||||
№ |
Наименование модели |
Количество категорий, для идентификации которых модель оказалась наилучшей |
Коды категорий |
|||||
5 |
148 |
2 |
25, 32 |
|||||
№ |
Наименование модели |
Количество категорий, для идентификации которых модель оказалась наилучшей |
Коды категорий |
|||||
6 |
152 |
2 |
2, 8 |
|||||
№ |
Наименование модели |
Количество категорий, для идентификации которых модель оказалась наилучшей |
Коды категорий |
|||||
7 |
153 |
2 |
27, 34 |
|||||
№ |
Наименование модели |
Количество категорий, для идентификации которых модель оказалась наилучшей |
Коды категорий |
|||||
8 |
160 |
2 |
9, 14 |
|||||
№ |
Наименование модели |
Количество категорий, для идентификации которых модель оказалась наилучшей |
Коды категорий |
|||||
9 |
163 |
2 |
24, 28 |
|||||
№ |
Наименование модели |
Количество категорий, для идентификации которых модель оказалась наилучшей |
Коды категорий |
|||||
10 |
165 |
2 |
13, 33 |
|||||
В таблице 16 изображения нелокальных нейронов не очень читабельны и для их детального просмотра рекомендуется считать doc-файл статьи и просматривать его в увеличенном масштабе (200-250 %).
Каждый астропризнак несет определенное количество информации о принадлежности или непринадлежности обладающего им респондента к той или иной обобщенной социальной категории. Астропризнаки, несущие информацию о принадлежности (способствующие факторы), соединены с центром красными линиями, а о непринадлежности - синим (препятствующие факторы). Таким образом, цвет линии несет информацию о знаке или направлении влияния астропризнака. Толщина линии отражает силу влияния данного астропризнака: чем толще линия, тем сильнее влияние. На каждой линии в маленьком кружочке сила и знак влияния указаны в виде числа, представляющего собой процент от теоретически-максимально-возможной (ТМВ) силы влияния. ТМВ сила влияния полностью определяется количеством обобщенных категорий в модели и представляет собой просто количество информации, которое мы получаем, когда точно узнаем, что респондент относится к той или иной категории. Это количество информации рассчитывается по формуле Хартли для количества информации как двоичный логарифм от количества категорий. В нашем случае во всех частных моделях исследовалось 37 категорий, поэтому ТМВ-сила влияния равна Log2(37)=5.209 бит.
Каждому нелокальному нейрону соответствует информационный потрет обобщенной социальной категории (класса, социотипа), который выводится системой "Эйдос" в текстовой и графической форме. В текстовой форме информация может быть представлена полнее, чем в графической (больше астропризнаков, точнее сила влияния), но менее наглядно, поэтому в графической форме отображается наиболее значимая информация, а незначимая отфильтровывается. Для примера приведем полностью информационные портреты социотипов с кодами: "k1", "k3" и "k11" из частной модели с двумя секторами, в которой они идентифицируются с наивысшей достоверностью из всех изученных частных моделей (таблицы 17, 18, 19). Для примера выбрана модель именно с двумя секторами, т.к. в этой модели размерность информационных портретов классов самая низкая.
В информационных портретах цветом отмечены астропризнаки, отображенные в нелокальных нейронах:
- светло-желтым - астропризнаки, способствующие принадлежности респондента к данному социотипу;
- а светло-зеленым - препятствующие.
Незначимые признаки можно отфильтровывать из информационных портретов по порогу, заданному в диалоге. Кроме того, в системе "Эйдос" реализованы другие различные виды фильтрации, ...
Подобные документы
Анализ современного состояния общей проблемы синтеза моделей многофакторного оценивания и подходов к ее решению. Разработка математической модели метода компараторной идентификации модели многофакторного оценивания. Описание генетического алгоритма.
дипломная работа [851,7 K], добавлен 11.09.2012Анализ существующих методов реализации программного средства идентификации личности по голосу. Факторы, влияющие на уникальность речи. Разработка программного средства идентификации личности по голосу. Требования к программной документации приложения.
дипломная работа [12,7 M], добавлен 17.06.2016- Контроль достоверности исходной информации и диагностика отказов информационно-измерительных каналов
Изучение алгоритмов допускового контроля достоверности исходной информации, с помощью которых выявляются полные и частичные отказы информационно-измерительных каналов. Определение погрешности выполнения уравнения связи между количествами информации.
лабораторная работа [565,4 K], добавлен 14.04.2012 Описание сервиса электронного кафе и определение основных требований к системе. Модели вариантов использования, состояний, последовательности, классов, компонентов и развертывания. Описание алгоритмов, реализующих бизнес-логику серверной части.
курсовая работа [3,3 M], добавлен 23.12.2014Подсистема анализа изображения отпечатка пальца в составе системы идентификации личности по отпечаткам пальцев на основе папиллярного узора для дальнейшего распознавания личности. Характеристика функциональных возможностей системы и код програмы.
дипломная работа [3,1 M], добавлен 01.07.2008Проведение идентификации модели по схеме МНК. Запись исходной модели в дискретной форме. Сравнение параметров модели и результатов идентификации. Анализ графиков модельного выходного сигнала и оценки выходного сигнала, восстановленных по схеме МНК.
лабораторная работа [461,0 K], добавлен 19.02.2015Описание формальной модели алгоритма на основе рекурсивных функций. Разработка аналитической и программной модели алгоритма для распознающей машины Тьюринга. Разработка аналитической модели алгоритма с использованием нормальных алгоритмов Маркова.
курсовая работа [1,5 M], добавлен 07.07.2013Классификация и основные характеристики биометрических средств идентификации личности. Особенности реализации статических и динамических методов биометрического контроля. Средства авторизации и аутентификации в электронных системах охраны и безопасности.
курсовая работа [1,7 M], добавлен 19.01.2011Анализ биометрических систем идентификации личности по отпечаткам пальцев, форме кисти руки, оболочке глаза. Лицо как биометрический идентификатор. Анализ рынка систем распознавания личности. Оценка эффективности систем идентификации по геометрии лица.
курсовая работа [1,8 M], добавлен 30.05.2013- Разработка алгоритмов и программ для определения сходства семантических сетей на основе их сложности
Семантические сети как модели представления знаний. Основные методы определения сходства графовых моделей систем. Метод решения задач определения сходства семантических сетей на основе их сложности. Разработка алгоритмов и их программная реализация.
дипломная работа [1,3 M], добавлен 17.12.2011 Основные цели и задачи построения систем распознавания. Построение математической модели системы распознавания образов на примере алгоритма идентификации объектов военной техники в автоматизированных телекоммуникационных комплексах систем управления.
дипломная работа [332,2 K], добавлен 30.11.2012Реализация алгоритмов вычисления математических объектов на конкретных вычислительных машинах. Числовые данные в практических задачах. Анализ математических моделей, связанных с применением вычислительных машин в различных областях научной деятельности.
курсовая работа [369,3 K], добавлен 13.01.2018Построение концептуальной модели системы и ее формализация. Алгоритмизация модели системы и ее машинная реализация. Построение логической схемы модели. Проверка достоверности модели системы. Получение и интерпретация результатов моделирования системы.
курсовая работа [67,9 K], добавлен 07.12.2009Критерии и основные стратегии планирования процессора. Разработка моделей алгоритмов SPT (Shortest-processing-task-first) и RR (Round-Robin). Сравнительный анализ выбранных алгоритмов при различных условиях и различном количестве обрабатываемых данных.
курсовая работа [179,3 K], добавлен 21.06.2013Типы моделей данных: иерархическая, сетевая, реляционная. Структура входных и выходных данных. Классы управления данными, исключений. Структура таблиц, используемых в программе. Описание алгоритмов решения задачи. Диаграммы классов, блок-схемы алгоритмов.
курсовая работа [1,5 M], добавлен 22.06.2012Теоретические основы и проблемы принятия решений. Синтез модели многофакторного оценивания, метод компараторной идентификации. Особенности реализации базового генетического алгоритма. Программный способ определения эффективного состава команды проекта.
дипломная работа [733,1 K], добавлен 09.06.2012Обеспечение достоверности передаваемой информации применением корректирующих кодов. Код Хэмминга - алгоритм обнаружения и исправления одиночной ошибки. Использование циклических кодов при последовательной передачей между ЭВМ и внешними устройствами.
дипломная работа [123,7 K], добавлен 02.08.2009Обзор области генерации сетевого трафика. Описание выбранных методов, моделей, алгоритмов решения задач. Создание модели поведения пользователя, распределение количества посещённых страниц сайта. Выбор средств реализации программного продукта (проекта).
курсовая работа [1,3 M], добавлен 30.06.2017Понятие алгоритма и анализ теоретических оценок временной сложности алгоритмов умножения матриц. Сравнительный анализ оценки временной сложности некоторых классов алгоритмов обычным программированием и программированием с помощью технологии Open MP.
дипломная работа [1,6 M], добавлен 12.08.2017Построение модели прецедентов, модели пригодности для прецедента. Описание атрибутов и операций классов системы. Проектирование с применением методологии ICONIX. Построение диаграммы пригодности, диаграммы последовательностей и диаграмма классов.
курсовая работа [949,5 K], добавлен 25.05.2015