Параллельная обработка таблиц решения для задач распознавания
Презентация нового алгоритма параллельной предварительной обработки таблиц, основанного на теории приближенных множеств. Решение обобщенной задачи разбиения значений качественных и количественных атрибутов в условиях отсутствия некоторых значений.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 17.01.2018 |
Размер файла | 47,4 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Аннотация
Параллельная обработка таблиц решения для задач распознавания** Работа выполнена при финансовой поддержке РФФИ (проекты №05-07-90232, №05-01-00818).
Н.Р. Акчурина 111250, Москва, ул. Красноказарменная 14, МЭИ, AkchurinaNR@yandex.ru., В.Н. Вагин 111250, Москва, ул. Красноказарменная 14, МЭИ, vagin@apmsun.mpei.ac.ru.
Предложен новый параллельный алгоритм для решения актуальной задачи машинного обучения [Akchurina et al., 2004, Vagin et al., 2004] совместной обработки качественных и количественных атрибутов с отсутствующими значениями. Тщательное тестирование на 55 на базах данных известного хранилища UC Irvine Repository, специально созданного из реальных баз данных разных областей для тестирования и сравнения алгоритмов обобщения [ML Repository], показало, что использование предложенного алгоритма увеличило точность классификации (главного критерия качества обучения) известных алгоритмов обобщения: ID3 [Quinlan, 1993], C4.5 [Quinlan, 1993], Naпve Bayes [Langley et al., 1992], Instance Based [Wettschereck, 1994] почти для всех случаев. Предложенный алгоритм при наличии ресурсов также позволяет существенно увеличить скорость предварительной обработки.
Введение
В современном обществе все большие объемы информации сохраняются в базах данных. Общим для этих данных является то, что они содержат большое количество скрытых закономерностей, являющихся весьма важными для принятия стратегических решений. Решить эту проблему были призваны системы обнаружения знаний в базах данных. Одной из основных задач, решаемых данными системами и возникающей в таких областях как маркетинг, розничная торговля, банковское дело, телекоммуникации, страхование, медицина, молекулярная генетика и генная инженерия, является задача распознавания (задача формирования решающего правила, на основании которого объекты, принадлежащие классу, могут быть отделены от остальных).
Хотя ограничения модели представления извлеченных знаний на основе решающих правил могут существенно снизить точность аппроксимации, в пользу ее использования можно выдвинуть следующие доводы: она легка для понимания; системы, основанные на решающих правилах, по ряду критериев занимают лидирующие позиции; даже простые правила позволяют добиться приемлемой точности классификации - главного критерия качества обучения.
Обнаружение знаний в базах данных - это итеративный процесс, одной из основных стадий которого является предварительная обработка таблиц, в процессе которой происходят: дискретизация числовых значений полей, группировка качественных значений полей и обработка отсутствующих значений.
Необходимость дискретизации и группировки диктуется следующими факторами: многие алгоритмы обобщения могут работать только в дискретном пространстве, использование дискретизации и группировки обычно позволяет добиться существенного увеличения скорости работы и точности классификации.
Также большинство алгоритмов обобщения не может непосредственно работать с таблицами с отсутствующими значениями.
Классификация методов дискретизации и группировки:
· Методы дискретизации/группировки, ограниченные обработкой отдельных атрибутов, называются локальными, в то время как методы, которые обрабатывают одновременно все атрибуты сразу, называются глобальными.
· Методы дискретизации/группировки, которые не используют информацию о метках класса в процессе дискретизации/группировки по аналогии с алгоритмами индукции без учителя называются методами дискретизации/группировки без учителя, в отличие от методов, которые используют данную информацию и называются методами дискретизации/группировки с учителем.
Было показано, что:
· При использовании глобальных методов дискретизации/ группировки точность классификации выше, чем при использовании локальных.
· При использовании методов дискретизации/группировки с учителем точность классификации выше, чем при использовании методов без учителя.
На основе данных наблюдений и теории приближенных множеств авторами была предложена параллельная версия алгоритма [Akchurina et al., 2004, Vagin et al., 2004], позволяющая одновременно обработать разнородные атрибуты (качественные и количественные) в том числе и с отсутствующими значениями.
1. Алгоритм параллельной предварительной обработки таблиц, основанный на теории приближенных множеств
Информационной системой называется пара , где - непустое конечное множество объектов, названное универсумом и - непустое конечное множество атрибутов такое, что : для каждого . Множество называется множеством значений . Система решений (таблица решений) - это информационная система вида:
,
где - атрибут решения. Элементы называются атрибутами условия.
С каждым множеством атрибутов ассоциировано отношение эквивалентности , называемое отношением - неразличимости:
.
Обозначим:
.
Через обозначим классы эквивалентности отношения .
Обобщенное решение в - это функция:
.
Таблица решений называется непротиворечивой (детерминированной), если для любого , иначе называется противоречивой (недетерминированной).
Представим формальное определение обобщенной задачи разбиения значений атрибутов [Akchurina et al., 2004, Vagin et al., 2004].
Пусть
- таблица решений, где
для . Любая функция называется разбиением . Ранг определяется как
.
Любое семейство разбиений
определяет из новую систему решений
,
для любого объекта , . Семейство разбиений - непротиворечиво, если , где и - обобщенные решения и соответственно. - непротиворечивое семейство разбиений называется -оптимальным, если
для любого -непротиворечивого семейства разбиений . Обобщенная задача разбиения атрибутов состоит в том, чтобы найти - оптимальное семейство разбиений и получить таблицу решений .
Очевидно, чтобы пара объектов , различимая атрибутами условий в исходной системе, была различима атрибутами условий в результирующей системе, необходимо, чтобы значения хотя бы одного различающего атрибута объектов переходили в неравные в результирующей системе решения. алгоритм обработка таблица множество
Для сохранения информации о значениях этого атрибута объектов в исходной системе решения введем понятие цепочки.
Пусть
- система решений, где:
, и .
Тройка называется цепочкой, где для и .
Необходимо найти наименьшее множество цепочек , которые бы различали все пары объектов из разных классов, различимые хотя бы одним атрибутом условия в исходной системе. В результирующей системе решений для каждой цепочки из найденного множества, значения должны переходить в разные значения атрибута . Очевидно, что эта задача сводится к задаче раскрашивания графов, построенных для атрибутов , , у каждого из которых множество вершин - это множество значений атрибута , а множество ребер равно множеству всех цепочек в атрибута .
Для поиска на каждой итерации необходимо выбирать цепочку, которая различает как можно больше пар объектов из разных классов решения, неразличимых цепочками, найденными на предыдущих итерациях.
Для подсчета таких пар объектов используем понятие - относительной матрицы различимости для цепочек, основанное на понятии - относительной матрицы различимости.
- относительной матрицей различимости для цепочек будем называть симметричную матрицу с элементами:
.
Задача нахождения цепочки , которая различает наибольшее число пар объектов из разных классов, сводится к нахождению наиболее часто встречающейся цепочки в элементах - относительной матрицы различимости для цепочек.
На базе этих понятий был разработан параллельный алгоритм, решающий обобщенную задачу разбиения значений атрибутов в условиях отсутствия некоторых значений. Стратегия нахождения отсутствующих значений базируется на идеи наибольшей согласованности данных относительно решения.
Шаг 1. Производим наивную дискретизацию, которая заключается в разделении непрерывных областей значений атрибутов на заданное число равных интервалов.
Шаг 2. Каждое отсутствующее значение заменяем на уникальное значение. Обозначим - множество уникальных значений атрибута , .
Шаг 3. Для каждого процесса из
Формируем матрицу из -ого
столбца - относительной матрицы для цепочек.
Шаг 4. Находим наиболее часто встречающуюся цепочку в элементах .
Шаг 5. Цепочка добавляется к множеству цепочек .
Шаг 6. Все ячейки , содержащие заменяем пустыми множествами.
Шаг 7. Если все ячейки матрицы являются пустыми множествами, то переходим к шагу 4, иначе к шагу 8.
Шаг 8. Формируем множество цепочек из наиболее часто встречающихся цепочек в .
Шаг 9. Для каждого процесса из .
Проверяем, различает ли все объекты из различных классов решений при помощи матриц .
Если различает все объекты из различных классов решений, то переходим к шагу 10, иначе добавляем наиболее часто встречающуюся, еще не добавленную цепочку к и переходим к шагу 9.
Шаг 10. определяет из
новую систему решений:
,
для любого объекта , .
Шаг 11. Разделяем числовые атрибуты на интервалы. Шкалированые качественные атрибуты на подмножества.
2. Анализ результатов
Предложенный алгоритм был реализован на Ассемблере и протестирован на базах данных известного хранилища UC Irvine Repository, специально созданного из реальных баз данных разных областей для тестирования и сравнения алгоритмов обобщения [ML Repository]. Таблица показывает увеличение точности классификации, известных алгоритмов обобщения: ID3 [Quinlan, 1993], C4.5 [Quinlan, 1993], Naпve Bayes [Langley et al., 1992], Instance Based [Wettschereck, 1994] на 35 таблицах этого хранилища (тестирование было проведено для 55 таблиц), предварительно обработанных при помощи предложенного алгоритма, и характеристики таблиц:
train/test - число объектов в обучающем/экзаменационном множестве;
С - отмечено, если соответствующая таблица содержит количественные атрибуты;
Q - отмечено, если соответствующая таблица содержит качественные атрибуты;
M - отмечено, если некоторые значения в таблице отсутствуют.
Ячейки в таблице выделены, если точность классификации увеличилась или осталась неизменной при предварительной обработке таблиц предложенным алгоритмом.
Предложенный алгоритм при наличии ресурсов также позволяет существенно увеличить скорость предварительной обработки по сравнению с последовательной версией [Akchurina et al., 2004, Vagin et al., 2004].
В подавляющем числе случаев точность классификации при использовании предложенного в рамках данной работы алгоритма увеличилась для всех алгоритмов обобщения в независимости от типов атрибутов.
Train |
Test |
C |
Q |
M |
ID3 (%) |
VG > ID3 (%) |
C4.5 (%) |
VG > C4.5 (%) |
NB (%) |
VG > NB (%) |
IB (%) |
VG > IB (%) |
|||
1 |
audiology |
151 |
77 |
v |
73,68 |
68,42 |
76,32 |
73,68 |
53,95 |
69,74 |
71,05 |
67,11 |
|||
2 |
australian |
461 |
231 |
v |
v |
81,30 |
76,96 |
86,96 |
88,70 |
77,83 |
87,83 |
80,87 |
76,52 |
||
3 |
balance-scale |
417 |
210 |
v |
78,47 |
72,73 |
77,03 |
69,86 |
89,47 |
88,04 |
66,03 |
66,03 |
|||
4 |
banding |
138 |
100 |
v |
v |
v |
82,00 |
64,00 |
77,00 |
67,00 |
86,00 |
81,00 |
66,00 |
61,00 |
|
5 |
breast |
466 |
233 |
v |
v |
94,42 |
93,99 |
93,99 |
91,42 |
96,57 |
94,85 |
95,28 |
92,27 |
||
6 |
breast-cancer |
191 |
95 |
v |
v |
71,58 |
66,32 |
74,74 |
73,68 |
74,74 |
76,84 |
57,89 |
61,05 |
||
7 |
cars1 |
262 |
132 |
v |
81,68 |
73,28 |
74,81 |
72,52 |
63,36 |
62,60 |
71,76 |
63,36 |
|||
8 |
chess |
2130 |
1066 |
v |
98,69 |
96,62 |
99,53 |
97,37 |
87,15 |
86,77 |
90,43 |
90,53 |
|||
9 |
cleve |
202 |
101 |
v |
v |
v |
64,36 |
77,23 |
76,24 |
80,20 |
82,18 |
84,16 |
71,29 |
71,29 |
|
10 |
corral |
34 |
128 |
v |
87,50 |
100,0 |
81,25 |
100,0 |
90,63 |
87,50 |
86,72 |
100,0 |
|||
11 |
crx |
490 |
200 |
v |
v |
v |
72,50 |
76,50 |
83,00 |
81,50 |
76,50 |
81,00 |
74,00 |
73,00 |
|
12 |
DNA-nominal |
2000 |
1186 |
v |
90,30 |
91,32 |
92,41 |
92,58 |
94,60 |
94,10 |
74,20 |
87,27 |
|||
13 |
echocardiogram |
88 |
45 |
v |
v |
v |
63,64 |
59,09 |
63,64 |
65,91 |
68,18 |
75,00 |
54,55 |
61,36 |
|
14 |
flare |
711 |
357 |
v |
v |
81,46 |
82,30 |
85,11 |
85,11 |
81,18 |
72,19 |
75,28 |
83,99 |
||
15 |
german |
667 |
335 |
v |
v |
66,77 |
73,95 |
73,05 |
73,95 |
77,55 |
73,95 |
67,96 |
65,87 |
||
16 |
german-org |
667 |
335 |
v |
v |
71,56 |
71,56 |
74,55 |
72,46 |
74,85 |
72,46 |
69,16 |
69,16 |
||
17 |
glass |
142 |
72 |
v |
62,50 |
65,28 |
62,50 |
61,11 |
50,00 |
59,72 |
65,28 |
61,11 |
|||
18 |
glass2 |
108 |
55 |
v |
69,09 |
85,46 |
69,09 |
78,18 |
65,46 |
78,18 |
50,91 |
78,18 |
|||
19 |
hayes-roth |
132 |
28 |
v |
82,14 |
92,86 |
82,14 |
92,86 |
64,29 |
89,29 |
75,00 |
85,71 |
|||
20 |
heart |
181 |
91 |
v |
76,67 |
80,00 |
83,33 |
80,00 |
85,56 |
85,56 |
76,67 |
74,44 |
|||
21 |
hepatitis |
103 |
52 |
v |
v |
v |
78,85 |
80,77 |
71,15 |
75,00 |
76,92 |
78,85 |
84,62 |
82,69 |
|
22 |
ionosphere |
235 |
118 |
v |
91,45 |
91,45 |
88,03 |
88,89 |
84,62 |
91,45 |
75,21 |
88,03 |
|||
23 |
iris |
100 |
50 |
v |
94,00 |
94,00 |
92,00 |
92,00 |
94,00 |
96,00 |
78,00 |
96,00 |
|||
24 |
labor-neg |
40 |
17 |
v |
v |
v |
94,12 |
82,35 |
76,47 |
82,35 |
88,24 |
88,24 |
88,24 |
94,12 |
|
25 |
led24 |
200 |
3000 |
v |
55,33 |
33,87 |
65,57 |
39,63 |
64,10 |
42,37 |
36,93 |
28,20 |
|||
26 |
led7 |
200 |
3000 |
v |
66,53 |
61,20 |
67,40 |
43,37 |
68,93 |
66,33 |
60,90 |
46,97 |
|||
27 |
lenses |
17 |
9 |
v |
62,50 |
62,50 |
62,50 |
62,50 |
37,50 |
62,50 |
75,00 |
62,50 |
|||
28 |
lenses-full |
24 |
24 |
v |
100,0 |
100,0 |
91,67 |
91,67 |
95,83 |
95,83 |
100,0 |
100,0 |
|||
29 |
liver-disorder |
231 |
116 |
v |
53,04 |
61,74 |
60,87 |
63,48 |
55,65 |
59,13 |
62,61 |
62,61 |
|||
30 |
lung-cancer |
29 |
5 |
v |
50,00 |
50,00 |
50,00 |
50,00 |
50,00 |
50,00 |
75,00 |
75,00 |
|||
31 |
lymphography |
98 |
50 |
v |
v |
78,00 |
72,00 |
74,00 |
76,00 |
82,00 |
84,00 |
66,00 |
70,00 |
||
32 |
mofn-3-7-10 |
301 |
1025 |
v |
91,02 |
100,0 |
85,55 |
91,41 |
86,43 |
85,94 |
89,06 |
100,0 |
|||
33 |
monk1 |
124 |
432 |
v |
81,02 |
100,0 |
75,69 |
100,0 |
71,30 |
75,00 |
78,70 |
100,0 |
|||
34 |
monk2 |
169 |
432 |
v |
69,91 |
95,60 |
64,58 |
88,43 |
61,57 |
56,02 |
73,84 |
98,15 |
|||
35 |
monk3 |
122 |
432 |
v |
91,67 |
95,37 |
97,22 |
97,22 |
97,22 |
97,22 |
82,87 |
89,35 |
Но как можно заранее узнать принесет ли какие-нибудь положительные результаты использование предложенной стратегии для конкретной задачи?
Также как нет алгоритма обобщения, который работал бы определенно лучше других алгоритмов обобщения для всех задач, так и здесь нельзя заранее ответить.
Лучшим решением является реализация разнообразных алгоритмов, основанных на разных подходах и разбиение модельного множества на три, а не, как раньше предлагалось, на два множества: обучающее для обучения всех алгоритмов с/без предварительной обработкой, подтверждающее множество для выбора наилучшего варианта и экзаменационное множество для оценки точности при дальнейшей работе.
Заключение
Предложен новый параллельный алгоритм для решения актуальной задачи машинного обучения [Akchurina et al., 2004, Vagin et al., 2004] совместной обработки качественных и количественных атрибутов с отсутствующими значениями. Тщательное тестирование на 55 на базах данных известного хранилища UC Irvine Repository, специально созданного из реальных баз данных разных областей для тестирования и сравнения алгоритмов обобщения [ML Repository], показало, что использование предложенного алгоритма увеличило точность классификации (главного критерия качества обучения) известных алгоритмов обобщения: ID3, C4.5, Naпve Bayes, Instance Based почти для всех случаев. Предложенный алгоритм при наличии ресурсов также позволяет существенно увеличить скорость предварительной обработки по сравнению с последовательной версией.
Список литературы
1. [Akchurina et al., 2004] Akchurina N.R., Vagin V.N., Generalized Value Partition Problem: A Rough Set Approach / Journal of Computer and Systems Sciences International. Vol. 43, No. 2. 2004, pp. 223-238.
2. [Vagin et al., 2004] Vagin V.N., Akchurina N.R., New Techniques for Handling Missing Data and Feature Extraction for Knowledge Discovery / Knowledge-Based Software Engineering // Stefanuk V. and Kaijiri K. (eds.), IOS Press, 2004, pp. 169-176.
3. [ML Repository] http://www.ics.uci.edu/~mlearn/MLRepository.html.
4. [Quinlan, 1993] Quinlan J.R., C 4.5: Programs for Machine Learning, Morgan Kaufmann Publishers, Inc., Los Altos, California, 1993.
5. [Langley et al., 1992] Langley P., Iba W., Thompson K., An analysis of bayesian classifiers / Proceedings of the tenth national conference on artificial intelligence, AAAI Press and MIT Press, 1992, pp. 223-228.
6. [Wettschereck, 1994]Wettschereck D., A Study of Distance-Based Machine Learning Algorithms, PhD thesis, Oregon State University, 1994.
Размещено на Allbest.ru
...Подобные документы
Анализ решения задачи линейного программирования. Симплексный метод с использованием симплекс-таблиц. Моделирование и решение задач ЛП на ЭВМ. Экономическая интерпретация оптимального решения задачи. Математическая формулировка транспортной задачи.
контрольная работа [196,1 K], добавлен 15.01.2009Принципы решения задач линейного программирования в среде электронных таблиц Excel, в среде пакета Mathcad. Порядок решения задачи о назначении в среде электронных таблиц Excel. Анализ экономических данных с помощью диаграмм Парето, оценка результатов.
лабораторная работа [2,0 M], добавлен 26.10.2013Создание математической модели, приведение ее к виду задачи линейного программирования. Геометрическая трактовка решения. Определение области допустимых значений. Составление симплекс-таблиц. Разработка опорного плана задачи методом минимального элемента.
контрольная работа [260,2 K], добавлен 22.12.2013Решение задачи средствами Паскаль и блок-схемы выполненных процедур, составление программы. Результаты решения задачи по перевозке грузов. выполнение задачи средствами MS Excel, создание таблиц. Порядок и особенности решения задачи в среде MathCAD.
курсовая работа [2,5 M], добавлен 27.02.2011Краткий обзор решения транспортных задач. Экономическая интерпретация поставленной задачи. Разработка и описание алгоритма решения задачи. Построение математической модели. Решение задачи вручную и с помощью ЭВМ. Анализ модели на чувствительность.
курсовая работа [844,3 K], добавлен 16.06.2011Оптимизация решения задачи с помощью алгоритма отжига. Анализ теории оптимизации как целевой функции. Метод градиентного спуска. Переменные и описание алгоритма отжига. Представление задачи коммивояжера через граф. Сведение задачи к переменным и решение.
курсовая работа [784,0 K], добавлен 21.05.2015Процессор электронных таблиц Microsoft Excel - прикладная программа, предназначенная для автоматизации процесса обработки экономической информации, представленной в виде таблиц; применение формул и функций для производства расчетов; построение графиков.
реферат [2,4 M], добавлен 03.02.2013Эскизный, технический и рабочий проект расчета основоположной задачи теории множеств, решение которой необходимо для доказывания теорем высшей математики. Разработка алгоритма и написание программы в среде Delphi 7 на языке программирования Delphi.
курсовая работа [1,5 M], добавлен 21.09.2011Понятие алгоритма и история его формулировки, характерные свойства и формы представления. Виды алгоритмический структур и их признаки. Алгоритмы сортировки и методы их реализации. Применение алгоритмических законов для решения экономических задач.
курсовая работа [359,0 K], добавлен 03.01.2010Разработка программы для отображения текущих значений полей файлового и необязательного заголовков и предоставление возможности изменения значений. Реализация файлового заголовка COFF для Windows поля и каталоги данных (адреса и размеры таблиц).
курсовая работа [18,9 K], добавлен 23.06.2011Особенности создания и заполнения таблиц в Microsoft Excel. Типы представления данных. Способы ввода числовых значений и текстовой информации в таблицу. Выставление форматов времени. Работа с ячейкой. Использование операторов формул для расчета значений.
презентация [53,8 K], добавлен 06.01.2014Обоснование необходимости применения вычислительной техники и телекоммуникационного оборудования для решения задач. Проектирование информационной системы отдела снабжения. Физическая модель данных с указанием типов основных атрибутов, нормализация таблиц.
дипломная работа [1,6 M], добавлен 19.02.2017Численные решения задач методом Коши, Эйлера, Эйлера (модифицированный метод), Рунге Кутта. Алгоритм, форма подпрограммы и листинг программы. Решение задачи в MathCad. Подпрограмма общего решения, поиск максимальных значений. Геометрический смысл задачи.
курсовая работа [691,4 K], добавлен 17.05.2011Программа Word, позволяющая создавать таблицы, состоящие из строк и столбцов. Способы построения таблиц. Обработка таблиц и их форматирование. Вычисления в тексте и таблице. Разделение и соединение ячеек. Создание заголовков многостраничных таблиц.
контрольная работа [1,7 M], добавлен 28.01.2012Задачи, решаемые методом динамического программирования. Основные этапы нахождения деревянного алгоритма решения задачи. Выполнение алгоритма Прима. Построение Эйлерового цикла. Решение задач средствами Excel. Алгоритм основной программы - Derevo.
курсовая работа [586,3 K], добавлен 04.04.2015Создание параллельной программы на языке программирования высокого уровня С с расширением MPI и аналогичной программы на OpenMP для решения двумерного уравнения Пуассона итерационным методом Зейделя. Блок-схема алгоритма, анализ работы программы.
контрольная работа [62,9 K], добавлен 06.01.2013Создание таблиц базы данных в режиме конструктора. Наименование и структура таблиц базы данных "Библиотека". Применение поля подстановок и создание фиксированного списка значений для полей. Схема связи между таблицами. Формирование и выполнение запроса.
контрольная работа [1,2 M], добавлен 24.07.2009Информационное оружие: понятие, применение. Понятие информационной технологии, виды информационных технологий. Мультимедийная презентация, разработка алгоритма решения задачи. Смешанная, циклическая и ветвящаяся структура. Решение задач в пакете MS Excel.
контрольная работа [1,7 M], добавлен 17.07.2014Общая характеристика табличных процессоров. Проведение исследования тем электронных таблиц в 7-9 классах. Главная особенность создания многотабличных документов. Построение диаграмм, их модификация и решение экономических задач графическими методами.
курсовая работа [2,9 M], добавлен 12.03.2019Основные этапы и принципы решения задач на ЭВМ, порядок постановки задачи и построения алгоритма. Сущность теории алгоритмов, ее основные элементы и взаимосвязь, свойства, методика представления в виде схемы, ее обозначения и использующиеся символы.
лекция [136,3 K], добавлен 11.03.2010