Анализ существующих алгоритмов кластеризации (часть 1)
Обзор подходов к решению задач кластерного анализа. Элементы, участвующие в процессе кластеризации. Модели диагностики и проведения вычислительного эксперимента по выявлению диагностических показателей. Список существующих алгоритмов кластеризации.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 29.08.2021 |
Размер файла | 36,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru
Анализ существующих алгоритмов кластеризации (часть 1)
Давыдов О.А. - ст. преподаватель каф.
«Автоматика и системотехника», (ТОГУ)
В статье сделан обзор существующих подходов к решению задач кластерного анализа. Рассматриваются традиционные разработки в области кластерного анализа. В статье дано определение кластеризации, рассмотрены основные элементы, участвующие в процессе кластеризации, такие как показатели измерения и оценки расстояния или подобия, и проанализированы традиционные алгоритмы кластеризации. Все приведенные алгоритмы кластеризации детально сопоставлены и подробно рассмотрены. В статьи показатели оценки для результата кластеризации перечислены в первом разделе, традиционные алгоритмы кластеризации во втором разделе, и окончательный вывод сделан в третьем разделе.
Ключевые слова: кластер, алгоритм кластеризации, диагностика, неисправность, нечеткий анализ, кластерный анализ, теория графов, вычислительная сложность.
Title: Analysis of Existing Clustering Algorithms (Part 1)
Davydov O. A. - Pacific National University, Khabarovsk, Russian Federation
Abstract: The paper provides an overview of existing approaches to solving cluster analysis problems. We consider the traditional development in the field of cluster analysis. The given paper provides a definition of clustering, discusses the main elements involved in the clustering process, such as measurement indicators and estimates of distance or similarity, and analyzes traditional clustering algorithms. All clustering algorithms considered are compared and reviewed in detail. The evaluation indicators for the result of clustering are listed in the first section, the traditional clustering algorithms in the second section, and the final conclusion made in the third section.
Keywords: cluster, clustering algorithm, diagnostics, malfunction, fuzzy analysis, cluster analysis, graph theory, computational complexity.
Введение
Кластерный анализ - это общее название множества вычислительных процедур, используемых при создании классификации. Кластерный метод - это многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы [1]. Кластеризация отличается от классификации тем, что для проведения анализа не требуется иметь выделенную зависимую переменную. Такая задача решается на начальных этапах исследования, когда данные четко не систематизированы, не выделены конкретные диагностические показатели и т.д.
Такой подход направлен на формирование набора кластеров в диагностическом пространстве признаков, каждый из которых соответствует определенному состоянию диагностируемого объекта.
Кластерный анализ позволяет рассматривать, сокращать и сжимать в более компактные массивы большие объемы информации, что актуально для проблемы диагностики технических объектов.
Задача кластеризации заключается в следующем [2]: имеется обучающее множество и функция расстояния между объектами. Требуется разбить множество на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из объектов, близких по расстоянию, а объекты разных кластеров существенно отличались. Алгоритм кластеризации -- это функция, которая любому объекту ставит в соответствие метку определенного кластера.
1. Оценка алгоритмов
Расстояние и сходство - основа для построения алгоритмов кластеризации. Что касается количественных характеристик данных, расстояние предпочтительнее для распознавания взаимосвязи между данными, в то время как сходство предпочтительнее при работе с качественными характеристиками данных [3].
Часто используемые функции вычисления расстояния (стандартизированная евклидова, по функции косинуса, корреляционная Пирсона, Махаланобиса и др.). Часто используемые функции подобия для качественных данных (Хэмминга, квадрат евклидова расстояния, Чебышева, Манхэттенское и др.).
Основная цель индикатора оценки - проверить правильность алгоритма. Индикаторы оценки можно разделить на две категории: индикаторы внутренней оценки и индикаторы внешней оценки с точки зрения тестовых данных, находящихся в процессе построения алгоритма кластеризации.
Внутренняя оценка использует внутренние данные для проверки правильности работы алгоритма. Существует три наиболее часто используемых внутренних показателя (индекс Дэвиса - Болдина (DBI), индекс Данна (DI), коэффициент силуэта) [4].
Внешняя оценка использует внешние данные для проверки правильности работы алгоритма. Существует шесть наиболее часто используемых показателей внешней оценки (индекс Rand (RI), F, Жаккара (JI), Фоулкса - Мэллова (FM), энтропия, отклонение в информации (VI)) [4].
Примем следующее обозначения при анализе вычислительной сложности, n - количество общих объектов, точек данных; k - количество кластеров; s - количество выборочных объектов; t - количество итераций.
2. Традиционные алгоритмы
Традиционные алгоритмы кластеризации можно разделить на 9 категорий, обобщенных в табл. 1.
Таблица 1 Традиционные алгоритмы
Категория |
Алгоритм |
|
Алгоритмы кластеризации, основанные на разделении |
K-средних, K-медоидов, PAM, CLARA, CLARANS |
|
Иерархические алгоритмы кластеризации |
BIRCH, CURE, ROCK, Chameleon |
|
Нечеткие алгоритмы кластеризации |
FCM, FCS, MM |
|
Алгоритмы кластеризации, основанные на распределении |
DBCLASD, GMM |
|
Алгоритмы кластеризации, основанные на плотности |
DBSCAN, OPTICS, Mean- shift |
|
Алгоритмы кластеризации, основанные на теории графов |
CLICK, MST |
|
Сеточные алгоритмы кластеризации |
STING, CLIQUE |
|
Алгоритмы кластеризации, основанные на фрактальной теории |
FC |
|
Алгоритмы кластеризации, основанные на модели |
COBWEB, GMM, SOM, ART |
3. Алгоритм кластеризации на основе разделения
Основная идея такого рода алгоритмов кластеризации состоит в том, чтобы рассматривать центр точек данных как центр соответствующего кластера. K-средних и K-медоидов являются двумя наиболее известными алгоритмами кластеризации такого типа. Основная идея K -средних состоит в том, чтобы обновить центр кластера, который представлен центром точек данных, путем итерационных вычислений. Итерационный процесс будет продолжаться до тех пор, пока не будут выполнены некоторые критерии сходимости. K- медоидов - это усовершенствование K-средних для работы с дискретными данными, в котором точка данных, наиболее близкая к центру точек данных, является представителем соответствующего кластера. Типичные алгоритмы кластеризации на основе разбиения также включают PAM, CLARA, CLARANS.
Более подробную информацию об алгоритмах кластеризации такого типа можно найти в [5].
Анализ:
1. Оценка вычислительной сложности представлена в табл. 2
2. Преимущества: относительно низкая вычислительная сложность и высокая вычислительная эффективность в целом;
3. Недостатки: не подходит для невыпуклых множеств, чувствительность к выбросам, легко выводится на локальный оптимум, количество кластеров, которые необходимо предварительно установить и результат кластеризации зависит от количества кластеров.
Таблица 2 Вычислительная сложность
K-средних |
K-медоидов |
PAM |
CLARA |
CLARANS |
|
O(knt) |
O(k(n-k)A2) |
O(kA3*nA2) |
O(ksA2+k(n-k)) |
O(nA2) |
|
Низкая |
Высокая |
Высокая |
Средняя |
Высокая |
4. Иерархические алгоритмы кластеризации
Основная идея такого рода алгоритмов кластеризации заключается в построении иерархических отношений между данными для кластеризации. Предположим, что каждая точка данных вначале обозначает отдельный кластер, а затем два соседних кластера объединяются в новый кластер, пока не останется только один кластер. Типичные алгоритмы такого рода кластеризации включают BIRCH, CURE, ROCK, Chameleon. BIRCH (Сбалансированное итеративное сокращение и кластеризация с помощью иерархий) реализует результат кластеризации, создавая CF-дерево (сбалансированное дерево с двумя параметрами), один узел которого обозначает подкластер. CF -дерево будет динамически расти при появлении новой точки данных. CURE (кластеризация с использованием представителей), подходящий для кластеризации больших баз данных, использует метод случайной выборки, чтобы кластери- зировать выборку отдельно и, наконец, интегрировать результаты. ROCK - это улучшение CURE для работы с данными перечислимого типа, которое учитывает сходство данных вокруг кластера. Chameleon сначала делит исходные данные на кластеры меньшего размера на основе графа ближайшего соседа, а затем кластеры меньшего размера объединяются в кластер большего размера на основе агломеративного алгоритма до тех пор, пока не будут уд о- влетворять условиям.
Более подробную информацию об алгоритмах кластеризации такого типа можно найти в [6].
Анализ:
1. Оценка вычислительной сложности представлена в табл. 3
2. Преимущества: подходит для набора данных с произвольной формой и атрибутом произвольного типа, легко обнаруживаются иерархические отношения между кластерами и относительно высокая масштабируемость в целом;
3. Недостатки: относительно высокая временная сложность в целом, количество кластеров необходимо предварительно установить.
Таблица 3 Вычислительная сложность
BIRCH |
CURE |
ROCK |
Chameleon |
|
O(n) |
O(sA2*s), |
O(nA2*logn) |
O(nA2) |
|
Низкая |
Низкая |
Высокая |
Высокая |
5. Нечеткие алгоритмы кластеризации
Основная идея этого типа алгоритмов кластеризации заключается в том, что дискретное значение метки принадлежности {0, 1} заменяется на непрерывный интервал [0, 1], чтобы более разумно описать отношение принадлежности между объектами. Типичные алгоритмы такого рода кластеризации включают FCM, FCS и MM. Основная идея FCM состоит в том, чтобы каждая точка данных принадлежала каждому кластеру путем оптимизации функции объекта. FCS, в отличие от традиционных алгоритмов нечеткой кластеризации, использует многомерную гиперсферу в качестве прототипа каждого кластера. MM используется для нахождения центра кластера.
Более подробную информацию об алгоритмах кластеризации такого типа можно найти в [7].
Анализ:
1. Оценка вычислительной сложности представлена в табл. 4
2. Преимущества: вероятность принадлежности определяется более реалистично, относительно высокая точность кластеризации;
3. Недостатки: относительно низкая масштабируемость в целом, легко выводится на локальный оптимум, результат кластеризации чувствителен к начальным значениям параметров, и необходимо предварительно установить количество кластеров.
Таблица 4 Вычислительная сложность
FCM |
FCS |
MM |
|
O(n) |
(kernel) |
O(vA2*n) |
|
Низкая |
Высокая |
Средняя |
6. Алгоритмы кластеризации, основанные на распределении
Основная идея заключается в том, что данные, сгенерированные из одного и того же распределения, принадлежат одному кластеру, если в исходных данных существует несколько распределений. Типичными алгоритмами являются DBCLASD и GMM. Основная идея DBCLASD, динамического инкрементного алгоритма, заключается в том, что если расстояние между кластером и его ближайшей точкой данных удовлетворяет распределению ожидаемого расстояния, которое генерируется из существующих точек данных этого кластера, то ближайшая точка данных должна принадлежать этому кластеру. Основная идея GMM состоит в том, что такой алгоритм состоит из нескольких гауссовых распределений, из которых генерируются исходные данные, и считается, что данные, принадлежат одному кластеру.
Более подробную информацию об алгоритмах кластеризации такого типа можно найти в [8].
Анализ:
1. Оценка вычислительной сложности представлена в табл. 5
2. Преимущества: более реалистичные результаты нахождения вероятности принадлежности, относительно высокая масштабируемость за счет изменения распределения, количества кластеров и т. д., поддерживается хорошо развитой статистической наукой;
3. Недостатки: множество параметров, оказывают сильное влияние на результат кластеризации и относительно высокую временную сложность.
Таблица 5 Вычислительная сложность
DBCLASD |
GMM |
|
O(n*logn) |
O(nA2*kt) |
|
Средняя |
Высокая |
7. Алгоритмы кластеризации, основанные на плотности
Основная идея такого рода алгоритмов кластеризации состоит в том, что данные, находящиеся в области с высокой плотностью пространства данных, считаются принадлежащими одному кластеру. Типичными являются DBSCAN, OPTICS и Mean-shift. DBSCAn является наиболее известным алгоритмом кластеризации на основе плотности, который генерируется непосредственно из базовой идеи этого типа алгоритмов кластеризации. OPTICS является усовершенствованием DBSCAN и преодолевает недостаток DBSCAN, который чувствителен к двум параметрам: радиусу окрестности и минимальному количеству точек в окрестности. В Mean-shift сначала вычисляется среднее смещение текущей точки данных, следующая точка данных вычисляется на основе текущей точки данных и смещения, итерация будет продолжаться до тех пор, пока не будут выполнены установленные критерии.
Более подробную информацию об алгоритмах кластеризации такого типа можно найти в [9].
Анализ:
1. Оценка вычислительной сложности представлена в табл. 6
2. Преимущества: высокая эффективность кластеризация, подходит для данных произвольной формы;
3. Недостатки: результаты кластеризации приводит к низкому качеству, если плотность пространства данных не равномерна, задействует больше памяти, при большом объеме данных, результат кластеризации очень чувствителен к параметрам.
Таблица 6 Вычислительная сложность
DBSCAN |
OPTICS |
Mean-shift |
|
O(n*logn) |
O(n*logn) |
(kernel) |
|
Средняя |
Средняя |
Высокая |
8. Алгоритмы кластеризации, основанные на теории графов
Согласно этому типу алгоритмов кластеризация реализуется на графе, где узел рассматривается как точка данных, а ребро рассматривается как отношение между точками данных. Типичными алгоритмами кластеризации такого типа являются CLICK и кластеризация на основе MST. Основная идея CLICK чтобы сгенерировать кластеры с минимальным весовым распределением графа. Генерация минимального связующего дерева из графа данных является ключевым шагом для выполнения кластерного анализа для алгоритма кластеризации на основе MST.
Более подробную информацию об алгоритмах кластеризации такого типа можно найти в [1, 6].
Анализ:
1. Оценка вычислительной сложности представлена в табл. 7, где v - обозначает количество вершин, e - обозначает количество ребер, а f (v, e) - обозначает вычислительную сложность минимального разреза;
2. Преимущества: высокая эффективность кластеризации, высокая точность результатов кластеризации;
3. Недостатки: сложность вычислений резко возрастает с увеличением сложности графа.
Таблица 7 Вычислительная сложность
CLICK |
MST |
|
O(k*f(v, e)) |
O(e*logv) |
|
Низкая |
Средняя |
9. Сеточные алгоритмы кластеризации
Основная идея такого рода алгоритмов кластеризации заключается в том, что исходное пространство данных превращается в сеточную структуру с определенным размером для кластеризации. Типичными алгоритмами кластеризации такого типа являются STING и CLIQUE. Основная идея STING, возможность использования для параллельной обработки - пространство данных разделяется на множество прямоугольных блоков путем построения иерархической структуры, и данные на разных уровнях структуры группируются соответственно. CLIQUE использует преимущества сеточных алгоритмов кластеризации и алгоритмов кластеризации на основе плотности.
Более подробную информацию об алгоритмах кластеризации такого типа можно найти в [10].
Анализ:
1. Оценка вычислительной сложности представлена в табл. 8
2. Преимущества: низкая вычислительная сложность, высокая масштабируемость и возможность параллельной обработки;
3. Недостатки: результат кластеризации чувствителен к размерам ячейки, высокая эффективность вычислений за счет снижения точности кластеризации.
Таблица 8 Вычислительная сложность
STING |
CLIQUE |
|
O(n) |
O(n+kA2) |
|
Низкая |
Низкая |
10. Алгоритмы кластеризации, основанные на фрактальной теории
Типичным алгоритмом такого рода кластеризации является FC, основной идеей которого является то, что изменение любых внутренних данных кластера не оказывает никакого влияния на внутреннее качество фрактальной размерности.
Более подробную информацию об алгоритмах кластеризации такого типа можно найти в [6, 8].
Анализ:
1. Вычислительная сложность FC составляет O (n);
2. Преимущества: высокая эффективность кластеризации, высокая масштабируемость, пригодность для данных произвольной формы и высокой размерности;
3. Недостатки: результат кластеризации чувствителен к параметрам.
11. Алгоритмы кластеризации, основанные на модели
Основная идея состоит в том, чтобы выбрать конкретную модель для каждого кластера. Существует в основном два вида алгоритмов кластеризации на основе моделей, один из которых основан на методе статистического обучения, а другой на методе обучения нейронной сети.
Типичными алгоритмами, основанными на статистическом методе обучения, являются COBWEB и GMM. Основная идея COBWEB состоит в том, чтобы построить дерево классификации на основе некоторых эвристических критериев, чтобы реализовать иерархическую кластеризацию при условии, что распределение вероятностей каждого атрибута является независимым. Типичными алгоритмами, основанными на методе обучения нейронной сети, являются SOM и ART. Основная идея SOM состоит в том, чтобы построить отображение сокращения размеров из входного пространства высокого измерения в выходное пространство низкого измерения, исходя из предположения, что во входных данных существует топология. Основная идея ART, инкрементального алгоритма, состоит в том, чтобы динамически генерировать новый нейрон, чтобы соответствовать новому шаблону нового кластера, когда текущих нейронов недостаточно.
Более подробную информацию об алгоритмах кластеризации такого типа можно найти в [5, 10].
Анализ:
1. Оценка вычислительной сложности представлена в табл. 9
2. Преимущества: разнообразные и хорошо разработанные модели, обеспечивающие средства для адекватного описания данных, каждая модель имеет значительные преимущества в некоторых конкретных областях;
3. Недостатки: относительно высокая вычислительная сложность в целом, результат кластеризации чувствителен к параметрам выбранных моделей.
Таблица 9 Вычислительная сложность
COBWEB |
GMM |
SOM |
ART |
|
(distribution) |
O(nA2*kt) |
(layer) |
(type+layer) |
|
Низкая |
Высокая |
Высокая |
Средняя |
Выводы
кластеризация алгоритм вычислительный
Основная цель статьи - представить базовую идею традиционных, обычно используемых алгоритмов кластеризации, проанализировать преимущества и недостатки каждого из них. Представить полный список всех существующих алгоритмов кластеризации из-за разнообразия подходов, информации, пересечения областей исследований достаточно сложно. Таким образом, предлагаются 9 классификационных категорий широко используемых алгоритмов кластеризации, имеющих высокую практическую ценность и хорошо изученных, так же один или несколько типичных для каждой категории алгоритмов подробно обсуждаются, чтобы дать систематическое и четкое представление о методе анализа важных данных. Проделанный анализ позволяет легко выбрать подходящую группу алгоритмов исходя из технической задачи. Возможности кластерных алгоритмов позволяют разрабатывать более детальные математические модели для диагностики и проведения вычислительного эксперимента по выявлению диагностических показателей.
В данной статье рассматриваются именно традиционные алгоритмы, во второй части предполагается подробно рассмотреть современные алгоритмы кластеризации.
Библиографические ссылки
1. Козлова О. А., Попова Ю. Б., Шестопалов М. Ю. Диагностика технических объектов на основе методов кластеризации информации : учеб. пособие. СПб., 2009. 114 с.
2. Гитис Л. Х. Статистическая классификация и кластерный анализ. М.: Изд-во МГГУ, 2003. 157 с.
3. Xu R., Wunsch D. Survey of clustering algorithms // IEEE Transactions on Neural Networks and Learning Systems. 2005. P. 645-678.
4. On using class-labels in evaluation of clusterings // MultiClust: 1st international workshop on discovering, summarizing and using multiple clusterings held in conjunction with KDD / Fдrber I., Gьnnemann S., Kriegel H., Krцger P., Mьller E., Schubert E., Seidl T., Zimek A. Washington, DC, 2010.
5. Velmurugan T., Santhanam T. A survey of partition based clustering algorithms in data mining: an experimental approach // Journal of Information Technology. 2011. № 10. P. 478-484.
6. Carlsson G., Mйmoli F. Characterization, stability and convergence of hierarchical clustering methods // Journal of Machine Learning Research. 2010. № 11. P. 14251470.
7. Hцppner F. Fuzzy cluster analysis: methods for classification, data analysis and image recognition. Wiley, Hoboken, 1999.
8. Clustering uncertain data based on probability distribution similarity / Jiang B., Pei J., Tao .Y, Lin X. // IEEE Transactions on Knowledge and Data Engineering. 2013. № 25. P. 751-763.
9. A local-density based spatial clustering algorithm with noise / Duan L., Xu L., Guo F., Lee J., Yan B. // Information Systems. 2007. № 32. P. 978-986.
10.Sheikholeslami G., Chatterjee S., Zhang A. Wavecluster: A multi-resolution clustering approach for very large spatial databases // VLDB. 1998. P. 428-439.
Размещено на Allbest.ru
...Подобные документы
Основы для проведения кластеризации. Использование Data Mining как способа "обнаружения знаний в базах данных". Выбор алгоритмов кластеризации. Получение данных из хранилища базы данных дистанционного практикума. Кластеризация студентов и задач.
курсовая работа [728,4 K], добавлен 10.07.2017Сущность и понятие кластеризации, ее цель, задачи, алгоритмы; использование искусственных нейронных сетей для кластеризации данных. Сеть Кохонена, самоорганизующиеся нейронные сети: структура, архитектура; моделирование кластеризации данных в MATLAB NNT.
дипломная работа [3,1 M], добавлен 21.03.2011Анализ проблем, возникающих при применении методов и алгоритмов кластеризации. Основные алгоритмы разбиения на кластеры. Программа RapidMiner как среда для машинного обучения и анализа данных. Оценка качества кластеризации с помощью методов Data Mining.
курсовая работа [3,9 M], добавлен 22.10.2012Особенности кластеризации социальных сетей, методы распознавания сообществ. Особенности локального прореживания графа. Разработка рекомендаций по выбору метода кластеризации для выделенных классов задач. Оптимизация процесса дальнейшей обработки данных.
курсовая работа [1,8 M], добавлен 30.06.2017Роль информации в мире. Теоретические основы анализа Big Data. Задачи, решаемые методами Data Mining. Выбор способа кластеризации и деления объектов на группы. Выявление однородных по местоположению точек. Построение магического квадранта провайдеров.
дипломная работа [2,5 M], добавлен 01.07.2017Обзор методов реализации алгоритмов искусственного интеллекта. Примеры интеллектуальных систем, основанных на алгоритмах самообучения и кластеризации данных. Создание общей структурной схемы. Выбор языков программирования и инструментальных средств.
дипломная работа [1,6 M], добавлен 20.08.2017Описание функциональных возможностей технологии Data Mining как процессов обнаружения неизвестных данных. Изучение систем вывода ассоциативных правил и механизмов нейросетевых алгоритмов. Описание алгоритмов кластеризации и сфер применения Data Mining.
контрольная работа [208,4 K], добавлен 14.06.2013Ознакомление с элементами топологии базы геоданных. Исследование и характеристика особенностей кластерной обработки. Изучение алгоритмов, использующихся при проверке и кластеризации. Анализ процесса использования пространственных отношений объектов.
презентация [749,3 K], добавлен 18.10.2017Исследование производительности труда методом компонентного и кластерного анализов. Выбор значащих главных компонент. Формирование кластеров. Построение дендрограммы и диаграммы рассеивания. Правила кластеризации в пространстве исходных признаков.
лабораторная работа [998,9 K], добавлен 25.11.2014Способы организации вычислительного процесса в системах с несколькими процессорами. Разработка программы на основе алгоритмов мультипроцессорных систем при пакетной обработке задач. Вычисление основных показателей эффективности для каждого алгоритма.
курсовая работа [102,3 K], добавлен 21.06.2013Обзор существующих подходов в генерации музыкальных произведений. Особенности создания стилизованных аудио произведений на основе современных нейросетевых алгоритмов. Выбор средств и библиотек разработки. Практические результаты работы алгоритма.
дипломная работа [4,0 M], добавлен 13.10.2017Обзор существующих алгоритмов для обнаружения лиц. Выравнивание лица с помощью разнообразных фильтров. Использование каскадного классификатора Хаара для поиска лиц на изображении. Распознавание лиц людей с использованием локальных бинарных шаблонов.
дипломная работа [332,4 K], добавлен 30.09.2016Исследование общих сведений о медицинских экспертных системах, способных заменить специалиста-эксперта в разрешении проблемной ситуации. Обучение искусственных нейронных сетей в программе Statistica 7. Обзор программной реализации модуля кластеризации.
дипломная работа [5,9 M], добавлен 14.06.2012Характеристика методов нечеткого моделирования и изучение системы кластеризации в пакетах прикладных программ. Разработка и реализация алгоритма для оптимизации базы правил нечеткого классификатора с помощью генетического алгоритма аппроксимации функции.
дипломная работа [1,9 M], добавлен 21.06.2014Анализ существующих алгоритмов обработки информации человеком и современных моделей памяти. Разработка алгоритмов и математической модели ассоциативного мышления. Имитационная модель обработки информации. Компьютерный эксперимент по тестированию модели.
курсовая работа [2,3 M], добавлен 19.11.2014Алгоритмы кластеризации данных, отбора факторов, построения множественной линейной регрессии, оценки параметров процесса на скользящем постоянном интервале. Решение задач анализа данных на нейронных сетях и результаты моделирования нелинейных функций.
контрольная работа [1,5 M], добавлен 11.01.2016Программный комплекс Лонгитюд. Разработка алгоритмов и базы данных. Программа KID RCDI для точной оценки развития ребенка. Разработка технической документации. Использование инструкции по применению Веб-приложения. Анализ существующих систем и подходов.
дипломная работа [1,2 M], добавлен 19.01.2017Классификация задач DataMining. Создание отчетов и итогов. Возможности Data Miner в Statistica. Задача классификации, кластеризации и регрессии. Средства анализа Statistica Data Miner. Суть задачи поиск ассоциативных правил. Анализ предикторов выживания.
курсовая работа [3,2 M], добавлен 19.05.2011Содержание исходного набора данных. Основные причины возникновения выбросов. Главные алгоритмы кластеризации. Обработка и очистка файла. Описание его полей. Прямоугольная вещественнозначная матрица. Метрика Минковского. Математическое определение объекта.
курсовая работа [1,4 M], добавлен 25.10.2016Классификация задач Data Mining. Задача кластеризации и поиска ассоциативных правил. Определению класса объекта по его свойствам и характеристикам. Нахождение частых зависимостей между объектами или событиями. Оперативно-аналитическая обработка данных.
контрольная работа [26,1 K], добавлен 13.01.2013