Обзор технологий интеллектуального анализа данных

Технологии и методы интеллектуального анализа данных. Этапы процесса интеллектуального анализа. Задачи, которые решает Data mining. Концепция методов кластерного анализа. Вещественно-значные, бинарные, номинальные, порядковые переменные и их значимость.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 28.01.2019
Размер файла 188,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Иркутский национальный исследовательский технический университет

Обзор технологий интеллектуального анализа данных

Д.А. Стадников

Аннотации

Описаны технологии и методы интеллектуального анализа данных. Приведены этапы в процессе интеллектуального анализа. Перечислены задачи, которые решает Data mining. Описана концепция методов кластерного анализа. Рассмотрены вещественноначные, бинарные, номинальные, порядковые переменные и их значимость.

Ключевые слова: интеллектуальный анализ данных; Data mining; кластеризация; прогнозирование.

This article describes the techniques and methods of data mining. It describes the stages in the process of data mining. The article lists the tasks that data mining solves. It describes the concept of cluster analysis techniques. The article considers real-valued, binary, nominal, ordinal variables and their significance.

Keywords: intellectual data analysis; data mining; clustering; forecasting

Основное содержание исследования

В результате развития информационных технологий и сети Интернет с каждым годом появляется все больше и больше данных, хранимых в электронном виде. Эти данные представляют собой текст, аудио, - видео изображения, реляционные базы данных и т.д.

Все это огромное количество информации не несет для человека практической пользы, в основном, потому, что мы не в состоянии обработать такое количество информации самостоятельно. В связи с этим возникает проблема извлечения "полезных данных" из всей этой информации.

Data Mining - это процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей, это сочетание широкого математического инструментария. В технологии Data Mining гармонично объединились количественный и качественный анализ данных.

Этапы в процессе интеллектуального анализа

Традиционно выделяются следующие этапы в процессе интеллектуального анализа данных:

1. Изучение предметной области, в результате которого формулируются основные цели анализа.

2. Сбор данных.

3. Предварительная обработка данных:

3.1. Очистка данных - исключение противоречий и случайных "шумов" из исходных данных.

3.2. Интеграция данных - объединение данных из нескольких возможных источников в одном хранилище.

3.3. Преобразование данных. На данном этапе данные преобразуются к форме, подходящей для анализа. Часто применяется агрегация данных, дискретизация атрибутов, сжатие данных и сокращение размерности.

4. Анализ данных. В рамках данного этапа применяются алгоритмы интеллектуального анализа с целью извлечения паттернов.

5. Интерпретация найденных паттернов. Данный этап может включать визуализацию извлеченных паттернов, определение действительно полезных паттернов на основе некоторой функции полезности.

6. Использование новых знаний.

Задачи, решаемые методами Data Mining

Классификация - это процесс нахождения моделей или функций, которые описывают и различают классы для того, чтобы иметь возможность предсказывать класс произвольного заданного объекта с известными атрибутами, но неизвестной меткой класса. Полученная модель основывается на анализе обучающей выборки, то есть множества объектов, чья метка класса известна.

Регрессия, в том числе задачи прогнозирования. Установление зависимости непрерывных выходных от входных переменных.

Кластерный анализ. В отличие от классификации и прогнозирования, которые анализируют множество объектов обучающей выборки, имеющей известные метки класса, кластеризация или кластерный анализ анализирует объекты, у которых метки классов неизвестны. Кластеризация как раз призвана сгенерировать эти метки. Объекты кластеризуются или группируются на основе принципа максимизации внутриклассовой близости и минимизации межклассовой близости. Таким образом, кластеры объектов формируются так, что объекты одного кластера похожи друг с другом, а объекты разных кластеров нет. Каждый полученный кластер может рассматриваться как класс объектов, который, в свою очередь, может использоваться в других видах анализа для получения различных правил и закономерностей. Существуют также методы иерархической кластеризации, которые позволяют организовать множество наблюдений в иерархию классов.

Ассоциация - выявление закономерностей между связанными событиями. Примером такой закономерности служит правило, указывающее, что из события X следует событие Y. Такие правила называются ассоциативными. Впервые эта задача была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее еще называют анализом рыночной корзины (market basket analysis).

Последовательные шаблоны - установление закономерностей между связанными во времени событиями, т.е. обнаружение зависимости, что если произойдет событие X, то спустя заданное время произойдет событие Y.

Эволюционный анализ данных описывает и моделирует регулярности и тренды для объектов, чье поведение изменяется во времени. Несмотря на то, что здесь могут применяться рассмотренные до этого характеризация и дискриминация, анализ ассоциаций, классификация, кластеризация, у данного вида анализа имеются отличительные черты и свои собственные методы, которые включают анализ временных рядов, анализ последовательности и периодичности, поиск близостей.

Анализ отклонений - выявление наиболее нехарактерных шаблонов.

Методы классификации

Деревья решений. Метод автоматического анализа данных, средство поддержки принятия решений при прогнозировании. Деревья решения работают на основе проверки правил конструкции "ЕСЛИ. ТО." [1]. Дерево решений состоит из основных частей: узел - внутренний узел дерева, узел проверки; лист - конечный узел решения, узел решения; Ребро графа - хранить атрибут функции.

Задачи, решаемые деревом решений, можно объединить в 3 класса [2].

интеллектуальный анализ кластерный бинарный

Описание данных: Деревья решений позволяют хранить информацию о данных в компактной форме, вместо них мы можем хранить дерево решений, которое содержит точное описание объектов.

Классификация: Деревья решений отлично справляются с задачами классификации, т е. отнесения объектов к одному из заранее известных классов. Целевая переменная должна иметь дискретные значения.

Регрессия: если целевая переменная имеет непрерывные значения, деревья решений позволяют установить зависимость целевой переменной от независимых (входных) переменных. Например, к этому классу относятся задачи численного прогнозирования (предсказания значений целевой переменной).

Построение дерева решений. Пусть задано некоторое обучающее множество T, содержащее объекты, каждый из которых характеризуется m атрибутами, причем один из них указывает на принадлежность объекта к определенному классу.

Рис. 1. Пример Дерева принятия решений

Пусть через {, ,. } обозначены классы (значения метки класса), тогда возможны 3 случая:

множество T содержит один или более примеров, относящихся к одному классу . Тогда дерево решений для Т - это лист, определяющий класс ;

множество T не содержит ни одного примера, т.е. пустое множество. Тогда это снова лист и класс, ассоциированный с листом, выбирается из другого множества отличного от T, скажем, из множества, ассоциированного с родителем;

множество T содержит примеры, относящиеся к разным классам. В этом случае следует разбить множество T на некоторые подмножества. Для этого выбирается один из признаков, имеющий два и более отличных друг от друга значений , ,. . T разбивается на подмножества , ,. , где каждое подмножество содержит все примеры, имеющие значение для выбранного признака. Это процедура будет рекурсивно продолжаться до тех пор, пока конечное множество не будет состоять из примеров, относящихся к одному и тому же классу [3].

Байесовская сеть доверия - это ациклический ориентированный граф, в котором каждая вершина (узел сети) представляет n-значную переменную, дуги обозначают существование непосредственных причинно-следственных зависимостей между соединенными переменными, а сила этих зависимостей количественно выражается в виде условных вероятностей, сопоставленных каждой из переменных.

Байесовские сети представляют собой удобный инструмент для описания достаточно сложных процессов и событий с неопределенностями. Основной идеей построения сети является разложение сложной системы на простые элементы. Для объединения отдельных элементов в систему используется математический аппарат теории вероятностей. Такой подход обеспечивает возможность строить модели с множеством взаимодействующих переменных для последующей разработки эффективных алгоритмов обработки данных и принятия решений [4].

Для описания байесовской сети необходимо определить структуру графа и параметры каждого узла. Эта информация может быть получена непосредственно из данных или из экспертных оценок. Такая процедура называется обучение байесовской сети.

Байесовские подходы к построению моделей классифицированы на три типа. Первый тип моделей, в которых эксперты определяют структуру сети, а также начальные и условные вероятности. Второй тип - модели, ориентированные на максимизацию эффективности за счёт ограничения структуры сети.

Третий тип - модели, основанные на данных, в которых используются данные из предыдущих экспериментов для генерации структуры сети и значений вероятностей.

Достоинства байесовских моделей заключается в их высокой производительности, а также в интуитивно понятном представлении в виде графа.

Моделирование должно начинаться с идентификации переменных, которые относятся к моделируемой предметной области. Переменные можно разделить на четыре класса в соответствии с их ролью в модели: целевые, свидетельства, факторы, вспомогательные [5].

Классы переменных:

1. Целевые переменные. Эти переменные используются для моделирования того, что представляет интерес. Как правило, целевые переменные отражают скрытые (латентные) характеристики. Это означает, что нет возможности измерить их напрямую. В системах технической диагностики целевыми переменными называют неисправности. Уровень сформированности компетенции - это целевая переменная.

2. Свидетельства. Переменные свидетельства иначе называют переменными наблюдения. Они используются для того, чтобы предоставить информацию относительно целевых переменных. В моделировании обучающихся свидетельствами могут быть действия пользователя.

3. Факторы. Это переменные, которые моделируют источники влияния на целевую переменную. Их также называют контекстными переменными. Факторы делят на четыре категории в соответствии с их влиянием на переменную: промоутеры, замедлители, требования, исключения.

4. Вспомогательные переменные. Эти переменные используются для удобства. Например, если у узла есть много родительских узлов, промежуточные вспомогательные переменные могут быть использованы для их группировки. За счёт этого структура сети упрощается, а количество параметров уменьшается.

Кроме деления переменных в соответствии с их ролью, существует деление в зависимости от природы измерений. В этой связи выделяют дискретные и непрерывные переменные. Особый вид дискретных переменных - это переменные с двумя состояниями. Такие переменные называют бинарными. Непрерывные переменные чаще всего дискретизируются. После определения переменных следующий шаг в построении модели - это определение структуры. Структура сети определяется расстановкой рёбер между узлами-переменными. Как уже упоминалось выше, в байесовской сети рёбра являются направленными. Изменение направления ребра имеет значение. При этом смысл ребра заключается в том, что переменная в исходной вершине оказывает непосредственное влияние на переменную в целевой вершине. Таким образом, случайные события соединяются причинно-следственными связями. В связи с этим, байесовские сети иногда называют причинно-следственными (causal). Однако с математической точки зрения байесовские сети не обязательно говорят о причинно-следственной связи между переменными. Часто говорят также о диагностической связи между узлами в сети. Структура байесовской сети может быть получена непосредственно из данных или из экспертных оценок.

Итоговый шаг в построении модели - определение параметров. Для этого нужно задать априорные распределения для узлов, у которых нет родителей (корневые узлы), а также распределения условных вероятностей для всех остальных узлов байесовской сети. Как и в случае с определением структуры, параметры могут быть заданы экспертом, либо получены из данных. Также существует возможность комбинировать оба этих подхода.

После того как байесовская сеть сконструирована, она готова для того, чтобы с её помощью можно было проводить вычисления. После поступления некоторого количества свидетельств (наблюдений) могут быть вычислены апостериорные вероятности. В байесовской сети, построенной для моделирования обучающихся, существует два основных способа вывода: диагностические и предсказательные рассуждения. В диагностических рассуждениях оценивается значения вероятностей для целевых переменных, определяются наиболее вероятные состояния.

Метод K-ближайшего соседа - один из методов решения задачи классификации. Предполагается, что уже имеется какое-то количество объектов с точной классификацией (т.е. для каждого них точно известно, какому классу он принадлежит). Нужно выработать правило, позволяющее отнести новый объект к одному из возможных классов (т.е. сами классы известны заранее).

В основе k-NN лежит следующее правило: объект считается принадлежащим тому классу, к которому относится большинство его ближайших соседей. Под "соседями" понимаются объекты, близкие к исследуемому в том или ином смысле.

Для нахождения соседей можно использовать такие алгоритмы как "Оценка по Эвклидову расстоянию" или "Коэффициент корреляции Пирсона" [7].

Необходимо уметь определять, насколько объекты близки друг к другу, т.е. уметь измерять "расстояние" между объектами. Следовательно, для применения метода kNN в пространстве признаков объектов должна быть введена некоторая метрика (т.е. функция расстояния).

Предполагается, что объекты с близкими значениями одних признаков будут близки и по другим признакам (т.е. относиться к одному и тому же классу).

На практике различные признаки могут иметь разные единицы измерения и разные шкалы, что может существенно искажать реальное расстояние между объектами. Для решения этой проблемы перед применением метода k-NN производят нормализацию (или масштабирование) данных.

Существуют различные способы нормализации [6]:

Формула (1) означает переход от абсолютных значений признаков к относительным. Преимущество новых переменных состоит в том, что они принимают значения от 0 до 1 (или, если перейти к процентному выражению, то от 0 до 100).

Второй способ масштабирования имеет вид формула (2):

Где - выборочное среднее (т.е. ), s - выборочное средне квадратическое отклонение (т.е. )

Как известно, если с. в. о имеет нормальное распределение с параметрами м и у, то с. в. также является нормально распределенной, но параметры её распределения равны 0 и 1, соответственно.

Не все признаки имеют количественное выражение. В этом случае, например, значение признака "пол" можно обозначить 1 для мужчин и 0 для женщин.

Генетические алгоритмы работают с совокупностью "особей" - популяцией, каждая из которых представляет возможное решение данной проблемы. Каждая особь оценивается мерой ее "приспособленности" согласно тому, насколько "хорошо" соответствующее ей решение задачи. В природе это эквивалентно оценке того, насколько эффективен организм при конкуренции за ресурсы. Наиболее приспособленные особи получают возможность "воспроизводить" потомство с помощью "перекрестного скрещивания" с другими особями популяции. Это приводит к появлению новых особей, которые сочетают в себе некоторые характеристики, наследуемые ими от родителей. Наименее приспособленные особи с меньшей вероятностью смогут воспроизвести потомков, так что те свойства, которыми они обладали, будут постепенно исчезать из популяции в процессе эволюции. Иногда происходят мутации, или спонтанные изменения в генах.

Таким образом, из поколения в поколение хорошие характеристики распространяются по всей популяции. Скрещивание наиболее приспособленных особей приводит к тому, что исследуются наиболее перспективные участки пространства поиска. В конечном итоге популяция будет сходиться к оптимальному решению задачи. Преимущество генетических алгоритмов состоит в том, что он находит приблизительные оптимальные решения за относительно короткое время [8].

Генетический алгоритм состоит из следующих компонентов:

· Хромосома. Решение рассматриваемой проблемы. Состоит из генов.

· Начальная популяция хромосом.

· Набор операторов для генерации новых решений из предыдущей популяции.

· Целевая функция для оценки приспособленности (fitness) решений.

Стандартные операторы для всех типов генетических алгоритмов это: селекция, скрещивание и мутация.

1. Селекция.

Оператор селекции осуществляет отбор хромосом в соответствии со значениями их функции приспособленности. Существуют как минимум два популярных типа оператора селекции: рулетка и турнир.

· Метод рулетки - отбирает особей с помощью n "запусков" рулетки. Колесо рулетки содержит по одному сектору для каждого члена популяции. Размер i-ого сектора пропорционален соответствующей величине вычисляемой по формуле (3):

При таком отборе члены популяции с более высокой приспособленностью с большей вероятностью будут чаще выбираться, чем особи с низкой приспособленностью.

· Турнирный отбор реализует n турниров, чтобы выбрать n особей. Каждый турнир построен на выборке k элементов из популяции, и выбора лучшей особи среди них. Наиболее распространен турнирный отбор с k=2.

2. Скрещивание.

Оператор скрещивание (crossover) осуществляет обмен частями хромосом между двумя (может быть и больше) хромосомами в популяции. Может быть одноточечным или многоточечным. Одноточечный кроссовер работает следующим образом. Сначала, случайным образом выбирается одна из l-1 точек разрыва. Точка разрыва - участок между соседними битами в строке. Обе родительские структуры разрываются на два сегмента по этой точке. Затем, соответствующие сегменты различных родителей склеиваются и получаются два генотипа потомков.

3. Мутация.

Мутация (mutation) - стохастическое изменение части хромосом. Строке, которая подвергается мутации, каждый бит с вероятностью (обычно очень маленькой) меняется на другой.

Работа генетического алгоритма представляет собой итерационный процесс, который продолжается до тех пор, пока не выполнятся заданное число поколений или какой-либо иной критерий останова. На каждом поколении генетический алгоритм реализуется отбор пропорционально приспособленности, кроссовер и мутация [9].

Пример работы генетического алгоритма представлен на рисунке 2.

Рис. 2. Работа генетического алгоритма

Методы кластерного анализа

Кластерный анализ - это процесс группировки данных в классы или кластеры таким образом, что объекты одного кластера имеют высокую схожесть друг с другом и высокую степень отличия от объектов других классов. Степень различия между объектами определяется на основе значений атрибутов, описывающих объект.

В отличие от классификации с обучением, кластерный анализ не имеет дело с предопределенными классами. Нет также и обучающей выборки, то есть примеров с известными метками классов. Поэтому кластерный анализ часто называют классификацией без обучения [10].

Этапы кластерного анализа следующие:

1. Выявление подходящих классов;

2. Описание каждого полученного класса.

На первом шаге применяются формальные алгоритмы кластеризации. Второй шаг предназначен для получения характерных свойств каждого класса. При этом часто применяются алгоритмы классификации с обучением, используя метки классов, полученные на первом шаге.

Основные алгоритмы кластеризации обычно оперируют над следующими двумя структурами данных:

· Матрица данных представляет n объектов, таких как люди, с p переменными или атрибутами, такими как возраст, рост, вес, пол и т.д. Данная структура имеет форму реляционной таблицы, или матрицы размерностью nЧp (n объектов на p переменных):

• Матрица различий хранит коллекцию различий между всеми парами n объектов. Она может быть представлена таблицей nЧ n:

где d (i, j) - измеренное различие или расстояние между объектами i и j. Подразумевается, что d (i, j) - неотрицательное число, близкое к нулю, когда объекты i, j очень близки. Чем больше d (i, j), тем больше различия между i и j. При этом считаем d (i, i) = 0, d (i, j) = d (j, i).

Многие алгоритмы кластеризации оперируют с матрицей различий. Если данные изначально представлены в виде матрицы данных, то перед применением этих алгоритмов сначала необходимо вычислить матрицу различий.

Вещественнозначные переменные (interval-scaled variables) - это количественные измерения каких-либо свойств. Например, вес, рост, продолжительность, координаты по вертикали и по горизонтали, температура и т.д. Используемый масштаб измерений при этом может оказывать влияние на результаты кластерного измерения. Например, переход в единицах измерения от метров на сантиметры, или от килограмм на фунты может привести к получению совсем другой кластерной структуры. Для избегания такой зависимости от выбора единиц измерения данные должны быть неким образом стандартизированы.

Для стандартизации необходимо преобразовать исходные измерения в безразмерные величины. Это можно сделать следующим образом:

1. Вычислить среднее абсолютное смещение (4):

где - n измерений переменной f, а - среднее

значение f, то есть .

2. Вычислить стандартизированное измерение, или z-оценку по формуле (5):

Среднее абсолютное смещение sf более устойчиво при наличии шумов, чем среднеквадратическое отклонение уf, так как при вычислении sf величины |x2f ?mf | не возводятся в квадрат и влияние "выбросов" уменьшается. В качестве меры смещений от среднего можно также использовать величину медианного абсолютного смещения.

После стандартизации можно вычислять матрицу различий. Мерой различий для вещественнозначных переменных обычно выбирается расстояние между парами объектов.

Самыми популярными расстояниями являются:

• Евклидово расстояние;

• Манхеттеновское расстояние (или расстояние в городских кварталах);

• Расстояние Минковского - обобщение двух вышеперечисленных расстояний.

Стандартизацией измерений можно добиться того, чтобы все переменные имели равные веса. Это, в частности, бывает полезно в тех случаях, когда у исследователя нет предварительного знания данных. Однако в некоторых приложениях пользователь намеренно хочет дать некоторым переменным больший вес по сравнению с другими.

Например, при кластеризации баскетболистов мы можем дать больший вес переменной "рост".

Бинарные переменные. Переменная называется бинарной, если она может принимать только два значения: 0 и 1. При этом обычно значение 0 означает отсутствие какого-либо признака, а 1 - присутствие этого признака. Например, переменная курильщик принимает значение 1, если человек курит, и 0 если не курит. Часто при описании объектов имеются несколько бинарных переменных.

Одним из способов вычисления матрицы различий между двумя объектами i и j, описываемыми одной или несколькими (равнозначными) бинарными переменными, является использование матрицы сопряженности:

Объект j

1

0

Сумма

Объект i

1

q

r

q+r

0

s

t

s+t

Сумма

q+s

r+t

p

размерности 2Ч 2, где

• q - количество переменных, равных 1 для обоих объектов i и j;

• r - количество переменных, равных 1 для объекта i и равных 0 для объекта j;

• s - количество переменных, равных 0 для объекта i и равных 1 для объекта j;

• t - количество переменных, равных 0 для обоих объектов i и j;

• p - общее количество переменных: p = q + r + s+ t.

Для расчета матрицы различий между объектами целесообразно различить симметричные и асимметричные бинарные переменные.

Бинарная переменная симметрична, если оба ее возможных значения одинаково важны и имеют одинаковый вес (например, пол человека). Для случая симметричных бинарных переменных широко используемой мерой различий между объектами i и j является простой коэффициент совпадений (6):

Бинарная переменная называется асимметричной, если ее возможные состояния не являются равноценными. Например, переменная "наличие болезни".

При заданных двух асимметричных переменных совпадение двух единиц более важно, чем совпадение двух нулей. Для такого случая в качестве меры различий более всего подходит коэффициент Джаккарда (7), в котором количество совпадений нулей t игнорируется:

Если среди бинарных переменных присутствуют и симметричные, и асимметричные переменные, то в этом случае используется подход со смешанными типами переменных.

Номинальная переменная - это обобщение бинарной переменной в том смысле, что она может принимать более двух состояний. Например, переменная "цвет" может принимать 4 значения: "зеленый", "красный", "синий", "желтый".

Пусть число состояний номинальной переменной равно M. Эти состояния могут обозначаться буквами, символами или целыми числами, например, 1, 2,., M. Эти цифры используются только для обработки данных и не отражают никакого порядка.

Матрица различий может быть вычислена в соответствии с принципом простых совпадений по формуле (8):

где m - количество переменных, для которых значения обоих объектов i и j совпали,

p - общее количество переменных. Данную формулу можно модифицировать путем назначения больших весов переменным, имеющим большее количество состояний (соответственно, меньшую вероятность совпадений).

Номинальные переменные можно закодировать с помощью асимметричных бинарных переменных, по одной на каждое из M возможных состояний номинальной переменной. При данном значении номинальной переменной соответствующая данному состоянию бинарная переменная принимает значение 1, а остальные переменные равны 0.

Для вычисления матрицы различий можно использовать подход, описанный для случая асимметричных бинарных переменных.

Дискретная порядковая переменная так же как и номинальная переменная, может принимать несколько различных состояний. Отличие от номинальной переменной состоит в том, что M значений порядковой переменной естественным образом упорядочены. Например, образование может быть начальным, средним и высшим. Офицерские звания также упорядочены: лейтенант, ст. лейтенант, капитан, майор, подполковник и т.п.

Порядковые переменные также могут быть получены в результате дискретизации непрерывных измерений путем разбиения всего множества возможных значений на интервалы. Например, порядковая переменная "возраст" может принимать значения

0.20,21.40,41.60,61.80,>80.

Пусть порядковая переменная f имеет возможных состояний, закодированных значениями 1,.,. Считаем, что порядок этих значений соответствует естественному порядку состояний переменной. Пусть {1,.,} - значение порядковой переменной f для объекта i.

Нормализуем переменную, масштабировав ее значения на отрезок [0, 1] по формуле (9):

После этого для вычисления матрицы различий можно использовать методы, рассмотренные для вещественнозначных переменных.

Заключение

В обзоре рассмотрены некоторые методы интеллектуального анализа данных, такие как деревья решений, байесовские сети доверия, k - ближний сосед, генетические алгоритмы, а также методы кластерного анализа.

Также стоит упомянуть такие методы как нейронные сети, методы опорных векторов, поиска ассоциативных правил и задачи визуализации. Они также являются методами Data Mining, но в обзоре рассмотрены не были.

По мере того, с какой скоростью увеличиваются данные, потребность в интеллектуальном анализе будет только возрастать. Уже сегодня крупные компании используют эту технологию для получения преимуществ над конкурентами.

Технология Data Mining постоянно развивается, привлекает к себе все больший интерес как со стороны научного мира, так и со стороны применения достижений технологии в бизнесе, социологических исследованиях.

Библиографический список

1. Деревья решений - общие принципы работы [Электронный ресурс]. URL: https: // basegroup.ru/community/articles/description, свободный (1.10.2017).

2. Деревья решений и алгоритмы их построения [Электронный ресурс]. URL: http://datareview. info/article/derevya-resheniy-i-algoritmyi-ih-postroeniya свободный, (1.10.2017).

3. Деревья принятия решений [Электронный ресурс]. URL: http://www.amse.ru/archive/courses/2006/nikolenko/notes-01-dectrees. pdf, свободный (1.10.2017).

4. Хлопотов, М.В. Применение байесовской сети при построении моделей обучающихся для оценки уровня сформированности компетенций // НАУКОВЕДЕНИЕ. 2014.

5. Сироткин А.В. БАЙЕСОВСКИЕ СЕТИ ДОВЕРИЯ: ДЕРЕВО СОЧЛЕНЕНИЙ И ЕГО ВЕРОЯТНОСТНАЯ СЕМАНТИКА // Санкт-Петербургский институт информатики и автоматизации РАН СПИИРАН, 2006. № 3. С.228-239.

6. Варшавский П.Р. Моделирование рассуждений на основе прецедентов в интеллектуальных системах поддержки принятия решений // ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ И ПРИНЯТИЕ РЕШЕНИЙ, 2009. № 2. С.45-57.

7. Сегаран Т. Программируем коллективный разум. СПб.: Символ-Плюс, 2008.368 c.

8. Технология генетического программирования для генерации автоматов управления системами со сложным поведением [Электронный ресурс]. URL: http://is. ifmo.ru/download/danilov_bachelor. pdf, свободный (1.10.2017).

9. Генетические алгоритмы [Электронный ресурс]. URL: http://www.codenet.ru/progr/alg/ga,, свободный (1.10.2017).

10. Степанов Р.Г. Технология Data Mining: Интеллектуальный Анализ Данных // Казанский Государственный Университет им.В.И. Ульянова-Ленина. 2008.

Размещено на Allbest.ru

...

Подобные документы

  • Разработка комплекса интеллектуального анализа данных, получаемых в процессе работы коммерческого предприятия розничной торговли. Исследование стационарности ассоциаций, выявление частоты появления ассоциаций. Скрипты для создания баз данных и таблиц.

    курсовая работа [706,3 K], добавлен 07.08.2013

  • Перспективные направления анализа данных: анализ текстовой информации, интеллектуальный анализ данных. Анализ структурированной информации, хранящейся в базах данных. Процесс анализа текстовых документов. Особенности предварительной обработки данных.

    реферат [443,2 K], добавлен 13.02.2014

  • Создание структуры интеллектуального анализа данных. Дерево решений. Характеристики кластера, определение групп объектов или событий. Линейная и логистическая регрессии. Правила ассоциативных решений. Алгоритм Байеса. Анализ с помощью нейронной сети.

    контрольная работа [2,0 M], добавлен 13.06.2014

  • Совершенствование технологий записи и хранения данных. Специфика современных требований к переработке информационных данных. Концепция шаблонов, отражающих фрагменты многоаспектных взаимоотношений в данных в основе современной технологии Data Mining.

    контрольная работа [565,6 K], добавлен 02.09.2010

  • Роль информации в мире. Теоретические основы анализа Big Data. Задачи, решаемые методами Data Mining. Выбор способа кластеризации и деления объектов на группы. Выявление однородных по местоположению точек. Построение магического квадранта провайдеров.

    дипломная работа [2,5 M], добавлен 01.07.2017

  • Применение методов многомерного анализа для визуализации взаимосвязей web и социальных сетей в социологических исследованиях. Системы интеллектуального поиска данных Nigma.ru, Wolfram Alpha и Quintura. Социологическая информация и эмпирические данные.

    презентация [2,6 M], добавлен 09.10.2013

  • Исследование производительности труда методом компонентного и кластерного анализов. Выбор значащих главных компонент. Формирование кластеров. Построение дендрограммы и диаграммы рассеивания. Правила кластеризации в пространстве исходных признаков.

    лабораторная работа [998,9 K], добавлен 25.11.2014

  • Анализ проблем, возникающих при применении методов и алгоритмов кластеризации. Основные алгоритмы разбиения на кластеры. Программа RapidMiner как среда для машинного обучения и анализа данных. Оценка качества кластеризации с помощью методов Data Mining.

    курсовая работа [3,9 M], добавлен 22.10.2012

  • Основы для проведения кластеризации. Использование Data Mining как способа "обнаружения знаний в базах данных". Выбор алгоритмов кластеризации. Получение данных из хранилища базы данных дистанционного практикума. Кластеризация студентов и задач.

    курсовая работа [728,4 K], добавлен 10.07.2017

  • Описание функциональных возможностей технологии Data Mining как процессов обнаружения неизвестных данных. Изучение систем вывода ассоциативных правил и механизмов нейросетевых алгоритмов. Описание алгоритмов кластеризации и сфер применения Data Mining.

    контрольная работа [208,4 K], добавлен 14.06.2013

  • Разработка подсистем анализа веб-сайта с помощью Microsoft Access и Olap-технологий. Теоретические аспекты разработки подсистемы анализа данных в информационной системе музыкального портала. Olap-технологии в подсистеме анализа объекта исследования.

    курсовая работа [864,8 K], добавлен 06.11.2009

  • Классификация методов анализа по группам. Сбор и хранение необходимой для принятия решений информации. Подготовка результатов оперативного и интеллектуального анализа для эффективного их восприятия потребителями и принятия на её основе адекватных решений.

    контрольная работа [93,2 K], добавлен 15.02.2010

  • OLAP как автоматизированные технологии сложного (многомерного) анализа данных, Data mining - извлечение данных, интеллектуальный анализ. Виды запросов к многомерной базе данных, их содержание и анализ полученных результатов. Схема "звезда", "снежинка".

    презентация [132,1 K], добавлен 19.08.2013

  • Интеллектуальный анализ данных как метод поддержки принятия решений, основанный на анализе зависимостей между данными, его роль, цели и условия применения. Сущность основных задач интеллектуального анализа: классификации, регрессии, прогнозирования.

    контрольная работа [25,8 K], добавлен 08.08.2013

  • Основы теории классификаторов. Идентификация, четкая и нечеткая классификация. Обучающие и тестовые последовательности наборов данных. Популярные метрики (меры) оценки расстояния между образами. Дискриминантный анализ. Деревья решений. Логический вывод.

    лекция [596,5 K], добавлен 28.12.2013

  • Классификация задач DataMining. Создание отчетов и итогов. Возможности Data Miner в Statistica. Задача классификации, кластеризации и регрессии. Средства анализа Statistica Data Miner. Суть задачи поиск ассоциативных правил. Анализ предикторов выживания.

    курсовая работа [3,2 M], добавлен 19.05.2011

  • Обзор существующих методов межпроцедурного анализа. Получение входных и выходных данных подпрограмм с помощью графа алгоритма. Описание входных и выходных данных подпрограммы в терминах фактических параметров. Определение параллелизма по графу алгоритма.

    учебное пособие [77,5 K], добавлен 28.06.2009

  • Понятие, виды и структура интеллектуальных поисковых систем. Российская интеллектуальная поисковая система Нигма: интерфейс и главные особенности. Математическая и химическая система Нигма. Понятие кластеризации как интеллектуального анализа данных.

    презентация [291,0 K], добавлен 21.08.2011

  • Анализ и виды интеллектуальных агентов в системе дистанционного обучения и их характеристики. Построение интеллектуального агента глоссария на платформе Jadex с помощью XML формата. Среда разработки и описание интеллектуального агента с помощью BDI.

    курсовая работа [113,6 K], добавлен 10.02.2011

  • Data mining, developmental history of data mining and knowledge discovery. Technological elements and methods of data mining. Steps in knowledge discovery. Change and deviation detection. Related disciplines, information retrieval and text extraction.

    доклад [25,3 K], добавлен 16.06.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.