Область Data Mining

Значение понятия "скрытые знания". Определение сути методов Data mining. Язык запросов к базам данных. Выявление возможностей для создания, изменения и извлечения хранимых данных. Data mining и искусственный интеллект. Задачи кластеризации и ассоциации.

Рубрика Программирование, компьютеры и кибернетика
Вид контрольная работа
Язык русский
Дата добавления 14.04.2014
Размер файла 27,8 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Содержание

запрос база кластеризация

Введение

1. Постановка задачи

2. Data mining и базы данных

3. Data mining и искусственный интеллект

4. Задачи

5. Алгоритмы обучения

6. Этапы обучения

7. Интеллектуальный анализ данных

Заключение

Список литературы

Введение

Область Data Mining началась с семинара, проведёного Григорием Пятецким-Шапиро в 1989 году. Ранее, работая в компании GTE Labs, Григорий Пятецкий-Шапиро заинтересовался вопросом: можно ли автоматически находить определённые правила, чтобы ускорить некоторые запросы к крупным базам данных. Тогда же было предложено два термина -- Data Mining («добыча данных») и Knowledge Discovery In Data (который следует переводить как «открытие знаний в базах данных»).

В 1993 году вышла первая рассылка «Knowledge Discovery Nuggets», а в 1994 году был создан один из первых сайтов по Data Mining.

1. Постановка задачи

Первоначально задача ставится следующим образом:

имеется достаточно крупная база данных;

предполагается, что в базе данных находятся некие «скрытые знания».

Необходимо разработать методы обнаружения знаний, скрытых в больших объёмах исходных «сырых» данных.

Значение понятия «скрытые знания»:

ранее не известные -- то есть такие знания, которые должны быть новыми (а не подтверждающими какие-то ранее полученные сведения);

нетривиальные -- то есть такие, которые нельзя просто так увидеть (при непосредственном визуальном анализе данных или при вычислении простых статистических характеристик);

практически полезные -- то есть такие знания, которые представляют ценность для исследователя или потребителя;

доступные для интерпретации -- то есть такие знания, которые легко представить в наглядной для пользователя форме и легко объяснить в терминах предметной области.

Эти требования во многом определяют суть методов Data mining и то, в каком виде и в каком соотношении в технологии Data mining используются системы управления базами данных, статистические методы анализа и методы искусственного интеллекта.

2. Data mining и базы данных

Методы Data mining имеет смысл применять только для достаточно больших баз данных. В каждой конкретной области исследований существует свой критерий «великости» базы данных.

Развитие технологий баз данных сначала привело к созданию специализированного языка -- языка запросов к базам данных. Для реляционных баз данных -- это язык SQL, который предоставил широкие возможности для создания, изменения и извлечения хранимых данных. Затем возникла необходимость в получении аналитической информации (например, информации о деятельности предприятия за определённый период), и тут оказалось, что традиционные реляционные базы данных, хорошо приспособленные, например, для ведения оперативного учёта на предприятии, плохо приспособлены для проведения анализа. Это привело, в свою очередь, к созданию т. н. «хранилищ данных», сама структура которых наилучшим способом соответствует проведению всестороннего математического анализа.

3. Data mining и искусственный интеллект

Знания, добываемые методами Data mining, принято представлять в виде моделей. В качестве таких моделей выступают:

ассоциативные правила;

деревья решений;

кластеры;

математические функции.

Методы построения таких моделей принято относить к области искусственного интеллекта.

4. Задачи

Задачи, решаемые методами Data Mining, принято разделять на описательные (англ. descriptive) и предсказательные (англ. predictive).

В описательных задачах самое главное -- это дать наглядное описание имеющихся скрытых закономерностей, в то время как в предсказательных задачах на первом плане стоит вопрос о предсказании для тех случаев, для которых данных ещё нет.

К описательным задачам относятся:

поиск ассоциативных правил или паттернов (образцов);

группировка объектов, кластерный анализ;

построение регрессионной модели.

К предсказательным задачам относятся:

классификация объектов (для заранее заданных классов);

регрессионный анализ, анализ временнымх рядов.

5. Алгоритмы обучения

Для задач классификации характерно «обучение с учителем», при котором построение (обучение) модели производится по выборке, содержащей входные и выходные векторы.

Обучемние с учимтелем (англ. Supervised learning) -- один из способов машинного обучения, в ходе которого испытуемая система принудительно обучается с помощью примеров «стимул-реакция». С точки зрения кибернетики, является одним из видов кибернетического эксперимента. Между входами и эталонными выходами (стимул-реакция) может существовать некоторая зависимость, но она не известна. Известна только конечная совокупность прецедентов -- пар «стимул-реакция», называемая обучающей выборкой. На основе этих данных требуется восстановить зависимость (построить модель отношений стимул-реакция, пригодных для прогнозирования), то есть построить алгоритм, способный для любого объекта выдать достаточно точный ответ. Для измерения точности ответов, так же как и в обучении на примерах, может вводиться функционал качества.

Для задач кластеризации и ассоциации применяется «обучение без учителя», при котором построение модели производится по выборке, в которой нет выходного параметра. Значение выходного параметра («относится к кластеру …», «похож на вектор …») подбирается автоматически в процессе обучения.

Обучение без учителя (англ. Unsupervised learning, самообучение, спонтанное обучение) -- один из способов машинного обучения, при решении которых испытуемая система спонтанно обучается выполнять поставленную задачу, без вмешательства со стороны экспериментатора. С точки зрения кибернетики, является одним из видов кибернетического эксперимента. Как правило, это пригодно только для задач, в которых известны описания множества объектов (обучающей выборки), и требуется обнаружить внутренние взаимосвязи, зависимости, закономерности, существующие между объектами.

Обучение без учителя часто противопоставляется обучению с учителем, когда для каждого обучающего объекта принудительно задаётся «правильный ответ», и требуется найти зависимость между стимулами и реакциями системы.

Для задач сокращения описания характерно отсутствие разделения на входные и выходные векторы. Начиная с классических работ К. Пирсона по методу главных компонент, основное внимание уделяется аппроксимации данных.

6. Этапы обучения

Выделяется типичный ряд этапов решения задач методами Data Mining:

Формирование гипотезы;

Сбор данных;

Подготовка данных (фильтрация);

Выбор модели;

Подбор параметров модели и алгоритма обучения;

Обучение модели (автоматический поиск остальных параметров модели);

Анализ качества обучения, если неудовлетворительный переход на п. 5 или п. 4;

Анализ выявленных закономерностей, если неудовлетворительный переход на п. 1, 4 или5

7. Интеллектуальный анализ данных

Интеллектуальный анализ данных (Data Mining), [1] - вычислительный процесс обнаружения закономерностей в больших объемах, данных с участием методов на пересечении искусственного интеллекта, машинного обучения, статистики и баз данных. [2] Общая цель процесса интеллектуального анализа данных - извлечение знаний из набора данных и преобразование их в понятую для дальнейшего использования структуру.

Термин является модным словом [3], и им часто злоупотребляют для обозначения любой формы больших объемов данных или обработки информации (сбор, добычу, хранение, анализ и вычисление статистических характеристик). Термин также ассоциируют с любой компьютерной системой поддержки принятия решений, в том числе искусственного интеллекта, машинного обучения и бизнес - аналитике. Для надлежащего использования этого термина, его следует использовать в тех случаях, когда имеет место "обнаружение чего-нибудь нового".

Актуальной задачей интеллектуального анализа данных является автоматический или полуавтоматический анализ больших объемов данных для извлечения ранее неизвестных, интересных моделей, таких как группы взаимосвязанных записей данных (кластерный анализ), необычные записи (обнаружение аномалий) и зависимости (ассоциативные правила). Как правило, это связано с использованием данных методов, таких как пространственные индексы. Эти модели можно рассматривать как своего рода резюме входных данных и они могут быть использованы в дальнейшем анализе или, например, в машинном обучении и прогнозном анализе. Например, этап анализа данных может определить несколько групп в данных, которые затем могут быть использованы для получения более точного результата предсказания с помощью системы поддержки принятия решений. Сбор данных, подготовка, интерпретация результатов и отчетность являются частью интеллектуального анализа данных, и относятся к процессу обнаружения знаний в базах данных в качестве дополнительного шага.

Терминов, связанных с данными много, ловля данных, отслеживание данных и все они относятся к использованию методов интеллектуального анализа данных. Как пример частями большого набора данных, которые являются (или могут быть) слишком малыми для надежных статистических выводов при решении вопроса о достоверности любых закономерностей, обнаруженных в процессе анализа. Эти методы, однако, может быть использован в создании новых гипотез для тестирования по отношению к более популяции данных.

Интеллектуальный анализ данных использует данные полученные в прошлом, чтобы проанализировать результат конкретной проблемы или ситуации, которые могут возникнуть. Интеллектуальный анализ данных ведет работы по анализу данных, хранящихся в хранилищах данных. Данные могут поступать из всех частей бизнеса, от производства до управления. Менеджеры также используют интеллектуальный анализ данных для принятия решений по маркетинговой стратегии для своего продукта. Они могут использовать данные для сравнения и противопоставления конкурентов. Интеллектуальный анализ данных интерпретирует данные в реальном времени. Это может быть использовано для увеличения объёма продаж, продвижения нового продукта или прекращения продаж продукта, который не несёт существенную прибыль для компании.

1. Предварительная обработка;

2. Интеллектуальный анализ данных;

3. Результаты проверки;

4. Список литературы.

Процесс обнаружения знаний в базах данных обычно состоит из следующих этапов:

1. Выбор;

2. Предварительная обработка;

3. Трансформация;

4. Data Mining;

5. Интерпретация / оценка [1].

Однако процесс интеллектуального анализа данных может отличаться в зависимости от того данные какой области человеческой деятельности мы анализируем. Межотраслевой стандартный процесс интеллектуального анализа данных (Crisp-DM), определяет шесть этапов:

1. Понимание бизнеса;

2. Понимание данных;

3. Подготовка данных;

4. Моделирование;

5. Оценка;

6. Развертывание.

Упрощенный процесс состоит из следующих этапов: предварительная обработка, интеллектуальный анализ данных, проверка результатов.

Опросов, проведенный в 2002, 2004 и 2007 годах показывает, что для получения Grisp DM методологии использовались ведущей методы в анализе данных [4] [5] [6]. Единственной методологией интеллектуального анализа данных, которая может конкурировать с GRISP является Semma. Тем не менее, в 3-4 раза больше людей, сообщили об использовании CRISP-DM. Несколько групп исследователей опубликованы обзоры моделей интеллектуального анализа данных [7] [8], Азеведо, Сантос провели сравнение CRISP-DM и Semma в 2008 году [9].

1. Предварительная обработка

Перед использованием алгоритмов анализа данных набор выходных данных должен быть подготовлен. Интеллектуальный анализ данных может раскрыть только модели на самом деле присутствующие в данных, целевой набор данных должен быть достаточно большим, чтобы содержать эти модели, оставаясь при этом достаточно кратким. Модели обычно добываются в пределах приемлемого срока. Обычно источник данных для анализа данных является некоторое хранилище данных. Предварительная обработка необходима для анализа многомерных наборов данных до интеллектуального анализа данных. Данные содержащие шум сглаживаются, пустоты в данных заполняются.

2. Интеллектуальный анализ данных

Интеллектуальный анализ данных включает в себя шесть общих классов задач [1]:

- обнаружение аномалий (Outlier / изменение / отклонение обнаружение) - идентификация необычных записей данных, которые могут быть интересны или ошибки в данных, которые требуют дальнейшего изучения;

- ассоциативные правила обучения - поиск связей между переменными. Например супермаркет, может собирать данные о привычках клиента в процессе покупки. Использование ассоциативных правил обучения, супермаркет может определить, какие продукты часто покупают вместе и использовать эту информацию в маркетинговых целях. Это иногда называют анализ рынка корзины;

- кластеризация - это задачи по выявлению групп и структур данных, которые в той или иной степени «похожи», без использования известных структур в данных.

- классификация - это задача обобщения известной структурой для применения к новым данным. Например, программа электронной почты может попытаться классифицировать электронную почту как "законный" или как "спам";

- регрессия - попытки найти функцию, которая моделирует данные с наименьшей ошибкой;

- уплотнение - обеспечивает более компактное представление набора данных, включая визуализацию и генерацию отчетов.

3. Проверка результатов

Заключительный этап обнаружения знаний в данных, заключается в проверке, того что модель даёт правдивые результаты. Алгоритмы интеллектуального анализа данных применяют для более широкого набора данных. Не все модели найденные алгоритмами интеллектуального анализа данных обязательно правдивы. Она является общей для алгоритмов интеллектуального анализа данных для поиска закономерностей в обучающем наборе, которых нет в общем наборе данных. Это называется переобучение. Чтобы проверить модель, используется тестовый набор данных, на которых алгоритм интеллектуального анализа данных не обучался. Далее полученный результат сравнивают с требуемым выходом. Например, алгоритм интеллектуального анализа данных пытается отличить «спам» от «законного» письма. Перед этим алгоритм обучается на тренировочном наборе образцов писем электронной почты. После обучения, применяется тестовый набор электронных писем, на которых он не обучался. Точность модели можно измерять тем, как много электронных писем алгоритм правильно классифицировал. Количественно - статистические методы могут быть использованы для оценки алгоритма, например, ROC кривых.

Если ученые моделей не отвечают требуемым стандартам, то необходимо пересмотреть и изменить предварительную обработку и добычу данных. Если ученые структуры не отвечают требуемым стандартам, то переходят к последнему шагу, чтобы интерпретировать изучение шаблонов и превратить их в знания.

Список литературы

1. ABC Файяд, Усама; Piatetsky-Шапиро, Григорий; Смит, Padhraic (2009). "От интеллектуального анализа данных для обнаружение знаний в базах данных". Проверено 17 декабря 2008 года.

2. A B C D "Data Mining Учебная». ACM SIGKDD. 2006-04-30. Проверено 2011-10-28.

3. OKAIRP 2005 осенняя конференция, Университет штата Аризона, About.com: Datamining;

4. Григорий Piatetsky-Шапиро (2002) KDnuggets Методология опроса.

5. Григорий Piatetsky-Шапиро (2004) KDnuggets Методология опрос.

6. Григорий Piatetsky-Шапиро (2007) KDnuggets Методология опроса.

7. Оскар Marbбn, Гонсало и Хавьер Марискаль Сеговии (2009), интеллектуальный анализ данных и обнаружение знаний Модель процесса. В интеллектуальном анализе данных и обнаружение знаний в реальных приложениях жизни, книге под редакцией: Хулио Понсе и Адем Karahoca, ISBN 978-3-902613-53-0, стр. 438-453, февраль 2009, I-Tech, Вена, Австрия.

8. Лукаш Курганской и Петр Musilek (2006); обзор знаний и данных моделей интеллектуального анализа, данных процесса. Обзор Инженерия знаний. Том 21 выпуск 1, март 2006 г., стр. 1-24, Cambridge University Press, Нью-Йорк, Нью-Йорк, США DOI: 10.1017/S0269888906000737.

9. Азеведо, А. и Сантос, MF KDD, Semma и четкие-DM: параллельный обзор. В Трудах IADIS Европейской конференции по интеллектуальному анализу данных 2008, стр. 182-185.

Размещено на Allbest.ru

...

Подобные документы

  • Описание функциональных возможностей технологии Data Mining как процессов обнаружения неизвестных данных. Изучение систем вывода ассоциативных правил и механизмов нейросетевых алгоритмов. Описание алгоритмов кластеризации и сфер применения Data Mining.

    контрольная работа [208,4 K], добавлен 14.06.2013

  • Основы для проведения кластеризации. Использование Data Mining как способа "обнаружения знаний в базах данных". Выбор алгоритмов кластеризации. Получение данных из хранилища базы данных дистанционного практикума. Кластеризация студентов и задач.

    курсовая работа [728,4 K], добавлен 10.07.2017

  • Data mining, developmental history of data mining and knowledge discovery. Technological elements and methods of data mining. Steps in knowledge discovery. Change and deviation detection. Related disciplines, information retrieval and text extraction.

    доклад [25,3 K], добавлен 16.06.2012

  • Совершенствование технологий записи и хранения данных. Специфика современных требований к переработке информационных данных. Концепция шаблонов, отражающих фрагменты многоаспектных взаимоотношений в данных в основе современной технологии Data Mining.

    контрольная работа [565,6 K], добавлен 02.09.2010

  • Анализ проблем, возникающих при применении методов и алгоритмов кластеризации. Основные алгоритмы разбиения на кластеры. Программа RapidMiner как среда для машинного обучения и анализа данных. Оценка качества кластеризации с помощью методов Data Mining.

    курсовая работа [3,9 M], добавлен 22.10.2012

  • Перспективные направления анализа данных: анализ текстовой информации, интеллектуальный анализ данных. Анализ структурированной информации, хранящейся в базах данных. Процесс анализа текстовых документов. Особенности предварительной обработки данных.

    реферат [443,2 K], добавлен 13.02.2014

  • Классификация задач DataMining. Создание отчетов и итогов. Возможности Data Miner в Statistica. Задача классификации, кластеризации и регрессии. Средства анализа Statistica Data Miner. Суть задачи поиск ассоциативных правил. Анализ предикторов выживания.

    курсовая работа [3,2 M], добавлен 19.05.2011

  • Роль информации в мире. Теоретические основы анализа Big Data. Задачи, решаемые методами Data Mining. Выбор способа кластеризации и деления объектов на группы. Выявление однородных по местоположению точек. Построение магического квадранта провайдеров.

    дипломная работа [2,5 M], добавлен 01.07.2017

  • Понятие информационных систем и принципы их проектирования. Изучение различных методов извлечения знаний, построение оптимальной информационной системы Data Mining, позволяющей разбивать набор данных, представленных реляционными базами данных на кластеры.

    аттестационная работа [4,7 M], добавлен 14.06.2010

  • Классификация задач Data Mining. Задача кластеризации и поиска ассоциативных правил. Определению класса объекта по его свойствам и характеристикам. Нахождение частых зависимостей между объектами или событиями. Оперативно-аналитическая обработка данных.

    контрольная работа [26,1 K], добавлен 13.01.2013

  • Data Mining как процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации). Его закономерности и этапы реализации, история разработки данной технологии, оценка преимуществ и недостатков, возможности.

    эссе [36,8 K], добавлен 17.12.2014

  • OLAP как автоматизированные технологии сложного (многомерного) анализа данных, Data mining - извлечение данных, интеллектуальный анализ. Виды запросов к многомерной базе данных, их содержание и анализ полученных результатов. Схема "звезда", "снежинка".

    презентация [132,1 K], добавлен 19.08.2013

  • Проблемы оценки клиентской базы. Big Data, направления использования. Организация корпоративного хранилища данных. ER-модель для сайта оценки книг на РСУБД DB2. Облачные технологии, поддерживающие рост рынка Big Data в информационных технологиях.

    презентация [3,9 M], добавлен 17.02.2016

  • Создание структуры интеллектуального анализа данных. Дерево решений. Характеристики кластера, определение групп объектов или событий. Линейная и логистическая регрессии. Правила ассоциативных решений. Алгоритм Байеса. Анализ с помощью нейронной сети.

    контрольная работа [2,0 M], добавлен 13.06.2014

  • Анализ существующих музыкальных сетей, профиля музыкального файла. Технологии и возможности Web 2.0. Анализ алгоритмов в Data Mining. Структура социальной сети. Набор графических элементов, описывающий человека в зависимости от прослушиваемой музыки.

    дипломная работа [3,7 M], добавлен 20.04.2012

  • Изучение возможностей AllFusion ERwin Data Modeler и проектирование реляционной базы данных (БД) "Санатория" на основе методологии IDEF1x. Определение предметной области, основных сущностей базы, их первичных ключей и атрибутов и связи между ними.

    лабораторная работа [197,5 K], добавлен 10.11.2009

  • A database is a store where information is kept in an organized way. Data structures consist of pointers, strings, arrays, stacks, static and dynamic data structures. A list is a set of data items stored in some order. Methods of construction of a trees.

    топик [19,0 K], добавлен 29.06.2009

  • Определение программы управления корпоративными данными, ее цели и предпосылки внедрения. Обеспечение качества данных. Использование аналитических инструментов на базе технологий Big Data и Smart Data. Фреймворк управления корпоративными данными.

    курсовая работа [913,0 K], добавлен 24.08.2017

  • Історія виникнення комерційних додатків для комп'ютеризації повсякденних ділових операцій. Загальні відомості про сховища даних, їх основні характеристики. Класифікація сховищ інформації, компоненти їх архітектури, технології та засоби використання.

    реферат [373,9 K], добавлен 10.09.2014

  • Проектирование баз данных, реализация ее серверной части, методика создания таблиц, различных триггеров, хранимых процедур, клиентского приложения. Процедура поиска данных, фильтрации данных, вывода отчета, ввода SQL запросов и вывода хранимых процедур.

    контрольная работа [50,1 K], добавлен 30.10.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.