Моделі Data Mining
Мета технології Data Mining - знаходження в даних закономірностей, які не можуть бути знайдені традиційними методами. Види моделей (предиктивні та описові). Використання методів й алгоритмів Data Mining для побудови моделей. Класифікація стадій та фаз.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | реферат |
Язык | украинский |
Дата добавления | 22.07.2017 |
Размер файла | 311,4 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
10
Размещено на http://www.allbest.ru/
Моделі Data Mining
Мета технології Data Mining - знаходження в даних таких закономірностей, які не можуть бути знайдені традиційними методами. Є два види моделей: предиктивні та описові.
Предиктивні моделі будуються на підставі набору даних з відомими результатами. Вони використовуються для прогнозу результатів на підставі інших наборів даних. Вимагається, щоб модель працювала максимально точно, була статистично значимою і виправданою. До них належать моделі класифікації - описують правила або набір правил, відповідно до яких можна віднести опис будь-якого нового об'єкта до одного з класів. Такі правила будуються на підставі інформації про наявні об'єкти шляхом поділу їх на класи; моделі послідовностей - описують функції, що дають змогу прогнозувати зміну параметрів. Вони будуються на підставі даних про зміну певного параметра за минулий період часу.
Описові (descriptive) моделі пов'язані із залежностями в наборі даних, взаємного впливу різних чинників, тобто на побудові емпіричних моделей різних систем. Ключовий момент у таких моделях - легкість і прозорість для сприйняття людиною. Можливо, знайдені закономірності будуть специфічною межею саме конкретних досліджуваних даних і більше ніде не зустрінуться, але це все може бути корисним. До них належать такі види моделей:
o кластеризації - описують групи (кластери), на які можна поділити об'єкти, дані про яких піддаються аналізу. Групуються об'єкти (спостереження, події) на основі даних (властивостей), що описують суть об'єктів. Об'єкти усередині кластера мають бути подібними один до одного і відрізнятися від об'єктів, що ввійшли до складу інших кластерів;
o виключень - описують виняткові ситуації в записах, які різко відрізняються від основної множини записів;
o підсумкові (результатні) - виявлення обмежень на даних масиву аналізу. Подібні обмеження важливі для розуміння даних масиву, тобто це нове знання, здобуте в результаті аналізу. Таким чином, Data Summarization - це знаходження яких-небудь фактів, які істинні для всіх або майже всіх записів у вибірці даних, що вивчається, але які досить рідко зустрічалися в усьому різноманітті записів такого самого формату;
o асоціації - виявлення закономірностей між пов'язаними подіями.
Для побудови розглянутих моделей використовуються різні методи й алгоритми Data Mining.
Більшість аналітичних методів, що використовуться у технології Data Mining - це математичні алгоритми і методи. Зокрема до методів і алгоритмів Data Mining відносять штучні нейронні мережі, дерева рішень, символьні правила, метод найближчого сусіда і к-найближчого сусіда, метод опорних векторів, байєсовські мережі, лінійну регресію, кореляційно-регре-сійний аналіз, ієрархічні методи кластерного аналізу, неієрар-хічні методи кластерного аналізу, зокрема алгоритми /с-серед-ніх і к-медіа ми, методи пошуку асоціативних правил, метод обмеженого перебору, еволюційне програмування і генетичні алгоритми, різноманітні методи візуалізації даних тощо.
До базових методів Data Mining належать також підходи, що використовують елементи теорії статистики. Основна їх ідея зводиться до кореляційного, регресійного та інших видів статистичного аналізу. Основним недоліком їх є усереднювання значень, що призводить до втрати інформативності даних. Це у свою чергу спричинює зменшення кількості знань, що здобуваються.
Основним способом дослідження задач аналізу даних є їх відображення формалізованою мовою та їх подальший аналіз за допомогою моделі.
Класифікація стадій Data Mining, Data Mining складається з кількох фаз:
1) виявлення закономірностей (вільний пошук);
2) використання виявлених закономірностей для прогнозу невідомих значень (прогностичне моделювання);
3) аналіз виключень - стадія призначена для виявлення і пояснення аномалій, знайдених у закономірностях.
Класифікація методів Data Mining. Усі методи Data Mining поділяються на дві групи за принципом роботи з початковими навчальними даними:
1) дані після Data Mining зберігаються - кластерний аналіз, метод найближчого сусіда, метод - найближчого сусіда, міркування за аналогією (традукцією);
2) дані деталізуються для подальшої обробки, тобто необхідним є виявлення і використання формалізованих закономірностей або дистиляція шаблонів.
При технології дистиляції шаблонів один зразок (шаблон) інформації витягується з початкових даних і перетворюється у певні формальні конструкції, вид яких залежить від методу Data Mining. Цей процес відбувається на стадії вільного пошуку, у першої групи методів ця стадія - відсутня. На стадіях прогностичного моделювання і аналізу виключень використовуються результати стадії вільного пошуку. Методи цієї групи: логічні методи; методи візуалізації; методи крос-табуляції; методи, засновані на рівняннях.
Логічні методи, або методи логічної індукції, включають нечіткі запити й аналізи, символьні правила, дерева рішень, генетичні алгоритми.
Методи цієї групи придатні для інтерпретації. Вони підтримують знайдені закономірності у прозорому вигляді з погляду користувача. Методи крос-табуляції забезпечують пошук шаблонів.
Методи на основі рівнянь виражають наявні закономірності у вигляді математичних виразів - рівнянь. Основні методи цієї групи: статистичні методи і нейронні мережі.
Статистичні методи найчастіше застосовуються для вирішення задач прогнозування. Є багато методів статистичного аналізу даних, наприклад, кореляційно-регресійний аналіз, кореляція рядів динаміки, виявлення тенденцій динамічних рядів, гармонійний аналіз.
Інша класифікація поділяє все різноманіття методів Data Mining на дві групи: статистичні і кібернетичні методи. Ця схема поділу заснована на різних підходах щодо навчання математичним моделям.
модель data mining алгоритм
Статистичні методи Data Mining
Ці методи включають: попередній аналіз природи статистичних даних (перевірка гіпотез стаціонарності, нормальності, незалежності, однорідності, оцінка виду функції розподілу, її параметрів); виявлення зв'язків і закономірностей (лінійний і нелінійний регресійний аналіз, кореляційний аналіз); багатовимірний статистичний аналіз (лінійний і нелінійний дискримінантний аналіз, кластерний аналіз, компонентний аналіз, факторний аналіз); динамічні моделі і прогноз на основі часових рядів.
Статистичні методи Data Mining поділяються на чотири групи методів: дескриптивний аналіз і опис початкових даних; аналіз зв'язків (кореляційний і регресійний аналіз, факторний аналіз, дисперсійний аналіз); багатовимірний статистичний аналіз (компонентний аналіз, дискримінантний аналіз, багатовимірний регресійний аналіз, канонічні кореляції); аналіз часових рядів (динамічні моделі і прогнозування).
Кібернетичні методи Data Mining
До цієї групи належать такі методи: еволюційне програмування; асоціативна пам'ять (пошук аналогів, прототипів); нечітка логіка; дерева рішень; системи обробки експертних знань, штучні нейронні мережі (розпізнавання, кластеризація, прогноз); генетичні алгоритми (оптимізація).
Нейронні мережі (Neural Networks) - це клас моделей, що базуються на аналогії з роботою мозку людини і призначаються для вирішення різноманітних задач аналізу даних після проходження етапу навчання на даних.
Нейронні мережі - це моделі біологічних нейронних мереж мозку, в яких нейрони імітуються однотипними елементами (штучними нейронами).
Нейронна мережа може бути представлена направленим графом зі зваженими зв'язками, у якому штучні нейрони є вершинами, а синаптичні зв'язки - дугами.
Серед сфер застосування нейронних мереж - автоматизація процесів розпізнавання образів, прогнозування показників діяльності підприємства, медична діагностика, прогнозування, адаптивне управління, створення експертних систем, організація асоціативної пам'яті, оброблення аналогових і цифрових сигналів, синтез й ідентифікація електронних систем.
За допомогою нейронних мереж можна, наприклад, передбачати обсяги продажу виробів, показники фінансового ринку, розпізнавати сигнали, конструювати самонавчальні системи.
Нейронна мережа є сукупністю нейронів, з яких складаються шари. У кожному шарі нейрони пов'язані з нейронами попереднього і наступного шарів. Серед задач Data Mining, що вирішуються за допомогою нейронних мереж, розглядатимемо такі:
1. Класифікація (навчання з учителем). Приклади завдань класифікації: розпізнавання тексту, розпізнавання мови, ідентифікація особи.
2. Прогнозування. Для нейронної мережі задача прогнозування може бути поставленою так: знайти оптимальне наближення функції, заданої кінцевим набором вхідних значень.
3. Кластеризація (навчання без учителя). Прикладом задачі кластеризації може бути завдання стиснення інформації шляхом зменшення розмірності даних.
Генетичні алгоритми - різновид еволюційних обчислень. Засновником генетичних алгоритмів є Дж. Холланд. Суть їх розкривається у книзі "Адаптація у природних і штучних системах".
Генетичні алгоритми (ГА) - це алгоритми, що дають змогу знайти задовільне рішення для аналітично нерозв'язуваних проблем через послідовний підбір і комбінування параметрів з використанням механізмів, що нагадують біологічну еволюцію.
ГА належать до універсальних методів оптимізації, що дають змогу вирішувати задачі різних типів (комбінаторні, загальні задачі з обмеженнями і без обмежень) і різного ступеня складності. ГА характеризуються можливістю як однокри-теріального, так і багатокритеріального пошуку в інформаційному просторі. Інтеграція ГА і нейронних мереж допомагає вирішувати проблеми пошуку оптимальних значень ваг входів нейронів, а інтеграція ГА і нечіткої логіки дає можливість оп-тимізувати систему продукційних правил, які можуть бути використані для управління.
Різні методи Data Mining характеризуються певними властивостями. Серед основних властивостей і характеристик методів Data Mining можна назвати точність, масштабованість, здатність до інтерпретації, перевірки, трудомісткість, гнучкість, швидкість і популярність.
Масштабованість - властивість обчислювальної системи, що забезпечує розгорнення системних характеристик, наприклад, швидкості реакції, загальної продуктивності при додаванні до неї обчислювальних ресурсів.
Для досягнення успіху в інтелектуальному аналізі даних необхідно мати чітке уявлення про мету аналізу; зібрати реле-вантні дані; вибрати адекватні методи аналізу та перевірити передумови їх застосування; обрати програмно-технологічні та математичні засоби, що реалізують ці методи; виконати аналіз та прийняти рішення про використання результатів. Загальна схема використання методів Data Mining складається з таких етапів (рис. 1).
Рис. 1. Етапи інтелектуального аналізу даних
На першому етапі виконується осмислення поставленої задачі і уточнення цілей, які мають досягатися методами Data Mining, тобто формується гіпотеза (рис. 2). Гіпотеза - частково обґрунтована закономірність знань, що слугує для зв'язку між різними емпіричними фактами або для пояснення факту чи групи фактів.
Важливо правильно сформулювати цілі і вибрати необхідні для їх досягнення методи, оскільки від цього залежить подальша ефективність усього процесу. Необхідно підібрати параметри, що якнайкраще описують об'єкт. Після вибору параметрів дані можуть бути представлені у вигляді таблиці. Після підготовки таблиці з описом параметрів потрібно оцінити значимість кожного з них. Можливо, частина з них буде відсіяна у результаті аналізу.
Є кілька методів збору необхідних для аналізу даних:
1) отримання цих даних з облікових систем;
2) отримання відомостей з непрямих даних;
3) використання відкритих джерел;
4) проведення власних маркетингових досліджень і заходів щодо збору даних;
5) збирання даних вручну.
Другий етап полягає у приведенні даних до форми, придатної для застосування методів Data Mining.
Третій етап - це застосування методів Data Mining, сценарії якого можуть бути різними і включати складну комбінацію різноманітних методів, особливо якщо методи дозволяють проаналізувати дані з різних позицій.
Наступний етап - перевірка побудованих моделей. Дуже простий і часто використовуваний спосіб полягає у тому, що всі наявні дані, які необхідно аналізувати, поділяються на дві групи різної розмірності. На більшій групі, застосовуючи методи Data Mining, одержують моделі, а на меншій - перевіряють їх. За різницею в точності між тестовою і навчальною групами можна стверджувати про адекватність побудованої моделі.
Останній етап - інтерпретація одержаних моделей експертом у цілях їх використання для прийняття рішень, додавання нових правил і залежностей у бази знань. Цей етап часто має на увазі використання методів, що знаходяться на стику технології Data Mining і технології експертних систем.
Є інші підходи щодо моделювання та реінжинірингу аналітичного процесу в організації в цілому. Особливість, наприклад, ситеми KXEN полягає у тому, що закладений у ній математичний апарат на основі теорії мінімізації структурного ризику дає змогу практично повністю автоматизувати процес побудови моделей і на порядок збільшити швидкість аналізу, що проводиться. Відмінності традиційного процесу Data Mining і підходу KXEN наведено на рис. 2. Таким чином, побудова моделі у KXEN з проекту дослідження перетворюється на функцію аналізу в режимі он-лайн у вигляді "питання-відповідь". Причому відповіді даються в тих термінах, у яких було сформульоване питання, і завдання користувача зводиться до того, щоб ставити потрібні питання і вказувати дані для аналізу. Серед переваг KXEN можна назвати: зручна і безпечна робота з даними; наочність результатів моделювання, легкість для розуміння: графічне відображення моделей; широкі можливості застосування моделей: автоматична генерація коду моделей різними мовами, при цьому модель зможе працювати автономно.
Отже, інтелектуальний аналіз даних дає змогу автоматично, ґрунтуючись на великій кількості накопичених даних, генерувати гіпотези, які можуть бути перевірені іншими засобами аналізу, наприклад, OLAP.
Перед застосуванням методів Data Mining початкові дані мають бути перетворені. Вид перетворень цих даних залежить від методів.
Методи та інструменти Data Mining можуть ефективно використовуватися в різних сферах людської діяльності: бізнесі, медицині, науці, телекомунікаціях.
Серед подібних інструментів відомі Darwin компанії Thinking Machines, що нині входить в Oracle Corporation, та Intelligent Miner for Data корпорації IBM. Останнім часом намічається тенденція до інтеграції можливостей Data Mining у сервери баз даних. Так, корпорація Microsoft реалізувала деякі алгоритми у версії СУБД SQL Server 2000.
Рис. 2. Відмінності традиційного процесу Data Mining і підходу KXEN
Найважливішим ресурсом сучасного підприємства, здатним значно вплинути на підвищення його конкурентоспроможності, є знання. Знання стають четвертим фактором виробництва, а їх значимість стає більш пріоритетною, ніж інші ресурси, капітал, праця.
OLAP, ВІ та Data Mining, що ґрунтуються на методах статистичної обробки, прогнозування і візуалізації, допомагають аналізувати структуровані дані. Складнішою є задача аналізу неструктурованих даних.
Размещено на Allbest.ru
...Подобные документы
Data mining, developmental history of data mining and knowledge discovery. Technological elements and methods of data mining. Steps in knowledge discovery. Change and deviation detection. Related disciplines, information retrieval and text extraction.
доклад [25,3 K], добавлен 16.06.2012Описание функциональных возможностей технологии Data Mining как процессов обнаружения неизвестных данных. Изучение систем вывода ассоциативных правил и механизмов нейросетевых алгоритмов. Описание алгоритмов кластеризации и сфер применения Data Mining.
контрольная работа [208,4 K], добавлен 14.06.2013Совершенствование технологий записи и хранения данных. Специфика современных требований к переработке информационных данных. Концепция шаблонов, отражающих фрагменты многоаспектных взаимоотношений в данных в основе современной технологии Data Mining.
контрольная работа [565,6 K], добавлен 02.09.2010Основы для проведения кластеризации. Использование Data Mining как способа "обнаружения знаний в базах данных". Выбор алгоритмов кластеризации. Получение данных из хранилища базы данных дистанционного практикума. Кластеризация студентов и задач.
курсовая работа [728,4 K], добавлен 10.07.2017Перспективные направления анализа данных: анализ текстовой информации, интеллектуальный анализ данных. Анализ структурированной информации, хранящейся в базах данных. Процесс анализа текстовых документов. Особенности предварительной обработки данных.
реферат [443,2 K], добавлен 13.02.2014Классификация задач DataMining. Создание отчетов и итогов. Возможности Data Miner в Statistica. Задача классификации, кластеризации и регрессии. Средства анализа Statistica Data Miner. Суть задачи поиск ассоциативных правил. Анализ предикторов выживания.
курсовая работа [3,2 M], добавлен 19.05.2011Анализ проблем, возникающих при применении методов и алгоритмов кластеризации. Основные алгоритмы разбиения на кластеры. Программа RapidMiner как среда для машинного обучения и анализа данных. Оценка качества кластеризации с помощью методов Data Mining.
курсовая работа [3,9 M], добавлен 22.10.2012Роль информации в мире. Теоретические основы анализа Big Data. Задачи, решаемые методами Data Mining. Выбор способа кластеризации и деления объектов на группы. Выявление однородных по местоположению точек. Построение магического квадранта провайдеров.
дипломная работа [2,5 M], добавлен 01.07.2017Історія виникнення комерційних додатків для комп'ютеризації повсякденних ділових операцій. Загальні відомості про сховища даних, їх основні характеристики. Класифікація сховищ інформації, компоненти їх архітектури, технології та засоби використання.
реферат [373,9 K], добавлен 10.09.2014Проблемы оценки клиентской базы. Big Data, направления использования. Организация корпоративного хранилища данных. ER-модель для сайта оценки книг на РСУБД DB2. Облачные технологии, поддерживающие рост рынка Big Data в информационных технологиях.
презентация [3,9 M], добавлен 17.02.2016Классификация задач Data Mining. Задача кластеризации и поиска ассоциативных правил. Определению класса объекта по его свойствам и характеристикам. Нахождение частых зависимостей между объектами или событиями. Оперативно-аналитическая обработка данных.
контрольная работа [26,1 K], добавлен 13.01.2013Data Mining как процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации). Его закономерности и этапы реализации, история разработки данной технологии, оценка преимуществ и недостатков, возможности.
эссе [36,8 K], добавлен 17.12.2014Понятие информационных систем и принципы их проектирования. Изучение различных методов извлечения знаний, построение оптимальной информационной системы Data Mining, позволяющей разбивать набор данных, представленных реляционными базами данных на кластеры.
аттестационная работа [4,7 M], добавлен 14.06.2010Создание структуры интеллектуального анализа данных. Дерево решений. Характеристики кластера, определение групп объектов или событий. Линейная и логистическая регрессии. Правила ассоциативных решений. Алгоритм Байеса. Анализ с помощью нейронной сети.
контрольная работа [2,0 M], добавлен 13.06.2014- Визуализация профиля пользователя социальной сети на основе обработки семантического описания данных
Анализ существующих музыкальных сетей, профиля музыкального файла. Технологии и возможности Web 2.0. Анализ алгоритмов в Data Mining. Структура социальной сети. Набор графических элементов, описывающий человека в зависимости от прослушиваемой музыки.
дипломная работа [3,7 M], добавлен 20.04.2012 A database is a store where information is kept in an organized way. Data structures consist of pointers, strings, arrays, stacks, static and dynamic data structures. A list is a set of data items stored in some order. Methods of construction of a trees.
топик [19,0 K], добавлен 29.06.2009OLAP как автоматизированные технологии сложного (многомерного) анализа данных, Data mining - извлечение данных, интеллектуальный анализ. Виды запросов к многомерной базе данных, их содержание и анализ полученных результатов. Схема "звезда", "снежинка".
презентация [132,1 K], добавлен 19.08.2013Характеристика та класифікація CASE-засобів, технологія їх впровадження. Структура і функції CASE-засобу Silverrun. Переваги, результати застосування та ключові функції CA ERwin Data Modeler. Проектування роботи інтернет-магазину за допомогою UML-діаграм.
курсовая работа [1,5 M], добавлен 07.02.2016Определение программы управления корпоративными данными, ее цели и предпосылки внедрения. Обеспечение качества данных. Использование аналитических инструментов на базе технологий Big Data и Smart Data. Фреймворк управления корпоративными данными.
курсовая работа [913,0 K], добавлен 24.08.2017Методика и основные этапы построения модели бизнес-процессов верхнего уровня исследуемого предприятия, его организационной структуры, классификатора. Разработка модели бизнес-процесса в IDEF0 и в нотации процедуры, применением Erwin Data Modeler.
курсовая работа [1,6 M], добавлен 01.12.2013