Подход к извлечению продукционных правил для систем поддержки принятия решений

Рассмотрение подхода к автоматической кластеризации и классификации объектов по данным обучающей выборки с применением современных инструментальных средств. Известные методы решения задачи кластеризации. Выбор инструментальных средств решения задачи.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 27.02.2019
Размер файла 25,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

ПОДХОД К ИЗВЛЕЧЕНИЮ ПРОДУКЦИОННЫХ ПРАВИЛ ДЛЯ СИСТЕМ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ

Балашов О. В., Круглов В. В.

Аннотация

Рассмотрен подход к автоматической кластеризации/классификации объектов по данным обучающей выборки с применением современных инструментальных средств. Результат может быть полезен при проектировании систем поддержки принятия решений.

Annotation

THE APPROACH TO EXTRACT PRODUCTION OF RULES FOR DECISION SUPPORT SYSTEMS

Balashov O. V., Kruglov V. V.

The approach to automatic clusterization (classification) of objects according to learning sampling with application of modern tools is considered. The result can be useful at decision support systems.

Введение

Качество функционирования системы поддержки принятия решений (СППР) существенно зависит от содержимого её базы знаний. Как известно, существуют две основные группы методов получения знаний: прямые (интервью, изучение литературы и др.) и косвенные (анализ обучающего множества примеров, наблюдения за экспертом и др.) [1, 2]. Проведённые исследования показали, что при принятии решений в условиях неопределённости большую предпочтительность имеют методы второй группы.

В данном случае рассматривается задача автоматической кластеризации по примерам обучающей выборки с выдачей результата в виде совокупности продукционных правил вида "если - то". Решение задачи проводится с использованием известных современных инструментальных средств SPSS 13.0 [3] и See5/C5.0 [4].

1. Постановка задачи

Имеются массив экспериментальных данных, представленный "примерами" в виде векторов Xi = (xi1, xi2, …, xin), i = 1,2,…N, где xij - некоторые числа (j = 1,2,…n), отражающие значения количественных признаков х1xn, N - общий объем выборки (количество обучающих примеров).

Предполагается, что представленные примеры отражают некоторое, априори неизвестное число m типов различимых объектов, например, различных болезней, различных типов летательных аппаратов, сортов фруктов и т.п.

Требуется: по данным обучающей выборки провести автоматическую кластеризацию представленных примеров по типам объектов, определить число таких типов (кластеров), выделить наиболее информативное подмножество признаков кластеризации, сформулировать решение в виде совокупности отмеченных выше продукционных правил, т.е. в лингвистической форме - для облегчения дальнейшей ручной или полуавтоматической классификации объектов в системах СППР.

2. Известные методы решения задачи кластеризации

Существует большое количество различных методов решения задачи кластеризации (см., в частности, книги [1, 2, 4-9]), однако в большинстве из них количество кластеров априори задается пользователем, исходя из каких-либо содержательных представлений о характере будущего решения. Практически неизвестны методы, в которых бы, наряду с решением задачи кластеризации проводилась оценка значимости признаков. "Ручные" вычисления по данным методам пригодны лишь для задач небольшой размерности - с числом примеров не более 20, при 23 признаках классификации.

В исследуемой задаче, как число примеров, так и число признаков достаточно велико, что требует привлечения того или иного инструментального (программного) средства, реализующего те или иные алгоритмы кластеризации.

3. Выбор инструментальных средств

Поскольку существуют инструментальные средства (программы, программные системы), позволяющие решать подобные задачи с помощью персональных компьютеров, метод решения поставленной задачи целиком зависит от выбранного инструментального средства и его возможностей, при этом пользователь математическими деталями используемых алгоритмов может и не интересоваться (эти алгоритмы, как отмечалось, достаточно подробно описаны, например, в монографиях [5, 6]).

В качестве инструментальных средств для решения поставленной задачи в данном случае выбраны:

1) пакет для статистических вычислений SPSS, 13-я версия;

2) программа See5 (версия 1.20а).

Такой выбор поясняется не только широкими (даже уникальными) возможностями указанных программ, но и тем, что они и правила их использования описаны в отечественной литературе (см. источники [3, 4]).

инструментальный автоматический кластеризация выборка

4. Решение задачи

Предлагаемый подход продемонстрируем на следующем иллюстративном примере.

Пусть имеются объекты двух типов (еще раз оговариваем, что это число предполагается неизвестным), каждый из которых характеризуется двумя числовыми признаками, а соответствующие объектам примеры отображены в таблице 1. Данные подвергнуты рандомизации, т.е. примеры перемешаны случайным образом; в условиях примера - для контроля - принадлежности объекта к тому или иному классу приведены в крайне правом столбце матрицы (они были известны экспериментатору, но неизвестны программе).

Таблица 1

Примеры обучающей выборки

№№ примеров

Признаки

№ класса

x1

x2

1

9.872

12.406

1

2

11.089

10.268

1

3

-10.19

21.911

2

4

-11.663

21.068

2

5

9.886

10.167

1

6

9.102

9.207

1

7

11.367

10.591

1

8

-8.506

21.161

2

9

-10.006

21.394

2

10

-10.166

20.29

2

Этап 1. Подготовка исходных данных.

Приведенные в таблице исходные данные (10 примеров - т.е. 10 пар значений признаков xi1, xi2) были загружены в таблицу программы SPSS для проведения кластеризации и выявления наиболее информативных признаков.

Этап 2. Выявление числа кластеров и наиболее информативных признаков. После загрузки данных в среду программы SPSS 13.0 дальнейшие исследования базировались на возможности этой программы решать задачу кластеризации несколькими методами, из которых наибольший интерес представляют так называемый метод двухступенчатой кластеризации (TwoStep Cluster). Данный метод реализованный, пожалуй, только в системе SPSS 13.0 позволяет не только автоматически определять оптимальное число кластеров в наборе данных, но и выделять наиболее информативные (с точки зрения задачи кластеризации) признаки.

С использованием этого метода для исследуемой выборки данных были получены следующие результаты, отраженные в файле отчета программы, фрагменты которого приведены ниже.

Заметим, что программа выдает также информацию об отнесении каждого из примеров обучающей выборки к тому или иному кластеру (классу). Эта информация будет использована при применении второй из рассматриваемых программ.

Двухэтапный кластерный анализ

Распределение по кластерам

N

% объединенных

% от итога

Кластер

1

5

50,0%

50,0%

2

5

50,0%

50,0%

Объединенный

10

100,0%

100,0%

Итог

10

100,0%

Профили кластеров

Центроиды

x1

x2

Среднее

Стд. отклонение

Среднее

Стд. отклонение

Кластер

1

-10,1062

1,11858

21,1648

,58822

2

10,2632

,94128

10,5278

1,16981

Объединенный

,0785

10,77977

15,8463

5,67374

Как видно, программа правильно выделила два класса (кластера), более того, из ее выходных данных следует, что все примеры были классифицированы правильно, а оба признака оказались значимыми (с вероятностью 0,95).

Вторая из таблиц отчета содержит статистическую информацию о центрах кластеров.

Этап 3. Лингвистическое описание классов. Исследование на данном этапе проводилось с помощью программы See5 [4], которая позволяет по данным экспериментальной выборки (а также по выявленным для каждого примера номера класса) формировать продукционные правила для лингвистической классификации объектов. Предварительно были подготовлены 2 текстовых файла - с имеющимися данными и именами переменных (файлы Кластер.names и Кластер.data).

Файл Кластер.names

class.

class: 1,2.

x1: continuous.

x2: continuous.

Файл Кластер.data

1,9.872,12.406

1,11.089,10.268

2,-10.19,21.911

2,-11.663,21.068

1,9.886,10.167

1,9.102,9.207

1,11.367,10.591

2,-8.506,21.161

2,-10.006,21.394

2,-10.166,20.29

В файле Кластер.data первые элементы каждой строки отражают принадлежность объекта (примера обучающей выборки) к тому или иному классу, определенному программой SPSS.

Результаты использования программы See5 (отражаемые протоколом в файле Кластер.out) приведены ниже.

See5 [Release 1.20a] Tue Sep 12 17:51:27 2006

Options:

Rule-based classifiers

Class specified by attribute `class'

Read 10 cases (3 attributes) from Кластер.data

Rules:

Rule 1: (5, lift 1.7)

x1 > -8.506

-> class 1 [0.857]

Rule 2: (5, lift 1.7)

x1 <= -8.506

-> class 2 [0.857]

Default class: 1

Evaluation on training data (10 cases):

Rules

----------------

No Errors

2 0( 0.0%) <<

(a) (b) <-classified as

---- ----

5 (a): class 1

5 (b): class 2

Интерпретация приведенных результатов такова: всего исследовано 10 случаев, при этом выявлено 2 продукционных правила типа "если-то". Ошибки в классификации отсутствуют. Объединяя правила, можно дать их лингвистическую интерпретацию в виде одного правила:

П: если x1 -8.506, то объект относится к классу 2, иначе - к классу 1.

Отметим, что программа "выдала" степень уверенности в справедливости классификации по приведенным правилам 0,857. Небезынтересно заметить, что в данном случае информационно значимым для классификации оказался только один показатель - x1.

Нетрудно проверить (см. таблицу 1), что в условиях приведенного примера задача выявления продукционных правил решена безошибочно.

Выводы

1. Автоматически сформулированы продукционные правила, позволяющие по натуральным значениям информативных признаков относить предъявляемый объект к тому или иному классу.

2. Точность полученного решения следует оценить на уровне 8090%, что для многих практических задач следует считать приемлемым.

3. Следует указать, что к получаемым с помощью предложенного подхода результатам следует относиться с известной долей осторожности (как, впрочем, ко всем статистическим выводам, сделанным на основе только экспериментальных данных), проверяя их, по возможности, другими подходами.

Литература

1. Лбов Г. С., Старцева Н. Г. Логические решающие функции и вопросы статистической устойчивости решений. Новосибирск, Изд-во Ин-та математики, 1999. 212 с.

2. Загоруйко Н. Г. Прикладные методы анализа данных и знаний. Новосибирск, Изд-во Ин-та математики, 1999. 270 с.

3. Бююль А., Цёфель П. SPSS: искусство обработки информации, анализ статистических данных и восстановление скрытых закономерностей. СПб.: ООО "ДиаСофтЮП", 2002. 608 с.

4. Дюк В., Самойленко А. Data mining: учебный курс. СПб.: Питер, 2001. 368 с.

5. Ту Дж., Гонсалес Р. Принципы распознавания образов. М.: Мир, 1978. 411 с.

6. Айвазян С. А., Мхитарян В. С. Прикладная статистика и основы эконометрики. М.: ЮНИТИ, 1998. 1022 с.

7. Гайдышев И. Анализ и обработка данных: специальный справочник. СПб.: Питер, 2001. 752 с.

8. Осовский С. Нейронные сети для обработки информации. М.: Финансы и статистика, 2002. 344 с.

9. Методы и модели анализа данных: OLAP и Data Mining /А. А. Барсегян, М. С. Куприянов, В. В. Степаненко, И. И. Холод. СПб.: БХВ-Петербург, 2004. 336 с.

Размещено на Allbest.ru

...

Подобные документы

  • Обзор методов реализации алгоритмов искусственного интеллекта. Примеры интеллектуальных систем, основанных на алгоритмах самообучения и кластеризации данных. Создание общей структурной схемы. Выбор языков программирования и инструментальных средств.

    дипломная работа [1,6 M], добавлен 20.08.2017

  • Сущность и понятие кластеризации, ее цель, задачи, алгоритмы; использование искусственных нейронных сетей для кластеризации данных. Сеть Кохонена, самоорганизующиеся нейронные сети: структура, архитектура; моделирование кластеризации данных в MATLAB NNT.

    дипломная работа [3,1 M], добавлен 21.03.2011

  • Описание предметной области автоматизации. Программа обследования и план-график выполнения работ на предпроектной стадии. Метод группового принятия решения с помощью кластеризации экспертных оценок альтернатив. Построение диаграммы потоков данных DFD.

    дипломная работа [375,8 K], добавлен 07.12.2014

  • Разработка алгоритмического и программного обеспечения для решения задачи поддержки принятия решений о выпуске новой продукции. Математическое обеспечение задачи поддержки принятия решений о выпуске новой продукции, основные входные и выходные данные.

    дипломная работа [943,0 K], добавлен 08.03.2011

  • Разработка основных проектных решений и подготовка технической документации в ходе проектирования автоматической информационной системы магазина бытовой техники. Выбор инструментальных средств, задачи, интерфейс программы, диалог пользователя с системой.

    курсовая работа [997,7 K], добавлен 27.10.2013

  • Рассмотрение понятия и истории возникновения систем поддержки принятия решения. Приспособленность информационных систем к задачам повседневной управленческой деятельности. Понятие термина "интеллектуальный анализ данных". Методика извлечения знаний.

    реферат [79,8 K], добавлен 14.04.2015

  • Методы и этапы создания автоматизированной обучающей системы по дисциплине "Программирование" для студентов ВУЗов. Описание и сравнение программ-аналогов. Выбор инструментальных средств и языка разработки. Проектирование интерфейса обучающей программы.

    курсовая работа [4,4 M], добавлен 26.11.2010

  • Методы решения проблем, возникающих на стадиях и этапах процесса принятия решений, их реализация в информационных системах поддержки принятия решений (СППР). Назначение СППР, история их эволюции и характеристика. Основные типы СППР, области их применения.

    реферат [389,3 K], добавлен 22.11.2016

  • Системный подход как метод анализа объектов в процессе проектирования, задачи: принятия оптимального решения, разбиение задачи на части. Анализ требований, предъявляемых к проектам технических систем: эргономические, патентно-правовые, экономические.

    лекция [149,3 K], добавлен 13.08.2013

  • Основные критерии выбора инструментальных средств создания электронных учебников. Структурная организация и режимы работы электронных учебников. Создание электронного учебника "Табличный процессор MS Excel". Расчет экономической эффективности проекта.

    курсовая работа [2,9 M], добавлен 01.06.2015

  • Классификация задач системы поддержки принятия решений, их типы и принципы реализации при помощи программы "Выбор". Обзор современных систем автоматизированного проектирования "Компас", "AutoCad", "SolidWorks", оценка преимуществ и недостатков программ.

    курсовая работа [1,4 M], добавлен 22.07.2014

  • Классификация задач DataMining. Создание отчетов и итогов. Возможности Data Miner в Statistica. Задача классификации, кластеризации и регрессии. Средства анализа Statistica Data Miner. Суть задачи поиск ассоциативных правил. Анализ предикторов выживания.

    курсовая работа [3,2 M], добавлен 19.05.2011

  • Характеристика задачи АВ01, ее выходная и входная информация, выбор и обоснование состава технических средств и средств программной реализации. Разработка алгоритма и программы решения задачи АВ01, руководства пользователя и контрольный пример решения.

    курсовая работа [2,1 M], добавлен 21.12.2011

  • Описание решения задачи, ее постановка, общий подход к решению. Представление исходных данных, условий задачи и целей ее решения. Составление алгоритма решения поставленной задачи. Написание программного обеспечения и тестирование конечного продукта.

    курсовая работа [1,1 M], добавлен 03.07.2011

  • Описание математических методов решения задачи оптимизации. Рассмотрение использования линейного программирования для решения транспортной задачи. Применение симплекс-метода, разработка разработать компьютерной модели в Microsoft Office Excel 2010.

    курсовая работа [1,5 M], добавлен 24.05.2015

  • Выбор сервера базы данных, инструментальных средств разработки клиентского интерфейса и технологий. Описание таблиц базы данных системы мониторинга. Разработка инструментальных средств создания элементов системы. Интерфейс генерации тестов. Расчет затрат.

    дипломная работа [1,9 M], добавлен 12.03.2013

  • Описание вычислительной техники, характеристика операционных систем и языков программирования. Сравнительный анализ аналогов и прототипов. Разработка алгоритма решения задачи. Выбор средств и методов решения задач. Проектирование программного обеспечения.

    отчет по практике [1,0 M], добавлен 23.03.2015

  • Маркетинговые исследования туристского продукта: жизненный цикл, оценка конкурентоспособности. Выбор математических методов и инструментальных средств, используемых при разработке информационной системы. Обоснование применения теории нечетких множеств.

    дипломная работа [847,7 K], добавлен 24.06.2015

  • Технологии и методы создания программного продукта в соответствии с деятельностью кафе "Бережок". Анализ технического задания и возможные способы реализации поставленной задачи. Выбор инструментальных программных средств. Структура продукта Web-сайта.

    курсовая работа [755,9 K], добавлен 28.12.2014

  • Особенности кластеризации социальных сетей, методы распознавания сообществ. Особенности локального прореживания графа. Разработка рекомендаций по выбору метода кластеризации для выделенных классов задач. Оптимизация процесса дальнейшей обработки данных.

    курсовая работа [1,8 M], добавлен 30.06.2017

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.