Метод когнитивной кластеризации или кластеризация на основе знаний (кластеризация в системно-когнитивном анализе и интеллектуальной системе "Эйдос")

Алгоритм и результаты агломеративной кластеризации. Кластерный анализ - задача разбиения заданной выборки объектов на подмножества. Кластеризация на основе знаний (кластеризация в системно-когнитивном анализе и интеллектуальной системе "Эйдос").

Рубрика Экономико-математическое моделирование
Вид статья
Язык русский
Дата добавления 28.04.2017
Размер файла 6,6 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Числовые шкалы преобразуются в интервальные значения, после чего градации всех типов шкал обрабатываются единообразно (см.п.3)

4.

Проблема 3.1 доказательства гипотезы о нормальности исходных данных.

Нет необходимости, т.к. предлагаемые частные и интегральные критерии не предполагают нормальности исходных данных

5.

Проблема 3.2 нормализации исходных данных.

Реализованы режимы ремонта или взвешивания исходных данных.

6.

Проблема 3.3 применения непараметрических методов кластеризации, корректно работающих с ненормализованными данными.

Предлагаемые методы являются непараметрическими и корректно работают с ненормализованными данными

7.

Проблема 4 разработки такого метода кластерного анализа, математическая модель и алгоритм и которого органично включали бы фильтр, подавляющий шум в исходных данных, в результате чего данный метод кластеризации корректно работал бы при наличии шума в исходных данных.

Предлагаемый метод включает фильтр подавления шума на уровне формирования матрицы абсолютных частот и самой математической форме интегрального критерия. Кроме того, реализованы режимы удаления или корректной обработки артефактов, выбросов (нетипичных объектов) и малопредставленных данных, по которым нет достаточной статистики в исходных данных

8.

Проблема 5 разработки метода кластерного анализа, математическая модель и алгоритм и которого обеспечивали бы выявление «выбросов» (артефактов) в исходных данных и позволяли либо вообще не показывать их в дендрограммах, либо показывать, но так, чтобы было наглядно видно, что это артефакты.

Поддерживается исключение выбросов и артефактов из дендрограмм, либо их отображение специальным для них образом.

Отметим, что в АСК-анализе и системе «Эйдос» реализованы и другие методы кластеризации, также основанные на знаниях:

- дивизивная кластеризация (см., например: [23, 24]);

- кластерно-конструктивный анализ классов и признаков [9].

Дивизивная (разделительная, в отличие от агломартивной, т.е. объединяющей) кластеризация используется в системе «Эйдос» для того разделять классы на типичную и нетипичную части. Предполагается, что если объекты не были отнесены к классу, к которому они на самом деле относятся, то они являются нетипичными для него (исключениями), и это является достаточным основанием для того, чтобы создать для них новый класс с тем же наименованием и добавлением номера итерации. Такой подход приводит к резкому уменьшению ошибок неидентификации при примерно том же уровне ошибок ложной идентификации, что приводит к существенному улучшению достоверности модели (рисунок 11).

Конструкты представляют собой понятия, имеющие противоположные смысловые полюса, в качестве которых у нас выступают наиболее непохожие кластеры, а также спектр промежуточных по смыслу классов. Конструкты принадлежат к наивысшему иерархическому уровню процесса познания, выше которого только парадигма реальности (рисунок 1) и их можно рассматривать как оси координат нашего когнитивного пространства [9]. Система «Эйдос» формирует конструкты на основе исследования модели предметной области. Роль конструктов невозможно переоценить, т.к. когда мы познаем мы применяем уже имеющиеся у нас конструкты, уточняем или расширяем область их применения и создаем новые конструкты (таблица 18).

Рисунок 12 Дендрограмма дивизивной кластеризации, полученная в режиме _34 системы «Эйдос» на рассматриваемом численном примере

Таблица 19 Конструкт: «запад-восток»

Код класса

Наименование класса

Уровень сходства

2

СОСТАВ СЛЕДУЕТ НА-ЗАПАД

100,00

12

НАЗВАНИЕ СОСТАВА-Состав-10

50,12

9

НАЗВАНИЕ СОСТАВА-Состав-07

42,73

8

НАЗВАНИЕ СОСТАВА-Состав-06

37,65

11

НАЗВАНИЕ СОСТАВА-Состав-09

34,55

10

НАЗВАНИЕ СОСТАВА-Состав-08

8,70

4

НАЗВАНИЕ СОСТАВА-Состав-02

-2,23

6

НАЗВАНИЕ СОСТАВА-Состав-04

-15,79

3

НАЗВАНИЕ СОСТАВА-Состав-01

-19,88

5

НАЗВАНИЕ СОСТАВА-Состав-03

-34,99

7

НАЗВАНИЕ СОСТАВА-Состав-05

-44,68

1

СОСТАВ СЛЕДУЕТ НА-ВОСТОК

-54,69

Таким образом, в данной статье на небольшом численном примере рассматриваются новые алгоритмы и результаты агломеративной кластеризации, основные отличия которых от ранее известных стоят в том, что:

а) в них параметры обобщенного образа кластера не вычисляются как средние от исходных объектов (классов) или центры тяжести, а определяются с помощью той же самой базовой когнитивной операции АСК-анализа, которая применяется и для формирования обобщенных образов классов на основе примеров объектов и которая действительно обеспечивает обобщение;

б) в качестве критерия сходства используется не евклидово расстояние или его варианты, а интегральный критерий неметрической природы: «суммарное количество информации», применение которого теоретически корректно и дает хорошие результаты в неортонормированных пространствах, которые обычно и встречаются на практике;

в) кластерный анализ проводится не на основе исходных переменных или матрицы сопряженности, зависящих от единиц измерения по осям, а в когнитивном пространстве, в котором по всем осям (описательным шкалам) используется одна единица измерения: количество информации, и поэтому результаты кластеризации не зависят от исходных единиц измерения признаков объектов.

Имеется и ряд других менее существенных отличий. Все это позволяет получить результаты кластеризации, понятные специалистам и поддающиеся содержательной интерпретации, хорошо согласующиеся с оценками экспертов, их опытом и интуитивными ожиданиями, что часто представляет собой проблему для классических методов кластеризации. Описанные методы теоретически обоснованы в системно-когнитивном анализе (СК-анализ) и реализованы в его программном инструментарии - интеллектуальной системе «Эйдос»,

Основной вывод, который, по мнению авторов можно обоснованно сделать по материалам данной статьи, состоит в том, что, не смотря на существование огромного количества различных методов кластеризации, в этой области существует ряд нерешенных проблем, ждущих своего решения. Анализ этих проблем позволяет высказать гипотезу, что для их решения необходимо выйти за пределы понятийного поля чисто математических рассуждений и привлечь представления из области искусственного интеллекта, в частности основываться на четкой дефиниции содержания таких основополагающих понятий, как данные, информация и знания [8]. Данная статья и содержит описание авторского варианта реализации этой идеи. Здесь же хотелось бы отметить, что кластеризация классическим методом матрицы знаний, полученной вне статистической системы, реализующий кластерный анализ, не дает желаемых результатов, т.к. только 1-я итерация получается соответствующей предлагаемому подходу, а последующие дают ошибочные результаты, т.к. в статистических системах не реализовано операции обобщения и добавление объекта к кластеру или объединение классов в кластер осуществляется иначе, чем формирование самих классов в исходной матрице знаний.

Предлагаемый метод когнитивной кластеризации не лишен и некоторых недостатков и ограничений, преодоление которых является одним из перспективных направлений развития этого метода.

Из недостатков следует прежде всего указать большие затраты вычислительных ресурсов и машинного времени на решение задачи кластеризации, чем у классических методов, обусловленные значительным объемом и более высокой сложностью вычислений. Другим недостатком является нежесткое ограничения текущей версии системы «Эйдос» на размерности модели, которые планируется преодолеть и которые постепенно преодолеваются. Версия системы «Эйдос» весны 2011 года обеспечивала объем обучающей выборки не более 100000 объектов, в текущей версии это ограничение снято и теперь система может работать с миллионами и даже десятками объектов. Но осталось ограничение на размерность баз знаний: не более 4000 классов и 4000 градаций факторов. Это ограничение также в перспективе планируется снять.

В качестве перспективы авторы рассматривают разработку режимов, обеспечивающих:

- когнитивную кластеризацию признаков;

- двухвходовую кластеризацию (одновременно и классов, и признаков), что оправдано тем, что при кластеризации классов изменяется и смысл признаков;

- моделей, основанных на новых частных критериях знаний (в частности, СИМ-5).

Материалы данной статьи могут быть использованы при разработке интеллектуальных систем, а также при проведении лабораторных работ по дисциплинам: «Интеллектуальные информационные системы» для специальности: 080801.65 - Прикладная информатика (по областям) и «Представление знаний в информационных системах» для специальности: 230201.65 - Информационные системы и технологии.

Библиографический список

1. Мандель И.Д. Кластерный анализ. - М.: Финансы и статистика. 1988. - 176с.

2. Леонов В.П. Краткий обзор методов кластерного анализа. Сайт: http://www.biometrica.tomsk.ru/cluster_2.htm http://www.biometrica.tomsk.ru/cluster_3.htm

3. Леонов В.П. Литература и сайты по кластерному анализу. Сайт: http://www.biometrica.tomsk.ru/cluster_4.htm

4. Сайт Института Космических Исследований РАН: http://www.iki.rssi.ru/magbase/REFMAN/STATTEXT/modules/stcluan.html#general

5. Сайт Internet-сообщества закупщиков: http://zakup.vl.ru/132-metodi_klastern.html

6. Баран О.И., Григорьев Ю.А., Жилина Н.М. Алгоритмы и критерии качества кластеризации // Общественное здоровье и здравоохранение: материалы XLV науч.-практ. конф. с международным участием «Гигиена, организация здравоохранения и профпатология» и семинара «Актуальные вопросы современной профпатологии», Новокузнецк, 17-18 ноября 2010 / под ред. В.В.Захаренкова. Кемерово: Примула, 2010. - С. 21-26.

7. Мичи Д., Джонстон Р. Компьютер - творец. - М.: Мир, 1987. -251 с.

8. Луценко Е.В. Методологические аспекты выявления, представления и использования знаний в АСК-анализе и интеллектуальной системе «Эйдос» / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2011. - №06(70). С. 233 - 280. - Режим доступа: http://ej.kubagro.ru/2011/06/pdf/18.pdf, 3 у.п.л.

9. Луценко Е.В. Автоматизированный системно-когнитивный анализ в управлении активными объектами (системная теория информации и ее применение в исследовании экономических, социально-психологических, технологических и организационно-технических систем): Монография (научное издание). - Краснодар: КубГАУ. 2002. - 605с. - Режим доступа: http://lc.kubagro.ru/aidos/aidos02/index.htm

10. Луценко Е.В. Интеллектуальные информационные системы: Учебное пособие для студентов специальности "Прикладная информатика (по областям)" и другим экономическим специальностям. 2-е изд., перераб. и доп.- Краснодар: КубГАУ, 2006. - 615 с. - Режим доступа: http://lc.kubagro.ru/aidos/aidos06_lec/index.htm

11. Луценко Е.В. Лабораторный практикум по интеллектуальным информационным системам: Учебное пособие для студентов специальности "Прикладная информатика (по областям)" и другим экономическим специальностям. 2-е изд., перераб. и доп. - Краснодар: КубГАУ, 2006. - 318с. - Режим доступа: http://lc.kubagro.ru/aidos/aidos06_lab/index.htm

12. Луценко Е.В. 30 лет системе «Эйдос» - одной из старейших отечественных универсальных систем искусственного интеллекта, широко применяемых и развивающихся и в настоящее время / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2009. - №10(54). С. 48 - 77. - Шифр Информрегистра: 0420900012\0110. - Режим доступа: http://ej.kubagro.ru/2009/10/pdf/04.pdf, 1,875 у.п.л.

13. Луценко Е.В. Универсальная когнитивная аналитическая система "ЭЙДОС". Пат. № 2003610986 РФ. Заяв. № 2003610510 РФ. Опубл. от 22.04.2003.

14. Луценко Е.В. Типовая методика и инструментарий когнитивной структуризации и формализации задач в СК-анализе / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2004. - №01(3). С. 388 - 414. - Режим доступа: http://ej.kubagro.ru/2004/01/pdf/16.pdf, 1,688 у.п.л.

15. Близоруков М. Г. Статистические методы анализа рынка: Учебно-метод. пособие / Близоруков М. Г. - Екатеринбург: Ин-т управления и предпринимательства Урал. гос. ун-та, 2008. - 75 с. - Режим доступа: http://elar.usu.ru/bitstream/1234.56789/1671/6/1334937_schoolbook.pdf

16. Луценко Е.В. Семантическая информационная модель СК-анализа / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2008. - №02(36). С. 193 - 211. - Шифр Информрегистра: 0420800012\0015. - Режим доступа: http://ej.kubagro.ru/2008/02/pdf/12.pdf, 1,188 у.п.л.

17. Луценко Е.В. Автоматизированная система распознавания образов, математическая модель и опыт применения. В сб.: "В.И.Вернадский и современность (к 130-летию со дня рождения)". Тезисы научно-практической конференции. - Краснодар: КНА, НПП «Эйдос», 1993. - С. 37-42.

18. Луценко Е.В. Универсальная автоматизированная система распознавания образов "Эйдос" (версия 4.1).-Краснодар: КЮИ МВД РФ, 1995.- 76с

19. Луценко Е.В. Теоретические основы и технология адаптивного семантического анализа в поддержке принятия решений (на примере универсальной автоматизированной системы распознавания образов "ЭЙДОС-5.1"). - Краснодар: КЮИ МВД РФ, 1996. - 280с.

20. Симанков В.С., Луценко Е.В. Адаптивное управление сложными системами на основе теории распознавания образов. Монография (научное издание). - Краснодар: ТУ КубГТУ, 1999. - 318с.

21. Луценко Е.В. Математическая сущность системной теории информации (СТИ) (Системное обобщение формулы Больцмана-Найквиста-Хартли, синтез семантической теории информации Харкевича и теории информации Шеннона) / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2008. - №08(42). С. 76 - 103. - Шифр Информрегистра: 0420800012\0114. - Режим доступа: http://ej.kubagro.ru/2008/08/pdf/04.pdf, 1,75 у.п.л.

22. Луценко Е.В. СК-анализ и система "Эйдос" в свете философии Платона / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2009. - №01(45). С. 91 - 100. - Шифр Информрегистра: 0420900012\0010. - Режим доступа: http://ej.kubagro.ru/2009/01/pdf/08.pdf, 0,625 у.п.л.

23. Луценко Е.В. Повышение адекватности спектрального анализа личности по астросоциотипам путем их разделения на типичную и нетипичную части / Е.В. Луценко, А.П. Трунев // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2008. - №02(36). С. 153 - 174. - Шифр Информрегистра: 0420800012\0017. - Режим доступа: http://ej.kubagro.ru/2008/02/pdf/10.pdf, 1,375 у.п.л.

24. Луценко Е.В. Повышение качества моделей «knowledge management» путем разделения классов на типичную и нетипичную части / Е.В. Луценко, Е.А. Лебедев, В.Н. Лаптев // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2009. - №10(54). С. 78 - 93. - Шифр Информрегистра: 0420900012\0109. - Режим доступа: http://ej.kubagro.ru/2009/10/pdf/05.pdf, 1 у.п.л.

Размещено на Allbest.ru

...

Подобные документы

  • Создание комбинированных моделей и методов как современный способ прогнозирования. Модель на основе ARIMA для описания стационарных и нестационарных временных рядов при решении задач кластеризации. Модели авторегрессии AR и применение коррелограмм.

    презентация [460,1 K], добавлен 01.05.2015

  • Цели сегментации рынка в маркетинговой деятельности. Сущность кластерного анализа, основные этапы его выполнения. Выбор способа измерения расстояния или меры сходства. Иерархические, неиерархические методы кластеризации. Оценка надежности и достоверности.

    доклад [214,7 K], добавлен 02.11.2009

  • Основные показатели финансового состояния предприятия. Кризис на предприятии, его причины, виды и последствия. Современные методы и инструментальные средства кластерного анализа, особенности их использования для финансово-экономической оценки предприятия.

    дипломная работа [1,4 M], добавлен 09.10.2013

  • Математическое моделирование. Сущность экономического анализа. Математические методы в экономическом анализе. Теория массового обслуживания. Задача планирования работы предприятия, надежности изделий, распределения ресурсов, ценообразования.

    контрольная работа [24,9 K], добавлен 20.12.2002

  • Изучение математической теории, развивающей формальные методы для исследования взаимосвязей и отношений состояний знаний субъектов в определенной предметной области. Понятие карты навыков. Рассмотрение отношений между состояниями знаний и навыками.

    дипломная работа [263,5 K], добавлен 12.10.2015

  • Многомерный статистический анализ. Математические методы построения оптимальных планов сбора, систематизации и обработки данных. Геометрическая структура многомерных наблюдений. Проверка значимости уравнения регрессии. Кластерный и факторный анализ.

    курсовая работа [2,6 M], добавлен 10.03.2011

  • Метод имитационного моделирования, его виды, основные этапы и особенности: статическое и динамическое представление моделируемой системы. Исследование практики использования методов имитационного моделирования в анализе экономических процессов и задач.

    курсовая работа [54,3 K], добавлен 26.10.2014

  • Построение типологических регрессий по отдельным группам наблюдений. Пространственные данные и временная информация. Сферы применения кластерного анализа. Понятие однородности объектов, свойства матрицы расстояний. Проведение типологической регрессии.

    презентация [322,6 K], добавлен 26.10.2013

  • На основе экстраполяции значений прогнозирующей функции осуществить прогноз выпуска продукции на квартал следующего года . Коэффициент простоя системы, среднее число клиентов в системе, среднюю длину очереди, среднее время пребывания клиента в системе.

    контрольная работа [93,3 K], добавлен 11.04.2007

  • Синтетический метод в прикладном системном анализе. Предпосылка синтеза системы с оптимальным распределением руководящих (координирующих) функций. Показатели центральности и периферийности. Целочисленное программирование. Учёт факторов неопределённости.

    презентация [421,7 K], добавлен 19.12.2013

  • Анализ чувствительности производственной программы предприятия к изменению уровня запасов сырья. Элементы теории графов. Алгоритм для нахождения пути с правильной нумерацией вершин. Транспортная задача, метод минимального элемента и северо-западного угла.

    курсовая работа [986,8 K], добавлен 31.05.2013

  • Линейное программирование. Геометрическая интерпретация и графический метод решения ЗЛП. Симплексный метод решения ЗЛП. Метод искусственного базиса. Алгоритм метода минимального элемента. Алгоритм метода потенциалов. Метод Гомори. Алгоритм метода Фогеля.

    реферат [109,3 K], добавлен 03.02.2009

  • Задачи операционного исследования. Построение базовой аналитической модели. Описание вычислительной процедуры. Решение задачи оптимизации на основе технологии симплекс-метода. Анализ результатов базовой аналитической модели и предложения по модификации.

    курсовая работа [1,5 M], добавлен 12.12.2009

  • Основы математического моделирования детерминированных и стохастических объектов. Идентификация объектов управления по переходной характеристике. Получение модели методом множественной линейной регрессии и проверка ее адекватности по критерию Фишера.

    курсовая работа [1,1 M], добавлен 14.10.2014

  • Математическая постановка и алгоритм решения транспортной задачи. Сбалансированность и опорное решение задачи. Методы потенциалов и северо-западного угла. Блок-схема. Формы входной и выходной информации. Инструкция для пользователя и программиста.

    курсовая работа [113,8 K], добавлен 10.11.2008

  • Проблема использования индексного анализа динамики средних цен в экономической практике; учет влияния фактора сменяемости изучаемых величин. Методологические принципы исчисления индексов стоимости, средних цен и физического объема внешней торговли.

    контрольная работа [1,6 M], добавлен 18.08.2013

  • Связь стохастических процессов и дифференциальных уравнений. Алгоритм Бюффона для определения числа Пи. Геометрический алгоритм Монте-Карло интегрирования. Применение метода Монте-Карло в логистике. Алгоритм Метрополиса, квантовый метод Монте-Карло.

    курсовая работа [258,0 K], добавлен 26.12.2013

  • Выполнение кластерного анализа предприятий с помощью программы Statgraphics Plus. Построение линейного уравнения регрессии. Расчет коэффициентов эластичности по регрессионным моделям. Оценка статистической значимости уравнения и коэффициента детерминации.

    задача [1,7 M], добавлен 16.03.2014

  • Графический метод решения задачи оптимизации производственных процессов. Применение симплекс-алгоритма для решения экономической оптимизированной задачи управления производством. Метод динамического программирования для выбора оптимального профиля пути.

    контрольная работа [158,7 K], добавлен 15.10.2010

  • Определение парных коэффициентов корреляции и на их основе факторов, оказывающих наибольшее влияние на результативный показатель. Анализ множественных коэффициентов корреляции и детерминации. Оценка качества модели на основе t-статистики Стьюдента.

    лабораторная работа [890,1 K], добавлен 06.12.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.