Метод когнитивной кластеризации или кластеризация на основе знаний (кластеризация в системно-когнитивном анализе и интеллектуальной системе "Эйдос")

Алгоритм и результаты агломеративной кластеризации. Кластерный анализ - задача разбиения заданной выборки объектов на подмножества. Кластеризация на основе знаний (кластеризация в системно-когнитивном анализе и интеллектуальной системе "Эйдос").

Рубрика Экономико-математическое моделирование
Вид статья
Язык русский
Дата добавления 28.04.2017
Размер файла 6,6 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Кубанский государственный аграрный университет

Метод когнитивной кластеризации или кластеризация на основе знаний (кластеризация в системно-когнитивном анализе и интеллектуальной системе "Эйдос")

Луценко Евгений Вениаминович

prof.lutsenko@gmail.com

Коржаков Валерий Евгеньевич

korve@yandex.ru

Аннотация

В статье на небольшом численном примере рассматриваются новые математическая модель, алгоритм и результаты агломеративной кластеризации, основные отличия которых от ранее известных стоят в том, что: а) в них параметры обобщенного образа кластера не вычисляются как средние от исходных объектов (классов) или центры тяжести, а определяются с помощью той же самой базовой когнитивной операции АСК-анализа, которая применяется и для формирования обобщенных образов классов на основе примеров объектов и которая действительно обеспечивает обобщение; б) в качестве критерия сходства используется не евклидово расстояние или его варианты, а интегральный критерий неметрической природы: «суммарное количество информации», применение которого теоретически корректно и дает хорошие результаты в неортонормированных пространствах, которые обычно и встречаются на практике; в) кластерный анализ проводится не на основе исходных переменных или матрицы сопряженности, зависящих от единиц измерения по осям, а в когнитивном пространстве, в котором по всем осям (описательным шкалам) используется одна единица измерения: количество информации, и поэтому результаты кластеризации не зависят от исходных единиц измерения признаков объектов. Имеется и ряд других менее существенных отличий. Все это позволяет получить результаты кластеризации, понятные специалистам и поддающиеся содержательной интерпретации, хорошо согласующиеся с оценками экспертов, их опытом и интуитивными ожиданиями, что часто представляет собой проблему для классических методов кластеризации. Описанные методы теоретически обоснованы в системно-когнитивном анализе (СК-анализ) и реализованы в его программном инструментарии - интеллектуальной системе «Эйдос»

Ключевые слова: автоматизированный системно-когнитивный анализ, интеллектуальная система «эйдос», когнитивное пространство, агломеративная кластеризация

Summary

Method of cognitive clusterization or clusterization on the basis of knowledge (clusterization in system-cognitive analysis and intellectual system "eidos")

Lutsenko Evgeny Veniaminovich Dr.Sci.Econ., Cand.Tech.Sci., professor

Kuban State Agrarian University, Krasnodar, Russia

Korzhakov Valery Evgenievich Cand.Tech.Sci., assistant professor

Adygh State University, Adygheya, Russia

In this article, on a small and evident numerical example, methodological aspects of a process engineering of detection of knowledge from the trial-and-error data explicitly are considered, representation of knowledge and its usage for problem solving of forecasting, decision making and data domain examination in system-cognitive analysis (SC-analysis) and its programmatic toolkit - intellectual "Eidos" system are shown

Keywords: computerized system-cognitive analysis, intellectual system "eidos", cognitive space, agglomerative clusterization

Кластерный анализ (англ. Data clustering) - это задача разбиения заданной выборки объектов (ситуаций) на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Кластерный анализ очень широко применяется как в науке, так и в различных направлениях практической деятельности. Значение кластерного анализа невозможно переоценить, оно широко известно и нет необходимости его специально обосновывать. кластеризация когнитивный интеллектуальный

Существует большое количество различных методов кластерного анализа, хорошо описанных в многочисленной специальной литературе [1, 3] и прекрасных обзорных статьях [2-5]. Поэтому в данной статье мы не ставим перед собой задачу дать еще одно подобное описание, а обратим основное внимание на проблемы, существующие в кластерном анализе и вариант их решения, предлагаемый в автоматизированном системно-когнитивном анализе (АСК-анализ). Эти проблемы, в основном, хорошо известны специалистам, и поэтому наш краткий обзор будет практически полностью основан на уже упомянутых работах [2-5]. Необходимо специально отметить, что специалисты небезуспешно работают над решением этих проблем, предлагая все новые и новые варианты, которые и являются различными вариантами кластерного анализа. Мы в данной статье также предложим еще один ранее не описанный в специальной литературе (т.е. новый, авторский) теоретически обоснованный и программно-реализованный вариант решения некоторых из этих проблем, а также проиллюстрируем его на простом численном примере.

Почему же разработано так много различных методов кластерного анализа, почему это было необходимо? Кажутся почти очевидными мысли о том, что различные методы кластерного анализа дают результаты различного качества, т.е. одни методы в определенном смысле «лучше», а другие «хуже», и это действительно так [6], и, следовательно, по-видимому, должен существовать только один-единственный метод кластеризации, всегда (т.е. на любых данных) дающий «правильные» результаты, тогда как все остальные методы являются «неправильными». Однако если задать аналогичный вопрос по поводу, например, автомобиля или одежды, то становится ясным, что нет просто наилучшего автомобиля, а есть лучшие по определенным критериям-требованиям или лучшие для определенных целей. При этом сами критерии также должны быть обоснованы и не просто могут быть различными, но и должны быть различными при различных целях, чтобы отражать цель и соответствовать ей. Так автомобиль, лучший для семейного отдыха не являются лучшим для гонок Формулы-1 или для представительских целей. Аналогично можно обоснованно утверждать, что одни методы кластерного анализа являются более подходящими для кластеризации данных определенной структуры, а другие - другой, т.е. не существует одного наилучшего во всех случаях универсального метода кластеризации, но существуют методы более универсальные и методы менее универсальные. Но все же многообразие разработанных методов кластерного анализа на наш взгляд указывает не только на это, но и на то, что их можно рассматривать как различные более или менее успешные варианты решения или попытки решения тех или иных проблем, существующих в области кластерного анализа.

Для структурирования дальнейшего изложения сформулируем требования к исходным данным в кластерном анализе и фундаментальные вопросы, которые решают разработчики различных методов кластерного анализа.

Считается, что кластерный анализ предъявляет следующие требования к исходным данным:

1. Показатели не должны коррелировать между собой.

2. Показатели должны быть безразмерными.

3. Распределение показателей должно быть близко к нормальному.

4. Показатели должны отвечать требованию «устойчивости», под которой понимается отсутствие влияния на их значения случайных факторов.

5. Выборка должна быть однородна, не содержать «выбросов».

Даже поверхностный анализ сформулированных требований к исходным данным сразу позволяет утверждать, что на практике они в полной мере никогда не выполняются, а приведение исходных данных к виду, удовлетворяющему этим требованиям, или очень сложно, т.е. представляет собой проблему, и не одну, или даже теоретически невозможно в полной мере. В любом случае пытаться это делать можно различными способами, хотя чаще всего на практике этого не делается вообще или потому, что необходимость этого плохо осознается исследователем, или чаще потому, что в его распоряжении нет соответствующих инструментов, реализующих необходимые методы. Конечно, в последнем случае не приходится удивляться тому, что результаты кластерного анализа получаются мягко сказать «несколько странными», а если они соответствуют здравому смыслу и точке зрения экспертов, то можно сказать, что это получилось случайно или потому, что «просто повезло».

Остановимся подробнее на анализе перечисленных требований к исходным данным, а также проблем, возникающих при попытке их выполнения и решения.

Первое требование связано с использованием в большинстве методов кластеризации евклидова расстояния или различных его вариантов в качестве меры близости объектов и кластеров. Другими словами это требование означает, что описательные шкалы, рассматриваемые как оси семантического пространства, должны быть ортонормированны, т.к. в противном случае применение евклидова расстояния и большинства других метрик (таблица 1) (кроме расстояния Махалонобиса) теоретически необоснованно и некорректно.

Таблица 1 Основные типы метрик при кластер-анализе

Наименование метрики

Тип признаков

Формула для оценки меры близости (метрики)

1

Эвклидово расстояние

Количественные

2

Мера сходства Хэмминга

Номинальные

(качественные)

где число совпадающих признаков у образцов?--? и

3

Мера сходства Роджерса-Танимото

Номинальные

шкалы

где число совпадающих единичных признаков у образцов?--? и ;

, общее число?--? единичных признаков у образцов и соответственно;

4

Манхэттенская метрика

Количественные

5

Расстояние Махаланобиса

Количественные

,

где W ковариационная матрица выборки;?--?;

6

Расстояние Журавлева

Смешанные

,

где

Существуют и другие метрики, в частности: квадрат евклидова расстояния, расстояние городских кварталов (манхэттенское расстояние), расстояние Чебышева, степенное расстояние, процент несогласия, метрики Рао, Хемминга, Роджерса-Танимото, Жаккара, Гауэра, Воронина, Миркина, Брея-Кертиса, Канберровская и многие другие [2, 4]. Когда корреляции между переменными равны нулю, расстояние Махаланобиса эквивалентно квадрату евклидового расстояния [2]. Это означает, что метрику Махаланобиса можно считать обобщением евклидовой метрики для неортонормированных пространств.

Но на практике это требование никогда в полной мере не выполняется, а для его выполнения необходимо выполнить операцию ортонормирования семантического пространства, при которой из модели тем или иным методом (реализованным в программной системе, в которой проводится кластерный анализ) исключаются все шкалы, коррелирующие между собой.

Таким образом, первое требование к исходным данным порождает две проблемы:

Проблема 1.1 выбора метрики, корректной для неортонормированных пространств.

Проблема 1.2 ортонормирования пространства.

Второе требование (безразмерности показателей) вытекает из того, что выбор единиц измерения по осям существенно влияет на результаты кластеризации. Казалось бы, одного этого должно быть достаточно для того, чтобы не делать этого, т.к. выбор единиц измерения, по сути, произволен (определяется исследователем), вследствие чего и результаты кластеризации, вместо того чтобы объективно отражать структуру данных и описываемой ими объективной реальности, также становятся произвольными и зависящими не только от самой исследуемой реальности, но и от произвола исследователя (причем неизвестно от чего больше: от реальности или исследователя). По сути, автоматизированная система кластеризации превращается в этих условиях из инструмента исследования структуры объективной реальности в автоматизированный инструмент рисования таких дендрограмм, какие больше нравятся пользователю. Непонятно также, какой содержательный смысл могут иметь, например корни квадратные из сумм квадратов разностей координат объектов, классов или кластеров, измеряемых в различных единицах измерения. Разве корректно складывать величины даже одного рода, измеряемые в различных единицах измерения, а тем более разного рода? Даже если сложить величины одного рода, но измеренные в разных единицах измерения, например расстояния от школы до подъезда дома 1.2 (километра), и от подъезда дома до квартиры 25 (метров), то получится 26,2 непонятно чего. Если же сложить разнородные по смыслу величины, т.е. величины различной природы, такие, например, как квадрат разности веса студентов с квадратом разности их роста, возраста, успеваемости и т.д., а потом еще извлечь из этой суммы квадратный корень, то получится просто бессмысленная величина, которая в традиционном кластерном анализе почему-то называется «Евклидово расстояние». В школе на уроке физики в 8-м классе за подобные действия сразу бы поставили «Неуд». Однако, как это ни удивительно, то, что «не прошло бы» на уроке физики в средней школе является вполне устоявшейся практикой в статистике и ее научных применениях.

В подтверждение тому, что подобная практика действительно существует, авторы не могут удержаться от искушения и не привести пространную цитату из работы [4]: «Заметим, что евклидово расстояние (и его квадрат) вычисляется по исходным, а не по стандартизованным данным. Это обычный способ его вычисления, который имеет определенные преимущества (например, расстояние между двумя объектами не изменяется при введении в анализ нового объекта, который может оказаться выбросом). Тем не менее, на расстояния могут сильно влиять различия между осями, по координатам которых вычисляются эти расстояния. К примеру, если одна из осей измерена в сантиметрах, а вы потом переведете ее в миллиметры (умножая значения на 10), то окончательное евклидово расстояние (или квадрат евклидова расстояния), вычисляемое по координатам, сильно изменится, и, как следствие, результаты кластерного анализа могут сильно отличаться от предыдущих.» (выделено нами, авт.). В работе [4] просто констатируется факт этой ситуации, но ему не дается никакой оценки. Наша же оценка этой практике по перечисленным выше причинам отрицательная. Приведем еще цитату из той же работы [4]: «Степенное расстояние. Иногда желают (!!!?)прогрессивно увеличить или уменьшить вес, относящийся к размерности, для которой соответствующие объекты сильно отличаются. Это может быть достигнуто с использованием степенного расстояния. Степенное расстояние вычисляется по формуле:

расстояние(x,y) = (i |xi - yi|p)1/r

где r и p - параметры, определяемые пользователем. Несколько примеров вычислений могут показать, как "работает" эта мера. Параметр p ответственен за постепенное взвешивание разностей по отдельным координатам, параметр r ответственен за прогрессивное взвешивание больших расстояний между объектами. Если оба параметра - r и p, равны двум, то это расстояние совпадает с расстоянием Евклида». Мы считаем, что еще какие-то комментарии здесь излишни.

Таким образом, второе требование к исходным данным порождает следующую проблему 2.1:

Проблема 2.1 сопоставимой обработки описаний объектов, описанных признаками различной природы, измеряемыми в различных единицах измерения (проблема размерностей).

Отметим также, что объекты чаще всего описаны не только признаками, измеряемыми в различных единицах измерения, но как количественными, так и качественными признаками, которые соответственно являются градациями как числовых шкал, так и номинальных (текстовых) шкал. Существует метрика для номинальных шкал: это «Процент несогласия» [4], однако для количественных шкал применяются другие метрики. Каким образом и с помощью какой комбинации классических метрик вычислять расстояния между объектами, описанными как количественными, так и качественными признаками, а также между кластерами, в которые они входят, вообще не понятно. Это порождает проблему 2.2.:

Проблема 2.2 формализации описаний объектов, имеющих как количественные, так и качественные признаки.

Третье требование (нормальности распределения показателей) вытекает из того, что статистическое обоснование корректности вышеперечисленных метрик существенным образом основано на этом предположении, т.е. эти метрики являются параметрическими. На практике это означает, что перед применением кластерного анализа с этими метриками необходимо доказать гипотезу о нормальности исходных данных либо применить процедуру их нормализации. И первое, и второе, весьма проблематично и на практике не делается, более того, даже вопрос об этом чаще всего не ставится. Процедура нормализации (или взвешивания, ремонта) исходных данных обычно предполагает удаление из исходной выборки тех данных, которые нарушают их нормальность. Ясно, что это непредсказуемым образом может повлиять на результаты кластеризации, которые, скорее всего, существенно изменяться и их уже нельзя будет признать результатами кластеризации исходных данных. Отметим, что на практике исходные данные, не подчиняющиеся нормальному распределению, встречаются достаточно часто, что и делает актуальными методы непараметрической статистики.

Таким образом, 3-е требование к исходным данным порождает проблемы 3.1., 3.2. и 3.3.:

Проблема 3.1 доказательства гипотезы о нормальности исходных данных.

Проблема 3.2 нормализации исходных данных.

Проблема 3.3 применения непараметрических методов кластеризации, корректно работающих с ненормализованными данными.

Что можно сказать о четвертом и пятом требованиях? Эти требования взаимосвязаны, т.к. случайные факторы и порождают «выбросы». На практике, строго говоря, эти требования никогда не выполняются и вообще звучат несколько наивно, если учесть, что как случайные часто рассматриваются неизвестные факторы, а их влияние даже теоретически, т.е. в принципе, исключить невозможно. С другой стороны эти требования «удобны» тем, что неудачные, неадекватные или не интерпретируемые результаты кластеризации, полученные тем или иным методом кластерного анализа, всегда можно «списать» на эти неизвестные «случайные» факторы или скрытые параметры и порожденные ими выбросы. А поскольку ответственность за обеспечение отсутствия шума и выбросов в исходных данных возложена этими требованиями на самого исследователя, то получается, что если что-то получилось не так, то это связано уж не столько с методом кластеризации, сколько с каким-то недоработками самого исследователя. По этим причинам более логично и главное, более продуктивно было бы предъявить эти требования не к исходным данным и обеспечивающему их исследователю, а к самому методу кластерного анализа, который, по мнению авторов, должен корректно работать в случае наличия шума и выбросов в исходных данных.

Таким образом, четвертое и пятое требования приводят к двум проблемам:

Проблема 4 разработки такого метода кластерного анализа, математическая модель и алгоритм и которого органично включали бы фильтр, подавляющий шум в исходных данных, в результате чего данный метод кластеризации корректно работал бы при наличии шума в исходных данных.

Проблема 5 разработки метода кластерного анализа, математическая модель и алгоритм и которого обеспечивали бы выявление «выбросов» (артефактов) в исходных данных и позволяли либо вообще не показывать их в дендрограммах, либо показывать, но так, чтобы было наглядно видно, что это артефакты.

Далее рассмотрим, как решаются (или не решаются) сформулированные выше проблемы в классических методах кластерного анализа. Для удобства дальнейшего изложения повторим формулировки этих проблем.

Проблема 1.1 выбора метрики, корректной для неортонормированных пространств.

Проблема 1.2 ортонормирования пространства.

Проблема 2.1 сопоставимой обработки описаний объектов, описанных признаками различной природы, измеряемыми в различных единицах измерения (проблема размерностей).

Проблема 2.2 формализации описаний объектов, имеющих как количественные, так и качественные признаки.

Проблема 3.1 доказательства гипотезы о нормальности исходных данных.

Проблема 3.2 нормализации исходных данных.

Проблема 3.3 применения непараметрических методов кластеризации, корректно работающих с ненормализованными данными.

Проблема 4 разработки такого метода кластерного анализа, математическая модель и алгоритм и которого органично включали бы фильтр, подавляющий шум в исходных данных, в результате чего данный метод кластеризации корректно работал бы при наличии шума в исходных данных.

Проблема 5 разработки метода кластерного анализа, математическая модель и алгоритм и которого обеспечивали бы выявление «выбросов» (артефактов) в исходных данных и позволяли либо вообще не показывать их в дендрограммах, либо показывать, но так, чтобы было наглядно видно, что это артефакты.

Сделать это удобнее всего, рассматривая какие ответы предлагают классические методы кластерного анализа на сформулированные в в работе [2] вопросы:

- как вычислять координаты кластера из двух более объектов;

- как вычислять расстояние до таких "полиобъектных" кластеров от "монокластеров" и между "полиобъектными" кластерами.

Дело в том, что эти вопросы имеют фундаментальное значение для кластерного анализа, т.к. разнообразные комбинации используемых метрик и методов вычисления координат и взаимных расстояний кластеров и порождают все многообразие методов кластерного анализа [2]. Мы бы несколько переформулировали эти вопросы, а также добавили бы еще один:

1. Каким методом вычислять координаты кластера, состоящего из одного и более объектов, т.е. каким образом объединять объекты в кластеры.

2. Каким методом сравнивать кластеры, т.е. как вычислять расстояния между кластерами, состоящими из различного количества объектов (одного и более).

3. Каким методом объединять кластеры, т.е. формировать обобщенные («многообъектные») кластеры.

Вопрос 1-й. Чаше всего ни в теории и математических моделях кластерного анализа, ни на практике между кластером, состоящим из одного объекта («моноообъектным» кластером) и самим объектом не делается никакого различия, т.е. считается, что это одно и тоже. «В агломеративно-иерархических методах (aggomerative hierarhical algorithms) … первоначально все объекты (наблюдения) рассматриваются как отдельные, самостоятельные кластеры состоящие всего лишь из одного элемента» [2]. В работе [4] также говорится, что древовидная «Диаграмма начинается с каждого объекта в классе (в левой части диаграммы)». Это решение сразу же порождает многие из вышеперечисленных проблем (1.1., 1.2., 2.1, 2.2), т.к. объекты могут быть описаны как количественными, так и качественными признаками различной природы, измеряемыми в различных единицах измерения, причем эти признаки взаимосвязаны (коррелируют) между собой.

Казалось бы, проблему размерностей (2.1) решает кластеризация не исходных переменных, а матриц сопряженности, содержащих абсолютные частоты наблюдения признаков по объектам или классам. Однако при таком подходе, например при сравнении моделей автомобилей, четыре и два цилиндра у этих моделей, а также четыре и два болта, которыми у них прикручен номер, будут давать одинаковый вклад в сходство-различие этих моделей, что едва ли разумно и приемлемо [8]. Тем ни менее матрица сопряженности анализируется в социологических и социометрических исследованиях, а в статистических системах, в разделах справки, посвященных кластерному анализу, приводятся примеры подобного рода.

Другое предложение по решению проблемы размерностей (2.1) основано на четком пожимании того, что изменение единиц измерения переменной меняет среднее ее значений и их разброс от этого среднего. Например, переход от сантиметров к миллиметрам увеличивает среднее и среднее отклонение от среднего в 10 раз. Речь идет о методе нормализации или стандартизации исходных данных, когда значения переменных заменяются их стандартизированными значения или z-вкладами [15]. Z-вклад показывает, сколько стандартных отклонений отделяет данное наблюдение от среднего значения:

,

где - значение данного наблюдения, - среднее, - стандартное

отклонение. Однако этот метод имеет серьезный недостаток, описанный в литературе [2, 4, 15]. Дело в том, что нормализация значений переменных приводит к тому, что независимо от значений их среднего и вариабельности до нормализации (т.е. значимости, измеряемой стандартным отклонением), после нормализации среднее становится равным нулю, а стандартное отклонение 1. Это значит, что нормализация выравнивает средние и отклонения по всем переменным, снижая, таким образом, вес значимых переменных, оказывающих большое влияние на объект, и завышая роль малозначимых переменных, оказывающих меньшее влияние и искажая, таким образом, картину. На взгляд авторов это на вряд ли приемлемо. Другой важный недостаток, который в отличие от первого не отмечается в специальной литературе, состоит в том, что стандартизированные значения сложно как-то содержательно интерпретировать, т.е. устранение влияния единиц измерения достигается ценой потери смысла переменных, который как раз и содержался в единицах их измерения. В результате нормализации все переменные становятся как бы «на одно лицо». Это также недопустимо. Таким образом, можно обоснованно сделать вывод о том, нормализация и стандартизация исходных данных - это весьма радикальное решение проблемы 2.1 «в лоб и в корне», но решение неприемлемо дорогой ценой.

В классических методах кластерного анализа предлагается два основных варианта ответов на 1-й вопрос:

1. Вообще не формировать обобщенных классов или кластеров из объектов, а на всех этапах кластеризации рассматривать только сами первичные объекты.

2. Формировать обобщенные кластеры путем вычисления неких статистических характеристик кластера на основе характеристик входящих в него объектов.

О 1-м варианте ответа в работе [4] говорится: «Диаграмма начинается с каждого объекта в классе (в левой части диаграммы). Теперь представим себе, что постепенно (очень малыми шагами) вы "ослабляете" ваш критерий о том, какие объекты являются уникальными, а какие нет. Другими словами, вы понижаете порог, относящийся к решению об объединении двух или более объектов в один кластер. В результате, вы связываете вместе всё большее и большее число объектов и агрегируете (объединяете) все больше и больше кластеров, состоящих из все сильнее различающихся элементов». Этот подход, когда кластеры реально не формируются, т.к. им не соответствуют какие-либо конструкции математической модели, представляется авторам сомнительным, т.к., во-первых, как было показано выше, это порождает проблемы 1.1., 1.2., 2.1, 2.2, а во-вторых, никак не решает проблемы 3.1, 3.2, 3.3, 4 и 5. Между тем сам способ формирования кластеров из объектов, по мнению авторов, призван стать средством решения всех этих проблем.

2-й вариант ответа представляется более обоснованным, однако он сам в свою очередь порождает вопросы о степени корректности и научной обоснованности того или иного метода вычисления обобщенных характеристик кластера и главное о том, в какой степени этот метод позволяет решить сформулированные выше проблемы. Описание кластера на основе входящих в него объектов традиционно включает центр кластера, в качестве которого обычно используется среднее или центр тяжести от характеристик входящих в него объектов [2], а также какую-либо количественную оценку степени рассеяния объектов кластера от его центра (как правило, это дисперсия). Ответ на 2-й вопрос является продолжением ответа на 1-й вопрос.

Вопрос 2-й. В работах [2, 3, 4] и других по кластерному анализу описывается большое количество различных мер и методов, которые можно применить как для измерения расстояний между кластерами, так и расстояний от объекта до кластеров. Например, в невзвешенном центроидном методе при определении расстояния от объекта до кластера, по сути, определяется расстояние до его центра [4]. В методе невзвешенного попарного среднего расстояние между двумя кластерами вычисляется как среднее расстояние между всеми парами объектов в них [4]. При этом, как правило, не решаются перечисленные выше проблемы, т.к. не устраняются их причины: а именно средние вычисляются на основе мер расстояния, корректных только для ортонормированных пространств и при этом часто используются размерные или нормализованные формы представления признаков объектов, не формализуется описание объектов, обладающих как количественными, так и качественными признаками. Ответ на 3-й вопрос является продолжением ответа на 2-й вопрос.

Вопрос 3-й. При объединении кластеров характеристики вновь образованного обобщенного кластера обычно пересчитываются тем же методом, каким они рассчитывались для исходных кластеров. Это сохраняет нерешенными и все проблемы, которые были при определении характеристик исходных кластеров и расстояний между этими кластерами.

Далее рассмотрим вариант решения некоторых из сформулированных выше проблем кластерного анализа, предлагаемый в АСК-анализе и реализованный в интеллектуальной системе «Эйдос».

Обратимся к эпиграфам к данной статье: «Мышление - это обобщение, абстрагирование, сравнение, и классификация» (Патанджали, II в. до н. э.), «Истинное знание - это знание причин» (Френсис Бэкон, 1561-1626 гг.). Итак, мышление, как процесс это [в том числе] классификация, результатом же мышления является знание, причем истинное знание есть знание причин. Истинное мышление есть мышление, дающее истинное знание. Соответственно ложное мышление - это мышление, приводящее к заблуждениям. Поэтому истинное мышление - это [в том числе] истинная (правильная, адекватная) классификация объектов по причинам их поведения, т.е. по системе их детерминации. Правильной классификацией будем считать ту, которая совпадает с классификацией экспертов, основанной на их высоком уровне компетенции, профессиональной интуиции и большом практическом опыте.

Если, как это принято в АСК-анализе [14], факторы формализовать в виде шкал различного типа (номинальных, порядковых и числовых), признаки рассматривать как значения факторов, т.е. их интервальные значения, более или менее жестко детерминирующих поведение объекта, а классы как будущие состояния, в которые объект переходит под влиянием различных значений этих факторов, то можно сказать, что признаки формализуют причины переходов объекта в состояния, соответствующие классам или кластерам. Если учесть, что классификация - это кластерный анализ, то можно сделать обоснованные выводы о том, что кластерный анализ это и есть мышление (но мышление не сводится только к кластерному анализу), а результаты кластерного анализа представляют собой знания. Степень истинности этих знаний, полученных в результате кластерного анализа, т.е. их адекватность или соответствие действительности, полностью определяются степенью истинности метода кластерного анализа, с помощью которого они получены. Поэтому столь важно решить сформулированные выше проблемы кластерного анализа.

В свою очередь классификация (в т.ч. кластерный анализ) как процесс основана на обобщении и сравнении. В монографии 2002 года [9] предлагается пирамида иерархической структуры процесса познания, входящая в базовую когнитивную концепцию (рисунок 1):

Рисунок 1. Обобщенная схема иерархической структуры процесса познания согласно базовой формализуемой когнитивной концепции

В этой же монографии [9] предлагается математическая модель, основанная на семантической теории информации, обеспечивающая высокую степень формализацию данной когнитивной концепции, достаточную для разработки алгоритмов, структур данных и программной реализации в виде интеллектуальной программной системы. Такая система была создана автором и постоянно развивается, это система «Эйдос» [9, 12, 13].

Суть предлагаемых в АСК-анализе решений сформулированных выше проблем кластерного анализа состоит в следующем.

Основная идея решения проблем кластерного анализа, состоит в том, что для решения задачи кластеризации предлагается использовать математическое представление объектов не виде переменных со значениями, измеряемыми в различных единицах измерения и в шкалах разного типа, и не матрицу сопряженности с абсолютными частотами встреч признаков по классам или нормализованными Z-вкладами, а базы знаний, рассчитанные на основе матрицы сопряженности (матрицы абсолютных частот) с использованием различных аналитических выражений для частных критериев. При этом для всех значений всех переменных используется одна и та же размерность - это размерность количества информации (бит, байт и т.д.), что обеспечивает расчет на основе исходных данных силы и направления влияния на объект всех факторов и их значений и сопоставимую обработку значений переменных, изначальное (в исходных данных) представленных в разных единицах измерения и в шкалах разного типа (количественных - числовых, и качественных - текстовых).

1. Расстояния между объектом и кластером, а также между кластерами предлагается определять с использованием неметрических интегральных критериев, корректных для неортормированных пространств, одним и тем же методом: по суммарному количеству информации, которое содержится (соответственно) в системе признаков объекта о принадлежности к классу или кластеру, или которое содержится в обобщенных образах двух классов или кластеров об их принадлежности друг к другу.

2. Координаты кластера, возникающего как при включении в него одного единственного объекта, так и при объединении многих объектов в кластеры вычисляются тем же самым методом, что и координаты кластера, возникающего при объединении нескольких кластеров, а именно путем применения базовой когнитивной операции (БКОСА): «Обобщение», «Синтез», «Индукция» (БКОСА-3) АСК-анализа.

3. Объединять кластеры, т.е. формировать обобщенные («многообъектные») кластеры при объединении кластеров предлагается тем же самым методом, что и обобщенные образы классов при объединении конкретных образов объектов, т.е. путем применения базовой когнитивной операции (БКОСА): «Обобщение», «Синтез», «Индукция» (БКОСА-3) АСК-анализа.

Основная идея сводится к тому, чтобы кластеризовать не размерные переменные, абсолютные или относительные частоты или Z-вклады, а знания. Предложения 1-3 являются непосредственными ответами на сформулированные выше фундаментальные вопросы кластерного анализа.

Остановимся подробнее на математическом и алгоритмическом описании этих предложений и затем проиллюстрируем их на простом и наглядном численном примере.

Основная идея. Вспомним приведенный выше пример кластеризации моделей автомобилей, в котором четыре или два цилиндра в двигателе давали такой вклад в сходство-различие моделей, как четыре или два болта, которыми прикручивается регистрационный номер. Из этого примера ясно, что при сравнении объектов и кластеров основную роль должно играть не само количество разных деталей или элементов конструкции, а, например, их влияние на стоимость модели, выраженное в долларах или на степень ее пригодности (полезности) для поставленной цели, тоже выраженное в одних и тех же для всех переменных и их значений единицах измерения. В АСК-анализе предлагается более радикальное решение: измерять степень и направление влияния всех переменных и их значений на поведение объекта или принадлежность его к тому или иному классу или кластеру в одних и тех же универсальных единицах измерения, а именно единицах измерения количества информации. Ведь по сути, когда мы узнаем о том, что некий объект обладает определенным признаком, то мы получаем из этого факта некое количество информации о том, что принадлежит к определенной категории (классу, кластеру). А уж сами эти категории могут иметь совершенно различный смысл, в частности классифицировать текущие или будущие состояния объектов, или степень их полезности для достижения тех или иных целей. И что очень важно, при этом не играет абсолютно никакой роли в каких единицах измерения в какой шкале, количественной или качественной, изначально измерялся этот признак: килограммах, долларах, Омах, джоулях, или еще каких-то других.

Предложение 1. В этом смысле в АСК-анализе исчезает существенное различие между классом и кластером и эти термины можно использовать как синонимы. Классы в АСК-анализе могут быть различаться степенью обобщенности: чем больше объектов в классе и чем выше вариабельность этих объектов по их признакам, тем шире представляемая ими генеральная совокупность, по отношению к которой они представляют собой репрезентативную выборку, тем выше степень обобщения в объединяющем их классе. Классы включают один или насколько объектов. Наименьшей степенью обобщения обладают классы, включающие лишь один объект, но и они совершенно не тождественны объекту исходной выборки, т.к. в математической мидели АСК-анализа у них совершенно различные математические формы представления. Кластеры обычно являются классами более высокой степени обобщения, т.к. включают один или несколько классов.

Как реализуется базовая когнитивная операция АСК-анализа «Обобщение», «Синтез», «Индукция» (БКОСА-3) будет рассмотрено ниже при кратком изложении математической модели АСК-анализа.

Предложения 2 и 3 необходимо рассматривать в комплексе, т.к. их смысл в том, что объект при когнитивной кластеризации имеет другую математическую форму, чем объект в исходных данных, а именно такую же форму, как класс и как кластер, т.е. в АСК-анализе возможны классы и кластеры, включающие как один, так и много объектов. При этом для формирования класса состоящего из одного объекта, т.е. при добавлении в пустой кластер первого объекта, используется та же самая математическая процедура, что и при добавлении в него второго и вообще любого нового объекта (в АСК-анализе она называется БКОСА-3), и эта же самая процедура БКОСА-3 используется и при объединении классов или кластеров. При этом само объединение классов (кластеров) осуществляется путем создания «с нуля» нового класса (кластера) из всех объектов, входящих в объединяемые классы (кластеры), а затем удаления исходных классов (кластеров). Новый объединенный класс (кластер) создается «с нуля» тем же самым методом (БКОСА-3), каким впервые создается любой новый класс (кластер). Теперь рассмотрим, как же это реализовано математически и алгоритмически.

Математическая модель АСК-анализа.

Математическая модель, которая стала основой модели АСК-анализа [16], была разработана автором в 1979 году [12], впервые опубликована в 1993 году [17], а затем и в последующих статьях и монографиях [9, 18, 19, 20], основной из которых является [9], а также в учебных пособиях [10, 11]. Поскольку эта модель описана во многих статьях и монографиях, в данной статье мы лишь кратко изложим ее суть.

В качестве формальной модели классов и признаков используются соответственно классификационные и описательные шкалы и градации.

Класс формализуется в виде градации классификационной шкалы. Если шкала числовая, то градации шкал представляют собой интервальные значения (числовые интервалы или диапазоны), если же признак качественный, то градация шкалы представляет собой просто уникальное текстовое наименование. Числовым интервалам также присваиваются текстовые наименования.

Признак формализуются в виде шкалы, а значения признака в виде градаций шкалы. Если признак количественный (числовой), то градации шкал представляют собой интервальные значения (числовые интервалы или диапазоны), если же признак качественный, то градация шкалы представляет собой просто уникальное текстовое наименование. Числовым интервалам также присваиваются текстовые наименования.

Математически и классификационные, и описательные шкалы представляются в форме векторов, а градации - в форме значений координат этих векторов, которые могут принимать значения n, где n={0, 1, 2, 3…}, т.е. 0 и натуральные числа.

Описание объекта исходной выборки формализуется в виде вектора, координаты которого имеют значение n, если соответствующий признак встречается n раз, в т.ч. 0, если признак отсутствует у объекта.

Например, признак: буква «м» присутствует в объекте: слово «молоко» 1 раз, поэтому значение соответствующего ему элемента вектора этого объекта будет равно 1, признак: буква «о» присутствует в объекте: слово «молоко» 3 раза, поэтому значение соответствующего ему элемента вектора этого объекта будет равно 3, а признак буква «ы» отсутствует у этого объекта, поэтому значение соответствующего этому признаку элемента вектора будет равно 0. При программной реализации классификационные и описательные шкалы и градации представляют собой справочники классов и признаков.

С использованием формального описания всех объектов исходной выборки рассчитывается таблица сопряженности классов и признаков, которая в АСК-анализе называется «матрица абсолютных частот» [21] (таблица 2).

Таблица 2 МАТРИЦА АБСОЛЮТНЫХ ЧАСТОТ

Классы

Сумма

1

...

j

...

W

Значения факторов

1

...

i

...

M

Суммарное количество признаков

Суммарное количество объектов обучающей выборки

N

Алгоритм формирования матрицы абсолютных частот.

Объекты обучающей выборки описываются векторами (массивами) имеющихся у них признаков:

Первоначально в матрице абсолютных частот все значения равны нулю. Затем организуется цикл по объектам обучающей выборки. Если предъявленного объекта относящегося к j-му классу есть i-й признак, то:

Отметим, что уже при расчете матрицы абсолютных частот закладываются основы для решения проблем 4 и 5. Способ формирования матрицы абсолютных частот можно рассматривать как многоканальную систему выделения полезного сигнала из шума. Представим себе, что все объекты, предъявляемые для формирования обобщенного образа некоторого класса в действительности являются различными реализациями одного объекта - "Эйдоса" (в смысле Платона), по-разному зашумленного различными случайными обстоятельствами (по-разному, т.к. это шум). И наша задача состоит в том, чтобы подавить этот шум и выделить из него то общее и существенное, что отличает объекты данного класса от объектов других классов. Учитывая, что шум чаще всего является "белым" и имеет свойство при суммировании с самим собой стремиться к нулю, а сигнал при этом наоборот возрастает пропорционально количеству слагаемых, то увеличение объема обучающей выборки (в случае если сигнал эргодичный, т.е. закономерности в предметной области не меняются) приводит ко все лучшему отношению сигнал/шум в матрице абсолютных частот, т.е. к выделению полезной информации из шума. Примерно так мы начинаем постепенно понимать смысл фразы, которую мы сразу не расслышали по телефону и несколько раз переспрашивали. При этом в повторах шум не позволяет понять то одну, то другую часть фразы, но в конце-концов за счет использования памяти и интеллектуальной обработки информации мы понимаем ее всю. Так и объекты, описанные признаками, можно рассматривать как зашумленные фразы, несущие нам информацию об обобщенных образах классов: "Эйдосах" [22], к которым они относятся. И эту информацию мы выделяем из шума при синтезе модели.

Различные аналитические формы частных критериев в матрицах знаний и неметрических интегральных критериев при определении информационных расстояний.

Непосредственно на основе матрицы абсолютных частот (таблиц 2) рассчитывается матрица знаний (таблица 4). При этом используются различные выражения для количества знаний (таблица 3), которое в последующем, при решении задач идентификации, прогнозирования, принятия решений и исследования предметной области используются как частные критерии в неметрических интегральных критериях,

Таблица 3 Различные аналитические формы частных критериев в матрицах знаний и неметрических интегральных критериев при определении информационных расстояний

Наименование модели знаний

и частный критерий

Выражение для частного критерия

Через относительные частоты

Через абсолютные частоты

СИМ-1, частный критерий: количество знаний по А.Харкевичу-Е.Луценко, 1-й вариант расчета вероятностей: Nj - суммарное количество признаков по j-му классу (предпоследняя строка таблицы 2)

СИМ-2, частный критерий: количество знаний по А.Харкевичу-Е.Луценко, 2-й вариант расчета вероятностей: Nj - суммарное количество объектов по j-му классу (последняя строка таблицы 2)

СИМ-3, частный критерий: разности между фактическими и теоретически ожидаемыми по критерию хи-квдрат абсолютными частотами

---

СИМ-4, частный критерий: ROI - Return On Investment

СИМ-5, частный критерий: разность условной и безусловной вероятностей

где:

Александр Александрович Харкевич

упрощеннее выражение для нормировочного коэффициента, переводящего количество информации в биты [21], предложенного в работе [17], обоснованного в [9] и названного автором коэффициентом эмерджентности А.А.Харкевича в честь этого выдающегося советского ученого, внесшего огромный в клад в создание семантической теории информации и фактически предложившего количественную меру знаний, директора Института проблем передачи информации АН СССР академика АН СССР.

Среднеквадратичное отклонение количества знаний во всех значениях факторов о переходе объекта в j-е состояние от среднего количества знаний об этом в этих значениях

Среднее количество знаний во всех значениях факторов о переходе объекта в j-е состояние

Среднеквадратичное отклонение значений вектора описания объекта от среднего этих значений

Среднее значений вектора описания объекта

В таблице 3 использованы обозначения:

Nij - суммарное количество наблюдений в исследуемой выборке факта: "действовало i-е значение фактора и объект перешел в j-е состояние";

Nj - суммарное количество встреч различных значений факторов у объектов, перешедших в j-е состояние;

Ni - суммарное количество встреч i-го значения фактора у всех объектов исследуемой выборки;

N - суммарное количество встреч различных значений факторов у всех объектов исследуемой выборки.

Pij - условная вероятность перехода объекта в j-е состояние при условии действия на него i-го значения фактора;

Pj - безусловная вероятность перехода объекта в j-е состояние (вероятность самопроизвольного перехода или вероятность перехода, посчитанная по всей выборке, т.е. при действии любого значения фактора).

Pi - безусловная вероятность встречи i-го значения фактора или вероятность его встречи по всей выборке.

Таблица 4 Матрица знаний

Классы

Значимость фактора

1

...

j

...

W

Значения факторов

1

...

i

...

M

Степень редукции класса

1

j

W

Здесь - это среднее количество знаний в i-м значении фактора:

Количественные значения коэффициентов Iij таблицы 4 являются знаниями о том, что "объект перейдет в j-е состояние" если "на объект действует i-е значение фактора".

Утверждение о том, что это именно знания, а не данные или информация (или что-либо еще), требует специального серьезного обоснования, которое дано автором в работах [8, 9] и ряде других работ, начиная с [17] и здесь не приводится в связи с доступностью этих работ в Internet и достаточно большого объема этого обоснования.

Принципиально важно, что эти весовые коэффициенты не определяются экспертами на основе опыта интуитивным неформализуемым способом, а рассчитываются непосредственно на основе эмпирических данных на основе теоретически обоснованных моделей, хорошо зарекомендовавших себя на практике при решении широкого круга задач в различных предметных областях.

Когда количество информации Iij>0 - i-й фактор способствует переходу объекта управления в j-е состояние, когда Iij<0 - препятствует этому переходу, когда же Iij=0 - никак не влияет на это. В векторе i-го фактора (строка матрицы информативностей) отображается, какое количество информации о переходе объекта управления в каждое из будущих состояний содержится в том факте, что данный фактор действует. В векторе j-го состояния класса (столбец матрицы информативностей) отображается, какое количество информации о переходе объекта управления в соответствующее состояние содержится в каждом из факторов.

Таким образом, матрица информативностей (таблица 4) является обобщенной таблицей решений, в которой входы (факторы) и выходы (будущие состояния объекта управления) связаны друг с другом не с помощью классических (Аристотелевских) импликаций, принимающих только значения: "Истина" и "Ложь", а различными значениями истинности, выраженными в битах и принимающими значения от положительного теоретически-максимально-возможного ("Максимальная степень истинности"), до теоретически неограниченного отрицательного ("Степень ложности").

Фактически предложенная модель позволяет осуществить синтез обобщенных таблиц решений для различных предметных областей непосредственно на основе эмпирических исходных данных и продуцировать на их основе прямые и обратные правдоподобные (нечеткие) логические рассуждения по неклассическим схемам с различными расчетными значениями истинности, являющимся обобщением классических импликаций.

Таким образом, данная модель позволяет рассчитать какое количество знаний содержится в любом факте о наступлении любого события в любой предметной области, причем для этого не требуется повторности этих фактов и событий. Если же эти повторности осуществляются и при этом наблюдается некоторая вариабельность значений факторов, обуславливающих наступление тех или иных событий, то модель обеспечивает многопараметрическую типизацию, т.е. синтез обобщенных образов классов или категорий наступающих событий с количественной оценкой степени и знака влияния на их наступление различных значений факторов. Причем эти значения факторов могут быть как количественными, так и качественными и измеряться в любых единицах измерения, в любом случае в модели оценивается количество знаний которое в них содержится о наступлении событий, переходе объекта управления в определенные состояния или просто о его принадлежности к тем или иным классам.

Все эти модели (представленные в таблице 3) можно считать различными вариациями одной базовой модели знаний, в которой мерой связи между признаком и классом является отношение условной вероятности наблюдения признака у объектов класса к безусловной вероятности его наблюдения по всей выборке, так как отличаются они только способами нормировки частных критериев к нулю при отсутствии причинно-следственной связи между значением фактора и поведением объекта управления или его принадлежностью к тому или иному классу. Все эти модели (кроме СИМ-5) поддерживаются новой версией системой "Эйдос".

...

Подобные документы

  • Создание комбинированных моделей и методов как современный способ прогнозирования. Модель на основе ARIMA для описания стационарных и нестационарных временных рядов при решении задач кластеризации. Модели авторегрессии AR и применение коррелограмм.

    презентация [460,1 K], добавлен 01.05.2015

  • Цели сегментации рынка в маркетинговой деятельности. Сущность кластерного анализа, основные этапы его выполнения. Выбор способа измерения расстояния или меры сходства. Иерархические, неиерархические методы кластеризации. Оценка надежности и достоверности.

    доклад [214,7 K], добавлен 02.11.2009

  • Основные показатели финансового состояния предприятия. Кризис на предприятии, его причины, виды и последствия. Современные методы и инструментальные средства кластерного анализа, особенности их использования для финансово-экономической оценки предприятия.

    дипломная работа [1,4 M], добавлен 09.10.2013

  • Математическое моделирование. Сущность экономического анализа. Математические методы в экономическом анализе. Теория массового обслуживания. Задача планирования работы предприятия, надежности изделий, распределения ресурсов, ценообразования.

    контрольная работа [24,9 K], добавлен 20.12.2002

  • Изучение математической теории, развивающей формальные методы для исследования взаимосвязей и отношений состояний знаний субъектов в определенной предметной области. Понятие карты навыков. Рассмотрение отношений между состояниями знаний и навыками.

    дипломная работа [263,5 K], добавлен 12.10.2015

  • Многомерный статистический анализ. Математические методы построения оптимальных планов сбора, систематизации и обработки данных. Геометрическая структура многомерных наблюдений. Проверка значимости уравнения регрессии. Кластерный и факторный анализ.

    курсовая работа [2,6 M], добавлен 10.03.2011

  • Метод имитационного моделирования, его виды, основные этапы и особенности: статическое и динамическое представление моделируемой системы. Исследование практики использования методов имитационного моделирования в анализе экономических процессов и задач.

    курсовая работа [54,3 K], добавлен 26.10.2014

  • Построение типологических регрессий по отдельным группам наблюдений. Пространственные данные и временная информация. Сферы применения кластерного анализа. Понятие однородности объектов, свойства матрицы расстояний. Проведение типологической регрессии.

    презентация [322,6 K], добавлен 26.10.2013

  • На основе экстраполяции значений прогнозирующей функции осуществить прогноз выпуска продукции на квартал следующего года . Коэффициент простоя системы, среднее число клиентов в системе, среднюю длину очереди, среднее время пребывания клиента в системе.

    контрольная работа [93,3 K], добавлен 11.04.2007

  • Синтетический метод в прикладном системном анализе. Предпосылка синтеза системы с оптимальным распределением руководящих (координирующих) функций. Показатели центральности и периферийности. Целочисленное программирование. Учёт факторов неопределённости.

    презентация [421,7 K], добавлен 19.12.2013

  • Анализ чувствительности производственной программы предприятия к изменению уровня запасов сырья. Элементы теории графов. Алгоритм для нахождения пути с правильной нумерацией вершин. Транспортная задача, метод минимального элемента и северо-западного угла.

    курсовая работа [986,8 K], добавлен 31.05.2013

  • Линейное программирование. Геометрическая интерпретация и графический метод решения ЗЛП. Симплексный метод решения ЗЛП. Метод искусственного базиса. Алгоритм метода минимального элемента. Алгоритм метода потенциалов. Метод Гомори. Алгоритм метода Фогеля.

    реферат [109,3 K], добавлен 03.02.2009

  • Задачи операционного исследования. Построение базовой аналитической модели. Описание вычислительной процедуры. Решение задачи оптимизации на основе технологии симплекс-метода. Анализ результатов базовой аналитической модели и предложения по модификации.

    курсовая работа [1,5 M], добавлен 12.12.2009

  • Основы математического моделирования детерминированных и стохастических объектов. Идентификация объектов управления по переходной характеристике. Получение модели методом множественной линейной регрессии и проверка ее адекватности по критерию Фишера.

    курсовая работа [1,1 M], добавлен 14.10.2014

  • Математическая постановка и алгоритм решения транспортной задачи. Сбалансированность и опорное решение задачи. Методы потенциалов и северо-западного угла. Блок-схема. Формы входной и выходной информации. Инструкция для пользователя и программиста.

    курсовая работа [113,8 K], добавлен 10.11.2008

  • Проблема использования индексного анализа динамики средних цен в экономической практике; учет влияния фактора сменяемости изучаемых величин. Методологические принципы исчисления индексов стоимости, средних цен и физического объема внешней торговли.

    контрольная работа [1,6 M], добавлен 18.08.2013

  • Связь стохастических процессов и дифференциальных уравнений. Алгоритм Бюффона для определения числа Пи. Геометрический алгоритм Монте-Карло интегрирования. Применение метода Монте-Карло в логистике. Алгоритм Метрополиса, квантовый метод Монте-Карло.

    курсовая работа [258,0 K], добавлен 26.12.2013

  • Выполнение кластерного анализа предприятий с помощью программы Statgraphics Plus. Построение линейного уравнения регрессии. Расчет коэффициентов эластичности по регрессионным моделям. Оценка статистической значимости уравнения и коэффициента детерминации.

    задача [1,7 M], добавлен 16.03.2014

  • Графический метод решения задачи оптимизации производственных процессов. Применение симплекс-алгоритма для решения экономической оптимизированной задачи управления производством. Метод динамического программирования для выбора оптимального профиля пути.

    контрольная работа [158,7 K], добавлен 15.10.2010

  • Определение парных коэффициентов корреляции и на их основе факторов, оказывающих наибольшее влияние на результативный показатель. Анализ множественных коэффициентов корреляции и детерминации. Оценка качества модели на основе t-статистики Стьюдента.

    лабораторная работа [890,1 K], добавлен 06.12.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.