Метризация измерительных шкал различных типов и совместная сопоставимая количественная обработка разнородных факторов в системно-когнитивном анализе и системе "Эйдос"

Рассмотрение измерительных шкал, как инструмента создания формальных моделей реальных объектов и инструмента повышения степени формализации этих моделей до уровня, достаточного для их реализации на компьютерах. Обзор способов метризации всех типов шкал.

Рубрика Экономико-математическое моделирование
Вид статья
Язык русский
Дата добавления 12.05.2017
Размер файла 632,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

1

Размещено на http://www.allbest.ru/

МЕТРИЗАЦИЯ ИЗМЕРИТЕЛЬНЫХ ШКАЛ РАЗЛИЧНЫХ ТИПОВ И СОВМЕСТНАЯ СОПОСТАВИМАЯ КОЛИЧЕСТВЕННАЯ ОБРАБОТКА РАЗНОРОДНЫХ ФАКТОРОВ В СИСТЕМНО-КОГНИТИВНОМ АНАЛИЗЕ И СИСТЕМЕ «ЭЙДОС»

Луценко Евгений Вениаминович

Измерительные шкалы рассматриваются как инструмент создания формальных моделей реальных объектов и инструмент повышения степени формализации этих моделей до уровня, достаточного для их реализации на компьютерах.

Различные подходы к классификации измерительных шкал, отраженны в работах [1, 2, 3]. Наиболее строго математически обоснованным являемся подход, предложенный проф. А.И.Орловым в работе [1]. В этой работе описываются различные типы измерительных шкал, позволяющие создавать модели различной степени формализации (таблица 1):

Таблица 1. Основные шкалы измерения по проф. А.И.Орлову [1].

Тип шкалы

Определение шкалы

Примеры

Группа допустимых преобразований

Шкалы качественных признаков

Наименований

Числа используют для различения объектов

Номера телефонов, паспортов, ИНН, штрих-коды

Все взаимно-однозначные преобразования

Порядковая (ранговая)

Числа используют для упорядочения объектов

Оценки экспертов, баллы ветров, отметки в школе, полезность, номера домов

Все строго возрастающие преобразования

Шкалы количественных признаков (описываются началом отсчета и единицей измерения)

Интервалов

Начало отсчета и единица измерения произвольны

Потенциальная энергия, положение точки, температура по шкалам Цельсия и Фаренгейта

Все линейные преобразования ц(x) = ax + b,

a и b произвольны, а>0

Отношений

Начало отсчета задано, единица измерения произвольна

Масса, длина, мощность, напряжение, сопротивление, температура по Кельвину, цены

Все подобные преобразования ц(x) = ax,

а произвольно, а>0

Разностей

Начало отсчета произвольно, единица измерения задана

Время

Все преобразования сдвига ц(x) = x + b,

b произвольно

Абсолютная

Начало отсчета и единица измерения заданы

Число людей в данном помещении

Только тождественное преобразование ц(x) = x

С данными эмпирических измерений, полученными с помощью измерительной шкалы определенного типа, корректно могут быть проведены лишь вполне определенные математические преобразования, допустимые в данной шкале, тогда как другие преобразования над ними являются некорректными и, строго говоря, бессмысленными.

На практике это часто не осознается, особенно руководством, или осознается, но недостаточно четко и на это попросту «закрывают глаза».

Например, оценки в школе или вузе представляют собой порядковые оценки уровня знаний и, хотя внешне выглядят точно как числа, фактически числами не являются. Это наглядно демонстрируется тем, что, не смотря на то, что 2+3=5 суммарные знания двоечника и троечника не равны знаниям отличника. Тем более некорректно вычислять некие средние баллы аттестатов или полученные учащимися факультета по результатам государственных экзаменов или защиты дипломных проектов, но это всегда делается.

В таблице 1 шкалы приведены в порядке повышения степени формализации моделей, создаваемых с их использованием.

Спрашивается, а зачем повышать степень формализации модели? Дело в том, что чем выше степень формализации модели, тем более развитые и точные математические методы могут быть применены в этих моделях и тем точнее решаются различные задачи в реальной области Прежде всего это задачи идентификации, прогнозирования и принятия решений. с использованием этих моделей, в частности тем проще использовать эти модели при проектировании и создании искусственных систем (таблица 2):

Таблица 2. Основные измерительные шкалы и возможные математические операции с их градациями

Степень форма- лизации шкалы

Тип шкалы

Определение шкалы

Примеры

Допустимые математические операции

1

Наименований (номинальная)

Числа используют для различения объектов, т.е. в качестве кодов

Номера телефонов, паспортов, ИНН, штрих-коды

Наличие или отсутствие тождества, эквивалентности

2

Порядковая (ранговая)

Числа используют для упорядочения объектов

Оценки экспертов, баллы ветров, отметки в школе, полезность, номера домов

Отношения больше, меньше

3

Интервалов

Начало отсчета и единица измерения произвольны

Потенциальная энергия, положение точки, температура по шкалам Цельсия и Фаренгейта

Сложение и вычитание

4

Разностей

Начало отсчета произвольно, единица измерения задана

Время

Сложение и вычитание

5

Отношений

Начало отсчета задано, единица измерения произвольна

Масса, длина, мощность, напряжение, сопротивление, температура по Кельвину, цены

Сложение и вычитание, умножение и деление

6

Абсолютная

Начало отсчета и единица измерения заданы

Число людей в данном помещении

Сложение и вычитание, умножение и деление

Из этого ясно, что при эмпирических исследованиях:

- необходимо четко отдавать себе отчет о том, какого типа измерительные шкалы в нем используются;

- надо стремиться к использованию измерительных шкал наиболее высокой степени формализации.

Но раз так, то почему же тогда абсолютные шкалы или хотя бы шкалы отношений не применяются всегда, а в ряде случаев на практике используются номинальные, порядковые и интервальные шкалы, а также шкала разностей, имеющие ограничения на возможные математические операции с эмпирическими данными, полученными с помощью этих шкал? Иногда этого и не требуется по условиям задачи, но чаще всего просто потому, что отсутствуют Или где-то существуют, но на практике исследователям недоступны соответствующие измерительные системы Т.е. измерительные инструменты, методики и технологии, включая датчики измерений, каналы связи между датчиками и системой обработки, а также методы математической обработки с необходимыми для этого возможностями, т.е. способные сразу, т.е. непосредственно в процессе измерений, представить измеряемые величины в абсолютной шкале или шкале отношений.

Но оказывается это возможно сделать и после завершения самого процесса измерения, т.е. уже после прекращения контакта измерительной системы с измеряемым объектом. Иначе говоря, возможно провести такую математическую обработку данных, полученных в результате измерений с помощью измерительной шкалы определенной степени формализации, которая бы повысила эту степень формализации.

Из таблиц 1 и 2 видно, что для этого необходимо обоснованно ввести на исходной шкале отношения порядка по степени выраженности свойства, измеряемого шкалой, начало отсчета и единицу измерения. Эта идея, по-видимому, впервые была четко сформулирована в 1958 году датским математиком Г. Рашем (Georg Rasch) [2] См. так называемую «Модель Раша». и им же была поставлена и решена соответствующая «задача метризации шкал», т.е. задача преобразования шкалы к наиболее формализованному виду. Это название связано с понятием метрики, под которой в физике понимается способ измерения расстояний между градациями (значениями) шкалы. Иначе говоря, метризация шкалы проводится с целью повышения степени ее формализации и осуществляется путем ввода метрики, т.е. единицы измерения на этой шкале. В современном понимании метризация шкалы предполагает не только введение единицы измерения, но также и отношений порядка и начала отсчета на ней.

Модель Г.Раша математически тесно связана с моделью логитов, предложенной в 1944 году Джозефом Берксоном (Joseph Berkson) http://www.machinelearning.ru/wiki/index.php?title=Функция%20Логит и здесь мы ее не приводим, т.к. она подробно описана в литературе. Модель Г.Раша (с учетом ее модификаций) является чуть ли не единственной широко известной в настоящее время моделью метризации измерительных шкал.

Однако в системно-когнитивном анализе (СК-анализ) и его программном инструментарии: интеллектуальной системе «Эйдос» [4] предлагается еще 7 способов метризации всех типов шкал даже шкалы отношений и абсолютной шкалы, обеспечивающих, кроме того еще и корректную совместную сопоставимую количественную обработку разнородных по своей природе факторов физических, социальных и субъективных, и в каждой из этих групп факторов есть много различных видов факторов, измеряемых в различных единицах измерения.

В СК-анализе факторы формально описываются шкалами, а значения факторов - градациями шкал. Существует три основных группы факторов: физические, социально-экономические и психологические (субъективные) и в каждой из этих групп есть много различных видов факторов, т.е. есть много различных физических факторов, много социально-экономических и много психологических, но в СК-анализе все они рассматриваются с одной единственной точки зрения: сколько информации содержится в их значениях о переходе объекта, на который они действуют, в определенное состояние, и при этом сила и направление влияния всех значений факторов на объект измеряется в одних общих для всех факторов единицах измерения: единицах количества информации. Именно по этой причине вполне корректно складывать силу и направление влияния всех действующих на объект значений факторов, независимо от их природы, и определять результат совместного влияния на объект системы значений факторов. При этом в общем случае объект является нелинейным и факторы внутри него взаимодействуют друг с другом, т.е. для них не выполняется принцип суперпозиции [5].

Если же разные факторы измеряются в различных единицах измерения, то результаты сравнения объектов будут зависеть от этих единиц измерения, что совершенно недопустимо из теоретических соображений.

Представим себе, что мы сравниваем студентов по их росту и весу, причем рост выражен в сантиметрах, а вес в килограммах (таблица 3):

Таблица 3. Сравнение студентов по их росту и весу, измеряемым в их обычных единицах измерения

1-й студент

2-й студент

3-й студент

Сумма

Рост (см)

178

173

173

351

Вес (кг)

75

65

75

140

Сумма

253

238

248

491

Для сравнения студентов мы просто складываем рост и вес для каждого студента, и потом сравниваем эти числа, например, находим модуль их разности: |253-238|=15 и считаем, что она отражает сходство-различие студентов по этим параметрам. Проверим корректность этого метода путем сравнения 3-го студента с ростом как у 2-го студента 173 сантиметра и весом как 1-го студента 75 килограммов. Спрашивается, на какого студента он больше похож: на 1-го или 2-го? Очевидно, что он должен иметь одинаковое сходство и различие с обоими этими студентами, т.к. у него в равной степени представлены признаки их обоих. Однако, для 3-го студента сумма роста и веса равна: 173+75=248 и его отличие от 1-го составляет |253-248}=5, а от 2-го: |238-248|=10, т.е. получается, что третий студент в отличатся от 2-го больше, чем от 1-го. Этот результат является некорректным и связан с тем, что рост 1-го и 2-го студентов отличается на 5 сантиметров, а вес на 10 килограммов. Конечно, сложение и вычитание величин, измеряемых в разных единицах измерения, некорректно само по себе. Но особенно хорошо это заметно, когда мы меняем единицы измерения. Так если рост измерять не в сантиметрах, а в миллиметрах, то его числовое выражение возрастет в 10 раз как и его влияние на сходство-различие студентов, а роль веса при этом сравнении соответственно снизится. И наоборот, если рост оставить в сантиметрах, а вес начать измерять не в килограммах, а в граммах, то тогда сходство-различие студентов в основном будет определять уже их вес, т.к. его количественное выражение и влияние на результаты сравнения возрастет в 1000 раз.

В СК-анализе и системе предложено кардинальное решение проблем сравнения объектов, описанных в измерительных шкалах различных типов и размерностей [6]. Продолжим пример со студентами. В соответствии с методологией СК-анализа и методикой применения системы «Эйдос» для сравнения студентов используем не их рост и вес в обычных единицах измерения, а количество информации о том, что перед нами тот или иной студент, которое содержится в его росте и весе. Можно сравнить 3-го студента с первыми двумя по суммарному количеству информации в его признаках о сходстве с 1-м и 2-м студентами. Это будет вполне корректно и результат такого сравнения вообще не будет зависеть от исходных единиц измерения роста и веса, т.е. будет инвариантным относительно единиц измерения исходных признаков, как и должно быть.

Рассмотрим численный пример, демонстрирующий, что выбор единиц измерения никак не влияет на модель и результат сравнения с ее применением.

Таблица 4. Исходные данные

Источник данных

Классификационная шкала

Описательные шкалы

Студент

Рост (см)

Вес (кг)

1-й студент

1-й

178

75

2-й студент

2-й

173

65

С помощью программного интерфейса системы «Эйдос-Х++» (рисунок 1) данные из таблицы 4 вводятся в систему.

измерительный шкала компьютер метризация

Рисунок 1. Начальная экранная форма программного интерфейса системы «Эйдос-Х++» с внешними базами данных

В первой экранной форме задается диапазон столбцов таблицы исходных данных 4 классификационными шкалами и диапазон столбцов с описательными шкалами. В экранной форме, представленной на рисунке 2, задается количество интервалов в числовых классификационных и описательных шкалах, если они есть.

Рисунок 2. Вторая экранная форма программного интерфейса системы «Эйдос-Х++» с внешними базами данных

В текущей версии системы «Эйдос-Х++» суммарное количество классификационных и описательных шкал не должно превышать 1500, а суммарное количество градаций в них ограничено только размерами дисковой памяти Проводились численные эксперименты до 100000 градаций классификационных шкал и 100000 градаций описательных шкал. Программный интерфейс испытывался на вводе в систему «Эйдос-Х++» данных и Excel-файла с 880000 строк, это заняло 7 минут..

При этом программным интерфейсом создаются справочники классификационных и описательных шкал и градаций и с их использованием кодируются исходные данные и формируется обучающая выборка (таблицы 5, 6, 7):

Таблица 5. Справочники классификационных шкал и градаций

Код класса

Наименование класса

1

СТУДЕНТ-1-й

2

СТУДЕНТ-2-й

Классы представляют собой градации классификационных шкал.

Таблица 6. Справочники описательных шкал и градаций

Код признака

Наименование признака

1

РОСТ (СМ)-1/2-{173.0000000, 175.5000000}

2

РОСТ (СМ)-2/2-{175.5000000, 178.0000000}

3

ВЕС (КГ)-1/2-{65.0000000, 70.0000000}

4

ВЕС (КГ)-2/2-{70.0000000, 75.0000000}

Признаки представляют собой градации описательных шкал.

Таблица 7. Обучающая выборка

Код объекта

Наименование объекта

Классы

Признаки

CLS1

ATR1

ATR2

1

1-й студент

1

2

4

2

2-й студент

2

1

3

В результате синтеза и верификации моделей в режиме 3.5 системы «Эйдос-Х++» создаются матрица абсолютных частот (таблица 8) и матрица информативностей (таблица 9):

Таблица 8. Матрица абсолютных частот

Код признака

Наименование описательной шкалы и градации

Классы

1-й студент

2-й студент

1

РОСТ (СМ)-1/2-{173.0000000, 175.5000000}

0

1

2

РОСТ (СМ)-2/2-{175.5000000, 178.0000000}

1

0

3

ВЕС (КГ)-1/2-{65.0000000, 70.0000000}

0

1

4

ВЕС (КГ)-2/2-{70.0000000, 75.0000000}

1

0

Таблица 9. Матрица информативностей

Код признака

Наименование описательной шкалы и градации

Классы

1-й студент

2-й студент

1

РОСТ (СМ)-1/2-{173.0000000, 175.5000000}

0, 0000000

0, 5000000

2

РОСТ (СМ)-2/2-{175.5000000, 178.0000000}

0, 5000000

0, 0000000

3

ВЕС (КГ)-1/2-{65.0000000, 70.0000000}

0, 0000000

0, 5000000

4

ВЕС (КГ)-2/2-{70.0000000, 75.0000000}

0, 5000000

0, 0000000

Из таблицы 9 видно, что каждому интервальному значению роста и веса соответствует 0.5 бит информации о принадлежности студента с этим признаком к тому или иному классу. Ясно, что если в таблицах 6, 8 и 9 одинаково переставить десятичную запятую в интервальных значениях роста и веса, то коды в обучающей выборке (таблица 7), а значит и на абсолютные частоты их наблюдения по классам и количество информации, рассчитываемое на их основе, это никак не повлияет.

Рассмотрим этапы последовательного повышения степени формализации модели путем преобразования исходных данных в информацию, а ее в знания, применяемые в автоматизированном системно-когнитивном анализе и системе «Эйдос-Х++» [7] (рисунок 3).

Рисунок 3. Этапы последовательного повышения степени формализации модели путем преобразования исходных данных в информацию, а ее в знания, применяемые в автоматизированном системно-когнитивном анализе и системе «Эйдос-Х++»

Прежде всего, кратко рассмотрим соотношение содержания понятий: «данные», «информация» и «знания».

Данные - это информация, рассматриваемая безотносительно к ее смысловому содержанию, находящаяся на носителях или в каналах связи и представленная в определенной системе кодирования или на определенном языке (т.е. в формализованном виде).

Информация - это осмысленные данные. Смысл, семантика, содержание (согласно концепции смысла Шенка-Абельсона [4, 10]) - это знание причинно-следственных зависимостей.

Знания - это информация, полезная для достижения целей (рисунок 4).

Рисунок 4. Соотношение содержания понятий: «данные», «информация», «знания»

Знания могут быть представлены в различных формах, характеризующихся различной степенью формализации:

- вообще неформализованные знания, т.е. знания в своей собственной форме, ноу-хау (мышление без вербализации есть медитация);

- знания, формализованные на естественном вербальном языке;

- знания, формализованные в виде различных методик, схем, алгоритмов, планов, таблиц и отношений между ними;

- знания в форме технологий, организационных производственных, социально-экономических и политических структур;

- знания, формализованные в виде математических моделей и методов представления знаний в автоматизированных интеллектуальных системах (логическая, фреймовая, сетевая, продукционная, нейросетевая, нечеткая и другие).

Таким образом, для решения задачи метризации шкал в АСК-анализе необходимо осознанно и целенаправленно последовательно повышать степень формализации исходных данных до уровня, который позволяет ввести исходные данные в интеллектуальную систему, а затем:

- преобразовать исходные данные в информацию;

- преобразовать информацию в знания;

- использовать знания для решения задач прогнозирования, принятия решений и исследования предметной области.

Для этого в АСК-анализе предусмотрены следующие этапы [4]:

1. Когнитивная структуризация предметной области, при которой определяется, что мы хотим прогнозировать и на основе чего (конструирование классификационных и описательных шкал).

2. Формализация предметной области [8]:

- разработка градаций классификационных и описательных шкал (номинального, порядкового и числового типа);

- использование разработанных на предыдущих этапах классификационных и описательных шкал и градаций для формального описания (кодирования) исследуемой выборки.

3. Синтез и верификация (оценка степени адекватности) модели [9].

4. Если модель адекватна, то ее использование для решения задач идентификации, прогнозирования и принятия решений, а также для исследования моделируемой предметной области [4].

Для синтеза моделей в АСК-анализе в настоящее время используется 7 частных критериев знаний (таблица 10), а для верификации моделей 2 интегральных критерия:

Таблица 10. Частные критерии знаний, используемые в настоящее время в СК-анализе и системе «Эйдос-Х++»

Наименование модели знаний и частный критерий

Выражение для частного критерия

через относительные частоты

через абсолютные частоты

INF1, частный критерий: количество знаний по А.Харкевичу, 1-й вариант расчета относительных частот: Nj - суммарное количество признаков по j-му классу. Относительная частота того, что если у объекта j-го класса обнаружен признак, то это i-й признак

INF2, частный критерий: количество знаний по А.Харкевичу, 2-й вариант расчета относительных частот: Nj - суммарное количество объектов по j-му классу. Относительная частота того, что если предъявлен объект j-го класса, то у него будет обнаружен i-й признак.

INF3, частный критерий: Хи-квадрат: разности между фактическими и теоретически ожидаемыми абсолютными частотами

-

INF4, частный критерий: ROI - Return On Investment, 1-й вариант расчета относительных частот: Nj - суммарное количество признаков по j-му классу Применение предложено Л.О. Макаревич

INF5, частный критерий: ROI - Return On Investment, 2-й вариант расчета относительных частот: Nj - суммарное количество объектов по j-му классу

INF6, частный критерий: разность условной и безусловной относительных частот, 1-й вариант расчета относительных частот: Nj - суммарное количество признаков по j-му классу

INF7, частный критерий: разность условной и безусловной относительных частот, 2-й вариант расчета относительных частот: Nj - суммарное количество объектов по j-му классу

Обозначения:

i - значение прошлого параметра;

j - значение будущего параметра;

Nij - количество встреч j-го значения будущего параметра при i-м значении прошлого параметра;

M - суммарное число значений всех прошлых параметров;

W - суммарное число значений всех будущих параметров.

Ni - количество встреч i-м значения прошлого параметра по всей выборке;

Nj - количество встреч j-го значения будущего параметра по всей выборке;

N - количество встреч j-го значения будущего параметра при i-м значении прошлого параметра по всей выборке.

Iij - частный критерий знаний: количество знаний в факте наблюдения i-го значения прошлого параметра о том, что объект перейдет в состояние, соответствующее j-му значению будущего параметра;

Ш - нормировочный коэффициент (Е.В.Луценко, 2002), преобразующий количество информации в формуле А.Харкевича в биты и обеспечивающий для нее соблюдение принципа соответствия с формулой Р.Хартли;

Pi - безусловная относительная частота встречи i-го значения прошлого параметра в обучающей выборке;

Pij - условная относительная частота встречи i-го значения прошлого параметра при j-м значении будущего параметра.

Все эти способы метризации с применением 7 частных критериев знаний (таблица 10) реализованы в системно-когнитивном анализе и интеллектуальной системе «Эйдос» и обеспечивают сопоставление градациям всех видов шкал числовых значений, имеющих смысл количества информации в градации о принадлежности объекта к классу. Поэтому является корректным применение интегральных критериев, включающих операции умножения и суммирования, для обработки числовых значений, соответствующих градациям шкал. Это позволяет единообразно и сопоставимо обрабатывать эмпирические данные, полученные с помощью любых типов шкал, применяя при этом все математические операции [8].

Рассмотрим интегральные критерии знаний, используемые в настоящее время в СК-анализе и системе «Эйдос-Х++» для верификации моделей и решения задач идентификации и прогнозирования.

1-й интегральный критерий «Сумма знаний» представляет собой суммарное количество знаний, содержащееся в системе факторов различной природы, характеризующих сам объект управления, управляющие факторы и окружающую среду, о переходе объекта в будущие целевые или нежелательные состояния.

Интегральный критерий представляет собой аддитивную функцию от частных критериев знаний и имеет вид:

В выражении круглыми скобками обозначено скалярное произведение. В координатной форме это выражение имеет вид:

где: M - количество градаций описательных шкал (признаков);

- вектор состояния j-го класса;

- вектор состояния распознаваемого объекта, включающий все виды факторов, характеризующих сам объект, управляющие воздействия и окружающую среду (массив-локатор), т.е.:

В текущей версии системы «Эйдос-Х++» значения координат вектора состояния распознаваемого объекта принимались равными либо 0, если признака нет, или n, если он присутствует у объекта с интенсивностью n, т.е. представлен n раз (например, буква «о» в слове «молоко» представлена 3 раза, а буква «м» - один раз).

2-й интегральный критерий «Семантический резонанс знаний» представляет собой нормированное суммарное количество знаний, содержащееся в системе факторов различной природы, характеризующих сам объект управления, управляющие факторы и окружающую среду, о переходе объекта в будущие целевые или нежелательные состояния.

Интегральный критерий представляет собой аддитивную функцию от частных критериев знаний и имеет вид:

где:

M - количество градаций описательных шкал (признаков);

- средняя информативность по вектору класса;

- среднее по вектору объекта;

- среднеквадратичное отклонение частных критериев знаний вектора класса;

- среднеквадратичное отклонение по вектору распознаваемого объекта.

Приведенное выражение для интегрального критерия «Семантический резонанс знаний» получается непосредственно из выражения для критерия «Сумма знаний» после замены координат перемножаемых векторов их стандартизированными значениями:

Свое наименование интегральный критерий сходства «Семантический резонанс знаний» получил потому, что по своей математической форме является корреляцией двух векторов: состояния j-го класса и состояния распознаваемого объекта.

Таким образом, в АСК-анализе:

1. Рассматривается ряд объектов (фактов), представляющих в совокупности исследуемую выборку.

2. Каждый из объектов исследуемой выборки представляет собой систему, имеющую сложную многоуровневую структуру признаков (экстенсионально описание).

3. Для каждого из объектов исследуемой выборки известно, к каким обобщенным категориям (классам) он относится (интенсионально описание).

4. Необходимо сформировать модель, обеспечивающую идентификацию объектов по их признакам, т.е. определение их принадлежности к обобщенным классам.

Если признаки и классы относятся к одному времени, то имеет место задача идентификации (распознавания). Если же признаки (факторы, причины) относятся к прошлому, а классы, характеризующие состояния объектов, - к будущему, то это задача прогнозирования. Математически эти задачи не отличаются.

Совокупность экстенсионального и интенсинального описания каждого объекта обучающей выборки, по сути, представляет собой его определение через подведение под более общее понятие и выделение специфических признаков. Иначе говоря каждый объект обучающей выборки описывается принадлежностью к более общей категории (классу) и наличием у него ряда признаков. Например, так определяется понятие «млекопитающее»: это животное (более общее понятие), выкармливающее своих детей молоком (специфический признак). На основе ряда определений конкретных объектов путем их обобщения можно получить определения классов. Если привести в качестве примеров исследуемой выборки множество различных животных, как млекопитающих, так и других, каждый из таких примеров определить множеством признаков и построить модель, то окажется, что наиболее характерным признаком млекопитающих является не наличие шерсти или когтей, а именно вскармливание детенышей молоком.

Процедура преобразования исходных данных в информацию - это анализ данных, состоящий из трех шагов:

- разработка справочников фактов и событий;

- выявление в исходных данных фактов или событий и их кодирование;

- выявление причинно-следственных связей (зависимостей) между этими событиями.

Фактически для преобразования исходных данных в информацию необходимо:

1. Разработать классификационные и описательные шкалы и градации.

2. С использованием классификационных и описательных шкал и градаций закодировать исходные данные, в результате чего получится обучающая выборка, состоящая из фактов, представляющих собой примеры в единстве экстенсионального и интенсинального описания.

3. Произвести расчет матриц абсолютных частот, условных и безусловных процентных распределений и матрицы информативностей, отражающей причинно-следственные связи между значениями факторов и принадлежностью объектов к классам.

Таким образом, информация по задаче - это исходные данные плюс классификационные и описательные шкалы и градации, обучающая выборка, а также матрицы частот, процентных распределений и информативностей.

Процедура преобразования информации в знания - это оценка полезности информации для достижения цели.

Значит знания по задаче - это информация плюс цель и оценка степени полезности информации для достижения этой цели.

Знания получаются из информации, когда мы классифицируем будущие состояния объекта управления как желательные (целевые) и нежелательные.

Банк данных - это базы данных плюс система управления базами данных (СУБД) (стандартные термины). СУБД - это, по сути, система управления данными.

Информационный банк - это информационные базы плюс информационные системы (предлагается стандартизировать эти термины). Информационная система - это, по сути, система управления информацией.

Банк знаний - это базы знаний плюс интеллектуальные системы (стандартные термины). Интеллектуальная система - это, по сути, система управления знаниями.

Существует очевидная параллель между терминами и понятиями, связанными с данными, информацией и знаниями, наглядно представленная в таблице 11.

Таблица 11. Параллель между понятиями и терминами, касающимися данных, информации и знаний

Наполнение

Объект

Субъект

Система

Данные

База данных (БД)

Система управления базами данных (СУБД)

Банк данных=БД+СУБД

Информация

Информационная база (ИБ)

Информационная система (система управления информационными базами - СУИБ)

Информационный банк=ИБ+СУИБ

Знания

База знаний (БЗ)

Интеллектуальная система (система управления базами знаний - СУБЗ)

Банк знаний=БЗ+СУБЗ

Сформулируем требования к форме представления данных, информации и знаний, позволяющие оценить степень их пригодности для решения задач прогнозирования и принятия решений, а также исследования предметной области (например, кластерного анализа).

Прежде всего, результаты решения вышеперечисленных задач должны быть инвариантны относительно:

- единиц измерения градаций факторов (признаков);

- типов шкал, используемых для формализации классов и факторов (номинальные, порядковые и числовые);

- различных статистических характеристик исходной выборки: частотных распределений объектов по классам (обобщенным категориям), частотных распределений градаций факторов, различий в количестве признаков в описаниях объектов исследуемой выборки, различий в суммарном количестве признаков по классам.

Кроме того, форма представления должна обеспечивать решение вышеперечисленных задач с минимальными дополнительными затратами ручного труда, а это значит, что вся предварительная обработка должна быть максимально автоматизирована.

Эти требования можно рассматривать и как критерии выбора наиболее подходящей для решения вышеперечисленных задач формы представления данных, информации и знаний.

Рассмотрим влияние единиц измерения в исходной выборке на результаты решения задач прогнозирования и принятия решений, а также исследования предметной области (например, кластерного анализа).

Если в исходных данных какие-то значения выражены в больших единицах измерения, то их числовые значения будут малыми, и наоборот, если единицы измерения мелкие, то числовые значения - большие. Большие значения оказывают большее влияние на результаты математической обработки, чем малые, и это приводит к возникновению зависимости результатов решения задач идентификации, прогнозирования и принятия решений, а также кластерного анализа, от выбранных размерностей исходных данных, что, на взгляд автора, совершенно неприемлемо и указывает на то, что такое решение нельзя признать корректным и даже вообще решением. По этой же причине некорректно совместно обрабатывать сами исходные данные, представленные в различных единицах измерения (натуральных или ценовых), например, складывать расстояния, представленные в километрах и в метрах, а затем прибавлять к ним тонны и килограммы, а затем еще и безразмерные величины. Вроде это очевидно, но, как это ни удивительно, но как показывает опыт на практике это довольно часто делается, а потом еще на основе подобного «анализа» делаются и выводы. Очень странно, что обычно на это не обращают никакого внимания при использовании исходных данных, представленных в различных единицах измерения. Например, даже в таких популярных (причем, совершенно заслуженно) системах, как SPSS и Статистика, в подсистеме кластерного анализа приводятся примеры кластерного анализа над исходными данными, представленными в различных единицах измерения.

Для решения поставленной задачи в АСК-анализе проводится последовательное повышение степени формализации исходных данных до уровня, обеспечивающего их обработку на компьютере в программной системе. После выполнения когнитивной структуризации и формализации предметной области осуществляется синтез модели [7].

Пример метризованной номинальной шкалы, созданной при решении задачи из работы [7], приведен н рисунке 5:

Рисунок 5. Пример метризованной номинальной шкалы «Груз (количество и вид)»

Выводы

Отображение реальных объектов в формальных шкалах - это и есть измерение. Получается, что система «Эйдос» представляет собой средство для построения и применения измерительных инструментов в различных предметных областях, причем в ней реализованы разнообразные технологии метризации, позволяющие любые свойства объектов, как количественные, так и качественные, исследовать в наиболее сильных абсолютных шкалах знаний.

Материалы статьи могут быть использованы при проведении лекционных и лабораторных занятий по дисциплинам: «Интеллектуальные информационные системы», «Представление знаний в интеллектуальных системах», «Управление знаниями», «Эмпирические социально-экономические и психологические исследования», «Измерения в социально-экономических и психологических исследованиях», «Эконометрика», «Управление знаниями» и других.

Литература

1. Орлов А.И. Теория измерений как часть методов анализа данных: размышления над переводом статьи П.Ф. Веллемана и Л. Уилкинсона // Социология: методология, методы, математическое моделирование. 2012. № 35. С. 155-174.

2. Дубина И.Н. Математические основы эмпирических социально-экономических исследований: учебное пособие. - Барнаул: Изд-во Алт. ун-та, 2006. - 263 с.

3. ТСиСА. Вопрос №20. Электронный ресурс, режим доступа: http://e-educ.ru/tsisa20.html

4. Луценко Е.В. Автоматизированный системно-когнитивный анализ в управлении активными объектами (системная теория информации и ее применение в исследовании экономических, социально-психологических, технологических и организационно-технических систем): Монография (научное издание). - Краснодар: КубГАУ. 2002. - 605 с.

5. Луценко Е.В. Моделирование сложных многофакторных нелинейных объектов управления на основе фрагментированных зашумленных эмпирических данных большой размерности в системно-когнитивном анализе и интеллектуальной системе «Эйдос-Х++» / Е.В. Луценко, В.Е. Коржаков // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2013. - №07(091). С. 164 - 188. - IDA [article ID]: 0911307012. - Режим доступа: http://ej.kubagro.ru/2013/07/pdf/12.pdf, 1, 562 у.п.л.

6. Луценко Е.В. Метод когнитивной кластеризации или кластеризация на основе знаний (кластеризация в системно-когнитивном анализе и интеллектуальной системе «Эйдос») / Е.В. Луценко, В.Е. Коржаков // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2011. - №07(071). С. 528 - 576. - Шифр Информрегистра: 0421100012\0253, IDA [article ID]: 0711107040. - Режим доступа: http://ej.kubagro.ru/2011/07/pdf/40.pdf, 3, 062 у.п.л.

7. Луценко Е.В. Методологические аспекты выявления, представления и использования знаний в АСК-анализе и интеллектуальной системе «Эйдос» / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2011. - №06(070). С. 233 - 280. - Шифр Информрегистра: 0421100012\0197, IDA [article ID]: 0701106018. - Режим доступа: http://ej.kubagro.ru/2011/06/pdf/18.pdf, 3 у.п.л.

8. Луценко Е.В. Типовая методика и инструментарий когнитивной структуризации и формализации задач в СК-анализе / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2004. - №01(003). С. 388 - 414. - IDA [article ID]: 0030401016. - Режим доступа: http://ej.kubagro.ru/2004/01/pdf/16.pdf, 1, 688 у.п.л.

9. Луценко Е.В. Математический метод СК-анализа в свете идей интервальной бутстрепной робастной статистики объектов нечисловой природы / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2004. - №01(003). С. 312 - 340. - IDA [article ID]: 0030401013. - Режим доступа: http://ej.kubagro.ru/2004/01/pdf/13.pdf, 1, 812 у.п.л.

10. Васильев, Л. Г. Три парадигмы понимания: анализ литературы вопроса Электронный ресурс. / Л. Г. Васильев. -- Режим доступа: http://konf-csu.narod.ru/ze/lib/vasilyev.html

Размещено на Allbest.ru

...

Подобные документы

  • Оценка сложных систем. Определение цели оценивания. Понятие и виды шкал. Обработка характеристик, измеряемых в разных шкалах. Методы качественного и количественного оценивания систем. Шкала уровней качества систем с управлением. Порядковый тип шкал.

    реферат [48,4 K], добавлен 23.04.2011

  • Изучение и отработка навыков математического моделирования стохастических процессов; исследование реальных моделей и систем с помощью двух типов моделей: аналитических и имитационных. Основные методы анализа: дисперсионный, корреляционный, регрессионный.

    курсовая работа [701,2 K], добавлен 19.01.2016

  • Понятие измерительной шкалы и их виды в математическом моделировании: шкала наименований (полинальная), порядковая, интервальная и шкала отношений. Статистические меры, допустимые для разных типов шкал. Основные положения теории принятия решений.

    контрольная работа [21,7 K], добавлен 16.02.2011

  • Изучение экономических приложений математических дисциплин для решения экономических задач: использование математических моделей в экономике и менеджменте. Примеры моделей линейного и динамического программирования как инструмента моделирования экономики.

    курсовая работа [2,0 M], добавлен 21.12.2010

  • Типовые модели менеджмента: примеры экономико-математических моделей и их практического использования. Процесс интеграции моделей разных типов в более сложные модельные конструкции. Определение оптимального плана производства продуктов каждого вида.

    контрольная работа [536,2 K], добавлен 14.01.2015

  • Определение происхождения эффекта взаимодействия. Последовательность и приёмы системного анализа. Разработка максимального количества альтернатив. Разработка эмпирической модели. Основные типы шкал, используемых при спецификации переменных системы.

    презентация [253,7 K], добавлен 19.12.2013

  • Основной тезис формализации. Моделирование динамических процессов и имитационное моделирование сложных биологических, технических, социальных систем. Анализ моделирования объекта и выделение всех его известных свойств. Выбор формы представления модели.

    реферат [493,5 K], добавлен 09.09.2010

  • Особенности и сущность моделей системной динамики. Характеристика контуров с положительной и отрицательной обратной связью. Моделирование S-образного роста. Разработка модели запаздывания и ее построение. Основные разновидности моделей мировой динамики.

    реферат [134,7 K], добавлен 22.02.2013

  • Построение и анализ различных моделей производственных функций с целью прогноза уровня валовой стоимости продукции по сельскохозяйственной отрасли Украины с использованием экономических факторов (капитальных затрат и расходов по заработной плате).

    курсовая работа [529,8 K], добавлен 09.01.2011

  • Раскрытие содержания математического моделирования как метода исследования и прогнозирования развития объектов народного хозяйства. Алгоритмы, модели и функции процедуры Эйткена. Оценивание ковариационной матрицы вектора при оценке объектов недвижимости.

    статья [56,4 K], добавлен 14.10.2012

  • Анализ основных способов построения математической модели. Математическое моделирование социально-экономических процессов как неотъемлемая часть методов экономики, особенности. Общая характеристика примеров построения линейных математических моделей.

    курсовая работа [1,3 M], добавлен 23.06.2013

  • Основные понятия и типы моделей, их классификация и цели создания. Особенности применяемых экономико-математических методов. Общая характеристика основных этапов экономико-математического моделирования. Применение стохастических моделей в экономике.

    реферат [91,1 K], добавлен 16.05.2012

  • Постановка цели моделирования. Идентификация реальных объектов. Выбор вида моделей, математической схемы. Построение непрерывно-стахостической модели. Основные понятия теории массового обслуживания. Определение потока событий. Постановка алгоритмов.

    курсовая работа [50,0 K], добавлен 20.11.2008

  • Основные принципы и методы построения линейных, нелинейных эконометрических моделей спроса, предложения. Типы взаимосвязей между переменными. Этапы интерпретации уравнения регрессии. Коэффициент (индекс) корреляции. Рассмотрение альтернативных моделей.

    контрольная работа [83,1 K], добавлен 14.02.2014

  • Определение уровня нового расписания для местных доставок в городской Службе доставки почты. Анализ линейных и криволинейных моделей. Получение и описание моделей с высокими показателями R-квадрат (линейная, параболическая, кубическая, экспоненциальная).

    практическая работа [178,8 K], добавлен 23.02.2012

  • Особенности формирования и способы решения оптимизационной задачи. Сущность экономико-математической модели транспортной задачи. Характеристика и методика расчета балансовых и игровых экономико-математических моделей. Свойства и признаки сетевых моделей.

    практическая работа [322,7 K], добавлен 21.01.2010

  • Теория математического анализа моделей экономики. Сущность и необходимость моделей исследования систем управления в экономике и основные направления их применения. Выявление количественных взаимосвязей и закономерностей в социально-экономической системе.

    курсовая работа [366,0 K], добавлен 27.09.2010

  • Методика и основные этапы построения математических моделей, их сущность и особенности, порядок разработки. Составление математических моделей для системы "ЭМУ-Д". Алгоритм расчета переходных процессов в системе и оформление результатов программы.

    реферат [198,6 K], добавлен 22.04.2009

  • Основные методы прогнозирования. Критерии качества прогнозных моделей. Разработка прогнозной модели. Классификация прогнозных моделей. Математическая прогнозная модель. Разработка аналитических моделей. Основные ограничения длины прогнозного периода.

    презентация [1,2 M], добавлен 09.07.2015

  • Модели, описывающие распределение населения по величине доходов. Типологии потребления в российской экономике. Синтетические категории и интегральные индикаторы качества жизни. Специфика работы с временными рядами, используемыми в регрессионном анализе.

    контрольная работа [658,4 K], добавлен 04.04.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.