Метризация измерительных шкал различных типов и совместная сопоставимая количественная обработка разнородных факторов в системно-когнитивном анализе и системе "Эйдос"
Рассмотрение измерительных шкал, как инструмента создания формальных моделей реальных объектов и инструмента повышения степени формализации этих моделей до уровня, достаточного для их реализации на компьютерах. Обзор способов метризации всех типов шкал.
Рубрика | Экономико-математическое моделирование |
Вид | статья |
Язык | русский |
Дата добавления | 12.05.2017 |
Размер файла | 632,4 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
1
Размещено на http://www.allbest.ru/
МЕТРИЗАЦИЯ ИЗМЕРИТЕЛЬНЫХ ШКАЛ РАЗЛИЧНЫХ ТИПОВ И СОВМЕСТНАЯ СОПОСТАВИМАЯ КОЛИЧЕСТВЕННАЯ ОБРАБОТКА РАЗНОРОДНЫХ ФАКТОРОВ В СИСТЕМНО-КОГНИТИВНОМ АНАЛИЗЕ И СИСТЕМЕ «ЭЙДОС»
Луценко Евгений Вениаминович
Измерительные шкалы рассматриваются как инструмент создания формальных моделей реальных объектов и инструмент повышения степени формализации этих моделей до уровня, достаточного для их реализации на компьютерах.
Различные подходы к классификации измерительных шкал, отраженны в работах [1, 2, 3]. Наиболее строго математически обоснованным являемся подход, предложенный проф. А.И.Орловым в работе [1]. В этой работе описываются различные типы измерительных шкал, позволяющие создавать модели различной степени формализации (таблица 1):
Таблица 1. Основные шкалы измерения по проф. А.И.Орлову [1].
Тип шкалы |
Определение шкалы |
Примеры |
Группа допустимых преобразований |
|
Шкалы качественных признаков |
||||
Наименований |
Числа используют для различения объектов |
Номера телефонов, паспортов, ИНН, штрих-коды |
Все взаимно-однозначные преобразования |
|
Порядковая (ранговая) |
Числа используют для упорядочения объектов |
Оценки экспертов, баллы ветров, отметки в школе, полезность, номера домов |
Все строго возрастающие преобразования |
|
Шкалы количественных признаков (описываются началом отсчета и единицей измерения) |
||||
Интервалов |
Начало отсчета и единица измерения произвольны |
Потенциальная энергия, положение точки, температура по шкалам Цельсия и Фаренгейта |
Все линейные преобразования ц(x) = ax + b, a и b произвольны, а>0 |
|
Отношений |
Начало отсчета задано, единица измерения произвольна |
Масса, длина, мощность, напряжение, сопротивление, температура по Кельвину, цены |
Все подобные преобразования ц(x) = ax, а произвольно, а>0 |
|
Разностей |
Начало отсчета произвольно, единица измерения задана |
Время |
Все преобразования сдвига ц(x) = x + b, b произвольно |
|
Абсолютная |
Начало отсчета и единица измерения заданы |
Число людей в данном помещении |
Только тождественное преобразование ц(x) = x |
С данными эмпирических измерений, полученными с помощью измерительной шкалы определенного типа, корректно могут быть проведены лишь вполне определенные математические преобразования, допустимые в данной шкале, тогда как другие преобразования над ними являются некорректными и, строго говоря, бессмысленными.
На практике это часто не осознается, особенно руководством, или осознается, но недостаточно четко и на это попросту «закрывают глаза».
Например, оценки в школе или вузе представляют собой порядковые оценки уровня знаний и, хотя внешне выглядят точно как числа, фактически числами не являются. Это наглядно демонстрируется тем, что, не смотря на то, что 2+3=5 суммарные знания двоечника и троечника не равны знаниям отличника. Тем более некорректно вычислять некие средние баллы аттестатов или полученные учащимися факультета по результатам государственных экзаменов или защиты дипломных проектов, но это всегда делается.
В таблице 1 шкалы приведены в порядке повышения степени формализации моделей, создаваемых с их использованием.
Спрашивается, а зачем повышать степень формализации модели? Дело в том, что чем выше степень формализации модели, тем более развитые и точные математические методы могут быть применены в этих моделях и тем точнее решаются различные задачи в реальной области Прежде всего это задачи идентификации, прогнозирования и принятия решений. с использованием этих моделей, в частности тем проще использовать эти модели при проектировании и создании искусственных систем (таблица 2):
Таблица 2. Основные измерительные шкалы и возможные математические операции с их градациями
Степень форма- лизации шкалы |
Тип шкалы |
Определение шкалы |
Примеры |
Допустимые математические операции |
|
1 |
Наименований (номинальная) |
Числа используют для различения объектов, т.е. в качестве кодов |
Номера телефонов, паспортов, ИНН, штрих-коды |
Наличие или отсутствие тождества, эквивалентности |
|
2 |
Порядковая (ранговая) |
Числа используют для упорядочения объектов |
Оценки экспертов, баллы ветров, отметки в школе, полезность, номера домов |
Отношения больше, меньше |
|
3 |
Интервалов |
Начало отсчета и единица измерения произвольны |
Потенциальная энергия, положение точки, температура по шкалам Цельсия и Фаренгейта |
Сложение и вычитание |
|
4 |
Разностей |
Начало отсчета произвольно, единица измерения задана |
Время |
Сложение и вычитание |
|
5 |
Отношений |
Начало отсчета задано, единица измерения произвольна |
Масса, длина, мощность, напряжение, сопротивление, температура по Кельвину, цены |
Сложение и вычитание, умножение и деление |
|
6 |
Абсолютная |
Начало отсчета и единица измерения заданы |
Число людей в данном помещении |
Сложение и вычитание, умножение и деление |
Из этого ясно, что при эмпирических исследованиях:
- необходимо четко отдавать себе отчет о том, какого типа измерительные шкалы в нем используются;
- надо стремиться к использованию измерительных шкал наиболее высокой степени формализации.
Но раз так, то почему же тогда абсолютные шкалы или хотя бы шкалы отношений не применяются всегда, а в ряде случаев на практике используются номинальные, порядковые и интервальные шкалы, а также шкала разностей, имеющие ограничения на возможные математические операции с эмпирическими данными, полученными с помощью этих шкал? Иногда этого и не требуется по условиям задачи, но чаще всего просто потому, что отсутствуют Или где-то существуют, но на практике исследователям недоступны соответствующие измерительные системы Т.е. измерительные инструменты, методики и технологии, включая датчики измерений, каналы связи между датчиками и системой обработки, а также методы математической обработки с необходимыми для этого возможностями, т.е. способные сразу, т.е. непосредственно в процессе измерений, представить измеряемые величины в абсолютной шкале или шкале отношений.
Но оказывается это возможно сделать и после завершения самого процесса измерения, т.е. уже после прекращения контакта измерительной системы с измеряемым объектом. Иначе говоря, возможно провести такую математическую обработку данных, полученных в результате измерений с помощью измерительной шкалы определенной степени формализации, которая бы повысила эту степень формализации.
Из таблиц 1 и 2 видно, что для этого необходимо обоснованно ввести на исходной шкале отношения порядка по степени выраженности свойства, измеряемого шкалой, начало отсчета и единицу измерения. Эта идея, по-видимому, впервые была четко сформулирована в 1958 году датским математиком Г. Рашем (Georg Rasch) [2] См. так называемую «Модель Раша». и им же была поставлена и решена соответствующая «задача метризации шкал», т.е. задача преобразования шкалы к наиболее формализованному виду. Это название связано с понятием метрики, под которой в физике понимается способ измерения расстояний между градациями (значениями) шкалы. Иначе говоря, метризация шкалы проводится с целью повышения степени ее формализации и осуществляется путем ввода метрики, т.е. единицы измерения на этой шкале. В современном понимании метризация шкалы предполагает не только введение единицы измерения, но также и отношений порядка и начала отсчета на ней.
Модель Г.Раша математически тесно связана с моделью логитов, предложенной в 1944 году Джозефом Берксоном (Joseph Berkson) http://www.machinelearning.ru/wiki/index.php?title=Функция%20Логит и здесь мы ее не приводим, т.к. она подробно описана в литературе. Модель Г.Раша (с учетом ее модификаций) является чуть ли не единственной широко известной в настоящее время моделью метризации измерительных шкал.
Однако в системно-когнитивном анализе (СК-анализ) и его программном инструментарии: интеллектуальной системе «Эйдос» [4] предлагается еще 7 способов метризации всех типов шкал даже шкалы отношений и абсолютной шкалы, обеспечивающих, кроме того еще и корректную совместную сопоставимую количественную обработку разнородных по своей природе факторов физических, социальных и субъективных, и в каждой из этих групп факторов есть много различных видов факторов, измеряемых в различных единицах измерения.
В СК-анализе факторы формально описываются шкалами, а значения факторов - градациями шкал. Существует три основных группы факторов: физические, социально-экономические и психологические (субъективные) и в каждой из этих групп есть много различных видов факторов, т.е. есть много различных физических факторов, много социально-экономических и много психологических, но в СК-анализе все они рассматриваются с одной единственной точки зрения: сколько информации содержится в их значениях о переходе объекта, на который они действуют, в определенное состояние, и при этом сила и направление влияния всех значений факторов на объект измеряется в одних общих для всех факторов единицах измерения: единицах количества информации. Именно по этой причине вполне корректно складывать силу и направление влияния всех действующих на объект значений факторов, независимо от их природы, и определять результат совместного влияния на объект системы значений факторов. При этом в общем случае объект является нелинейным и факторы внутри него взаимодействуют друг с другом, т.е. для них не выполняется принцип суперпозиции [5].
Если же разные факторы измеряются в различных единицах измерения, то результаты сравнения объектов будут зависеть от этих единиц измерения, что совершенно недопустимо из теоретических соображений.
Представим себе, что мы сравниваем студентов по их росту и весу, причем рост выражен в сантиметрах, а вес в килограммах (таблица 3):
Таблица 3. Сравнение студентов по их росту и весу, измеряемым в их обычных единицах измерения
1-й студент |
2-й студент |
3-й студент |
Сумма |
||
Рост (см) |
178 |
173 |
173 |
351 |
|
Вес (кг) |
75 |
65 |
75 |
140 |
|
Сумма |
253 |
238 |
248 |
491 |
Для сравнения студентов мы просто складываем рост и вес для каждого студента, и потом сравниваем эти числа, например, находим модуль их разности: |253-238|=15 и считаем, что она отражает сходство-различие студентов по этим параметрам. Проверим корректность этого метода путем сравнения 3-го студента с ростом как у 2-го студента 173 сантиметра и весом как 1-го студента 75 килограммов. Спрашивается, на какого студента он больше похож: на 1-го или 2-го? Очевидно, что он должен иметь одинаковое сходство и различие с обоими этими студентами, т.к. у него в равной степени представлены признаки их обоих. Однако, для 3-го студента сумма роста и веса равна: 173+75=248 и его отличие от 1-го составляет |253-248}=5, а от 2-го: |238-248|=10, т.е. получается, что третий студент в отличатся от 2-го больше, чем от 1-го. Этот результат является некорректным и связан с тем, что рост 1-го и 2-го студентов отличается на 5 сантиметров, а вес на 10 килограммов. Конечно, сложение и вычитание величин, измеряемых в разных единицах измерения, некорректно само по себе. Но особенно хорошо это заметно, когда мы меняем единицы измерения. Так если рост измерять не в сантиметрах, а в миллиметрах, то его числовое выражение возрастет в 10 раз как и его влияние на сходство-различие студентов, а роль веса при этом сравнении соответственно снизится. И наоборот, если рост оставить в сантиметрах, а вес начать измерять не в килограммах, а в граммах, то тогда сходство-различие студентов в основном будет определять уже их вес, т.к. его количественное выражение и влияние на результаты сравнения возрастет в 1000 раз.
В СК-анализе и системе предложено кардинальное решение проблем сравнения объектов, описанных в измерительных шкалах различных типов и размерностей [6]. Продолжим пример со студентами. В соответствии с методологией СК-анализа и методикой применения системы «Эйдос» для сравнения студентов используем не их рост и вес в обычных единицах измерения, а количество информации о том, что перед нами тот или иной студент, которое содержится в его росте и весе. Можно сравнить 3-го студента с первыми двумя по суммарному количеству информации в его признаках о сходстве с 1-м и 2-м студентами. Это будет вполне корректно и результат такого сравнения вообще не будет зависеть от исходных единиц измерения роста и веса, т.е. будет инвариантным относительно единиц измерения исходных признаков, как и должно быть.
Рассмотрим численный пример, демонстрирующий, что выбор единиц измерения никак не влияет на модель и результат сравнения с ее применением.
Таблица 4. Исходные данные
Источник данных |
Классификационная шкала |
Описательные шкалы |
||
Студент |
Рост (см) |
Вес (кг) |
||
1-й студент |
1-й |
178 |
75 |
|
2-й студент |
2-й |
173 |
65 |
С помощью программного интерфейса системы «Эйдос-Х++» (рисунок 1) данные из таблицы 4 вводятся в систему.
измерительный шкала компьютер метризация
Рисунок 1. Начальная экранная форма программного интерфейса системы «Эйдос-Х++» с внешними базами данных
В первой экранной форме задается диапазон столбцов таблицы исходных данных 4 классификационными шкалами и диапазон столбцов с описательными шкалами. В экранной форме, представленной на рисунке 2, задается количество интервалов в числовых классификационных и описательных шкалах, если они есть.
Рисунок 2. Вторая экранная форма программного интерфейса системы «Эйдос-Х++» с внешними базами данных
В текущей версии системы «Эйдос-Х++» суммарное количество классификационных и описательных шкал не должно превышать 1500, а суммарное количество градаций в них ограничено только размерами дисковой памяти Проводились численные эксперименты до 100000 градаций классификационных шкал и 100000 градаций описательных шкал. Программный интерфейс испытывался на вводе в систему «Эйдос-Х++» данных и Excel-файла с 880000 строк, это заняло 7 минут..
При этом программным интерфейсом создаются справочники классификационных и описательных шкал и градаций и с их использованием кодируются исходные данные и формируется обучающая выборка (таблицы 5, 6, 7):
Таблица 5. Справочники классификационных шкал и градаций
Код класса |
Наименование класса |
|
1 |
СТУДЕНТ-1-й |
|
2 |
СТУДЕНТ-2-й |
Классы представляют собой градации классификационных шкал.
Таблица 6. Справочники описательных шкал и градаций
Код признака |
Наименование признака |
|
1 |
РОСТ (СМ)-1/2-{173.0000000, 175.5000000} |
|
2 |
РОСТ (СМ)-2/2-{175.5000000, 178.0000000} |
|
3 |
ВЕС (КГ)-1/2-{65.0000000, 70.0000000} |
|
4 |
ВЕС (КГ)-2/2-{70.0000000, 75.0000000} |
Признаки представляют собой градации описательных шкал.
Таблица 7. Обучающая выборка
Код объекта |
Наименование объекта |
Классы |
Признаки |
||
CLS1 |
ATR1 |
ATR2 |
|||
1 |
1-й студент |
1 |
2 |
4 |
|
2 |
2-й студент |
2 |
1 |
3 |
В результате синтеза и верификации моделей в режиме 3.5 системы «Эйдос-Х++» создаются матрица абсолютных частот (таблица 8) и матрица информативностей (таблица 9):
Таблица 8. Матрица абсолютных частот
Код признака |
Наименование описательной шкалы и градации |
Классы |
||
1-й студент |
2-й студент |
|||
1 |
РОСТ (СМ)-1/2-{173.0000000, 175.5000000} |
0 |
1 |
|
2 |
РОСТ (СМ)-2/2-{175.5000000, 178.0000000} |
1 |
0 |
|
3 |
ВЕС (КГ)-1/2-{65.0000000, 70.0000000} |
0 |
1 |
|
4 |
ВЕС (КГ)-2/2-{70.0000000, 75.0000000} |
1 |
0 |
Таблица 9. Матрица информативностей
Код признака |
Наименование описательной шкалы и градации |
Классы |
||
1-й студент |
2-й студент |
|||
1 |
РОСТ (СМ)-1/2-{173.0000000, 175.5000000} |
0, 0000000 |
0, 5000000 |
|
2 |
РОСТ (СМ)-2/2-{175.5000000, 178.0000000} |
0, 5000000 |
0, 0000000 |
|
3 |
ВЕС (КГ)-1/2-{65.0000000, 70.0000000} |
0, 0000000 |
0, 5000000 |
|
4 |
ВЕС (КГ)-2/2-{70.0000000, 75.0000000} |
0, 5000000 |
0, 0000000 |
Из таблицы 9 видно, что каждому интервальному значению роста и веса соответствует 0.5 бит информации о принадлежности студента с этим признаком к тому или иному классу. Ясно, что если в таблицах 6, 8 и 9 одинаково переставить десятичную запятую в интервальных значениях роста и веса, то коды в обучающей выборке (таблица 7), а значит и на абсолютные частоты их наблюдения по классам и количество информации, рассчитываемое на их основе, это никак не повлияет.
Рассмотрим этапы последовательного повышения степени формализации модели путем преобразования исходных данных в информацию, а ее в знания, применяемые в автоматизированном системно-когнитивном анализе и системе «Эйдос-Х++» [7] (рисунок 3).
Рисунок 3. Этапы последовательного повышения степени формализации модели путем преобразования исходных данных в информацию, а ее в знания, применяемые в автоматизированном системно-когнитивном анализе и системе «Эйдос-Х++»
Прежде всего, кратко рассмотрим соотношение содержания понятий: «данные», «информация» и «знания».
Данные - это информация, рассматриваемая безотносительно к ее смысловому содержанию, находящаяся на носителях или в каналах связи и представленная в определенной системе кодирования или на определенном языке (т.е. в формализованном виде).
Информация - это осмысленные данные. Смысл, семантика, содержание (согласно концепции смысла Шенка-Абельсона [4, 10]) - это знание причинно-следственных зависимостей.
Знания - это информация, полезная для достижения целей (рисунок 4).
Рисунок 4. Соотношение содержания понятий: «данные», «информация», «знания»
Знания могут быть представлены в различных формах, характеризующихся различной степенью формализации:
- вообще неформализованные знания, т.е. знания в своей собственной форме, ноу-хау (мышление без вербализации есть медитация);
- знания, формализованные на естественном вербальном языке;
- знания, формализованные в виде различных методик, схем, алгоритмов, планов, таблиц и отношений между ними;
- знания в форме технологий, организационных производственных, социально-экономических и политических структур;
- знания, формализованные в виде математических моделей и методов представления знаний в автоматизированных интеллектуальных системах (логическая, фреймовая, сетевая, продукционная, нейросетевая, нечеткая и другие).
Таким образом, для решения задачи метризации шкал в АСК-анализе необходимо осознанно и целенаправленно последовательно повышать степень формализации исходных данных до уровня, который позволяет ввести исходные данные в интеллектуальную систему, а затем:
- преобразовать исходные данные в информацию;
- преобразовать информацию в знания;
- использовать знания для решения задач прогнозирования, принятия решений и исследования предметной области.
Для этого в АСК-анализе предусмотрены следующие этапы [4]:
1. Когнитивная структуризация предметной области, при которой определяется, что мы хотим прогнозировать и на основе чего (конструирование классификационных и описательных шкал).
2. Формализация предметной области [8]:
- разработка градаций классификационных и описательных шкал (номинального, порядкового и числового типа);
- использование разработанных на предыдущих этапах классификационных и описательных шкал и градаций для формального описания (кодирования) исследуемой выборки.
3. Синтез и верификация (оценка степени адекватности) модели [9].
4. Если модель адекватна, то ее использование для решения задач идентификации, прогнозирования и принятия решений, а также для исследования моделируемой предметной области [4].
Для синтеза моделей в АСК-анализе в настоящее время используется 7 частных критериев знаний (таблица 10), а для верификации моделей 2 интегральных критерия:
Таблица 10. Частные критерии знаний, используемые в настоящее время в СК-анализе и системе «Эйдос-Х++»
Наименование модели знаний и частный критерий |
Выражение для частного критерия |
||
через относительные частоты |
через абсолютные частоты |
||
INF1, частный критерий: количество знаний по А.Харкевичу, 1-й вариант расчета относительных частот: Nj - суммарное количество признаков по j-му классу. Относительная частота того, что если у объекта j-го класса обнаружен признак, то это i-й признак |
|||
INF2, частный критерий: количество знаний по А.Харкевичу, 2-й вариант расчета относительных частот: Nj - суммарное количество объектов по j-му классу. Относительная частота того, что если предъявлен объект j-го класса, то у него будет обнаружен i-й признак. |
|||
INF3, частный критерий: Хи-квадрат: разности между фактическими и теоретически ожидаемыми абсолютными частотами |
- |
||
INF4, частный критерий: ROI - Return On Investment, 1-й вариант расчета относительных частот: Nj - суммарное количество признаков по j-му классу Применение предложено Л.О. Макаревич |
|||
INF5, частный критерий: ROI - Return On Investment, 2-й вариант расчета относительных частот: Nj - суммарное количество объектов по j-му классу |
|||
INF6, частный критерий: разность условной и безусловной относительных частот, 1-й вариант расчета относительных частот: Nj - суммарное количество признаков по j-му классу |
|||
INF7, частный критерий: разность условной и безусловной относительных частот, 2-й вариант расчета относительных частот: Nj - суммарное количество объектов по j-му классу |
Обозначения:
i - значение прошлого параметра;
j - значение будущего параметра;
Nij - количество встреч j-го значения будущего параметра при i-м значении прошлого параметра;
M - суммарное число значений всех прошлых параметров;
W - суммарное число значений всех будущих параметров.
Ni - количество встреч i-м значения прошлого параметра по всей выборке;
Nj - количество встреч j-го значения будущего параметра по всей выборке;
N - количество встреч j-го значения будущего параметра при i-м значении прошлого параметра по всей выборке.
Iij - частный критерий знаний: количество знаний в факте наблюдения i-го значения прошлого параметра о том, что объект перейдет в состояние, соответствующее j-му значению будущего параметра;
Ш - нормировочный коэффициент (Е.В.Луценко, 2002), преобразующий количество информации в формуле А.Харкевича в биты и обеспечивающий для нее соблюдение принципа соответствия с формулой Р.Хартли;
Pi - безусловная относительная частота встречи i-го значения прошлого параметра в обучающей выборке;
Pij - условная относительная частота встречи i-го значения прошлого параметра при j-м значении будущего параметра.
Все эти способы метризации с применением 7 частных критериев знаний (таблица 10) реализованы в системно-когнитивном анализе и интеллектуальной системе «Эйдос» и обеспечивают сопоставление градациям всех видов шкал числовых значений, имеющих смысл количества информации в градации о принадлежности объекта к классу. Поэтому является корректным применение интегральных критериев, включающих операции умножения и суммирования, для обработки числовых значений, соответствующих градациям шкал. Это позволяет единообразно и сопоставимо обрабатывать эмпирические данные, полученные с помощью любых типов шкал, применяя при этом все математические операции [8].
Рассмотрим интегральные критерии знаний, используемые в настоящее время в СК-анализе и системе «Эйдос-Х++» для верификации моделей и решения задач идентификации и прогнозирования.
1-й интегральный критерий «Сумма знаний» представляет собой суммарное количество знаний, содержащееся в системе факторов различной природы, характеризующих сам объект управления, управляющие факторы и окружающую среду, о переходе объекта в будущие целевые или нежелательные состояния.
Интегральный критерий представляет собой аддитивную функцию от частных критериев знаний и имеет вид:
В выражении круглыми скобками обозначено скалярное произведение. В координатной форме это выражение имеет вид:
где: M - количество градаций описательных шкал (признаков);
- вектор состояния j-го класса;
- вектор состояния распознаваемого объекта, включающий все виды факторов, характеризующих сам объект, управляющие воздействия и окружающую среду (массив-локатор), т.е.:
В текущей версии системы «Эйдос-Х++» значения координат вектора состояния распознаваемого объекта принимались равными либо 0, если признака нет, или n, если он присутствует у объекта с интенсивностью n, т.е. представлен n раз (например, буква «о» в слове «молоко» представлена 3 раза, а буква «м» - один раз).
2-й интегральный критерий «Семантический резонанс знаний» представляет собой нормированное суммарное количество знаний, содержащееся в системе факторов различной природы, характеризующих сам объект управления, управляющие факторы и окружающую среду, о переходе объекта в будущие целевые или нежелательные состояния.
Интегральный критерий представляет собой аддитивную функцию от частных критериев знаний и имеет вид:
где:
M - количество градаций описательных шкал (признаков);
- средняя информативность по вектору класса;
- среднее по вектору объекта;
- среднеквадратичное отклонение частных критериев знаний вектора класса;
- среднеквадратичное отклонение по вектору распознаваемого объекта.
Приведенное выражение для интегрального критерия «Семантический резонанс знаний» получается непосредственно из выражения для критерия «Сумма знаний» после замены координат перемножаемых векторов их стандартизированными значениями:
Свое наименование интегральный критерий сходства «Семантический резонанс знаний» получил потому, что по своей математической форме является корреляцией двух векторов: состояния j-го класса и состояния распознаваемого объекта.
Таким образом, в АСК-анализе:
1. Рассматривается ряд объектов (фактов), представляющих в совокупности исследуемую выборку.
2. Каждый из объектов исследуемой выборки представляет собой систему, имеющую сложную многоуровневую структуру признаков (экстенсионально описание).
3. Для каждого из объектов исследуемой выборки известно, к каким обобщенным категориям (классам) он относится (интенсионально описание).
4. Необходимо сформировать модель, обеспечивающую идентификацию объектов по их признакам, т.е. определение их принадлежности к обобщенным классам.
Если признаки и классы относятся к одному времени, то имеет место задача идентификации (распознавания). Если же признаки (факторы, причины) относятся к прошлому, а классы, характеризующие состояния объектов, - к будущему, то это задача прогнозирования. Математически эти задачи не отличаются.
Совокупность экстенсионального и интенсинального описания каждого объекта обучающей выборки, по сути, представляет собой его определение через подведение под более общее понятие и выделение специфических признаков. Иначе говоря каждый объект обучающей выборки описывается принадлежностью к более общей категории (классу) и наличием у него ряда признаков. Например, так определяется понятие «млекопитающее»: это животное (более общее понятие), выкармливающее своих детей молоком (специфический признак). На основе ряда определений конкретных объектов путем их обобщения можно получить определения классов. Если привести в качестве примеров исследуемой выборки множество различных животных, как млекопитающих, так и других, каждый из таких примеров определить множеством признаков и построить модель, то окажется, что наиболее характерным признаком млекопитающих является не наличие шерсти или когтей, а именно вскармливание детенышей молоком.
Процедура преобразования исходных данных в информацию - это анализ данных, состоящий из трех шагов:
- разработка справочников фактов и событий;
- выявление в исходных данных фактов или событий и их кодирование;
- выявление причинно-следственных связей (зависимостей) между этими событиями.
Фактически для преобразования исходных данных в информацию необходимо:
1. Разработать классификационные и описательные шкалы и градации.
2. С использованием классификационных и описательных шкал и градаций закодировать исходные данные, в результате чего получится обучающая выборка, состоящая из фактов, представляющих собой примеры в единстве экстенсионального и интенсинального описания.
3. Произвести расчет матриц абсолютных частот, условных и безусловных процентных распределений и матрицы информативностей, отражающей причинно-следственные связи между значениями факторов и принадлежностью объектов к классам.
Таким образом, информация по задаче - это исходные данные плюс классификационные и описательные шкалы и градации, обучающая выборка, а также матрицы частот, процентных распределений и информативностей.
Процедура преобразования информации в знания - это оценка полезности информации для достижения цели.
Значит знания по задаче - это информация плюс цель и оценка степени полезности информации для достижения этой цели.
Знания получаются из информации, когда мы классифицируем будущие состояния объекта управления как желательные (целевые) и нежелательные.
Банк данных - это базы данных плюс система управления базами данных (СУБД) (стандартные термины). СУБД - это, по сути, система управления данными.
Информационный банк - это информационные базы плюс информационные системы (предлагается стандартизировать эти термины). Информационная система - это, по сути, система управления информацией.
Банк знаний - это базы знаний плюс интеллектуальные системы (стандартные термины). Интеллектуальная система - это, по сути, система управления знаниями.
Существует очевидная параллель между терминами и понятиями, связанными с данными, информацией и знаниями, наглядно представленная в таблице 11.
Таблица 11. Параллель между понятиями и терминами, касающимися данных, информации и знаний
Наполнение |
Объект |
Субъект |
Система |
|
Данные |
База данных (БД) |
Система управления базами данных (СУБД) |
Банк данных=БД+СУБД |
|
Информация |
Информационная база (ИБ) |
Информационная система (система управления информационными базами - СУИБ) |
Информационный банк=ИБ+СУИБ |
|
Знания |
База знаний (БЗ) |
Интеллектуальная система (система управления базами знаний - СУБЗ) |
Банк знаний=БЗ+СУБЗ |
Сформулируем требования к форме представления данных, информации и знаний, позволяющие оценить степень их пригодности для решения задач прогнозирования и принятия решений, а также исследования предметной области (например, кластерного анализа).
Прежде всего, результаты решения вышеперечисленных задач должны быть инвариантны относительно:
- единиц измерения градаций факторов (признаков);
- типов шкал, используемых для формализации классов и факторов (номинальные, порядковые и числовые);
- различных статистических характеристик исходной выборки: частотных распределений объектов по классам (обобщенным категориям), частотных распределений градаций факторов, различий в количестве признаков в описаниях объектов исследуемой выборки, различий в суммарном количестве признаков по классам.
Кроме того, форма представления должна обеспечивать решение вышеперечисленных задач с минимальными дополнительными затратами ручного труда, а это значит, что вся предварительная обработка должна быть максимально автоматизирована.
Эти требования можно рассматривать и как критерии выбора наиболее подходящей для решения вышеперечисленных задач формы представления данных, информации и знаний.
Рассмотрим влияние единиц измерения в исходной выборке на результаты решения задач прогнозирования и принятия решений, а также исследования предметной области (например, кластерного анализа).
Если в исходных данных какие-то значения выражены в больших единицах измерения, то их числовые значения будут малыми, и наоборот, если единицы измерения мелкие, то числовые значения - большие. Большие значения оказывают большее влияние на результаты математической обработки, чем малые, и это приводит к возникновению зависимости результатов решения задач идентификации, прогнозирования и принятия решений, а также кластерного анализа, от выбранных размерностей исходных данных, что, на взгляд автора, совершенно неприемлемо и указывает на то, что такое решение нельзя признать корректным и даже вообще решением. По этой же причине некорректно совместно обрабатывать сами исходные данные, представленные в различных единицах измерения (натуральных или ценовых), например, складывать расстояния, представленные в километрах и в метрах, а затем прибавлять к ним тонны и килограммы, а затем еще и безразмерные величины. Вроде это очевидно, но, как это ни удивительно, но как показывает опыт на практике это довольно часто делается, а потом еще на основе подобного «анализа» делаются и выводы. Очень странно, что обычно на это не обращают никакого внимания при использовании исходных данных, представленных в различных единицах измерения. Например, даже в таких популярных (причем, совершенно заслуженно) системах, как SPSS и Статистика, в подсистеме кластерного анализа приводятся примеры кластерного анализа над исходными данными, представленными в различных единицах измерения.
Для решения поставленной задачи в АСК-анализе проводится последовательное повышение степени формализации исходных данных до уровня, обеспечивающего их обработку на компьютере в программной системе. После выполнения когнитивной структуризации и формализации предметной области осуществляется синтез модели [7].
Пример метризованной номинальной шкалы, созданной при решении задачи из работы [7], приведен н рисунке 5:
Рисунок 5. Пример метризованной номинальной шкалы «Груз (количество и вид)»
Выводы
Отображение реальных объектов в формальных шкалах - это и есть измерение. Получается, что система «Эйдос» представляет собой средство для построения и применения измерительных инструментов в различных предметных областях, причем в ней реализованы разнообразные технологии метризации, позволяющие любые свойства объектов, как количественные, так и качественные, исследовать в наиболее сильных абсолютных шкалах знаний.
Материалы статьи могут быть использованы при проведении лекционных и лабораторных занятий по дисциплинам: «Интеллектуальные информационные системы», «Представление знаний в интеллектуальных системах», «Управление знаниями», «Эмпирические социально-экономические и психологические исследования», «Измерения в социально-экономических и психологических исследованиях», «Эконометрика», «Управление знаниями» и других.
Литература
1. Орлов А.И. Теория измерений как часть методов анализа данных: размышления над переводом статьи П.Ф. Веллемана и Л. Уилкинсона // Социология: методология, методы, математическое моделирование. 2012. № 35. С. 155-174.
2. Дубина И.Н. Математические основы эмпирических социально-экономических исследований: учебное пособие. - Барнаул: Изд-во Алт. ун-та, 2006. - 263 с.
3. ТСиСА. Вопрос №20. Электронный ресурс, режим доступа: http://e-educ.ru/tsisa20.html
4. Луценко Е.В. Автоматизированный системно-когнитивный анализ в управлении активными объектами (системная теория информации и ее применение в исследовании экономических, социально-психологических, технологических и организационно-технических систем): Монография (научное издание). - Краснодар: КубГАУ. 2002. - 605 с.
5. Луценко Е.В. Моделирование сложных многофакторных нелинейных объектов управления на основе фрагментированных зашумленных эмпирических данных большой размерности в системно-когнитивном анализе и интеллектуальной системе «Эйдос-Х++» / Е.В. Луценко, В.Е. Коржаков // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2013. - №07(091). С. 164 - 188. - IDA [article ID]: 0911307012. - Режим доступа: http://ej.kubagro.ru/2013/07/pdf/12.pdf, 1, 562 у.п.л.
6. Луценко Е.В. Метод когнитивной кластеризации или кластеризация на основе знаний (кластеризация в системно-когнитивном анализе и интеллектуальной системе «Эйдос») / Е.В. Луценко, В.Е. Коржаков // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2011. - №07(071). С. 528 - 576. - Шифр Информрегистра: 0421100012\0253, IDA [article ID]: 0711107040. - Режим доступа: http://ej.kubagro.ru/2011/07/pdf/40.pdf, 3, 062 у.п.л.
7. Луценко Е.В. Методологические аспекты выявления, представления и использования знаний в АСК-анализе и интеллектуальной системе «Эйдос» / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2011. - №06(070). С. 233 - 280. - Шифр Информрегистра: 0421100012\0197, IDA [article ID]: 0701106018. - Режим доступа: http://ej.kubagro.ru/2011/06/pdf/18.pdf, 3 у.п.л.
8. Луценко Е.В. Типовая методика и инструментарий когнитивной структуризации и формализации задач в СК-анализе / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2004. - №01(003). С. 388 - 414. - IDA [article ID]: 0030401016. - Режим доступа: http://ej.kubagro.ru/2004/01/pdf/16.pdf, 1, 688 у.п.л.
9. Луценко Е.В. Математический метод СК-анализа в свете идей интервальной бутстрепной робастной статистики объектов нечисловой природы / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2004. - №01(003). С. 312 - 340. - IDA [article ID]: 0030401013. - Режим доступа: http://ej.kubagro.ru/2004/01/pdf/13.pdf, 1, 812 у.п.л.
10. Васильев, Л. Г. Три парадигмы понимания: анализ литературы вопроса Электронный ресурс. / Л. Г. Васильев. -- Режим доступа: http://konf-csu.narod.ru/ze/lib/vasilyev.html
Размещено на Allbest.ru
...Подобные документы
Оценка сложных систем. Определение цели оценивания. Понятие и виды шкал. Обработка характеристик, измеряемых в разных шкалах. Методы качественного и количественного оценивания систем. Шкала уровней качества систем с управлением. Порядковый тип шкал.
реферат [48,4 K], добавлен 23.04.2011Изучение и отработка навыков математического моделирования стохастических процессов; исследование реальных моделей и систем с помощью двух типов моделей: аналитических и имитационных. Основные методы анализа: дисперсионный, корреляционный, регрессионный.
курсовая работа [701,2 K], добавлен 19.01.2016Понятие измерительной шкалы и их виды в математическом моделировании: шкала наименований (полинальная), порядковая, интервальная и шкала отношений. Статистические меры, допустимые для разных типов шкал. Основные положения теории принятия решений.
контрольная работа [21,7 K], добавлен 16.02.2011Изучение экономических приложений математических дисциплин для решения экономических задач: использование математических моделей в экономике и менеджменте. Примеры моделей линейного и динамического программирования как инструмента моделирования экономики.
курсовая работа [2,0 M], добавлен 21.12.2010Типовые модели менеджмента: примеры экономико-математических моделей и их практического использования. Процесс интеграции моделей разных типов в более сложные модельные конструкции. Определение оптимального плана производства продуктов каждого вида.
контрольная работа [536,2 K], добавлен 14.01.2015Определение происхождения эффекта взаимодействия. Последовательность и приёмы системного анализа. Разработка максимального количества альтернатив. Разработка эмпирической модели. Основные типы шкал, используемых при спецификации переменных системы.
презентация [253,7 K], добавлен 19.12.2013Основной тезис формализации. Моделирование динамических процессов и имитационное моделирование сложных биологических, технических, социальных систем. Анализ моделирования объекта и выделение всех его известных свойств. Выбор формы представления модели.
реферат [493,5 K], добавлен 09.09.2010Особенности и сущность моделей системной динамики. Характеристика контуров с положительной и отрицательной обратной связью. Моделирование S-образного роста. Разработка модели запаздывания и ее построение. Основные разновидности моделей мировой динамики.
реферат [134,7 K], добавлен 22.02.2013Построение и анализ различных моделей производственных функций с целью прогноза уровня валовой стоимости продукции по сельскохозяйственной отрасли Украины с использованием экономических факторов (капитальных затрат и расходов по заработной плате).
курсовая работа [529,8 K], добавлен 09.01.2011Раскрытие содержания математического моделирования как метода исследования и прогнозирования развития объектов народного хозяйства. Алгоритмы, модели и функции процедуры Эйткена. Оценивание ковариационной матрицы вектора при оценке объектов недвижимости.
статья [56,4 K], добавлен 14.10.2012Анализ основных способов построения математической модели. Математическое моделирование социально-экономических процессов как неотъемлемая часть методов экономики, особенности. Общая характеристика примеров построения линейных математических моделей.
курсовая работа [1,3 M], добавлен 23.06.2013Основные понятия и типы моделей, их классификация и цели создания. Особенности применяемых экономико-математических методов. Общая характеристика основных этапов экономико-математического моделирования. Применение стохастических моделей в экономике.
реферат [91,1 K], добавлен 16.05.2012Постановка цели моделирования. Идентификация реальных объектов. Выбор вида моделей, математической схемы. Построение непрерывно-стахостической модели. Основные понятия теории массового обслуживания. Определение потока событий. Постановка алгоритмов.
курсовая работа [50,0 K], добавлен 20.11.2008Основные принципы и методы построения линейных, нелинейных эконометрических моделей спроса, предложения. Типы взаимосвязей между переменными. Этапы интерпретации уравнения регрессии. Коэффициент (индекс) корреляции. Рассмотрение альтернативных моделей.
контрольная работа [83,1 K], добавлен 14.02.2014Определение уровня нового расписания для местных доставок в городской Службе доставки почты. Анализ линейных и криволинейных моделей. Получение и описание моделей с высокими показателями R-квадрат (линейная, параболическая, кубическая, экспоненциальная).
практическая работа [178,8 K], добавлен 23.02.2012Особенности формирования и способы решения оптимизационной задачи. Сущность экономико-математической модели транспортной задачи. Характеристика и методика расчета балансовых и игровых экономико-математических моделей. Свойства и признаки сетевых моделей.
практическая работа [322,7 K], добавлен 21.01.2010Теория математического анализа моделей экономики. Сущность и необходимость моделей исследования систем управления в экономике и основные направления их применения. Выявление количественных взаимосвязей и закономерностей в социально-экономической системе.
курсовая работа [366,0 K], добавлен 27.09.2010Методика и основные этапы построения математических моделей, их сущность и особенности, порядок разработки. Составление математических моделей для системы "ЭМУ-Д". Алгоритм расчета переходных процессов в системе и оформление результатов программы.
реферат [198,6 K], добавлен 22.04.2009Основные методы прогнозирования. Критерии качества прогнозных моделей. Разработка прогнозной модели. Классификация прогнозных моделей. Математическая прогнозная модель. Разработка аналитических моделей. Основные ограничения длины прогнозного периода.
презентация [1,2 M], добавлен 09.07.2015Модели, описывающие распределение населения по величине доходов. Типологии потребления в российской экономике. Синтетические категории и интегральные индикаторы качества жизни. Специфика работы с временными рядами, используемыми в регрессионном анализе.
контрольная работа [658,4 K], добавлен 04.04.2012