Методологические аспекты выявления, представления и использования знаний в АСК-анализе и интеллектуальной системе "Эйдос"

Методологические аспекты технологии выявления знаний из эмпирических данных, представления знаний и их использования для решения задач прогнозирования, принятия решений. Меню режима задания параметров импорта данных из внешних баз в систему "Эйдос".

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 28.04.2017
Размер файла 1,9 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru//

Размещено на http://www.allbest.ru//

“Истинное знание - это знание причин”

Френсис Бэкон (1561-1626 гг.)

Интеллектуальные системы - это автоматизированные системы, обеспечивающие выявление знаний из эмпирических данных, хранение и накопление их в различных формах представления, а также их использование для решения различных задач. Современный уровень развития теории и практики искусственного интеллекта и динамика развития этого научного и технологического направления таковы, что, по-видимому, можно обоснованно говорить о его затяжном кризисе, более того, о том, что его развитие возможно пошло по тупиковому пути. У автора есть развитые конкретные глубоко аргументированные представления о путях выхода из этого кризиса, связанные с решением ключевых вопросов о том, может ли мыслить объект и какими структурами поддерживается функция мышления у людей и какими структурами она в принципе может поддерживаться в технических системах. Парадоксальность ситуации заключается в том, что, казалось бы, само собой разумеющиеся и очевидные ответы на эти «простые» вопросы, скорее всего, являются неверными. Однако обсуждение этих путей и вопросов далеко выходит за рамки данной работы, т.к. требуют углубленного анализа закономерностей развития человека, технологии и общества, а также некоторых изменений в современных мировоззренческих концепциях и научных парадигмах http://ru.wikipedia.org/wiki/Парадигма .

Здесь же отметим лишь, что выявление, представление и использование знаний безусловно является проблемой, и в различных интеллектуальных системах эта проблема решаются (или не решаются) по-разному См., например: http://www.aiportal.ru/ .

Далее рассмотрим вариант решения этой проблемы в автоматизированном системно-когнитивном анализе (АСК-анализ) и его программном инструментарии - интеллектуальной системе «Эйдос».

Прежде всего, кратко рассмотрим соотношение содержания понятий: «данные», «информация» и «знания».

Данные - это информация, рассматриваемая безотносительно к ее смысловому содержанию, находящаяся на носителях или в каналах связи и представленная в определенной системе кодирования или на определенном языке (т.е. в формализованном виде).

Информация - это осмысленные данные. Смысл, семантика, содержание (согласно концепции смысла Шенка-Абельсона [6]) - это знание причинно-следственных зависимостей.

Знания - это информация, полезная для достижения целей (рисунок 1).

Рисунок 1. Соотношение содержания понятий: «данные», «информация», «знания»

Знания могут быть представлены в различных формах, характеризующихся различной степенью формализации:

- вообще неформализованные знания, т.е. знания в своей собственной форме, ноу-хау (мышление без вербализации есть медитация);

- знания, формализованные в естественном вербальном языке;

- знания, формализованные в виде различных методик, схем, алгоритмов, планов, таблиц и отношений между ними;

- знания в форме технологий, организационных производственных, социально-экономических и политических структур;

- знания, формализованные в виде математических моделей и методов представления знаний в автоматизированных интеллектуальных системах (логическая, фреймовая, сетевая, продукционная, нейросетевая, нечеткая и другие).

Таким образом, для решения сформулированной проблемы необходимо осознанно и целенаправленно последовательно повышать степень формализации исходных данных до уровня, который позволяет ввести исходные данные в интеллектуальную систему, а затем:

- преобразовать исходные данные в информацию;

- преобразовать информацию в знания;

- использовать знания для решения задач прогнозирования, принятия решений и исследования предметной области.

Для этого в АСК-анализе предусмотрены следующие этапы [2]:

1. Когнитивная структуризация предметной области, при которой определяется, что мы хотим прогнозировать и на основе чего (конструирование классификационных и описательных шкал).

2. Формализация предметной области (8):

- разработка градаций классификационных и описательных шкал (номинального, порядкового и числового типа);

- использование разработанных на предыдущих этапах классификационных и описательных шкал и градаций для формального описания (кодирования) исследуемой выборки.

3. Синтез и верификация (оценка степени адекватности) модели.

4. Если модель адекватна, то ее использование для решения задач идентификации, прогнозирования и принятия решений, а также для исследования моделируемой предметной области.

Рассмотрим, как реализуются эти этапы на простом наглядном примере, который положен в основу лабораторной работы №1 по дисциплине: «Интеллектуальные информационные системы», преподаваемой автором в Кубанском государственном аграрном университете [14]. Этот пример интересен тем, что рассматриваемая в нем задача легко решается также и с помощью «естественного интеллекта», что позволяет сравнить результаты его работы с работой автоматизированной интеллектуальной системы и увидеть как она работает.

Данная задача взята из книги Д.Мичи и Р.Джонстона "Компьютер - творец" [1], (c.205-208), в которой она приводится в качестве примера задачи, решаемой методами искусственного интеллекта. Авторами этой задачи являются Рышард Михальски и Джеймс Ларсон.

Суть этой задачи сводится к тому, чтобы выработать правила, обеспечивающие идентификацию железнодорожных составов и прогнозирование направления их следования на основе их формализованных или вербальных описаний (рисунок 2).

Рисунок 2. Исходные данные по примеру в графическом виде

Выбор данной задачи не накладывает ограничений на выводы, полученные в результате ее исследования. Это обусловлено тем, что она имеет ряд характерных особенностей, наблюдающихся в подобных задачах в самых различных предметных областях. Поэтому ее с полным основанием можно рассматривать как типовую для широкого класса задач идентификации и прогнозирования.

Эти особенности состоят в следующем:

1. Рассматривается ряд объектов (фактов), представляющих в совокупности исследуемую выборку.

2. Каждый из объектов исследуемой выборки представляет собой систему, имеющую сложную многоуровневую структуру признаков (экстенсионально описание).

3. Для каждого из объектов исследуемой выборки известно, к каким обобщенным категориям (классам) он относится (интенсионально описание).

4. Необходимо сформировать модель, обеспечивающую идентификацию объектов по их признакам, т.е. определение их принадлежности к обобщенным классам.

Если признаки и классы относятся к одному времени, то имеет место задача идентификации (распознавания). Если же признаки (факторы, причины) относятся к прошлому, а классы, характеризующие состояния объектов, - к будущему, то это задача прогнозирования. Математически эти задачи не отличаются.

Совокупность экстенсионального и интенсинального описания каждого объекта, по сути, представляет собой его определение через подведение под более общее понятие и выделение специфических признаков. Например, так определяется понятие «млекопитающее»: это животное (более общее понятие), выкармливающее своих детей молоком (специфический признак). На основе ряда определений конкретных объектов путем их обобщения можно получить определения классов. Если привести в качестве примеров исследуемой выборки множество различных животных, как млекопитающих, так и других, каждый из таких примеров определить множеством признаков и построить модель, то окажется, что наиболее характерным признаком млекопитающих является не наличие шерсти или когтей, а именно вскармливание детенышей молоком.

Первым делом вручную То, что в данном случае преобразование исходных данных из графической формы в табличную осуществляется вручную не является каким-либо ограничением, т.к. нет никаких принципиальных проблем автоматизировать подобное преобразование. преобразуем исходные данные из графической формы, представленной на рисунке 2, в форму Excel-таблицы исходных данных (таблица 1):

Таблица 1 - EXCEL-ТАБЛИЦА ИСХОДНЫХ ДАННЫХ

Источник

информации

Классификационные

шкалы

Описательные шкалы

Состав

следует на

Наименование

состава

Форма

вагона

Длина

вагона

Количество

осей вагона

Грузоподъемность вагона

Вид стенок

вагона

Вид крыши

вагона

Вид груза

(кол-во и вид)

Сост-01,ваг-1

ВОСТОК

Состав-01

Прямоугольная

Короткий

2

40,0

Одинарные

Отсутствует

1 овал

Сост-02,ваг-1

ВОСТОК

Состав-02

Прямоугольная

Короткий

2

40,0

Одинарные

Прямая

2 овала

Сост-03,ваг-1

ВОСТОК

Состав-03

Прямоугольная

Длинный

3

80,0

Одинарные

Прямая

1 перевернутый треугольник

Сост-04,ваг-1

ВОСТОК

Состав-04

Прямоугольная

Короткий

2

40,0

Одинарные

Отсутствует

1 квадрат

Сост-05,ваг-1

ВОСТОК

Состав-05

Прямоугольная

Короткий

2

40,0

Одинарные

Прямая

1 овал

Сост-06,ваг-1

ЗАПАД

Состав-06

Прямоугольная

Короткий

2

40,0

Одинарные

Отсутствует

1 треугольник

Сост-07,ваг-1

ЗАПАД

Состав-07

Прямоугольная

Длинный

2

60,0

Одинарные

Гофрированная

Отсутствует

Сост-08,ваг-1

ЗАПАД

Состав-08

U-образная

Короткий

2

30,0

Одинарные

Отсутствует

1 овал

Сост-09,ваг-1

ЗАПАД

Состав-09

V-образная

Короткий

2

30,0

Одинарные

Отсутствует

1 овал

Сост-10,ваг-1

ЗАПАД

Состав-10

Прямоугольная

Длинный

2

60,0

Одинарные

Отсутствует

2 прямоугольника

Сост-01,ваг-2

ВОСТОК

Состав-01

Прямоугольная

Длинный

3

80,0

Одинарные

Отсутствует

1 ромб

Сост-02,ваг-2

ВОСТОК

Состав-02

V-образная

Короткий

2

30,0

Одинарные

Отсутствует

1 прямоугольник

Сост-03,ваг-2

ВОСТОК

Состав-03

Ромбовидная

Короткий

2

40,0

Одинарные

Прямая

1 треугольник

Сост-04,ваг-2

ВОСТОК

Состав-04

Овальная

Короткий

2

40,0

Одинарные

Овальная

1 ромб

Сост-05,ваг-2

ВОСТОК

Состав-05

Прямоугольная

Длинный

3

80,0

Одинарные

Прямая

1 длинный прямоугольник

Сост-06,ваг-2

ЗАПАД

Состав-06

Прямоугольная

Длинный

2

60,0

Одинарные

Прямая

3 овала

Сост-07,ваг-2

ЗАПАД

Состав-07

U-образная

Короткий

2

30,0

Одинарные

Отсутствует

1 треугольник

Сост-08,ваг-2

ЗАПАД

Состав-08

Прямоугольная

Длинный

3

80,0

Одинарные

Прямая

1 длинный прямоугольник

Сост-09,ваг-2

ЗАПАД

Состав-09

Прямоугольная

Короткий

2

40,0

Одинарные

Отсутствует

1 прямоугольник

Сост-10,ваг-2

ЗАПАД

Состав-10

U-образная

Короткий

2

30,0

Одинарные

Отсутствует

1 прямоугольник

Сост-01,ваг-3

ВОСТОК

Состав-01

Прямоугольная

Короткий

2

40,0

Одинарные

Треуголь-ная

1 треугольник

Сост-02,ваг-3

ВОСТОК

Состав-02

U-образная

Короткий

2

30,0

Одинарные

Отсутст-вует

1 треугольник

Сост-03,ваг-3

ВОСТОК

Состав-03

Прямоугольная

Короткий

2

40,0

Одинарные

Отсутст-вует

1 овал

Сост-04,ваг-3

ВОСТОК

Состав-04

Прямоугольная

Короткий

2

40,0

Двойные

Отсутст-вует

1 треугольник

Сост-05,ваг-3

ВОСТОК

Состав-05

Прямоугольная

Короткий

2

40,0

Двойные

Отсутствует

1 треугольник

Сост-07,ваг-3

ЗАПАД

Состав-07

Прямоугольная

Короткий

2

40,0

Двойные

Отсутствует

1 овал

Сост-09,ваг-3

ЗАПАД

Состав-09

Прямоугольная

Длинный

2

60,0

Одинарные

Гофрированная

1 длинный прямоугольник

Сост-01,ваг-4

ВОСТОК

Состав-01

Прямоугольная

Длинный

2

60,0

Одинарные

Отсутст-вует

3 квадрата

Сост-04,ваг-4

ВОСТОК

Состав-04

U-образная

Короткий

2

30,0

Одинарные

Отсутст-вует

1 треугольник

Сост-09,ваг-4

ЗАПАД

Состав-09

V-образная

Короткий

2

30,0

Одинарные

Отсутств-ует

1 овал

Итак, исходные данные по задаче - это Excel-таблица №1.

Процедура преобразования исходных данных в информацию - это анализ данных, состоящий из двух шагов:

- выявление в исходных данных фактов или событий;

- выявление причинно-следственных связей (зависимостей) между этими событиями.

Фактически для преобразования исходных данных в информацию необходимо:

1. Разработать классификационные и описательные шкалы и градации.

2. С использованием классификационных и описательных шкал и градаций закодировать исходные данные, в результате чего получится обучающая выборка, состоящая из фактов, представляющих собой примеры в единстве экстенсионального и интенсинального описания.

3. Произвести расчет матриц абсолютных частот, условных и безусловных процентных распределений и матрицы информативностей, отражающей причинно-следственные связи между значениями факторов и принадлежностью объектов к классам.

Таким образом, информация по задаче - это исходные данные плюс классификационные и описательные шкалы и градации, обучающая выборка, а также матрицы частот, процентных распределений и информативностей.

Процедура преобразования информации в знания - это оценка полезности информации для достижения цели.

Значит знания по задаче - это информация плюс цель и оценка степени полезности информации для достижения этой цели.

Знания получаются из информации, когда мы классифицируем будущие состояния объекта управления как желательные (целевые) и нежелательные.

Банк данных - это базы данных плюс система управления базами данных (СУБД) (стандартные термины). СУБД - это, по сути, система управления данными.

Информационный банк - это информационные базы плюс информационные системы (предлагается стандартизировать эти термины). Информационная система - это, по сути, система управления информацией.

Банк знаний - это базы знаний плюс интеллектуальные системы (стандартные термины). Интеллектуальная система - это, по сути, система управления знаниями.

Существует очевидная параллель между терминами и понятиями, связанными с данными, информацией и знаниями, наглядно представленная в таблице 2.

Таблица 2 - ПАРАЛЛЕЛЬ МЕЖДУ ПОНЯТИЯМИ И ТЕРМИНАМИ,

КАСАЮЩИМИСЯ ДАННЫХ, ИНФОРМАЦИИ И ЗНАНИЙ

Объект

Субъект

Система

База данных (БД)

Система управления базами данных (СУБД)

Банк данных=БД+СУБД

Информационная база (ИБ)

Информационная система (система управления информационными базами - СУИБ)

Информационный банк=ИБ+СУИБ

База знаний (БЗ)

Интеллектуальная система (система управления базами знаний - СУБЗ)

Банк знаний=БЗ+СУБЗ

Автор предлагает «узаконить», т.е. стандартизировать термины, отмеченные в таблице 2 красным цветом. Это позволит упорядочить все эти термины в единой стройной системе, построенной на основе соотношения содержания понятий «данные», «информация» и «знания».

Это актуально, т.к. в настоящее время существуют явная путаница в использовании этих понятий, встречающая даже в названиях соответствующих дисциплин: «Управление знаниями», «Интеллектуальные информационные системы», «Представление знаний в информационных системах». Например, дисциплина «Управление знаниями» является гуманитарной и в ней изучаются слабо формализованные, не основанные на применении автоматизированных интеллектуальных систем, этапы, формы и методы управления знаниями Типичные вопросы, изучаемые в этой дисциплине: стратегия управления знаниями предприятия; организационная культура в контексте управления знаниями; измерение интеллектуального капитала; корпоративные знания: как ими управлять; интеграция знаний предприятия; бизнес держится на знаниях, сам того не зная; новые программы корпоративного обучения в среде управления знаниями: опыт зарубежных компаний; менеджмент знаний: подход к внедрению; общепринятых заблуждений об управлении знаниями (knowledge management). Вместе с тем название этой дисциплины явно соотносится с названием дисциплины «Управление данными». Интеллектуальные системы часто некорректно называются интеллектуальными информационными системами, с тем же успехом их можно было бы называть: «Интеллектуальные СУБД», но лучше и правильнее было бы называть их как предложено: «Системы управления базами знаний». Дисциплина «Алгоритмы и структуры данных» соотносится с дисциплиной «Представление знаний в информационных системах», хотя ясно, что они представляются не в информационных, а в интеллектуальных системах. В настоящее время дисциплина «Интеллектуальные информационные системы» по своему содержанию включает «Представление знаний в информационных системах», тогда как из вышеизложенного ясно, что они должны соотносится по своему содержанию также, как СУБД и «Модели баз данных» (в которых обычно преподается лишь одна реляционная модель). Отметим также, что если применить определение знаний к моделям, описываемым в дисциплине «Представление знаний в информационных системах», то обнаруживается, что иногда в ней описываются не модели баз знаний, а модели баз данных или информационные модели. В частности это видно на примере семантических сетей, которые, по сути, представляют собой инфологическую модель реляционной базы данных.

По мнению автора дисциплины «Управление знаниями» и «Представление знаний в интеллектуальных системах» по сути, представляют собой две части одной дисциплины и должны отражать не способы управления знаниями различной степени формализации (как в настоящее время), а описание автоматизированных интеллектуальных систем и баз знаний.

Существует дисциплина: «Алгоритмы и структуры данных». Предлагается ввести аналогичные дисциплины: «Алгоритмы и информационные структуры» (в АСК-анализе - это формализация предметной области и синтез модели) и «Алгоритмы структурирования знаний» (по содержанию близко к когнитологии, инженерии знаний, представлению знаний)».

Факт наличия причинно-следственных зависимостей может быть установлен методом хи-квадрат, а ее вид - многофакторным анализом. Однако факторный анализ позволяет обрабатывать данные лишь очень небольших размерностей (по числу факторов) и предъявляет чрезвычайно жесткие требования к наличию полных повторностей всех вариантов сочетаний факторов в исходных данных (т.е. данные не должны быть фрагментарными), что на практике выполнить удается крайне редко.

Поэтому большой интерес представляют другие подходы к решению задачи выявления в эмпирических данных причинно-следственных зависимостей и их вида, отражения выявленных зависимостей в наглядной графической и аналитической форме.

Рассмотрим вариант решения этой задачи, развиваемый в СК-анализе и реализованный в системе Эйдос».

Для этого сформулируем требования к форме представления данных, информации и знаний, позволяющие оценить степень их пригодности для решения задач прогнозирования и принятия решений, а также исследования предметной области (например, кластерного анализа).

Прежде всего, результаты решения вышеперечисленных задач должны быть инвариантны относительно:

- единиц измерения градаций факторов (признаков);

- типов шкал, используемых для формализации классов и факторов (номинальные, порядковые и числовые);

- различных статистических характеристик исходной выборки: частотных распределений объектов по классам (обобщенным категориям), частотных распределений градаций факторов, различий в количестве признаков в описаниях объектов исследуемой выборки, различий в суммарном количестве признаков по классам.

Кроме того, форма представления должна обеспечивать решение вышеперечисленных задач с минимальными дополнительными затратами ручного труда, а это значит, что вся предварительная обработка должна быть максимально автоматизирована.

Эти требования можно рассматривать и как критерии выбора наиболее подходящей для решения вышеперечисленных задач формы представления данных, информации и знаний.

Рассмотрим влияние единиц измерения в исходной выборке на результаты решения задач прогнозирования и принятия решений, а также исследования предметной области (например, кластерного анализа).

Если в исходных данных какие-то значения выражены в больших единицах измерения, то их числовые значения будут малыми, и наоборот, если единицы измерения мелкие, то числовые значения - большие. Большие значения оказывают большее влияние на результаты математической обработки, чем малые, и это приводит к возникновению зависимости результатов решения задач идентификации, прогнозирования и принятия решений, а также кластерного анализа, от выбранных размерностей исходных данных, что, на взгляд автора, совершенно неприемлемо и указывает на то, что такое решение нельзя признать корректным и даже вообще решением. По этой же причине некорректно совместно обрабатывать сами исходные данные, представленные в различных единицах измерения (натуральных или ценовых), например, складывать расстояния, представленные в километрах и в метрах, а затем прибавлять к ним тонны и килограммы, а затем еще и безразмерные величины. Вроде это очевидно, но, как это ни удивительно, но как показывает опыт на практике это довольно часто делается, а потом еще на основе подобного «анализа» делаются и выводы. Очень странно, что обычно на это не обращают никакого внимания при использовании исходных данных, представленных в различных единицах измерения. Например, даже в таких популярных (причем, совершенно заслуженно) системах, как SPSS, в подсистеме кластерного анализа приводятся примеры кластерного анализа над исходными данными, представленными в различных единицах измерения.

Для решения поставленной задачи в АСК-анализе проводится последовательное повышение степени формализации исходных данных до уровня, обеспечивающего их обработку на компьютере в программной системе. После выполнения когнитивной структуризации и формализации предметной области осуществляется синтез модели.

Рассмотрим на нашем простом примере, как осуществляется формализация предметной области и преобразование исходных данных в информацию и знания.

В системе «Эйдос» есть подсистема _15, содержащая большое количество различных программных интерфейсов для импорта в систему «Эйдос» исходных данных из внешних баз данных различных стандартов (рисунок 3):

Рисунок 3. Меню выхода на подсистему _15 системы «Эйдос»

Для импорта исходных из таблиц, стандарта таблицы 1 и автоматизированной формализации предметной области служит программный интерфейс _152. На рисунке 4 приведен Help этого режима, в котором люъясняются требования к файлу исходных данных (поэтому в тексте мы повторять их не будем), а на рисунке 5 - меню задания параметров импорта данных из внешних баз данных в систему «Эйдос». В первой экранной форме на рисунке 5 задаются параметры преобразования, а на второй приведена таблица, характеризующая модель, которая будет создана в результате применения этих параметров. Если пользователя что-либо не устраивает в этих результатах, то он имеет возможность скорректировать параметры преобразования.

Рисунок 4. Help режима _152 системы «Эйдос»

Рисунок 5. Меню режима _152 задания параметров импорта данных

из внешних баз данных в систему «Эйдос»

В результате работы режима _152 системы «Эйдос» на основе заданных параметров модели автоматически формируются справочники классификационных и описательных шкал и градаций номинального (текстового), порядкового (целочисленного) и числового типа (последние - в форме интервальных значений), а также исходная (обучающая) выборка (таблицы 3-7). На шкалах номинально типа определены отношения только тождества и различия. На порядковых шкалах, кроме того, определены отношения больше и меньше между градациями. На числовых шкалах, кроме того, есть начало отсчета и единица измерения и над градациями определены все арифметические операции. Необходимо отметить, что формализация числовых значений в виде интервальных значений является вполне естественной и хорошо обоснованной, т.к. фактически результатом измерения является не просто число, а число, заданное с определенной точностью или погрешностью, т.е. относящееся к некоторому интервалу. Количество интервалов на числовой шкале должно определяться таким образом, чтобы все они были представлены как минимум 5 примерами, что считается минимальной статистикой. Это значит, что если исследуемая выборка мала, то интервалы должны быть велики, и погрешность модели будет вынужденно велика, и наоборот, если по мере увеличения объема исходной выборки интервалы могут быть уменьшены и точность модели возрастает. Иначе говоря, невозможно точно отразить предметную область, если у нас недостаточно данных. Это можно считать каким-то вариантом теоремы Котельникова об отсчетах http://ru.wikipedia.org/wiki/Теорема%20Котельникова .

Таблица 3 - СПРАВОЧНИК КЛАССИФИКАЦИОННЫХ ШКАЛ

KOD

NAME

1

СОСТАВ СЛЕДУЕТ НА

2

НАИМЕНОВАНИЕ СОСТАВА

Таблица 4 - СПРАВОЧНИК КЛАССИФИКАЦИОННЫХ ШКАЛ И ГРАДАЦИЙ

KOD

NAME

1

СОСТАВ СЛЕДУЕТ НА-ВОСТОК

2

СОСТАВ СЛЕДУЕТ НА-ЗАПАД

3

НАИМЕНОВАНИЕ СОСТАВА-Состав-01

4

НАИМЕНОВАНИЕ СОСТАВА-Состав-02

5

НАИМЕНОВАНИЕ СОСТАВА-Состав-03

6

НАИМЕНОВАНИЕ СОСТАВА-Состав-04

7

НАИМЕНОВАНИЕ СОСТАВА-Состав-05

8

НАИМЕНОВАНИЕ СОСТАВА-Состав-06

9

НАИМЕНОВАНИЕ СОСТАВА-Состав-07

10

НАИМЕНОВАНИЕ СОСТАВА-Состав-08

11

НАИМЕНОВАНИЕ СОСТАВА-Состав-09

12

НАИМЕНОВАНИЕ СОСТАВА-Состав-10

Градации второй классификационной шкалы, т.е. все градации с 3-й по 12-ю удалены вручную, т.к. интересует не определение номера состава, а его идентификация с обобщенными образами классов составов идущих на восток и на запад.

Таблица 5 - СПРАВОЧНИК ОПИСАТЕЛЬНЫХ ШКАЛ

KOD

NAME

1

ФОРМА ВАГОНА

2

ДЛИНА ВАГОНА

3

КОЛИЧЕСТВО ОСЕЙ ВАГОНА

4

ГРУЗОПОДЪЕМНОСТЬ ВАГОНА

5

ВИД СТЕНОК ВАГОНА

6

ВИД КРЫШИ ВАГОНА

7

ВИД ГРУЗА (КОЛ-ВО И ВИД)

8

КОЛИЧЕСТВО ВАГОНОВ В СОСТАВЕ

Восьмая шкала введена вручную, т.к. соответствующие признаки являются признаками второго уровня иерархии, если рассматривать состав, как систему, т.е. это не признаки вагонов, а признаки состава в целом.

Таблица 6 - СПРАВОЧНИК ОПИСАТЕЛЬНЫХ ШКАЛ И ГРАДАЦИЙ

KOD

NAME

Примечание:

тип шкалы

1

ФОРМА ВАГОНА-U-образная

Номинальный

(текстовый)

2

ФОРМА ВАГОНА-V-образная

3

ФОРМА ВАГОНА-Овальная

4

ФОРМА ВАГОНА-Прямоугольная

5

ФОРМА ВАГОНА-Ромбовидная

6

ДЛИНА ВАГОНА-Длинный

Номинальный

(текстовый)

7

ДЛИНА ВАГОНА-Короткий

8

КОЛИЧЕСТВО ОСЕЙ ВАГОНА-002

Порядковый

(целочисленный)

9

КОЛИЧЕСТВО ОСЕЙ ВАГОНА-003

10

ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 1/5-{30.00, 40.00}

Числовой

(интервальные

значения)

11

ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 2/5-{40.00, 50.00}

12

ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 3/5-{50.00, 60.00}

13

ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 4/5-{60.00, 70.00}

14

ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 5/5-{70.00, 80.00}

15

ВИД СТЕНОК ВАГОНА-Двойные

Номинальный

(текстовый)

16

ВИД СТЕНОК ВАГОНА-Одинарные

17

ВИД КРЫШИ ВАГОНА-Гофрированная

18

ВИД КРЫШИ ВАГОНА-Овальная

19

ВИД КРЫШИ ВАГОНА-Отсутствует

20

ВИД КРЫШИ ВАГОНА-Прямая

21

ВИД КРЫШИ ВАГОНА-Треугольная

22

ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 длинный прямоугольник

Номинальный

(текстовый)

23

ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 квадрат

24

ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 овал

25

ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 перевернутый треугольник

26

ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 прямоугольник

27

ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 ромб

28

ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 треугольник

29

ВИД ГРУЗА (КОЛ-ВО И ВИД)-2 овала

30

ВИД ГРУЗА (КОЛ-ВО И ВИД)-2 прямоугольника

31

ВИД ГРУЗА (КОЛ-ВО И ВИД)-3 квадрата

32

ВИД ГРУЗА (КОЛ-ВО И ВИД)-3 овала

33

ВИД ГРУЗА (КОЛ-ВО И ВИД)-Отсутствует

Таблица 7 - ИСХОДНАЯ (ОБУЧАЮЩАЯ) ВЫБОРКА

Код

объекта

Наименование

объекта

Коды

классов

Коды признаков

33

Состав-01

1

4

7

8

10

11

16

19

24

4

6

9

 

 

 

16

19

27

4

7

8

10

11

16

21

28

 

 

 

6

8

12

13

16

19

31

36

34

Состав-02

1

4

7

8

10

11

16

20

29

2

7

8

 

 

 

16

19

26

1

7

8

10

16

19

28

35

35

Состав-03

1

4

6

9

14

16

20

25

5

7

8

10

 

 

 

16

20

28

4

7

8

10

11

16

19

24

 

 

 

35

36

Состав-04

1

4

7

8

10

11

16

19

23

3

7

8

 

 

 

11

16

18

27

4

7

8

10

11

15

19

 

 

 

1

7

8

10

16

19

28

36

37

Состав-05

1

4

7

8

10

11

16

20

24

4

6

9

 

 

 

16

20

22

4

7

8

10

11

15

19

28

 

 

 

35

38

Состав-06

2

4

7

8

10

11

16

19

28

4

6

8

 

 

 

13

16

20

32

34

39

Состав-07

2

4

6

8

12

13

16

17

33

1

7

8

 

 

 

16

19

28

4

7

8

10

11

15

19

24

 

 

 

35

40

Состав-08

2

1

7

8

10

16

19

24

4

6

9

14

 

 

 

20

22

34

41

Состав-09

2

2

7

8

10

16

19

24

4

7

8

10

 

 

 

16

19

26

4

6

8

12

13

16

17

22

 

 

 

7

8

10

16

19

24

36

42

Состав-10

2

4

6

8

12

13

16

19

30

1

7

8

 

 

 

16

19

26

34

Обучающая выборка состоит из трех таблиц баз данных:

- первая включает коды объектов выборки и наименование источника данных;

- вторая содержит коды классов, к которым принадлежит объект;

- третья содержит коды признаков объекта.

Первая таблица связана со второй и третьей отношением «один ко многим».

Объекты исходной выборки формируются путем кодирования строк таблицы исходных данных (таблица 1) с применением справочников классификационных и описательных шкал и градаций (таблицы 4 и 6), но при этом могут формироваться и объединенные объекты из строк по классам. Суммарное количество классификационных и описательных шкал, с которым работает режим _152, не ограничено, но на практике составляет не более 256, что связано с ограничением MS Excel 2003. В более поздних версиях MS Excel это ограничение снято, но из них исключен XLS-DBF-конвертер. Нет никаких принципиальных проблем снять все эти ограничения и путем разработки небольших специализированных программ, объединяющих листы MS Excel (что и делалось при необходимости автором) или использования имеющихся конвертеров. Суммарное количество градаций классификационных шкал, как и градаций описательных шкал в текущей версии системы «Эйдос» ограничено 4000, но в будущих версиях это ограничение планируется снять.

База данных, представленная в таблице 1, рассматриваемая совместно с таблицами 3, 4, 5, 6 и 7, является результатом формализации предметной области.

После формализации предметной области осуществляется синтез и верификация (оценка достоверности) модели, а также повышение ее эффективности [2]. Синтез модели включает расчет на основе эмпирических данных, представленных в исследуемой выборке, следующих матриц (таблицы 8, 9, 10):

- матрицы абсолютных частот (большинство статических систем этим и ограничиваются);

- матрицы условных и безусловных процентных распределений (в некоторых системах это также делается);

- матрицы информативностей или матрицы знаний (что осуществляется только в АСК-анализе).

Таблица 8 - МАТРИЦА АБСОЛЮТНЫХ ЧАСТОТ

Код

Наименование

Восток

Запад

Сумма

1

ФОРМА ВАГОНА-U-образная

2

3

5

2

ФОРМА ВАГОНА-V-образная

1

1

2

3

ФОРМА ВАГОНА-Овальная

1

 

1

4

ФОРМА ВАГОНА-Прямоугольная

11

8

19

5

ФОРМА ВАГОНА-Ромбовидная

1

 

1

6

ДЛИНА ВАГОНА-Длинный

4

5

9

7

ДЛИНА ВАГОНА-Короткий

13

8

21

8

КОЛИЧЕСТВО ОСЕЙ ВАГОНА-002

14

12

26

9

КОЛИЧЕСТВО ОСЕЙ ВАГОНА-003

3

1

4

10

ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 1/5-{30.00, 40.00}

11

6

17

11

ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 2/5-{40.00, 50.00}

9

2

11

12

ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 3/5-{50.00, 60.00}

1

3

4

13

ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 4/5-{60.00, 70.00}

1

4

5

14

ГРУЗОПОДЪЕМНОСТЬ ВАГОНА: 5/5-{70.00, 80.00}

1

1

2

15

ВИД СТЕНОК ВАГОНА-Двойные

2

1

3

16

ВИД СТЕНОК ВАГОНА-Одинарные

15

11

26

17

ВИД КРЫШИ ВАГОНА-Гофрированная

 

2

2

18

ВИД КРЫШИ ВАГОНА-Овальная

1

 

1

19

ВИД КРЫШИ ВАГОНА-Отсутствует

10

9

19

20

ВИД КРЫШИ ВАГОНА-Прямая

5

2

7

21

ВИД КРЫШИ ВАГОНА-Треугольная

1

 

1

22

ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 длинный прямоугольник

1

2

3

23

ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 квадрат

1

 

1

24

ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 овал

3

4

7

25

ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 перевернутый треугольник

1

 

1

26

ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 прямоугольник

1

2

3

27

ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 ромб

2

 

2

28

ВИД ГРУЗА (КОЛ-ВО И ВИД)-1 треугольник

5

2

7

29

ВИД ГРУЗА (КОЛ-ВО И ВИД)-2 овала

1

 

1

30

ВИД ГРУЗА (КОЛ-ВО И ВИД)-2 прямоугольника

 

1

1

31

ВИД ГРУЗА (КОЛ-ВО И ВИД)-3 квадрата

1

 

1

32

ВИД ГРУЗА (КОЛ-ВО И ВИД)-3 овала

 

1

1

33

ВИД ГРУЗА (КОЛ-ВО И ВИД)-Отсутствует

 

1

1

34

КОЛИЧЕСТВО ВАГОНОВ В СОСТАВЕ-2

 

3

3

35

КОЛИЧЕСТВО ВАГОНОВ В СОСТАВЕ-3

3

1

4

36

КОЛИЧЕСТВО ВАГОНОВ В СОСТАВЕ-4

2

1

3

 

Кол-во объектов обуч.выборки

5

5

10

Матрица абсолютных частот (таблица 1) по сути, является таблицей сопряженности См.: http://www.machinelearning.ru/wiki/index.php?title=Таблица%20сопряженности. Таблица 1, рассматриваемая совместно с таблицами 3, 4, 5, 6, 7, а также 8, 9 и 10, в соответствии с терминологией, предлагаемой в таблице 2, является уже не базой данных, а информационной базой.

Если же среди классов выделить целевые и нежелательные, то таблица 10 может рассматриваться уже как база знаний, т.к. содержит количественные оценки степени полезности (и вредности) информации для достижения целей.

Рассмотрим, используя вышеперечисленные критерии, в какой степени эти матрицы пригодны для решения задач прогнозирования и принятия решений, а также исследования предметной области (например, кластерного анализа) и какую работу необходимо выполнять вручную и автоматизировать, чтобы повысить их пригодность для этого.

Матрица абсолютных частот отражает, сколько раз каждая градация факторов встречается у объектов каждого класса.

Проблема размерностей при расчете матрицы абсолютных частот решается тем, что сами размерные исходные данные с использованием шкал различных типов (номинальных, порядковых и числовых) заменяются на факты их встречи, т.е. на частоты встреч тех или иных их интервальных значений [31] в различных группах, соответствующих классам. Фактом является наблюдение определенного экстенсионального значения (признака, градации фактора) у объекта исходной выборки, относящегося к некоторой интенсиональной категории (классу).

Однако вышеперечисленные задачи решать на основе абсолютных частот можно только в том случае, если по каждому классу в исходных данных было приведено одинаковое количество примеров, что на практике встречается крайне редко и является трудно достижимым при сборе исходных данных, за исключением случая жестко спланированного управляемого эксперимента (обычно очень небольшой размерности). Можно, конечно, вручную учитывать это различие, однако реально это возможно сделать только на моделях очень небольшой размерности и требует специальных усилий (работы).

Чтобы результаты решения вышеперечисленных задач не зависели от количества примеров по разным классам (т.е. были инвариантны относительно формы частотных распределений примеров по классам, частотного распределения признаков и др.) можно с помощью формул (1) перейти от матрицы абсолютных частот к матрице условных и безусловных процентных распределений (матрице относительных частот или частостей Частота (абсолютная частота) - количество элементов совокупности, которые имеют данное значение признака. Частость (относительная частота) - отношение частоты к общему количеству исследуемых элементов, т.е. объему совокупности. ) (таблица 9).

(1)

где:

Nij - суммарное количество наблюдений факта: "действовал i-й фактор и объект перешел в j-е состояние";

Ni - суммарное количество встреч i-го фактора у всех объектов;

W - количество кла...


Подобные документы

  • База знаний - структурированная информация из области знаний для использования кибернетическим устройством (человеком). Классификация, структура, формат представления знаний, интеллектуальные системы поиска информации. Базы знаний на примере языка Пролог.

    презентация [51,3 K], добавлен 17.10.2013

  • Изучение фреймового способа представления знаний, его специфики и основных характеристик. Обзор других методов представления знаний, их плюсы и минусы. Иерархическая структура данных фрейма. Механизм управления выводом с помощью присоединенной процедуры.

    реферат [2,6 M], добавлен 22.12.2014

  • Сущность данных и информации. Особенности представления знаний внутри ИС. Изучение моделей представления знаний: продукционная, логическая, сетевая, формальные грамматики, фреймовые модели, комбинаторные, ленемы. Нейронные сети, генетические алгоритмы.

    реферат [203,3 K], добавлен 19.06.2010

  • Изучение в реальных условиях способов представления знаний во Всемирной сети. Представления данных в интернет и способы эффективной публикации данных. Конфигурация Web-сервера на виртуальном хостинге. Настройка и отладка работы сайтов на разных CMS.

    отчет по практике [947,2 K], добавлен 09.02.2012

  • Основные модели представления знаний. Системы поддержки принятия решений. Диаграмма UseCase. Разработка базы данных на основе трех моделей: продукционные правила, семантическая сеть, фреймовая модель. Программная реализация системы принятия решений.

    курсовая работа [715,1 K], добавлен 14.05.2014

  • Проблема представления знаний. Представление декларативных знаний как данных, наделенных семантикой. Представление процедурных знаний как отношений между элементами модели, в том числе в виде процедур и функций. Представление правил обработки фактов.

    курсовая работа [33,1 K], добавлен 21.07.2012

  • Классы и группы моделей представления знаний. Состав продукционной системы. Классификация моделей представления знаний. Программные средства для реализации семантических сетей. Участок сети причинно-следственных связей. Достоинства продукционной модели.

    презентация [380,4 K], добавлен 14.08.2013

  • Представление знаний в когнитологии, информатике и искусственном интеллекте. Связи и структуры, язык и нотация. Формальные и неформальные модели представления знаний: в виде правил, с использованием фреймов, семантических сетей и нечетких высказываний.

    контрольная работа [29,9 K], добавлен 18.05.2009

  • Определения знаний и приобретения знаний человеком. Виды знаний и способы их представления. Приобретение и извлечение знаний. Визуальное проектирование баз знаний как инструмент обучения. Программное обеспечение для проведения лабораторных работ.

    дипломная работа [960,9 K], добавлен 12.12.2008

  • Анализ процессов диагностики повреждений трубопровода. Разработка модели продукционной базы знаний: обзор методов представления знаний, описание создания базы знаний и разработки механизма логического вывода. Экономическое обоснование концепции проекта.

    дипломная работа [3,0 M], добавлен 16.04.2017

  • Проблема представления знаний в компьютерных системах – одна из основных проблем в области искусственного интеллекта. Исследование различных моделей представления знаний. Определения их понятия. Разработка операции над знаниями в логической модели.

    курсовая работа [51,9 K], добавлен 18.02.2011

  • Основные виды и технологии интеллектуальных информационных систем. Аспекты представления знаний. Функциональная структура использования ИИС. Интеллектуальная поддержка дистанционного образования и экстерната. Электронные учебники и тесты.

    контрольная работа [93,8 K], добавлен 29.11.2006

  • Анализ существующих методов и средств выявления требований. Стадии разработки программного обеспечения. Структуризация требований в базе знаний на основе расширенной классификации. Наблюдение за бизнесом заказчика. Моделирование бизнес-процессов компании.

    диссертация [2,1 M], добавлен 21.02.2016

  • Фреймовые модели представления знаний. Разработка структуры фреймов для реализации экспертной системы. Разработка экспертной системы с фреймовой моделью представления знаний. Редактирование базы фактов кандидатов и описание режима консультации.

    курсовая работа [1,3 M], добавлен 13.10.2012

  • Фреймы как один из распространенных формализмов представления знаний в электронных системах, их классификация и типы, структура и элементы. Иерархические фреймовые структуры и принципы их построения. Код программы Интерфейс. Разработка программного кода.

    лабораторная работа [524,2 K], добавлен 02.11.2013

  • Data Mining как процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации). Его закономерности и этапы реализации, история разработки данной технологии, оценка преимуществ и недостатков, возможности.

    эссе [36,8 K], добавлен 17.12.2014

  • Рассмотрение понятия и истории возникновения систем поддержки принятия решения. Приспособленность информационных систем к задачам повседневной управленческой деятельности. Понятие термина "интеллектуальный анализ данных". Методика извлечения знаний.

    реферат [79,8 K], добавлен 14.04.2015

  • Построение баз знаний для семантической сети. Цели создания и язык представления онтологий. Структура исследований в области многоагентных интеллектуальных информационных систем, архитектура агента. Экономическое обоснование разработки базы знаний.

    дипломная работа [1,6 M], добавлен 29.09.2013

  • Потребность отражения человеческих знаний в памяти компьютера. Модели представления знаний. Продукционные и формально-логические модели. Исчисление предикатов первого порядка. Основные свойства теории фреймов. Аналитическая платформа Deductor.

    курсовая работа [538,2 K], добавлен 09.04.2015

  • Проектирование системы принятия решения для аттестации знаний абитуриента на основе тестирования. Особенности создания базы данных и плана перевозок с минимизацией затрат. Разработка информационно-логической модели предметной области "Книга" с атрибутами.

    курсовая работа [7,9 M], добавлен 10.10.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.