Методы и модели автоматического построения онтологий на основе генетического и автоматного программирования

Заимствование понятия онтологии из философии, его активное использование в настоящее время в искусственном интеллекте и информатике. Разработка декларативных методов автоматического построения онтологий с использованием продукционной модели знаний.

Рубрика Программирование, компьютеры и кибернетика
Вид автореферат
Язык русский
Дата добавления 14.02.2018
Размер файла 810,0 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Если для любых X и Y отношение включения YХ истинно, то это означает, что рассматриваемый термин tjNS обладает более полным описанием, чем термин tiTS, и его знак-фрейм FST необходимо дополнить недостающей информацией из знака-фрейма FNS, затем удалить всю информацию из знака-фрейма FNS кроме заголовочной. В заголовочную часть добавляется ссылка на знак-фрейм FTS.

Надо отметить, что вероятность существования отношений равенства и включения на множествах X и Y невелика. Наиболее частым является случай, когда истинно отношение YХ. Для его анализа лучше всего использовать аппарат нечеткой логики, который позволяет рассматривать различные ситуации, например: часть свойств совпала в основном, и мощность конечного множества пересечения родовых понятий большая, мощность конечного множества пересечения видовых понятий небольшая, а мощности множеств пересечения других множеств ничтожно малы, то можно сказать, что термин tiTS в научном тексте рассматривается под другим углом. Этой ситуации, скорее всего, соответствует вывод, что в номенклатуре определен новый вид tjNS как отображение термина tiTS.

Таким образом, проекция терминосистемы TS на плоскость рассматриваемого научного текста в виде номенклатуры NS позволяет уточнять термины терминосистемы, определять новые виды терминов, новые компоненты терминов, то есть уточнять терминологию предметной области.

Для реализации анализа отношения YХ хорошо подходят методы нечеткого регулирования. Рассмотрим основные аспекты их применения.

Отношение YlХl, l=1ч5, может быть истинно для (Yl, Хl,), где индекс l последовательно нумерует множества в следующем порядке: свойств, терминов-род; терминов-вид; терминов-целое; терминов-часть. На практике могут встречаться различные комбинации истинности отношения YlХl. Двумя наиболее интересными являются случаи, когда отношение YlХl истинно при l {1,2,3} и l {1,4,5}. Рассмотрим только первый случай.

Для нечеткого логического вывода анализа отношения YХ применим известный метод нечеткого регулирования Mamdani. Основные компоненты нечеткого вывода рассмотрим на примере определения степени достоверности того, что термин tjNS является новым видом термина ti-1TS.

Основой для проведения операции нечеткого логического вывода является база правил, содержащая нечеткие высказывания в форме "Если-то" и функции принадлежности для соответствующих лингвистических термов. Здесь рассмотрим только ядра правил для определения степени достоверности новизны термина tjNS относительно термина ti-1TS.

Условие ядра (A): составное нечеткое высказывание вида "ISi = t И DTISi = t И DNISi = t", где индекс i{1,2,3} последовательно нумерует: множества свойств, множества родовых терминов, множества видовых терминов;

ISi - обозначения входных лингвистических переменных InterSection, соответствующих мощностям множеств YlХl;

DTISi - обозначения входных лингвистических переменных DifferenceTSInterSection, соответствующих мощностям множеств Хl/ (YlХl);

DNISi - обозначения входных лингвистических переменных DifferenceNSInterSection, соответствующих мощностям множеств Yl/ (YlХl);

терм t Т1 = {Низкая (Little), Средняя (Mean), Высокая (Big) }.

Заключение ядра (B): нечеткое высказывание вида "H_NKTi = t", где

H_NKT - обозначение выходной лингвистической переменной степень различия характеристик термина;

терм t Т2 и Т2 = {Низкая (Low), Средняя (Normal), Высокая (High) }, модификатор M1 и M1 = {Ниже (Down), Выше (Up) }.

Так как условие ядра нечетких множеств лингвистических переменных включает три переменные, и каждое правило использует каждую из переменных в посылке, то было построено m=33=27 последовательностей длины три из переменных ISi, DTISi, DNISi. Анализ построенных правил показал, что не все правила могут быть использованы для проведения операции нечеткого логического вывода. Это объясняется тем, что некоторые наборы значений входных лингвистических переменных не имеют смысла в разрезе решаемой задачи. Поэтому из рассмотрения были исключены шесть правил. Таким образом, база правил содержит нечеткие правила Ri, где i=1чm, m= 21 и является полной. На рис.2 показан фрагмент базы правил:

Рис. 2. Фрагмент базы правил определения степени различия свойств терминов

Более подробное описание использования метода нечеткого регулирования Mamdani приведено в работе. Результатом нечеткого логического вывода по рассмотренной базе правил является числовое значение выходной переменной "степень достоверности новизны термина". В зависимости от полученного значения выполняются те или иные действия.

Методы построения семантических сетей терминосистемы и номенклатуры демонстрируют возможность первичного анализа понятий семантической сети в процессе её создания на основе сравнения их интенсионалов и применения метода поиска по образцу. Для этого выполняется анализ теоретико-множественных отношений между соответствующими компонентами-множествами сравниваемых терминов. Размытый характер мощности множества пересечения этих компонентов обусловил использование нечеткого логического вывода. В работе показан способ введения нечеткости и возможности применения методов нечеткого регулирования.

Кроме этого, методы нечеткого регулирования используются для разрешения конфликтного множества решений, которое иногда может иметь место в различных задачах ЕЯ-обработки научного текста. Данные методы, основанные на использовании систем нечетких продукций, обеспечивают единство подходов в представлении и обработке методов построения онтологий.

Таким образом, в данном разделе разработаны и исследованы декларативные методы построения онтологий:

показано, что методы естественно-языковой обработки научного текста, являющиеся базой для методов построения онтологий, могут быть представлены в виде классических систем продукций. Для разрешения возможных конфликтных ситуаций предложено использовать нечеткие продукционные правила;

разработаны методы построения понятийного базиса онтологии в виде семантических сетей знаков-фреймов, представляющих собой терминосистему;

предложен метод соединения онтологий с применением аппарата нечеткого регулирования. Метод обеспечивает соединение онтологий, создаваемых из нескольких терминологических словарей путем анализа интенсионалов понятий, позволяя получить объективную терминосистему, а также соединение терминосистемы с номенклатурой, построенной на основе извлечения знаний из научных текстов. Главное достоинство этого метода заключается в том, что он позволяет строить иерархию онтологий по предметной области.

В четвертом разделе рассмотрена предложенная модель генерации систем продукций, которая описывается кортежем: MGSP = <KC, GASP>, где

KC - компонент "Конструктивные знания эксперта", GASP - компонент "Генетический алгоритм".

Компонент "Конструктивные знания эксперта". Каждая система продукций представляет собой модель решения (метод) некоторой прикладной задачи, например, задачи выделения словосочетаний или распознавания некоторого семантического отношения. Генератор (генетический алгоритм) должен настраиваться на прикладную задачу посредством заранее сформированной спецификации её предметной области. Спецификация формируется на основе конструктивных знаний эксперта - знаний о наборах возможных структур объектов и взаимодействии между их частями. Используем упрощенную модель предметной области: МSA = <Tk, Kk>, где Tk - множество понятий; Kk - кортеж, описывающий множество конструктов и их взаимосвязи. В решаемой задаче компонентами кортежа Kk являются множество конструктов Kkc, семейство множеств допустимых значений элементов конструктов Kkv, множество графов Kkg, определяющих допустимые взаимосвязи конструктов.

Рассмотрим создание модели МSA на примере метода извлечения знаний из терминологических словарей о квалитативном отношении "Целое - часть". Прежде всего определим понятийное множество Tk метода, которое включает следующие понятия: предложение р, композиционное словосочетание (КСС) k, именное субстантивное словосочетание (ИСС) s, семантическое отношение (СемОтношение) r, заголовочный термин z, термин t, лексема l, список q, элемент списка (ЭлСписка) e, глагол v, терм-спутникR tr, терм-спутникX tx, терм-спутникY ty, признак h, характеристика x, часть речи c1 (ЧастьРечи), падеж c2, значение.

В работе введена модель рассуждения эксперта: в каждом методе есть объект исследования; объект исследования содержит некоторые компоненты; компоненты, в свою очередь, могут включать в себя другие компоненты; все компоненты могут иметь характеристики; характеристики являются некоторыми свойствами; свойства имеют некоторые значения, тогда в зависимости от ситуации, которая определяется значениями характеристик и взаимным расположением компонентов (предпорядком), можно распознать в объекте анализа искомый элемент схемы знака.

В рассматриваемом методе объектом исследования является предложение, а искомым элементом схемы знака - семантическое отношение "Целое-часть". Сформированное множество конструктов Kkc как множество отношений Ri имеет вид:

Kkc={Ri| Ri={ (x,y) | xХ; yY; ХY}; i=1чn}, (2) где Х, Y - множества понятий, используемых в методе.

Для рассматриваемого метода n=10. Тогда в общем виде множество Kkc составляют следующие отношения:

R1={ (x,y) | x содержит y, x{Предложение}, yA};

R2={ (x,y) | x содержит y, xВ, yC};

R3={ (x,y) | x содержит y, x{ИСС}, yD};

R4={ (x,y) | x содержит y, x{СемОтношение}, yE};

R5={ (x,y) | x имеет y, xF, y{Характеристика}};

R6={ (x,y) | x есть y, x{Характеристика}, yG};

R7={ (x,y) | x есть y, x{ЭлементСписка}, yH};

R8={ (x,y) | x имеет y, xI, y{Значение}};

R9={ (x,y) | x имеет y, xA, y{Индекс}}.

R10={ (x,y) | x эквивалентен х, xJ}}.

Каждый метод имеет собственное семейство множеств конструктов Kkc, которое должно быть конкретизировано. Для конкретизации отношения Ri представлены в виде xRiy. Тогда для рассматриваемого метода при А = {КСС, ИСС, СемОтношение, термин, лексема, список} первое отношение имеет вид:

R1={<Предложение>содержит <КСС>,

<Предложение> содержит<ИСС>,

<Предложение>содержит<СемОтношение>,

<Предложение>содержит<Термин>,

<Предложение>содержит<Лексема>,

<Предложение>содержит<Список>}.

Первые четыре множества конструктов с R1 по R4 отражают возможную иерархическую структуру понятий предметной области. Пятый конструкт позволяет задать характеристики понятий, если таковые имеются. Для данного метода важны характеристики следующих понятий F = {ИСС, Термин, Лексема, ЭлементСписка, Терм-спутникХ, Терм-спутникY}. Следующий конструкт уточняет значение характеристики как категории посредством отношения “IS-A”, G = {Падеж, ЧастьРечи}. Седьмой конструкт также уточняет значение понятия "Элемент списка" как категории, Н = {ИСС, Термин, Лексема}. Восьмой конструкт необходим для задания конкретных значений характеристикам понятий и некоторым вспомогательным понятиям, I = {Глагол, Терм-спутникR, Терм-спутникХ, Терм-спутникY, Признак, ЧастьРечи, Падеж}. Для определения местоположения компонентов в предложении используется девятый конструкт, задающий положение основных понятий в предложении посредством индекса. В данном конструкте в качестве левой части используются компоненты множества А. Последний конструкт связан с введением отношения тождества, которое в данном методе необходимо для проверки значений характеристик, J={Падеж, ЧастьРечи, Индекс}.

Таким образом, создается некоторая иерархическая организация, которая хорошо согласуется с теоретическими основаниями когнитивной психологии. Согласно ей при мышлении используются не языковые конструкции как таковые, а их коды в форме некоторых абстракций, которые образуют иерархические структуры.

Пример взаимосвязи конструктов представлен на рис.3. В корне графа всегда находится объект исследования. Вершины первого уровня графа содержат основные компоненты предложения. Верхние дуги графа в основном помечены глаголом "содержит", что показывает иерархическую вложенность понятий. Листья графа содержат константные значения или индекс. Из анализа существующих продукций, разработанных для данного метода, было выявлено, что первый уровень вершин V1 графа могут составлять множество из одиннадцати альтернативных наборов компонентов: V1= { (k, r, q|s|l), (s, r, q|s|l), (z, r, q|s|t), (s|z, r, q, h) }.

Это множество определяет возможные ветки дерева: k, s, z, r, q, l, t, h. В работе приведены возможные варианты построения веток метода извлечения знаний об отношении "Целое - часть". Ниже приведены варианты построения ветки k.

Для лучшего понимания приведенного описания веток рассмотрим в ветке branch_k вторую строку - <>. Она соответствует изображению ветки k на рисунке 3. Запись варианта означает, что вершина k распадается на две ветки с вершинами s и ветку с вершиной index, которая является листом. Ветки с вершинами s представляют собой последовательно расположенные вершины, заканчивающиеся листьями с константным значением.

Рис.3. Пример графовой структуры, отражающей взаимосвязь конструктов метода извлечения знаний о семантическом отношении "Целое - часть"

Итак, каждое продукционное правило может быть представлено в виде дерева. Причем дерево строится на основе конструктов, состоящих из двух вершин и помеченной дуги. Допустимое соединение конструктов задается с помощью описаний веток дерева.

Из этого следует, что спецификация метода включает: множество понятий Тk, используемых в методе; семейство множеств конструктов Kkc, определяющих связь между двумя понятиями; множество графов Kkg в виде множества альтернативных кортежей, компоненты которых составляют вершины первого уровня графа, и множества возможных вариантов построения веток. Этой информации достаточно для генерации ядер продукционных правил, входящих в систему продукций. В качестве средства описания спецификации метода в работе использован язык XML.

Компонент "Генетический алгоритм GASP". Модель генератора систем продукций построена с применением генетического программирования.

Структура хромосомы имеет вид дерева продукции. Молекула ДНК состоит из динамического числа генов и представляется в виде <i 1, lc, 2, lc, …, lc, m>, где i, 1, 2, …, m, lc - гены, max (m) =7; i, j Tk, Tk - входной алфавит, |Tk|= k; символ `' обозначает глагол; lc - логическая связка "И" или "ИЛИ".

Например, если i= p, 1,= k, 2 = h, то граф молекулы ДНК будет иметь вид, изображенный на рис.4. Пара смежных веток, исходящих из одной вершины, связана между собой логической связкой "И" или "ИЛИ". Глагол может иметь отрицание - унарную логическую связку '', которая записывается над стрелкой ''.

Оценка особи. По каждой разрешенной ветке вычисляется Fitness-функция Fi по формуле Дайса: Fi = 2n (G1G2) / (n (G1) +n (G2)), где G1 - ветка дерева, описанная в спецификации метода; G2 - ветка порожденного дерева. Графы G1 и G2 имеют одинаковый корень. Общая формула для Fitness-функции F особи вычисляется как сумма Fi всех разрешенных веток в сгенерированном дереве. В процессе оценивания заполняется таблица помет, в которой по каждой особи отмечается, какой вид генетического оператора рекомендуется использовать для улучшения её свойств.

После оценивания выполняются операторы селекции, скрещивания и мутации с целью улучшения особей популяции. Когда функция оценки совокупности особей достигает единичного значения, данная особь копируется в конечное множество. В данном алгоритме используются классические одно - и двухточечные операторы кроссинговера, мутации вида: L1-мутация, Branch-мутация, А-мутация.

Оценка достоверности сгенерированных систем продукций. Для первичной оценки достоверности сгенерированной системы продукций использован подход, описанный в работе А.А. Асанова "Генетический алгоритм построения экспертных решающих правил в задаче многокритериальной классификации". Для этого введены коэффициенты абсолютной ошибки Eabs и относительной ошибки Erel, которые вычисляются по формулам:

где Kkc - множество исходных конструктов метода, определенных по формуле (2); - множество конструктов метода в порожденных продукциях.

Для метода "Распознавание семантического отношения "Целое - часть" число исходных конструктов |Kkc| = 43, количество конструктов в порожденных продукциях: Тогда коэффициент абсолютной ошибки будет равен Коэффициент относительной ошибки:

В работе введено понятие степени покрытия cd множеством порожденных конструктов множества исходных. Для порожденных множеств конструктов она равна Таким образом, полученное значение степени покрытия cd показывает, что достоверность порожденных продукций достаточно высока.

Для окончательной оценки порожденной системы продукций используется объект, внешний для генетического алгоритма - система логического резолютивного вывода LogResDed (Logical Resolutive Deduction). Система LogResDed должна окончательно определить приспособленность совокупности особей к решению поставленной прикладной задачи.

Предложенная модель генератора преобразователя продукционных правил позволяет порождать модели преобразователей, способных отображать продукции, представленные на ограниченном подмножестве естественного языка, в формулы логики предикатов первого порядка, а их, в свою очередь, во множества дизъюнктов.

Анализ результатов вычислительных экспериментов показал, что генетический алгоритм выдает лучший результат при использовании ряда операторов скрещивания 33Simple33Arithm34MixGen (рис.5). Во-первых, применение ряда операторов показало наилучшую сходимость алгоритма. Во-вторых, графики лучшей и средней функций приспособленности особи имеют вид возрастающей функции. При этом среднее значение не становится очень близким и не удаляется сильно от лучшего значения. Все это позволяет утверждать об удовлетворительном качестве популяции. Различие между лучшим и средним значениями Fitness-функции поддерживает разнообразие генетического материала, которое увеличивает вероятность появления особи с лучшими свойствами.

Рис.5. Результаты испытаний комбинированного оператора скрещивания

По результатам проведенных трех серий испытаний программного компонента "Генератор модели преобразователя продукционных правил" в генетический алгоритм были включены следующие генетические операторы:

1) ряд операторов селекции: 80% пропорциональной селекции и 20% турнирной селекции (80Ratio20Tourn);

2) ряд операторов скрещивания: 33% хромосом скрещиваются одноточечным кроссинговером, 33% - арифметическим и 34% - с использованием генного смешивания (33Simple33Arithm34MixGen);

3) ряд операторов мутации: 40% --Mutation, 40% - -Mutation, 20% - А-Mutation.

В качестве Fitness-функции была использована модифицированная функция расчета меры близости графов, основанная на коэффициенте Дайса. Для двух графов GЕ и GТ мера близости FT вычисляется по формуле:

,

где n (S) - мощность множества вершин S графов GЕ и GТ; Е - индекс графа, представляющего входную эталонную продукцию; Т - индекс текущего выходного графа, представляющего преобразованную продукцию; i - индекс вершины; ki - масштабирующий коэффициент соответствующих вершин. Выходной граф GТ создается в результате прогона особей в инструментальной среде UniMod, поддерживающей технологии автоматного программирования. Хромосома представляет собой закодированную модель преобразователя. В среде UniMod разработан метод "Интерпретатор хромосомы в представление среды UniMod". Полученная модель преобразователя может быть запущенна в режиме интерпретации или преобразована в код на языке Java и скомпилированна.

Апробация модели преобразователя осуществлялась на множестве тестовых входных файлов с идентификаторами InPut#. xml. После прогона в UniMod создавался выходной файл OutPut#. xml, содержащий преобразованную продукцию. Каждому тестовому файлу InPut#. xml соответствовал эталонный файл Etalon#. xml, который был использован для расчета Fitness-функции особи.

Надежность алгоритма вычислялась как отношение числа успешных запусков kS порожденного преобразователя, при которых решение было найдено, к общему числу запусков k: S = kS /k. Если преобразователь правильно выполнил преобразование, запуск считался успешным. Все 98 исходных формул преобразователь правильно перевел во множество дизъюнктов, то есть kS=98. Тогда, S = 98/98=1. Это означает, что алгоритм абсолютно надежен для заданной выборки продукций и его надежность составляет 100%.

Таким образом, разработанные генераторы построены с использованием генетического программирования. В генераторах (генетических алгоритмах) использован единый способ представления хромосом популяции в виде деревьев, хотя структуры молекул ДНК хромосом различны. Общим является и то, что в генетических алгоритмах применены ряды однотипных генетических операторов. Единый подход к их подбору заключался в использовании не одного конкретного оператора, а ряда операторов: скрещивание хромосом производилось вероятностным смешивающим, одноточечным и арифметическим кроссинговерами; мутация - операторами -мутации, -мутации и А-мутации; селекция - операторами пропорциональной и турнирной селекции. Использование ряда генетических операторов во время эволюции позволяют создавать лучшие решения с меньшими вычислительными усилиями.

Следует также отметить то, что применение технологий генетического и автоматного программирования позволяет значительно ускорить процесс разработки программного обеспечения, так как в этом случае основной упор при программировании делается лишь на программирование методов, реализующих действия автомата.

Особенностью модели генератора является то, что порожденный преобразователь может переводить символы входного алфавита в символы выходного алфавита без явного задания грамматики перевода. При этом символы алфавитов могут иметь сложную синтаксическую конструкцию. Грамматики перевода определяются неявно посредством задания исходных объектов, описанных в символах входного алфавита, и эталонных объектов, описанных в символах выходного алфавита. Достижению такой универсальности генетического алгоритма в рамках класса задач преобразования с неявно заданной грамматикой способствовали направленный поиск и специфические генетические операторы, представляющие собой ряд типовых по выполняемому действию генетических операторов.

Пятый раздел посвящен описанию предложенной автоматной модели аппарата активации, необходимой для апробации сгенерированных методов естественно-языковой обработки научного текста. Принципиально аппарат активации построен как модуль управления продукционными знаниями.

Модуль управления разработан в среде Eclipse по технологии автоматного программирования, обеспечивающей широкие возможности модификации и совершенствования автоматных моделей с минимальным объемом прямого программирования. Для поддержки автоматного программирования в СПбГУ ИТМО создана инструментальная система Unimod с открытым исходным кодом, которая содержит набор инструментов, позволяющих проектировать и реализовывать программы по SWITCH-технологии. Система Unimod реализована на языке Java в виде плагина к среде разработки Eclipse. Программа, написанная с помощью Unimod и соответствующая концепции автоматного программирования, содержит схему связей, состоящую, как и в SWITCH-технологии, из источников событий, системы управления и объектов управления. Источник событий информирует систему управления о завершении выполнения действий в некотором состоянии. К выходным воздействиям автомата относятся выходные переменные и события, к входным - переменные, необходимые для вычисления условия перехода. Далее производится проверка переменной события и осуществляется соответствующий переход. Таким образом, объект управления инкапсулирует описание выходных воздействий и условий перехода. Автоматная модель модуля управления (рис.6), построена в соответствии с её принципиальной схемой, приведенной в работе. В данной модели, осуществляется либо безусловный переход из одного состояния в другое, либо переход по возникновению событий (табл.2). Модель автомата состоит из четырех групповых и одного нормального состояний:

1) SetActiveProdSystem - предназначено для выбора продукционного правила и баз фактов, формирования множества , включающего множество {2,…,k} баз фактов, используемых методом для логического вывода, 1 - множество дизъюнктов текущего правила;

2) SelectInSituationSet - предназначено для формирования и выгрузки в рабочую память множества дизъюнктов входных ситуаций d0;

3) SelDisjunctAndResolution - обеспечивает логический вывод для текущего правила на всех дизъюнктах входной ситуации и всех входных ситуациях;

4) SolvationOfConflictSet - предназначено для определения системы разрешения конфликтного множества, передачи ей управления и подготовки необходимой информации;

5) FuzzyLogic - простое состояние, предназначенное для вызова системы нечеткого логического вывода.

Групповое состояние SetActiveProdSystem. Оно включает три состояния. В состоянии Input выполняются следующие выходные воздействия (действия):

1) o2. z1 - ввод информации в буфер о порядке выполняемых методов, объектах их анализа и идентификаторах файлов InpMeth#Inf. xml, содержащих информацию о методе из файла CommonInfMethods. xml;

2) o2. z2 - определение текущего метода, подлежащего выполнению, поиск идентификатора файла InpMeth#Inf. xml, чтение файла и запись считанной информации в новый буфер. Если выполнены все методы, то переход по событию e100 на конечное состояние автомата ActivationMachine, иначе переход в состояние selFactsBase.

В состоянии selFactsBase в соответствии со списком баз фактов, содержащимся в слоте ListDictionary файла CommonInfMethods. xml, выполняется действие о2. z3 - выбор и запись в рабочую память фактов словарей в виде множеств дизъюнктов 2, …, k. В состоянии selProdSys выполняется действие o2. z4 - выбор активной системы продукций по аббревиатуре метода, которая задается в атрибуте short_name тега name файла CommonInfMethods. xml. Подсистема продукций уточняется по сфере применения, которая задается в том же теге в атрибуте useArea. Сформированное множество дизъюнктов 1 дописывается в рабочую память.

Рис.6. Модель автомата модуля управления

Групповое состояние SelectInSituationSet. Оно включает два состояния. В первом состоянии readDataMeth выполняется действие о3. z1 - считывание информации об объекте анализа выполняемого метода из XML-файла InpMeth#Inf. xml. При достижении конца файла генерируется событие e1 [o3. x1==1], и осуществляется переход в состояние Input группового состояния SetActiveProdSystem. Если конец файла не достигнут, то генерируется событие e1 [o3. x1! =1], и выполняется переход в состояние selInSituationSet. Этому состоянию соответствуют следующие действия: o3. z2 - выбор множества входных ситуаций d0; o3. z3 - запись множества входных ситуаций в буфер. За одно обращение к состоянию в рабочую память загружается множество входных ситуаций.

В основном все переходы между состояниями групповых состояний SelectInSituationSet и SetActiveProdSystem носят безусловный характер. По окончании работы группового состояния SetActiveProdSystem управление передается в состояние readDataMeth, а группового состояния SelectInSituationSet - в состояние selNewRule автомата SelDisjunctAndResolution.

Таблица 2. Пометки переходов модели автомата ActivationMachine

Пометки переходов

Пояснение

e1 [o3. x1! =1]

Не достигнут конец файла InpMeth#Inf. xml

e1 [o3. x1==1]

Достигнут конец файла InpMeth#Inf. xml

e2 [o4. x1! =1]

Резолюция выполнена не для всех входных ситуаций

e2 [o4. x1==1]

Резолюция выполнена для всех входных ситуаций

e3 [o4. x2! =1]

Условие применимости правила ложно

e3 [o4. x2==1]

Условие применимости правила истинно

e4 [o4. x3! =1]

Резолюция выполнена не для всех дизъюнктов текущей входной ситуации

e4 [o4. x3==1]

Резолюция выполнена для всех дизъюнктов текущей входной ситуации

e5 [o4. x4! =1]

Не для всех дизъюнктов входной ситуации получен пустой дизъюнкт

e5 [o4. x4==1]

Для всех дизъюнктов текущей входной ситуации получен пустой дизъюнкт

e6 [o4. x5! =1]

Конфликтное множество пустое и получен корректный результат

e6 [o4. x5==1]

Конфликтное множество не пустое

e7 [o5. x1! =1]

Средством разрешения конфликтного множества является классическая система продукций

e7 [o5. x1==1]

Средством разрешения конфликтного множества является нечеткая система продукций

Групповое состояние SelDisjunctAndResolution. Оно включает восемь состояний. В состоянии selNewRule реализуются следующие выходные воздействия:

1) о4. z1 - выборка нового правила из активной системы продукций;

2) о4. z2 - чтение файла InpMeth#Inf. xml, выборка из тегов paramscondition значений параметров условия применимости С;

3) о4. z3 - вычисление условия применимости С правила. Если С=true, то генерируется событие e3 [o4. x2==1], и осуществляется переход в состояние selNewSituation, в противном случае - выполнение выходных воздействий о4. z1 и о4. z2, и вычисление условия применимости (петля при генерации события e3 [o4. x2! =1]).

В состоянии selNewSituation осуществляется действие о4. z4 - выбор новой ситуации из множества ситуаций, находящихся в рабочей памяти. В состоянии isExecuted проверяется, все ли возможные ситуации доказаны для текущего правила (действие о4. z5). Если это истинно, то управление передается в состояние ifConflict (событие e2 [o4. x1==1]), если нет (событие e [o4. x1! =1]), то в состояние selNewDis. В состоянии selNewDis выбирается новый дизъюнкт из текущей ситуации, и если не все дизъюнкты перебраны, то генерируется событие e4 [o4. x3! =1], и происходит переход в состояние Resolution.

В этом состоянии осуществляется вызов системы линейного резолютивного вывода DedLogRes (действие о4. z9), которая осуществляет линейный резолютивный вывод. Переходы между состояниями selNewDis и Resolution выполняются до тех пор, пока не будут доказаны все дизъюнкты текущей ситуации (при генерации события e4 [o4. x3! =1]).

Если на всех дизъюнктах одной ситуации получен пустой дизъюнкт, то гипотеза, заложенная в текущем правиле и текущей входной ситуации, доказана. Таким образом, действие о4. z7 заключается в подсчете k, для которых получен пустой дизъюнкт, и его сравнении с числом дизъюнктов в текущей входной ситуации. Если они совпали, то генерируется событие e5 [o4. x3==1 && o4. x4==1], и осуществляется переход в состояние searchMethPAP, иначе генерируется событие e5 [o4. x3==1 && o4. x4! =1], и осуществляется переход в состояние selNewSituation. Если пустой дизъюнкт получен для нескольких входных ситуаций, то формируется конфликтное множество (выходное воздействие о4. z8). В состоянии searchMethPAP осуществляется поиск метода, указанного в постдействии H текущего продукционного правила (действие о4. z10). В состоянии execution осуществляются вызов и выполнение найденного метода - действие о4. z11. Затем осуществляется переход в состояние selNewRule.

В состоянии ifConflict проверяется конфликтное множество (действие о4. z6). Если оно непустое, то генерируется событие e6 [o4. x5==1], и управление передается групповому состоянию SolvationOfConflictSet. Если конфликтное множество пустое, то генерируется событие e6 [o4. x5! =1], и выполняется переход в состояние readDataMeth группового состояния ConstructInSituationSet.

Групповое состояние SolvationOfConflictSet. Оно включает четыре состояния. В состоянии solvator происходит определение средства разрешения конфликтного множества (действие o5. z1). В качестве средства разрешения может быть применена либо классическая система продукций, либо нечеткая система продукций, и, соответственно, должен выполняться либо логический резолютивный вывод (состояние selNewRule группового состояния SelDisjunctAndResolution), либо нечеткий логический вывод (состояние fuzzyLogic). После определения одного из вышеназванных средств осуществляется переход в состояние selSpecProdSys. В нем осуществляется поиск специальной системы продукций (классической или нечеткой), предназначенной для разрешения данного конфликтного множества (действие o5. z3). Затем выполняется безусловный переход в состояние formInSituation, в котором осуществляется формирование входной ситуации (действие o5. z2). Далее осуществляется безусловный переход в состояние activation. В нем специальная система продукций и входные ситуации помещаются в рабочую память, и если сгенерировано событие е7 [o5. x1==1] управление передается в состояние selNewSituation группового состояния SelDisjunctAndResolution, иначе по событию е7 [o5. x1! =1] управление передается в состояние fuzzyLogic.

В состоянии fuzzyLogic осуществляется вызов системы нечеткого логического вывода FuzzyRegulator. Из этого состояния управление передается снова в состояние readDataMeth группового состояния ConstructInSituationSet на цикл обработки следующего или нового объекта анализа.

Таким образом, в модели наряду с классическим логическим выводом реализован нечеткий логический вывод, так как задачам естественно-языковой обработки научного текста свойственна нечеткость. Для повышения эффективности поиска решения при разработке системы резолютивного логического вывода использованы технологии генетического и автоматного программирования. Для каждого метода в процессе эволюции строится собственная модель автомата, настроенная на множество дизъюнктов данного метода. Таким образом, система логического вывода, состоящая из множества конечных автоматов, модели которых построены на основе эволюций, а реализация - по технологии автоматного программирования, обладает действительно эффективными алгоритмами поиска решения.

Заключение по работе содержит перечень научных и практических результатов, полученных при решении поставленной в работе проблемы.

В приложениях приведены: прототипы базовых знаков-фреймов; примеры словарных статей терминосистемы и номенклатуры в формате XML; примеры систем продукций методов естественно-языковой обработки научного текста; пример XML-описания спецификации методов морфологического анализа, извлечения знаний о семантическом отношении "Часть-Целое"; результаты испытаний программного компонента "Генератор продукционных правил ProdGen" (пятая серия); множества конструктов методов естественно-языковой обработки текстов; примеры конфигурационного файла ConfigTask. xml и XML-документов Input. xml и Etalon. xml; результаты испытаний программного компонента "Генератор модели преобразователя продукционных правил FSTPSGen" (третья серия); результаты испытаний автоматной модели системы резолютивного логического вывода (первая серия); акты об использовании результатов диссертационного исследования.

Основные результаты

В диссертационном исследовании решена научная проблема разработки теоретических основ создания моделей и методов для автоматического построения онтологий, которая позволяет, в свою очередь, решить техническую проблему, связанную с проектированием и разработкой технологии создания методов для автоматического построения онтологий. Основные научные и практические результаты работы состоят в следующем:

1. Разработан и исследован категориальный аппарат онтологии, являющийся основой ее концептуализации и способствующий категориальному анализу предметной области по разрабатываемой онтологии.

2. Разработаны и исследованы декларативные методы построения онтологий в виде систем продукций, которые отличаются высокой степенью общности их обработки.

3. Разработана и исследована модель генератора систем продукций на основе генетического программирования.

4. Разработана и исследована модель преобразования продукционных правил на основе генетического программирования.

5. Разработана и исследована модель аппарата активации продукций, предназначенная для управления продукционными знаниями и отличающаяся использованием сочетания классического и нечеткого логического вывода.

Итак, в работе для решения задач естественно-языковой обработки научных текстов и построения онтологий выбраны декларативные методы в виде систем продукций, являющихся наиболее распространенным методом представления знаний в системах, основанных на знаниях. Продукционные правила обеспечивают естественный способ описания процессов в сложной изменяющейся внешней среде. В программах традиционного типа схема передачи управления предопределена в самой программе, а ветвление происходит только в заранее выбранных точках. Для интеллектуальных задач, где ветвление скорее норма, чем исключение, этот способ малоэффективен. В таких задачах правила дают возможность на каждом шаге решения оценить ситуацию и предпринять соответствующие действия. Применение продукционных правил обеспечивает следующие преимущества: простоту и высокое быстродействие, модульность, удобство модификации, ясность, прозрачность, возможность постепенного наращивания, высокую степень общности правил обработки данных.

Генерация моделей решения, основанная на использовании технологии генетического программирования, осуществляется во всех случаях, где уместно и оправдано её применение. Подход формализации и представления конструктивных знаний эксперта о методе решения задачи позволяет автоматически генерировать системы продукций. Для генерации моделей автоматов и преобразователей эволюционные вычисления используются давно, поэтому они применены для этих же целей в работе. Однако трудоемкость построения автоматов с требуемыми свойствами остается достаточно высокой. Указанная проблема решается за счет учета специфики автоматов, другими словами, за счет учета специфики той прикладной задачи, которую решает автомат, для описания которой используется XML-описание предметной области прикладной задачи. В работе язык XML используется как средство внутренней и внешней коммуникации программных систем.

Реализация моделей решения выполнена на основе применения автоматного программирования, что значительно повышает степень автоматизации процесса кодирования с целью получения корректного кода программ и существенно упрощает процесс модификации программы по сравнению с традиционным программированием.

Таким образом, в работе технологии генетического и автоматного программирования используются совместно в случаях, если возможно представить решение в виде модели автомата или преобразователя. Так, эти технологии применены при решении задач линейного резолютивного вывода, преобразования продукционных правил из естественно-языкового представления в формулы предикатов первого порядка, предикатов во множество дизъюнктов. Технологии генетического программирования требуются при создании только моделей решения задачи, например, при генерации систем продукций. Если модель известна, и необходимо разработать программное обеспечение, то следует применять чистые технологии автоматного программирования, например, как при создании аппарата активации продукций или процедуры постдействия продукций.

Реализация решения задач естественно-языковой обработки научного текста с применением технологий генетического и автоматного программирования позволила создать технологию решения задач построения онтологий с почти полной автоматической обработкой, что делает полученные в диссертационном исследовании результаты значимыми для теории и практики.

Список основных работ по теме диссертации

а) статьи в изданиях, рекомендованных перечнем ВАК РФ

1. Найханова, Л.В. Технология решения задач естественно-языковой обработки монологического текста на основе использования генетического и автоматного программирования [Текст] / Л.В. Найханова // Научно-технические ведомости СПбГПУ. Информатика. Телекоммуникации. Управление: науч. журн. - СПб.: Изд-во СПГПУ. - 2008. - № 2. - С.67-74.

2. Найханова, Л.В. Применение методов нечеткого регулировании в соединении онтологий предметной области [Текст] / Л.В. Найханова // Программные продукты и системы: междунар. журн. - Тверь: НИИ ЦПС. - 2008. - №2. - С.41-44.

3. Найханова, Л.В. Основные типы семантических отношений между терминами предметной области [Текст] / Л.В. Найханова // Известия высших учебных заведений. Поволжский регион. Технические науки: науч. - практ. журн. - Пенза: Информационно-издательский центр ПензГУ. - 2008. - № 1. - С.62-71.

4. Найханова, Л.В. Технология генетического программирования для генерации конечных преобразователей [Текст] / Л.В. Найханова // Системы управления и информационные технологии: науч. - техн. журн. - М.; Воронеж: Научная книга. - 2007. - № 4.1 (30). - С.174-178.

5. Найханова, Л.В. Методика построения конечного преобразователя продукционных правил [Текст] / Л.В. Найханова, Н.Б. Хаптахаева // Системы управления и информационные технологии: науч. - техн. журн. - М.; Воронеж: Научная книга. - 2008. - Вып.1 (31). - С.83-88.

6. Найханова, Л.В. Применение генетического программирования при построении автоматной модели резолютивного вывода [Текст] / Л.В. Найханова, Г.А. Хомонов // Вестн. СибГАУ им. акад. М.Ф. Решетнева. - Красноярск: Изд-во СибГАУ, 2008. - Вып.2 (19). - С.78-82.

7. Найханова, Л.В. Технология интеграции генератора модели конечного преобразователя с инструментальной средой UniMod [Текст] / Л.В. Найханова, Г.А. Хомонов // Системы управления и информационные технологии: науч. - техн. журн. - М.; Воронеж: Научная книга. - 2008. - Вып.1 (31). - С.88-92.

8. Найханова, Л.В. Построение семантической сети предметной области на основе извлечения знаний из научного текста [Текст] / Л.В. Найханова, Н.Б. Хаптахаева, Н.Н. Аюшеева // Известия высших учебных заведений. Поволжский регион. Технические науки: науч. - практ. журн. - Пенза: Информационно-издательский центр ПензГУ. - 2007. - № 4. - С.51-61.

9. Найханова, Л.В. Генерация множества ядер продукционных правил в задаче автоматического построения библиотеки декларативных методов [Текст] / Л.В. Найханова // Информационные технологии. - М.: Новые технологии. - 2008. - №10. - С.37-42.

б) монографии

10. Найханова, Л.В. Получение знаний для формирования информационных образовательных ресурсов [Текст] / А.Н. Тихонов, А.Д. Иванников, В.П. Кулагин, Л.В. Найханова и др. - М.: Изд-во "Московская типография №2", 2008. - 440 с.

11. Найханова, Л.В. Технология создания методов автоматического построения онтологий с применением генетического и автоматного программирования: монография [Текст] / Л.В. Найханова. - Улан-Удэ: Изд-во БНЦ СО РАН, 2008. - 244 с.

12. Найханова, Л.В. Методы и алгоритмы трансляции естественно-языковых запросов к базе данных в SQL-запросы: монография [Текст] / Л.В. Найханова, И.С. Евдокимова. - Улан-Удэ: Изд-во ВСГТУ, 2004. - 148 с.

13. Найханова, Л.В. Методы и алгоритмы принятия решений в управлении учебным процессом в условиях неопределенности: монография [Текст] / Л.В. Найханова, С.В. Дамбаева. - Улан-Удэ: Изд-во ВСГТУ, 2004. - 164 с.

в) статьи, опубликованные в научных и технических изданиях

14. Найханова, Л.В. Генерация модели автоматического конечного преобразователя на основе генетического программирования [Текст] / Л.В. Найханова // Информационные технологии моделирования и управления: науч. - техн. журн. - Воронеж: Научная книга. - 2007. - Вып.9 (43). - С.1046-1054.

15. Найханова, Л.В. Построение семантической сети научного текста на основе аппарата расширенных семантических сетей. [Текст] / Л.В. Найханова // Вестн. ВСГТУ: науч. журн. - Улан-Удэ: Изд-во ВСГТУ. - 2008. - № 1. - С.6-12.

16. Найханова, Л.В. Механизм сопряжения генетического алгоритма с инструментальной системой UniMod [Текст] / Л.В. Найханова, Г.А. Хомонов // Информационные технологии моделирования и управления: науч. - техн. журн. - Воронеж: Научная книга. - 2008. - Вып.1 (44). - С.86-91.

...

Подобные документы

  • Анализ существующих программных средств для автоматического отображения онтологий, их практического применения в зависимости от поставленной задачи и сложности входных онтологий. Отображение сложных онтологий с помощью алгоритма повышенной точности.

    дипломная работа [1,5 M], добавлен 14.06.2012

  • Представление знаний в когнитологии, информатике и искусственном интеллекте. Связи и структуры, язык и нотация. Формальные и неформальные модели представления знаний: в виде правил, с использованием фреймов, семантических сетей и нечетких высказываний.

    контрольная работа [29,9 K], добавлен 18.05.2009

  • Система классов и свойств языка RDFS. Реификация или материализация утверждений. Возможности RDF, RDF Schema в представлении онтологий. Способы представления RDF-описаний. Структура и базовые элементы OWL-онтологии. Языки запросов к RDF-хранилищам.

    презентация [312,1 K], добавлен 01.09.2013

  • Теория автоматического управления как наука, предмет и методика ее изучения. Классификация систем автоматического управления по различным признакам, их математические модели. Дифференциальные уравнения систем автоматического управления, их решения.

    контрольная работа [104,1 K], добавлен 06.08.2009

  • Формализации в онтологии областей знаний с помощью концептуальной схемы. Определение атрибутов класса и свойств экземпляров. Создание экземпляров класса и DL-Query запросов. Методика использования для разработки онтологии среды разработки Protege.

    курсовая работа [2,0 M], добавлен 18.06.2014

  • Построение онтологии предметной области для анализа глобальных процессов на основе информации, получаемой из новостных лент. Средства разработки онтологий, используемых для поиска событий, фактов, извлечённых из СМИ; моделирование экономических рисков.

    курсовая работа [3,4 M], добавлен 27.08.2017

  • Классы и группы моделей представления знаний. Состав продукционной системы. Классификация моделей представления знаний. Программные средства для реализации семантических сетей. Участок сети причинно-следственных связей. Достоинства продукционной модели.

    презентация [380,4 K], добавлен 14.08.2013

  • Основы программирования с использованием библиотеки OpenGL. Приложение для построения динамического изображения модели объекта "Батискаф": разработка процедуры визуализации трехмерной схемы, интерфейса пользователя и подсистемы управления событиями.

    курсовая работа [1,4 M], добавлен 26.06.2011

  • Разработка web-сервиса как услуги, предоставляемой пользователю. Продажа товара (автомобилей) в Интернете, проблема выбора. Онтологии как часть концепции Semantic Web. Применение онтологий, их основные типы и свойства. Особенности реализации онтологии.

    курсовая работа [57,4 K], добавлен 17.04.2012

  • Проблема выбора товара в Интернете. Типы и свойства онтологий как части концепции Semantic Web. Разработка web-приложения для выбора музыкального инструмента: создание иерархии онтологий для предметной области "Гитара", формирование SPARQL-запроса.

    дипломная работа [2,2 M], добавлен 20.04.2012

  • Анализ процессов диагностики повреждений трубопровода. Разработка модели продукционной базы знаний: обзор методов представления знаний, описание создания базы знаний и разработки механизма логического вывода. Экономическое обоснование концепции проекта.

    дипломная работа [3,0 M], добавлен 16.04.2017

  • Суть программирования с использованием библиотеки OpenGL, его назначение, архитектура, преимущества и базовые возможности. Разработка приложения для построения динамического изображения трехмерной модели объекта "Компьютер", руководство пользователя.

    курсовая работа [866,8 K], добавлен 22.06.2011

  • Оценка качества поисковых систем. Индексирование по ключевым словам. Внутренние представления запросов и документов на информационно-поисковом языке. Способы улучшения поиска при помощи тезаурусов и онтологий. Ранжированный поиск (vector-space model).

    лекция [31,5 K], добавлен 19.10.2013

  • Функциональные возможности библиотеки OpenGL. Разработка процедуры визуализации трехмерной сцены, интерфейса пользователя и подсистемы управления событиями с целью создания приложения для построения динамического изображения 3D-модели объекта "Самолет".

    курсовая работа [1,7 M], добавлен 28.06.2011

  • Организация проверки результатов обучения и оценки знаний, использование систем тестирования, основные требования к ним. Создание современной модели WEB-сервиса тестирования знаний; программная реализация; защита от копирования информации и списывания.

    курсовая работа [24,1 K], добавлен 11.05.2012

  • Анализ деятельности гостиницы. Структурный анализ бизнес-процесса на основе IDEF0-модели. Особенности построения инфологической и даталогической модели данных. Аспекты проектирования базы данных гостиницы с использованием программного языка Delphi.

    курсовая работа [1,6 M], добавлен 15.02.2014

  • Тезаурус для автоматического концептуального индексирования как особый вид тезауруса. Подходы к описанию отношений при разработке онтологий. Родовидовое отношение выше-ниже. Семантическое смещение. Формальная онтология. Сравнение поисковых механизмов.

    презентация [721,9 K], добавлен 19.10.2013

  • Проблема представления знаний. Представление декларативных знаний как данных, наделенных семантикой. Представление процедурных знаний как отношений между элементами модели, в том числе в виде процедур и функций. Представление правил обработки фактов.

    курсовая работа [33,1 K], добавлен 21.07.2012

  • Построение баз знаний для семантической сети. Цели создания и язык представления онтологий. Структура исследований в области многоагентных интеллектуальных информационных систем, архитектура агента. Экономическое обоснование разработки базы знаний.

    дипломная работа [1,6 M], добавлен 29.09.2013

  • Обоснование использования виртуальной модели, средства для разработки функциональных модулей. Разработка виртуальной модели "Представление знаний в информационных системах". Разработка алгоритмов построения виртуальной модели предметной области.

    дипломная работа [1,4 M], добавлен 12.08.2017

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.