Методы и модели автоматического построения онтологий на основе генетического и автоматного программирования

Заимствование понятия онтологии из философии, его активное использование в настоящее время в искусственном интеллекте и информатике. Разработка декларативных методов автоматического построения онтологий с использованием продукционной модели знаний.

Рубрика Программирование, компьютеры и кибернетика
Вид автореферат
Язык русский
Дата добавления 14.02.2018
Размер файла 810,0 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

54

Размещено на http://www.allbest.ru/

Автореферат

диссертации на соискание ученой степени доктора технических наук

Методы и модели автоматического построения онтологий на основе генетического и автоматного программирования

Специальность 05.13.11 "Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей"

Найханова Лариса Владимировна

Красноярск - 2008

Работа выполнена в Восточно-Сибирском государственном технологическом университете

Официальные оппоненты:

доктор физико-математических наук, профессор Пальчунов Дмитрий Евгеньевич

доктор технических наук, профессор Шалыто Анатолий Абрамович

доктор технических наук, профессор Доррер Георгий Алексеевич

Ведущая организация: Таганрогский технологический институт ФГОУ ВПО "Южный федеральный университет"

Защита состоится 26 марта 2009 года в 14: 00 на заседании диссертационного совета ДМ 212.098.05 при Сибирском федеральном университете по адресу: ул. академика Киренского, 26, Красноярск, 660074, ауд. УЛК 1-15.

С диссертацией можно ознакомиться в библиотеке Сибирского федерального университета по адресу: Киренского, 26, Красноярск, 660074, ауд. Г 2-74.

Автореферат разослан Учёный секретарь диссертационного совета к. т. н. Е.А. Вейсов

Общая характеристика диссертации

Актуальность исследования. Понятие онтологии, заимствованное из философии (введено немецким философом R. Goclenius), в настоящее время активно используется в искусственном интеллекте и информатике. Все больше интеллектуальных задач, связанных с обработкой знаний, решаются с применением онтологий. В недалекой перспективе онтологии будут использоваться при решении очень многих задач.

Самым распространенным определением онтологии на данный момент является определение T. R. Gruber, согласно которому онтология является точной спецификацией концептуализации. С этой точки зрения для каждой из баз данных, или баз знаний, или систем, основанных на знаниях, или агентов знаний должны быть построены спецификации, основанные на некоторой концептуализации. Множества объектов и отношений между ними должны быть описаны в некотором словаре, в котором система, основанная на знаниях, представляет свои знания.

На сегодняшний день известен ряд зарубежных и отечественных систем (Ontolingua и Protйgй - разработки Стенфордского университета, OntoEdit - разработка университета Karlsruhe, OilEd - разработка Манчестерского университета, ВИКОНТ - разработка Санкт-Петербургского института высокопроизводительных вычислений и баз данных, Web-Deso - разработка Санкт-Петербургского института информатики и автоматизации РАН и др.), предназначенных для построения онтологий. В основе этих систем находятся различные формализмы описания знаний, разнообразные модели понятий и отношений, разные методы обработки знаний. В качестве формализма используется, в основном, логика предикатов первого порядка. Нередко встречаются в данной роли объектно-ориентированные сети ограничений, Description Logic, ОКВС-совместимая или RDF-совместимая фреймовая модель знаний. Понятия и отношения моделируются, как правило, в виде таксономии. Для объединения онтологий применяются методы интеграции и соединения.

К настоящему времени на основе этих и других систем созданы различные онтологии, многие из которых размещены в сети Интернет. В России к наиболее известным и качественным онтологиям можно отнести лингвистическую онтологию по естественным наукам и технологиям, многоуровневую онтологию химии, онтологию по медицинской диагностике и другие.

Анализ существующих методик и методологий построения онтологий показал, что процесс разработки онтологии включает следующие обязательные стадии: спецификации, концептуализации, формализации, объединения и реализации. Известно, что в основе концептуализации лежат некоторые категории абстракций, которые, по мнению ряда исследователей, носят субъективный характер, и каждая онтология обладает собственными категориями абстракций. Именно по этой причине разработка онтологии верхнего уровня является серьезной проблемой, решение которой пока не найдено. Все наиболее известные методологии создания онтологий объединяет то, что описание общих понятий, отношений между ними и утверждений при создании онтологии выполняется в интерактивном режиме с привлечением ручного труда экспертов. Более эффективное автоматическое построение онтологий основано на использовании методов искусственного интеллекта, способных извлекать из текста элементы знаний и нетривиально их перерабатывать.

В настоящее время методы автоматического построения онтологий развиваются недостаточно быстро, что обусловлено двумя факторами: слабым распространением систем лингвистического анализа текста, способных интерпретировать семантические отношения между словами, и относительно низкой достоверностью автоматически извлекаемых из текста утверждений и фактов, что обусловливается как несовершенством алгоритмов анализа текста, так и качеством источников информации.

Естественно, что любая научная дисциплина постепенно вырабатывает свои основные положения, понятия и средства их наименования. Результатом их анализа, состоящем в выявлении терминологии, её упорядочении, доведении до уровня, делающего эту терминологию доступной для освоения людьми, желающими приобрести соответствующие профессиональные знания, являются терминологические словари, которые и должны быть источниками знаний при формировании ядра онтологии. А извлечение знаний из научных текстов позволит расширить это ядро.

Выполненный обзор технологий, методов и средств автоматического создания онтологий актуализирует необходимость разработки методов автоматического построения онтологий.

В настоящее время достаточно широко используются технологии генетического и автоматного программирования, позволяющие максимально возможно автоматизировать процесс создания программного обеспечения. Надо отметить, что среди отечественных ученых в развитие данного направления исследований большой вклад внес А.А. Шалыто.

Таким образом, существует техническая проблема, заключающаяся в разработке технологии создания методов автоматического построения онтологий, позволяющей сформировать библиотеку методов, которую достаточно просто развивать и совершенствовать. Решение данной проблемы позволит в автоматическом режиме извлекать знания о терминах и отношениях между ними из терминологических словарей и научных текстов, что повысит эффективность построения онтологий.

Научная проблема заключается в разработке теоретических основ для решения технической проблемы. Разработка теоретических основ состоит в создании моделей и методов, необходимых для автоматического построения онтологий.

Работы исследователей в области автоматического построения онтологий частично решают научную проблему. В проекте "Система ONTOGRID для построения онтологий", выполняемая под руководством Н.Г. Загоруйко, реализованы: морфологическая база русского языка; блоки морфологического и статистического анализа; программы выделения устойчивых словосочетаний в тексте и выявления аномалий в позиционном распределении лексем по тексту, построение семантических сетей текстовых документов, которое выполняется в полуавтоматическом режиме.

Настоящая работа более близка к этой работе, так как предлагаемые методы построения онтологий основаны на естественно-языковой обработке научного текста, в которую также включены наряду с другими методами методы морфологического и статистического анализов, выделения устойчивых словосочетаний. Существенным отличием настоящей работы является разработка методов автоматического построения онтологий в виде систем продукций и применении генетического и автоматного программирования для создания требуемых моделей.

Объект исследований - естественно-языковая обработка научных текстов для построения онтологий.

Предмет исследований - методы и модели автоматического построения онтологий.

Целью работы является разработка и исследование методов и моделей автоматического построения онтологий, позволяющих ускорить процесс создания онтологий и повысить их качество.

Для достижения поставленной цели в работе решаются следующие задачи:

1. Обзор и анализ существующих решений в области автоматического построения онтологий.

2. Разработка категориального аппарата, как результата концептуализации знаний онтологий, на основе исследования языка научного текста и семиотического моделирования.

3. Разработка декларативных методов построения онтологий с использованием продукционной модели знаний.

онтология модель знание программирование

4. Разработка и исследование модели генерации систем продукций на основе генетического программирования.

5. Разработка и исследование модели генерации преобразователя продукционных правил с применением генетического и автоматного программирования.

6. Разработка и исследование модели аппарата активации, как модуля управления продукционными знаниями, с применением генетического и автоматного программирования.

7. Апробация разработанных моделей и методов.

Основная идея диссертации

В основе автоматического построения онтологий находится естественно-языковая обработка научного текста, в большей мере связанная с методами извлечения и представления знаний. Однако такие методы невозможно построить без понимания того, какими именно знаниями необходимо оперировать. В связи с этим необходимо заранее решить, какой подход будет использован при концептуализации онтологии. Концептуализация, обеспечивая структурирование предметных знаний в рамках эксплицитной модели, предопределяет задачу построения категориального аппарата онтологии. При решении данной задачи выполняется классификация понятий и отношений между ними, которая чётко определяет семантику компонентов онтологии и возможные диагностические семантические конструкции, позволяющие в итоге извлечь знания из предложений научного текста. Компоненты онтологии и семантические конструкции, в свою очередь, оказывают значительное влияние не только на содержание методов извлечения и представления знаний, но и на принципы их построения.

Анализ трудов в области естественно-языковой обработки научного текста выявил существенное преобладание использования различных правил при решении задач в данной области. Этот факт и декларативный характер представления методов автоматического построения онтологий обуславливают применение систем продукций в качестве модели представления знаний о методе. Вместе с тем, продукционная модель имеет одно отрицательное качество, связанное с тем, что в истории использования продукций они всегда создавались экспертами. Однако известен, по крайней мере, один случай, когда правила создавались на основе генерации методами эволюционных вычислений. В связи с этим при разработке методов построения онтологий необходимо исследовать вопросы генерации систем продукционных правил на основе применения технологий генетического программирования.

Такой подход к созданию систем продукций как методов построения онтологий обуславливает решение задач, связанных с преобразованием продукционных правил в формальный вид и последующим определением их корректности. Достаточно распространенное применение симбиоза технологий генетического и автоматного программирования для создания систем со сложным поведением при решении широкого спектра задач определяет направление исследований, связанное с разработкой моделей преобразователя и аппарата активации продукций.

Таким образом, для создания методов автоматического построения онтологий необходимо разработать модель генерации систем продукций на основе применения генетического программирования, модель генерации преобразователей на основе генетического и автоматного программирования, модель генерации систем логического вывода на основе генетического и автоматного программирования и модель аппарата активации продукций на основе применения автоматного программирования. Аппарат активации может быть использован как для проверки систем продукций на корректность, так и для функционирования в реальном режиме. Предложенная технология обеспечит наиболее доступное совершенствование разработанных методов и моделей, что очень важно для новых направлений исследований, к которым относятся и исследования, связанные с созданием онтологий.

Методы исследований. Методологической и теоретической основой выполненного исследования послужили положения теории искусственного интеллекта, логики предикатов первого порядка, нечеткой логики, семиотического и ситуационного моделирования, генетического программирования, формальных грамматик и автоматов, математической лингвистики.

Для исследования понятий и отношений использованы методы анализа естественно-языковых текстов, рассмотренные в работах N. Chomsky, I. Dalberg, W. Humboldt, C. Fillmore, R. Schank, Н.Д. Арутюновой, Л.А. Беловольской, А.А. Залевской, С.Е. Никитиной, Ю.С. Степанова, В.А. Тузова и других. Построение методов извлечения и представления знаний базировалось на трудах M. Minsky, В.Н. Вагина, Е.П. Куршева, Г.С. Осипова, Д.А. Поспелова, В.Ф. Хорошевского и других. Моделирование понятий и отношений в виде сети знаков-фреймов базируется на применении аппарата семиотического моделирования как одного из наиболее приемлемых для символьной системы моделирования. Для логического вывода на ядрах классических продукций применяется эвристический метод линейной резолюции Д. Лавленда, Р. Ковальского и Д. Кюнера; для логического нечеткого вывода на ядрах нечетких продукций - метод нечеткого регулирования А. Kaufmann, E. Mamdani, L. A. Zadeh. Создание методов построения онтологии базировалось на трудах И.Л. Артемьевой, Т.А. Гавриловой, Б.В. Доброва, А.Е. Ермакова, Н.Г. Загоруйко, Ю.А. Загорулько, А.С. Клещева, Н.В. Лукашевич, А.С. Нариньяни, В.Ш. Рубашкина, А.В. Смирнова, В.Ф. Хорошевского, T. R. Gruber, N. Guarino, J. F. Sowa, M. Uschold, B. J. Wielinga и многих других. Построение моделей генераторов систем продукций и модели преобразователя основывалось на трудах М.Л. Кричевского, В.М. Курейчика, В.В. Курейчика, Л.Д. Гладкова, А.А. Шалыто, J. Holland, D. Goldberg, J. Koza, M.A. Lankhorst, S.M. Lucas, А. Naidoo и других.

Научная новизна. Научная новизна работы заключается в развитии теоретических основ проектирования и разработки технологии создания методов автоматического построения онтологий с применением генетического и автоматного программирования, что позволило автоматизировать процесс создания программного обеспечения. Данное утверждение формируется из следующих положений.

1. Новизна разработанных методов создания онтологий в виде классических и нечетких систем продукций заключается в развитии методов извлечения знаний о терминах и семантических отношениях между ними, построения семантической сети знаков-фреймов и соединения онтологий, которое состоит в уточнении представления ядра продукционного правила за счет использования простой ядерной конструкции языка ситуационного моделирования и в структуризации компонентов простой ядерной конструкции, что позволило выделить динамическую часть, содержание которой зависит от конкретного метода, и статическую часть - одинаковую для всех методов. Такой способ построения методов обеспечивает возможность их автоматической генерации.

2. Новизна предложенной модели генерации систем продукций заключается в том, что в ней с одной стороны, продукция как любое выражение представляется в виде дерева. С другой стороны, конструктивные знания эксперта, выявленные на основе анализа научного текста и разработанных методов, формализованы в виде конструкций и тоже представлены деревьями. Это определило структуру хромосомы и Fitness-функцию, что позволило применить генетическое программирование для генерации систем продукций. Разработанный генетический алгоритм обладает свойством универсальности по отношению к методу, настраиваясь на него посредством спецификации метода, содержащей конструктивные знания эксперта.

3. Новизна предложенной модели генерации преобразователя продукционных правил состоит в том, что она позволяет порождать модели конечных преобразователей, способных отображать классические и нечеткие продукции, представленные на ограниченном подмножестве естественного языка, в формулы логики предикатов, а их, в свою очередь, во множества дизъюнктов. Особенностью модели генератора является то, что порожденный преобразователь может переводить символы входного алфавита в символы выходного алфавита без явного задания грамматики перевода. Грамматики перевода определяются неявно посредством задания исходных объектов, описанных в символах входного алфавита, и эталонных объектов, описанных в символах выходного алфавита. Достижению такой универсальности генетического алгоритма в рамках класса задач преобразования с неявно заданной грамматикой способствовали направленный поиск и ряд генетических операторов, типовых по выполняемому действию. Кроме того, для получения кода конечных преобразователей применены технологии автоматного программирования.

4. Новизна разработанной автоматной модели аппарата активации состоит в том, что следование единообразию представления методов в виде классических и нечетких продукций определило необходимость реализации нечеткого логического вывода на основе применения методов нечеткого регулирования, которые хорошо вписались в предложенную технологию. Это позволяет разрешать конфликтные ситуации, возникающие при использовании классического логического вывода, а также решать задачи в условиях неопределенности. Реализация аппарата активации выполнена на основе применения технологий генетического и автоматного программирования.

Значение для теории. Разработанные модели и методы построения онтологий составляют теоретическую основу для разработки технологий автоматизированного решения различных задач, для которых в качестве моделей решения можно использовать системы продукций. Кроме этого, появилась возможность дальнейшего их развития с точки зрения объективизации категориального аппарата, уточнения множества типов предикатов, типов семантических отношений и исследования их свойств, необходимых для анализа онтологий.

Значение для практики. Разработка онтологий по предложенной технологии позволит облегчить процесс их создания, повысить доверие к хранилищам знаний и информации, снизить издержки на разработку программного обеспечения, обеспечить дальнейшее развитие информационных и интеллектуальных технологий. Кроме того, результаты, полученные в работе, окажут положительное влияние на конгломерацию частных онтологий в систему знаний, поскольку в настоящее время средств, позволяющих создать полную систему знаний ("модель мира"), не существует.

Достоверность полученных результатов. Достоверность результатов и выводов работы подтверждается корректным использованием теоретических и экспериментальных методов обоснования полученных результатов и выводов. Положения теории основываются на известных достижениях фундаментальных и прикладных научных дисциплин в области инженерии знаний, классического и нечеткого логического вывода, генетического и автоматного программирования. Достоверность выводов и результатов подтверждается также их исследованием на конкретных задачах естественно-языковой обработки научного текста. Сопоставление полученных результатов показывает их согласованность с теоретическими выводами. Научная новизна технических решений подтверждена авторскими свидетельствами.

Личный вклад автора. Все основные результаты диссертации получены лично автором.

Рекомендации по использовании результатов диссертации. Результаты работы могут быть использованы при разработке системы автоматического построения онтологий. Программные средства, разработанные в процессе диссертационного исследования, составляют основные компоненты технологии, позволяющие проводить экспериментальные исследования генерируемых методов.

Апробация результатов диссертации

Основные положения и результаты диссертационной работы докладывались и обсуждались на Всероссийской научно-практической конференции "Управление созданием и развитием систем, сетей и устройств телекоммуникаций" (г. Санкт-Петербург, 2008 г.); Всероссийской научно-технической конференции "Информационные системы и модели в научных исследованиях, промышленности и экологии" (г. Тула, 2007 г.); Второй Международной конференции по когнитивной науке "The Second Conference on Cognitive Science" (г. Санкт-Петербург, 2006 г.); Международной научной конференции "Information Technologies and Telecommunications in Education and Science (IT@I ES'2005)" (г. Москва, 2005 г.); Общероссийском постоянно действующем семинаре "Интернет-порталы. Содержание и технологии" (г. Москва, 2005 г.), девятой Всероссийской научно-практической конференции "Проблемы информатизации региона" (г. Красноярск, 2005 г.); Всероссийской научно-технической конференции "Теоретические и прикладные вопросы современных информационных технологий" (г. Улан-Удэ, 2000-2008 гг.); Всероссийской научно-технической конференции "Проблемы качества, безопасности и диагностики в условиях информационного общества" (г. Сочи, 2004 г.); Всероссийской научно-практической конференции-выставке "Единая образовательная информационная среда: Проблемы и пути развития" (г. Омск, 2004 г.); Всероссийской научно-практической конференции "Российская школа и Интернет" (г. Санкт-Петербург, 2002 г.); Международной научно-технической конференции "Информатизация процессов формирования открытых систем на основе СУБД, САПР, АСНИ и СИИ" (г. Вологда, 2001 г.); Третьей Международной выставке-конференции "Информационные технологии и телекоммуникации в образовании" (г. Москва, 2001 г.); Международном семинаре "Искусственный интеллект в образовании" (г. Казань, 1996 г.) и другие.

Кроме того, результаты исследования вошли в материалы отчетов по госбюджетным научно-исследовательским работам "Теоретические и прикладные вопросы разработки интегрированных интеллектуальных информационных систем" (ГР № 01.200.205060; Инв. № 02.200305099, 2002 г.), "Методы и алгоритмы трансляции естественно-языковых запросов к базе данных в SQL-запросы" (ГР № 01.200.205060; Инв. № 0320.0501291, 2004 г.), "Модель МП-процессора, выполняющего преобразование естественно-языкового представления ядра продукции в формулу логики предикатов" (ГР № 01.200.205060; Инв. №0320.0603814, 2005 г.) и "Исследование проблем моделирования знаний и разработка методологии создания онтологий со встроенной семантикой и прагматикой" (ГР №01.2006.10552; Инв. №03200802713, 2007 г.), по научно-исследовательской работе: "Разработка генератора автоматов, основанного на использовании генетических алгоритмов", шифр "2007-4-1.4-18-01-037" (ФЦП "Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2012 годы", ГК № 02.514.11.4047 от 18.05.2007 г.).

Материалы диссертационных исследований используются в Московском авиационном институте при решении задачи ускорения процесса синтеза алгоритмов бортовых экспертных систем аэрокосмических летательных аппаратов; в Тверском государственном техническом университете при исследовании лингвистической семантики и прагматики в виде методов извлечений знаний и построения семантических сетей знаков-фреймов научного текста; в учебной и научной деятельностях Восточно-Сибирского государственного технологического университета и включены в программы учебных дисциплин "Системы искусственного интеллекта", "Теория искусственных нейронных сетей", "Теория вычислительных процессов и структур" специальности 010503 "Математическое обеспечение и администрирование информационных систем" в виде методических указаний.

Публикации. По теме диссертации опубликованы 73 работы, из них: 4 - монографии; 9 - статьи в изданиях по списку ВАК; 12 - статьи в сборниках; 48 - работы, опубликованные в материалах всесоюзных, всероссийских и международных конференций и симпозиумов. Автором получены 7 свидетельств об официальной регистрации программ для ЭВМ, разработанных в рамках тематики работы.

Содержание разделов диссертации

Диссертация состоит из введения, 5 разделов, заключения, списка использованных источников, содержащего 280 наименований, 10 приложений. Основная часть работы содержит 288 страниц, включая 34 рисунка, 14 таблиц.

В первом разделе приведены обзор и анализ существующих решений, приводится описание проблемы.

Второй раздел посвящен разработке категориального аппарата онтологий. Анализ работ по лингвистике, семиотике и информатике, касающихся построения терминологии области науки, показал, что качественная терминосистема является отражением структуры области науки. Это базируется на основном свойстве термина - системности, являющимся отраженным признаком системности знания, элементом которого и есть термин, то есть термин представляет собой фрагмент общего смыслового единства системы.

Структура терминосистемы должна определять связи терминов, переходы внутри общей совокупности терминов, описывать семантику, синтактику и прагматику отдельных терминов. Это означает, что схема знака-термина должна учитывать свойства термина как логоса и как лексиса, то есть интегрировать в себе логико-семантические и языковые свойства термина. Среди существующих схем знаков наиболее адекватной схемой знака является квадрат Д.А. Поспелова, содержащий метазнак и отображающий три основных аспекта знака, а именно имя знака, содержание знака, назначение знака. Однако по С.Е. Никитиной, термин, как знак специальной семиотической системы, должен обладать номинативно-дефинитивной функцией и внутренней формой. Учитывая это, на основе квадрата Поспелова и в соответствии с глобальной классификацией категорий объектов и отношений И. Дальберг разработано шесть конструкций знака: понятие, свойство, действие, состояние, событие, величины. Глобальные классификации И. Дальберг представляют собой некоторые априорные схемы научного знания, которые могут накладываться на конкретную терминологию. Классификации показывают, как в семантической структуре организуется и воплощается знание терминологии. Поэтому связи между компонентами знака классифицированы в соответствии с глобальной классификацией отношений. Структурированность знака позволяет более четко описывать понятия и понимать лучше не только их содержание, но и какие знания о термине необходимо извлекать из научных текстов.

Автоматическое извлечение знаний из научных текстов предполагает не только выявление терминов, но и извлечение знаний о них. Для этого необходимо распознать в тексте семантические отношения между терминами, так как именно они задают семантическую структуру терминологии. В связи с этим в работе построена иерархия семантических отношений на основе классификации концептуальных отношений (табл.1). Значимым признаком построения предложенной иерархии является принадлежность отношений понятийным сферам. Группировка отношений по понятийным сферам (уровням абстракции) дает возможность более четко описать семантику каждого отношения. Кроме того, такой подход позволяет в значительной степени уменьшить мощность множества типов предикатов, что является весьма важным фактором повышения эффективности резолютивного логического вывода.

Таблица 1. Иерархия отношений между терминами

Категория отношений

Группа отношений

Отношение

Понятийная сфера

Квалитативные отношения

Отношения иерархии

Род-вид

Сфера абстрактного - конкретного

Признак-значение признака

Инвариант-вариант

Отношения агрегации

Целое-часть

Сфера

принадлежности

Объект-пространство реализации (локализации) объекта

Объект - свойства/признак

Уровень-единица уровня

Функциональные отношения

Объект действия-действие-

субъект действия

Причина-следствие

Условие-действие

Событие-действие

Состояние-действие

Событие-состояние

Инструмент-действие

Данные-действие

Данные-величины

Сфера

процессуальности

Семиотические отношения

Термин-способ выражения

Сфера

формы и содержания

Термин-способ представления

Термин-метазнак термина

Квантитатив-ные отношения

Отношения тождества

Термин-синоним термина

Сфера тождества и противопоставления

Отношения корреляции

Термин-коррелят термина

На рисунке 1 представлено концептуальное знание о термине. Роль знака играет термин t, изображенный на графе в одноименной вершине. Вершина T определяет множество терминов T, имеющих отношение с термином t. Если сравнить данную конструкцию с квадратом Поспелова, то вершине "знак" квадрата соответствует вершина t, вершине "смысл знака" - вершины D, C, P, S и T, вершине "действия, связанные со знаком" - вершина A, а вершине "метазнак" - вершина М. Дуги графа соответствуют концептуальным отношениям. Для отражения прагматического аспекта термина в конструкцию знака введена вершина A, и так как знания о прагматике несколько отличаются от знаний об объекте, то для них разрабатываются отдельные конструкции, необходимые для представления знаний о действиях, связанных с объектом.

Рис.1. Графическая интерпретация знака “Понятие”: t - термин; QR1 - квалитативные отношения; QR2 - квантитативные отношения, - отношение включения

Таким образом, предложенный подход построения конструкций знака концептуальных объектов, как основных категорий абстракций, позволяет создать единую концептуализацию предметной области, которую смогут понимать различные системы. Единая концептуализация необходима для формирования терминосистемы, являющейся ядром онтологии предметной области. Терминосистема может служить одновременно лексикой информационно-поискового языка. С этой позиции она должна представляться в виде тезауруса.

В работе разработана структура словарных статей тезауруса на основе конструкций знака для выбранных категорий концептуальных объектов. Для примера приведем словарную статью "Понятие", соответствующую конструкции знака, показанной на рис.1, и имеющую вид: Concept = <t, D, P, A, C, S, T, M>, (1) где t. t=<t1, t2, t3>: t1 - имя термина; t2 - тип концептуального объекта "Понятие"; t3 - вид сущности: материальный, нематериальный. D. D = {di| di - субстанциальная дефиниция, i=1n, n - число дефиниций}. P. P = { (p1, p2) i | p1 - имя свойства; p2 - ссылка на словарную статью, описывающую p1; i - число свойств понятия}. A. A = { (a1, a2) i | а1 - действие; а2 - ссылка на словарную статью, описывающую а1 как термин; i=1n, n - число действий, релевантных термину}.

C. Множество терминов, имеющих квантитативные отношения с термином t, описывается двойкой <C1, C2>, где C1 ={ (c11, c12) i | c11 - синоним; c12 - ссылка на словарную статью, описывающую c11 как термин; i=1k, k - количество синонимов}, а С2 ={ (c21, c22) i | с21 - коррелят; c22 - ссылка на словарную статью, описывающую c21 как термин; i=1m, m - число коррелятов}.

S. S = { (s1, s2) i | s1 - имя термина, описывающего состояние сущности, s2 - ссылка на словарную статью, описывающую термин s1, i=1n, n=|S|}.

T. Множество понятий (терминов), имеющих квалитативные отношения с термином t, описывается четверкой < T1, T2, T3, T4>, где T1 - понятия, составляющие родовидовые отношения с t, T1 = <T11, T12>, где T11 - множество понятий, являющихся родом t; T12 - множество понятий, являющихся видом t; элементами множеств T11 и T12 являются двойки, компоненты двойки - это имя понятия и ссылка на словарную статью, описывающую это понятие; T2 - понятия, составляющие отношение "целое-часть" с t; T2 = <T21, T22>, где T21 - множество понятий, являющихся целым для t; T22 - множество понятий, являющихся частью t; элементами множеств T21 и T22 являются двойки, компоненты двойки - это имя понятия и ссылка на словарную статью, описывающую это понятие; T3 = <t31, t32>, где t31 - термин, обозначающий способ представления термина t, t32 - ссылка на словарную статью, описывающую t31 как термин; T4 = <t41, t42>, где t41 - термин, обозначающий способ выражения термина t, t42 - ссылка на словарную статью, описывающую t41 как термин.

M.С помощью данного элемента определяются отношения между знаковыми системами. Он описывается двойкой <М1, М2>, где

М1 - способ метаязыкового представления, который позволяет зафиксировать связь термина и его представления в метаязыке;

М2 - термин другого языка, который позволяет зафиксировать связь терминов различных предметных областей.

Словарная статья "Понятие" является центральной. При описании термина посредством элементов P, A и S устанавливается связь со словарными статьями, описывающими свойства, действия и состояния, через элементы С и T - различные связи с другими терминами. Элемент M позволяет определить отношения с терминами смежной предметной области.

Структура словарных статей тезауруса позволила определить структуру прототипов знаков-фреймов, являющихся узлами семантической сети таксономии.

Следует отметить, что совокупность разработанных схем знаков для выбранных категорий глобальных объектов (понятие, свойство, действие, состояние, событие, величины) согласуется с соглашением, принятым в области искусственного интеллекта, и связанным с моделями представления знаний. Соглашение заключается в том, что в реальном мире есть объекты, которые могут состоять из частей. У объектов есть свойства, которые имеют значения. Объекты могут находиться в различных отношениях друг с другом. Свойства и отношения изменяются во времени. В различные моменты времени возникают события, активизирующие процессы, в которых участвуют объекты и которые также изменяются во времени. События могут вызывать другие события, то есть давать эффект. Мир и его объекты могут находиться в различных состояниях.

Разработав концептуализацию онтологии и поняв, что требуется извлекать из научных текстов, необходимо определить механизм извлечения знаний. На основе трудов K.I. Lewis, L. Wittgenstein, Д.А. Попелова, Г.С. Осипова, В.Н. Вагина, А.А. Залевской в работе обосновано, что лучшим подходом для извлечения знаний является ситуационный подход. Действительно, возможными ситуациями являются тот или иной предпорядок компонентов. Поэтому, выполняя морфологический или синтаксический анализ, извлекая знания о терминах из терминологических словарей или применяя другие методы анализа текста, мы всегда исследуем ситуации, в которых находятся морфемы в лексеме, лексемы - в предложении, предложения - в тексте. Методы естественно-языковой обработки текста почти всегда направлены на анализ ситуационного контекста, и в зависимости от метода объектом этого анализа является либо текст, либо предложение текста, либо лексема предложения. Из этого следует, что для решения различных задач естественно-языковой обработки научного текста необходимо разработать методы их решения, основываясь на ситуационном моделировании. В основе языка ситуационного моделирования лежит простая ядерная конструкция k=xRy, где x, y - термины, R - отношение между ними. В свою очередь, конструкция k имеет вид посылки ядра продукции. Поэтому в качестве модели представления знаний о методах избраны системы продукций, которые обладают простотой, модульностью, возможностью постепенного наращивания и модификации.

Таким образом, с целью концептуализации знаний онтологий, на основе исследования языка научного текста и семиотического моделирования:

определены шесть категорий понятий на основе глобальных классификаций объектов И. Дальберг и соглашения, принятого в искусственном интеллекте; построены схемы знаков категорий понятий. Разработанные схемы знаков в отличие от существующих знаков понятий обладают лучшей структурированностью, что способствует более точному описанию понятий и отношений между ними и, как следствие, лучшему их пониманию людьми и машинами;

построена иерархия семантических отношений на основе глобальных классификаций отношений И. Дальберг;

разработана структура словарных статей тезауруса на основе схем знаков глобальных объектов, что позволило определить состав и структуру слотов протофреймов, образующих фундамент модели представления онтологии в виде семантической сети знаков-фреймов;

определены типы предикатов как ядер продукционных правил на основе выявленных категорий семантических отношений.

В третьем разделе рассмотрены методы естественно-языкового (ЕЯ) анализа научного текста. Все методы условно разделены на две группы. К первой отнесены традиционные методы ЕЯ-обработки текста, ко второй - методы, касающиеся непосредственно построения онтологии. В работе рассмотрена обобщенная схема анализа научного текста, в соответствии с которой построены системы продукций для методов морфологического и синтаксического анализов, метода выделения именных субстантивных словосочетаний. Для построения онтологии эта схема модифицирована. В ней появились методы второй группы. Классические системы продукций построены для создания семантических сетей знаков-фреймов терминосистемы и номенклатуры, нечеткие - для соединения онтологий. В качестве примера рассмотрим извлечение знаний об отношении тождества категории квантитативных отношений.

Отношение тождества. В некоторых словарях синонимы термина не указываются явно и могут быть выявлены только в результате анализа текста словарной статьи, например: "Авизо (итал. avviso, англ, advice - сообщение, уведомление) - извещение, посылаемое одним контрагентом другому …". Здесь синонимом заголовочного термина является перевод аналога термина на иностранном языке. Наиболее распространенной является ситуация, когда синонимы заголовочного термина следуют за терм-признаком "Син.:". Пример: "Акция - осуществляемое по заранее разработанному плану масштабное действие, син.: деяние, действие". Тогда продукционное правило, распознающее синоним термина в этой ситуации имеет вид:

ЕСЛИ

<предложение>pсодержит<термин>zИ

<предложение>pсодержит<список>qИ

<список>qсодержит<ЭлементСписка>eИ

<предложение>pсодержит<признак>hИ

<признак>hимеет<значение> ["син.: "] И

<признак>hимеет<индекс>iИ

<список>qимеет<индекс> (i+1)

ТО

<ЭлементСписка>eимеет<тип> ["синоним"].

Постдействием данной продукционного правила является выделение списка терминов, следующего за указанным в продукции признаком.

Формирование соответствующих слотов семантической сети знаков-фреймов осуществляется следующим образом. После активации продукции найденные синонимы "деяние" и "действие" выделяются и присваиваются атрибуту "VALUE" соответствующих слотов с элементом NAME="namesyn" экзофрейма Фi, релевантного термину "акция":

<SLOT NAME="synonyms">

<SLOT NAME="synonym">

<SLOT NAME="namesyn"VALUE="деяние"/>

<SLOT NAME="link"FILE="Frame_#. xml"/>

</SLOT>

<SLOT NAME="synonym">

<SLOT NAME="namesyn"VALUE="действие"/>

<SLOT NAME="link"FILE="Frame_#. xml"/>

</SLOT>

</SLOT>.

Далее производится поиск терминов-синонимов во множестве фреймов Ф. Если экзофреймы ФСi и ФСj, описывающие данные термины, найдены, то в соответствующих слотах с атрибутом NAME="link" атрибуту FILE="Frame_#. xml" присваиваются ссылки на ФСi и ФСj (полный путь к файлу, символ # в имени файла Frame_#. xml обозначает порядковый номер файла). В противном случае создаются фреймы, релевантные терминам "деяние" и "действие", и после этого ссылки на них записываются в соответствующие слоты.

Система продукций, предназначенная для распознавания синонимов, должна содержать правила, анализирующие все возможные ситуации определения синонима в словарной статье терминологического словаря.

Продукции методов, представленных в данном разделе, были созданы в соответствии с результатами, полученными во втором разделе. Посылки антецедента и заключение консеквента каждого продукционного правила имеют вид простой ядерной конструкции языка ситуационного моделирования и соответствуют типам отношений, определенным в табл.1. На примере методов извлечения знаний о различных компонентах конструкций знаков показан процесс заполнения словарных статей и построения узлов семантической сети знаков-фреймов.

При построении онтологии предметной области вначале создается терминосистема, а затем - номенклатура. Поэтому при создании номенклатуры используется терминосистема, в которой уже определены все основные термины предметной области. Присоединение номенклатуры к терминосистеме может осуществляться как в процессе, так и после её создания.

Для метода соединения онтологий должны быть построены помимо классических продукций и нечеткие. Рассмотрим процесс построения нечетких продукций. При создании терминосистемы и номенклатуры заполняется их заголовок, который включает имя предметной области для терминосистемы и имя области знаний для номенклатуры. Присоединение вновь создаваемой номенклатуры NS к существующей терминосистеме ТS той же предметной области выполняется в процессе представления нового термина.

По каждому новому термину tkNS TermNS, где TermNS - множество терминов номенклатуры NS, должен выполняться поиск по образцу данного термина в терминосистеме ТS. Пусть имеем два образца iТS и kNS, соответствующие имени термина в терминосистеме ТS и номенклатуре NS:

где z1 - имя термина, z2 - тип термина, z3 - вид сущности, хij - значение tiTS для терминосистемы, ykj - значения kNS для номенклатуры.

Если соответствующие хij и ykj равны, то термину tkNS соответствует термин tiTS TermTS, где TermTS - множество терминов терминосистемы ТS.

Однако возможны случаи, когда в образце kNS неизвестны значения yk2 и/или yk3, так как в научном тексте информация о термине может быть неполной. Тогда, если хi1 = yk1, будем считать, что термину tkNS соответствует термин tiTSTermTS. Если термин найден, то в соответствующую вершину семантической сети G или слота знака-фрейма F записывается ссылка на термин tiTS терминосистемы. Кроме того, необходимо добавить записи в заголовки терминосистемы и номенклатуры.

Вполне возможно, что термин номенклатуры имеет имя, не совпадающее с именем термина в терминосистеме, но, по сути, они являются квазисинонимами. Поэтому после создания номенклатуры необходимо выполнить сравнение интенсионалов терминов номенклатуры и терминосистемы.

Интенсионал термина типа "Понятие" определяется кортежем (1). Так как элементами вектора Т являются, в основном, множества, то анализ проводится по каждому элементу отдельно, причем существенными считаются множества Pr, Tj. Нельзя сказать, что множества C, М и A не существенны. Однако, как правило, в научном тексте рассматриваются отдельные стороны термина, касающиеся какой-либо проблемы, поэтому для номенклатуры можно допустить, что эти множества не существенны.

Для анализа интенсионалов используем отношение сравнения элементов вектора Т, которое рассмотрим для каждой пары терминов (ti, tj), такой, что tiTS TermTS, tjNS TermNS. Обозначим символом Х множества вектора TermTS, а Y - множества вектора TermNS, то есть при рассмотрении элемента "Свойства" вектора Т Х= PriTS, а Y=PrjNS, где PriTS= {pri1TS, …, prinTS} задает свойства термина tiTTermTS, а множество PrjNS= {prj1NS, …, prjnNS } задает свойства термина tiNS TermNS.

При анализе множеств TjTS и TjNS отношение сравнения должно применяться для множеств терминов, связанных родовидовым отношением и отношением "Целое - часть". При этом последовательно должны сравниваться множества родовых терминов, видовых терминов, терминов-целое, терминов-часть. Из этого следует, что в сравнении участвуют: множество свойств; множество терминов-род; множество терминов-вид; множество терминов-целое; множество терминов-часть.

Отношение сравнения множеств. Сравнение множеств X и Y будем осуществлять следующими отношениями: YХ, Y=Х, YХ, YХ, YХ.

Если для любых X и Y отношение неравенства существует, то следует, что термины tiTS и tjNS разные, и дополнительных действий не требуется, то есть номенклатура остается в той же конфигурации.

Если для любых X и Y отношение равенства существует, то это означает, что термины идентичны. В этом случае в знаке-фрейме FNS, соответствующем данному термину в номенклатуре NS, необходимо удалить всю информацию кроме заголовочной. В заголовочную часть нужно добавить ссылку на знак-фрейм FTS. Тогда в знаке-фрейме FNS остается только имя термина tjNS и ссылка на tiTS. В том случае, если имена терминов не совпали, а для остальных множеств существует отношение равенства, то из этого следует, что термин tjNS является синонимом tiTS, и во множество синонимов терминосистемы нужно включить имя термина и ссылку на него.

Если для любых X и Y отношение включения YХ истинно, то это означает, что рассматриваемый термин tjNS наследует все свойства термина tiTS. Из этого следует, что в знаке-фрейме FNS, соответствующем данному термину в номенклатуре NT, необходимо удалить всю информацию кроме заголовочной. В заголовочную часть добавляется ссылка на знак-фрейм FTS.

...

Подобные документы

  • Анализ существующих программных средств для автоматического отображения онтологий, их практического применения в зависимости от поставленной задачи и сложности входных онтологий. Отображение сложных онтологий с помощью алгоритма повышенной точности.

    дипломная работа [1,5 M], добавлен 14.06.2012

  • Представление знаний в когнитологии, информатике и искусственном интеллекте. Связи и структуры, язык и нотация. Формальные и неформальные модели представления знаний: в виде правил, с использованием фреймов, семантических сетей и нечетких высказываний.

    контрольная работа [29,9 K], добавлен 18.05.2009

  • Система классов и свойств языка RDFS. Реификация или материализация утверждений. Возможности RDF, RDF Schema в представлении онтологий. Способы представления RDF-описаний. Структура и базовые элементы OWL-онтологии. Языки запросов к RDF-хранилищам.

    презентация [312,1 K], добавлен 01.09.2013

  • Теория автоматического управления как наука, предмет и методика ее изучения. Классификация систем автоматического управления по различным признакам, их математические модели. Дифференциальные уравнения систем автоматического управления, их решения.

    контрольная работа [104,1 K], добавлен 06.08.2009

  • Формализации в онтологии областей знаний с помощью концептуальной схемы. Определение атрибутов класса и свойств экземпляров. Создание экземпляров класса и DL-Query запросов. Методика использования для разработки онтологии среды разработки Protege.

    курсовая работа [2,0 M], добавлен 18.06.2014

  • Построение онтологии предметной области для анализа глобальных процессов на основе информации, получаемой из новостных лент. Средства разработки онтологий, используемых для поиска событий, фактов, извлечённых из СМИ; моделирование экономических рисков.

    курсовая работа [3,4 M], добавлен 27.08.2017

  • Классы и группы моделей представления знаний. Состав продукционной системы. Классификация моделей представления знаний. Программные средства для реализации семантических сетей. Участок сети причинно-следственных связей. Достоинства продукционной модели.

    презентация [380,4 K], добавлен 14.08.2013

  • Основы программирования с использованием библиотеки OpenGL. Приложение для построения динамического изображения модели объекта "Батискаф": разработка процедуры визуализации трехмерной схемы, интерфейса пользователя и подсистемы управления событиями.

    курсовая работа [1,4 M], добавлен 26.06.2011

  • Разработка web-сервиса как услуги, предоставляемой пользователю. Продажа товара (автомобилей) в Интернете, проблема выбора. Онтологии как часть концепции Semantic Web. Применение онтологий, их основные типы и свойства. Особенности реализации онтологии.

    курсовая работа [57,4 K], добавлен 17.04.2012

  • Проблема выбора товара в Интернете. Типы и свойства онтологий как части концепции Semantic Web. Разработка web-приложения для выбора музыкального инструмента: создание иерархии онтологий для предметной области "Гитара", формирование SPARQL-запроса.

    дипломная работа [2,2 M], добавлен 20.04.2012

  • Анализ процессов диагностики повреждений трубопровода. Разработка модели продукционной базы знаний: обзор методов представления знаний, описание создания базы знаний и разработки механизма логического вывода. Экономическое обоснование концепции проекта.

    дипломная работа [3,0 M], добавлен 16.04.2017

  • Суть программирования с использованием библиотеки OpenGL, его назначение, архитектура, преимущества и базовые возможности. Разработка приложения для построения динамического изображения трехмерной модели объекта "Компьютер", руководство пользователя.

    курсовая работа [866,8 K], добавлен 22.06.2011

  • Оценка качества поисковых систем. Индексирование по ключевым словам. Внутренние представления запросов и документов на информационно-поисковом языке. Способы улучшения поиска при помощи тезаурусов и онтологий. Ранжированный поиск (vector-space model).

    лекция [31,5 K], добавлен 19.10.2013

  • Функциональные возможности библиотеки OpenGL. Разработка процедуры визуализации трехмерной сцены, интерфейса пользователя и подсистемы управления событиями с целью создания приложения для построения динамического изображения 3D-модели объекта "Самолет".

    курсовая работа [1,7 M], добавлен 28.06.2011

  • Организация проверки результатов обучения и оценки знаний, использование систем тестирования, основные требования к ним. Создание современной модели WEB-сервиса тестирования знаний; программная реализация; защита от копирования информации и списывания.

    курсовая работа [24,1 K], добавлен 11.05.2012

  • Анализ деятельности гостиницы. Структурный анализ бизнес-процесса на основе IDEF0-модели. Особенности построения инфологической и даталогической модели данных. Аспекты проектирования базы данных гостиницы с использованием программного языка Delphi.

    курсовая работа [1,6 M], добавлен 15.02.2014

  • Тезаурус для автоматического концептуального индексирования как особый вид тезауруса. Подходы к описанию отношений при разработке онтологий. Родовидовое отношение выше-ниже. Семантическое смещение. Формальная онтология. Сравнение поисковых механизмов.

    презентация [721,9 K], добавлен 19.10.2013

  • Проблема представления знаний. Представление декларативных знаний как данных, наделенных семантикой. Представление процедурных знаний как отношений между элементами модели, в том числе в виде процедур и функций. Представление правил обработки фактов.

    курсовая работа [33,1 K], добавлен 21.07.2012

  • Построение баз знаний для семантической сети. Цели создания и язык представления онтологий. Структура исследований в области многоагентных интеллектуальных информационных систем, архитектура агента. Экономическое обоснование разработки базы знаний.

    дипломная работа [1,6 M], добавлен 29.09.2013

  • Обоснование использования виртуальной модели, средства для разработки функциональных модулей. Разработка виртуальной модели "Представление знаний в информационных системах". Разработка алгоритмов построения виртуальной модели предметной области.

    дипломная работа [1,4 M], добавлен 12.08.2017

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.