Онтологии: от информационно—поисковых тезаурусов к инженерии знаний

Концептуальные рамки, направления и проблемы онтологического моделирования. Авторский опыт разработки универсальной онтологии словарного типа и инструментальной среды, поддерживающей работу с ней. Тестирование функциональности и интерфейс онторедактора.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 17.01.2018
Размер файла 22,9 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru//

Размещено на http://www.allbest.ru//

Онтологии: от информационно--поисковых тезаурусов к инженерии знаний

В.Ш. Рубашкин

В работе обсуждаются концептуальные рамки, направления и проблемы онтологического моделирования. Представлен авторский опыт разработки универсальной онтологии словарного типа и инструментальной среды, поддерживающей работу с ней.

1. Границы

Онтологии, онтологическое (концептуальное) моделирование представляют в настоящее время весьма популярное, быстро развивающееся и вширь и вглубь научно--техническое направление. И как всегда в таких случаях практика опережает теоретическое осмысление; границы и градации оказываются размытыми, и в какой--то момент сами участники движения начинают испытывать потребность точнее определить концептуальные рамки - цели, основную проблематику и базовую методологию того направления, к которому они себя причисляют. Настоящий доклад представляет собой попытку предложить авторский вариант ответа на так поставленные вопросы - ответа, основанного как на сложившейся практике, так и на личном опыте исследований и разработок в этой области.

Онтология сегодня, прежде всего, модное слово, которое, как всякое модное слово, постепенно расплывается и теряет содержательность. Каждый, кто хочет заявить о своей причастности к новейшим течениям, вывешивает этот флаг на фасаде, не слишком утруждая себя осознанием допустимых границ словоупотребления. Поэтому первая потребность профессионального сообщества - очертить внешние границы онтологического моделирования (ср. напр. [Клещев, 2001]).

Известное определение Т. Грубера "спецификация концептуализации" представляется нам недостаточно содержательным. Полагаем, что принципиальная граница, отделяющая онтологию, рассматриваемую как раздел инженерии знаний, т.е. как инженерная онтология, от смежных направлений деятельности - и тем более от произвольных и неоправданных сближений -- определяется прежде всего одним простым и понятным условием: онтология должна иметь вычислительную функциональность И основу этой функциональности составляет машина ограниченного логического вывода.. Содержание этой функциональности, конечно же, подлежит обсуждению, но это, в некотором смысле, абсолютная граница: она (функциональность) либо есть, либо отсутствует. И это одно легко позволяет отделить инженерную онтологию от других, вообще говоря, полезных вещей: идеографических словарей, логических исчислений, философской онтологии и т.п.

2. Внутренние различения

Самое существенное различие касается двух, как нам представляется, постепенно расходящихся пониманий термина инженерная онтология - расширительным и ограничительным. С одной стороны, онтология может рассматриваться как термин, символизирующий дальнейшее углубление в проблематику формального представления знаний и разработки методов и средств управления знаниями; с другой стороны - как термин, символизирующий вычленение из всего этого более узкой проблематики вычислительного моделирования терминологических и - несколько более общо - концептуальных систем. Нам кажется, что расширительное понимание ведет к отождествлению понятий онтология и база знаний; при соответствующей логической и математической обработке так понимаемая онтология превращается в теорию определенной предметной области - в общепринятом смысле этого слова и, как нам кажется, теряет свою специфику. В этом направлении движутся, например, бизнес--онтологии Ср., напр., [KAON], [SHOE], система CYC и др. Можно назвать это онтологией задач. При ограничительном понимании онтология сама по себе не может и не должна решать практически значимых инженерных задач. Это должны делать экспертные, поисковые, вопросно--ответные, Text Mining, системы концептуального доступа к базам данных, системы интеллектуального свертывания текста и другие проблемно--ориентированные системы. Онтология должна лишь обеспечивать им словарную поддержку, предлагая точный и программно интерпретированный ответ на вопрос, что мы знаем о лексике данной проблемной области. Можно назвать это словарными онтологиями. В англоязычных работах для обозначения этого различия используются термины terminological и knowledge-modelling ontologies. Конечно, границу между терминосистемой и ее постулатами значений, с одной стороны, и знаниями предметной области, с другой, провести не всегда легко. Однако то знание, которое, скажем, выражается продукциями в экспертных системах, вряд ли имеет смысл относить к терминологическим знаниям. Ср., напр., [Guarino]. Если говорить коротко, то технически онтология в таком ее понимании - это (программная) библиотека словарных функций вида F(1)(D) F(2)(D1, D2 ), аргументами которых являются концепты. При таком понимании практика построения и использования онтологий может рассматриваться как прямое продолжение практики построения и использования информационно--поисковых тезаурусов.

Другое очевидное различие -- по охвату универсума знаний: узкоспециализированные (обычно ориентированные на конкретно поставленную проблему) - отраслевые (ориентированные на определенную научную дисциплину и/или область деятельности) - универсальные. Ясно, что универсальная онтология может быть только словарной.

Третье существенное различие - по глубине описания концептуальных систем. С этой точки зрения онтологии можно расположить на шкале слабо структурированные - глубоко структурированные. Примером первых может служить, скажем WordNet, тогда как онтологии, создаваемые для решения частных, четко формулируемых проблем, как правило, на противоположном краю этой шкалы.

Еще одно существенное разграничение -- "чисто концептуальные" vs "лексически интерпретированные" онтологии. Вторые поддерживают связь с лексической системой естественного языка, тогда как первые в этом не нуждаются. Соответственно, вторые включают толковый словарь (в терминологии [Nirenburg et al., 2004] -- "Лексикон") и наряду с чисто концептуальными функциями поддерживают функции двунаправленного перевода, которые могут иметь, например, такой вид:

СЛОВА (Концепт)

КОНЦЕПТЫ (Слово)

Первая функция возвращает все слова, выражающие указанный концепт или участвующие в его выражении; вторая, наоборот, - все концепты, которые в тексте могут быть выражены данным словом, взятым отдельно, либо в составе словосочетания.

Другие существенные различения связаны с базовым логическим языком, используемым как средство "спецификации концептуализации" (или отсутствием такового); средствами логического вывода; рабочим языком представления и обусловленными им структурами хранения и обработки данных; возможностями связи с базами данных; используемыми инструментальными средствами.

3. Проблемы

Наше видение актуальных проблем определяется следующим перечнем.

Логическое обоснование словарных описаний.

Поддержание корректности и целостности онтологии.

Массовое пополнение ("проблема бутылочного горлышка").

Технологичность инструментальной среды.

Интегрируемость онтологий (создание универсальной онтологии).

Коротко прокомментируем этот список. Необходимость логического обоснования - через логическую интерпретированность всех элементов описания концептов в онтологии -- никем не подвергается сомнению. Проблему мы видим в том, что этот принцип редко проводится последовательно, а логические языки, которые для этого используются, далеко не всегда представляются подходящими для этой цели. Поддержание корректности и целостности в онтологиях значительно более сложная и более критичная проблема, чем в менее сложно устроенных словарных системах. Требуется, в частности, жесткий и весьма скрупулезный логический контроль при вводе.

В отношении методов пополнения онтологий следует признать, что методы "ручного" ("интеллектуального") ввода не могут решить проблемы, и в этой связи, как нам представляется, трудно переоценить значимость тех интеллектуальных ресурсов, которые накоплены в форме профессиональных энциклопедических словарей. Дело за тем, чтобы разработать методы автоматизированной "перекачки" этих ресурсов в онтологические форматы.

Технологичность среды, на наш взгляд, определяется:

наличием средств визуального редактирования;

наличием, всеобъемлемостью и "ненавязчивостью" средств логического контроля;

простой навигацией и обозримостью словарного материала;

технологичностью распределенного редактирования.

Что касается "интегрируемости", то осознанное движение к универсальной онтологии нам представляется более предпочтительным, чем разработка и поддержание изощренных средств установления соответствий между независимо разрабатываемыми онтологиями. До какого-то момента, очевидно, оба направления могут и должны сосуществовать. Но пренебрежение унификацией может, в конце концов, привести к эффекту Вавилонской башни. Полагаем, что только унификация, обеспечиваемая жестко поддерживаемой всеми участниками движения Top-Level онтологией, позволит избежать того печального конца, к которому пришли в этом плане разработчики информационно-поисковых тезаурусов. Сомнения относительно принципиальной возможности построения универсальной и всеобъемлющей онтологии аргументируются, главным образом, ссылками на разнородность и несопоставимость языков разных научных дисциплин и областей практической деятельности. На наш взгляд, в этой аргументации смешиваются план содержания и план выражения языка - "разнородность и несопоставимость" относятся к плану выражения. Разные способы классификации действительности, обнаруживаемые при сопоставлении разных национальных языков и разных профессиональных областей при наличии логически отработанных понятийно-терминологических систем нельзя считать непреодолимыми. Надо исходить из того, что системообразующим фактором в любой онтологии являются объемные отношения. И принципиальный факт состоит в том, что любые два понятия могут быть сопоставлены объемно - и для понятий, отнесенных к одной семантической категории, определенный результат такого сопоставления (включение, совместимость, несовместимость) может быть получен всегда. В этом плане вполне законно сопоставлять и рассматривать в рамках единой системы все что угодно: чайную ложку, мегаполис, заповедь "Не убий", туманность Андромеды и проч., и проч.

4. InTez - онтология и онторедактор. Из опыта разработки

Специфику представляемой онтологии с точки зрения перечисленных выше различений можно определить так: строится универсальная словарная лексически интерпретированная онтология, ориентированная на достаточно детальное описание концептов и связей между ними.

О технической функциональности онтологии может дать представление нижеследующий список функций.

СК ( D ) - Семантическая категория понятия D

СК('министр') = ОБЪЕКТ

СК('переговоры') = ПРОЦЕСС;

СТ ( D ) - Семантический тип понятия D;

СОВМЕСТИМОСТЬ ( D1, D2 ) - Объемное отношение между

понятиями D1 и D2;

ТОЛКОВАНИЕ ( D ) -Логическая формула,

представляющая определение понятия D;

СОБСТВЕННЫЙ ПРИЗНАК ( D ) - Код наименования признака,

значением которого является D;

ЕДИНИЦА ИЗМЕРЕНИЯ_ДЛЯ ( D ); Код стандартной единицы

измерения количественного признака;

ЦЕЛОЕ ( D ) -Термин, представляющий название класса объектов,

имеющих частью D;

ЧАСТИ ( D ) - Список всех терминов, являющихся типовой частью D;

АССОЦИИРОВАНЫ (D1, D2 ) - ДА/НЕТ

ПРЕДМЕТНО_АССОЦИАТИВНЫЕ_ОТНОШЕНИЯ (D1, D2 )

- Список отношений между заданными понятиями;

МОДЕЛЬ УПРАВЛЕНИЯ (D ) - Множество пар вида <Val, SemCond>,

где

Val -- имя валентности,

SemCond - семантическое условие заполнения валентности).

В онтологии реализуется, в частности, более детальная, чем это обычно делается, семантическая категоризация. Базовым языком, определяющим и логически интерпретирующим систему словарных отношений в поддерживаемой редактором онтологии является логический язык ИНФОЛ [Рубашкин, 1989], позволяющий формализовать понятие семантической корректности языковых выражений и обеспечивающий вычислимость полного набора объемных отношений. Собственно спецификация концептов в онтологии осуществляется в терминах дерева словарных признаков (принцип самоописания словаря). Хранение данных и манипулирование данными реализуется с использованием средств стандартной СУБД. Исполнительная система, отвечающая за функциональность онтологии, решена как машина ограниченного прямого вывода, главным результатом работы которой является построение развертки. С логической точки зрения развертку можно определить как максимальную конъюнкцию всех простых следствий, выводимых из данного понятия.

Для администрирования онтологии используется специализированный онторедактор. Функциональность онторедактора можно определить следующим перечнем.

Броузинг и поиск.

Редактирование (ввод, корректировка, удаление).

Логический контроль при вводе.

Тестирование функциональности.

Взаимодействие с другими онтологиями (импорт - экспорт, обычно с использованием коммуникативных форматов представления).

Специфичным для данного онторедактора является возможность тестирования функциональности как на случайных выборках, так и для задаваемых администратором концептов. В процессе тестирования строится развертка понятия, для пары понятий вычисляются объемное отношение и ассоциированные отношения.

Редактор имеет графический интерфейс, обеспечивающий визуальный режим редактирования. тезаурус поисковый онторедактор

Специфической проблемой практически всех инструментов управления словарями является переменный состав словарной статьи: набор релевантных описываемому объекту признаков должен формироваться (уточняться) в самом процессе построения словарного описания. С этим связаны очевидные сложности, касающиеся как организации диалогового ввода, так и хранения данных. В редакторе InTez первая проблема решается посредством организации регламентированного диалога, управляемого вводимыми данными; вторая - путем использования в таблицах БД полей с переменной семантикой. В процедуре регламентированного диалога набор признаков, релевантных текущей ситуации ввода, перевычисляется после добавления к словарной статье очередного признака. С точки зрения пользователя дело обстоит так, что ему всегда предъявляются в процессе ввода только релевантные признаки, и, соответственно, только релевантные наборы их значений. Логический контроль ввода оказывается побочным результатом построенной таким образом процедуры ввода словарных описаний.

Список литературы

Клещев А. С. Математические модели онтологий предметных областей. Ч. 1. Существующие подходы к определению понятия "онтология" // Научно--техническая информация Сер. 2 Информационные процессы и системы - 2001 -- №2.

Овдей О. М., Проскудина Г. Ю. // Труды Шестой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» -- 2004 - http://www.impb.ru/~rcdl2004/cgi/papers_list.cgi?l=ru

Рубашкин В. Ш. Представление и анализ смысла в интеллектуальных информационных системах. -- М.: Наука, 1989

Рубашкин В. Ш. Универсальный понятийный словарь: функциональность и средства ведения // КИИ--2002. Восьмая национальная конференция по искусственному интеллекту с международным участием. Труды конференции. М., 2002.

Guarino N. Understanding, Building, And Using Ontologies // Knowledge Acquisition Workshops and Archives - http://ksi.cpsc.ucalgary.ca/KAW/

KAON -- The KArlsruhe ONtology and Semantic Web tool suite -http://kaon.semanticweb.org/

Organization Ontology 1.0 : SHOE http://www.cs.umd.edu/projects/plus/SHOE/onts/org1.0.html

Sowa J. F. Building, Sharing, and Merging Ontologies // Профессиональный сайт John F. Sowa -- http://www.jfsowa.com/

Nirenburg S., Raskin V. Ontological Semantics. - Cambridge, MA: MIT Press, 2004

Staab Steffen, Studer Rudi (eds). Handbook on Ontologies. - Berlin--Heidelberg: Springer--Verlag, 2004

Размещено на Allbest.ru

...

Подобные документы

  • Методы представления знаний заданной предметной области. Создание онтологии бортовых информационно управляющих систем автомобиля. Создание среды разработки и приложения для поиска в интернете с использованием онтологии. Проверка эффективности приложения.

    презентация [1,6 M], добавлен 25.12.2014

  • Формализации в онтологии областей знаний с помощью концептуальной схемы. Определение атрибутов класса и свойств экземпляров. Создание экземпляров класса и DL-Query запросов. Методика использования для разработки онтологии среды разработки Protege.

    курсовая работа [2,0 M], добавлен 18.06.2014

  • Понятие интеллектуального пространства, объекты изучения в онтологии. Разработка Web-сайта на тему "Онтологии в информатике". Описание логической и физической структуры сайта, шаблон дизайна его страниц, тестирование. Исходный текст шаблона html-страницы.

    курсовая работа [4,7 M], добавлен 14.07.2012

  • Отличительные особенности тезауруса для автоматического концептуального индексирования. Методы, используемые при формировании состава Общественно-политического тезауруса. Описание идеи алгоритма, основанного на учете структуры связного текста.

    презентация [38,0 K], добавлен 01.09.2013

  • Информационно-поисковый тезаурус, его определение и цель разработки. Организация быстрого и эффективного поиска документальной информации. Использование, структура, построение, сфера применения и перспективы развития информационно-поисковых тезаурусов.

    контрольная работа [17,6 K], добавлен 01.08.2009

  • Создание множества религиозных понятий и их определение. Преимущества использование платформы Protеgе. Разработка онтологии по предметной области "Буддизм" посредством компьютерной программы Protеgе 4.2.0. Представление онтологии в графическом виде.

    курсовая работа [768,0 K], добавлен 18.08.2013

  • Понятие и компоненты онтологии. Назначение и использование рубрикаторов в интернет-системах по товарам. Автоматическая рубрикация по товарам. Фрагмент описания рубрики "Автозапчасти". Проблемы пословного поиска в системе Ontoseek и средства их решения.

    презентация [1,2 M], добавлен 01.09.2013

  • Разработка web-сервиса как услуги, предоставляемой пользователю. Продажа товара (автомобилей) в Интернете, проблема выбора. Онтологии как часть концепции Semantic Web. Применение онтологий, их основные типы и свойства. Особенности реализации онтологии.

    курсовая работа [57,4 K], добавлен 17.04.2012

  • Построение онтологии предметной области для анализа глобальных процессов на основе информации, получаемой из новостных лент. Средства разработки онтологий, используемых для поиска событий, фактов, извлечённых из СМИ; моделирование экономических рисков.

    курсовая работа [3,4 M], добавлен 27.08.2017

  • Выбор инструментальной среды разработки программного обеспечения системы. Алгоритм создания теста и ввода его исходных данных. Анализ экономической эффективности применения программного обеспечения "Тестирования знаний обучающихся программированию".

    дипломная работа [3,2 M], добавлен 11.09.2014

  • Объектно-ориентированное проектирование системы, поддерживающей основные функции сотового телефонного аппарата, разработка диаграмм классов с их атрибутами и методами. Спецификации модулей программы, системные требования и тестирование функциональности.

    курсовая работа [1,1 M], добавлен 24.01.2012

  • Рубрикация на специализированном интернет-сайте. Системы общего назначения. Автоматическая рубрикация по товарам. Лингвистические онтологии: WordNet, РуТез. Рубрикаторы интернет-систем по товарам. Поиск товаров "по смыслу" - использование таксономии.

    лекция [1,2 M], добавлен 19.10.2013

  • Анализ существующих поисковых систем и используемых ими алгоритмов поиска документов. Разработка информационно-поисковой системы словарного типа, способной осуществлять релевантный поиск документов, особенности ее структуры и информационно-поисковой базы.

    дипломная работа [942,1 K], добавлен 19.05.2011

  • Информационное обеспечение научных исследований в университете. Разработка онтологии в области управления. Создание глоссария по менеджменту, списка персоналий. Семантическая разметка массива документов. Методика работы с базой научных публикаций.

    дипломная работа [3,5 M], добавлен 13.01.2015

  • Основные принципы построения информационно-поисковых систем. Архитектура современных информационно-поисковых систем WWW. Принцип работы поисковых систем. Процесс поиска, информационный язык, перевод, дескриптор, критерий соответствия, индексирование.

    курсовая работа [70,2 K], добавлен 10.06.2014

  • Характеристика алгоритмов и программных реализаций поведения агентов в двумерной среде. Исследование разработки структур данных и знаний. Особенность создания интерфейса и карты лабиринта. Экспериментальное тестирование и отладка модулей программы.

    дипломная работа [2,4 M], добавлен 12.08.2017

  • Понятие информационно-поисковых систем. История возникновения сети Internet. Основные алгоритмы работы современных словарных информационно-поисковых систем. Быстрый поиск в базе данных и быстрое реагирование системы. Ранжирование результатов поиска.

    курсовая работа [101,1 K], добавлен 01.06.2012

  • Методика использования информационных образовательных технологий. Логическая структура базы данных (БД) и информационно-поисковые функции. Программная реализация БД, представлений таблиц и информационно-поисковых функций. Состав программного обеспечения.

    курсовая работа [2,1 M], добавлен 16.05.2013

  • Понятие, структура и классификация информационных систем. Информационно поисковые системы. Исторические предпосылки развития поисковых систем. Понятие поисковых систем. Особенности поисковых систем: структура сети, структура работы поисковых систем.

    курсовая работа [81,9 K], добавлен 28.03.2005

  • Оценка качества поисковых систем. Индексирование по ключевым словам. Внутренние представления запросов и документов на информационно-поисковом языке. Способы улучшения поиска при помощи тезаурусов и онтологий. Ранжированный поиск (vector-space model).

    лекция [31,5 K], добавлен 19.10.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.