Модель лингвистической онтологии с нечеткими семантическими отношениями, генерируемой на основе Википедии

Обоснование актуальности автоматизации создания лингвистических онтологий и выбора для этой цели Википедии в качестве источника информации. Определение мер семантической близости понятий с учетом их вычислительной сложности, выбор взвешенной меры Дайса.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 27.05.2018
Размер файла 148,6 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Модель лингвистической онтологии с нечеткими семантическими отношениями, генерируемой на основе Википедии

Д.В. Кравцов, Е.А. Леонов

Аннотация

онтология лингвистический автоматизация википедия

Обоснована актуальность автоматизации создания лингвистических онтологий и выбор для этой цели Википедии в качестве источника информации. Предложена математическая модель Википедии и лингвистической онтологии, использующая парадигму нечетких семантических отношений между понятиями. Сделан краткий обзор мер семантической близости понятий с учетом их вычислительной сложности, обоснован выбор взвешенной меры Дайса.

Ключевые слова: лингвистическая онтология, лексическая онтология, автоматическое построение онтологий, ontology learning, Википедия, нечеткие семантические отношения, семантическая близость.

Annotation

D.V. Kravtsov, E.A. Leonov MODEL OF LINGUISTIC ONTOLOGY WITH FUZZY SEMANTIC RELATIONS GENERATED ON BASIS OF WIKIPEDIA

The application without knowledge of an ontological type allows updating considerably quality of problem solutions in natural language processing. A number of researchers use Wikipedia as a basis for the formation of such resources. This paper reports the formalization method of Wikipedia structures and linguistic ontology used in the developed by the authors system of the linguistic ontology formation a specified subject field from Wikipedia. The papers and references connecting them serve a purpose for formation of a weighted graph of ontology to the graph nodes correspond notions, and to the ribs of graph - fuzzy semantic relations between them. The references obtain different weights depending on entering this or that information unit on a page. By a graph of relations it is possible to estimate numerically the degree of semantic proximity of two arbitrary concepts. For this purpose it is possible to use different measures of semantic proximity. Recursive measures possess considerable computational complexity at insignificant improvement of quality in test problem solution in comparison with non-recursive local measures of the Dice measure type that is unacceptable for the ontology large enough. From these considerations the Dice weighted measure is chosen as a basic one for the system under development.

Key words: linguistic ontology, lexical ontology, automated formation of ontology, ontology learning, Wikipedia, fuzzy semantic relations, semantic proximity.

Основная часть

С развитием технологий Интернета, ростом объема создаваемого контента, наблюдаемым в последние годы, растет и потребность в эффективных и в то же время более интеллектуальных методах обработки и анализа естественного языка. Наряду с традиционными статистическими методами, основанными на машинном обучении, все больше применяются подходы, использующие явные знания о предметных областях, представленные в виде формализованных структур, таких как онтологии. В частности, практика многих зарубежных [1; 2], а также отечественных [3; 6] ученых показывает, что так называемые лингвистические (лексические) онтологии (ЛО) могут весьма успешно применяться в самых разных задачах информационного поиска и обработки естественного языка. Например, в диссертации [1] приведен пример классификации текстов без обучения, чисто на основе онтологических знаний. Неформальное определение ЛО предметной области дается в работе [4]: «…это база знаний онтологического типа о понятийной системе и лексико-терминологическом составе предметной области».

Многие исследователи ищут способы автоматизации построения онтологий, так как создавать их вручную с нуля очень трудозатратно и долго. Этому посвящена отдельная область исследований в онтологическом инжиниринге, именуемая в английском языке «ontology learning». Обычно в области ontology learning в качестве источника для автоматизированного построения онтологий рассматривают коллекции неструктурированных текстов. В такой постановке построение онтологии является комплексной проблемой, состоящей из ряда весьма нетривиальных подзадач, таких как извлечение терминов, извлечение синонимов, формирование понятий, построение иерархии понятий, выявление произвольных отношений между понятиями и др. (см. «ontology learning layer cake» [5]). В то же время все больше исследователей используют для этой цели Википедию - открытый источник информации, представленной в частично структурированном виде, по широкому перечню предметных областей и общих знаний. Википедия, как показано ниже, относительно легко преобразуется к онтологическому представлению. Помимо этого к преимуществам Википедии стоит отнести постоянную пополняемость и актуализацию большим сообществом волонтеров, мультиязычность (наличие связей между одинаковыми понятиями на разных языках), бесплатность использования (в том числе в коммерческих целях), свободную доступность в виде дампов базы данных.

Из наиболее известных проектов, в которых для построения баз знаний онтологического типа использовалась Википедия, можно выделить проекты DBpedia, YAGO, Texterra [6]. Первые два являются относительно высокоформализованными и, по-видимому, больше ориентированы на использование различными интеллектуальными агентами в рамках концепций Linked open data, Semantic Web, чем на автоматическую обработку текстов. Проект Texterra - разработка российских ученых из Института системного программирования РАН - ориентирован как раз на анализ текстов и основан на численной оценке семантической близости понятий с использованием (как и у многих других исследователей) графа ссылок Википедии. Таким образом, подход к автоматизированному построению лингвистических онтологий на базе информации, извлекаемой из Википедии, является перспективным и востребованным.

Для того чтобы разработать эффективный алгоритм и программную реализацию для построения ЛО на базе Википедии, требуется формализация этих понятий. С точки зрения поставленных целей Википедию можно представить в виде кортежа

W = < P, L, R, A>.

Здесь P - множество страниц, в котором каждая страница pi = <t, k, B>, где t - заголовок страницы, k - тип страницы (k ? {обычная, страница-перенаправление, страница-категория, страница-дизамбигуация}), B={(bi, si, wi)} - контент страницы, представленный в виде совокупности информационных блоков bi, их весов wi и их типов si ? {шапка страницы, раздел «История», инфоблок, основной текст, текст ссылок типа «Основная статья», блок «См. также», навигационный шаблон}; L - множество ссылок между страницами; R ? (PЧP)ЧL - отношение, задающее связь конкретного экземпляра ссылки с парой страниц; A: L > B - алгоритм (функция), который выделяет на странице блоки и ставит им в соответствие ссылки, находящиеся в блоке. м (pi, pj,) > [0, 1] - весовая функция, рассчитывающая для пары страниц вес ссылочной связи от i-й страницы к j-й. Этот вес передается на вход модели лингвистической онтологии в качестве степени принадлежности нечеткого отношения ri,j.

Вес блока, определяемый его типом, распространяется на его ссылки. Вес м(A, B) вычисляется на данный момент как простая сумма весов всех ссылок из A в B. В дальнейшем, после проведения тестов, возможно введение некоторых нормировочных коэффициентов (например, деление на количество ссылок, логарифмирование).

При разработке математической модели ЛО авторы исходили из двух соображений: 1) ее функционала должно быть достаточно для использования в задачах автоматической обработки текстов; 2) она будет создаваться преимущественно автоматическими методами из информации, которую можно получить из Википедии.

Предлагаемую модель ЛО в общем виде можно представить следующим набором:

ЛO = < C, T, L, M, D, R, A >.

Ниже дано описание всех составляющих его элементов.

C - множество понятий (концептов), основных единиц онтологии. Каждой статье Википедии (кроме некоторых видов страниц, например страницы-перенаправления и др.) соответствует понятие в ЛО. В предлагаемой модели онтологии не делается различий между понятиями и их экземплярами (instances), которые также рассматриваются как понятия.

Т - множество терминов (лексикон) онтологии, которыми понятия могут выражаться в текстах. Терминам соответствуют названия статей (основные и названия страниц-перенаправлений), текст гиперссылок из других статей (с определенными оговорками).

M - отношение, задающее связь терминов с понятиями (значениями терминов): M ? TЧC или M: TЧC > {0, 1}. Одному понятию могут соответствовать несколько терминов (синонимы, квазисинонимы), в то же время один термин может быть связан с несколькими понятиями (многозначность). При обработке текстов с использованием ЛО необходимо определять нужное значение многозначного термина, для чего разработаны соответствующие методы разрешения лексической многозначности.

D - подмножество дескрипторов (D ? T), т. е. терминов, которые являются предпочтительными для понятия и однозначно идентифицируют. Каждому понятию сопоставлен один дескриптор, т.е. отношение M задает биекцию - M: D - C.

R - набор отношений нескольких типов между понятиями. Отношения планируется строить в автоматическом режиме на основе различных типов ссылок Википедии. Таким способом мы можем выделить два типа отношений: иерархическое, которое строится на основе ссылок на иерархическую систему категорий Википедии, и ассоциативное, которое строится на основе всех остальных ссылок. Необходимо заметить, что система категорий Википедии является не формальной таксономией, построенной строго на отношении «род - вид», а смешением различных отношений, в том числе «часть - целое». Отношения, построенные таким образом, не обладают формальной строгостью: можно говорить лишь о вероятности наличия отношения, степени его выполнимости на паре понятий или силе семантической связи. Такую характеристику можно выразить величиной в интервале [0, 1]. Таким образом, разумным представляется использование математического аппарата теории нечетких отношений для построения модели нечеткой лингвистической онтологии.

A - набор аксиом онтологии, т. е. правил нечеткого логического вывода, позволяющих распространять нечеткие отношения на понятия, для которых они не заданы явно. В качестве аксиом используются свойства транзитивности и наследования отношений.

Определим нечеткое отношение между понятиями ci и cj, принадлежащими C, как функцию, ставящую в соответствие каждой паре понятий степень их принадлежности этому отношению, т. е. R: C Ч C > [0, 1] или R(ci, cj) ? [0, 1], что кратко можно записать как ri,j. Такому определению можно поставить в соответствие взвешенный ориентированный граф, вершинам которого соответствуют понятия, ребрам - отношения, весам ребер - значения функции принадлежности. Назовем его графом отношений онтологии. Для логического вывода используется свойство транзитивности отношений, которое для нечетких бинарных отношений обычно определяется следующим образом (сильная транзитивность) [9]:

R(x, z) ? min ( R(x, y), R(y, z) ) ? x, y, z ? X.

Но интуитивно понятно, что по мере удаления от заданного понятия по графу отношений семантическая связь понятий, т.е. степень принадлежности, должна уменьшаться. Поэтому мы будем далее использовать слабую транзитивность, условие которой для нашей модели можно определить так:

R(ci, cj) ? R(cj, ck) ? R(ci, ck) > 0.

Правило нечеткого логического вывода для транзитивных отношений (аксиома транзитивности):

Atr ? A: ri,j ? rj,k ? ri,k = t (ri,j, rj,k),

где t - функция транзитивности (в самом простом варианте это произведение степеней принадлежности).

Тогда правило нечеткого логического вывода для отношений, обладающих свойством наследования (аксиома наследования), можно записать как

Ain ? A:

ri,j ? r`j,k ? r`i,k = i (ri,j, r`j,k) = ri,j r`j,k,.

Нечеткие иерархические отношения антирефлексивны, асимметричны и транзитивны. Нечеткие отношения ассоциации мы рассматриваем как несимметричные и транзитивные. Зная эти свойства отношений и применяя к ним правила вывода, можно извлекать заданные подмножества понятий, например полное поддерево иерархии вниз для некоторого понятия (частные понятия) или отранжированный список ассоциативно связанных понятий со степенью принадлежности не менее заданной.

Весьма полезным свойством графа отношений ЛО является возможность численно оценить степень смысловой связанности двух произвольных понятий. Для этого введем понятие нечеткого отношения (функции) семантической близости (СБ, semantic relatedness) понятий rel:

R(ci, cj) ? R(cj,ci ) ? rel(ci, cj), ?ci, cj ? C.

Функцию принадлежности нечеткого отношения СБ определим как

rel(ci, cj), = max(R(ci, cj), R(cj,ci )).

Отношение семантической близости рефлексивно (причем семантическая близость понятия с самим собой равна 1), симметрично и транзитивно, т.е. является отношением нечеткой эквивалентности. Взятое отдельно от других отношений, отношение семантической близости преобразует исходный ориентированный граф отношений в неориентированный, и если у пары вершин было более одного ребра, то оставляется только ребро с наибольшим весом.

Вычисление функции семантической близости по графу отношений является нетривиальной задачей. Если онтология ограниченной предметной области достаточно маленькая, то может оказаться возможным предварительный расчет СБ для каждой пары понятий. Но для достаточно больших онтологий (сотни тысяч понятий) такой подход потребует слишком много памяти и времени. В то же время если вычислять семантическую близость на лету, то расчет должен выполняться за минимальное время, так как многие задачи, например поиск по запросу, критичны ко времени отклика. В этих условиях актуален вопрос о выборе рациональной меры семантической близости, рассчитываемой на основе графа (в частности взвешенного). Хороший обзор и классификация таких мер сделаны в работе [10]. Их можно разделить на три основные группы:

· меры парного случайного блуждания (SimRank, мера близости Ньюмана);

· меры случайного блуждания (мера Грина, локальный PageRank, PageSim и др.);

· нерекурсивные меры (косинус, меры Дайса, Жаккара, Кульчинского и др.).

Популярная рекурсивная мера парного случайного блуждания SimRank вычисляется по следующей итерационной формуле:

где Sij - элемент матрицы подобия вершин; Aij - элемент матрицы смежности; ki - степень i-й вершины; C - коэффициент затухания.

Вычислительная сложность этой меры очень высока - O(n3), где n - количество ребер графа. Из-за очень маленького диаметра графа Википедии обе меры, SimRank и мера Ньюмана, вычисляют полную матрицу семантической близости, а потому практически невычислимы [10]. Меры случайного блуждания в плане вычислительной сложности существенно превосходят меры парного случайного блуждания (сложность O(n)), но все же в больших онтологиях могут оказаться недостаточно эффективными.

Среди традиционных нерекурсивных мер интерес вызывает мера Дайса:

где N(a) - множество вершин, соседних с вершиной a.

Несмотря на простую интерпретацию (отношение количества общих соседей к сумме количеств соседей каждой из вершин), согласно экспериментальным данным [7], мера Дайса показывает очень хорошие результаты. Так, при решении задачи разрешения лексической многозначности по методу системы Texterra мера Дайса показывает самые лучшие результаты на всех четырех использовавшихся тестовых наборах данных по сравнению с различными вариациями мер на основе поиска кратчайших путей [8].

В графе отношений нечеткой ЛО семантическая близость пары понятий a и b рассчитывается как взвешенная мера Дайса:

где wa,i - вес ребра между вершинами a и i.

Итак, для расчета семантической близости пары понятий в том случае, если у них есть общие вершины в графе отношений, предполагается использовать взвешенную меру Дайса; если общих вершин нет - одну из мер случайного блуждания, например модификацию меры Грина, предложенную в работе [10], которая показала наилучшие результаты на данных, полученных ручным ранжированием статей Википедии.

Были рассмотрены подходы к построению базы знаний онтологического типа на основе Википедии для применения в автоматической обработке текстов. Дано формализованное представление основных структурных элементов Википедии, используемых в этом процессе. Разработана математическая модель создаваемой лингвистической онтологии, использующая концепцию нечетких семантических отношений между понятиями. Проведен обзор мер (алгоритмов), применяемых для вычисления семантической близости понятий по графу отношений онтологии, в качестве основной выбрана взвешенная мера Дайса.

На основе описанных формализаций ведется разработка программных модулей парсинга дампов Википедии и хранилища онтологии. Предполагается, что лингвистический ресурс, построенный на базе предложенной модели, будет достаточно универсален и сможет использоваться в массе разнообразных задач, таких как смысловое расширение (сужение, дополнение) поисковых запросов, фасетная навигация при поиске, выделение терминов предметной области из текста, разрешение лексической многозначности, построение семантической структуры текстов для улучшения качества их автоматической обработки: поиска, классификации, аннотирования и т. д.

Список литературы

1. Janik, M. Training-less ontology-based text categorization: PhD diss. / Maciej Janik. University of Georgia, 2008. 150 p.

2. Syed, Z. S. Wikipedia as an Ontology for Describing Documents / Z. S. Syed, T. Finin, A. Joshi // Proceedings of the Second International Conference on Weblogs and Social Media. 2008. P. 136-144.

3. Добров, Б. В. Лингвистическая онтология по естественным наукам и технологиям для приложений в сфере информационного поиска / Б. В. Добров, Н. В. Лукашевич //10-я Нац. конф. по искусств. интеллекту с междунар. участием. 2006. С. 489-497.

4. Лукашевич, Н. В. Модели и методы автоматической обработки неструктурированной информации на основе базы знаний онтологического типа: дис…. д-ра техн. наук / Н. В. Лукашевич. М., 2014. 312 c.

5. Cimiano, P. Ontology Learning and Population from Text: Algorithms, Evaluation and Applications / Philipp Cimiano. Springer US, 2006.

6. Турдаков, Д. Ю. Texterra: инфраструктура для анализа текстов / Д. Ю. Турдаков [и др.] // Труды Института системного программирования РАН. 2014. Т. 26. № 1. С. 421-440.

7. Turdakov, D. Semantic relatedness metric for Wikipedia concepts based on link analysis and its application to word sense disambiguation / D. Turdakov, P. Velikhov // In proceedings of the SYRCoDIS'2008. 2008.

8. Варламов, М. И. Расчет семантической близости концептов на основе кратчайших путей в графе ссылок Википедии / М. И. Варламов, А. В. Коршунов // Труды конференции ИОИ-2014: Интеллектуализация обработки информации (5-10 окт. 2014 г., Греция). 2014. С. 1107-1125.

9. Нечеткие множества в моделях управления и искусственного интеллекта / под ред. Д. А. Поспелова. М.: Наука, Гл. ред. физ.-мат. лит., 1986. 312 с.

10. Велихов, П. Е. Меры семантической близости статей Википедии и их применение к обработке текстов / П. Е. Велихов // Информационные технологии и вычислительные системы. 2009. №. 1. С. 23-37.

Размещено на Allbest.ru

...

Подобные документы

  • Построение онтологии предметной области для анализа глобальных процессов на основе информации, получаемой из новостных лент. Средства разработки онтологий, используемых для поиска событий, фактов, извлечённых из СМИ; моделирование экономических рисков.

    курсовая работа [3,4 M], добавлен 27.08.2017

  • Анализ существующих программных средств для автоматического отображения онтологий, их практического применения в зависимости от поставленной задачи и сложности входных онтологий. Отображение сложных онтологий с помощью алгоритма повышенной точности.

    дипломная работа [1,5 M], добавлен 14.06.2012

  • Разработка web-сервиса как услуги, предоставляемой пользователю. Продажа товара (автомобилей) в Интернете, проблема выбора. Онтологии как часть концепции Semantic Web. Применение онтологий, их основные типы и свойства. Особенности реализации онтологии.

    курсовая работа [57,4 K], добавлен 17.04.2012

  • Построение баз знаний для семантической сети. Цели создания и язык представления онтологий. Структура исследований в области многоагентных интеллектуальных информационных систем, архитектура агента. Экономическое обоснование разработки базы знаний.

    дипломная работа [1,6 M], добавлен 29.09.2013

  • Проблема выбора товара в Интернете. Типы и свойства онтологий как части концепции Semantic Web. Разработка web-приложения для выбора музыкального инструмента: создание иерархии онтологий для предметной области "Гитара", формирование SPARQL-запроса.

    дипломная работа [2,2 M], добавлен 20.04.2012

  • Временная и ёмкостная сложность программы. Размер входных данных. Связь сложности в худшем случае и в среднем. Понятие оптимальной программы. Классы вычислительной сложности программ. Эквивалентность по сложности. Примеры классов вычислительной сложности.

    презентация [77,3 K], добавлен 19.10.2014

  • Система классов и свойств языка RDFS. Реификация или материализация утверждений. Возможности RDF, RDF Schema в представлении онтологий. Способы представления RDF-описаний. Структура и базовые элементы OWL-онтологии. Языки запросов к RDF-хранилищам.

    презентация [312,1 K], добавлен 01.09.2013

  • Формализации в онтологии областей знаний с помощью концептуальной схемы. Определение атрибутов класса и свойств экземпляров. Создание экземпляров класса и DL-Query запросов. Методика использования для разработки онтологии среды разработки Protege.

    курсовая работа [2,0 M], добавлен 18.06.2014

  • Создание множества религиозных понятий и их определение. Преимущества использование платформы Protеgе. Разработка онтологии по предметной области "Буддизм" посредством компьютерной программы Protеgе 4.2.0. Представление онтологии в графическом виде.

    курсовая работа [768,0 K], добавлен 18.08.2013

  • Обоснование необходимости и цели использования вычислительной техники для решения задачи учета запасов. Анализ существующих разработок и обоснование выбора технологии проектирования. Характеристика нормативно-справочной и входной оперативной информации.

    дипломная работа [869,9 K], добавлен 18.03.2012

  • Обоснование проектных решений по информационному обеспечению. Обоснование цели использования вычислительной техники для решения комплекса задач. Характеристика нормативно-справочной и входной оперативной информации. Информационная модель и ее описание.

    дипломная работа [3,2 M], добавлен 06.04.2015

  • Анализ решений и выбор платформы виртуализации. Обоснование выбора VMwareESXi в качестве платформы для создания учебного класса. Системные требования к аппаратной части для выбранной платформы. Создание макета на основе сервера виртуализации VMwareESXi.

    дипломная работа [4,1 M], добавлен 12.04.2017

  • Разработка локальной вычислительной сети организации ООО "Карнавал" для передачи конфиденциальной информации. Обоснование проектных решений по программному обеспечению. Составление схемы коммуникаций. Выбор и обоснование пассивного оборудования.

    дипломная работа [85,5 K], добавлен 15.03.2014

  • Информационная безопасность, её цели и задачи. Каналы утечки информации. Программно-технические методы и средства защиты информации от несанкционированного доступа. Модель угроз безопасности информации, обрабатываемой на объекте вычислительной техники.

    дипломная работа [839,2 K], добавлен 19.02.2017

  • Основные методологии адаптивных жизненных циклов IT-проектов. Внедрение системы автоматизации маркетинга Marketo для управления отношениями с клиентами торгового предприятия "Spirit". Доработка корпоративного сайта компании для учета данных о клиентах.

    дипломная работа [1,4 M], добавлен 28.08.2016

  • Применение вычислительной техники и локальных сетей для автоматизации документооборота, создания массивов информации. Структура информационной системы предприятия и средства управления. Формирование топологии сети и расчет ее экономической эффективности.

    курсовая работа [72,7 K], добавлен 16.11.2009

  • Анализ проблемных аспектов построения и функционирования системы физической защиты информации предприятия. Модель угроз информационной безопасности. Разработка и обоснование модели и процедур выбора средств СФЗИ на основе метода анализа иерархий.

    дипломная работа [2,6 M], добавлен 01.07.2011

  • Принципы автоматизации делопроизводства. Основание для создания автоматизированной системы. Преимущества использования архитектуры "клиент-сервер". Обоснование методики расчета экономической эффективности. Характеристика вычислительной сети ООО "Элси".

    дипломная работа [4,4 M], добавлен 06.03.2010

  • Выбор локальной вычислительной сети среди одноранговых и сетей на основе сервера. Понятие топологии сети и базовые топологии (звезда, общая шина, кольцо). Сетевые архитектуры и протоколы, защита информации, антивирусные системы, сетевое оборудование.

    курсовая работа [3,4 M], добавлен 15.07.2012

  • Организация технологии сбора и обработки информации. Проектирование системы автоматизации отдела по управлению муниципальной собственностью. Цели использования вычислительной техники. Расчет экономической эффективности проекта внедрения АИС "Saumi".

    дипломная работа [4,0 M], добавлен 09.12.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.