Идентификация типизированных отношений в полнотекстовых документах для построения онтологических представлений

Выявление отношений между сущностями из текстов, составление шаблонов, описывающих и специфицирующих онтологические отношения. Основные принципы разработанного алгоритма, использование шаблонов для идентификации отношений из полнотекстовых документов.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 20.08.2018
Размер файла 166,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Идентификация типизированных отношений в полнотекстовых документах для построения онтологических представлений

Шохина О.И., Абдулова Л.Л.

Национальный исследовательский ядерный университет «МИФИ»

В данной статье представлены результаты работы по выявлению отношений между сущностями из текстов, составлению шаблонов, описывающих и специфицирующих эти отношения, с указанием контекста, доопределяющим отношения. А также описываются основные принципы разработанного алгоритма использования этих шаблонов для идентификации отношений из текстов, приведена методика группировки выделенных отношений в соответствии с классификацией отношений.

Ключевые слова: база знаний, отношения, онтология, шаблоны, типизация шаблонов, извлечение семантических отношений, онтологическое представление знаний, представление знаний, информационная модель.

IDENTIFYING TYPED RELATIONSHIPS IN FULL-TEXT DOCUMENTS FOR CONSTRUCTING ONTOLOGICAL REPRESENTATIONS

Shokhina O.I., Abdulov L.L.

This article presents the results of the work on the identification of relationships between entities from texts, the creation of templates describing and specifying these relations, specifying the context that defines relations. And also it describes the basic principles of the developed algorithm for using these templates to identify relationships from texts, a method is given for grouping selected relationships in accordance with the classification of relations.

Keywords: knowledge base, relations, ontology, templates, template typing, semantic relations extraction, ontological representation of knowledge, knowledge representation, information model.

Введение

В условиях непрерывного совершенствования информационной техники в совокупности с ростом количества данных, возникает необходимость поиска новых способов хранения информации, представления, формализации и систематизации, а также автоматической обработки. Таким образом, растет интерес к созданию баз знаний. База знаний - совокупность моделей, правил и фактов (данных), позволяющих провести анализ и сделать выводы при решении сложных интеллектуальных задач в некоторой предметной области.

Главной целью создания баз знаний является упрощение управления инженерными знаниями путем информационного моделирования посредством онтологических представлений, которое направлено на определение концептуальной точки зрения и лексики, описывающей знания на соответствующем уровне абстракций. Минимальной единицей знания является тройка - пара сущностей и связь между ними, поэтому очень удобно использовать онтологии [3].

Наравне с семантическими сетями онтологии представляют собой удобную абстракцию для отображения знаний некоторой предметной области. Однако процесс составления такой структуры данных весьма сложен, так как требует от человека, составляющего ее, непредвзятости в суждениях относительно предметной области, а также внимания к мелочам, чтобы не допустить неточностей и противоречий в выстраиваемой базе знаний. Неудивительно, что в машинном обучении становится популярной задача так называемого обучения онтологии (Ontology Learning) - задача автоматического построения онтологии предметной области по некоторой обучающей выборке. Автоматическое построение онтологий по некоторому набору текстовых документов полностью определено концептуальной структурой самой онтологии. Это процесс, состоящий из нескольких этапов, на каждом из которых происходит извлечение из текста фактов или их постобработка для формирования какой-то части онтологии, будь то термины или объекты, концепты или же отношения между ними [4].

В связи с этим проблема автоматического формирования онтологий, базирующегося на анализе текстов на естественном языке, является актуальной.

Объектом исследования данной работы являются отношения между сущностями, заданные с помощью естественного языка.

Цель работы - провести анализ и разработку методики определения отношений между сущностями для построения информационной модели предметной области.

Онтология

Одним из методов информационного моделирования является построение онтологии предметной области. Онтология - набор определений (на формальном языке) фрагмента декларативных знаний, ориентированный на совместное многократное использование различными пользователями. В онтологии вводятся термины, типы и соотношения (аксиомы), описывающие фрагмент знания, таким образом, онтология определяет общий словарь для специалистов, которым нужно совместно использовать информацию в предметной области. Онтологии используются для решения сравнительно узкого спектра практических задач в таких областях, как информационный поиск, анализ текстов и машинный перевод, экспертные системы и системы сохранения знаний [2].

При создании онтологии предметной области выделяются отношения, которые необходимо использовать для задания связей между объектами. Набор этих отношений призван обеспечить эффективную работу в информационно-поисковых приложениях. Таким образом, при работе с онтологиями возникает необходимость просмотреть и проанализировать огромное количество информации. Есть два подхода решения этой проблемы:

автоматизация процесса создания правил построения онтологий и структурирования информации;

построить универсальный набор отношений и сложить их в базу данных для дальнейшего использования при построении онтологий.

Gellish

Одной из самых успешных попыток автоматизировать выделение сущностей и связи между ними было создание языка Gellish. Gellish - это формальный язык, который является самостоятельным естественным языком, несмотря на то, что его понятия имеют "имена" и определения в различных естественных языках. Каждый вариант естественного языка представляет собой структурированное подмножество этого естественного языка и подходит для информационного моделирования и представления знаний в этом конкретном языке.

Gellish предназначен для выражения фактов (заявлений), запросов, ответов и т.д. Например, для полного и однозначного описания бизнес-процессов, продуктов, услуг и физических процессов; для получения информации об их приобретении, изготовлении, монтаже, эксплуатации и техническом обслуживании; а так же для обмена определенной информацией между системами, не смотря на то, что в системно-интерпретируемых и компьютерно-интерпретируемых языках свой путь.

Язык Gellish основан на идее о том, что существуют вещи, только в связи с другими вещами. В связи с этим предполагается, что все факты и явления могут быть выражены соотношениями различных видов. Онтология Gellish включает в себя онтологию данных видов отношений. Большинство из основных соотношений (или семантически примитивных видов отношений) уже представлены как связанные с понятиями в иерархии [5].

Также Gellish это попытка приведения отношений, которые будут подчиняться свойствам алгебры отношений.

Но данный язык обладает рядом существенных недостатков: при спуске на более низкий уровень отношения делятся между собой по одним и тем же признакам. Кроме того, данная классификация сложна при работе с текстом: чтобы отнести отношения в какую-либо группу, нужно проделать сложную аналитическую работу. Она не учитывает лингвистические аспекты. Таким образом, возникает необходимость в создании собственного языка, а значит и шаблонов, описывающих отношения на основе естественного языка.

Идентификация отношений. Создание шаблонов отношений и их типизация

Для решения проблемы автоматического построения онтологий на основе семантического анализа текстов на естественном языке необходимо идентифицировать отношения, заданные лексическим способом. В основу данной работы легло предположение Марти Хэрст о том, что лексические отношения можно описать с помощью метода интерпретации образцов (шаблонов), использующего иерархию шаблонов, состоящих главным образом из индикаторов части речи и групповых символов. Таким образом, лексико-синтаксическими шаблонами являются стандартные выражения, то есть обороты и словосочетания, конструкции элементов языка, имеющих определенные морфологические характеристики. После применения таких шаблонов к тексту может быть построена его семантическая модель, то есть онтология.

Были построены лексико-семантические шаблоны, использующие следующий синтаксис и правила:

Предложением, которое описывается шаблоном, является простое предложение или часть сложного.

Конкретные слова, например, предлоги указываются в шаблоне так, как встречаются в предложении, то есть без скобок или каких-либо других синтаксических знаков.

[] - начало и конец слова. Внутри пишется часть речи с ее основными морфологическими характеристиками.

() - внутри указываются важные морфологические характеристики.

$ - Символ, обозначающий возможное наличие в предложении слов, не подходящих под конструкцию, которые необходимо пропустить.

В процессе построения алгоритма для их дальнейшего использования были выявлены закономерности, на основании которых была проведена типизация шаблонов. Типизация - способ обобщения, выявление существенного, характерного в объектах рассмотрения. В нашем случае, это типизация способов задания отношений, то есть выявление различных языковых конструкций, которые при некоторых ограничениях могут быть использованы для описания различный отношений. Например, [сущ1(ИП)]$[производит]$[сущ2(ВП)] и [сущ1(ИП)]$[сносит]$[сущ2(ВП)] являются шаблонами, описывающими различные отношения, относящиеся к разным группам, но, с точки зрения морфологии, имеют одинаковые признаки. Таким образом, видится удобным заменить конкретный предикат названием группы, к которой он относится.

В рамках одного даже простого предложения может быть задано несколько связей. Например, в предложении «плотник строит дом из дерева» помимо тройки «плотник-строит-дом» описан немало важный факт, что строительство ведется из дерева. То есть дерево является ресурсом для данного процесса. Следует обратить внимание, что такие отношения задаются через присвоение сущности роли по отношению к описываемому процессу, в соответствии со схемой, изображенной на рисунке 1, где А - это функция (ситуация), обозначающая действие, выполняемое с помощью механизма или использующая ресурсы М и регулируемая управляющими параметрами С, над «входом» I и выдающее в результате «выход» О. Для отражения таких фактов в будущей базе знаний были составлены шаблоны для контекста.

Рисунок 1. Представление отдельной ситуации предметной области с помощью функционального блока

Таким образом, были сформированы группы предикатов, которые имеют не только одинаковые признаки, но и контекст, при котором эти предикаты используются. Например, шаблон контекста, выраженный как на*[сущ(ВП], может описывать различные роли этой сущности, в зависимости от предиката: положить на стол, делить на части. В первом случае это обстоятельство места, во втором - результат взаимодействия. По выделенному нами признаку предикаты «положить» и «делить» относятся к разным группам.

Следует подчеркнуть, что типизация предикатов проводилась по признаку морфологических характеристик для удобства использования шаблонов с целью выделения отношений между сущностями из текста. В связи с этим, описанные группы предикатов могут не соответствовать предикатам, объединенным в классы по смысловому признаку.

Алгоритм идентификации отношений на основе шаблонов

полнотекстовый документ онтологический шаблон

Взяв за основу построенные шаблоны и типизированные по группам предикаты, необходимо составить алгоритм, по которому из текста будут выделяться отношения. Начинать выделять отношения предлагается с поиска в предложении предиката, так как их число ограниченно и не столь большое, как, например, количество возможных сущностей. Если предиката в предложении нет, но перейти к другому предложению, если есть - определить, к какой группе он относится.

Так как большинство предикатов является глаголами, то следующим шагом необходимо определить их вид: возвратный или невозвратный. От этого будет зависеть тип связи, ее направленность, выбор шаблона для дальнейшего использования.

Следующий шаг самый сложный: необходимо проанализировать контекст предиката: определить сущности и их роли в данном отношении: объект, субъект, ресурс, место и т.д. Одним из основных признаков, по которому можно определить роль сущности в отношении или взаимодействии, является падеж существительного и предлоги, с которыми оно употребляется. Существительное в именительном падеже, находящееся радом с предикатом, то есть не отделенное от него подчиненными предложениями, чаще всего является одним из участников отношений. Падеж существительного, описывающего другого участника, зависит от типа предиката, в связи с этим они и были разделены на группы. Так же в предложении могут встречаться и другие участники взаимодействия. Если в предложении с выявленным предикатом встречается словосочетание, подходящее под конструкцию с*помощью$[сущ(РП)], то в большинстве случаев данная сущность будет являться инструментом по отношению к процессу взаимодействия. Таким образом, вторым участником в отношении с названием «являться инструментом для» будет существительное, образованное от предиката, по которому было выбрано предложение, и подчиненная ему сущность, определенная ранее как существительное в именительном падеже [1].

Рассмотрим на примере предложения: человек строит дом из дерева. По алгоритму сначала необходимо выявить предикат, в данном случае это - строит. Находим данный глагол в одной из выделенных групп, он находится в группе 1. По конструкции

[сущ1(ИП)]$[гл.1(невозвр.)]$[сущ2(ВП)],

где сущ1-субъект, сущ2-объект, определяем, что человек - субъект взаимодействия, а дом - объект. По дополнительным конструкциям, которые могут находиться в любой части этого предложения, мы находим других участников взаимодействия. Таким образом, по конструкции из$[сущ3(РП)], где сущ3-материал/сырье, определяем, что дерево является материалом/сырьем.

Алгоритм идентификации отношений между сущностями из текста можно представить в виде схемы, изображенной на рисунке 2.

Рисунок 2. Алгоритм выделения отношений из текста Выводы

В ходе данной работы были построены шаблоны отношений, заданных на естественном языке, а также создан алгоритм их применения. При практическом их использовании был обнаружен ряд недостатков. Представленный способ идентификации отношений из текста основан на составленном ранее перечне предикатов. В случае если в тексте встречается глагол, описывающий какое-либо действие, не исключено, что и важную связь между объектами, но отсутствующий в нашем перечне, будет пропущена одна или несколько троек, а значит и единица знания. Для того, чтобы этой потери не произошло, предлагается два способа решения проблемы: Провести анализ зависимости значения слова от его корня, приставки или суффикса.

Первый шаг поиска отношений между сущностями начинать не с предикатов, определенных в классификации, а с глаголов в целом. Следующим шагом сделать поиск этого глагола в классификации. В случае, когда глагол найден в классификации приступить к шагу «Определить к какой группе относится глагол, согласно перечню шаблонов» схемы, изображенной на рисунке 2. Если выделенный глагол из текста не найден в классификации, необходимо выписать его в отдельный список для того, чтобы аналитик мог проанализировать его, составить для него шаблоны и отнести к нужному классу.

При рассмотрении реальных текстов и попытке выделить из них отношения также возникают некоторые сложности, связанные с определением сущностей, участвующих в отношениях. В построенных шаблонах сущность описывается одним существительным, но в реальности это не так. Очень часто мы имеем дело с неделимыми словосочетаниями, с комбинациями типа прилагательное + существительное, причастие + существительное, числительное + существительное, описывающими участника отношений. Если «опускать» зависимые слова в словосочетаниях, прилагательные, причастия, числительные, то тройки, выделенные посредством использования шаблонов, не будут иметь смысла, то есть не будут являться минимальной единицей знания. Для начала предлагается рассматривать не только отдельно взятые существительные, но и словосочетания с типом связи «управление». В данном типе связи зависимое существительное чаще всего имеет родительный падеж, поэтому если в тексте встречается существительное, подходящее под шаблон, и имеющее рядом с собой зависимое слово, сущностью в этом случае будет являться словосочетание. В дальнейшем в шаблонах под записью [сущ(NП)] необходимо учесть вариант [сущ(NП)]$[сущ.з(РП)], где сущ.з - зависимое слово, N-падеж

Таким образом, выделение отношений из текстов необходимо рассматривать в совокупности с задачей выделения из текстов сущностей.

Список литературы

1. Васильев Л.М. Семантика русского глагола: учебник. - Высшая школа, 1981. 184 с.

2. Кулинич А.А., Концептуальные каркасы онтологий слабо структурированных предметных областей, 2014.

3. Максимов Н.В., Голицына О.Л., Тихомиров Г.В., П.Б. Храмцов Информационные ресурсы и поисковые системы: учебное пособие. - М.: МИФИ, 2008. 400 с.

4. Максимов Н.В., Окропишин А.Е., Окропишина О.В., Передеряев И.И. Использование технологии автоматизированного формирования понятийной структуры предметной области научного исследования в задачах управления научными кадрами // Вестник РГГУ. Серия «Управление», № 4 (66) / 2011. -М.:РГГУ, 2011 - С. 175-185.

5. A.Van Renssen, Gellish: A Generic Extensible Ontological Language // Delft University Press. ISBN 90-407-2597-7, 2005

Размещено на Allbest.ru

...

Подобные документы

  • Договор как самая устойчивая правовая форма. Правила их оформления. Работа по созданию, изменению шаблонов, а также по оформлению документов, в частности договоров, на основе шаблонов. Копирование элементов различных их видов через диалог Организатор.

    курсовая работа [4,6 M], добавлен 30.12.2013

  • Понятие шаблона документа, анализ последовательности действий для его создания. Несколько замечаний по поводу тактики создания шаблонов. Специфика создания документов с использованием слияния. Особенность использования программы Microsoft Graph.

    реферат [17,1 K], добавлен 05.10.2011

  • Разработка алгоритма автоматического создания отзывов на русском языке с использованием лексико-синтаксических шаблонов. Процесс создания текста при помощи цепей Маркова. Принцип работы Томита-парсера. Применение автоматических генераторов текстов.

    курсовая работа [150,6 K], добавлен 27.09.2016

  • Создание сложных текстовых документов с помощью шаблонов и мастеров Word. Разработка собственных шаблонов. Разоаботка общей структуры документа, настройка параметров страницы, перемещение по тексту с помощьюпанели схемы документа. Внешний вид текста.

    методичка [30,1 K], добавлен 14.02.2009

  • Основные типы шаблонов проектирования. Типы связей, которые могут применяться при объектно-ориентированном программировании. Обзор и реализация порождающих, структурных и поведенческих шаблонов проектирования. Шаблоны "Command", "Front Controller".

    курсовая работа [3,1 M], добавлен 01.06.2014

  • Основные функции текстового процессора Word. Создание документа Word. Использование шаблонов документов. Удаление, копирование и перемещение текста. Сохранение, закрытие и открытие документа. Изменение шрифтов, выравнивание текста и использование стилей.

    курсовая работа [71,6 K], добавлен 17.08.2011

  • Основные виды зависимостей между атрибутами отношений: функциональные, транзитивные и многозначные. Определение частичной и полной функциональной зависимости, выявление составных элементов ключа. Типы, обозначение и пример многозначных зависимостей.

    презентация [47,0 K], добавлен 14.10.2013

  • Построение концептуальной (инфологической) модели базы данных. Выбор языка и среды программирования, требования к клиентскому приложению. Выбор шаблонов проектирования, UML диаграмма классов с учетом выбранных шаблонов. Тестирование слайдера "Slick".

    дипломная работа [2,5 M], добавлен 10.07.2017

  • Описание отношений между частями сложного проекта с помощью Visual Studio. Создание графов зависимостей для управляемого и машинного кода. Их использование для визуализации взаимосвязей между классами. Выявление циркулярных ссылок для обнаружения классов.

    контрольная работа [1,1 M], добавлен 20.02.2015

  • Социальное партнерство как основа развития коллективно-договорных отношений в Республике Казахстан. Локально-правовое регулирование трудовых отношений. Понятие, принципы и стороны коллективного договора. Право ведения переговоров, порядок их организации.

    дипломная работа [119,1 K], добавлен 16.06.2015

  • Функциональные требования к автоматизированной системе управления базой шаблонов зубочисток, ее жизненный цикл. Разработка модели производственного предприятия ОАО "Зубочистка+": миссия, цели, стратегия; архитектура АСУ; тестирование, стратегия внедрения.

    курсовая работа [3,8 M], добавлен 13.08.2012

  • Выбор средств методологии проектирования базы данных, требования к ее функциональности и возможностям. Выделение информационных объектов и их атрибутов, определение отношений и мощности отношений между объектами. Разработка интерфейса и права доступа.

    курсовая работа [658,1 K], добавлен 03.06.2015

  • Пользовательский интерфейс MS Outlook, основные компоненты программы и их использование. Возможности при работе с электронной почтой. Архивация и удаление элементов с помощью средства автоархивации. Заявление о конфиденциальности, использование шаблонов.

    курсовая работа [494,3 K], добавлен 25.06.2009

  • Описание предметной области "Каталог ссылок". Проектирование серверной части ПО: выбор СУБД, выделение сущностей и атрибутов предметной области, выделение связей между сущностями, нормализация отношений, описание таблиц и полей, физическая диаграмма БД.

    курсовая работа [74,0 K], добавлен 25.07.2012

  • Разработка системы автоматизированного управления электронными документами. Сведения о приложении PHPMyAdmin, об обработчике шаблонов Smarty. Создание базы данных. Редактирование документа, просмотр изменений документов. Создание категорий документов.

    дипломная работа [3,2 M], добавлен 25.07.2015

  • Концептуальное проектирование базы данных. Разработка и построение подробной ER-диаграммы на основании бизнес-правил. Составление реляционных отношений. Схемы отношений, составленные на языке определения данных. Проектирование и обоснование выбора СУБД.

    курсовая работа [3,6 M], добавлен 10.04.2013

  • Интернет как новая форма экономических отношений, основы деловых отношений в данной сфере, генезис развития бизнеса, его современное состояние. Интерактивный бизнес как практическое воплощение виртуальной экономики. Формирование брендов в интернет-среде.

    дипломная работа [128,3 K], добавлен 18.07.2014

  • Разработка и реализация компьютерной игры "Змейка" с помощью языка программирования Pascal и модуля CRT. Составление общего алгоритма программы, выделение ее функциональных частей. Разработка тестовых примеров. Использование типизированных файлов.

    курсовая работа [2,1 M], добавлен 23.02.2011

  • Аннотация и инструменты базы BioCyc. Варианты поиска BioCyc. Поиск генов, белков, РНК и соединений. Поиск сайтов ДНК или мРНК, рост Медиа. Анализ поиска в полнотекстовых статьях. Ключевые аспекты данных BioCyc. Поиск кросс-организма и поиск BLAST.

    презентация [5,3 M], добавлен 11.06.2019

  • Рассмотрение основных способов идентификации объектов: реккурентного; с использованием степенных полиномов; ортогональных полиномов Чебышева; методом наименьших квадратов для авторегрессионной модели. Алгоритм построения простых диагностических тестов.

    курсовая работа [1,9 M], добавлен 14.06.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.