Онтология маркеров стиля

Создание онтологии маркеров стиля, отражающей основные положения предметной области и определяющей отношения между ними. Генерация правил поиска маркеров стиля при анализе текстов. Выбор инструментальных средств для проектирования. Типовые запросы.

Рубрика Программирование, компьютеры и кибернетика
Вид курсовая работа
Язык русский
Дата добавления 30.06.2017
Размер файла 4,7 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

ОГЛАВЛЕНИЕ

онтология маркер генерация поиск

Введение

Глава 1. Онтологический подход в решении задач компьютерной и корпусной лингвистики

1.1 Компьютерная лингвистика

1.2 Корпусная лингвистика

1.3 Постановка задачи

1.4 Обзор основного средства при работе с существующим корпусом

1.5 Примеры использования онтологического подхода в лингвистике

1.6 Обзор инструментальных средств для построения онтологий

1.7 Среда для разработки онтологий Protйgй

1.8 Среда для разработки онтологий OntoStudio

1.9 Редактор онтологий Swoop

1.10 Среда разработки TopBraid Composer

1.11 Итоги сравнения

Глава 2. Разработка онтологии

2.1 Онтологический инжиниринг

2.2 Методологии и методы построения онтологий

2.3 Требования к разрабатываемой онтологии

2.4 Аналитический обзор онтологии лингвистики GOLD

2.5 Пошаговая разработка онтологии

Глава 3. Генерация правил поиска маркеров стиля при анализе текстов

Заключение

Библиографический список

ВВЕДЕНИЕ

Научный стиль в английском языке, как и в русском, сильно отличается от разговорного, литературного, делового и любых других стилей. Необходимо владеть основами научного стиля для публикации в зарубежных ресурсах, для написания работ, требующих применения академического английского, такие как Research Proposal. На данном этапе возникает несколько проблем. Далеко не всегда исследователь имеет достаточный уровень использования иностранного языка. Тут появляется необходимость в изучении академического английского. При огромном количестве пособий сложно выявить, какие темы являются наиболее значимыми для изучения, с чем следует ознакомиться в первую очередь, что наиболее важно для написания научной работы.

У каждого языка есть определенный набор функциональных стилей и их отличительные особенности. Научный стиль в английском языке обладает рядом отличительных черт, которые называются маркеры стиля. Наличие маркеров стиля помогает эксперту оценить качество работы с точки зрения ее академичности и научности, помогает оценить, насколько работа удовлетворяет требованиям письменного академического английского.

Корпусная и компьютерная лингвистика с недавних пор стали очень популярными направления прикладной лингвистики, поскольку способны решить проблемы лингвистики с помощью вычислительной техники. Различные программы анализируют корпуса текстов и помогают экспертам делать те или иные заключения, выводы, выдвигать гипотезы. В рамках данной работы именно корпусная лингвистика используется в качестве основного подхода. На основе собранного корпуса идут исследования, проводимые при помощи специального программного обеспечения GATE [2]. Функционал данной программы обширен: программа выполняет функцию поиска маркеров в тексте, разделяет текст на токены, каждому из которых предписывается его тип, осуществляет семантическую аннотацию и т.д.

На данный момент маркеры стиля представлены в виде несистематизированного набора данных, которым сложно управлять. Появляется необходимость найти способ упорядочивания маркеров стиля, который в дальнейшем может быть дополнен новыми маркерами, новыми аспектами, так как язык является динамической, постоянно развивающейся и растущей системой. В качестве способа классификации набора маркеров было решено создать онтологию. Таким образом, должна быть создана онтология, которая описывает основные концепции предметной области (в данном случае академического английского) и определяет отношения между ними.

Данная онтология позволит решить спектр задач. Онтология позволяет наиболее целостно представить сведения об изучаемой предметной области. Данные, описанные в онтологии, представляют собой материал, представленный в единой форме, с описанием одних терминов с помощью других, отражая различные типы взаимосвязей между ними, что делает процесс восприятия данной предметной области легче. Онтология - отличный инструмент для человека, который исследует академический английский. Она может быть использована для анализа собственной статьи: насколько статья удовлетворяет требованиям академического английского, какие маркеры в ней присутствуют и т.д. Онтология будет связана с понятиями лингвистики, что позволит автоматически генерировать правила поиска.

Целью работы является создание онтологии маркеров стиля, отражающей основные положения предметной области и определяющей отношения между ними, которая позволит генерировать правила для поиска маркеров в тексте. Предметом данного исследования является набор маркеров стиля, а объектом - анализ текстов на основе онтологии.

Для достижения поставленной цели были сформулированы следующие задачи:

1. Анализ литературы, сбор, систематизация, обобщение материала о компьютерной и корпусной лингвистике, использовании онтологий в корпусной лингвистике.

2. Анализ и выбор инструментальных средств для проектирования онтологии маркеров академического стиля.

3. Сбор и формулировка требований к разрабатываемой онтологии.

4. Проектирование онтологии маркеров стиля.

5. Разработка типовых запросов.

6. Разработка алгоритма генерации правил поиска маркеров стиля в тексте с помощью онтологии.

Глава 1. ОНТОЛОГИЧЕСКИЙ ПОДХОД В РЕШЕНИИ ЗАДАЧ КОМПЬЮТЕРНОЙ И КОРПУСНОЙ ЛИНГВИСТИКИ

В данной главе представлена предметная область в виде описания направлений прикладной лингвистики, таких как компьютерная и корпусная лингвистика. Уточняется постановка задачи, роль создаваемой онтологии. Рассматривается основное программное средство GATE, необходимое для работы с корпусом, на базе которого проводятся исследования. Также представлен сравнительный анализ инструментальных средств для разработки онтологий.

1.1 Компьютерная лингвистика

Развитие вычислительной техники привело к соединению двух наук «Лингвистика» и «Информационные технологии» и, как результат, получению нового направления прикладной лингвистики «Компьютерная лингвистика» (1950-е гг.)[20]. Стало ясно, что вычислительная техника - мощное средство для работы с текстами, которое сможет решить проблемы автоматизации трудоемких процессов. Для того чтобы ответить на вопрос, что такое компьютерная лингвистика стоит взглянуть на спектр задач, которые она решает.

Согласно К.К. Боярскому [14] компьютерная лингвистика решает следующий ряд задач:

- распознавание и синтез речи по тексту;

- поддержка ввода текста;

- машинный перевод;

- информационный поиск;

- компрессия текста (реферирование и аннотирование);

- классификация текстов;

- извлечение фактов и знаний;

- анализ нормативных текстов;

- анализ «под заказ»;

- вопросно-ответные системы;

- диалог с компьютерными системами.

Таким образом, главная задача компьютерной лингвистики - разработка программ, которые позволили бы автоматизировать обработку текстов на естественном языке. А главная цель -- разработка математических моделей для описания естественного языка. Безусловно, все эти задачи могут быть решены и без использования компьютерных технологий, однако, требовалось бы огромное количество времени для обработки больших текстовых массивов.

Существует несколько этапов обработки текстов:

- графематический анализ (выделение в тексте словоформ);

- морфологический анализ (от словоформ к леммам);

- синтаксический анализ (выявление грамматической структуры текста);

- семантический и прагматический анализы (смысловые значения).

В компьютерной лингвистике есть понятие лингвистической аннотации (представление лингвистических данных), которая представляет собой информацию о лингвистических единицах, хранящуюся отдельно от текста и ссылающееся на его участки. Аннотация должна иметь тип и набор атрибутов, описывающих его характеристики. Информация, полученная в ходе аннотации, может быть преобразована в разметку, что реализовано в системе по обработке естественных языков GATE. Подробнее о разметке будет написано в следующем пункте.

1.2 Корпусная лингвистика

В 1960-х гг. появилось и еще одно направление лингвистики под названием «Корпусная лингвистика». Корпусная лингвистика - раздел прикладной лингвистики, имеющий дело с разработкой, созданием и использованием корпусов текстов (массивов текстов), собранных по определенному принципу, например, объединенных общим признаком.

Так как данного рода исследования проводятся с целью выявить какие-то закономерности или подтвердить или опровергнуть определенную теорию, корпусные исследования, используя большой объем материала, позволяют это сделать. На этом задачи, решаемые корпусной лингвистикой не ограничиваются. Данные корпусов могут быть полезны при изучении грамматик и в ходе обучения языку.

Чтобы решить поставленные задачи с помощью корпуса текстов, мало лишь наличия подобного корпуса. Необходимо производить с корпусом дополнительные действия. Так, необходимым этапом в работе с корпусом стало проставление разметки. Этот процесс заключается в приписывании текстам и их компонентам специальных меток. Согласно Захарову [16] выделяются следующие типы меток:

- экстралингвистические;

- структурные;

- лингвистические.

Экстралингвистический тип разметки имеет дело с касающейся текста информацией, а не непосредственно текстом. Например, автор, год написания текста, место издания и т.д. Структурные метки занимаются структурой текста: от главы до словоформы. Лингвистические метки представляют особый интерес. Они описывают лексические, грамматические и прочие характеристики элементов текста. Для них существует отдельная классификация. Среди лингвистических типов разметки выделяются:

1) морфологическая разметка (признак части речи и грамматической категории);

2) синтаксическая разметка (связи между лексическими единицами);

3) семантическая разметка (смысловые значения единиц языка);

4) анафорическая (фиксированные референтные связи);

5) просодическая (ударения, интонация).

Таким образом, собранные тексты, формирующие корпус, дают исследователю возможность наблюдать за поседением различных языковых единиц от слов и словосочетаний до грамматических категорий и синтаксических конструкций. Наиболее важным здесь является то, что это исследование проводится не в искусственных условиях, а в естественной языковой среде, которая реально существует.

1.3 Постановка задачи

Основанием для написания этой работы стала необходимость классификации маркеров стиля, выделенных в ходе обучения академическому английскому студентов и работы с корпусом, собранным экспертами. Этот корпус представляет собой работы (Research Proposal) студентов 4 курса направления менеджмента НИУ ВШЭ - Пермь, посвященные их ВКР. Для формализации маркеров стиля было решено создать онтологию, которая сможет детально и полно описать предметную область с помощью концептуальной схемы.

Маркеры стиля - это основные черты английского языка, которые являются одними из составляющих письменного академического английского. Набор маркеров представляет собой то, без чего практически не может существовать научная работа. Это понятие включает себя определенное количество аспектов, от определенных слов, которые являются показателями академического английского до грамматических конструкций.

Так как эксперты по совместительству являются и преподавателями дисциплины Академическое письмо на английском языке, посвященной написанию Research Proposal, им важно знать, какую же именно программу изучения курса использовать, какие аспекты являются наиболее важными в изучении академического английского.

Безусловно, для решения подобного рода вопросов существует множество учебных пособий, содержащих основную, по мнению авторов, информацию об академическом английском, но содержащаяся в них информация разнится. Кроме того, с каждым годом время, отведенное на изучение академического английского, сокращается, что делает необходимым предоставление студентам только самой важной, с точки зрения написания Research Proposal, информации.

Онтология будет хранить в себе наиболее важные аспекты академического письма, отражая данную предметную область и все взаимосвязи внутри нее. Онтология позволит осуществлять поиск маркеров стиля в тексте с помощью генерации правил на ее основе. Помимо этого, онтология является частью большего проекта, под названием «Paper Cat», направленного на анализ и аннотацию текстов.

1.4 Обзор основного средства при работе с существующим корпусом

Специалисты в области компьютерной и корпусной лингвистики создают специальные пакеты автоматического анализа текста, включая всю технологическую цепочку лингвистической обработки, примером такой системы обработки естественного языка может служить GATE и NLTK. Специалисты, работающие в рамках данной темы с собранным корпусом, используют систему GATE.

General Architecture for Text Engineering (GATE) -- система обработки естественного языка с открытым исходным кодом, способное решить почти все лингвистические проблемы, возникающие при работе с текстами [2]. Табл.1.1 содержит описание семейства GATE.

Таблица 1.1. Описание семейства GATE

Продукт

Описание

GATE Developer

Среда разработки, которая предоставляет большой набор графических инструментов для создания и изменения программных компонентов для обработки естественных языков. Данная система использует сложные структуры данных и алгоритмы, такие как аннотированные графы и автоматы с конечным числом состояний. GATE Developer помогает при создании этих сложных структур, визуализирует обработанные результаты и измеряет точность обработки относительно ручной или полу автоматизированной обработки.

GATE Embedded

Объектно-ориентированная платформа (библиотека классов), реализованная в Java. Она используется во всех системах, основанных на принципах GATE, а также формирует основные элементы GATE Developer. GATE Embedded позволяет использовать функционал по обработке естественного языка в различных приложениях. Данная версия - инструмент для программиста и представляет собой набор файлов, написанных на Java.

GATE Teamware

Платформа управления, основанная на веб-технологиях, созданная для аннотирования, доступная для совместной рабоы. Это экономичная среда для аннотирования проектов, позволяющая использовать ресурсы и наблюдать за результатами удаленно в режиме настоящего времени. GATE Teamware предоставляет многофункциональный пользовательский интерфейс, где посредствам Интернета можно просматривать, добавлять и править аннотации текстов.

GATE Mimir

Многопарадигменный архив, который может быть использован для индексирования и поиска по тексту, аннотациям, семантическим схемам (онтологиям), семантическим метаданным (данным экземпляра). GATE Mimir работает с запросами, произвольно смешивающими полные, структурные, лингвистические и семантические запросы, масштабируемые до гигабайтов текста. GATE Mimir имеет дело с огромным количеством информации разного типа и представляет собой платформу для применения индексирования и функционального поиска по всем этим типам данных.

GATE Cloud

Относительно новое направление разработки GATE, предоставляющее решения по обработке естественного языка при использовании облачных технологий.

Наиболее важными для данного исследования являются GATE Developer (рис. 1.1) и GATE Embedded. GATE Developer является средой для лингвистов, так как они могут решить поставленные лингвистические задачи при помощью существующих плагинов. Для программиста основной средой является GATE Embedded, которая предоставляя встроенную библиотеку классов, позволяет программисту написать собственный плагин или приложение с использованием встроенных функций.

Рисунок 1.1. Текст, аннотированный с помощью программной среды GATE

1.5 Примеры использования онтологического подхода в лингвистике

Применение онтологий в сфере компьютерной и корпусной лингвистики не является новым. Так, например, существуют электронные ресурсы, которые используют семантическую сеть для лингвистики. В числе таких ресурсов можно назвать WordNet и FrameNet.

WordNet - это большая лексическая база данных английского языка, в которой существительные, глаголы, прилагательные, наречия сгруппированы в наборы синонимов (синсеты), каждый из которых выражает определенный концепт [12]. Каждый синсет содержит список синонимов или синонимичных словосочетаний и указатели, описывающие отношения между ним и другими синсетами.

Главное отношение среди слов в WordNet - синонимия. Каждый из синсетов связан с другим синсетом с помощью небольшого набора концептуальных отношений. Синсет содержит короткое определение и в большинстве случаев короткий пример-предложение, чтобы проиллюстрировать использование членов синсета. Формы слов с несколькими определенными значениями представлены в различных синсетах.

Самое часто используемое отношение среди синсетов это отношение класс-подкласс (также называемое гипоним). Оно связывает более общий синсет с более конкретным. Гипоним - транзитивное отношение, это значит, что если кресло является подклассом стула, а стул - подклассом мебели, то и кресло - подкласс мебели.

Мероним - отношение типа часть-целое, используется в синсетах типа стул - ножка стула. Части наследуются от класса, стоящего выше. Так, если стул имеет ножку, то и кресло имеет ножку, однако, это не значит, что у всей мебели есть ножки. Части не наследуются «наверх», так как они могут быть характеристиками только отдельных типов вещей.

Глагольные синсеты классифицируются так же. Глаголы по направлению к нижнему уровню дерева выражают больше специфичные образы, характеризующие события. Эти образы зависят от смысловой области: интенсивность одна из измерений, в которой глагол может быть конкретизирован. Другие примеры: скорость (двигаться - двигаться медленно - бежать) или сила чувств (нравиться - любить - идеализировать). Глаголы, описывающие события, которые обязательно и однонаправлено влекут за собой один другого, связаны, например, покупать - платить, показывать - видеть.

Прилагательные организованы в понятиях антонимии. Пары прямых антонимов типа сухой - мокрый отражают сильное смысловое соглашение своих членов. Каждый из этих полярных прилагательных в свою очередь связан с числом семантически похожих прилагательных, например, мокрый связан с сырым, влажным и т.д.

Таким образом, синсеты в WordNet имеют следующие связи:

- гипероним;

- гопним;

- класс - подкласс;

- часть - общее;

- мероним;

- антоним.

Другим известным проектом в области лингвистики является FrameNet - лингвистический ресурс, направленный на описание семантической и синтаксической сочетаемости слов для каждого слова в каждом известном смысле [1]. Цель проекта заключается в том, чтобы создать онлайновый лексический ресурс, основанный на фреймовой семантике, и обеспечить его базой в виде текстового корпуса [19]. Лингвистический ресурс представляет собой онтологию ситуация, представленных в виде фреймов и связанных между собой онтологическими отношениями. Основными отношениями между фреймами являются:

1. Отношение Is_A, которое используется, когда каждый элемент родительского фрейма связан с соответствующим элементом нижестоящего фрейма.

2. Отношение Using, если нижестоящий фрейм предполагает родительский фрейм как основу.

3. Отношение Subframe, котиорое описывает нижестоящий фрейм как подсобытие вышестоящего события.

4. Отношение Perspective on, который описывает, что нижестоящий фрейм описывает точку зрения вышестоящего, не ориентированного на определенные точки зрения фрейма.

5. Отношение предшествования Precedes

6. Отношение причины Causative_of.

1.6 Обзор инструментальных средств для построения онтологий

Для проектирования онтологии следует выбрать наиболее подходящую среду для разработки. В подглавах ниже представлен обзор некоторых доступных редакторов и сред, которые могут быть использованы для построения онтологии. В качестве критериев сравнения были выбраны следующие позиции:

- общее описание инструмента (включая информацию о разработчике и возможностях);

- архитектура приложения (включая информацию об архитектуре инструментального средства: автономное приложение, приложение клиент-сервер, многоуровневое приложение; объясняя, как к инструментальному средству могут быть добавлены дополнительный функционал, модули, и описывая способ хранения онтологии: база данных, текстовый файл и т.д.);

- способность работать в составе другого средства и с другими языками (интероперабельность программного средства можно узнать по функционалу типа слияние, аннотация, хранения, вывод и т.д., в дополнение к переводу в/из языка онтологии);

- представление знаний (связано с представлением модели знания средства, также включает возможность предоставления любого языка для построения аксиом и информацию о том, поддерживает ли программа методологию);

- сервисы вывода, прикрепленные к инструментальному средству (содержит информацию о том, есть ли встроенная машина вывода или средство может использовать другую прикрепленную машину вывода, также критерий показывает, предоставляет ли инструмент функцию проверки ограничений, предоставляется ли возможность классификации концептов автоматически в таксономии и возможности управления исключениями в таксономии);

- практичность (показывает наличие графических редакторов для создания таксономии и отношений, возможность упрощения этих графов и возможность применения приближения его частей; критерий также включает информацию о том, возможна ли совместная работа и предоставляется ли библиотека онтологий).

Данные критерии были выбраны для сравнения следующих инструментальных средств:

· Ontostudio;

· Protйgй;

· Swoop;

· TopBraid Composer Free Edition.

1.7 Среда для разработки онтологий Protйgй

Protйgй - среда для разработки онтологий, которая позволяет упростить процесс создания, загрузки, изменения и преобразования онтологий, а также предоставить онтологии в общее пользование в виде совместного просмотра и редактирования [7]. Среда позволяет проектировать онтологии, разворачивая иерархическую структуру абстрактных или конкретных классов и слотов. Структура онтологии аналогична иерархической структуре каталога. На основе сформированной онтологии, Protйgй может генерировать формы получения знаний для введения экземпляров классов и подклассов. Интерфейс программы представлен ниже (рис. 2.1)

Данное средство поддерживает OWL 2 Web Ontology Language, язык для описания онтологий. Protйgй поддерживает создание и изменение одной и более онтологий в одном рабочем пространстве при условии прозрачного пользовательского интерфейса. Инструменты визуализации позволяют наглядно перемещаться по связям внутри онтологии.

Онтологии, построенные в данном редакторе, могут быть экспортированы во множество форматов: RGF/XML, Turtle, OWL/XML, OBO и др. Более того, данный редактор является свободным и открытым. Он имеет открытую, легко расширяемую архитектуру за счет модулей расширения функциональности. Protйgй можно бесплатно скачать с официального сайта вместе с плагинами и встроенными онтологиями.

Среди наиболее значимых преимуществ Protйgй можно отметить:

- Удовлетворяет стандартам W3C, что означает, что Protйgй - открытая веб-платформа для разработки приложений.

- Простой, настраиваемый пользовательский интерфейс.

- Визуальная поддержка.

- Поддержка проектирования кода.

- Легко расширяемая архитектура.

- Возможность импорта в различные форматы.

Рисунок 1.2. Работа с программой Protege

1.8 Среда для разработки онтологий OntoStudio

OntoStudio - широко распространенная коммерческая среда разработки и поддержки онтологий [6]. Она популярна благодаря предоставлению полной функциональности для построения онтологий при понятном интуитивном интерфейсе. OntoStudio способна импортировать данные, такие как схемы, структуры, модели в множество различных форматов. Среди наиболее важных функций, которые позволяет осуществлять OntoStudio, можно отметить наличие инструментов для построения схем, которые могут быть использованы для сравнивания разноплановых структур. Наличие графического редактора позволяет специалистам полностью соотнести сложные модели, а среда для тестирования оценивает качество работы в течение всего процесса моделирования (см. рис.1.3).

С помощью OntoStudio, некоторые редакторы могут использовать сервер OntoBroker Collaboration server, для того чтобы одновременно создавать и улучшать качество онтологии. Созданные запросы могут быть экспортированы в качестве веб-сервиса и интегрированы в любое приложение.

Таким образом, OntoStudio предоставляет следующий набор функций:

- Простое подключение к базам данным и базам знаний с помощью графических инструментов для построения схем распределения.

- Экспорт созданные запросов в онтологию в виде веб-сервиса.

- Расширение функционала с помощью добавления новых плагинов.

- Разработка онтологий в различных форматах: OWL, RDF(S), RIF, SPARQL and ObjectLogic.

- Создание онтологий совместно с OntoBroker Enhancement Collaboration server.

- OntoStudio поддерживает следующие форматы для моделирования онтологий: OWL, RDF(S), RIF, Object Logic. В дополнение к этому OntoStudio предоставляет возможность импортирования данных в:

- UML 2.0;

- схемы баз данных (Oracle, MS-SQL, DB2, MySQL);

- Таблицы Excel;

- Outlook E-Mails;

- Структура папок файловой системы.

Рисунок 1.3. Интерфейс программы OntoStudio

1.9 Редактор онтологий Swoop

Swoop - открытый, веб-ориентированнный редактор онтологий и браузер [10]. Swoop имеет функции построения логического вывода (типа RDFS и Pallet), поддерживает (OWL-механизм вывода) и предоставляет разнообразную среду разработки онтологий, в которой сущности и отношения внутри различных онтологий могут быть сравнены, отредактированы и объединены беспрепятственно. Навигация легка и проста из-за возможности интерфейса переходить по гиперссылкам при работе. Существуют функции, которые позволят адаптировать некоторые настройки под пользователя, чтобы удовлетворить его предпочтения. Swoop не придерживается особой методологии при создании онтологии.

Рисунок 1.4. Интерфейс программы Swoop

Пользователь может использовать внешнюю онтологическую информацию, просто установив с ней связь, или путем импорта всей внешней онтологии. Однако нельзя импортировать только часть OWL-онтологии. Swoop использует алгоритм поиска онтологий, который сочетает ключевые слова с конструкциями, основанными на DL, чтобы найти зависимые концепты в существующей онтологии. Этот поиск можно осуществлять по всем онтологиям, хранящимся в базе знаний Swoop. Swoop предоставляет совместное аннотирование с помощью плагина Annotea.

1.10 Среда разработки TopBraid Composer

TopBraid Composer - профессиональная среда разработки структурированной семантической сети. Выходит в трех версиях: бесплатная, основная, маэстро-версия [11]. Бесплатная версия - ознакомительная версия только с основным набором функций. Обычная версия включает все функции бесплатной плюс графические дисплеи, более усовершенствованная поддержка преобразования кода и многое другое. Маэстро-версия включает все функции обычной версии плюс поддержку TopBraid Live, EVN, а также SPARQLMotion и многие другие мощные функции.

TopBraid Composer (бесплатная версия), компонент TopBraid Suite, является профессиональным инструментом для разработки семантических моделей (онтологиф). Приложение основано на платформе Eclipse и Jena API. Это полный редактор для моделей в формате RDF(S) и OWL, а также платформа для других компонентов и сервисов, основанных на RDF. TopBraid Composer может загружать и хранить любые файлы типа OWL2 в таких форматах как RDF/XML или Turtle.

TopBraid Composer поддерживает различные механизмы для проверки на соответствие. Последовательная проверка и отладка выполняются встроенным OWL-механизмом логического вывода, SPARQL-системой обработки запросов и машиной обработки правил. Дескриптивная логика OWL обеспечивается через набор встроенных OWL DL механизмов, таких как OWLIM, Jena и Pellet.

TopBraid Composer может быть использовано в однопользовательском режиме, работая с онтологиями, хранящимися в виде файлов или базы данных. Это инструмент разработки для создания и поддержания онтологий. TopBraid Composer предоставляет:

1. Сформированную на стандартах синтаксически направленную среду для разработки OWL и RDF(S) онтологий.

2. SPARQL-запросы.

3. Правила импорта/экспорта семантической сети в/из различных форматов, включая RDF(S), XML, Excel и т.д.

4. Удобство пользования, возможность расширения и устойчивость, предоставляемые базовыми технологиями Eclipse и Jena.

Программа может быть загружена на 30-дневный ознакомительный период.

Рисунок 1.4. Интерфейс TopBraid Composer

1.11 Итоги сравнения

Общее описание средств разработки включает информацию о разработчиках и доступности. Из таблицы видно, что Protйgй и Swoop бесплатные редакторы, а для использования OntoStudio и TopBraid Composer необходима лицензия.

Далее идет информация об архитектуре приложения и уровень развития приложения. Так представлена информация о необходимой платформе для использования инструментов, т.е. архитектура по умолчанию, возможность расширяемости, способ хранения онтологий и управление процессом резервного копирования. Все эти инструменты управляются на платформе Java, Protйgй и OntoStudio имеют клиент-серверную архитектуру, Protйgй, OntoStudio и TopBraid Composer используют базы данных для хранения онтологий.

Интероперабельность включает информацию о том, насколько средства разработки приспособлены к взаимодействию с другими системами и языками, к переводу из одного языка в другой. Большинство этих инструментальных средств поддерживают импорт во множество языков и экспорт из множества языков. TopBraid Composer поддерживает импорт в RDFa, WOL, RDF(s), XHTML, Microdata и источник данных RDFa, SPIN, News Feed, Email and Excel. Swoop поддерживает RDF (S), OIL и DAML.

Protйgй поддерживает импорт в текстовые файлы, таблицы базы данных и RDF-файлы. OntoStudio поддерживает схемы базы данных (Oracle, MS-SQL, DB2, MySQL), Outlook E-mails и т.д. Protйgй, OntoStudio и TopBraid Composer поддерживают экспорт в Merge / Convert RDF Graphs, RDF(S) и WOL. Также Swoop поддерживает форматы RDF (S), OIL и DAML. Большинство из них поддерживают OWL, RDF(S) и XMl(S).

С точки зрения представления знаний, здесь представлено семейство инструментальных средств, которые представляют знания с помощью гибридного метода, основанного на фреймах и логике первого порядка. Protйgй предоставляют гибкие компоненты моделирования типа метаклассов. OntoStudio предоставляет поддержку методологии Onto Knowledge.

Следующий критерий - сервисы вывода. В качестве встроенного механизма вывода Protйgй использует PAL, OntoStudio использует OntoBroker и TopBraid Composer - WOL, и Rule. Protйgй, Swoop и TopBraid Composer имеют внешние прикрепленные механизмы. TopBraid Composer использует обработчик исключений.

И последний критерий сравнения - практичность или удобство использования. Для большинства пользователей Protйgй предоставляет дружелюбный, легкий в использовании графический интерфейс. Protйgй и OntoStudio позволяет просмотр графической таксономии, сокращение и приближение. Диалоговые справочные системы необхоимы для пользователей и должны быть без труда доступны и легки в использовании. Справочные системы Protйgй, OntoStudio и TopBraid Composer содержат помощь посредством иконок, методичек и руководства пользователя. Организация совместной работы важная часть процесса создания больших и широкомасштабных онтологий, и Protйgй, OntoStudio и TopBraid Composer позволяют эту функцию осуществить.

Таблица 1.2. Сравнения инструментальных средств разработки онтологий

Критерий

OntoStudio

Protйgй

Swoop

TopBraid Composer

Разработчик

Ontoprise

SMI (Stanford University)

MND (University of Maryland)

TopQuadrant

Доступность

Лицензия

Открытый доступ

Открытый доступ

Лицензия

Архитектура приложения

Eclipse клиент-сервер

Автономная архитектура и клиент-сервер

Веб-ориентированная архитектура и клиент-сервер

Автономные Eclipse-плагины

Расширяемость

Плагины

Плагины

Плагины

Плагины

Управление процессом резервного копирования

Нет

Нет

Нет

Да

Хранение онтологий

DBMS

Файлы и DBMS (JDBS)

Как HTML-модели

DBMS

Интероперабельность с другими инструментами разработки

OntoAnnotate, OntoBroker, OntoMat, Semantic, Miner

PROMY, OKBC, JESS, FaCT, Jena

Нет

Sesame, Jena, AllegroGraph

Возможности импорта

XML (S), OWL, , RDF(S), UML2.0, схемы базы данных (Oracle, MS-SQL, DB2, MySQL), Outlook E-mails

XML (S), RDF(S), OWL, HTML, (RDF, UML, XML)серверная часть, текстовые файлы, файлы RDF,Excel, BioPortal, DataMaster

OWL, XML, RDF и текстовые форматы

RDFa, WOL, XML(S), RDF(s), XHTML, UML, GRDDL, RDB с D2RQ, Microdata И RDFa веб-сайты, SPIN, Spreadsheets, база данных Oracle, текстовый файл, RDF-файл, News Feed, Email, Excel

Возможности экспорта

OWL, RDF(S), RIF, SPARQL, E-Logic, Excel

XML (S), HTML, Java, Clips, , SWRL-IQ, Instance Selection, MetaAnalysis, OWLDoc, Queries, (RDF, UML, XML)серверная часть

RDF(S), OIL, DAML

HTML, UML, XSD, Excel, RDB, база данных Oracle, RDF-файл, XML-файл, текстовый файл

Модель представления знаний

Фреймы и логика первого порядка

Фреймы, логика первого порядка, SWRL, метаклассы

OWL

RDF, OWL, SWRL

Язык аксиом

Да (F-Logic)

Да (PAL)

OWL-DL

OWL-DL

Методологическая поддержка

Да (онтознания)

Нет

Нет

Нет

Встроенный механизм логического вывода

Да (Ontobroker)

Да (PAL)

Нет

WOL, SPARQL, Rule

Другие прикрепленные механизмы вывода

Нет

RACER, FACT, FACT++, F-logic, Pallet

Pellet

OWLIM, PELLET, Jena Rules, Oracke Rules, SPARQL Rules.

Проверка ограничений/ на соответствие

Да

Да

Только с помощью плагина резонера

Да

Графическая таксономия

Да

Да

Да

Да

Инструменты для графической обрезки

Да

Да

Нет

Да

Инструменты для графического приближения

Да

Да

Нет

Да

Возможность совместной работы

Да

Да

Да

Да

Библиотеки онтологий

Да

Да

Нет

Да

Выводы по первой главе

В ходе описания направлений прикладной лингвистики в рамках заданной темы, стало ясно, что компьютерная лингвистика и корпусная лингвистика неразрывны, так как компьютерная лингвистика дала возможность обрабатывать большие массивы данных, а корпусная - объединять большое количество различных текстов в корпуса по определенному признаку. Одной из наиболее популярных и распространенных систем по обработке естественного языка выступила система GATE, которая автоматизировала наиболее важные, с точки зрения описанных выше направлений, функции, необходимые при работе с массивами текстов или корпусами.

В ходе анализа программных средств для создания онтологии, было решено, что наиболее подходящим является редактор онтологий Protйgй, поскольку предоставляет множество функций, недоступных программе Swoop, но близких к функциям, выполняемых программой OntoStudio. Выбор был сделан в пользу Protйgй, а не OntoStudio или TopBraid Composer, несмотря на функционал последнего, из-за условий использования, а именно открытого доступа к программе Protйgй, в то время как Ontostudio и TopBraid Composer являются платными программами.

Глава 2. РАЗРАБОТКА ОНТОЛОГИИ

В данной главе описано, что представляет собой онтологический инжиниринг в общем, какие существуют методологии построения онтологий. Глава содержит обзор и анализ онтологии лингвистики, из которой берется основа для построения онтологии маркеров стиля. Далее идет непосредственное проектирование онтологии.

2.1 Онтологический инжиниринг

Онтологический инжиниринг - процесс проектирования и разработки онтологий, где онтология - это формализация предметной области, путем построения специфической системы понятий, которая описывает эту предметную область [18].

Существуют разные виды онтологий. В классификации по цели создания выделяют следующие типы онтологий:

1. Онтология представления.

2. Онтология верхнего уровня.

3. Онтология предметной области.

4. Прикладная онтология.

Разрабатываемая онтология представляет собой онтологию предметной области, поскольку она будет использована не один раз, как, например, прикладные онтологии, а повторяющееся множество раз для одной и той же предметной области.

Другая классификация, предлагает делить онтологии по содержимому, выделяя следующие виды:

1. Общие онтологии (описывают сущности, события, пространство, время).

2. Онтологии задач (определение целей, классификация).

3. Предметные онтологии (описывают множество предметов).

Анализируя проектируемую онтологию, можно сделать вывод, что она принадлежит предметной онтологии, поскольку требуется создать иерархию со множеством понятий (классов).

Целью создания онтологии предметной области является возможность с ее помощью формально описать предметную область. В данной работе предметной областью являются маркеры стиля. На основе имеющихся маркеров стиля будет выделен каталог основных терминов, для последующей разработки онтологии.

Элементы онтологии представляют собой:

1. Концепты, которые отожествляются с классами, понятиями, сущностями, категориями.

2. Свойства концептов (слоты, атрибуты, роли).

3. Отношения между концептами (семантические отношения).

4. Ограничения.

Таким образом, структура онтологии представляет собой семантическую сеть в виде ориентированного графа, вершинами которого являются концепты (классы), а ребра отражают семантические отношения между классами или экземплярами.

Экземпляры класса служат для представления элемента описываемой предметной области, где класс выступает в виде шаблона, содержащего множество правил, определяющих то, каким образом может быть построен экземпляр. Помимо экземпляров, класс имеет атрибуты, которые используются для хранения информации об экземплярах класса.

Формальная модель онтологии представляет собой следующее:

O = < T, R, F >, где O - непосредственно сама онтология, T - конечное множество терминов предметной области, описываемой онтологией, R - конечное множество отношений между терминами описываемой онтологии, F - конечное множество функций интерпретации, которые задаются на терминах и отношениях онтологии [18].

В зависимости от наличия данных множеств в онтологии, онтологии делятся по основе описания структуры на простую онтологию, описанную на основе фреймов и онтологию, описанную на основе логики.

Как уже было сказано ранее, в онтологии существуют отношения. Основным отношением в онтологии является отнесения к определенной категории или категоризация [17]. Так, например, возьмем группу маркеров стиля «Существительное». Она является подклассом большей категории «Часть речи», т.е. на языке OWL это будет выглядеть следующим образом:

SubClassOf(:Часть_речи : Существительное)

Согласно Абдулрабу [13] существуют следующие отношения при построении онтологий верхнего уровня и предметных областей:

1. Отношения иерархии:

1) Род - вид.

2) Признак - значение признака.

3) Инвариант.

2. Отношение агригация:

1) Целое - часть.

2) Объект - пространство реализации объекта.

3) Объект - свойство признака.

4) Уровень - единицы уровня.

3. Семиотические отношения:

1) Термин - способ выражения.

2) Термин - способ представления термина.

3) Термин одного метаязыка - термин второго метаязыка.

4. Функциональные отношения.

2.2 Методологии и методы построения онтологий

Выделяют множество метод построения онтологий в зависимости от целей, содержания, предъявляемых требований. Методология является важной частью в процессе разработки, поскольку дает разработчику определенную инструкцию, следуя которой можно полно отобразить желаемую информацию. Среди известных можно выделить следующие методологии:

1. Методология Ушолда и Кинга. Она представляет собой последовательность действий, включающих фиксацию онтологии (выделение основных понятий и отношений, разработку конкретных текстовых описаний для выявленных понятий, после чего к данным отношениям и понятиям присоединяют термины), кодирование и тестирование.

2. Методология Грюнингера и Фокса. Методология представляет собой построение логической модели знаний, которая описывается с помощью онтологий. Сначала идет неформальное описание (спецификации), которому должна удовлетворять онтология.

3. Пошаговый метод создания онтологий. Метод включает в себя пять основных шагов: определение области и масштабов онтологии, рассмотрение существующих онтологий на заданную тему, перечисление важных терминов предметной области, определение классов и иерархии классов, создание отношений, свойств, экземпляров.

Проанализировав описанные методологии было решено выбрать пошаговый метод создания онтологий, так как он является последовательным, понятным, а главное, предоставляет возможность использовать уже готовый набор данных (основных понятий), полученных от экспертов.

2.3 Требования к разрабатываемой онтологии

Проанализировав учебные пособия по академическому письму, выбранные экспертами, они выделили основные, с их точки зрения, аспекты академического английского и их частные проявления (маркеры стиля) и на основе собранного корпуса начали проводить исследования с целью обнаружения использования маркеров стиля в работах студентов.

Набор маркеров представляет собой неструктурированную информацию, а создание онтологии при обработке неструктурированных данных имеет ряд преимуществ. Онтология позволяет наиболее целостно представить сведения об изучаемой предметной области. Данные, описанные в онтологии, представляют собой материал, представленный в единой форме, с описанием одних терминов с помощью других, отражая различные типы взаимосвязей между ними, что делает процесс восприятия данной предметной области легче.

Было решено, что основная онтология маркеров стиля не может существовать автономно. Поэтому онтологию маркеров стиля стоит рассматривать в терминах лингвистики, отражающих лингвистические понятия, в рамках которых и существуют маркеры стиля, помогая обеспечивать понятийную базу. Так, онтология маркеров стиля будет связана с понятиями лингвистики, что позволит ей существовать в определенном контексте.

2.4 Аналитический обзор онтологии лингвистики GOLD

GOLD (General Ontology for Linguistic Description) - онтология для описательной лингвистики, которая предоставляет наиболее основные категории и взаимоотношения, использующиеся в научном описании естественного языка, в формализованном виде. GOLD нацелена на сбор знаний наиболее квалифицированных лингвистом, и может рассматриваться как попытка кодифицировать общие знания данной области. Онтология была впервые представлена Farrar и Langendoen в 2003 году. Онтология способствует автоматическому логическому вводу лингвистических данных и помогает установить основные концепты, с помощью которых может быть осуществлен интеллектуальный поиск.

GOLD основывается не только на таксономии лингвистических терминов, но и на принципах онтологического инжиниринга. Онтология лингвистики доступна в разных форматах: HTML, XML, OWL.

Онтология основана на онтологии верхнего уровня SUMO (Standard Upper Merged Ontology), которая содержит наиболее общие и самые абстрактные концепты, имеет исчерпывающую иерархию фундаментальных понятий, а также набор аксиом, определяющих эти понятия. Назначение SUMO - содействовать улучшению интероперабельности данных, извлечения и поиска информации, автоматического вывода и обработки естественного языка.

Онтология состоит из четырех главных концептов:

1. Выражения - физические доступные аспекты, такие как слова, которые Вы читаете в данный момент, или звук при произношении слов и словосочетаний.

2. Грамматика - абстарктные свойства и отношения языка. В качестве отправного пункта был выбран раздел грамматики морфосинтаксис, изучающий морфемы с точки зрения их синтаксического функционирования.

3. Конструкции данных - конструкции, используемые лингвистами для анализа языковых данных, таких как парадигмы, словари, структуры свойств.

4. Метоконцепты - основные концепты лингвистического анализа, включающие сам язык. Было использовано две стратегии для разработки онтологии GOLD: восходящая, которая заключалась в исследовании всех языков для того, чтоб убедиться, что онтология имеет достаточный охват, и нисходящий подход, который заключался в представлении общих, широко распространенных универсалий.

Иерархия классов состоит из трех крупных подклассов класса по умолчанию Thing: Abstract, Object и Process. Класс Abstract содержит в себе описание свойств или качества, в отличие от любого конкретного воплощения свойств или качеств в физической среде. Сущности этого класса существуют в том же смысле, что и математические модели, такие как множества и отношения, но они не могут существовать в определенном месте и времени без физического воплощения. Класс Object примерно соответствует классу обычных объектов, например, физические объекты, географические регионы, местоположения процессов. Класс Process подразумевает под собой класс вещей, которые происходят и имеют временные части или этапы. Формальное определение таково: все, что происходит во времени, но не является объектом. Ниже представлена иерархия классов онтологии (рис. 2.1).

Рисунок 2.1. Иерархия классов онтологии GOLD

Класс Abstract является самым большим, состоящим из множества подклассов. В нем рассматриваются классы, предназначенные как для грамматических, синтаксических, морфологических структур, так и для орфографии, фонетики и т.д. Класс имеет большой охват и содержит в себе порядка 500 классов и подклассов с максимальным уровнем детализации 11. Несмотря на то, что все классы имеют комментарий (описание), при анализе очень сложно понять, что должно к какому классу относиться, поскольку иерархия очень сложная и разбита на множество классов.

Классы Object и Process по сравнению с классом Abstract содержат в себе немного подклассов и касаются знакового английского, разговорного английского в плане произношения звуков, письменного английского в плане орфографии.

После анализа данного класса, было решено, что наибольший интерес вызывает подкласс класса LinguisticProperty - PartOfSpeechProperty, так как все маркеры стиля представляют собой отдельные части речи, которые могут быть рассмотрены в рамках этого класса. Класс LinguisticUnit тоже представляет интерес, так как там есть класс, имеющий дело с частями слова, а это тоже относится к онтологии маркеров. В разделе ниже снова будет рассмотрена данная онтология, но уже для использования ее в качестве основы, в качестве онтологии лингвистики нижнего уровня.

2.5 Пошаговая разработка онтологии

Прежде чем приступать к разработке онтологии, нужно отметить, что разработка онтологии - это обязательно итеративный процесс, поэтому процесс создания онтологии имеет следующую структурную схему (см. рис. 2.2):

Рисунок 2.2. Схема процесса создания онтологии

Как было описано в Главе 1, после анализа было выбрано программное средство Protйgй, разработка онтологии производилась в версии Protйgй 5.2.0.

Проектирование онтологии включает в себя ряд шагов, ни один из которых нельзя упустить.

Шаг 1. Определение области и масштаба онтологии.

Для этого нужно ответить на ряд основных вопросов:

1. Какую область будет охватывать онтология?

2. Для чего она будет использовать использоваться?

3. На какие типы вопросов должна давать ответы спроектированная онтология?

4. Кто будет использовать и поддерживать онтологию?

Эти вопросы необходимы для того чтобы ограничить масштаб модели.

Итак, охватываемая область - письменный академический английский язык. Главная цель проектируемой онтологии - представить онтологию маркеров стиля в виде классификации со всеми вытекающими связями и отношениями. Онтология должна давать определение принадлежности атрибутов онтологии маркеров стиля определенному уровню грамматики английского языка. Так как главная цель создания основной онтологии (маркеров стиля) это классификация маркеров стиля, с целью классификации наиболее важных аспектов изучения академического английского, то эта онтология будет использоваться экспертом для составления правил для анализа текстов.

Шаг 2. Рассмотрение вариантов повторного использования существующих онтологий.

Возможно, что онтология лингвистики уже создана. Следует тщательно проверить доступные источники на существование подобной онтологии. В пункте выше была проанализирована описательная онтология лингвистики, которая будет использована в качестве основы для онтологии маркеров стиля.

Шаг 3. Перечисление важных терминов в онтологии.

В качестве основных терминов в работе будут использоваться термины, предложенные экспертами: nominalization, personal stance, verb, adverb, attributes, cohesiveness. Это основные аспекты, выделенные экспертами в ходе анализа маркеров стиля.

На данном шаге неважны отношения между терминами, их положение в иерархии, пересекаются ли понятия, главное - полный список терминов описываемой предметной области.

Шаг 4. Определение классов и иерархии классов.

Для разработки иерархии классов существует несколько подходов:

1. Нисходящая разработка (разработка начинается с определения общих понятий с последующей их конкретизацией и детализацией).

2. Восходящая разработка (обратно предыдущему процессу разработки, этот процесс начинает от частного, постепенно поднимаясь к общим понятиям),

3. Комбинированная разработка (включает оба подхода разработки, где сначала имеют дело с наиболее заметными понятиями, категоризируя и типизируя их в последующем.

Проанализировав данные подходы и сделав оценку существующих основных понятий и терминов, было принято решения выбрать комбинированный подход к разработке иерархии классов.

Ниже представлена иерархия классов, основанная на имеющихся терминах.

Noun (Существительное):

- noun with abstract suffix (существительное с абстрактным суффиксом);

- noun with -or suffix (существительное с суффикcом -or).

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.