Онтология маркеров стиля

Создание онтологии маркеров стиля, отражающей основные положения предметной области и определяющей отношения между ними. Генерация правил поиска маркеров стиля при анализе текстов. Выбор инструментальных средств для проектирования. Типовые запросы.

Рубрика Программирование, компьютеры и кибернетика
Вид курсовая работа
Язык русский
Дата добавления 30.06.2017
Размер файла 4,7 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Personal Stance (Личное отношение):

- personal pronoun (личные местоимения);

- demonstrative pronoun (указательные местоимения).

Verb (Глагол):

- desemanticised verb (смысловой глагол);

- verb of broad abstract semantics (глагол широкой абстракции) ;

- tense (времена);

- voice (залог).

Adverb (Наречие):

- intensifying (усилительные наречия).

Attribute (Атрибуты):

- prepositive attribute (препозитивные атрибуты);

- postpositive attribute (постпозитивные атрибуты).

Cohesiveness (Логичность):

- complex conjunction (составные союзы);

- archaisms (архаизмы);

- complex preposition (сложные6 предлоги);

- logic connector (логические связки).

Таким образом, получилась иерархия, где каждый маркированный элемент является подклассом вышестоящего выделенного понятия. Эти понятия являются наиболее заметными и важными в данной онтологии, однако это не значит, что они описывают всю предметную область. Теперь вернемся к онтологии нижнего уровня - онтологии Лингвистики. Основываясь на анализе, проведенном по онтологии GOLD было решено строить онтологию маркеров на основе части онтологии GOLD, поскольку она наиболее полно описывает предметную область лингвистики. Было решено не использовать всю онтологию GOLD, потому что онтология описывают данную область максимально полно, пытаясь осветить все понятия, включая устный язык, разговорный, знаковый, что не является предметом данной работы. Поэтому чтобы избежать избыточности онтология маркеров стиля будет основываться только на особенностях письменного английского.

Теперь вернемся к иерархии классов онтологии лингвистики (см. рис.2.3). Как было описано ранее, наиболее интересным классом, с точки зрения онтологии маркеров стиля, является класс Abstract. Все аспекты, выделенные экспертами выше, принадлежат подклассам LinguisticProperty и LinguisticUnit. Именно этот кусок иерархии классов ляжет в основу онтологии маркеров стиля в качестве онтологии лингвистики.

Рисунок 2.3. Наиболее важные классы для онтологии маркеров стиля

В ходе анализа было решено создать четыре основных класса: LinguisticPropery и LinguisticUnits - термины лингвистики, Aspect - аспекты, выделенные экспертами и StyleMarker - маркеры стиля. Иерархия классов представлена на рис. 2.4.

Рисунок 2.4. Получившаяся иерархия классов

Графы, на основе созданных классов, представлены на рисунках ниже.

Рисунок 2.5. Онтологический граф класса StyleMarker

Отношения типа «класс-подкласс» выглядят следующим образом:

SubClassOf (: StyleMarker : Noun)

SubClassOf (:StyleMarker: Tense)

Данный класс StyleMarker отражает конкретные маркеры стиля, которые являются чертами письменного академического английского. Он состоит из понятий описанных выше. Подклассы содержат в себе экземпляры, которые представляют собой маркер стиля. Маркеры не связаны никакими связями между собой, но имеют связи с выражающими их аспектами. Рисунок с отображением этих связей будет представлен на шаге создания отношений.

Рисунок 2.6. Онтологический граф класса Aspect

Отношения типа «класс-подкласс» выглядят следующим образом:

SubClassOf (: Aspect : Verb)

SubClassOf (:Aspect: Nominalization)

Эксперты выделили шесть наиболее важных по их мнению аспектов академического английского. Как и маркеры, аспекты не связаны свойствами между собой, но будут связаны как с понятиями класса StyleMarker, так и с Linguistics. На данный момент отображена лишь иерархическая зависимость классов и подклассов.

На рис. 2.7, 2.8 отображены онтологические графы, построенные на основе классов, взятых из онтологии лингвистики GOLD. Как было описано ранее после анализа имеющихся понятий и их возможном месте в имеющейся онтологии, было решено взять классы LinguisticProperty и LinguisticUnits, в качестве лингвистической основы.

Рисунок 2.7. Онтологический граф класса LinguisticProperty

Рисунок 2.8. Онтологический граф класса LinguisticUnit

Шаг 5. Теперь определим связи между созданными понятиями (классами), помимо связи «класс - подкласс». Было решено соединить свойствами express и обратным ему свойством isExpressedBy понятия класса Aspect и StyleMarker. Логика такова: каждый класс аспектов выражается тем или иным набором классов/классом с соответствующими маркерами стиля. И наоборот, каждый класс маркеров стиля выражает определенный аспект письменного академического языка. На рис. 2.9. изображены созданные свойства.

Рисунок 2.9. Свойства объектов

На вкладке Individuals были созданы экземпляры классов и отнесены определенным классам. Эти экземпляры являются частными проявлениями маркеров стиля в письменном академическом английском. На рис. 2.10 отображены экземпляры класса IntensifyingAdverb, выражающие аспект Adverb.

Рисунок 2.10. Экземпляры класса IntensifyingAdverb

Не все классы имеют экземпляры. Ниже представлена таблица с названием класса и существующими в нем экземплярами (табл. 2.1).

Таблица 2.1. Экземпляры классов

Название класса

Экземпляры

PersonalPronoun

I, we, he, she, you

DesemanticisedVerb

be, become, seem, remain, grow, consider

VerbOfBroadAbstractSemantics

be, exist, have, appear, occur, alter, continue, contribute, discuss, involve, investigate, conduct, consider, illustrate, assume, find, calculate, demonstrate, identify, analyse, support, challenge, examine, affect, provide, include, classify, establish

IntensifyingAdverb

clearly, dramatically, completely, considerably, essentially, significantly, markedly, perfectly

AbstractSuffix

-ment, -ion, -ation, -ition, -tion, -sion, -f, -ness, -ce, -cy, -ity, -dom, -th, -ery, -ry, -ise, -ice, -hood, -ics, -ship

ComplexConjunction

not_merely, but_also, both_and, as_ as, neither _nor, the_the, not_so_as

Archaism

thereby, therewith, hereby

ComplexPreposition

throughout, within, in_accordance_with, instead_of, according_to, because_of, due_to, regardless_of

LogicConnector

since, therefore, follow, so, thus, lead_to, result_ in

Теперь следует рассмотреть свойства, созданные для связи между классами Aspect, StyleMarker и LinguisticProperty.

Рисунок 2.11. Онтологический граф с отношениями и экземплярами аспекта Adverb

Граф, отображенный на рис. 2.11 отображает связи аспекта Adverb. Из графа видно, что данный класс является подклассом Aspect, он связан с подклассом IntensifyingAdverb класса StyleMarket. Свойства получились следующие: Adverb isExpressedBy IntensifyingAdverb, что означает, что аспект Наречие выражается маркером стиля Усиливающее наречие, и обратное свойство isExpressedBy - express. Помимо уже описанных свойств можно увидеть свойство hasIndividual и соответствующие данному классу маркеров стиля экземпляры. Что касается связи онтологии лингвистики и аспектов, тут создано свойство include и isPartOf , представляющее собой: Adverb isPartOf Adverbial и обратное предложение со свойством include.

Рисунок 2.12. Онтологический граф с отношениями аспекта Verb

Граф, отображенный на рис. 2.12 отображает связи аспекта Verb. Из графа видно, что данный класс является подклассом Aspect, он связан с подклассами Voice, Tense, DesimanticisedVerb класса StyleMarket. Свойства получились следующие: Verb isExpressedBy Voice, Tense, DesimanticisedVerb что означает, что аспект Глагол выражается маркерами стиля Время, Залог и Сысловым глаголом и обратное свойство express. На данном графе не отображено свойство hasIndividual и соответствующие данному классу маркеров стиля экземпляры, посколько это бы сильно нагрузило граф, но имеющиеся экземпляры можно увидеть в табл. 2.1. Что касается связи онтологии лингвистики и аспектов, тут создано свойство include и isPartOf , представляющее собой: Verb isPartOf Verbal и обратное предложение со свойством include. Такое свойство действует для связи всех аспектов с понятиями лингвистики.

Рисунок 2.13. Онтологический граф для аспекта Cohesiveness

На рис. 2.13 онтологический граф аспекта Cohesiveness, отражающий связи между маркерами стиля и понятиями лингвистики. Данный аспект выражается подклассами класса StyleMarker ComplexСonjunction, ComplexPreposition, LogicConnector и Archaism. Данный аспект является частью понятия лингвистики Functor.

Рисунок 2.14. Онтологический граф с отношениями аспекта Attribute

Рисунок 2.15. Онтологический граф с отношениями и экземплярами аспекта Nominalization

Аспект Nominalization выражаются маркерами Noun и NounWithAbstractSuffix. NounWithAbstractSuffix в свою очередь имеет свойство hasSuffix, ссылающееся на абстрактные суффиксы, которые отображены в виде экземпляров класса AbstractSuffix на графе. Аспект Nominalization является частью лингвистического понятия Noun.

Рисунок 2.16. Онтологический граф с отношениями и экземплярами аспекта PersonalStance

Аспект PersonalStance выражается маркерами стиля PersonalNoun и DemonstrativePronoun. Аспект связан с понятием лингвистики PersonalPronoun. Маркеры стиля имеют свойство hasIndividual, что можно наблюдать на графе.

После того как онтология создана, заданы свойства, определены связи между классами и созданы экземпляры классов можно приступать разработке типовых запросов. Запрос на вывод только подклассов, принадлежащих конкретному классу, в данном случае представлены подклассы класса Aspect и StyleMarker представлены на рис. 2.17 и 2.18.

Рисунок 2.17. Результаты выполнения запроса на вывод подклассов класса Aspect

Рисунок 2.18. Результаты выполнения запроса на вывод подклассов класса StyleMarker

Помимо выводов классов и соответствующих им подклассов было решено осуществить вывод всех имеющихся экземпляров и соответствующих им классов, а так же осуществить вывод экземпляров только одного класса, показанный на примере вывода всех экземпляров класса AbstractSuffix. Результаты запросов представлены на рис. 2.19 и рис. 2.20.

Рисунок 2.19. Результаты выполнения запроса на вывод всех экземпляров и соответствующих им классов

Рисунок 2.20. Результаты выполнения запроса на вывод всех экземпляров класса AbstractSuffix

Выводы по второй главе

Для разработки онтологии было использовано программное средство Protйgй 4.3.0. В ходе разработки онтологии было выявлено, что имеющихся понятий недостаточно для построения полной иерархии. Для описания предметной области лингвистики было решено использовать подходящие понятия и классы онтологии лингвистики GOLD, которые позволили онтологии маркеров стиля существовать внутри предметной области. Была интегрирована часть иерархии классов онтологии GOLD, на ее основе построена остальная иерархия классов, добавлены свойства объектов и созданы экземпляры классов.

Глава 3. ГЕНЕРАЦИЯ ПРАВИЛ ПОИСКА МАРКЕРОВ СТИЛЯ ПРИ АНАЛИЗЕ ТЕКСТОВ

После того, как была создана онтология маркеров стиля, можно перейти к алгоритму генерации правил поиска маркеров. Для этого нужен будет плагин, который на основе созданной онтологии будет выполнять следующий порядок действий:

1. Для всех классов, у которых базовый класс StyleMarker, получаем экземпляры.

2. У экземпляров берем свойство template, в котором записано JAPE -выражение по поиску конкретного маркера.

3. Извлекаем JAPE -выражение или получаем имя файла для поиска маркера.

4. Соединяем выражения по поиску конкретных маркеров с помощью оператора или в общее JAPE -выражение, переходим по имени к файлу, содержащему реализацию поиска маркера.

JAPE - Java - обработчик для аннотационных шаблонов. JAPE предоставляет конечное множество преобразований над аннотациями, основанные на регулярных выражениях.

JAPE - правило состоят из двух частей: образец, называемый LHS (left hand side), и действие - RHS (right hand side). Часть LHS представляет собой регулярное выражение, в качестве атомов которого выступают аннотации, выделенные на предыдущих фазах. Если последовательность аннотаций во входном документе соответствует регулярному выражению из LHS, выполняется действие, описанное в RHS.

Для выполнения данных действий должны быть написаны SPARQL - запросы. Первый запрос по получению всех экземпляров класса StyleMarker представлен на рис. 3.1.

Рисунок 3.1. Результаты выполнения SPARQL - запроса на получение всех экземпляров класса StyleMarker

Второй пункт является наиболее основным, так как в нем говорится о свойстве Template, в котором содержится JAPE - выражение или имя файла, в котором реализован поиск маркера. В ходе выполнения данного пункта было решено разделить класс StyleMarker на два подкласса SyleMarkerWithIndividual (маркер стиля с экземпляром) и SyleMarkerWithoutIndividual (маркер стиля без экземпляра). В случае если экземпляры у выделенного маркера имеются, было решено добавить свойство Template, в котором содержалась бы левая сторона JAPE - выражения по поиску маркера. Если у класса нет экземпляров, то был создан единственный экземпляр с таким же свойством Template, содержащим в большинстве случаев имя Java - файла. На рис. 3.2. показано заполнение свойства Template правилом. Результат запроса на вывод всех экземпляров класса StyleMarker и их свойства Template представлен на рис. 3.3.

Рисунок 3.2. Заполнение свойства Template JAPE - выражением

Рисунок 3.3. Результаты выполнения SPARQL - запроса на вывод всех экземпляров класса StyleMarker и свойства Template

Результаты запросов на поиск маркеров стиля, принадлежащих только к одному из выделенных аспектов, представлены на рис. 3.4, 3.5, 3.6, 3.7, 3.8, 3.9.

Рисунок 3.4. Результаты выполнения SPARQL - запроса на вывод всех экземпляров классов, выражающих аспект Verb, и их свойств Template

Аспект Verb выражается через четыре подкласса класса StyleMarker: VerbOfBroadAbstractSemantics, DesemanticisedVerb, Tense и Voice. Два из этих классов (VerbOfBroadAbstractSemantics, DesemanticisedVerb) имеют экземпляры, в которые были вписаны JAPE - выражения. Для классов Tense и Voice были созданы экземпляры и аналогично в свойстве Template указаны имена файлов для поиска данных маркеров.

Рисунок 3.5. Результаты выполнения SPARQL - запроса на вывод всех экземпляров классов, выражающих аспект Adverb, и их свойств Template

Аспект Adverb выражается лишь одним классом маркеров стиля IntensifyingAdverb, каждый экземпляр которого имеет свойство с JAPE - выражением по поиску выделенных в качестве конкретных экземпляров наречий.

Рисунок 3.6. Результаты выполнения SPARQL - запроса на вывод всех экземпляров классов, выражающих аспект Attribute, и их свойств Template

Аспект Attribute выражается классами PostpositiveAttribute и PrepositiveAttribute, которые не имеют экземпляров и JAPE - правил для их поиска в тексте, но которые могут быть проаннотированы в тексте с помощью Java - файла, имя которого записано в свойство Template.

Рисунок 3.7. Результаты выполнения SPARQL - запроса на вывод всех экземпляров классов, выражающих аспект Cohesiveness, и их свойств Template

Аспект Cohesiveness выражается через четыре подкласса класса StyleMarker: ComplexConiunction, Archaism, ComplexPreposition и LogicConnector. Три из этих классов (Archaism, ComplexPreposition и LogicConnector) имеют экземпляры, в которые были вписаны JAPE - выражения. Для класса ComplexConiunction был создан экземпляр и аналогично в свойстве Template указано имя файла для поиска маркера стиля.

Рисунок 3.8. Результаты выполнения SPARQL - запроса на вывод всех экземпляров классов, выражающих аспект PersonalStance, и их свойств Template

Аспект PersonalStance выражается через два класса маркеров, экземпляр каждого из которых содержит Jape - выражение.

Рисунок 3.9. Результаты выполнения SPARQL - запроса на вывод всех экземпляров классов, выражающих аспект Nominalization, и их свойств Template

Аспект Nominalization выражается через три подкласса класса StyleMarker: Noun, NounWithAbstractSuffix и NounWithOrSuffix. Два класса Noun и NounWithOrSuffix не имеют экземпляров. Для них были созданы экземпляры и в свойстве Template указаны JAPE - выражения для поиска маркера стиля. Для экземпляров маркера NounWithAbstractSuffix было указано имя файла по их поиску.

Пункты 3 и 4 алгоритма выполняются непосредственно плагином, так как все данные, которые можно было предоставить с помощью онтологии, были получены с помощью типовых запросов. Таким образом, при появлении новых экземпляров маркеров стиля их достаточно будет добавить в нужный класс маркеров и прописать в свойство Template левую часть правила, JAPE - выражения, по его поиску в тексте, после чего плагин сможет его использовать для автоматического поиска. На данный момент поиск выделенных маркеров производится вручную, путем прописывания JAPE - правил для поиска каждого маркера, что занимает много времени. С помощью онтологии достаточно будет прописать левую часть правила поиска или имя файла, реализующего поиск маркера в свойство Template, после чего плагин сможет начать работу с ними, автоматизировав тем самым поиск маркеров стиля в тексте.

ЗАКЛЮЧЕНИЕ

Результатом работы является онтология маркеров стиля, позволившая сделать из маркеров стиля упорядоченную систему, которой можно управлять. Построение онтологии не является конечной целью, она является частью большего проекта, выполняя в нем функцию генерации правил поиска маркеров стиля при аннотировании текстов.

В процессе анализа существующих данных было выявлено, что онтология может изменяться в процессе работы с ней, могут добавляться некоторые понятия, свойства, экземпляры, поскольку эксперты не закончили анализ данной предметной области.

При сравнении программных средств для реализации поставленной задачи был выбран редактор онтологий Protйgй, поскольку он обладает открытым исходным кодом и широким функционалом, способным осуществить поставленные задачи. Помимо этого, он предоставляет возможности по экспорту и импорту созданных онтологий в различные форматы.

На стадии проектирования была проанализирована онтология описательной лингвистики GOLD, которая использовалась в качестве лингвистического уровня разрабатываемой онтологии. Помимо лингвистического уровня были выделены уровень апсекта и уровень маркера стиля, выделенные путем анализа данных, полученных от экспертов. Таким образом, помимо выделенных терминов предметной области, которые были связаны лишь с маркерами стиля, были выделены дополнительные классы и свойства, связанные непосредственно с областью лингвистики, чтобы онтология маркеров стиля существовала в конкретной предметной области, а не отдельно от нее.

Финальной стадией работы было составление алгоритма по генерации правил поиска маркеров стиля в тексте с помощью разработанной онтологии. С помощью онтологии можно будет генерировать правила автоматически, а не искать маркеры стиля в тексте, прописывая их каждый раз вручную с помощью JAPE - выражений и кода. Более того, при добавлении новых маркеров, достаточно будет только прописать правило поиска, а дальше плагин использует его для аннотирования текста согласно запросу. Так как проектирование онтологии является итеративным процессом, возможны добавления связей между экземплярами и классами, с целью получения лучшего эффекта при аннотировании текстов корпуса.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. FrameNet // Лингвистический ресурс [Электронный ресурс]. URL: https://framenet.icsi.berkeley.edu/fndrupal/ (дата обращения: 17.05.2017).

2. General Architecture for text engineering// Система обработки естественного языка 1995 [Электронный ресурс]. URL: https://gate.ac.uk/download/ (дата обращения: 25.03.2017).

3. Kent D. Bimson , Richard D. Hull Unnatural Language Processing: Characterizing the Challenges in Translating Natural Language Semantics into Ontology Semantics// Semantic Web 2015, - C. 119-135.

4. Luyckx K., Daelemans, W. Shallow text analysis and machine learning for authorship attribution // Computational Linguistics in the Netherlands 2004: selected papers from the Fifteenth CLIN Meeting / van der Wouden T. [Ed.], e.a., Utrecht, LOT, 2005, - C. 149-160.

5. Ontolingua // Среда для разработки онтологий [Электронный ресурс]. URL: http://www.ksl.stanford.edu/software/ontolingua/ (дата обращения: 25.03.2017).

6. OntoStudio // Среда для создания и управления онтологиями [Электронный ресурс]. URL: http://www.semafora-systems.com/en/products/ontostudio/ (дата обращения: 25.03.2017).

7. Protйgй // Редактор онтологий [Электронный ресурс]. URL: http://protege.stanford.edu/ (дата обращения: 25.03.2017).

8. Scholz T., Conrad S. Style Analysis of Academic Writing // Natural Language Processing and Information Systems: 16th International Conference on Applications of Natural Language to Information Systems, Proceedings. NLDB 2011, Alicante, Spain, June 28-30, 2011. - C. 246-249.

9. Strinyuk S. A., Shuchalova Y., Lanin V. Academic Papers Evaluation Software, in: Application of Information and Communication Technologies (AICT), 2015 9th International Conference on, 14-16 Oct. 2015. Rostov-on-Don: IEEE, 2015. doi P. 506-510.

10. Swoop // Онтологический редактор [Электронный ресурс]. URL: http://www.softpedia.com/get/Internet/Other-Internet-Related/MIND-lab-SWOOP.shtml (дата обращения: 17.05.2017).

11. TopBraid Composer // Среда разработки онтологий [Электронный ресурс]. URL: http://www.topquadrant.com/tools/ide-topbraid-composer-maestro-edition/ (дата обращения: 17.05.2017).

12. WordNet // Электронный тезарус [Электронный ресурс]. URL: http://wordnet.princeton.edu/ (дата обращения: 17.05.2017).

13. Абдулраб Х. Онтологический инжиниринг / Х. Абдулраб, Э.А. Бабкин // Вопросы образования. - 2007. -№2. - С.3-14.

14. Боярский К. К. Введение в компьютерную лингвистику. Учебное пособие. СПб: НИУ ИТМО, 2013. 72 с.

15. Загорулько Ю.А. Построение порталов научных знаний на основе онтологий // Вычислительные технологии. - 2007. - Т. 12.- Спецвып. 2. - С. 169-177.

16. Захаров В.П. Корпусная лингвистика: учебное пособие. СПб., 2005. 48 с.

17. Константинова Н.С., Митрофанова О.А. Онтологии как системы хранения знаний: учебное пособие. Спб: СпбГУ, 2007. 54 с.

18. Кузнецов О.П., Суховеров В.С., Шипилина Л.Б. Онтология как систематизация научных знаний: структура, семантика, задачи: учебное пособие.

19. Лукашевич Н.В. Тезаурусы в задачах информационного поиска - М., 2010. - С. 92-93.

20. Соснина Е.П. Введение в прикладную лингвистику: учебное пособие. Ульяновск: УГТУ, 2012. 110 с.

Размещено на Allbest.ru

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.