Главная Коллекция "Revolution" Иностранные языки и языкознание Исследование вклада синтаксических признаков в распознавание анафоричесних отношений

Исследование вклада синтаксических признаков в распознавание анафоричесних отношений

Распознавание кореферентных (отношений между словами в тексте, обозначающих одинаковую информацию) и анафорических связей (отношение именной группы к другому слову) как проблема обработки естественного языка. Анализ существующих систем, их реализация.

Рубрика	Иностранные языки и языкознание
Вид	дипломная работа
Язык	русский
Дата добавления	30.08.2016
Размер файла	320,4 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

Размещено на http://www.allbest.ru/

Правительство Российской Федерации

Федеральное государственное автономное образовательное учреждение

Высшего профессионального образования

Национальный исследовательский университет

"Высшая школа экономики"

Факультет гуманитарных наук

Выпускная квалификационная работа студента

Исследование вклада синтаксических признаков в распознавание анафоричесних отношений

Жадаев Никита Максимович

Академический руководитель образовательной программы

к.ф.н., доц. Ю.А. Ландер

Научный руководитель

канд. филологических наук, доц. С.Ю. Толдова

Москва 2016

Оглавление

1. Введение

1. Основная часть

1.1 Терминология

1.2 Анализ существующих систем

1.2 Реализация системы

1.2.1 Материалы

1.2.2 Извлечение именных групп

1.2.3 Извлечение признаков

1.2.4 Сравнение результатов классификаторов

1.3 Внедрение синтаксиса

1.3.1 Эксперимент 1 (syntax1)

1.3.2 Эксперимент 2 (syntax2)

1.3.3 Эксперимент 3 (syntax3)

Заключение

Список использованных источников и литературы

Приложения

1. Введение

Настоящая работа посвящена исследованию влияния синтаксических признаков на распознавание анафорических отношений. Распознавание кореферентных связей это одна из ключевых проблем обработки естественного языка. Под кореферентными связями понимается отношение между словами в тексте, которые в действительности обозначают одну сущность, другими словами, несут в себе одинаковую информацию. Если слово или именная группа в тексте имеет отношение к другому слову в тексте, которое уже было введено раннее, то эту связь называют анафорической, а само слово является анафором. Следует также сказать, что референтные выражения, обозначающие одну сущность, могут быть либо существительными, либо местоимениями. И основная задача системы для распознавания анафорических отношений - это связи с местоимениями. Автоматическое распознавание анафорических отношений имеет важную роль в обработке естественного языка, потому что помогает связывать различные сущности в тексте, что открывает новые возможности для понимания "системой" текста. Алгоритмы для распознавания анафорических отношений используются в различных направлениях обработки естественного языка, к примеру, при извлечении информации или машинном переводе.

Чтобы продемонстрировать основную задачу распознавания анафорических отношений, я приведу следующий пример:

(1) Маруся долго перелистывала русскую газету. Она внимательно читала объявления.

Анафорическое выражение "Она" является отсылкой к ранее введенному персонажу "Маруся". Слово "Маруся" принято считать антецедентом анафорической связи. Человек достаточно легко справляется с задачей распознавания анафорических связей. Однако система обработки текста не может выделить эту связь теми же методами, что и человек. Основной алгоритм распознавания анафорических отношений заключается в двух этапах:

1) Нахождение всех потенциальных антецедентов на определенном диапазоне перед анафором;

2) Определение наиболее вероятного кандидата.

Потенциальными антецедентами считают все именные группы, встретившиеся на определенном расстоянии перед анафором. Для того, чтобы понять обозначает ли именная группа и местоимение одну сущность, используются разные параметры, которые можно извлечь непосредственно из текста, к примеру, морфологические или синтаксические характеристики слов. Извлечение таких признаков становится возможным только при наличии морфологической/синтаксической разметки, которая, в свою очередь, дополняет текст необходимой информацией, на основе которой система может делать выводы. Последние работы по распознаванию анафорических отношений в русском языке, представленные на конференции Dialog-2014, показали неплохие результаты, но в большинстве работ синтаксический анализ текста никак не учитывался. Под синтаксическим анализом, я имею в виду работу с синтаксическим деревом зависимостей. Синтаксис можно назвать одним из главных пунктов, по которым различаются языки мира, поэтому подход к отдельным языкам может различаться. Существует несколько работ по распознаванию анафорических отношений с помощью дерева зависимостей для английского языка, но для тех же целей в русском языке деревья зависимостей еще не использовались. Этим обусловлена проблема настоящей работы.

Таким образом, цель этой работы - на основе существующих алгоритмов для распознавания анафорических отношений реализовать систему и попытаться улучшить показатели работы системы с помощью параметров, которые можно извлечь из синтаксического дерева зависимостей.

Для достижения цели требуется решить несколько задач:

1) Изучить существующие алгоритмы распознавания анафорических отношений для русского и других языков;

2) Подготовить материалы для системы (корпус текстов);

3) Определить метод работы системы и основные параметры;

4) Получить результаты работы базовой системы;

5) Провести эксперименты с синтаксическими параметрами;

6) Проанализировать влияние синтаксических признаков на результаты работы системы.

В качестве материалов для работы будет взят корпус текстов, с которым работали все участники эксперимента с анафорическими связями на конференции Dialog-2014. Корпус состоит из 86 текстов. Для всех текстов организаторы эксперимента вручную разметили все кореферентные связи. Также, все тексты представлены в синтаксически разобранном виде. Синтаксический разбор был осуществлен с помощью Russian malt (Sharoff and Nivre 2011). Анафорические связи представлены отдельно от текстов. Для реализации системы был использован высокоуровневый язык программирования Python.

кореферентный анаформический распознавание связь

1. Основная часть

1.1 Терминология

В разделе 1 (Введение) были представлены некоторые основные термины, которые принято использовать при описании анафорических связей. В работе (Jurafsky and Martin 1999: 665) представлен один из методов описания анафорических связей, который будет использоваться в настоящей работе. В ней говорится, что между словами в контексте существует некоторая связь: эти слова описывают одну сущность в реальном мире. К примеру, "Джон" и "он" могут в определенном контексте указывать на одного и того же человека. Выражение в языке, которое используется для того, чтобы обозначить отсылку к сущности в реальном мире, называют референтным выражением, а саму сущность - референтом. Два референтных выражения, которые относятся к одной сущности, кореферентны. То выражение, к которому идет отсылка с помощью основного референта, называется антецедентом, т.е. "Джон" является антецедентом к местоимению "он". Выражение, обозначающее одну и ту же единицу в реальном мире, что и именная группа ранее в тексте, называется анафором, таким образом, местоимение "он" является анафорическим.

Также, следует обозначить термин дискурсивной цепочки, который обозначает совокупность всех выражений, которые относятся к одной сущности в дискурсе, и отношения между ними.

В компьютерной лингвистике при изучении анафорических отношений выделяют три типа анафоры, представленные в работе (Mitkov 1999: 2):

· Местоименная анафора

(2а) Computational Linguists from many different countries attended the tutorial. They took extensive notes.

`Компьютерные лингвисты из разных стран посетили консультацию. Они делали подробные конспекты. ' (Пример из [Mitkov 1999: 2])

· Анафора именных групп

(2б) Computational Linguists from many different countries attended the tutorial. The participants found it hard to cope with the speed of the presentation.

`Компьютерные лингвисты из разных стран посетили консультацию. Участники не успевали за темпом презентации' (Пример из [Mitkov 1999: 2])

· "One-anaphora"

(2в) If you cannot attend a tutorial in the morning, you can go for an afternoon one.

`Если у Вас не получается посетить консультацию утром, можете посетить вечернее занятие' (Пример из [Mitkov 1999: 3])

В настоящей работе будет рассмотрена только первая группа, потому как разработка системы, которая выявляет анафорические связи между именными группами или клаузами, это куда более сложная проблема.

1.2 Анализ существующих систем

Алгоритм распознавания анафорических связей начинается с того, что в контексте, предшествующем анафору, выделяются именные группы. Длина контекста во многих системах определяется предложением, в котором было найдено местоимение, и предложением до него. Но антецедент может быть и на гораздо большем расстоянии (Mitkov 1999). Определение анафорических связей осуществляется с помощью набора "анафорических признаков". К ним относятся такие признаки, как согласование по роду и числу, ограничения связывания (c-command), семантические ограничения, синтаксический/семантический параллелизм, выделенность/значимость (salience) и другие.

В работе (Mitkov 1999: 4) выделены основные ограничения на анафорическую связь:

· Согласование в роде и числе

· Ограничения в синтаксическом управлении

o Именная группа не может быть связана кореферентной связью с именной группой, которой она управляет

(3а) He told them about John.

`Он рассказал им о Джоне' [пример из (Mitkov 1999: 4)]

o Антецедент рефлексива (reflexive pronoun) должен быть в одной клаузе с местоимением

(3б) John likes pictures of himself.

`Джону нравится картина с ним. ' [пример из (Mitkov 1999: 4)]

o Личные местоимения не могут быть связаны кореферентной связью с именной группой в той же клаузе

(3в) John told Bill about him.

`Джон рассказал Биллу о нем. ' [пример из (Mitkov 1999: 4)]

· Семантическая связанность (семантические характеристики антецедента должны совпадать с семантическими характеристиками анафора)

Также, в работе говорится о таком параметре, как выделенность (salience), который не является обязательным ограничением, но может повлиять на выбор антецедента в определенных случаях. Так, к примеру, в предложении:

(4) Джон поставил стакан на блюдо и разбил его.

Даже человек испытывает трудности с определением анафорической связи. Но, если бы в данном случае был контекст, в котором рассказывается о блюде, то оно бы с наибольшей вероятностью оказалось бы антецедентом в данном случае. И как раз таки выделенность, т.е. сколько раз встретилось это слово до этого, влияет на эту вероятность.

Первые алгоритмы для распознавания анафорических отношений появились во второй половине двадцатого века (подробнее Mitkov 1999: 7). Они были в большей степени основаны на правилах, без использования статистического метода, либо машинного обучения.

В работе (Jurafsky and Martin 1999: 678) описывается алгоритм, который в некоторой степени обобщает все, ему предшествующие:

1) Собрать всех потенциальных референтов (на расстоянии одного предложения);

2) Убрать потенциальных референтов, которые не согласуются в роде и числе с местоимением;

3) Убрать референтов, которые нарушают синтаксические ограничения

4) Посчитать контекстный вес каждого референта;

5) Выбрать референта с наибольшим контекстным весом (если нет такого, то выбрать ближайшего референта).

Данный алгоритм никак не рассматривает синтаксические зависимости в дереве.

В этой же работе описывается "A Tree Search Algorithm" (Hobbs 1978), который работает с синтаксическими представлениями предложений. Шаги в этом алгоритме следующие:

1) Начинать с именной группы, которая доминирует над местоимением;

2) Идти выше по дереву до первой именной группы или начала предложения и назвать этот узел "Х", а путь к нему "p";

3) Пройти по всем веткам ниже "Х" слева направо от пути "p" и пометить все встретившиеся именные группы как потенциальные антецеденты;

4) Если узел "Х" самый высокий в дереве, пройти по дереву предыдущего предложения в той же манере, что и в пункте 3, и отметить все именные группы как потенциальные антецеденты. Если узел "Х" не самый высокий в предложении, то перейти к пункту 5;

5) От узла "Х" следовать выше по дереву до первой именной группы и назначить ее узлом "Х", а путь к нему "p";

6) Если путь "р" не проходит через узел, которым управляет "Х", то предположить, что "Х" - это антецедент;

7) Пройти по всем веткам под узлом "Х", каждую именную группу обозначить как потенциальный антецедент;

8) Если "Х" это самый высокий узел, то пройти по всем узлам ниже, кроме тех, что уже были пройдены, и отметить все именные группы как потенциальные антецеденты;

9) Вернуться к 4 пункту.

Утверждается, что этот алгоритм предполагает, что дерево непосредственных составляющих полное и правильное. В таком случае, точность работы алгоритма составляет 88 процентов.

Но, спустя некоторое время, этот алгоритм признали недостаточным, но в то же время большим прорывом для работ того времени.

Первые статистические методы в распознавании анафорических отношений (Mitkov 1999) были применены вместе с традиционными лингвистическими подходами. Модель работала с модулями, которые обращаются к разной информации о тексте: синтаксической, семантической и дискурсивной. Семантический модуль проверял семантическую связанность между антецедентом и анафором, убирал неподходящих кандидатов, исходя из семантики глагола или одушевленности кандидата. Также, есть модуль, который с помощью статистической модели Байеса, предлагает все возможные главные элементы дискурса, тем самым, придавая контекстный вес антецедентам.

Одна из первых работ (Connolly, Burger and Day 1994) по выявлению анафорических связей с помощью машинного обучения ставит эту проблему как проблему классификации. Их алгоритм работает с парой предполагаемых антецедентов и анафоров, тем самым, выбирая из двух кандидатов "лучший". Каждый элемент (два кандидата + анафор) представлялся в виде вектора, в котором каждый атрибут вектора описывает характеристики потенциальных антецедентов и анафоров, а также, информацию о связях между ними.

Таким образом, алгоритм сортирует всех потенциальных кандидатов, берет по два кандидата, выбирает "лучшего", "худший" удаляется из списка кандидатов, а первый ("лучший") сравнивается с другими кандидатами. Далее процесс продолжается, пока не останется только один кандидат, которого система в итоге назовет антецедентом анафору.

Еще одна работа (Aone and Bennet 1996), основанная на машинном обучении, показала очень хорошие результаты, а именно точность алгоритма была почти 90 процентов. В этой системе вектора для обучения создавались для каждого потенциального антецедента и анафора. Вектор включал в себя 66 признаков для обучения, среди которых были лексические, семантические, синтаксические и связанные с позицией анафора и кандидата в тексте.

Можно выделить еще один подход (Mitkov 1998) в распознавании анафорических отношений, а именно "knowledge-poor approach". Суть данного алгоритма в том, что он берет текст после препроцессинга (part-of-speech tagger), определяет именные группы на дистанции в два предложения, проверяет их на согласование по роду и числу и добавляет некоторый показатель, который измеряется следующим образом: все потенциальные антецеденты получают некоторые очки (2,1,0,-1) за определенные характеристики. Характеристики эти включают в себя самые различные (семантические, синтаксические, дискурсные) признаки. В итоге, исходя из суммы эти очков по всем параметрам, система выявляет наиболее вероятного кандидата, согласному тому, что наибольшая сумма означает наибольшую вероятность.

Во всех вышеперечисленных системах можно выделить общую тенденцию в структуре их реализации. Алгоритм состоит из следующих шагов:

1) поиск именных групп (потенциальных антецедентов) 2) анализ пар потенциальный антецедент + анафор по определенным синтаксическим параметрам, определение вероятности того, что пара отображает кореферентную связь. Разница заключается в использовании этих параметров, потому как представлены как rule-based подходы, так и алгоритмы, основанные на машинном обучении. И по результатам работ систем нельзя определенно выявить преимущество одних перед другими.

Помимо такого подхода к машинному обучению, как классификация, при определении анафорических связей использовались и нейронные сети (Clark 2015). Данная система работает не только с местоименными анафорами, но и с именными группами. Алгоритм работает с разными сущностями, которые упоминаются в тексте, и для каждой пары собираются признаки, которые образуют репрезентативные вектора. Один из признаков относится к области дистрибутивной семантики. То есть для каждой сущности строится контекстный вектор, отображающий его контекст, и на основе этих векторов для каждой потенциально кореферентной пары определяется семантическая близость, которая соответствует косинусному коэффициенту между векторами. К этим векторам также добавляются различные позиционные признаки. Контекстные вектора строятся с помощью алгоритма word2vec URL: https: //code. google.com/archive/p/word2vec/. Таким образом, нейронная сеть обучается на большом количестве признаков, среди которых есть те, что относятся к семантике именных групп. Результаты работы системы выдают точность в 77 процентов.

Сама реализация данной системы очень сложна, но главное, что можно отметить, это использование семантической близости, которая достается с помощью контекстных векторов, как обучающего признака. Система реализована для английского языка, но алгоритм word2vec в настоящий момент уже имеет модель, обученную на русских корпусах и распространяющуюся в свободном доступе. Данный алгоритм можно использовать для того, чтобы посчитать семантическую близость контекста местоимения и контекста антецедента. Под контекстом антецедента понимается вся именная группа, а под контекстом местоимения - глагол, управляющий им.

Существует также работа (Kong, Zhou, Qian and Zhu 2010) по изучению вклада признаков, которых можно получить с помощью дерева зависимостей, на алгоритм распознавания анафорических отношений. Эта работа предлагает новую схему для нахождения анафорических связей в синтаксическом дереве.

В работе используется не только синтаксическое дерево зависимостей, но и семантическое. Алгоритм выглядит следующим образом:

1) Сгенерировать полное синтаксическое дерево зависимостей для данного предложения;

2) Убрать все лишнее в дереве, оставив только путь от корня дерева до заданного узла;

3) Извлечь все синтаксические зависимости в предложении, используя синтаксический парсер, и прикрепить к этим зависимостям узлы, которые связаны с заданным узлом, и их путь к корню дерева;

4) Добавить все предикаты узлов по пути от корня до заданного узла и их путь;

5) Извлечь из всех полученных предикатов семантические зависимости с помощью семантического парсера.

Синтаксическая близость узлов измеряется с помощью длин от узлов до корня.

В итоге, для каждой пары антецедент + анафор строится вектор, учитывающий расстояния и дистанции в дереве зависимостей (всего 33 признака). Результат работы системы показал увеличение показателей системы в среднем до 10 процентов, отсюда можно сделать вывод, что те признаки, которые можно получить от синтаксического дерева зависимостей, влияют на алгоритм распознавания анафорических отношений. Но при этом, стоит заметить, что результат работы системы в некотором роде зависит от качества работы синтаксического парсера.

Последние работы по выявлению анафорических отношений в русском языке были представлены на конференции "Диалог" URL: http: //www.dialog-21.ru/ в 2014 году.

В первой работе (Kamenskaya, Khramov and Smirnov 2014) описывается метод разрешения анафорической связи на основе машинного обучения. Для обучения системы используются морфологические, синтаксические и семантические признаки.

Среди который присутствуют:

1) Согласование в роде, числе, падеже и одушевленности;

2) Различные позиционные признаки;

3) Обозначение связей между потенциальным антецедентом и анафором;

4) Семантические роли.

Алгоритм для распознавания анафорических отношений выглядит следующим образом:

1) Найти первого анафора, для которой еще не был найден антецедент;

2) Найти все существительные или местоимения, для которых анафор уже был найден, между анафором и антецедентом. Они должны быть согласованы в роде и числе;

3) Добавить их в гипотетически-возможный список антецедентов;

4) Добавить каждому местоимению в списке категорию семантического класса его антецедента;

5) Посчитать вероятность каждого предполагаемого антецедента, используя метод классификации;

6) Выбрать антецедента с наибольшим показателем вероятности.

В итоге, результаты работы системы с семантическими признаками показали улучшение результатов работы системы без таковых до 6 процентов.

Из данной работы можно взять базовые признаки для машинного обучения. Для семантических признаков нужна дополнительная разметка, которая в задачи настоящего исследования не входит.

Следующая работа (Protopopova et al, 2014), представленная на конференции, тоже направлена на разрешение анафорических отношений с помощью машинного обучения. Ряд признаков для машинного обучения примерно такой же, как и в предыдущей статье (расстояние, согласование), что говорит о том, что эти признаки являются основными в задаче разрешения анафорических отношений. Кроме них, авторы статьи также добавили синтаксические признаки, а именно:

1) Является ли антецедент подлежащим;

2) Является ли анафор подлежащим.

Результаты системы в итоге меньше, чем в других работах, но можно попробовать добавить данные синтаксические признаки в настоящее исследование.

Другая работа (Ionov and Kutuzov 2014), представленная на конференции, аналогично использует метод машинного обучения в задаче разрешения анафорических отношений. Признаки, выбранные авторами статьи, во многом совпадают с предыдущими. Но в данной работе показана шкала важности всех признаков, которая выглядит следующим образом:

1) Дистанция в буквах;

2) Дистанция в словах;

3) Дистанция в группах (кандидатах);

4) Длина группы в буквах;

5) Местоимение;

6) Число, которое показывает, сколько раз встретилось слово в тексте;

7) Падеж кандидата;

8) Тип местоимения;

Кроме машинного обучения авторы статьи разработали систему, работающую только на правилах (rule-based). В итоге самый лучший результат система показала в результате гибридного подхода, т.е. совмещения машинного обучения и правил. Точность составила 65 процентов.

Таким образом, все последние работы выполнены с помощью метода машинного обучения. Признаки для обучения примерно совпадают, но большинство авторов не используют дерево зависимостей в своих системах для русского языка.

В качестве основного метода реализации системы было выбрано машинное обучение с различным набором признаков, потому что с его помощью можно оценить вклад различных признаков в распознавании анафорических связей. Тем самым, можно определить наиболее значимые лингвистические факторы. В качестве основных базовых признаков были выбраны признаки, которые по рассчетам, представленным в работе (Ionov and Kutuzov 2014), имеют наибольший вес. Следует также заметить, что все системы для русского языка по-разному реализовывали задачу извлечения именных групп. Но в настоящей работе будет использован собственный алгоритм для извлечения именных групп с помощью дерева зависимостей (подробности в пункте 2.3.2.).

1.2 Реализация системы

Весь исходный код программ для обработки текстов, извлечения признаков и для просмотра результатов машинного обучения доступен по ссылке в приложении 1. Развернутое описание программы для запуска доступно в readme-файле.

1.2.1 Материалы

В качестве материала для настоящей работы был использован корпус текстов, состоящий из 86 документов. Данный корпус использовался участниками конференции Dialog-2014 (Toldova et al 2014) для тестирования алгоритмов по разрешению анафорических связей.

Тексты разделены на группы, как показано в таблице 1.

Таблица 1.

Название группы

Количество текстов

Fiction

24

Lenta

11

News

20

OpenCorpora

20

Otzyvy

5

PhotoDescr

3

Science

3

Тексты каждой группы различаются по жанрам. Объем каждого текста не превышает четырех тысяч слов. Все тексты обработаны синтаксическим парсером Malt-parserURL: http: //web-corpora.net/wsgi3/ru-syntax/, модель которого была разработана для русского языка (Medyankin and Droganova 2016). Данный парсер вместе с синтаксической информацией также выдает морфологическую информацию. Система, разрабатываемая в настоящей работе, получает на вход непосредственно синтаксически обработанные тексты, оригиналы текстов никак не учитываются.

Благодаря порядковому номеру узла, стоящего выше в дереве, можно построить синтаксическое дерево. Синтаксическое дерево для данного примера выглядит следующим образом (схема 1):

Схема 1.

Для наглядности работы синтаксического парсера, в синтаксическом дереве были обозначены ссылки к другим узлам.

Аннотированный корпус предоставляется в виде двух файлов. В первом - содержатся сами тексты. Тексты разбиты на токены и предложения и обработаны системой TreeTagger (Schmid 1994). Формат представления аналогичен формату. conll: информация о каждом токене, включая знаки препинания, содержится на отдельной строке. Для токена указывается: (1) ID текста, (2) ID токена, (3) токен, (4) смещение - смещение первого символа токена относительно начала текста; (5) длина токена в символах; (7) лемма, (8) грамматический тег. Кореферентные связи содержаться во втором документе, и выглядят следующим образом: все связи разделены по номеру документа; для каждого документа выделены кореферентные цепочки, то есть все именные группы, отображающие одну сущность в дискурсе, объединены в одну группу; каждое слово в группе имеет значение "shift" или сдвиг, которое показывает, на какое количество символов от начала документа стоит каждое слово, что помогает связывать обычный текст и данные цепочки; для каждого элемента также известна часть речи и вид связи; именные группы состоящие из нескольких слов сопровождаются добавочной информацией, указывающей на главное слово (вершину) в группе (указан сдвиг).

1.2.2 Извлечение именных групп

Важным этапом алгоритма разрешения анафорических связей является определение кандидатов для каждого анафора. Эту проблему авторы работ на данную тему для русского языка решали различными способами, разработанными при помощи Tomita-parser/Freeling. Но так как наша система работает с синтаксически обработанными текстами, было решено реализовать извлечение именных групп с помощью синтаксического дерева. Так как синтаксический разбор предложений был дополнен информацией о сдвиге каждого слова (подробнее будет описано далее), то это делало возможным сравнение именных групп - кандидатов с элементами референтных цепочек.

Алгоритм извлечения именных групп следующий:

1) Найти существительное и запомнить его порядковый номер "Х" в предложении

2) Добавить в список все слова в предложении, которые стоят под узлом с номером "Х"

3) Отсортировать список слов согласно правилам (к правилам относятся следующие:

4) 1) если слово глагол, либо прилагательное в сравнительной степени, либо это служебное слово (пунктуация), то алгоритм удаляет исходное слово из списка вместе со всеми зависимыми словами).2) если это предлог, сочинительный союз или существительное, то алгоритм переходит к пункту 2, используя порядковый номер данного слова как "Х".3) в остальных случаях алгоритм прекращает работу)

Возможно, алгоритм может быть дополнен во время проведения тестов и запуске системы для того, что повысить точность системы. Точность и полнота работы алгоритма не замерялась, так как главная цель этого алгоритма - получить вершину именной группы с показателем сдвига (вершиной именной группы может быть любое существительное). При определении границ именных групп возможны ошибки, которые обусловлены, во-первых, неполнотой описанных ограничений в алгоритме, во-вторых, работой синтаксического парсера, который может быть источником ошибок. Во время работы с синтаксически обработанными тексты выяснилось, что парсер может даже неправильно делить на предложения, тем самым, подтверждая тот факт, алгоритм поиска именных групп зависит от точности работы парсера.

Изначально, алгоритм ищет кандидатов на расстоянии 3+1 предложений от местоимения, т.е. три предложения до исходного плюс исходное предложение. Это расстояние превышает те размеры, которые были взяты авторами статей в работах, описанных в пункте 2.2 Поэтому, возможно, в дальнейшем потребуется изменить расстояние для того, чтобы улучшить эффективность алгоритма.

1.2.3 Извлечение признаков

В настоящей работе была использована следующая модель для распознавания анафорических связей. Задача распознавания сводится к задаче классификации. Это означает, что для каждого анафорического выражения алгоритм создает список кандидатов на роль антецедента, целевыми классами являются два класса: пара ИГ, связанная анафорической связью vs. пара, не связанная анафорической связью, т.е. мы имеем два целевых значения: 1-связь есть, 0 - связи нет. Далее в работе, пара двух ИГ потенциальный антецедент + анафорическое местоимение будет называться анафорической, если эта пара принадлежит множеству размеченных в аннотированном корпусе пар. Алгоритмов классификации существует большое количество, поэтому на базовых признаках будут запущены несколько алгоритмов, и тот алгоритм, который покажет наилучшие результаты, будет использован в дальнейшем исследовании влияния синтаксических признаков. Базовые признаки были выбраны на основе работ, в которых описывались системы для разрешения анафорических связей в русском языке.

В качестве базовых признаков в настоящей работе были использованы следующие признаки для обучения:

1) длина именной группы в буквах 2) длина именной группы в словах 3) дистанция между именной группой и местоимением в словах 4) дистанция между именной группой и местоимением в буквах 5) дистанция между именной группой и местоимением в именных группах 6) согласование в числе 7) согласование в роде 8) сколько раз встретилась лемма слова в тексте до местоимения (salience) 9) тип местоимения (personal/relative/reflexive)

Набор признаков практически целиком соответствует набору "самых полезных" признаков из статьи (Ionov and Kutuzov, 2014). Под "самыми полезными" признаками понимаются признаки, которые внесли наибольший вклад в классификацию кореферентных связей. Признаки 1-5 относятся к позиционным, признаки 6-7 относятся к синтаксическим, 8-й признак это, как было уже сказано ранее, контекстный вес, и 9-й признак - морфологический. Все признаки были собраны с помощью собственных скриптов, написанных на Python. На вход подавались только синтаксически обработанные тексты, тексты оригиналов никак не обрабатывались. Для того, чтобы связать словоформы из синтаксического дерева со сдвигом из другого документа, на котором основана разметка анафорических связей, синтаксическая разметка была дополнена информацией о сдвиге. Посчитать сдвиг автоматически, используя длины слов в синтаксическом дереве, так, чтобы этот сдвиг совпадал с разметкой, не удалось, потому как разметка была нанесена на оригинальный текст, в котором присутствовали лишние пробелы, либо дополнительные знаки, которые при обработке в синтаксическом парсере были удалены. Так как реализуются базовые признаки, которые не раз были реализованы в других работах, то ожидаемый результат работы классификаторов составлял от 40 до 60 процентов.

После определения всех базовых признаков стояла задача в соотнесении пар кандидат + анафор с референтными цепочками из документа. Решалась она следующим образом:

1) Поиск анафора в цепочках на основе совпадения сдвигов (после нахождения выдается референтная цепочка).

2) Для каждого кандидата для заданного анафора произведен поиск по вершине группы и сдвигу вершины среди всех элементов референтной цепочки.

3) Если вершина именной группы кандидата совпадает с вершиной элемента в референтной цепочки (совпадает их сдвиг), значит между этим кандидатом и анафором есть кореферентная связь.

Данный алгоритм позволяет решать проблему с возможным несоответствием именных групп, которые были извлечены с помощью собственных алгоритмов, с теми, что были представлены в цепочках.

1.2.4 Сравнение результатов классификаторов

Как уже было описано ранее, в настоящей работе разрешение анафорических связей рассматривается как задача классификации. Для реализации алгоритмов классификации была выбрала библиотека scikit-learn URL: http: //scikit-learn.org/stable/index.html на языке программирования Python. В данной библиотеке представлено большое количество алгоритмов классификации, среди которых были выбраны самые популярные: Логистическая регрессия, Наивный байесовский классификатор, Метод k ближайших соседей, Дерево решений и Метод опорных векторов (SVM). Для начала было решено проверить, какой алгоритм классификации покажет лучший результат на базовых признаках. И в последствии использовать лучший классификатор для изучения влияния синтаксических признаков. Кроме этого, при выделении именных групп - кандидатов, в работе было решено взять дистанцию в три предложения перед предложением с местоимением. Данный промежуток превосходит в длине те промежутки, которые были взяты за основу в алгоритмах для русского языка, описанных в разделе анализа существующих систем. Поэтому было решено проверить, как влияет промежуток на работу классификаторов, а именно, был взят промежуток D1 равный трем предложениям перед исходным, и промежуток D2 равный двум предложениям перед исходным.

После обработки текстов, были получены данные показанные в таблице 2.

Таблица 2.

Дистанция

D1

D2

Положительные вектора

2 367

2 072

Отрицательные вектора

35 028

27 092

Всего

37 395

29 164

Под положительными векторами понимаются вектора, относящиеся к парам антецедент + анафор, которые оказались анафорическими. Число положительных векторов растет при увеличении дистанции потому, что на одной дистанции могут оказаться несколько антецедентов сразу. Распределение на положительные и отрицательные получилось неравномерным, поэтому была взята только часть отрицательных векторов в соотношение 2 к 1 в пользу отрицательных. Тренировочный набор векторов состоит из 70 процентов от всего набора положительных векторов, соответственно тестовый набор - 30 процентов. При проверке дистанции было решено использовать минимальное количество из положительных векторов, т.е. 2072. Таким образом, число отрицательных векторов было равно 4000.

Результаты работы классификаторов представлены в таблице 3.

Таблица 3.

Precision

Recall

F1-score

Логистическая регрессия

D1

0.74

0.39

0.51

D2

0.74

0.38

0.50

Наивный Байес

D1

0.56

0.61

0.58

D2

0.58

0.62

0.60

K ближайших соседей

D1

0.71

0.53

0.61

D2

0.68

0.54

0.60

Дерево решений

D1

0.61

0.52

0.57

D2

0.62

0.56

0.59

Метод опорных векторов

D1

0.76

0.53

0.63

D2

0.82

0.39

0.52

В схеме 2 наглядно показаны результаты работы классификаторов.

Схема 2.

Схема 2 показывает, как влияет дистанция на каждый классификатор. Классификатор "Логистическая регрессия" показывает примерно одинаковые результаты на данных разной длины. "Наивный Байес" чуть лучше справился с задачей классификации, чем предыдущий алгоритм, но в любом случае, изменение данных практически не повлияло на работу классификатора. Метод "k ближайших соседей показал лучший результат на большей дистанции (D1), однако разница в 0.01 не является значимой. Алгоритм "дерево решений" аналогично практически не зависим от дистанции. И наконец "Метод опорных компонент" показал намного более худшие результаты на дистанции в два предложения (разница 0.11).

Анализ данной схемы дает следующие результаты: для всех классификаторов, кроме "метода опорных векторов", увеличение дистанции в среднем практически не влияет на работу классификатора (в среднем означает F1-score, потому как он отражает среднее между Precision и Recall); изменение дистанции в большей степени повлияла на SVM. Если сравнивать классификаторы между собой, то в среднем, они дают приблизительно одинаковые результаты, кроме классификатора "метод опорных векторов". Последний алгоритм показал лучшие результаты на дистанции D1. На основе данной статистики было решено использовать SVM в качестве основного метода классификации, при этом оставив дистанцию D1, то есть три предложения перед исходным с анафором.

1.3 Внедрение синтаксиса

1.3.1 Эксперимент 1 (syntax1)

Синтаксические признаки в настоящей работе извлекаются благодаря синтаксической разметке. Синтаксическая разметка предоставляет следующую информацию:

1) положение в дереве зависимостей, а именно: от какого узла (порядковый номер) зависит данный узел (корневой элемент получает значение "0");

2) тип связи между данным узлом и узлом контролирующим данный.

Благодаря информации о положении в дереве, можно посчитать различные расстояния, к примеру, от корня дерева до узла или до другого узла, эти расстояния подробнее будут описаны позже.

Для начала было решено извлечь все возможные признаки из предложения, в котором находится местоимение, и проверить, как они повлияют на работу классификаторов. К таковым относятся:

1) расстояние от корня до местоимения (глубина местоимения);

2) тип связи местоимения и слова, контролирующего данное слово;

3) отношение глубины местоимения к глубине предложения;

4) количество узлов с той же глубиной;

5) количество запятых в предложении.

Сами по себе признаки никак не связаны с потенциальным антецедентом, отсюда можно сделать вывод, что значительного влияния на работу классификаторов признаки оказать не должны. Эксперимент осуществляется с помощью классификатора SVM. В данном эксперименте был выбран другой тренировочный сет, нежели при сравнении классификаторов, поэтому результаты могут измениться.

Результаты добавления признаков, перечисленных выше, представлены в таблице 4.

Таблица 4.

Precision

Recall

F1-score

Baseline

0.81

0.33

0.47

Baseline + syntax1

0.75

0.42

0.54

Результаты получились в целом лучше, чем дали базовые признаки (F1-score был 0.47, стал 0.54). Хотя предполагалось, что из-за того, что признаки никак не связаны с антецедентом, добавление данного набора не должно было существенно повлиять на работу системы. Однако, как можно заметить из таблицы 4, добавление признаков увеличило качество работы системы на 7 процентов. Можно попробовать изменить некоторые признаки, а именно: связать их с антецедентом для того, чтобы еще увеличить показатели. К примеру, глубину местоимения можно связать с глубиной антецедента, таким образом, получив некоторое позиционное отношение антецедента и анафора.

К тому же, благодаря второму признаку, а именно типу связи местоимения и слова, контролирующего его, удалось получить частотный список типов связей местоимения с его вершиной (т.е. типов пассивных валентностей местоимения). Список представлен в таблице 5.

В таблице 5 количество, указанное во втором столбце не соответствует количеству в основном корпусе текстов, поскольку для каждого местоимения строятся несколько векторов, а данный показатель отражает как раз таки количество связей в тренировочном корпусе.

Но соотношение между количеством связей в оригинальных текстах и количеством в тренировочном корпусе должно совпадать.

Данная статистика из таблицы 5 может помочь улучшить сам признак типа связей следующим образом: анализ диаграммы 1 показывает, что основное распределение синтаксических отношений (95%) основано на первых шести признаках (предик, опред, предл, 1-компл, квазиангет, 2-компл), а значит, что можно закодировать перечисленные типы связей под отдельными номерами, остальные же объединить в один нулевой тип, тем самым, уменьшить количество возможных вариантов признака.

Таким образом, получится 6 типов связи и одна общая группа.

Таблица 5.

Тип связи

Количество в корпусе

предик

9880

опред

4470

предл

4429

1-компл

4196

квазиагент

3416

2-компл

1388

атриб

357

неакт-компл

224

вспом

199

агент

175

дат-субъект

172

ROOT

124

соч-союзн

46

сент-соч

26

обст

25

суб-копр

20

сравнит

17

Оставшиеся синтаксические отношения:

1) предик: Предикативное отношение связывает сказуемое X в качестве хозяина с подлежащим Y в качестве слуги;

2) опред: Х - существительное или прилагательное, Y - прилагательное или причастие. Обычно Y согласуется с X по роду, числу, падежу и одушевленности;

3) предл: Х - предлог, Y - именная группа, зависящая от предлога;

4) 1-компл, 2-компл: Эти синтаксические отношения связывают предикатное слово (глагол, существительное, прилагательное или наречие) с его (не первыми) синтаксическими актантами, а именно: 1-ое комплетивное синтаксическое отношение связывает слово с его вторым актантом, 2-е комплетивное - с 3-им актантом;

5) квазиагент: X - предикатное существительное, Y - слово, реализующее первую синтаксическую валентность этого слова, т.е. указывающее на его субъект.

Объединив девять синтаксических отношений, удалось увеличить показатели классификатора:

Таблица 4.

Precision

Recall

F1-score

Baseline

0.81

0.33

0.47

Baseline + syntax1

0.75

0.42

0.54

Baseline + syntax1 (1/5) fixed

0.76

0.43

0.55

После объединения синтаксических отношений в специальные группы удалось увеличить результаты работы классификаторов на 0.01. Возможно, уменьшение количества вариантов данного признака (тип синтаксической связи) добавит еще немного к качеству работы классификатора, но было решено оставить группы в таком количестве, потому что они все являются значимыми (согласно информации из таблицы 5) для анафорических отношений, так что данный признак сможет значительнее повлиять на работу классификатора только при увеличении тренировочного набора векторов, т.е. при большем количестве документов с размеченными кореферентными связями.

1.3.2 Эксперимент 2 (syntax2)

Поскольку предыдущий эксперимент оказался успешным, внедрение следующих признаков будет независимым, то есть все признаки, которые уже были использованы, останутся, а к ним будут добавлены новые, а именно:

1) тип синтаксической связи антецедента со словом, его контролирующим;

2) глубина антецедента (расстояние от антецедента до корня в дереве).

Однако глубину антецедента и анафора в дереве можно объединить, то есть из этой комбинации можно получить два признака:

3) разница уровней в дереве (уровень антецедента vs уровень местоимения);

4) расстояние от анафора до антецедента.

Последний признак можно посчитать, только если анафор и потенциальный антецедент находятся в одном предложении. Для тех кандидатов, которые расположены в других предложения (т.е. не в том, где анафор), было решено добавить коэффициент, который отражал бы разницу в предложениях. То есть, к примеру, если взять коэффициент "+100" для каждого предложения получатся следующие результаты: данный признак в первом предложении должен выдавать значения от 0 до 100, то есть предполагается, что максимальная длина от антецедента до анафора в одном предложении не должна превышать 100; тогда во втором предложении данный признак будет получать значения от 100 до 200 и т.д. Алгоритм поиска расстояния от анафора до антецедента в одном предложении следующий:

1) для анафора и антецедента получить список из узлов от анафора/антецедента до корня;

2) посчитать путь до общего узла для антецедента и анафора (первый узел, встретившийся в двух списках сразу);

3) сложить полученные пути и вычесть 1.

Ожидается, что четыре новых признака повысят результаты работы алгоритма, потому как они добавляют характеристики антецедента, которых ранее не было.

Аналогично таблице о типах синтаксических отношений для анафора была подсчитана такая же статистика и для антецедентов. Поскольку таблица слишком большая, она доступна в приложении 2. Однако можно рассмотреть диаграмму распределения, она представлена в диаграмме 2.

Из диаграммы 2 видно, что основное распределение идет на следующие отношения: предл, 1-компл, предик, квазиагент, соч-союзн, аппоз). Аналогично методу, примененному в первом эксперименте, было решено закодировать самые частотные отдельными номерами, а остальные оставшиеся нулевым.

Неописанные синтаксические отношения, вошедшие в список самых частотных:

1) соч-союзн: Х - сочинительный союз, Y - вершина второго из однородных членов или предложений;

2) аппоз: Х - существительное, Y - следующее за ним приложение. Обычно X и Y согласованы по падежу и числу.

Результаты работы классификатора с новым алгоритмом представлены в таблице 5.

Таблица 5.

Precision

Recall

F1-score

Baseline

0.81

0.33

0.47

Baseline + syntax1

0.75

0.42

0.54

Baseline + syntax1 (1/5) fixed

0.76

0.43

0.55

Baseline + syntax1 fixed + syntax2

0.78

0.46

0.58

Добавление новых четырех признаков улучшило показатели классификатора на 0.03 (F1-score был 0.55, стал 0.58). Это говорит о том, что синтаксические отношения связывающие антецедент с анафором (расстояние, отношение уровней), положительно влияют на работу системы.

1.3.3 Эксперимент 3 (syntax3)

В предыдущих двух экспериментах были рассмотрены девять признаков, определяющих связь между анафорическим выражением и потенциальным антецедентом, которые удалось извлечь из синтаксического анализа текстов. Каждый из этих признаков напрямую связан либо с анафором, либо с антецедентом, либо с отношением этих признаков. В целом, признаки показали хорошие результаты (увеличение F1-score на 11 процентов).

Однако из синтаксических отношений между узлами в дереве, можно извлечь дополнительную информацию, кроме той, что уже была извлечена (тип отношения антецедента и анафора с контролирующим узлом). Между корнем и каждым узлом может быть определенная последовательность синтаксических связей, которая способна влиять на возможность анафорической связи между узлами. Оказывать влияние способна не последовательность, а непосредственно тип синтаксической связи, которая может быть характерна пути между антецедентом и корнем.

Таким образом, третий эксперимент предполагает изучение частотности синтаксических связей узлов, расположенных от узла с антецедентом до корня синтаксического дерева для того, чтобы перевести наиболее частотные синтаксические отношения в признаки для классификации. Хотя синтаксические связи антецедента извлекались для всех кандидатов, данные связи будут извлекаться не со всех потенциальных антецедентов, а только с тех, которые входят в кореферентную цепочку, для того, чтобы не предоставлять классификатору много лишней информации.

Таблица с синтаксическими отношениями и их количеством находится в приложении 3. Проанализировать таблицу можно с помощью диаграммы 3, которая представлена ниже.

Из диаграммы видно, что два самых больших блока это "предик" и "1-й компл". Далее, такие синтаксические отношения, как "предл", "соч-союзн", "сочин", "сент-соч", "подч-союзн", "квазиагент" и "обст", образуют следующий кластер отношений (позже второй кластер), согласно их примерной доли среди остальных отношений. Все оставшиеся отношения можно отнести в третий кластер.

Теперь необходимо сделать из этих кластеров признаки для обучения. Во-первых, данные признаки могут быть представлены как и по одиночке, так и вместе в некоторой комбинации, поэтому необходимо создать как минимум два признака. Во-вторых, эти признаки должны учитывать как самые большие кластеры, так и самые маленькие разделения, так как все они отражают отношения между корнем и антецедентом-референтом, поэтому было решено составить признаки для классификатора следующим образом:

1) Есть ли в списке отношений "предик"?

2) Есть ли в списке отношений "1-компл"?

3) Есть ли в списке отношений второй кластер?

4) Есть ли в списке отношений четвертый кластер?

После проведения последнего эксперимента (syntax3) были получены результаты, представленные в таблице 6.

Таблица 6.

Precision

Recall

F1-score

Baseline

0.81

0.33

0.47

Baseline + syntax1

0.75

0.42

0.54

Baseline + syntax1 (1/5) fixed

0.76

0.43

0.55

Baseline + syntax1 fixed + syntax2

0.78

0.46

0.58

Baseline + syntax1 fixed + syntax2 + syntax3

0.76

0.48

0.59

Добавление последних четырех признаков не значительно повлияло на работу классификатора, прирост F1-score всего в 1 процент. В данном случае нельзя уверенно сказать, что признаки, представленные в 4-м эксперименте положительно влияют на работу, однако, возможно, в том случае, если корпус текстов вырастет в несколько раз, то и признаки и значение признаков для классификатора возрастет.

Одной из возможных причин, почему предложенный в третьем эксперименте набор признаков не дал значительных результатов, может быть и тот факт, что распределение синтаксических отношений вне референтных цепочек может совпадать с распределением внутри цепочки. Для того, чтобы проверить данную теорию, была собрана статистика таких связей (связь между корнем и антецедентом, который в итоге не является анафорическим элементом), представленная в таблице в приложении 4. Информацию с таблицы можно проанализировать наглядно с помощью диаграммы 4.

Анализ диаграммы показывает, что три самых больших блока ("1-компл", "предл", "предик") совпадают с распределением в референтной цепочке, однако немного в другом порядке. То же самое касается "второго кластера" ("обст", "сочин", "соч-союзн", "сент-соч", "подч-союзн", "квазиагент"), выделенного в референтных цепочках, он аналогично представлен тем же составом, но немного в другом порядке. Это подтверждает тот факт, что распределения примерно одинаковые. Однако, в добавок к этому, можно заметить, что количество разных отношений в референтных цепочках меньше, чем не в референтных, на 11 отношений. Это говорит о том, что если встретятся такие отношения, которые не представлены в референтных цепочках, то система должна отличать эти отношения, как отношения, не связанные с референтностью. Возможно, именно это связь и добавила один процент к результатам работы системы.
...

Страница:

1
2

дипломная работа "Исследование вклада синтаксических признаков в распознавание анафоричесних отношений" скачать

Подобные документы

Синтаксические связи и средства выражения синтаксических отношений во французском языке
Анализ синтаксических связей и синтаксических отношений во французском языке. Структурно-семантические типы синтаксических связей, их функции. Средства выражения синтаксических отношений на примере отрывка из романа Теофиля Готье "Le Capitaine Fracasse".

курсовая работа [32,4 K], добавлен 17.05.2009

Способы маркирования отношений в именной группе в грузинском и турецком языках
сопоставительный анализ Эти два языка принадлежат к различным языковым семьям. Структура именнных групп в рассматриваемых языках в значительной степени изоморфна. Системы кодирования отношений внутри именной группы характеризуются двумя принципами, общими

реферат [7,4 K], добавлен 11.05.2002

Проблема нормы в разговорном стиле
Понятие разговорного стиля. Особенности и нормы разговорной речи. Проблема фонетических норм в разговоре, употребления нейтральной лексики, падежных форм, а также глагольных. Отсутствие синтаксических связей между словами, использование интонации.

презентация [642,7 K], добавлен 06.12.2015

Словарная система русского языка
Слово как одна из основных единиц языка, его роль и специфика взаимодействия друг с другом. Анализ различных связей между словами. Понятие лексикологии как науки о словарном составе языка, особенности ее разделов: семасиологии, этимологии, лексикографии.

реферат [13,8 K], добавлен 25.12.2010

Приемы работы со словарными словами на уроках русского языка
Основы развития словарной работы. Работа со словарными словами при помощи мнемосистемы "связей". Развитие орфографической грамотности обучающихся. Этимологический анализ слова как прием работы со словарными словами. Изучение безударных гласных.

курсовая работа [42,9 K], добавлен 21.08.2011

Анализ антонимических отношений в подъязыке математики английского языка
Категория противоположности и антонимы как средство ее выражения. Условия актуализации антонимических отношений. Особенности подъязыка математики. Экспрессивность и образность в научном стиле английского языка. Антонимия в математическом тексте.

дипломная работа [212,2 K], добавлен 05.09.2009

Стилистика русского языка
Смысловое и стилистическое сходство и различие между словами с помощью словарей русского языка. Нарушение языковых норм в речевой структуре. Функциональный стиль, реализованный в тексте. Служебный документ, относящийся к группе распорядительных.

контрольная работа [15,5 K], добавлен 18.12.2009

Феноменологическая характеристика анекдота как типа текста
Описание комплекса сущностных признаков текста анекдота. Выделение группы признаков, онтологически связанных с комической природой анекдота, с его отнесенностью к фольклорным жанрам. Анализ глубинных связей между признаками анекдота внутри каждой группы.

статья [22,4 K], добавлен 10.09.2013

Семантика синтаксических связей при переводе
Понятие семантики как раздела языкознания. Сущность, функции и типы синтаксических связей. Проблема эквивалентности в переводе. Взаимодействие типов синтаксической связи при переводе. Синтаксические преобразования на уровне словосочетаний и предложений.

курсовая работа [111,3 K], добавлен 09.04.2011

Интертекстуальные связи в художественном тексте (на материале творчества Л. Филатова)
Проблема изучения интертекста в художественном тексте. Типология интертекстуальных элементов и связей. Особенности анализа произведений Л. Филатова в аспекте интертекстуальных связей. Интертектуальность и ее основные функции в художественном тексте.

научная работа [60,4 K], добавлен 01.04.2010

Текстовые нормы официально-делового стиля русского языка
Исследование системы норм литературного русского языка. Обзор морфологических, синтаксических и стилистических признаков официально-деловой речи. Анализ особенностей дипломатического, законодательного и административно-канцелярского стилей деловой речи.

реферат [34,6 K], добавлен 22.06.2012

Синтаксический стилистический повтор как средство изобразительности в художественном тексте
Специфика синтаксических стилистических приемов как средства изобразительности. Синтаксические стилистические средства в художественном тексте. Основные функции синтаксических повторов в произведениях английской и американской художественной литературы.

дипломная работа [51,9 K], добавлен 23.06.2009

Определительные отношения в современной публицистике (на примере анализа сборника Татьяны Толстой "День")
Роль определительных отношений в системе синтаксических связей русского языка. Особенности функционирования конструкций, выражающих определительные отношения в современной публицистике. Условия использования конструкций в сборнике Т. Толстой "День".

курсовая работа [54,7 K], добавлен 10.02.2016

Документационная грамотность общества, обусловленная прочностью закрепления характерных признаков документов в сознании носителей языка
Исследование языковых норм деловой письменной речи. Анализ лексико-фразеологических, морфологических, синтаксических особенностей функционального стиля. Правила композиции документа и связности текста. Особенности фразеологии в деловой коммуникации.

реферат [79,6 K], добавлен 26.12.2010

Изучение анафорических выражений
Понятие лингвистики связного текста. Теория связывания, механизм связности как основной текстообразующий фактор. Факторы, влияющие на выбор анафорических средств, степень активации референта в памяти человека. Типологии анафоры и виды антецедентов.

дипломная работа [93,0 K], добавлен 02.03.2011

Слово "вкрадчивый" в словаре и в тексте
Прослеживание употребления слова "вкрадчивый" в тексте и в словарях русского языка. Анализ статистики употребления слова "вкрадчивый" в Национальном корпусе русского языка и приведение примеров его употребления. Определение значения слова в тексте.

творческая работа [67,1 K], добавлен 08.04.2018

Особенности именной группы в финском языке
Основные аспекты именного словоизменения. Первичные и вторичные падежные формы. Числовые формы. Притяжательные формы. Отсутствие родовых форм. Степени сравнения. Анализ именного словообразования. Первичные отыменные имена. Вторичные отыменные имена.

курсовая работа [61,2 K], добавлен 08.02.2009

Сослагательное наклонение в английском языке
Определение роли и места конъюнктива, сослагательного, изъявительного наклонений в системе современного английского языка: характеристика, образование форм, значение, употребление и распознавание в грамматических конструкциях различных типов предложений.

курсовая работа [46,0 K], добавлен 13.03.2011

Отличия естественного и искусственного языка
Понятие и характеристики знаковой системы. Репрезентативная и коммуникативная функции естественного языка. Роль его формализации в научном познании и логике. Основные семантические категории искусственного языка, уровни его организации, сфера применения.

реферат [26,3 K], добавлен 28.11.2014

Заимствованная лексика в русском языке на примере слов, обозначающих предметы одежды
Выявление основных признаков иноязычных слов. История распространения модных английских, французских и тюркских терминов, обозначающих предметы одежды в русском языке. Классификация заимствованных лексических единиц по степени их освоенности в языке.

курсовая работа [50,0 K], добавлен 20.04.2011

Другие документы, подобные "Исследование вклада синтаксических признаков в распознавание анафоричесних отношений"

главная

рубрики

по алфавиту

вернуться в начало страницы

вернуться к началу текста

вернуться к подобным работам

Рубрики

По алфавиту

Закачать файл

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.

Название группы	Количество текстов
Fiction	24
Lenta	11
News	20
OpenCorpora	20
Otzyvy	5
PhotoDescr	3
Science	3

Дистанция	D1	D2
Положительные вектора	2 367	2 072
Отрицательные вектора	35 028	27 092
Всего	37 395	29 164

	Precision	Recall	F1-score
Логистическая регрессия	D1	0.74	0.39	0.51
	D2	0.74	0.38	0.50
Наивный Байес	D1	0.56	0.61	0.58
	D2	0.58	0.62	0.60
K ближайших соседей	D1	0.71	0.53	0.61
	D2	0.68	0.54	0.60
Дерево решений	D1	0.61	0.52	0.57
	D2	0.62	0.56	0.59
Метод опорных векторов	D1	0.76	0.53	0.63
	D2	0.82	0.39	0.52

Тип связи	Количество в корпусе
предик	9880
опред	4470
предл	4429
1-компл	4196
квазиагент	3416
2-компл	1388
атриб	357
неакт-компл	224
вспом	199
агент	175
дат-субъект	172
ROOT	124
соч-союзн	46
сент-соч	26
обст	25
суб-копр	20
сравнит	17

Исследование вклада синтаксических признаков в распознавание анафоричесних отношений

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

1. Введение

Чтобы продемонстрировать основную задачу распознавания анафорических отношений, я приведу следующий пример:

(1) Маруся долго перелистывала русскую газету. Она внимательно читала объявления.

1) Нахождение всех потенциальных антецедентов на определенном диапазоне перед анафором;

2) Определение наиболее вероятного кандидата.

Для достижения цели требуется решить несколько задач:

1) Изучить существующие алгоритмы распознавания анафорических отношений для русского и других языков;

2) Подготовить материалы для системы (корпус текстов);

3) Определить метод работы системы и основные параметры;

4) Получить результаты работы базовой системы;

5) Провести эксперименты с синтаксическими параметрами;

6) Проанализировать влияние синтаксических признаков на результаты работы системы.

1. Основная часть

1.1 Терминология

В компьютерной лингвистике при изучении анафорических отношений выделяют три типа анафоры, представленные в работе (Mitkov 1999: 2):

· Местоименная анафора

(2а) Computational Linguists from many different countries attended the tutorial. They took extensive notes.

`Компьютерные лингвисты из разных стран посетили консультацию. Они делали подробные конспекты. ' (Пример из [Mitkov 1999: 2])

· Анафора именных групп

(2б) Computational Linguists from many different countries attended the tutorial. The participants found it hard to cope with the speed of the presentation.

`Компьютерные лингвисты из разных стран посетили консультацию. Участники не успевали за темпом презентации' (Пример из [Mitkov 1999: 2])

· "One-anaphora"

(2в) If you cannot attend a tutorial in the morning, you can go for an afternoon one.

`Если у Вас не получается посетить консультацию утром, можете посетить вечернее занятие' (Пример из [Mitkov 1999: 3])

1.2 Анализ существующих систем

В работе (Mitkov 1999: 4) выделены основные ограничения на анафорическую связь:

· Согласование в роде и числе

· Ограничения в синтаксическом управлении

o Именная группа не может быть связана кореферентной связью с именной группой, которой она управляет

(3а) He told them about John.

`Он рассказал им о Джоне' [пример из (Mitkov 1999: 4)]

o Антецедент рефлексива (reflexive pronoun) должен быть в одной клаузе с местоимением

(3б) John likes pictures of himself.

`Джону нравится картина с ним. ' [пример из (Mitkov 1999: 4)]

o Личные местоимения не могут быть связаны кореферентной связью с именной группой в той же клаузе

(3в) John told Bill about him.

`Джон рассказал Биллу о нем. ' [пример из (Mitkov 1999: 4)]

· Семантическая связанность (семантические характеристики антецедента должны совпадать с семантическими характеристиками анафора)

(4) Джон поставил стакан на блюдо и разбил его.

В работе (Jurafsky and Martin 1999: 678) описывается алгоритм, который в некоторой степени обобщает все, ему предшествующие:

1) Собрать всех потенциальных референтов (на расстоянии одного предложения);

2) Убрать потенциальных референтов, которые не согласуются в роде и числе с местоимением;

3) Убрать референтов, которые нарушают синтаксические ограничения

4) Посчитать контекстный вес каждого референта;

5) Выбрать референта с наибольшим контекстным весом (если нет такого, то выбрать ближайшего референта).

Данный алгоритм никак не рассматривает синтаксические зависимости в дереве.

В этой же работе описывается "A Tree Search Algorithm" (Hobbs 1978), который работает с синтаксическими представлениями предложений. Шаги в этом алгоритме следующие:

1) Начинать с именной группы, которая доминирует над местоимением;

2) Идти выше по дереву до первой именной группы или начала предложения и назвать этот узел "Х", а путь к нему "p";

3) Пройти по всем веткам ниже "Х" слева направо от пути "p" и пометить все встретившиеся именные группы как потенциальные антецеденты;

5) От узла "Х" следовать выше по дереву до первой именной группы и назначить ее узлом "Х", а путь к нему "p";

6) Если путь "р" не проходит через узел, которым управляет "Х", то предположить, что "Х" - это антецедент;

7) Пройти по всем веткам под узлом "Х", каждую именную группу обозначить как потенциальный антецедент;

8) Если "Х" это самый высокий узел, то пройти по всем узлам ниже, кроме тех, что уже были пройдены, и отметить все именные группы как потенциальные антецеденты;

9) Вернуться к 4 пункту.

Но, спустя некоторое время, этот алгоритм признали недостаточным, но в то же время большим прорывом для работ того времени.

Во всех вышеперечисленных системах можно выделить общую тенденцию в структуре их реализации. Алгоритм состоит из следующих шагов:

В работе используется не только синтаксическое дерево зависимостей, но и семантическое. Алгоритм выглядит следующим образом:

1) Сгенерировать полное синтаксическое дерево зависимостей для данного предложения;

2) Убрать все лишнее в дереве, оставив только путь от корня дерева до заданного узла;

4) Добавить все предикаты узлов по пути от корня до заданного узла и их путь;

5) Извлечь из всех полученных предикатов семантические зависимости с помощью семантического парсера.

Синтаксическая близость узлов измеряется с помощью длин от узлов до корня.

Последние работы по выявлению анафорических отношений в русском языке были представлены на конференции "Диалог" URL: http: //www.dialog-21.ru/ в 2014 году.

Среди который присутствуют:

1) Согласование в роде, числе, падеже и одушевленности;

2) Различные позиционные признаки;

3) Обозначение связей между потенциальным антецедентом и анафором;

4) Семантические роли.

Алгоритм для распознавания анафорических отношений выглядит следующим образом:

1) Найти первого анафора, для которой еще не был найден антецедент;

2) Найти все существительные или местоимения, для которых анафор уже был найден, между анафором и антецедентом. Они должны быть согласованы в роде и числе;

3) Добавить их в гипотетически-возможный список антецедентов;

4) Добавить каждому местоимению в списке категорию семантического класса его антецедента;

5) Посчитать вероятность каждого предполагаемого антецедента, используя метод классификации;

6) Выбрать антецедента с наибольшим показателем вероятности.

В итоге, результаты работы системы с семантическими признаками показали улучшение результатов работы системы без таковых до 6 процентов.

1) Является ли антецедент подлежащим;