Исследование вклада синтаксических признаков в распознавание анафоричесних отношений

Распознавание кореферентных (отношений между словами в тексте, обозначающих одинаковую информацию) и анафорических связей (отношение именной группы к другому слову) как проблема обработки естественного языка. Анализ существующих систем, их реализация.

Рубрика Иностранные языки и языкознание
Вид дипломная работа
Язык русский
Дата добавления 30.08.2016
Размер файла 320,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Заключение

В настоящей работе была реализована система распознавания анафорических отношений на основе синтаксически разобранных текстов, которая включает в себя собственный алгоритм для извлечения именных групп. Сначала были реализованы базовые признаки для обучения и был обучен классификатор SVM. Далее с помощью трех экспериментов были введены также и синтаксические признаки в алгоритм классификации.

В работе были использованы следующие синтаксические признаки:

1) расстояние от корня до местоимения (глубина местоимения);

2) тип связи местоимения и слова, контролирующего данное слово;

3) отношение глубины местоимения к глубине предложения;

4) количество узлов с той же глубиной;

5) количество запятых в предложении;

6) расстояние от анафора до антецедента;

7) разница уровней в дереве (уровень антецедента vs уровень местоимения);

8) тип синтаксической связи антецедента со словом, его контролирующим;

9) Есть ли в списке отношений "предик"?

10) Есть ли в списке отношений "1-компл"?

11) Есть ли в списке отношений второй кластер синтаксических отношений?

12) Есть ли в списке отношений четвертый кластер синтаксических отношений?

Последние четыре признака проверяют наличие определенных типов отношений на расстоянии от узла с антецедентом и корнем дерева. Первая группа (1-5) - это признаки, относящееся только к анафору. Вторая группа (6-7) - это признаки, связывающие анафора и антецедент. Третья группа (8-12) - это признаки, относящиеся к антецеденту. Первые две группы улучшили алгоритм на 8 и 3 процента соответственно. Последняя группа показала незначительное улучшение результатов работы алгоритмов, потому как распределение типов синтаксических отношений вне анафорических связей совпадает с распределением внутри.

В целом, удалось увеличить показатели работы классификатора на 12 процентов, что говорит о том, что признаки, которые удалось извлечь с помощью синтаксического парсера, имеют значительное влияние на алгоритм работы системы по разрешению анафорических отношений.

Список использованных источников и литературы

1. Sharoff and Nivre 2011 - S. Sharoff and J. Nivre. The proper place of men and machines in language technology: Processing Russian without any linguistic knowledge. Dialog 2011. (электронный документ) http://corpus. leeds. ac. uk/serge/publications/2011-dialog. pdf. 2011.

2. Jurafsky and Martin 1999 - D. Jurafsky and J. H. Martin. Speech and Language processing // Library of Congress Cataloging-in-Publication Data, 1999. P.665-689.

3. Mitkov 1999 - R. Mitkov. ANAPHORA RESOLUTION: THE STATE OF THE ART (электронный документ) http://rgcl. wlv. ac. uk/papers/mitkov-99a. pdf. 1999.

4. Hobbs 1978 - J. R. Hobbs. RESOLVING PRONOUN REFERENCES (электронный документ) http://www.isi.edu/~hobbs/ResolvingPronounReferences. pdf. 1978.

5. Aone and Bennet 1996 - C. Aone and S. W. Bennet. Applying machine learning to anaphora resolution. // S. Wermter (ed). Connectionist, statistical and symbolyc approaches to learning for Natural Language Processing. Berlin: Springer. 1996. P.302-314.

6. Mitkov 1998 - R. Mitkov. Robust pronoun resolution with limited knowledge. (электронный документ) http://www.aclweb.org/anthology/C98-2138. 1998.

7. Clark 2015 - K. Clark. Neural Coreference Resolution. // Stanford report. (электронный документ) https: // cs224d. stanford.edu/reports/ClarkKevin. pdf. 2015

8. Connolly, Burger and Day 1994 - D. Connoly, J. D. Burger and D. S. Day. A Machine learning approach to anaphoric reference. // Proceedings of the International Conference "New Methods in Language Processing”, 1994. P.255-261.

9. Kong, Zhou, Qian and Zhu 2010 - F. Kong, G. Zhou, L. Qian, Q. Zhu. Dependency-driven Anaphoricity Determination for Coreference Resolution (электронный документ) http://www.aclweb.org/anthology/C10-1068. 2010

10. Kamenskaya, Khramoin and Smirnov 2014 - M. A. Kamenskaya, I. V. Khramoin, I. V. Smirnov. Data-driven Methods for Anaphora Resolution of Russian Texts. Dialog 2014. (электронный документ) http://www.dialog-21.ru/digests/dialog2014/materials/pdf/Kamenskaya%D0%9C%D0%90. pdf. 2014

11. Protopopova et al, 2014 - E. V. Protopopova, A. A. Bodrova, S. A. Volskaya, I. V. Krylova, A. S. Chuchunkov, S. V. Alexeeva, V. V. Bocharov, D. V. Granovsky. Anaphoric Annotation and Corpus-based Anaphora Resolution: an Experiment. Dialog 2014. (электронный документ) http://www.dialog-21.ru/digests/dialog2014/materials/pdf/ProtopopovaEV. pdf. 2014.

12. Ionov and Kutuzov 2014 - M. Ionov and A. Kutuzov. The Impact of Morphology Processing Quality on Automated Anaphora Resolution for Russian. Dialog 2014. (электронный документ) http://www.dialog-21.ru/digests/dialog2014/materials/pdf/IonovMKutuzovA. pdf. 2014.

13. Toldova et al 2014 - S. Toldova, A. Roytberg, A. Ladygina, M. D. Vasilyeva, I. L. Azerkovich, M. Kurzukov, G. Sim, D. V. Gorshkov, A. Ivanova, A. Nedoluzhko, Y. Grishina.ru-EVAL-2014: EVALUATING ANAPHORA AND COREFERENCE RESOLUTION FOR RUSSIAN. Dialog 2014. (электронный документ) http://www.dialog-21.ru/digests/dialog2014/materials/pdf/ToldovaSJu. pdf. 2014.

14. Medyankin and Droganova 2016 - N. Medyankin and K. Droganova. Building NLP Pipeline for Russian with a Handful of Linguistic Knowledge. (электронный документ) http://web-corpora.net/wsgi3/ru-syntax/static/downloads/Medyankin_Droganova_CLLS_2016. pdf. 2016.

15. Schmid 1994 - H. Schmid. Probablistic Part-of-Speech Tagging Using Decision Trees. (электронный документ) http://www.cis. uni-muenchen. de/~schmid/tools/TreeTagger/data/tree-tagger1. pdf. 1994.

Приложения

Приложение 1

СинтО

N

%

предл

11709

31,31%

1-компл

7968

21,31%

предик

6526

17,45%

квазиагент

3566

9,54%

соч-союзн

1591

4,25%

аппоз

1261

3,37%

ROOT

699

1,87%

сочин

650

1,74%

2-компл

580

1,55%

атриб

542

1,45%

обст

467

1,25%

сравн-союзн

319

0,85%

присвяз

312

0,83%

разъяснит

222

0,59%

агент

131

0,35%

вводн

112

0,30%

об-аппоз

105

0,28%

длительн

98

0,26%

подч-союзн

93

0,25%

сент-соч

86

0,23%

сравнит

76

0, 20%

примыкат

70

0, 19%

дат-субъект

48

0,13%

огранич

32

0,09%

пролепт

26

0,07%

неакт-компл

23

0,06%

компл-аппоз

15

0,04%

3-компл

12

0,03%

эллипт

10

0,03%

опред

8

0,02%

релят

6

0,02%

нум-аппоз

6

0,02%

1-несобст-компл

5

0,01%

4-компл

5

0,01%

PUNC

4

0,01%

аналит

3

0,01%

колич-копред

3

0,01%

суб-копр

3

0,01%

обст-тавт

2

0,01%

об-копр

1

0,00%

ВСЕГО:

37395

100%

Приложение 2

Синтаксическое отношение

количество

%

предик

1417

23,28%

1-компл

1027

16,87%

предл

594

9,76%

соч-союзн

434

7,13%

сочин

396

6,51%

сент-соч

346

5,69%

подч-союзн

295

4,85%

квазиагент

282

4,63%

обст

279

4,58%

2-компл

162

2,66%

разъяснит

104

1,71%

атриб

94

1,54%

вводн

82

1,35%

присвяз

81

1,33%

релят

79

1,30%

эксплет

60

0,99%

опред

55

0,90%

аппоз

47

0,77%

сравн-союзн

42

0,69%

об-аппоз

37

0,61%

3-компл

34

0,56%

сравнит

19

0,31%

аналит

17

0,28%

оп-опред

13

0,21%

инф-союзн

13

0,21%

примыкат

12

0, 20%

электив

9

0,15%

агент

9

0,15%

огранич

9

0,15%

длительн

6

0,10%

пролепт

6

0,10%

пасс-анал

5

0,08%

изъясн

5

0,08%

эллипт

4

0,07%

уточн

3

0,05%

1-несобст-компл

2

0,03%

дат-субъект

2

0,03%

неакт-компл

2

0,03%

ном-аппоз

1

0,02%

соотнос

1

0,02%

4-компл

1

0,02%

Приложение 3

СинтО

N

%

1-компл

25846

18,95%

предл

21080

15,45%

предик

12820

9,40%

обст

10992

8,06%

сочин

10572

7,75%

соч-союзн

9529

6,99%

сент-соч

7962

5,84%

подч-союзн

5638

4,13%

квазиагент

5336

3,91%

2-компл

4248

3,11%

атриб

3992

2,93%

релят

2531

1,86%

разъяснит

2463

1,81%

опред

1808

1,33%

эксплет

1723

1,26%

аппоз

1511

1,11%

присвяз

1215

0,89%

сравн-союзн

1084

0,79%

вводн

997

0,73%

сравнит

812

0,60%

инф-союзн

577

0,42%

3-компл

572

0,42%

пасс-анал

420

0,31%

аналит

316

0,23%

огранич

293

0,21%

агент

266

0, 20%

примыкат

236

0,17%

длительн

225

0,16%

изъясн

216

0,16%

электив

210

0,15%

об-аппоз

198

0,15%

уточн

127

0,09%

оп-опред

123

0,09%

пролепт

107

0,08%

дат-субъект

51

0,04%

распред

45

0,03%

неакт-компл

38

0,03%

4-компл

35

0,03%

эллипт

30

0,02%

соотнос

24

0,02%

суб-копр

23

0,02%

компл-аппоз

20

0,01%

1-несобст-компл

19

0,01%

об-копр

15

0,01%

ном-аппоз

13

0,01%

количест

12

0,01%

колич-огран

11

0,01%

вспом

9

0,01%

нум-аппоз

8

0,01%

PUNC

4

0,00%

колич-копред

3

0,00%

обст-тавт

2

0,00%

Размещено на Allbest.ru

...

Подобные документы

  • Анализ синтаксических связей и синтаксических отношений во французском языке. Структурно-семантические типы синтаксических связей, их функции. Средства выражения синтаксических отношений на примере отрывка из романа Теофиля Готье "Le Capitaine Fracasse".

    курсовая работа [32,4 K], добавлен 17.05.2009

  • сопоставительный анализ Эти два языка принадлежат к различным языковым семьям. Структура именнных групп в рассматриваемых языках в значительной степени изоморфна. Системы кодирования отношений внутри именной группы характеризуются двумя принципами, общими

    реферат [7,4 K], добавлен 11.05.2002

  • Понятие разговорного стиля. Особенности и нормы разговорной речи. Проблема фонетических норм в разговоре, употребления нейтральной лексики, падежных форм, а также глагольных. Отсутствие синтаксических связей между словами, использование интонации.

    презентация [642,7 K], добавлен 06.12.2015

  • Слово как одна из основных единиц языка, его роль и специфика взаимодействия друг с другом. Анализ различных связей между словами. Понятие лексикологии как науки о словарном составе языка, особенности ее разделов: семасиологии, этимологии, лексикографии.

    реферат [13,8 K], добавлен 25.12.2010

  • Основы развития словарной работы. Работа со словарными словами при помощи мнемосистемы "связей". Развитие орфографической грамотности обучающихся. Этимологический анализ слова как прием работы со словарными словами. Изучение безударных гласных.

    курсовая работа [42,9 K], добавлен 21.08.2011

  • Категория противоположности и антонимы как средство ее выражения. Условия актуализации антонимических отношений. Особенности подъязыка математики. Экспрессивность и образность в научном стиле английского языка. Антонимия в математическом тексте.

    дипломная работа [212,2 K], добавлен 05.09.2009

  • Смысловое и стилистическое сходство и различие между словами с помощью словарей русского языка. Нарушение языковых норм в речевой структуре. Функциональный стиль, реализованный в тексте. Служебный документ, относящийся к группе распорядительных.

    контрольная работа [15,5 K], добавлен 18.12.2009

  • Описание комплекса сущностных признаков текста анекдота. Выделение группы признаков, онтологически связанных с комической природой анекдота, с его отнесенностью к фольклорным жанрам. Анализ глубинных связей между признаками анекдота внутри каждой группы.

    статья [22,4 K], добавлен 10.09.2013

  • Понятие семантики как раздела языкознания. Сущность, функции и типы синтаксических связей. Проблема эквивалентности в переводе. Взаимодействие типов синтаксической связи при переводе. Синтаксические преобразования на уровне словосочетаний и предложений.

    курсовая работа [111,3 K], добавлен 09.04.2011

  • Проблема изучения интертекста в художественном тексте. Типология интертекстуальных элементов и связей. Особенности анализа произведений Л. Филатова в аспекте интертекстуальных связей. Интертектуальность и ее основные функции в художественном тексте.

    научная работа [60,4 K], добавлен 01.04.2010

  • Исследование системы норм литературного русского языка. Обзор морфологических, синтаксических и стилистических признаков официально-деловой речи. Анализ особенностей дипломатического, законодательного и административно-канцелярского стилей деловой речи.

    реферат [34,6 K], добавлен 22.06.2012

  • Специфика синтаксических стилистических приемов как средства изобразительности. Синтаксические стилистические средства в художественном тексте. Основные функции синтаксических повторов в произведениях английской и американской художественной литературы.

    дипломная работа [51,9 K], добавлен 23.06.2009

  • Роль определительных отношений в системе синтаксических связей русского языка. Особенности функционирования конструкций, выражающих определительные отношения в современной публицистике. Условия использования конструкций в сборнике Т. Толстой "День".

    курсовая работа [54,7 K], добавлен 10.02.2016

  • Исследование языковых норм деловой письменной речи. Анализ лексико-фразеологических, морфологических, синтаксических особенностей функционального стиля. Правила композиции документа и связности текста. Особенности фразеологии в деловой коммуникации.

    реферат [79,6 K], добавлен 26.12.2010

  • Понятие лингвистики связного текста. Теория связывания, механизм связности как основной текстообразующий фактор. Факторы, влияющие на выбор анафорических средств, степень активации референта в памяти человека. Типологии анафоры и виды антецедентов.

    дипломная работа [93,0 K], добавлен 02.03.2011

  • Прослеживание употребления слова "вкрадчивый" в тексте и в словарях русского языка. Анализ статистики употребления слова "вкрадчивый" в Национальном корпусе русского языка и приведение примеров его употребления. Определение значения слова в тексте.

    творческая работа [67,1 K], добавлен 08.04.2018

  • Основные аспекты именного словоизменения. Первичные и вторичные падежные формы. Числовые формы. Притяжательные формы. Отсутствие родовых форм. Степени сравнения. Анализ именного словообразования. Первичные отыменные имена. Вторичные отыменные имена.

    курсовая работа [61,2 K], добавлен 08.02.2009

  • Определение роли и места конъюнктива, сослагательного, изъявительного наклонений в системе современного английского языка: характеристика, образование форм, значение, употребление и распознавание в грамматических конструкциях различных типов предложений.

    курсовая работа [46,0 K], добавлен 13.03.2011

  • Понятие и характеристики знаковой системы. Репрезентативная и коммуникативная функции естественного языка. Роль его формализации в научном познании и логике. Основные семантические категории искусственного языка, уровни его организации, сфера применения.

    реферат [26,3 K], добавлен 28.11.2014

  • Выявление основных признаков иноязычных слов. История распространения модных английских, французских и тюркских терминов, обозначающих предметы одежды в русском языке. Классификация заимствованных лексических единиц по степени их освоенности в языке.

    курсовая работа [50,0 K], добавлен 20.04.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.