Исследование вклада синтаксических признаков в распознавание анафоричесних отношений
Распознавание кореферентных (отношений между словами в тексте, обозначающих одинаковую информацию) и анафорических связей (отношение именной группы к другому слову) как проблема обработки естественного языка. Анализ существующих систем, их реализация.
Рубрика | Иностранные языки и языкознание |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 30.08.2016 |
Размер файла | 320,4 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Заключение
В настоящей работе была реализована система распознавания анафорических отношений на основе синтаксически разобранных текстов, которая включает в себя собственный алгоритм для извлечения именных групп. Сначала были реализованы базовые признаки для обучения и был обучен классификатор SVM. Далее с помощью трех экспериментов были введены также и синтаксические признаки в алгоритм классификации.
В работе были использованы следующие синтаксические признаки:
1) расстояние от корня до местоимения (глубина местоимения);
2) тип связи местоимения и слова, контролирующего данное слово;
3) отношение глубины местоимения к глубине предложения;
4) количество узлов с той же глубиной;
5) количество запятых в предложении;
6) расстояние от анафора до антецедента;
7) разница уровней в дереве (уровень антецедента vs уровень местоимения);
8) тип синтаксической связи антецедента со словом, его контролирующим;
9) Есть ли в списке отношений "предик"?
10) Есть ли в списке отношений "1-компл"?
11) Есть ли в списке отношений второй кластер синтаксических отношений?
12) Есть ли в списке отношений четвертый кластер синтаксических отношений?
Последние четыре признака проверяют наличие определенных типов отношений на расстоянии от узла с антецедентом и корнем дерева. Первая группа (1-5) - это признаки, относящееся только к анафору. Вторая группа (6-7) - это признаки, связывающие анафора и антецедент. Третья группа (8-12) - это признаки, относящиеся к антецеденту. Первые две группы улучшили алгоритм на 8 и 3 процента соответственно. Последняя группа показала незначительное улучшение результатов работы алгоритмов, потому как распределение типов синтаксических отношений вне анафорических связей совпадает с распределением внутри.
В целом, удалось увеличить показатели работы классификатора на 12 процентов, что говорит о том, что признаки, которые удалось извлечь с помощью синтаксического парсера, имеют значительное влияние на алгоритм работы системы по разрешению анафорических отношений.
Список использованных источников и литературы
1. Sharoff and Nivre 2011 - S. Sharoff and J. Nivre. The proper place of men and machines in language technology: Processing Russian without any linguistic knowledge. Dialog 2011. (электронный документ) http://corpus. leeds. ac. uk/serge/publications/2011-dialog. pdf. 2011.
2. Jurafsky and Martin 1999 - D. Jurafsky and J. H. Martin. Speech and Language processing // Library of Congress Cataloging-in-Publication Data, 1999. P.665-689.
3. Mitkov 1999 - R. Mitkov. ANAPHORA RESOLUTION: THE STATE OF THE ART (электронный документ) http://rgcl. wlv. ac. uk/papers/mitkov-99a. pdf. 1999.
4. Hobbs 1978 - J. R. Hobbs. RESOLVING PRONOUN REFERENCES (электронный документ) http://www.isi.edu/~hobbs/ResolvingPronounReferences. pdf. 1978.
5. Aone and Bennet 1996 - C. Aone and S. W. Bennet. Applying machine learning to anaphora resolution. // S. Wermter (ed). Connectionist, statistical and symbolyc approaches to learning for Natural Language Processing. Berlin: Springer. 1996. P.302-314.
6. Mitkov 1998 - R. Mitkov. Robust pronoun resolution with limited knowledge. (электронный документ) http://www.aclweb.org/anthology/C98-2138. 1998.
7. Clark 2015 - K. Clark. Neural Coreference Resolution. // Stanford report. (электронный документ) https: // cs224d. stanford.edu/reports/ClarkKevin. pdf. 2015
8. Connolly, Burger and Day 1994 - D. Connoly, J. D. Burger and D. S. Day. A Machine learning approach to anaphoric reference. // Proceedings of the International Conference "New Methods in Language Processing”, 1994. P.255-261.
9. Kong, Zhou, Qian and Zhu 2010 - F. Kong, G. Zhou, L. Qian, Q. Zhu. Dependency-driven Anaphoricity Determination for Coreference Resolution (электронный документ) http://www.aclweb.org/anthology/C10-1068. 2010
10. Kamenskaya, Khramoin and Smirnov 2014 - M. A. Kamenskaya, I. V. Khramoin, I. V. Smirnov. Data-driven Methods for Anaphora Resolution of Russian Texts. Dialog 2014. (электронный документ) http://www.dialog-21.ru/digests/dialog2014/materials/pdf/Kamenskaya%D0%9C%D0%90. pdf. 2014
11. Protopopova et al, 2014 - E. V. Protopopova, A. A. Bodrova, S. A. Volskaya, I. V. Krylova, A. S. Chuchunkov, S. V. Alexeeva, V. V. Bocharov, D. V. Granovsky. Anaphoric Annotation and Corpus-based Anaphora Resolution: an Experiment. Dialog 2014. (электронный документ) http://www.dialog-21.ru/digests/dialog2014/materials/pdf/ProtopopovaEV. pdf. 2014.
12. Ionov and Kutuzov 2014 - M. Ionov and A. Kutuzov. The Impact of Morphology Processing Quality on Automated Anaphora Resolution for Russian. Dialog 2014. (электронный документ) http://www.dialog-21.ru/digests/dialog2014/materials/pdf/IonovMKutuzovA. pdf. 2014.
13. Toldova et al 2014 - S. Toldova, A. Roytberg, A. Ladygina, M. D. Vasilyeva, I. L. Azerkovich, M. Kurzukov, G. Sim, D. V. Gorshkov, A. Ivanova, A. Nedoluzhko, Y. Grishina.ru-EVAL-2014: EVALUATING ANAPHORA AND COREFERENCE RESOLUTION FOR RUSSIAN. Dialog 2014. (электронный документ) http://www.dialog-21.ru/digests/dialog2014/materials/pdf/ToldovaSJu. pdf. 2014.
14. Medyankin and Droganova 2016 - N. Medyankin and K. Droganova. Building NLP Pipeline for Russian with a Handful of Linguistic Knowledge. (электронный документ) http://web-corpora.net/wsgi3/ru-syntax/static/downloads/Medyankin_Droganova_CLLS_2016. pdf. 2016.
15. Schmid 1994 - H. Schmid. Probablistic Part-of-Speech Tagging Using Decision Trees. (электронный документ) http://www.cis. uni-muenchen. de/~schmid/tools/TreeTagger/data/tree-tagger1. pdf. 1994.
Приложения
Приложение 1
СинтО |
N |
% |
|
предл |
11709 |
31,31% |
|
1-компл |
7968 |
21,31% |
|
предик |
6526 |
17,45% |
|
квазиагент |
3566 |
9,54% |
|
соч-союзн |
1591 |
4,25% |
|
аппоз |
1261 |
3,37% |
|
ROOT |
699 |
1,87% |
|
сочин |
650 |
1,74% |
|
2-компл |
580 |
1,55% |
|
атриб |
542 |
1,45% |
|
обст |
467 |
1,25% |
|
сравн-союзн |
319 |
0,85% |
|
присвяз |
312 |
0,83% |
|
разъяснит |
222 |
0,59% |
|
агент |
131 |
0,35% |
|
вводн |
112 |
0,30% |
|
об-аппоз |
105 |
0,28% |
|
длительн |
98 |
0,26% |
|
подч-союзн |
93 |
0,25% |
|
сент-соч |
86 |
0,23% |
|
сравнит |
76 |
0, 20% |
|
примыкат |
70 |
0, 19% |
|
дат-субъект |
48 |
0,13% |
|
огранич |
32 |
0,09% |
|
пролепт |
26 |
0,07% |
|
неакт-компл |
23 |
0,06% |
|
компл-аппоз |
15 |
0,04% |
|
3-компл |
12 |
0,03% |
|
эллипт |
10 |
0,03% |
|
опред |
8 |
0,02% |
|
релят |
6 |
0,02% |
|
нум-аппоз |
6 |
0,02% |
|
1-несобст-компл |
5 |
0,01% |
|
4-компл |
5 |
0,01% |
|
PUNC |
4 |
0,01% |
|
аналит |
3 |
0,01% |
|
колич-копред |
3 |
0,01% |
|
суб-копр |
3 |
0,01% |
|
обст-тавт |
2 |
0,01% |
|
об-копр |
1 |
0,00% |
|
ВСЕГО: |
37395 |
100% |
Приложение 2
Синтаксическое отношение |
количество |
% |
|
предик |
1417 |
23,28% |
|
1-компл |
1027 |
16,87% |
|
предл |
594 |
9,76% |
|
соч-союзн |
434 |
7,13% |
|
сочин |
396 |
6,51% |
|
сент-соч |
346 |
5,69% |
|
подч-союзн |
295 |
4,85% |
|
квазиагент |
282 |
4,63% |
|
обст |
279 |
4,58% |
|
2-компл |
162 |
2,66% |
|
разъяснит |
104 |
1,71% |
|
атриб |
94 |
1,54% |
|
вводн |
82 |
1,35% |
|
присвяз |
81 |
1,33% |
|
релят |
79 |
1,30% |
|
эксплет |
60 |
0,99% |
|
опред |
55 |
0,90% |
|
аппоз |
47 |
0,77% |
|
сравн-союзн |
42 |
0,69% |
|
об-аппоз |
37 |
0,61% |
|
3-компл |
34 |
0,56% |
|
сравнит |
19 |
0,31% |
|
аналит |
17 |
0,28% |
|
оп-опред |
13 |
0,21% |
|
инф-союзн |
13 |
0,21% |
|
примыкат |
12 |
0, 20% |
|
электив |
9 |
0,15% |
|
агент |
9 |
0,15% |
|
огранич |
9 |
0,15% |
|
длительн |
6 |
0,10% |
|
пролепт |
6 |
0,10% |
|
пасс-анал |
5 |
0,08% |
|
изъясн |
5 |
0,08% |
|
эллипт |
4 |
0,07% |
|
уточн |
3 |
0,05% |
|
1-несобст-компл |
2 |
0,03% |
|
дат-субъект |
2 |
0,03% |
|
неакт-компл |
2 |
0,03% |
|
ном-аппоз |
1 |
0,02% |
|
соотнос |
1 |
0,02% |
|
4-компл |
1 |
0,02% |
Приложение 3
СинтО |
N |
% |
|
1-компл |
25846 |
18,95% |
|
предл |
21080 |
15,45% |
|
предик |
12820 |
9,40% |
|
обст |
10992 |
8,06% |
|
сочин |
10572 |
7,75% |
|
соч-союзн |
9529 |
6,99% |
|
сент-соч |
7962 |
5,84% |
|
подч-союзн |
5638 |
4,13% |
|
квазиагент |
5336 |
3,91% |
|
2-компл |
4248 |
3,11% |
|
атриб |
3992 |
2,93% |
|
релят |
2531 |
1,86% |
|
разъяснит |
2463 |
1,81% |
|
опред |
1808 |
1,33% |
|
эксплет |
1723 |
1,26% |
|
аппоз |
1511 |
1,11% |
|
присвяз |
1215 |
0,89% |
|
сравн-союзн |
1084 |
0,79% |
|
вводн |
997 |
0,73% |
|
сравнит |
812 |
0,60% |
|
инф-союзн |
577 |
0,42% |
|
3-компл |
572 |
0,42% |
|
пасс-анал |
420 |
0,31% |
|
аналит |
316 |
0,23% |
|
огранич |
293 |
0,21% |
|
агент |
266 |
0, 20% |
|
примыкат |
236 |
0,17% |
|
длительн |
225 |
0,16% |
|
изъясн |
216 |
0,16% |
|
электив |
210 |
0,15% |
|
об-аппоз |
198 |
0,15% |
|
уточн |
127 |
0,09% |
|
оп-опред |
123 |
0,09% |
|
пролепт |
107 |
0,08% |
|
дат-субъект |
51 |
0,04% |
|
распред |
45 |
0,03% |
|
неакт-компл |
38 |
0,03% |
|
4-компл |
35 |
0,03% |
|
эллипт |
30 |
0,02% |
|
соотнос |
24 |
0,02% |
|
суб-копр |
23 |
0,02% |
|
компл-аппоз |
20 |
0,01% |
|
1-несобст-компл |
19 |
0,01% |
|
об-копр |
15 |
0,01% |
|
ном-аппоз |
13 |
0,01% |
|
количест |
12 |
0,01% |
|
колич-огран |
11 |
0,01% |
|
вспом |
9 |
0,01% |
|
нум-аппоз |
8 |
0,01% |
|
PUNC |
4 |
0,00% |
|
колич-копред |
3 |
0,00% |
|
обст-тавт |
2 |
0,00% |
Размещено на Allbest.ru
...Подобные документы
Анализ синтаксических связей и синтаксических отношений во французском языке. Структурно-семантические типы синтаксических связей, их функции. Средства выражения синтаксических отношений на примере отрывка из романа Теофиля Готье "Le Capitaine Fracasse".
курсовая работа [32,4 K], добавлен 17.05.2009сопоставительный анализ Эти два языка принадлежат к различным языковым семьям. Структура именнных групп в рассматриваемых языках в значительной степени изоморфна. Системы кодирования отношений внутри именной группы характеризуются двумя принципами, общими
реферат [7,4 K], добавлен 11.05.2002Понятие разговорного стиля. Особенности и нормы разговорной речи. Проблема фонетических норм в разговоре, употребления нейтральной лексики, падежных форм, а также глагольных. Отсутствие синтаксических связей между словами, использование интонации.
презентация [642,7 K], добавлен 06.12.2015Слово как одна из основных единиц языка, его роль и специфика взаимодействия друг с другом. Анализ различных связей между словами. Понятие лексикологии как науки о словарном составе языка, особенности ее разделов: семасиологии, этимологии, лексикографии.
реферат [13,8 K], добавлен 25.12.2010Основы развития словарной работы. Работа со словарными словами при помощи мнемосистемы "связей". Развитие орфографической грамотности обучающихся. Этимологический анализ слова как прием работы со словарными словами. Изучение безударных гласных.
курсовая работа [42,9 K], добавлен 21.08.2011Категория противоположности и антонимы как средство ее выражения. Условия актуализации антонимических отношений. Особенности подъязыка математики. Экспрессивность и образность в научном стиле английского языка. Антонимия в математическом тексте.
дипломная работа [212,2 K], добавлен 05.09.2009Смысловое и стилистическое сходство и различие между словами с помощью словарей русского языка. Нарушение языковых норм в речевой структуре. Функциональный стиль, реализованный в тексте. Служебный документ, относящийся к группе распорядительных.
контрольная работа [15,5 K], добавлен 18.12.2009Описание комплекса сущностных признаков текста анекдота. Выделение группы признаков, онтологически связанных с комической природой анекдота, с его отнесенностью к фольклорным жанрам. Анализ глубинных связей между признаками анекдота внутри каждой группы.
статья [22,4 K], добавлен 10.09.2013Понятие семантики как раздела языкознания. Сущность, функции и типы синтаксических связей. Проблема эквивалентности в переводе. Взаимодействие типов синтаксической связи при переводе. Синтаксические преобразования на уровне словосочетаний и предложений.
курсовая работа [111,3 K], добавлен 09.04.2011Проблема изучения интертекста в художественном тексте. Типология интертекстуальных элементов и связей. Особенности анализа произведений Л. Филатова в аспекте интертекстуальных связей. Интертектуальность и ее основные функции в художественном тексте.
научная работа [60,4 K], добавлен 01.04.2010Исследование системы норм литературного русского языка. Обзор морфологических, синтаксических и стилистических признаков официально-деловой речи. Анализ особенностей дипломатического, законодательного и административно-канцелярского стилей деловой речи.
реферат [34,6 K], добавлен 22.06.2012Специфика синтаксических стилистических приемов как средства изобразительности. Синтаксические стилистические средства в художественном тексте. Основные функции синтаксических повторов в произведениях английской и американской художественной литературы.
дипломная работа [51,9 K], добавлен 23.06.2009Роль определительных отношений в системе синтаксических связей русского языка. Особенности функционирования конструкций, выражающих определительные отношения в современной публицистике. Условия использования конструкций в сборнике Т. Толстой "День".
курсовая работа [54,7 K], добавлен 10.02.2016Исследование языковых норм деловой письменной речи. Анализ лексико-фразеологических, морфологических, синтаксических особенностей функционального стиля. Правила композиции документа и связности текста. Особенности фразеологии в деловой коммуникации.
реферат [79,6 K], добавлен 26.12.2010Понятие лингвистики связного текста. Теория связывания, механизм связности как основной текстообразующий фактор. Факторы, влияющие на выбор анафорических средств, степень активации референта в памяти человека. Типологии анафоры и виды антецедентов.
дипломная работа [93,0 K], добавлен 02.03.2011Прослеживание употребления слова "вкрадчивый" в тексте и в словарях русского языка. Анализ статистики употребления слова "вкрадчивый" в Национальном корпусе русского языка и приведение примеров его употребления. Определение значения слова в тексте.
творческая работа [67,1 K], добавлен 08.04.2018Основные аспекты именного словоизменения. Первичные и вторичные падежные формы. Числовые формы. Притяжательные формы. Отсутствие родовых форм. Степени сравнения. Анализ именного словообразования. Первичные отыменные имена. Вторичные отыменные имена.
курсовая работа [61,2 K], добавлен 08.02.2009Определение роли и места конъюнктива, сослагательного, изъявительного наклонений в системе современного английского языка: характеристика, образование форм, значение, употребление и распознавание в грамматических конструкциях различных типов предложений.
курсовая работа [46,0 K], добавлен 13.03.2011Понятие и характеристики знаковой системы. Репрезентативная и коммуникативная функции естественного языка. Роль его формализации в научном познании и логике. Основные семантические категории искусственного языка, уровни его организации, сфера применения.
реферат [26,3 K], добавлен 28.11.2014Выявление основных признаков иноязычных слов. История распространения модных английских, французских и тюркских терминов, обозначающих предметы одежды в русском языке. Классификация заимствованных лексических единиц по степени их освоенности в языке.
курсовая работа [50,0 K], добавлен 20.04.2011