Сравнительный анализ организации систем синтаксических парсеров

Суть автоматического анализа естественно-языковых текстов. Изучение организации систем, принимавших участие в состязании синтаксических парсеров. Решение проблемы избыточности словаря в программе LinkParser. Особенность разбиения предложения на сегменты.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 30.05.2017
Размер файла 63,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

3. Поиск границ простых предложений в составе сложноподчиненного предложения и определение типа связи между ними

На этом шаге используется та часть базы шаблонов союзов, которая описывает подчинительные союзы. Обратимся к организации базы шаблонов [18] и преимуществам, которые она даёт как в части анализа сложных предложений, так и при анализе употребления союзов в остальных случаях. Шаблон союза описывается полями:

1) количество слов первой части союза;

2) количество слов второй части союза;

3) написание союза;

4) предполагается ли запятая перед союзом 1- да, 0 -нет, 2-может стоять перед союзом, если он во второй части;

5) возможно ли многократное повторение, разделённое запятыми (открытое употребление союза) 1- да, 0 - нет;

6) возможно ли разделение союзом двух однородных членов (закрытое употребление союза) 1- да, 0 - нет;

7) тип союза;

8) номер класса правил для поиска связанных союзом слов.

Номер класса правил определяет множество правил, каждое из которых представлено кортежами:

1) грамматическое выражение, которое сопоставляется с морфологической информацией первого из слов, связанных посредством союза;

2) грамматическое выражение, которое сопоставляется с морфологической информацией второго из слов, связанных посредством союза;

3) перечень грамматических категорий, по которым должны согласоваться морфологические информации первого и второго слов элементы;

4) порядок следования в первого и второго слов в тексте (0 - безразличен, 1 - обязательно второе слово следует после первого, 2 - обязательно первое слово следует после второго);

5) требуемое положение первого слова по отношению к границам сегмента, в который он входит, и по отношению к границе между связанными сегментами;

6) требуемое положение второго слова по отношению к границам сегмента, в который он входит, и по отношению к границе между связанными сегментами.

Первые три элемента этих правил заимствованы из работы [3], где они описывали структуру правила согласования слов.

Для односоставных союзов «первым словом» считается слово, находящееся левее союза, а вторым - находящееся правее союза. Для двусоставных союзов первое слово принадлежит сегменту, в котором находится первая часть составного союза, а второе - сегменту, в котором находится вторая часть составного союза. Причем для подчинительных союзов первое первая часть союза принадлежит главной клаузе.

Описанная выше организация шаблонов правил позволяет решать отмеченные в работе [7] вопросы современных парсеров связанные с неодносложными союзами, с разбором трёх и более однородных членов, выбора слов главной и подчиненной клауз, связывающих их между собой, а также отмеченный в работе [5] вопрос с выразительным союзом «и».

Сегменты, между словами которых найдена связь, объединяют в один путем объединения их элементов. Предпочтение отдаётся сегментам, которые ближе расположены друг к другу.

4. Установление связей между однородными членами.

Для установления однородных членов используется база шаблонов сочинительных союзов, поля которой приведены выше. После этого анализируются оставшиеся знаки препинания.

5. Получение предикатной структуры предложения.

Предикатная структура представлена фрагментом дерева зависимости, в котором дугам приписаны типы семантической связи, а для глагола отмечен его семантический класс.

Из узлов фрагмента дерева зависимости (также как из самого дерева зависимости) доступны как написания соответствующих слов в тексте, так и их интерпретации (леммы и морфологическая информация), которые соответствуют синтаксическому разбору, что важно для последующего семантического и прагматического анализа.

ЗАКЛЮЧЕНИЕ

В результате проведенных исследований была разработана система синтаксического анализа, в которой реализованы методы автоматической обработки текста на русском и английском языках, позволяющие проводить его морфологический и семантико-синтаксический анализ. Это позволило сделать следующие выводы.

1. Предложено использовать многоуровневое представление текста, которое, с одной стороны, сохраняет все данные, полученные на более ранних этапах обработки, а с другой - позволяет получить представление о минимальных структурных элементах текста: лексических (слова) и нелексических (сокращения, аббревиатуры, адреса, даты и т.п.) единицах текста. Такое представление позволяет упростить синтаксический анализ текста. Кроме того, оно даёт возможность изменить интерпретацию отдельных структурных элементов текста или их перечень, если такая необходимость возникнет на более поздних этапах обработки текста (синтаксический, семантический, прагматический), что сделает лингвистический процессор более гибким и надёжным.

2. Введенные понятия структурных единиц предложения как обобщенный базовый элемент и сегмент, разработанные структуры данных для их описания, а также процедура выделения в отдельные сегменты последовательностей слов фрагмента предложения позволяют:

- эффективно выделять атрибутивные связи в словосочетаниях, включая проблемный случай нахождения связи в группах вида «прилагательное + прилагательное + существительное», упомянутый в работе [5];

- упростить процедуру синтаксического анализа - сократить после выделения сегментов количество анализируемых слов предложения за счет главного слова в сегменте.

3. Предложенная организация шаблонов союзов и правил для их выделения позволяет решать такие проблемные вопросы современных парсеров как интерпретация неодносложных союзов, разбор трёх и более однородных членов, выбор слов главной и подчиненной клауз, связывающих их между собой, а также проблему выразительного союза «и».

4. Использование минимальных структурных схем предложения позволяет избежать вопросов с главными членами предложения, в которых предикат выражен не формой глагола, а для русского языка - учитывать связку типа есть, кроме того, не допускать ошибок при обработке идиоматических конструкций «малого синтаксиса».

5. Использование словаря валентности глаголов позволяет уменьшить количество вариантов разбора, поскольку по нему выбирают предпочтительные связи между глаголом и его актантами, запоминают семантический класс глагола и типы предикатной связи присутствующих в предложении актантов.

6. Созданный синтаксический парсер представляет собой «легкий» инструментарий для анализа текста. Он предлагает универсальный подход к семантико-синтаксическому анализу, используя семантическую классификацию предикатов, адаптируемую под большинство языков. Это выгодно отличает представленную разработку от систем ABBYY Syntactic and Semantic Parser и ЭТАП-3, которые используют лингвистические ресурсы, создаваемые многими годами и большим количеством профессионалов, а следовательно, имеют огромную себестоимость и являются зависимыми от языка.

Представленная синтаксическая модель предложения является универсальной, описывает предложения русско- и англоязычных текстов и позволяет полностью выявлять как предикативные так и синтагматические отношения в виде дерева зависимостей, осуществлять первичный семантический анализ за счет учета семантического содержания актантов предиката, используя семантическую классификацию предикатов.

Работа была выполнена в рамках НИР «Исследование и разработка программного обеспечения понимания неструктурированной текстовой информации на русском и английском языках на базе создания методов компьютерного полного лингвистического анализа» (по контракту Минобрнауки от «07» июня 2012 г. 07.514.11.4133).

СПИСОК ЛИТЕРАТУРЫ

1. Anisimovich K. V., Druzhkin K. Ju., Minlos F. R., Petrova M. A., Selegey V. P., Zuev K. A. Syntactic and semantic parser based on ABBYY Compreno linguistic technologies // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая-3 июня 2012 г.). Вып. 11 (18): В 2 т. Т. 2: Доклады специальных секций - М.: Изд-во РГГУ, 2012. - С. 91-103.

2. Antonova A. A., Misyurev A. V. Russian dependency parser SyntAutom at the DIALOGUE-2012 parser evaluation task // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая-3 июня 2012 г.). Вып. 11 (18): В 2 т. Т. 2: Доклады специальных секций - М.: Изд-во РГГУ, 2012. - С. 104-118.

3. Iomdin L., Petrochenkov V., Sizov V., Tsinman L. ETAP parser: state of the art // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая-3 июня 2012 г.). Вып. 11 (18): В 2 т. Т. 2: Доклады специальных секций - М.: Изд-во РГГУ, 2012. - С. 119-131.

4. Толдова С. Ю., Соколова Е. Г., Астафьева И., Гарейшина А., Королева А., Привознов Д., Сидорова Е., Тупикина Л., Ляшевская О. Н. Оценка методов автоматического анализа текста 2011-2012: синтаксические парсеры русского языка // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая-3 июня 2012 г.). Вып. 11 (18): В 2 т. Т. 2: Доклады специальных секций - М.: Изд-во РГГУ, 2012. - С. 77-90.

5. Дорохина Г.В., Павлюкова А.П. Модуль морфологического анализа слов русского языка // Искусственный интеллект. - 2004. - № 3. - С. 636-642.

6. Дорохина Г.В. Исследование алгоритма морфологического анализа слов с дефисным написанием / Г.В. Дорохина, А.О. Журавлёв, Е.А. Бондаренко // Системы и средства искусственного интеллекта. ССИИ-2012 : материалы международной научной молодёжной школы (пос. Кацивели, АР Крым, Украина, 1-5 октября 2012). - Донецк : ИПИИ «Наука і освіта», 2012. - С.17-24.

7. Дорохина Г. В. Модуль морфологического анализа без словаря слов русского языка / Г. В. Дорохина, В. Ю. Трунов, Е. В. Шилова // Искусственный интеллект. - №2. - 2010. - С.32-36.

8. Ляшевская О. Н., Астафьева И., Бонч-Осмоловская А. А., Гарейшина А., Гришина Ю., Дьячков В., Ионов М., Королева А., Кудринский М., Литягина А., Лучина Е., Сидорова Е., Толдова С. Ю., Савчук С. О., Коваль С. А. Оценка методов автоматического анализа текста: морфологические парсеры русского языка//Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной Международной конференции "Диалог" (2010) Т. 9. Вып. 16. М.: РГГУ, 2010, С. 318-326.

9. Лущай В.В. Заполнение позиционного состава предложения по принципу функциональной эквивалентности: интроспективный анализ в русле экспликационной грамматики / В.В. Лущай - Донецк: ДонНУ. - 2010. - 255с.

10. Дорохина Г. В. Автоматическое выделение синтаксически связанных слов простого распространенного неосложненного предложения / Г.В. Дорохина, Д. С. Гнитько // «Сучасна інформаційна Україна: інформатика, економіка, філософія»: матеріали доповідей конференції, 12 _ 13 травня 2011 року, Донецьк, 2011. Т. 1. - с. 34-38.

11. Современный русский язык: Учеб. Для филол. спец. высших учебных заведений. Под ред. В.А. Белошапковой. - 3-е изд. - М.: Азбуковник, 1997. - 928 с.

12. Бондаренко Е. А. Принципы автоматической обработки естественно-языковых текстов: валентностный подход / Е. А. Бондаренко, О. А. Каплина // Искусственный интеллект. -- 2013. -- N1. -- С. 80-90.

13. Дорохина Г.В. Ограничение количества гипотез фразы при распознавании слитной речи // Известия ТРТУ - 2005. - № 10. - C. 54-60.

14. Харламов А.А. Метод выделения главных членов предложения в виде предикативных структур, использующих минимальные структурные схемы / А.А Харламов, Т.В. Ермоленко, Г.В. Дорохина, Д.С. Гнитько // Речевые технологии. -- 2012. -- №2. -- С.75-84.

Размещено на Allbest.ru

...

Подобные документы

  • Анализ синтаксических связей и синтаксических отношений во французском языке. Структурно-семантические типы синтаксических связей, их функции. Средства выражения синтаксических отношений на примере отрывка из романа Теофиля Готье "Le Capitaine Fracasse".

    курсовая работа [32,4 K], добавлен 17.05.2009

  • Выявление способов выражения эмоциональной характеристики высказывания. Анализ инверсии как одного из синтаксических средств организации эмоционально-экспрессивных предложений, служащих для реализации категории эмоциональной экспрессии в английском языке.

    курсовая работа [35,7 K], добавлен 31.10.2014

  • Изучение морфологических и синтаксических особенностей научно-технического стиля, в аспекте применения автоматизированных средств перевода. Анализ принципа работы и типов систем машинного перевода. Сравнение текстов, переведенных машиной и переводчиком.

    дипломная работа [4,0 M], добавлен 20.06.2011

  • Обзор выявления в оригинале конструкций, требующих синтаксических трансформаций при переводе, их классификации и анализа способов перевода. Описания перевода при помощи перестановок, членения и объединения предложений, синтаксических проблем перевода.

    курсовая работа [49,1 K], добавлен 29.12.2011

  • Стилистическая организация речи как система языковых элементов внутри литературного языка. Реализация cтилей в определенных формах и типах текстов. Совокупность лексических, грамматических и синтаксических особенностей письменной речи в различных жанрах.

    реферат [25,2 K], добавлен 23.05.2009

  • Понятие сложного предложения. Проблема определения. Сложное предложение в разных синтаксических аспектах. Сложноподчиненные предложения. Их классификации. Сложносочиненные предложения. Бессоюзные сложные предложения. Многокомпонентные предложения.

    дипломная работа [60,9 K], добавлен 03.12.2007

  • Фундамент синтаксического анализа. Словоизменительные морфологические средства. Структура системы синтаксического анализатора текста и используемая методика анализа текста. Графематический и фрагментационный анализ. Структура морфологического словаря.

    курсовая работа [194,3 K], добавлен 24.06.2012

  • Исследование лексических и синтаксических языковых процессов в русской прозе начала ХХI века. Анализ сущности активных процессов в языке современной прозе. Приемы интертекстуальности в языковой композиции. Лексико-синтаксические особенности текстов прозы.

    дипломная работа [84,7 K], добавлен 18.06.2017

  • Понятие семантики как раздела языкознания. Сущность, функции и типы синтаксических связей. Проблема эквивалентности в переводе. Взаимодействие типов синтаксической связи при переводе. Синтаксические преобразования на уровне словосочетаний и предложений.

    курсовая работа [111,3 K], добавлен 09.04.2011

  • Характерные черты официально-делового стиля. Виды официально-деловой документации. Употребление официально-делового стиля в языке дипломатических документов. Закономерности применения грамматических и синтаксических конструкций в организации текстов.

    дипломная работа [188,9 K], добавлен 03.07.2015

  • Понятие и классификация средств выразительности в английском языке. Сущность таких средств выразительности как параллелизма, анафоры, эпифора. Ритмообразующая и выделительно-усилительная функции синтаксических фигур; поиск их в текстах песен Н. Кейва.

    курсовая работа [55,4 K], добавлен 25.06.2016

  • История синтаксических исследований. Предложение как основная единица синтаксиса. Структурный аспект изучения предложения, члены предложения и проблемы их изучения. Синтаксический уровень в учении Теньера. Работа Теньера "Основы структурного синтаксиса".

    курсовая работа [64,3 K], добавлен 26.02.2011

  • Специфика синтаксических стилистических приемов как средства изобразительности. Синтаксические стилистические средства в художественном тексте. Основные функции синтаксических повторов в произведениях английской и американской художественной литературы.

    дипломная работа [51,9 K], добавлен 23.06.2009

  • Виды расширенных синтаксических структур. Однородные члены предложения и семантика однородных членов, сущность и значение предикации. Общие положения об осложненном и сложном предложении. Бессоюзное, сложносочиненное и сложноподчиненное предложения.

    дипломная работа [49,3 K], добавлен 17.05.2012

  • Исследование языковых норм деловой письменной речи. Анализ лексико-фразеологических, морфологических, синтаксических особенностей функционального стиля. Правила композиции документа и связности текста. Особенности фразеологии в деловой коммуникации.

    реферат [79,6 K], добавлен 26.12.2010

  • Изучение речевой культуры и богатства русской речи посредством анализа лексических, фразеологических и грамматических синонимов и вариантов синтаксических конструкций и интонаций. Словообразование и функциональные стили как источники речевого богатства.

    реферат [25,0 K], добавлен 01.12.2010

  • Понятие, виды и способы образования сложных синтаксических конструкций в русском литературном языке. Основные правила расстановки знаков препинания в сложноподчинённых предложениях с несколькими придаточными. Типичные ошибки в построении предложений.

    реферат [46,4 K], добавлен 21.01.2012

  • Тематические предложения, служащие для полного развития мысли. Функционально-смысловые типы текста в сложном синтаксическом целом. Повествовательный текст, его применение. Описание, статичность речевой формы. Ошибки в построении синтаксических целых.

    презентация [2,1 M], добавлен 26.01.2011

  • Характеристика лексических, морфологических, синтаксических, стилистических и коммуникативных ошибок. Анализ конкретных речевых материалов с точки зрения орфографии и грамматики. Изучение основных нарушений коммуникативных норм: неуважение, грубость.

    контрольная работа [37,8 K], добавлен 29.01.2010

  • Морфолого-синтаксический аспект истории русского инфинитива. Описание синтаксических функций инфинитива в пределах предикативного центра простого предложения и как распространителя предикативного центра простого предложения в современном русском языке.

    курсовая работа [47,7 K], добавлен 06.03.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.