Главная Коллекция "Revolution" Иностранные языки и языкознание Сравнительный анализ организации систем синтаксических парсеров

Сравнительный анализ организации систем синтаксических парсеров

Суть автоматического анализа естественно-языковых текстов. Изучение организации систем, принимавших участие в состязании синтаксических парсеров. Решение проблемы избыточности словаря в программе LinkParser. Особенность разбиения предложения на сегменты.

Рубрика	Иностранные языки и языкознание
Вид	статья
Язык	русский
Дата добавления	30.05.2017
Размер файла	63,5 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

Размещено на http://www.allbest.ru/

Сравнительный анализ организации систем синтаксических парсеров

А.А. Харламов

Т.В. Ермоленко

Г.В. Дорохина

ВВЕДЕНИЕ

Автоматический анализ естественно-языковых текстов является востребованной технологией, которая находит применение в текстовых процессорах (например: Microsoft Word, OpenOffice.org Writer) и поисковых системах, системах реферирования, системах классификации и кластеризации текстов [1] и, наконец, в системах поиска дубликатов в текстах. Анализ текста микроблогов узла социальной сети широко используется для исследования психосемантического профиля пользователя [2], направленного на повышение эффективности предоставления контекстной рекламы, агитационных и прочих материалов. Технология автоматического анализа текста необходима также для создания, разметки и выравнивания корпусов параллельных текстов, которые широко используются системами памяти перевода.

Естественный язык является многоуровневой структурой, в которой чаще всего выделяют следующие уровни: фонетический; морфологический; лексический; синтаксический; семантический; прагматический. По этой причине, системы для автоматического анализа естественно-языковых текстов решают в процессе работы те или иные задачи анализа информации этих уровней. Наиболее применимы анализаторы трех уровней, а именно - морфологические анализаторы, синтаксические парсеры, анализаторы смысла. Причем, если говорить об анализе смысла отдельного предложения, то синтаксический анализ исчерпывает все вопросы выявления основной смысловой структуры предложения, будь то дерево зависимостей, или предикатная структура. В процессе семантического анализа целого текста также важную роль играет этап синтаксического анализа. Другими словами, качество синтаксического парсера определяет во многих случаях качество решения задачи, стоящей перед системой анализа текста.

Современные системы синтаксических парсеров [3-6] успешно реализуют диаметрально противоположные методы синтаксического анализа. Авторами было выполнено исследование лингвистических информационных технологий в области систем обработки информации, в результате которого проведен анализ организации синтаксических парсеров и трудностей, с которыми сталкиваются их разработчики. В результате чего была разработана архитектура системы синтаксического анализа в составе лингвистического процессора, осуществляющего семантико-синтаксический анализ предложений русско- и англоязычных текстов.

1. АНАЛИЗ ОРГАНИЗАЦИИ СОВРЕМЕНННЫХ СИНТАКСИЧЕСКИХ ПАРСЕРОВ

Рассмотрим доступные данные об организации систем, принимавших участие в соревновании синтаксических парсеров, полученные по материалам форума «Оценка методов автоматического анализа текста 2011-2012: синтаксические парсеры русского языка» [7]. Среди них системы, использующие различные методы синтаксического разбора: грамматику зависимостей; грамматику составляющих; грамматику связей (Link grammar parser). Лучшие результаты показали ABBYY Syntactic and Semantic Parser, Парсер грамматики связей, ЭТАП-3, SyntAutom, SemSin.

1.1 ABBYY Syntactic and Semantic Parser

ABBYY Syntactic and Semantic Parser [3] при анализе текста использует словарь синтаксических парадигм слов, задающий правила употребления лексемы в зависимости от её класса, а также - дерево универсальных семантических значений и отношений между ними. Словарь синтаксических парадигм слов включает в себя данные о морфологической парадигме и о множестве «синтаксических уровней». «Синтаксический уровень» представлен множеством «синтаксических форм», каждая из которых определяет специфическую «синтаксическую конфигурацию», определяющую: грамматическое выражение, которое сопоставляется с грамматическим значением компонента ноль или более заполненных «поверхностных слотов». Для каждого из таких выражений задается множество семантических слотов, которые рассматриваются как семантические интерпретации.

Судя по описанию, изложенному в [3], система основана на лексическом подходе, который использует грамматику управляемых вершинами фразовых категорий - Head-driven Phrase Structure Grammar (HPSG). По данным работы [8] этот метод использует:

– лексикон с иерархической организацией, где каждая лексическая единица языка описывается иерархической структурой свойств, содержащей грамматическую и семантическую информацию;

– унификацию «как базовый механизм построения синтаксической структуры».

Здесь унификацией, согласно [8] называется наиболее общий метод, позволяющий двум совместимым дескрипциям структуры свойств соединять информацию, которую они содержат, в одну (обычно большую) дескрипцию. Две дескрипции являются совместимыми в том случае, если они не содержат в своих структурах конфликтующих типов или разных атомарных значений одних и тех же свойств.

В HPSG вводится два универсальных синтаксических принципа, а именно:

– принцип вершины HFP (Head Feature Principle) Для любой фразовой категории, где определена вершина, значение свойства HEAD материнского узла и значение свойства HEAD дочернего узла должны быть унифицированы;

– принцип модели управления (The Valence Principle), означающий, что значения свойств SPR (спецификатор) и COMPS (комплементы) материнского узла идентичны значениям аналогичных свойств вершинного дочернего узла.

Аналогичным образом метод унификации используется и при построении семантической структуры (свойство SEM), для чего в грамматике определяются дополнительные принципы.

Базовый компонент грамматики HPSG в упрощенном виде состоит из четырех максимально общих синтаксических правил [I. Sag, T. Wasow, 1999]:

1. Правило комплемента вершины (Head-Complement Rule)

[phrase: COMPS <>] H[word: COMPS <(1),…,(n)>] (1) … (n) , где n - идентификатор комплемента.

Фразовая категория может состоять из лексической вершины и следующих за ней комплементов; в частном случае список комплементов пуст.

2. Правило спецификатора вершины (Head-Specifier Rule)

[phrase: SPR <>] (1) H[phrase: SPR <(1)>]

Фразовая категория может состоять из фразовой вершины и предшествующего ей спецификатора.

3. Правило модификатора вершины (Head-Modifier Rule)

[phrase] H(1)[phrase] [phrase: MOD (1)]

Фразовая категория может состоять из фразовой вершины и следующего за ней совместимого фразового модификатора.

4. Правило сочинения (Coordination Rule)

[SYN (0); IND s0] [SYN (0); IND s1] … [SYN (0); IND sn-1] [HEAD conj; IND s0] [SYN (0); IND sn], где семантическое свойство IND - индекс некоторой ситуации.

Любое число вхождений элементов с одинаковой синтаксической структурой (свойство SYN) могут быть соединены в один сочинительный элемент той же структуры.

Приведенный базовый компонент грамматических правил обладает тремя недостатками:

(а) жесткий линейный порядок составляющих в правой части правила, что не позволяет использовать такого рода правила в языках с относительно свободным порядком синтаксических составляющих, каким является русский (то же относится и к структурным свойствам лексикона HPSG, где строго определен порядок следования комплементов лексемы, так [COMPS <NP, PP>] означает, что в линейной цепочке предложения именная группа, управляемая данной лексемой, должна стоять перед предложной);

(б) правила не способны анализировать слабо проективные структуры, грамматически допустимые во многих языках;

(в) абсолютная зависимость синтаксических правил от правильности и полноты структур свойств отдельно взятого словарного входа лексикона.

Характеристика метода HPSG [8] указывает на ряд трудностей, с которыми пришлось столкнуться разработчикам данной системы:

– трудоёмкость разработки лексикона для русского языка;

– «отсутствие разделения анализа на уровни и словари (морфологический, синтаксический и семантический) лишает архитектуру лексикона прозрачности»;

– «лексикализм и успешность работы грамматик, построенных на унификации, целиком зависят от полноты лексикона»;

– правила грамматики HPSG затруднительно использовать для языка «с относительно свободным порядком синтаксических составляющих, каким является русский»; они «не способны анализировать слабо проективные структуры, грамматически допустимые во многих языках».

Несмотря на указанные недостатки подхода лексикализма и недостатки базового компонента унифицирующей грамматики, необходимо признать большой экспериментальный потенциал построенной на HPSG модели для исследователей в области искусственного интеллекта. Метод анализа текста, используемый ABBYY Syntactic and Semantic Parser, очевидно, позволяет выполнять полный анализ предложений с высокой точностью. Однако данный метод использует базы данных, исчерпывающе описывающие перечень синтаксических конструкций, в которых употребляется лексема, и её соответствующие написания, а также дерево универсальных семантических значений и отношений между ними. Себестоимость создания таких ресурсов и специфика коммерческой деятельности, в рамках которой они были созданы, позволяет предположить, что в свободном доступе эти ресурсы не появятся, и указывает на проблематичность воссоздания подобных ресурсов за обозримое время каким-либо научным коллективом, коммерческой организацией или научно-производственным объединением. Это делает невозможным реализацию метода отдельными научными коллективами, его использование в научных исследованиях и при создании инновационных технологий, связанных с обработкой текстов.

1.2 Парсер грамматики связей (LinkParser)

В отличие от HPSG, абстрактной и универсальной синтаксической теории ЕЯ, LinkParser с самого начала создавалась как аппарат для автоматической системы анализа предложения, что позволило авторам отойти от академических представлений, принятых в лингвистической традиции. Базовое отличие LinkParser состоит в том, что используемая модель анализа является контекстно-свободной грамматикой.

Каждая единица словаря грамматики описывается формулой, состоящей из соединителей (коннекторов connector). Коннектор состоит из имени типа связи (например, S - субъект, О - объект, CL - сегмент и т.д.), в которую может вступать рассматриваемая единица анализа, и суффикса, определяющего вектор направления соединения (`+' право-направленный коннектор и `-' лево-направленный коннектор). Лево-направленный и право-направленный коннекторы одного типа образуют связь (соединение link). Так, два слова W1 и W2, имеющие словарные входы W1: A- и W2: A+, образуют соединение A в линейной последовательности W2W1, но не связаны в цепочке W1W2.

Язык формул, оперирующий коннекторами, использует четыре связки: оператор конъюнкции &, оператор дизъюнкции or, фигурные скобки {} для обозначения факультативности и неограниченность повторения @ (эквивалент оператора + Клини). Так, в формуле слова W: D- & {@A-} выражение `@A-' означает, что должна быть реализована связь с дескриптором A слева от W хотя бы один раз, и может повторяться неограниченное число раз; выражение `{@A-}' означает, что связь A факультативна. Конъюнкция несимметрична для однонаправленных коннекторов и задает строгий порядок слов в предложении: в формуле W: A+ & B+ слово, реализующее соединение A, должно находиться ближе к W в линейной последовательности предложения, чем слово, реализующее соединение B, в той же последовательности. Для разнонаправленных коннекторов конъюнкция симметрична: формулы W: A- & B+ и W: B+ & A- эквивалентны.

Проблема избыточности словаря решается в системе LinkParser путем разбиения слов английского языка на 23 класса, где каждому такому классу приписывается своя формула. Разумеется, существует слова и подмножества слов-исключений, которые получают отдельную от основных классов формульную интерпретацию (к ним относятся, например, описание модальных глаголов или референциальных местоимений). Слова обобщаются в классы по селективным и субкатегориальным признакам. В ходе анализа словам в системе приписываются значения их базовых классов - селективных признаков (`cat.n ran.v').

Тип коннектора задается именем, где начальные заглавные буквы являются базовым дескриптором, а нижний составной индекс, как правило, задает значение граммемы, что позволяет косвенно проверять согласование или необходимое управление при установлении связи (например, `S+' - существительное, `dogs ideas: Sp+' - существительное во множественном числе, `dog idea: Ss+' - существительное в единственном числе). Таким образом, могут соединяться либо равные коннекторы, либо два коннектора, один из которых выше уровнем: `Spa+' может соединяться с `S-', `Sp-' или `Spa-', но не с `Ss-' или `Spb-'.

В анализаторе LinkParser используется около ста различных коннекторов, которые различаются преимущественно нижнем индексом. Число базовых дескрипторов при этом сравнительно небольшое.

В LinkParser вводятся следующие общие структурные ограничения:

– проективность, которая констатирует, что связи между словами в предложении не пересекаются;

– полнота связей, которая диктует, что все слова в линейной последовательности должны быть соединены между собой;

– порядок, означающий, что в линейной цепочке предложения должен выполняться порядок реализации соединений, заданный в формуле несимметричной конъюнкцией для однонаправленных коннекторов;

– исключение, суть которого заключается в том, что для одной пары слов не может быть проведено больше одной связи.

Нетрадиционный характер модели, используемой анализатором LinkParser, заключается также в том, что разработчики отказались от системы составляющих, столь популярной для представления синтаксической структуры английского языка. Они используют формализм, в концептуальном плане близкий к теории зависимостей, описанной в работах создателя лингвистической теории «Смысл - Текст» И. Мельчука. В отличие от деревьев зависимостей, бинарные связи, строящиеся LinkParser, не содержат вершины и не имеют направления.

Используя информацию о селективных дескрипторах, приписанную терминальным единицам предложения, а также тип коннекторов, маркирующих соединения, можно транслировать построенную LinkParser проективную структуру (linkage) в классическое дерево зависимостей. Такая же трансляция возможна, когда рассматривается вложение соединений в дерево непосредственных составляющих, определенных в выходной структуре анализатора.

Алгоритм синтаксического анализа в процессоре LinkParser основан на методе динамического программирования [8]. Его суть в том, что в ходе анализа предложения все множество синтаксических единиц, входящих в предложение S, разбивается на перекрывающиеся подмножества (подзадачи) с сохранением исходного линейного порядка. В рамках такого порядка каждое такое подмножество является (в случае успешного построения связей между его элементами) поддеревом полного графа S и называется частичным решением (partial solution).

Для ускорения работы алгоритма синтаксического анализа в LinkParser предложен ряд решений, в том числе и эмпирических. Перед началом анализа устанавливается фильтр, удаляющий все дизъюнкты, содержащие «непарные» коннекторы: если для некоторого коннектора X- дизъюнкта D, принадлежащего словоформе W, слева в линейной последовательности S не найдено X+, то D будет удален, аналогично для право-направленного коннектора X+. Другой метод ускорения вводит эмпирическое ограничение на длину возможного соединения в зависимости от типа связи. Несмотря на применяемые методы оптимизации, тестирование системы показывает, что в большинстве случаев анализ сложных предложений, длина которых превышает 25-30 слов, приводит к комбинаторному взрыву. Результатом работы анализатора в этом случае становится “панический” граф, как правило, случайный вариант синтаксической структуры, зачастую несвязанной.

К сожалению, использование грамматики LinkParser для русского языка представляется невозможным по ряду причин. К их числу относятся следующие:

– основная идея грамматики, а именно - использование лево- и право-ветвящихся коннекторов, теряет свою силу для языка с относительно свободным направлением связей (особенно для глагольных групп);

– если предположить, что каждое возможное направление связи можно маркировать отдельным типом коннектора, то в этом случае резко возрастет как число базовых коннекторов, так и число дизъюнктов словоформ, что негативно сказывается на скорости работы процессора;

– избыточность и значительно возрастающий объем словаря, которые возникают в силу морфологической развитости флективного языка, когда каждая морфологическая форма описывается отдельной формулой, где нижний индекс входящего в нее коннектора должен будет обеспечить процедуру согласования, что приведет к усложнению составления коннекторов и к увеличению их общего числа в грамматике.

Тем не менее, LinkParser по праву считается одним из самых элегантных и детально проработанных решений задачи синтаксического анализа английского языка, а лингвистическая прозрачность грамматики и программная реализация алгоритмов на языке C придают процессору полную завершенность.

1.3 Синтаксический парсер лингвистического процессора ЭТАП-3

Синтаксический парсер лингвистического процессора ЭТАП-3 [12] определяет синтаксическую структуру фразы в виде дерева зависимостей, которое строится с помощью специальных правил (синтагм). Этих правил для каждого из рабочих языков системы (в данном случае - русского и английского) насчитывается несколько сотен. Все они бинарны. Этот факт означает, что любая синтагма позволяет связать некоторым синтаксическим отношением два слова фразы, если все условия этой синтагмы, описывающие контекст данной пары слов во фразе, выполнены. Более строго, синтагма связывает синтаксическим отношением не слова фразы, а некоторую пару омонимов этих слов, если они представлены в начале синтаксического анализа несколькими (морфологическими и/или лексическими) омонимами. Таким образом, омонимы слов фразы могут связываться синтаксическими отношениями независимо друг от друга.

В результате работы синтагм на первом этапе синтаксического анализа возникает граф гипотетических синтаксических связей (синтаксических гипотез). На дальнейших этапах синтаксического анализатора посторонние связи различными средствами отфильтровываются. Из графа синтаксических гипотез выделяется дерево синтаксической структуры фразы. Иными словами, в основе алгоритма синтаксического анализа системы ЭТАП-3 лежит так называемый “фильтровый метод”.

Проблемные вопросы, возникающие при работе парсера заключаются в следующем.

1. Посторонние интерпретации. Рассмотрим это на примере предложения Что делает правительство? слово правительство здесь является субъектом, подлежащим, а слово что - прямым дополнением глагола делает. С точки же зрения парсера это предложение допускает и другие интерпретации, например:

· слово что может интерпретироваться как подлежащее, а правительство - как дополнение при глаголе делает;

· слово что может интерпретироваться как союз, вводящий неполное предложение.

2. Избыточность. Если лингвист, обслуживающий систему, встречает в тексте синтаксическую конструкцию, не учтенную в синтагмах, то ему достаточно подправить одну из соответствующих синтагм или создать новую, чтобы возникло недостающее синтаксическое отношение. Однако часто бывает, что некоторая языковая конфигурация (скажем, последовательность словоформ, принадлежащих определенным лексико-грамматическим классам), будучи погружена в другие контексты, образует другую синтаксическую конструкцию и должна анализироваться уже иначе. Предусмотреть все эти контексты при написании синтагм, по-видимому, невозможно в принципе. Отсюда следует, что синтагмы неизбежно будут порождать в ряде случаев лишние, неверные синтаксические гипотезы. Как показывает опыт эксплуатации парсера ЭТАП'а-3, для больших фраз количество гипотез может достигать величины 20-30 n, где n - число слов фразы.

Система ЭТАП -3 использует следующие лингвистические ресурсы.

1. Корпус текстов. Система ЭТАП-3 находится в экспериментальной эксплуатации уже довольно давно, были синтаксически размечены десятки тысяч фраз из разного рода текстов (сейчас в корпусе текстов около 37 000 фраз). Все синтаксические структуры этих фраз сначала «начерно» строились системой ЭТАП-3, а затем вручную редактировались специалистами-лингвистами.

2. Для преодоления избыточности и оптимизации процесса выделения правильной синтаксической структуры из графа гипотетических связей применяют ранжирование синтаксических гипотез, порождаемых синтагмами, с помощью внедрения в правиловую систему обучающего статистического компонента. Таким образом, синтаксический анализатор ЭТАП-3 использует эмпирическую статистику, порожденную лингвистом-экспертом, который извлекает уроки из работы пусть несовершенной, но живой синтаксической системы и производит все более тонкую настройку этой системы. Этим достигаются две цели: расширяются рамки возможностей построенной лингвистом действующей модели языка; точнее определяются границы этих возможностей. Это приводит к тому, что правильная структура выделяется первой или одной из первых.

1.4 SyntAutom

SyntAutom [4] - система, основанная на правилах, построенных вручную. Система использует:

– морфорологический словарь;

– словарь валентности глаголов (создан вручную, насчитывает 12 тыс. глаголов);

– базу частотности морфологическиих интерпретаций слов, базу частотности бинарных отношений зависимости между парами лексических единиц, (вычисляются по большому автоматически размеченному корпусу);

– эмпирические веса, добавляемые, когда автомат пересекает некоторые состояния автомата.

Отличительная черта этой системы в том, что она имеет тенденцию непосредственно связывать значимые слова, тогда как вспомогательные слова переносятся на более низкие уровни дерева зависимостей.

Ограничения и особенности работы системы [4]:

– связи, которые отражаются в дереве зависимостей в ряде случаев описывают зависимости семантические, а не синтаксические;

– предлоги система подчиняет существительным, которыми они управляют;

– главный предикат подчиненной клаузы считается подчиненным главному предикату главной клаузы (клауза - простое предложение в составе сложного);

– считается, что предикат может быть выражен только глаголом, предложения без предиката разбираются как бессвязные;

– жертвуют некоторыми потенциальными разборами для отсечения ложных анализов и роста комбинаций;

– конструкции с выразительным союзом «и» система не разбирает;

– допускается контекстная субстантивация прилагательных («Коричневый идёт вашим глазам»);

– выполняют винительно-родительную трансформацию в отрицательных предложениях («Я вижу собаку ->Я не вижу собаки »).

Преимущества применяемого в системе [4] метода:

– синтаксическая и морфорологическая неоднозначность разрешаются одновременно в рамках унифицированного подхода;

– явное описание переходом автомата обеспечивает гибкий способ управления процессом парсинга текста;

– состояния автомата, реализующего парсинг текста в данной системе, зачастую предоставляет больше информации, чем в состоянии обеспечить контекстно-свободная грамматика;

– к системе можно легко добавлять «локальные» функции, которые вызываются только в специфических условиях.

Системе присущи общие трудности, характерные для большинства систем, основанных на правилах:

– трудно согласовать эмпирические веса с весами, которые формируются статистической моделью;

– существуют пределы, за которыми трудно увеличить грамматическое покрытие, что обусловлено комбинаторным ростом вариантов синтаксического разбора и падением точности синтаксического анализа.

1.5 SemSin

SemSin [6] - это семантико-синтаксический анализатор, в задачи которого входит снятие частеречной и морфологической омонимии, построение синтаксического дерева зависимостей и частичное снятие лексической неоднозначности. Система создана небольшим коллективом в «достаточно сжатые» сроки.

Использует следующие лингвистические ресурсы.

1. Словарь и классификатор В. А. Тузова, созданный на основе морфологического словаря А.А. Зализняка. При определении семантики использовался словарь С.А. Кузнецова. В нём каждая лексема содержит морфологические характеристики, а также номер своего класса и модели управления слов (актанты вызываемых ею лексем в виде падежей или предлогов с соответствующими падежами). Словарь содержит общеупотребительные слова, названия и имена собственные.

2. База фразеологизмов обеспечивает разбор трех типов словосочетаний: неизменяемых (несмотря ни на что, вдалеке от), с изменяемым первым словом (гвоздь программы) и полностью изменяемых (белая ворона).

3. База предлогов, хранящая классы существительных, с которыми они взаимодействуют, и названия связей с хозяевами предложных групп («хозяин» - главное слово в синтаксической группе).

4. База продукционных правил (около 210).

В процессе анализа предложения система сегментирует его, устанавливает главное слово сегмента («центр сегмента»), может объединять сегменты, подчинять их. Исходное предложение разбивается по знакам пунктуации на отдельные сегменты. Каждому сегменту при этом присваивается свой тип, исходя из наличия/отсутствия подчинительного союза или глагольной формы. После завершения работы сегментации проводится построение именных и предложных групп внутри сегментов Таким образом в первой фазе синтаксического анализа определяется топологическая структура предложения (выделение глагольных групп и сегментов), во второй фазе происходит выделение фразовых категорий в пределах, определенных границами сегментов. Следовательно, в первой фазе анализ предложения проводится «сверху вниз», во второй - «снизу вверх», но на фрагментах меньше длины предложения. Следует отметить, что идея необходимости разделения сегментационного и непосредственно синтаксического (в смысле установление связей между отдельными словами) анализа - параллельное построение сверху и снизу структуры предложения - существовала в московской прикладной лингвистике еще в 1970-ые годы. Такая стратегия позволяет значительно снизить объем необходимых для ее реализации вычислений.

В описание процессора не включена информация о построении или разрешении синтаксической омонимии на уровне сегментов, то есть возможность рассмотрения структурных вариантов сегментации предложения с разными границами сегментов. Нет также упоминания о сочинении предикатов - важной составляющей анализа для правильного определения границ сегментов. Следует также отметить, что время анализа линейно зависит от длины предложения.

1.6 Анализ ответов систем: проблемные точки

Организаторами форума «Оценка методов автоматического анализа текста 2011-2012: синтаксические парсеры русского языка» в работе упомянутых систем выделены следующие «проблемные точки разбора» [7].

1. Если в предложении находится несколько потенциальных хозяев, то системы выбирают либо линейно предшествующее существительное, либо вершинный глагол, либо ближайший финитный глагол в дереве. Однако не все такие варианты будут семантически оправданы.

2. Большинство систем не смогло справиться с примером, в котором присутствуют три однородных определения вида X, Y и Z, относящихся к одному существительному.

3. Многие системы ошибаются при обработке идиоматических конструкций «малого синтаксиса», если срабатывают альтернативные, характерные для русского языка шаблоны, (Например, в предложении Что такое обучение - ошибочно приписывают атрибутивную связь в паре обучение > такое).

4. Часто наблюдаются трудности, связанные с нахождением вершины в предшествующей клаузе.

5. В сложных предложениях, безусловно, ошибок больше. Часто наблюдаются трудности с нахождением вершины в предшествующей клаузе. Могут оставаться незамеченными вершины-существительные или связки типа есть.

В числе наиболее частых случаев, в которых у систем наблюдаются расхождения, отмечены [7]: «неодносложные союзы и предлоги, сложные слова с дефисным написанием; связь между однородными членами, между главной и подчиненной клаузой, между сочиненными клаузами (включая интерпретацию союзов), союз в начале главной клаузы; глагол-связку с инфинитивами, именами, прилагательными, причастиями; группы с количественными и порядковыми числительными (включая предложные и с модификаторами типа более, минимум); связь подлежащего с именным сказуемым; связь в группах вида `прилагательное + прилагательное + существительное'».

2. ОРГАНИЗАЦИЯ АВТОРСКОЙ СИСТЕМЫ СИНТАКСИЧЕСКОГО АНАЛИЗА ТЕКСТОВ

В ходе выполнения исследований по рассматриваемой теме авторами предложен единый подход к обработке неструктурированных текстов на русском и английском языках. В рамках этого подхода объединены в едином комплексе морфология и синтаксис, а также утилиты статистического анализа текста с целью создания программного обеспечения для понимания неструктурированной текстовой информации. Создана система семантико-синтаксического анализа предложений русского и английского языка, которая позволяет выделить предикатные структуры предложений текста и построить деревья синтаксического подчинения предложений. На всех этапах работы системы используется многоуровневое представление текста (слова, словосочетания, предложения), допускающее несколько интерпретаций элементов текста, каждое из которых сохраняется. Также представление несколько избыточно. Однако оно даёт возможность изменить интерпретацию отдельных структурных элементов текста (лексические и нелексические единицы, словосочетания, предикатные структуры предложений) или их совокупности, если такая необходимость возникнет на более поздних этапах обработки текста (синтаксический, семантический, прагматический). Это обстоятельство делает лингвистический процессор более гибким и надёжным. Предложенное представление структурных элементов текста позволяет также отследить употребление в тексте неизвестных системе лексических единиц (регистр, наличие потенциальных словоизменительных форм), что даёт возможность выделить кандидатов на роль имен собственных, аббревиатур и сокращений.

Рассмотрим организацию отдельных модулей системы более подробно.

2.1 Модуль морфологического анализа

В ходе работы модуля морфологического анализа лексических единиц текста эти единицы последовательно подвергаются следующим видам анализа.

1. Декларативный морфологический анализ [9], использующий такие базы словоформ, как

– общеупотребительные слова;

– фамилии, имена и отчества.

2. Морфологический анализ слов с дефисным написанием [10] на основе декларативного морфологического анализа и правил согласования частей составного слова.

3. Бессловарный морфологический анализ [11], результаты которого фильтруются с помощью словарей начальных форм:

– словарь географических названий;

– пользовательский словарь имен собственных;

– пользовательский словарь административных названий;

– пользовательский словарь общеупотребительных слов.

4. Бессловарный морфологический анализ, результаты которого уточняются на основе анализа частоты употребления в тексте «несловарных» лексических единиц с учетом регистра и потенциальных словоизменительных форм.

Анализ лексических единиц выполняется в изложенной последовательности. В случае, если на некотором шаге получена одна или несколько интерпретаций слова (леммы и морфологической информации), то последующие шаги не выполняются. На шаге 3 «Бессловарный морфологический анализ, результаты которого фильтруются с помощью словарей начальных форм», интерпретациями слова считаются только те результаты бессловарного морфологического анализа, которые принадлежат хотя бы одному словарю начальных форм. Используемый при этом список словарей начальных форм является открытым. Это означает, что наряду с приведенными словарями начальных форм могут использоваться аналогичные словари для специфических предметных областей.

Средства декларативного морфологического анализа общеупотребительных слов программно реализованы и апробированы для слов русского и английского языка. Используемые на остальных шагах средства морфологического анализа связаны с анализом слов русского языка.

Следует отметить положительный эффект использования метода морфологического анализа, реализованного в системе. Он позволяет сочетать средства декларативного и бессловарного морфологического анализа, правил морфологического анализа слов с дефисным написанием при условии сохранения всех интерпретаций слов. Такой вывод основывается на анализе результатов форума «Оценка методов автоматического анализа текста: морфологические парсеры русского языка» [12]. Организация одной из участвовавших на этом форуме систем (РДМА_ИПИИ) была принята в качестве основы для системы, которая рассматривается далее. Используемые в ней словарные базы откорректированы после устранения ошибок и неточностей, обнаруженных в РДМА_ИПИИ, и дополнены после совершенствования алгоритмов морфологического анализа слов с дефисным написанием.

Результаты бессловарного морфологического анализа слов русского языка в системе РДМА_ИПИИ с большой вероятностью содержали правильную интерпретацию отдельного слова. Однако они содержали и ряд «побочных» интерпретаций, не являющихся словами русского языка. Это создавало определенные трудности, поскольку рост количества интерпретаций слова замедляет анализ текста на последующих этапах его обработки. Перечень результатов бессловарного морфологического анализа удалось в значительной мере сократить по сравнению с системой РДМА_ИПИИ за счёт использования словарей начальных форм (специфических и пользовательских), а также уточнения результатов вероятностными методами.

Для реализации предложенного метода потребовалось создать средства декларативного морфологического анализа слов английского языка. Метод декларативного морфологического анализа слов состоит в явном задании парадигмы слова как набора словоформ, каждая из которых представлена написанием и морфологической информацией. При этом впервые сделана попытка описания слов английского языка с помощью предложенной системы представления отдельных значений грамматических категорий и их сочетаний. языковой текст синтаксический парсер

Морфологическая информация хранится в виде набора битовых полей, что отвечает требованиям компактности, однозначности и простоты извлечения отдельных морфологических характеристик словоформы. Таблица 1 содержит перечень обозначений с помощью чисел и макроопределений, используемых в системе для задания морфологической информации слова английского языка. Эти обозначения значений подобраны так, чтобы совпадали одинаковые значения одних и тех же категорий для русского и английского языка. В столбце «Совпадает с русским» такие обозначения помечены символом `+'. Морфологическую информацию словоформы формируем применением побитового «или», например: _Noun_en | _Nominative_en | _Singular_en.

Значение определенной грамматической категории для слова по его морфологической информации находятся с помощью масок категорий (см. табл. 2). Отметим, что численные значения масок категорий для русского и английского языка совпадают.

Таблица 1 Значения грамматических категорий для английского языка

*Обозначение в программе*	*Грамматические категории*	*Совпадает с русским*
Число	Макроопределение	Категория	Значение
0x00000001	_Nominative_en	Падеж	Именительный	+
0x00000002	_Prityag_en		Притяжательный	-
0x00000003	_Objekt_en		Объектный падеж	-
0x00000004	_PritagAbsol_en		Притяжательный абсолютный	-
0x00000008	_Masculine_en	Род	Мужской	+
0x00000010	_Feminine_n		Женский	+
0x00000018	_Neuter_en		Средний	+
0x00000020	_Singular_en	Число	Единственное	+
0x00000040	_Plural_en		Множественное	+
0x00000080	_Pres_en	Время	Настоящее	+
0x00000100	_Future_en		Будущее	+
0x00000180	_Past_en		Прошедшее	+
0x00000200	_FaceFir_en	Лицо	1-е	+
0x00000400	_FaceSec_en		2-е	+
0x00000600	_FaceThi_en		3-е	+
0x00000800	_Active_en	Залог	Действительный	+
0x00001000	_Passive_en		Страдательный	+
0x00002000	_ComparativeFormOfAdj_en	Степень сравнения	Сравнительная	+
0x00004000	_ExellentFormOfAdj_en		Превосходная	+
0x00008000	_Verb_en	Часть речи	Глагол	+
0x00010000	_Participle_en		Причастие	+
0x00018000	_Gerund_en		Деепричастие	+
0x00020000	_Adjective_en		Прилагательное	+
0x00028000	_Noun_en		Существительное	+
0x00030000	_Pronoun_en		Местоимение	+
0x00038000	_Numeral_en		Числительное	+
0x00040000	_AdVerb_en		Наречие	+
0x00048000	_Preposition_en		Предлог	+
0x00050000	_Conjunction_en		Союз	+
0x00058000	_Particle_en		Частица	+
0x00060000	_Interjection_en		Междометие	+
0x00070000	_Article_en		Артикль	-
0x00078000	_ComparativeWord_en		Сравнительное слово	+
0x00080000	_Animate_en	Одушевлен-ность	Одушевленное	+
0x00100000	_NotAnimate_en		Неодушевленное	+
0x00200000	_ReturnPron_en		Возвратно-усилительное местоимение	-
0x00400000	_2st_Verb_form_en	Форма глагола	Прошедшее неопределенное время действительного залога	-
0x00800000	_3st_Verb_form_en		Причастие прошедшего времени	-
0x00C00000	_4st_Verb_form_en		Причастие настоящего времени	-
0x01000000	_Count_en	Тип числительного	Количественное	+
0x02000000	_Ordinal_en		Порядковое	+
0x04000000	_DefiniteArt_en	Тип артикля	Неопределенный	-
0x08000000	_IndefiniteArt_en		Определенный	-
0x10000000	_IndefiniteT_en	Группы времен	Простое	-
0x20000000	_Continuous_en		Длительное	-
0x30000000	_Perfect_en		Совершенное	-
0x40000000	_PerfectContinuous_en		Совершенное длительное	-

Применив операцию побитового «и» к значению морфологической информации словоформы и маски определенной категории, можем получить значение этой грамматической категории для словоформы. Если словоформе категория присуща - получим ненулевое значение. Например, определение значения категории числа происходит путем применения операции побитового «и» для значения морфологической информации и маски категории. Если словоформе категория не присуща, то результат этой операции равен 0. Приведем пример определения значения категории «число» для слова, морфологическая информация которого хранится в переменной MI:

MI & count_mask_en

Результат: _Singular_en, _Plural_en или 0.

Таблица 2 Маски категорий морфологической информации

*Числовое значение*	*Макроопределение*	*Маска категории*
0x00000007	case_mask_en	Падеж
0x00000018	rod_mask_en	Род
0x00000060	count_mask_en	Число
0x00000180	time_mask_en	Время
0x00000600	face_mask_en	Лицо
0x00001800	active_passive_mask_en	Залог
0x00006000	adjfrm_mask_en	Степень сравнения, краткость
0x00078000	part_of_speech_mask_en	Часть речи
0x00180000	animate_mask_en	Одушевлённость
0x00C00000	aspect_of_verb_mask_en	Вид глагола
0x03000000	number_type_mask_en	Тип числительного
0x0C000000	article_type_mask_en	Тип артикля
0x70000000	tence_group_mask_en	Группы времен

Все словарные формы, включенные в парадигму, состоят из одного слова и могут быть отличны друг от друга по написанию. Из одной словоформы состоят парадигмы следующих частей речи: наречие, союз, междометие, предлог. Примеры парадигм остальных частей речи приведём в таблице 3.

Таблица 3 Примеры парадигм изменяемых частей речи английского языка

*Часть речи*	*Напи-сание*	*Лемма, 1/0*	*Морфологическая информация*
Прилага-тельное	angry	1	_Adjective_en
	angrier	0	_Adjective_en \| _ComparativeFormOfAdj_en
	angriest	0	_Adjective_en \| _ExellentFormOfAdj_en
Сущест-вительное	project	1	_Noun_en \| _Singular_en
	project's	0	_Noun_en \| _Singular_en \| _Prityag_en
	projects	0	_Noun_en \| _Plural_en
	projects'	0	_Noun_en \| _Plural_en \| _Prityag_en
Местоиме-ние	you	1	_Pronoun_en \| _Singular_en \| _FaceSec_en \| _Nominative_en
	you	0	_Pronoun_en \| _Singular_en \| _FaceSec_en \| _Objekt_en
	your	0	_Pronoun_en \| _Singular_en \| _FaceSec_en \| _Prityag_en
	yours	0	_Pronoun_en \| _Singular_en \| _FaceSec_en \| _PritagAbsol_en
	yourself	0	_Pronoun_en \| _Singular_en \| _FaceSec_en \| _ReturnPron_en
	you	1	_Pronoun_en \| _Plural_en \| _FaceSec_en \| _Nominative_en
	you	0	_Pronoun_en \| _Plural_en \| _FaceSec_en \| _Objekt_en
	your	0	_Pronoun_en \| _Plural_en \| _FaceSec_en \| _Prityag_en
	yours	0	_Pronoun_en \| _Plural_en \| _FaceSec_en \| _PritagAbsol_en
	yourselves	0	_Pronoun_en \| _Plural_en \| _FaceSec_en \| _ReturnPron_en
	I	1	_Pronoun_en \| _Singular_en \| _FaceFir_en \| _Nominative_en
	me	0	_Pronoun_en \| _Singular_en \| _FaceFir_en \| _Objekt_en
	my	0	_Pronoun_en \| _Singular_en \| _FaceFir_en \| _Prityag_en
	mine	0	_Pronoun_en \| _Singular_en \| _FaceFir_en \| _PritagAbsol_en
	myself	0	_Pronoun_en \| _Singular_en \| _FaceFir_en \| _ReturnPron_en
Глагол	go	1	_Verb_en
	went	0	_Verb_en \| _2st_Verb_form_en
	gone	0	_Verb_en \| _3st_Verb_form_en
	going	0	_Verb_en \| _4st_Verb_form_en
	goes	0	_Verb_en \|_Pres_en \| _IndefiniteT_en \| _FaceThi_en \| _Singular_en

Каждая словоформа парадигмы описывается тремя значениями: написанием; пометкой, указывающей, является словоформа леммой (1) или нет (0); значением морфологической информации как совокупности значений отдельных грамматических категорий, объединенных операцией побитового «или» (в табл. 3 обозначена символом `|').

Только для местоимений используются следующие значения грамматической категории «падеж»: «Именительный», «Объектный падеж», «Притяжательный абсолютный».

Для русского и английского языков результаты морфологического анализа дополняются результатами графематического анализа. На этапе графематического анализа получают интерпретацию элементы или последовательности элементов текста, которые на последующих этапах анализа текста будут рассматриваться как единое целое (обобщенный базовый элемент) определённого типа:

- нелексическая единица (телефонный номер, обозначение даты и времени, адрес электронной почты, адрес интернет, имя файла, комбинация клавиш, смайлик);

- сокращение, аббревиатура;

- слово, написанное «вразрядку»;

- группа лексических единиц (фамилия с инициалами; географические и административные названия, состоящие из одного и более слов; имена собственные, состоящие из одного и более слов; устойчивые словосочетания и обороты, неодносложные предлоги; идиоматические выражения).

Объединение лексических единиц в группы выполняется на основе анализа написаний этих единиц и написаний их лемм. Если некоторая последовательность написаний лексических единиц/написаний лемм лексических единиц принадлежит словарю географических названий, словарю имен собственных, словарю административных названий, базе устойчивых словосочетаний и оборотов или базе идиоматических выражений, то эта последовательность объединяется в группу лексических единиц.

Интерпретация слов, написанных вразрядку, и упомянутых групп лексических единиц включает в себя одно или несколько значений морфологической информации. Это позволяет на этапах синтаксического и семантического анализа оперировать не несколькими лексическими единицами, а одним обобщенным базовым элементом. Во многих случаях количество интерпретаций обобщенного базового элемента значительно меньше количества интерпретаций входящих в него лексических единиц. За счет уменьшения, таким образом, количества анализируемых единиц предложения и количества их интерпретаций ускоряется процесс анализа и снижает неоднозначность его результатов, поскольку упомянутые единства в тексте зачастую упоминаются как одна смысловая единица. При этом подобные объединения лексических единиц не приводят к потере данных. Согласно предложенному методу используется многоуровневое представление текста. Оно, с одной стороны, сохраняет все данные, полученные на более ранних этапах обработки, а с другой - позволяет получить представление о структурных элементах текста: лексических единицах, группах лексических единиц и нелексических единицах текста. Такое представление позволяет упростить и ускорить синтаксический анализ текста. Кроме того, оно даёт возможность изменить интерпретацию отдельных структурных элементов текста или их перечень, если такая необходимость возникнет на более поздних этапах обработки текста (синтаксический, семантический, прагматический), что сделает лингвистический процессор более гибким и надёжным.

2.2 Модуль семантико-синтаксического анализа

Кратко опишем особенности метода синтаксического анализа, реализованного в данном модуле, и их влияние на эффективность его работы. При этом будем оперировать понятием «обобщенный базовый элемент», понятием сегмент.

Сегмент определяется следующими значениями:

– последовательность элементов, составляющих «тело» сегмента каждый из которых является или обобщенным базовым элементом или сегментом;

– левая и правая границы сегмента;

– № элемента сегмента, являющегося главным словом в сегменте (этот элемент при анализе сегмента, являющегося родительским по отношению к данному, будет «представлять» весь сегмент); перечень интерпретаций главного слова сегмента, которые представляют сегмент.

Структуры данных, описывающие сегмент и обобщенный базовый элемент, также содержат поля для хранения альтернативной интерпретации сегмента. Альтернативная интерпретация (написание и его морфологическая информация) может «представлять» весь сегмент в родительском сегменте. В качестве написания альтертернативной интерпретации используем местоименные слова: тогда-то; потому-то; там-т;, такой-то; тот-то; так-то; тому-то; то-то; затем-то. Это нужно, если обобщенный базовый элемент представляет собой идиоматическое выражение или сегмент соответствует неморфологизированному члену предложения (член предложения, представленный неспециализированной формой для занимаемой синтаксической позиции [13], например: … нашел угол за недорого. (А. Рыбаков) в значении такой-то угол).

При анализе предложения в рамках рассматриваемого метода выполняются следующие шаги.

1. Выделение в отдельные сегменты последовательностей слов фрагмента:

а) сложных числительных;

б) последовательностей наречий, предшествующих прилагательному;

в) групп слов, состоящих из существительного и последовательности предшествующих ему прилагательных/причастий/порядковых числительных, согласующихся с существительным;

г) групп слов, состоящих из глагола и последовательности предшествующих ему наречий.

Эти операции выполняются в указанной последовательности. При этом в выделенной последовательности слова не должны быть разделены ни знаками препинания, ни союзами или другими словами.

	Выделение слов сегмента	Слова, «представляющие» элементы сегмента
	Заботливый папа немедленно подарил мальчику двадцать вторую очень маленькую красную машинку	Заботливый папа немедленно подарил мальчику двадцать вторую очень маленькую красную машинку
а)	Заботливый папа немедленно подарил мальчику (двадцать вторую) очень маленькую красную машинку	Заботливый папа немедленно подарил мальчику вторую очень маленькую красную машинку
б)	Заботливый папа немедленно подарил мальчику (двадцать вторую) (очень маленькую) красную машинку	Заботливый папа немедленно подарил мальчику вторую маленькую красную машинку
в)	Заботливый папа (немедленно подарил) мальчику (двадцать вторую) (очень маленькую) красную машинку	Заботливый папа подарил мальчику вторую маленькую красную машинку
г)	(Заботливый папа) (немедленно подарил) мальчику ((двадцать вторую) (очень маленькую) красную машинку)	папа подарил мальчику машинку

Такой подход позволяет сократить количество элементов, которые подлежат анализу далее. Как легко заметить здесь не возникает упомянутая в работе [7] трудность нахождения связи «в группах вида `прилагательное + прилагательное + существительное'».

...

Страница:

статья "Сравнительный анализ организации систем синтаксических парсеров" скачать

Подобные документы

Синтаксические связи и средства выражения синтаксических отношений во французском языке
Анализ синтаксических связей и синтаксических отношений во французском языке. Структурно-семантические типы синтаксических связей, их функции. Средства выражения синтаксических отношений на примере отрывка из романа Теофиля Готье "Le Capitaine Fracasse".

курсовая работа [32,4 K], добавлен 17.05.2009
Инверсия как одно из синтаксических средств организации эмоционально-экспрессивных предложений
Выявление способов выражения эмоциональной характеристики высказывания. Анализ инверсии как одного из синтаксических средств организации эмоционально-экспрессивных предложений, служащих для реализации категории эмоциональной экспрессии в английском языке.

курсовая работа [35,7 K], добавлен 31.10.2014
Структурно-семантические трансформации в научно-техническом тексте при машинном переводе в современном английском языке
Изучение морфологических и синтаксических особенностей научно-технического стиля, в аспекте применения автоматизированных средств перевода. Анализ принципа работы и типов систем машинного перевода. Сравнение текстов, переведенных машиной и переводчиком.

дипломная работа [4,0 M], добавлен 20.06.2011
Синтаксические особенности перевода научно-популярного текста маркетинговой тематики
Обзор выявления в оригинале конструкций, требующих синтаксических трансформаций при переводе, их классификации и анализа способов перевода. Описания перевода при помощи перестановок, членения и объединения предложений, синтаксических проблем перевода.

курсовая работа [49,1 K], добавлен 29.12.2011
Стили речи
Стилистическая организация речи как система языковых элементов внутри литературного языка. Реализация cтилей в определенных формах и типах текстов. Совокупность лексических, грамматических и синтаксических особенностей письменной речи в различных жанрах.

реферат [25,2 K], добавлен 23.05.2009
Сложное предложение
Понятие сложного предложения. Проблема определения. Сложное предложение в разных синтаксических аспектах. Сложноподчиненные предложения. Их классификации. Сложносочиненные предложения. Бессоюзные сложные предложения. Многокомпонентные предложения.

дипломная работа [60,9 K], добавлен 03.12.2007
Разработка алгоритма работы синтаксического анализатора текста, а также базы данных синтаксических правил русского языка
Фундамент синтаксического анализа. Словоизменительные морфологические средства. Структура системы синтаксического анализатора текста и используемая методика анализа текста. Графематический и фрагментационный анализ. Структура морфологического словаря.

курсовая работа [194,3 K], добавлен 24.06.2012
Отражение активных процессов русского языка в прозе первого десятилетия XXI века (лексика, синтаксис)
Исследование лексических и синтаксических языковых процессов в русской прозе начала ХХI века. Анализ сущности активных процессов в языке современной прозе. Приемы интертекстуальности в языковой композиции. Лексико-синтаксические особенности текстов прозы.

дипломная работа [84,7 K], добавлен 18.06.2017
Семантика синтаксических связей при переводе
Понятие семантики как раздела языкознания. Сущность, функции и типы синтаксических связей. Проблема эквивалентности в переводе. Взаимодействие типов синтаксической связи при переводе. Синтаксические преобразования на уровне словосочетаний и предложений.

курсовая работа [111,3 K], добавлен 09.04.2011
Особенности официально-деловой лексики
Характерные черты официально-делового стиля. Виды официально-деловой документации. Употребление официально-делового стиля в языке дипломатических документов. Закономерности применения грамматических и синтаксических конструкций в организации текстов.

дипломная работа [188,9 K], добавлен 03.07.2015
Анализ синтаксических средств выразительности в текстах песен Ника Кейва
Понятие и классификация средств выразительности в английском языке. Сущность таких средств выразительности как параллелизма, анафоры, эпифора. Ритмообразующая и выделительно-усилительная функции синтаксических фигур; поиск их в текстах песен Н. Кейва.

курсовая работа [55,4 K], добавлен 25.06.2016
Синтаксическое учение Теньера
История синтаксических исследований. Предложение как основная единица синтаксиса. Структурный аспект изучения предложения, члены предложения и проблемы их изучения. Синтаксический уровень в учении Теньера. Работа Теньера "Основы структурного синтаксиса".

курсовая работа [64,3 K], добавлен 26.02.2011
Синтаксический стилистический повтор как средство изобразительности в художественном тексте
Специфика синтаксических стилистических приемов как средства изобразительности. Синтаксические стилистические средства в художественном тексте. Основные функции синтаксических повторов в произведениях английской и американской художественной литературы.

дипломная работа [51,9 K], добавлен 23.06.2009
Предложение с расширенной синтаксической структурой на примере романа О. Де Бальзака "Eugеnie Grandet"
Виды расширенных синтаксических структур. Однородные члены предложения и семантика однородных членов, сущность и значение предикации. Общие положения об осложненном и сложном предложении. Бессоюзное, сложносочиненное и сложноподчиненное предложения.

дипломная работа [49,3 K], добавлен 17.05.2012
Документационная грамотность общества, обусловленная прочностью закрепления характерных признаков документов в сознании носителей языка
Исследование языковых норм деловой письменной речи. Анализ лексико-фразеологических, морфологических, синтаксических особенностей функционального стиля. Правила композиции документа и связности текста. Особенности фразеологии в деловой коммуникации.

реферат [79,6 K], добавлен 26.12.2010
Богатство речи
Изучение речевой культуры и богатства русской речи посредством анализа лексических, фразеологических и грамматических синонимов и вариантов синтаксических конструкций и интонаций. Словообразование и функциональные стили как источники речевого богатства.

реферат [25,0 K], добавлен 01.12.2010
Сложноподчинённые предложения
Понятие, виды и способы образования сложных синтаксических конструкций в русском литературном языке. Основные правила расстановки знаков препинания в сложноподчинённых предложениях с несколькими придаточными. Типичные ошибки в построении предложений.

реферат [46,4 K], добавлен 21.01.2012
Сложное синтаксическое целое
Тематические предложения, служащие для полного развития мысли. Функционально-смысловые типы текста в сложном синтаксическом целом. Повествовательный текст, его применение. Описание, статичность речевой формы. Ошибки в построении синтаксических целых.

презентация [2,1 M], добавлен 26.01.2011
Речевые ошибки
Характеристика лексических, морфологических, синтаксических, стилистических и коммуникативных ошибок. Анализ конкретных речевых материалов с точки зрения орфографии и грамматики. Изучение основных нарушений коммуникативных норм: неуважение, грубость.

контрольная работа [37,8 K], добавлен 29.01.2010
Инфинитив и его синтаксические функции в русском языке
Морфолого-синтаксический аспект истории русского инфинитива. Описание синтаксических функций инфинитива в пределах предикативного центра простого предложения и как распространителя предикативного центра простого предложения в современном русском языке.

курсовая работа [47,7 K], добавлен 06.03.2011

Другие документы, подобные "Сравнительный анализ организации систем синтаксических парсеров"

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.