Лингвистическая трансляция сложных и эллиптических ЕЯ-предложений
Сущность, разбор эллиптических предложений, особенности и описание трансляции сложных предложений. Характеристика процесса обработки семантически неполных предложений. Структура "связок" фраз в сложных предложениях, представления семантического эллипсиса.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | реферат |
Язык | русский |
Дата добавления | 09.01.2016 |
Размер файла | 30,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Лингвистическая трансляция сложных и эллиптических ЕЯ-предложений
Г.К. Хахалин
Введение
Лингвистический транслятор (ЛТ), описанный в [Хахалин, 1998], состоит из лингвистического процессора (ЛП) и лингвистической модели (ЛМ). ЛП осуществляет трансляцию ЕЯ М_язык, где М-язык представляет собой описание модели проблемной среды. ЛМ играет роль базы знаний ЛП о входном ЕЯ, М_языке и о соотнесении элементов и конструкций ЕЯ с элементами и конструкциями М_языка. ЛП осуществляет три отображения: - грамматический разбор, - семантическая интерпретация, - проблемный анализ. Для данной структуры транслятора используются три модели: грамматическая модель ЕЯ (словарь транслятора и синтаксическая модель), модель проблемной области и модель интерпретации слов, словосочетаний и составляющих ЕЯ-текста в понятия, отношения, структуры и фрагменты модели проблемной среды. Поскольку ЛТ не имеет возможности непосредственно интерпретировать элементы ЕЯ-текста объектами реального мира, то эта интерпретация реализуется элементами модели предметной области (т.е. элементами "модели мира"), что и определяет семантику ЕЯ.
ЛП содержит два компонента: один базовый, второй расширенный. Базовый компонент транслятора обеспечивает перевод с ЕЯ на язык модели предметной области полных простых фраз или предложений. Расширенный компонент предназначен для трансляции элементов связного текста и, в частности, осложненных, сложных и эллиптических предложений. ЛТ любое сложное предложение разбивает на простые фразы, и каждая фраза транслируется базовым компонентом. Разбор сложных и эллиптических предложений необходимо рассматривать вместе, поскольку «разбивка» осложненных и сложных предложений часто порождает неполные фразы, которые необходимо связывать с другими фразами предложения. Кроме этого существует самостоятельная задача разбора отдельных неполных ЕЯ-предложений.
1. Разбор эллиптических предложений
Эллипсисы характеризуются неполнотой. Формально можно предположить, что эллиптичность проявляется как на уровне синтаксиса, так и на уровне семантики.
В рассматриваемом методе анализа синтаксическим эллипсисом будет такое правильно построенное предложение , для которого справедливо
,
т.е. в предложении существует, по крайней мере, одно такое слово , для которого нельзя найти фрагмент, расширяющий связную структуру синтаксических фрагментов (предложение считается синтаксически разобранным полностью, если оно «покрыто» фрагментами и эти фрагменты образуют связную структуру; более подробные определения полного и связного покрытия даны в [Кузин и др., 1989]). Для семантических эллипсисов существует аналогичное условие.
Обработка эллипсисов включает два этапа: восстановление их до полных фраз за счет дискурса и трансляция восстановленных фраз с помощью базового компонента. В качестве дискурса используется локальный дискурс (для сложного предложения) или глобальный дискурс (для простых неполных предложений). Отсутствие дискурса или невозможность корректного восстановления эллипсиса характеризует нарушение связности ЕЯ-текста или неполноту соответствующей модели.
Восстановление эллипсисов включает поиск аналогичных фрагментов дискурса и эллипсиса и добавление из дискурса в эллипсис недостающих элементов с их возможной коррекцией. Если рассмотреть задачу доступа к базам данных на ЕЯ (например, в кадровой задаче) и в качестве текста для ЛТ задать последовательность предложений Сколько сотрудников отдела маркетинга получают зарплату больше 100 долларов? и Отдела снабжения?, то второе предложение будет синтаксическим эллипсисом. Сопоставление дискурса и эллипсиса даст соответствия отдела Отдела и маркетинга снабжения, а добавления из дискурса в неполную фразу дадут в результате полностью восстановленный эллипсис в виде:
Сколько сотрудников отдела снабжения получают зарплату больше 100 долларов?
2. Трансляция сложных предложений
Существует несколько подходов к синтаксическому разбору сложных предложений [Кобзарева и др., 2000], [Невзорова и др., 2000]. В данной работе предлагается метод лингвистической трансляции сложных предложений, включая синтаксический разбор, интерпретацию с целью получения структурного описания на языке модели проблемной среды и проблемный анализ.
Трансляция сложных предложений основана на базовом компоненте для полных фраз и на схеме трансляции эллипсисов для неполных фраз. Трансляция включает следующие этапы: разбивка сложного предложения на фразы по структурным признакам «усложнения»; получение текущей фразовой структуры предложения с последующим ее уточнением; итеративная трансляция каждой выделенной фразы и «сочленение» на языке модели проблемной области описаний в общую структуру на основе окончательной фразовой структуры ЕЯ-предложения.
Для правильно построенных осложненных и сложных предложений всегда существуют признаки «усложнения»: союзы, союзные слова, знаки препинания и т.п. Для каждого ЕЯ существует ограниченное множество типов сложных предложений. Все это позволяет внести в грамматическую модель транслятора понятия и структуры «связок», необходимые для разбивки осложненных и сложных предложений. Для русского языка (например, по [Розенталь и др, 1995]) подобное множество состоит из примерно 250-300 структур. Все структуры естественно «погружаются» в некоторую связную модель, в которой существуют отношения типа «является видом», «входит в структуру» и т.д., с помощью которых можно осуществлять поиск и сопоставление структур «связок» с входным предложением. Элементами структур связок могут быть конкретные словоформы, лексемы, части речи, пунктуационные знаки и различные их сочетания, между которыми существуют синтаксические и геометрические отношения. Примеры изолированных структур связок приведены на рис. 1.
Каждая структура имеет свое уникальное в данной модели имя и может обладать некоторыми свойствами (свойство, характеризующее вид усложнения, например, сложноподчиненное определительного типа или вводная конструкция и т.п.).
Рис.1. Примеры структур «связок» фраз в сложных предложениях
На рисунке приняты следующие обозначения: понятия «существ» - существительное, «мест_чей» - класс местоимений «чей», «чья», «чье», «соч_союз» - любой сочинительный союз, «мест_прил» - любой элемент из класса местоименных прилагательных (остальные понятия очевидны); отношения «след_за» - следует за, «ближ_сп» - ближайший справа, «нах_справа» - находится справа и «согл_р,ч,п» - одновременное согласование элементов структуры и соответствующих слов в предложении в роде, числе и падеже. эллиптический семантический связка
Процесс разбивки включает следующие этапы: выбор структур «связок» для разбивки; сопоставление этих структур «связок» с ЕЯ-предложением; выделение связующих частей предложения и итеративное выделение фраз. Положительный результат сопоставления структуры связки с предложением дает возможность выделить признак типа рассматриваемого сложного предложения.
Такая разбивка сложного предложения на фразы учитывает множественность взаимосвязей отдельных слов с разными фразами, т.е. некоторое слово может попадать сразу в несколько фраз. Например, если задано предложение Найти площадь равностороннего треугольника, катет которого равен 12 см, а высота - 15 см., то в результате разбивки получим три фразы: Найти площадь равностороннего треугольника | треугольника, катет которого равен 12 см | высота - 15 см, где слово треугольника будет присутствовать как в первой фразе, так и во второй. Кстати, вторая фраза при трансляции будет эквивалентна фразе катет треугольника равен 12 см (на основе анафорических преобразований). Исходя из структур связок, используемых для разбивки, получаем фразовую структуру всего предложения: сложноподчиненное предложение определительного типа, где подчиненная часть является сложным сочинением. Третья фраза эллиптична и может быть восстановлена до фразы высота треугольника равна 15 см за счет второй на основе фразовой структуры предложения. Отметим, что полученная фразовая структура носит характер не дерева (как в системе составляющих или в дереве зависимостей), а более сложного, но взаимосвязанного представления.
Каждая фраза (после восстановления эллипсиса в третьей фразе) будет оттранслирована базовым компонентом транслятора с учетом связей между элементами фраз. В результате будет получено описание ситуации, представленной ЕЯ-предложением, на языке модели проблемной среды в виде, как это показано на рис. 2.
Рис. 2. Представление ситуации, описанной сложным предложением, на языке модели проблемной среды.
3. Обработка семантически неполных предложений
Семантические эллипсисы восстанавливаются в модели проблемной среды по схеме, описанной выше. Например, если задано на ЕЯ пара предложений типа: Задан прямоугольный треугольник с высотой 5 см и катетом 10 см. Найти площадь треугольника., то второе предложение является полным с точки зрения синтаксиса, но оно семантически неполно, поскольку не ясно, к какому понятию в модели среды относится структура, представленная на рис. 3.
Рис. 3. Пример представления семантического эллипсиса
Эту структуру можно отнести и к понятию «прямоугольный треугольник», просто «треугольник», «равнобедренный треугольник» и т.п. Обработка семантического эллипсиса заключается в «привязке» (и, следовательно, в восстановлении) к описанию в модели проблемной среды, которое было получено при трансляции первого предложения. В результате будет получено описание, которое аналогично рис. 2.
Список литературы
[Кобзарева, 2000] Кобзарева Т.Ю., Лахути Д.Г., Ножов И.М. Сегментация русского предложения // Труды конференции по Искусственному Интеллекту КИИ-2000. М.: Из-во Физико-математической литературы. 2000. Т. 1.
[Кузин, 1989] Кузин Е.С., Ройтман А.И., Фоминых И.Б., Хахалин Г.К. Интеллектуализация ЭВМ. М.: Высшая школа, 1989.
[Невзорова, 2000] Невзорова О.А., Сергеев М.П. Алгоритмы сегментации предложений на простые составляющие // Труды Международного семинара Диалог'2000 по компьютерной лингвистике и ее приложениям. Протвино, 2000. Т. 2.
[Розенталь, 1995] Розенталь Д.Э., Голуб И.Б., Теленкова М.А. Современный русский язык. М.: Международные отношения, 1995.
[Хахалин, 1998] Хахалин Г.К. Лингвистический транслятор в семействе систем с обработкой ЕЯ-текстов (ретроспекция) // Труды VI национальной конференции по Искусственному Интеллекту РАН - КИИ-98. Пущино, 1998. Т. 1.
Размещено на Allbest.ru
...Подобные документы
Анализ классификаций туристских предложений и построение обобщенной классификации. Разработка методики подбора актуального туристического предложения на основе созданной классификации и проекта информационной системы (ИС). Частичное прототипирование ИС.
дипломная работа [3,3 M], добавлен 01.07.2017Рассмотрение способов оценки скорости обработки транзакций, графических возможностей, производительности суперкомпьютеров и конфигураций Web. Описание структуры и содержания электронного учебника "Методы организации сложных экспертиз компьютерных систем".
курсовая работа [1,3 M], добавлен 21.11.2010Исследование элементов эллиптических кривых, необходимых для реализации криптографических протоколов. Изучение алгоритмов арифметики точек эллиптической кривой и способов генерации кривых для криптографических алгоритмов. Описание алгоритмов шифрования.
курсовая работа [371,2 K], добавлен 07.08.2012Элементарная работа со строками, создание и открытие файлов, работа со строками с помощью указателей. Непосредственное использование указателей для нахождения нужной информации в память. Как найти самое длинное общее слово двух заданных предложений.
лабораторная работа [11,4 K], добавлен 13.02.2009Проблема сокращения перебора при анализе сложных позиционных игр, древовидная структура выбора стратегий, в которых дерево игры в силу своего гигантского размера не может быть построено на практике полностью. Короткие нарды как конкретный пример игры.
дипломная работа [1,6 M], добавлен 27.10.2013Закономерности базового технологического процесса предприятия и предложений по компьютерному управлению этим процессом. Структура системы противоаварийной защиты. Перечень номенклатуры элементов, используемых в системе с указанием их паспортных данных.
отчет по практике [28,5 K], добавлен 19.02.2015Разработка блок-схемы и программы обработки одномерного массива с доступом к элементам с помощью индексов и с помощью указателей. Словесное описание алгоритма и пользовательского интерфейса, листинг программы обработки матрицы и результат её выполнения.
курсовая работа [391,1 K], добавлен 30.09.2013Взаимосвязь стадий процесса проектирования сложных программных систем. Создание компилятора подмножества языка высокого уровня (Pascal) на язык Ассемблера. Структура входных и выходных данных, алгоритмы их обработки. Рабочая документация программы.
курсовая работа [256,7 K], добавлен 27.07.2014Создание инструмента проектирования и прототипирования графических пользовательских интерфейсов сложных информационных систем. Интерфейс пользователя и командной строки. Средства прототипирования и их характеристики. Создание интерактивных прототипов.
дипломная работа [2,4 M], добавлен 04.07.2011Структура квантового компьютера. Несколько идей и предложений как сделать надежные и легко управляемые квантовые биты. Использование квантовых электродинамических полостей для фотонов. Системы двух одномерных квантовых каналов для электронных волн.
презентация [102,5 K], добавлен 24.05.2014История возникновения и развития языка Prolog. Рассмотрение императивных и декларативных языков программирования. Элементы экспертной системы: база знаний, механизм вывода и система пользовательского интерфейса. Описание предикатов и предложений.
дипломная работа [44,0 K], добавлен 11.05.2014Разделы теста: дополнение предложений, исключение слова, аналогии. Описание заданий и образцы решений. Обработка результатов по ключу. Определение общего уровня интеллекта по итоговой оценке, полученной в результате суммации баллов по каждому субтесту.
курсовая работа [19,5 K], добавлен 04.04.2015Разработка предложений по внедрению биометрической аутентификации пользователей линейной вычислительной сети. Сущность и характеристика статических и динамических методов аутентификации пользователей. Методы устранения угроз, параметры службы защиты.
курсовая работа [347,3 K], добавлен 25.04.2014Назначение, структура и применимость для организации централизованной системы резервного копирования. Формирование перечня функциональных задач, которые надо решить в ходе реализации проекта ее внедрения. Выделение рисков и предложений по их минимизации.
контрольная работа [20,5 K], добавлен 11.12.2011Описание процесса 3D моделирования как этапа разработки сложных технологических или архитектурных форм. Принцип стереолитографической печати, лазерного спекания, ламинирования. Основы "струйной" объемной печати: Fused Deposition Modeling и Polyjet.
реферат [20,8 K], добавлен 27.03.2012Анализ состояния информационных систем управления запасами на предприятии. Описание рабочего места оператора складского учета. Предметная область предприятия. Разработка практических предложений по автоматизации управления запасами на предприятии.
курсовая работа [606,5 K], добавлен 20.04.2015Описание проектного решения стратегической системы, этапы объектно-ориентированного анализа и проектирования. Описание связей между объектами. Программная реализация, построение модели состояний объекта. Руководство пользователя и описание программы.
курсовая работа [388,8 K], добавлен 17.11.2011Общие понятия, задачи и характеристика компьютерной сети TMN: технология управления, состав и назначение основных элементов, функциональные возможности, архитектура. Реализация управления в модели ВОС. Сравнительная характеристика протоколов SNMP и CMIP.
курсовая работа [1,1 M], добавлен 18.03.2011Системы и задачи их анализа. Методы системного анализа: аналитические; математические. Сущность автоматизации управления в сложных системах. Структура системы с управлением, пути совершенствования. Цель автоматизации управления. Этапы приятия решений.
реферат [324,3 K], добавлен 25.07.2010Изучение информационных систем, регламентирующих организацию делопроизводства. Разработка предложений по совершенствованию работы с программными и техническими средствами. Приложение учета рекламных конструкций для департаментов архитектуры города.
отчет по практике [1,4 M], добавлен 12.04.2016