Разработка формата семантико-морфологического словаря

Правила и последовательность семантического анализа простого английского предложения. Признаки семантического согласования и выделение семантических связей и объектов. Состав словаря для семантического анализа простых предложений в английском языке.

Рубрика Иностранные языки и языкознание
Вид курсовая работа
Язык русский
Дата добавления 14.03.2017
Размер файла 1,5 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru//

Размещено на http://www.allbest.ru//

Глава 1. Лингвистическая часть

1.1 Выделение языковых конструкций

Правила проведения семантического анализа простого английского предложения должны быть сформированы на основе информации о словах, которые были получены на этапе морфологического анализа. Таким образом, каждое простое предложение должно представляться в следующем виде:

S = (s[1],..., s[i],..., s[N]),

где s[i] = {s[i][1],..., s[i][j],..., s[i][N]} - это вектор множеств интерпретаций словоформ, при котором определенное множество интерпретаций s[i] выступает в качестве массива пар (лемма, морфологические характеристики) Ермоленко Т.В. Формализация правил выделения предикативного ядра предложений, используемых синтаксическим парсером английских текстов [Электронный ресурс] // URL: http://masters.donntu.org/2014/fknt/mokhovykh/library/st1.htm (дата обращения 23.01.2017)..

При проведении семантического анализа английского простого предложения для выделения языковых конструкций требуется выполнить следующие этапы:

1. Выделение последовательностей слов в отдельные группы:

- групп слов, которые состоят из имен существительных и последовательности прилагательных / порядковых числительных / причастий, предшествующих ему и согласующихся с ним;

- сложных числительных;

- групп слов, которые состоят из глагола и последовательности наречий, предшествующих ему.

- последовательностей наречий, которые предшествуют прилагательному.

Данные операции должны быть выполнены в указанной последовательности. При этом слова не разделяются знаками препинания, союзами или иными словами.

В качестве анализируемого в рамках настоящей работы синтаксического существительного простого английского предложения может выступать имя существительное или субстантивное словосочетание, глагол в форме инфинитива либо глагольная конструкция, имеющая инфинитивное ядро, глагольный герундий или глагольная конструкция, имеющая яддро-герундий, местоимение, предикативное инфинитивное словосочетание, предикативное герундиальное словосочетание, разрывная составная конструкция, которая включает слова «it» и «there».

В качестве сказуемого для анализа простого английского предложения могут выступать одиночный глагол в аналитической или простой форме, глагол?связка «tobe», имеющая последующий именной член, модальный глагол, имеющий последующую глагольную конструкцию, подчинительное и сочинительное словосочетание.

Языковые конструкции, используемые для анализа, представлены в таблице 1.

Таблица 1 - Языковые конструкции, используемые для семантического анализа в рамках настоящего исследования

Для классификации простых английских предложений в настоящем исследовании использован функционально?позиционный признак (P - сказуемое, S - подлежащее, Comp - дополнение, O1, O2 - объекты различного вида):

1) SP - The boy sings.

2) SP Comps - She is a girl.

3) SP O1 - The doctor gave a pill.

4) SP O2O1 - Tom gave her a toy.

5) SP O1Compo - She painted the table red.

6) There PS - There is a letter on the table.

Основными семью подтипами простых английских предложений, описанные при помощи указанных в таблице 1 обозначений, расскрыты в таблице 2.

Таблица 2 - Минимальные структуры предложений

п/п

Предложение

Пример

1

NP + Vi

Bobworked.

2

NP + Vt + NP

Bobpaid the bill.

3

NP + be + subs

Bob is a boss.

4

NP + be + AdvP

Bob is in the bathroom.

5

NP + Vb + subs

Bob became a hero.

6

NP + Vs + Adj

Bobfeltsad.

7

NP + Vh + NP

Bobhas a car.

Таким образом, исследование простых предложений в английском языке будет проводиться в соответствии с заданными пределами языковых конструкций. Данный выбор обусловлен тем, что в указанных конструкциях возможно автоматическое определение предикативного ядра. В частности, может выделить некоторые правила семантического анализа простых английских предложения:

1) Порядок следования: сказуемому в повествовательном предложении предшествует подлежащее. Однако имеются следующие исключения:

- придаточные предложения, сравнения и условия с ограниченным числом глаголов движения и с целью обособления наречий, как правило, негативных (в обратном порядке ставятся части составного глагольного сказуемого);

- смысловое выделение слов, усиление значения.

2) Правило согласования по числу: сказуемое и подлежащее обладают одинаковой характеристикой числа. Однако имеются следующие исключения:

- омонимия формы имени существительного (например, The cowwasgrazing - The cowweregrazing);

- омонимия в виде глагола во временах, которые отличны от настоящего, исключая глагол «tobe» (The womanspoke - The womenspoke);

- использование как подлежащее слов, которые означают группу: «board», «company», «crowd», «family», «group», «infantry», «Parliament», «people» и пр.;

- использование как подлежащее местоимений «all», «none», «who»;

- использование как подлежащее субстантивного словосочетания, имеющим адъюнкт?квантификатор множественности (именем числительным, кроме «one») и ядром-именем существительным в форме множественного числа (как правило, это относится к единицам измерения времени, расстоянию или денежным суммам);

- использование в качестве подлежащего сочинительного словосочетания (SamandTonyaaresohappytogether.)

1.2 Правила и последовательность семантического анализа простого английского предложения: основные модели и их правила

Автоматический семантический анализ простого английского предложения является тесно связанным с задачей понимания текста. При этом под смыслом текста в настоящей работе понимается описание знаний, которые содержатся в нем, решающий широкий круг задач, которые связаны с анализом простого английского предложения. При этом в качестве основной задачи семантического анализа выступает трансляция на язык представления знаний языкового выражений.

Одним из наиболее распространенных способов семантического анализа является представление простого английского предложения на языке логики. Создателем данной модели является Р. Монтегю, который первый показал, что английский язык может транслироваться в формальный язык Montague, Richard (1970b). Universal grammar. Theoria 36:373-398.. Он считал, что на теоретическом уровне естественные и формальные языки главным образом не различаются, а значение английского простого предложения - это условие его истинности. В этом случае значение предложения складывается из значений его элементов. Ученый сформировал правила грамматики семантики, в основу которой лежит исчисление предикатов первого порядка, которое расширено интенсиональной логикой, включающей в себя лямбда-исчисление, типы функций и расширенную структуру типов.

В работе данного ученого выдвигается гипотеза, согласно которой каждое синтаксическое правило обладает своим аналогом в семантике, и для семантического анализа формальную грамматику можно совместить. На рис. 1 изображен пример дерева, отражающие правила проведения семантического анализа простого английского предложения на основе применения формальной интегрированной семантической грамматики, согласно которой осуществляется вывод формулы высказывания «Every cafes closed».

Рисунок 1 - Результат разбора по формальной семантической грамматике предложения «Every cafes closed»

Работа Р. Монтегю дала начало целому направлению, в рамках которого исследуются подходы моделирования на формальном языке временных аспектов английского языка: выражений событий, характеристик объектов в тексте, идиом, метафор и др. На практике известны попытки применения формальной семантики в задаче машинного перевода Montague, Richard (1970b). Universal grammar. Theoria 36:373-398.. Однако на сегодняшний день, из-за неоднозначности и гибкости английского языка применение аппарата формальной семантики на практике, с одной стороны, проблематично из-за его сложности, а с другой стороны, недостаточно для решения современных задач обработки простых английских предложений.

Одной из самых старых моделей семантики английских предложений считается модель, основанная на ролевой структуре предложения. Ч. Филлмор ввел понятие глубинного падежа - универсальной (тематической) роли, которую могут исполнять участники ситуации, обозначенной в предложении глаголом. Глубинные падежи было предложено рассматривать как «универсальные врожденные понятия, идентифицирующие типы суждений, которые человек способен делать о событиях, происходящих вокруг него, - суждений о вещах такого рода, как «кто сделал нечто», «с кем нечто случилось», «что подверглось некоему изменению». Всего было введено около двенадцати подобных понятий, которые, как предполагалось, позволяют представить в обобщенном виде все возможные смыслы участников ситуаций. На сегодняшний день среди исследователей нет согласия о составе инвентаря ролей и о том, по каким принципам их необходимо выделять и различать. Тем не менее, существует ряд ролей, которые довольно часто используются в литературе (таблица 3)Мещанинов, И.И. Проблемы развития языка. СПб.: Питер, 2015. С. 61..

Таблица 3 - Некоторые часто используемые тематические роли

Тематическая роль

Определение

Агенс

Одушевленный инициатор действия, контролирующий его.

Пациенс

Участник, больше остальных вовлеченный в действие и претерпевающий в ходе него наиболее существенные изменения.

Бенефактив

Участник ситуации, чьи интересы каким-то образом затронуты в процессе ее осуществления, получающий от нее пользу или вред.

Экспериенцер

Участник - носитель чувств и восприятий, переживающий действие.

Стимул

Источник информации при глаголах чувственного восприятия или источник непроизвольного переживания.

Инструмент

Неодушевленный объект, с помощью которого осуществляется действие, но который сам не претерпевает изменений при его осуществлении.

Адресат

Получатель сообщения.

Источник

Место, из которого осуществляется движение.

Цель

Место, в которое осуществляется движение.

Реляционно-ситуационная модель текста формализует глубинные семантические структуры текста с помощью аппарата неоднородных семантических сетей. Реляционно-ситуационная модель опирается на теорию коммуникативной грамматики Г.А. Золотовой О структуре простого предложения // Вопросы языкознания. 1967. № 6..

В теории коммуникативной грамматики важную роль играет понятие синтаксемы. Синтаксема представляет собой минимальную синтактико- семантическую единицу языка, несущую обобщенный, категориальный смысл и характеризующуюся взаимодействием морфологических, семантических и функциональных признаков. Категориальный смысл синтаксемы называется ее значением. В отличие от ролей, которые в лингвистических теориях чаще всего ассоциируются с аргументами предикатных слов (например, таких как глаголы) и тесно с ними связаны, значения синтаксем в этой теории являются в некоторой степени автономными.

Реляционно-ситуационная модель формализует значения синтаксем предложения и их семантические отношения в виде семантической сети. Вершинами этой сети являются синтаксемы. Синтаксемы могут быть двух видов - именные синтаксемы (выраженные именной или предложной группой) и предикатные синтаксемы. Значение предикатных синтаксем - это смысл предиката, который они выражают. Значения именных синтаксем в тексте можно представить в виде:

- связей между именными синтаксемами и предикатными синтаксемами;

- связей между именными синтаксемами и служебной вершиной.

Существует два основных подхода к решению задачи определения ролевых структур высказываний:

- с помощью машинного обучения с учителем на семантически размеченных корпусах;

- подход, в котором применяются различные методы обучения без учителя (кластеризация) или с частичным привлечением учителя.

Однако, на наш взгляд, наиболее предпочтительным способом семантического анализа простого английского предложения является формирование вручную базовых семантических шаблонов, но количество подобных шаблонов значительно меньше числа шаблонов, сопоставление с которыми осуществляется по классическим алгоритмам, не подразумевающим последовательное сокращение анализируемых предложений. Вследствие небольшого числа базовых семантических шаблонов работа над семантически анализом значительно ускоряется. Рассмотрим правила данного метода.

Базовым семантическим шаблоном является правило, по которому в анализируемых простых предложениях находится семантическая зависимость. Такой шаблон имеет 4 основные части:

1) последовательность слов или неделимых смысловых единиц, для которых указаны их морфологические признаки, а в некоторых случаях приведены названия этих слов и смысловых единиц;

2) название семантического отношения, которое должно быть сформировано в случае обнаружения в тексте последовательности, описанной в предыдущем пункте;

3) последовательность чисел, определяющая позиции в последовательности из п. 1, элементы которой должны быть добавлены в очередь с приоритетом, в соответствии с которой впоследствии будут удаляться слова из анализируемого предложения, подаваемого на вход семантическому анализатору;

4) число, обозначающее значение приоритета, группы семантических зависимостей, к которой относится данное семантическое отношение.

Порядок применения данного шаблона указан на рисунке 2.

Рис. 2 - Пример базового семантического шаблона

1.3 Признаки семантического согласования и выделение семантических связей и объектов

Предложение на уровне синтаксиса определяется как единая, автономная синтаксическая единица, выявляющая законченную мысль, а также реализующая совокупность обязательных грамматических связей, входящих в состав таковой, чуть более мелких объединений (членов предложения).

К этим признакам, квалифицирующим предложение в аспекте его формы, приобщаются два базисных содержательных признака - предикативность и модальность.

Предикативность будучи основным содержательным признаком предложения зачастую рассматривается в качестве свойства, определяющего не целое предложение, а исключительно структурное ядро такового, именуемое моделью предложения, ядерным предложением или структурной схемой: под предложением понимается синтаксическая структура коммуникативного направления, в основе которой находится одна из присутствующих в системе языка применимых форм, имеющих категорию предикативности Теоретическая грамматика английского языка / под ред. В. В. Бурлакова. л.: наука, 1983. С. 62..

Сообразно с такой постановкой задачи предикативность рассматривается в качестве признака основы предложения, структурной схемы, реализуемой с использованием синтаксических приемов диссеминации в целую структурную модель. Общепринятые структурные систематизации предложения базировались на противопоставлении двусоставных предложений односоставным. В существе двусоставных преодолений находится подлежащно-сказуемостная конструкция, односоставные обладают одним главным членом, не являющийся ни сказуемым, ни подлежащим.

Структурное деление предложения расширялось его делением на неполные и полные, нераспространенные и распространенные. В итоге были найдены более дискретные структурные классификации. Например, в границах двусоставных предложений начали выделять ядерные, как то сочетания членов предложения, удаление которые невозможно без повреждения структурного содержания предложения. Примечательно, что разные исследователи следовали различным принципам, в следствие чего изменялось допустимое число ядерных предложений. В иностранной англистике наибольшее признание получила семичленная систематика ядерных предложений, маркируемая в зависимости от метода морфологического проявления предикативного члена.

Как следует из приведенного ранее перечня образцов ядерных предложений, часть из нихБурлакова В. В. Синтаксические структуры современного английского языка. М.: Просвещение, 1984. модифицируются не по структуре синтаксиса, а по методу морфологического отображения предикативного члена. Образцы 4 и 3 имеют одинаковый вид, хоть и различны по синтаксической сущности Теоретическая грамматика английского языка / под ред. В. В. Бурлакова. л.: наука, 1983. .

Таблица 4 - Образцы ядерных предложений

1

NV

Bearsroar.

2

NVN

Henrybroke the sculpture.

3

NVNN

He gave me a truck.

4

NVNN

TheyshoutedhimLiam.

5

NVLN

Liamis a broker.

6

NVLA

Liamistall.

7

NVLAdv

Liamisthere.

Г. Г. Почепцов считает ядром предложения, конструктивным центром оного - глагол-сказуемое. Конструктивно-значимые части (компоненты) предложения непосредственно связаны с этим предложением дистрибутивной связью, следовательно невозможно изъять их из него не нарушая структурной целостности предложения. Учитывая различные комбинации конструктивно-значимых элементов предложения Г. Г. Почепцов обозначил 39 форм ядерных предложений: десять первых форм основываются на разной совместимости глаголов с дополнениями; другие 14 форм предлагают различную совместимость глагола с обстоятельствами. Далее идут формы, использующие глагол-сказуемое в конструкции страдательного залога, конструкциях here is, there is, глаголе-связке, и заканчивает список форма односоставного предложениДолинина И. Б. Системный анализ предложения. М: Высшая школа, 1977. . Отечественная лингвистика обладает и иным подходом, согласно которому формы предложения определяют по видам синтаксической связи. В английских предложениях различаются следующие виды связи: подчинительная (субординативная), координативная, предикативная, вторично - предикативная и интродуктивная. Разные комбинации указанных видов синтаксической связи образуют юнкционные модели. К примеру предложение«She was attracted by them. Theiorotatesroundthejupiter. Sheattractedthem» используют одну и ту же юнкционную модель, включающую два вида связи - предикативный и субординативный. Описательно модель можно изобразить следующим образом Теоретическая грамматика английского языка / под ред. В. В. Бурлакова. л.: наука, 1983. :

Рис. 3 Описательная модель

Вектор указывает тип связи:

Другой принцип устройства структурных форм предложения был создан отечественными лингвистами: основой выделения моделей стал функционално-позиционный признак, соответственно учитывались назначение и положение члена предложения. Было создано шесть моделей английского двусоставного (простого) предложения:

Таблица 5 - Модели простого предложения двусоставного

1

SP

The boyscreams.

2

SP Comps

She is a girl (young).

3

SPO1

The archer killed a lion.

4

SPO2O1

Liam gave him a laptop.

5

SPO1CompO

She painted the stand black.

6

There PrS

There is a hook in the wall

Эти модели включают только компоненты, имеющие необходимые позиции в предложении. За счет элементов с факультативным положениемБурлакова В. В. Синтаксические структуры современного английского языка. М.: Просвещение, 1984. они могут сделаться распространенными.

Синтаксическая структура предложения являет собой сеть связей частей предложения. Учитывая, характеристики отношения частей предложения устанавливающих сеть взаимотношений, допустимо выделить несколько типов грамматик:

1) грамматики, организующие отношения исключительно между особыми минимальными синтаксическими единицами (МСЕ) (грамматика зависимостей);

2) грамматики, отношения в которых устанавливаются как между МСЕ, так и между совокупностью их комплексов, представляющих собой цепочки означенных единиц (грамматика непосредственно составляющих - НС).

На этом основании синтаксическую конструкцию предложений в грамматике зависимостей возможно отобразить в образе ориентированного графа, дерева зависимостей, узлами которого считаются МСЕ, в грамматике же - НС - в виде специфической совокупности двухэлементных графов, учитывая, что их узлами выступают различные цепочки. Так, к примеру,

синтаксическая конструкция предложения a big boy is lying at a high bedвыглядит следующим образомДолинина И. Б. Системный анализ предложения. М: Высшая школа, 1977. :

Рис. 4 Синтактическая конструкция

1. В грамматике зависимостей (рис. 5):

Узлами графа (элементами связи) выступают МСЕ, которые в грамматике зависимостей представляют словоформы, причем, в качестве элемента связи выступает непременно каждая из МСЕ, и взаимосвязи устанавливаются напрямую между МСЕ.

2. В грамматике НС (рис. 6):

Узлами графа считаются линейные взаимосвязи из нескольких или одной МСЕ: лишь в трех ситуациях синтаксическая связь может устанавливаться прямо между МСЕДолинина И. Б. Системный анализ предложения. М: Высшая школа, 1977. :

1.4 Объектно-атрибутная архитектура в семантическом анализе простого предложения

В настоящее время переносимость программного обеспечения (далее - ПО) обеспечивается посредством кроссплатформенных языков программирования: переносимость на уровне компиляции (C, C++, FreePascal), на уровне выполнения программы (Java, C#) и интерпретируемые языки (PHP, Perl, Tcl). Но средства, которые обеспечивают переносимость ПО, являются довольно громоздкими, и в связи с эти переносимое ПО может осуществлять свою работуисключительно на довольно мощных вычислительных узлах. В таком же положении находятся организации распределенных вычислений, т.к. существующие технологии обмена информацией между вычислительными узлами (RPC, DCOM, CORBA, MPI) являются также негибкими. Формирование же распределенных и переносимых программ является весьма сложным процессом, доступнымтолько профессиональным программистам.

Рассмотрим совершенно новый подход к обеспечению переносимости ПО, моделированию и организации вычислений распределенных вычислительных систем (далее - ВС), которые отличаются простотой и гибкостью: формирование подобных систем будет под силу даже начинающим программистам.

Данный подход основывается на применении новой объектно-атрибутной (далее - ОА) архитектуры ВС. Построенная по данной архитектуре системафункционирует по принципу управления вычислениями посредством потока данных (dataflow), то есть алгоритм задается не с помощью последовательности команд, а посредством описания обмена данными между виртуальными функциональными устройствами (далее - ФУ). Обмен информацией между ФУ происходит через виртуальную шину данных/атрибута (далее - ШДА), по которойосуществляется передача информационных пар (ИП), являющиеся совокупностью данных (нагрузки) и описывающего их ярлыка (тега). Действия, осуществляемые ФУ над данными, задаются последовательностью ИП, приходящих по ШДА. ФУ осуществляет выполнение операции только после того, когда к нему приходят все данные, необходимые для выполнения операции; то есть действия, которые выполняет ФУ, описываются посредством потока данных, а не задаются извне.

Например, Box{Long=10 Wide=20 Depth=5}, где Box - название ИК, «=» - обозначение ИП (до «=» помещается мнемоника атрибута, после - обозначение нагрузки, фигурные скобки ограничивают множество ИП, относящееся к ИК; перед описанием ИК может помещаться название (в нашем случае «Box»). В вышеприведенном примере мнемоники атрибутов ИП обозначают: «Long» - длина, «Wide» - ширина, «Depth» - глубина.

ОА-система включает в себя два компонента: платформу (программное описание логики работы ФУ) и ОА- образ - алгоритм вычислений, который задается посредством описания обмена информацией между ФУ. Платформа является зависимой от конкретной аппаратной архитектуры вычислительного узла, ОА-образ независимот аппаратной архитектуры (ОА-образ способен задавать последовательность элементарных вычислений, а также описывать сложные абстрактные модели, наподобие того, как это делается в объектно-ориентированном программировании; это существенно повышает технологичность написания ОА- образа, и существенно расширяет возможности для создания интеллектуальных систем). Для обеспечения работы ФУ на новой аппаратной платформе, требуется под новую платформу написать весьма простые программы реализации логики работы ФУ-в. Виртуальные ФУ, которые запущены на вычислительных узлах распределенной ВС, образуют ОА-вычислительное пространство, которое способно работать в качестве единого целого. Причем вычислительные узлы, которые объединены линиями коммуникации, могут являться не только различной аппаратной архитектуры, но и различной вычислительной мощности.

ОА-архитектура имеет еще одно полезное свойство: удобство имитационного моделирования распределенных ВС. Имея легкую переносимость ОА-платформы виртуальные ФУ могут быть запушены не только на вычислительных узлах создаваемый системы (система автоматизации, сетевая ВС, система управления техническим объектом и т.п.), но и на обычном персональном компьютере. Входной поток информации (например, сигналы с датчиков системы автоматизации) весьма просто эмулируется (входной сигнал с датчика есть не что иное, как ИП: значение, снабженное специальным атрибутом, по которому ФУ ОА-системы будут идентифицировать данные). И программист весьма просто может создать ОА-образ будущей распределенной ВС, отладить образ, а затем «переселить» его в реальную распределенную ВС.

Таким образом, ОА-архитектура является оптимальным решением при автоматической обработке текста.

1.5 Этапы семантического анализа в соответствии с объектно-атрибутной архитектурой

Основой системы анализа является семантико-морфологический словарь, имеющий в своем составе описание лексем. Описание одной лексемы - это ОА-список всех возможных толкований. Каждое толкование лексемы является совокупностью двух по крайней мере связанных между собой информационных капсул (ИК): капсула с описанием морфологических свойств толкования лексемы (падеж, род, число и т.п.) и капсула с семантическими свойствами. При анализе текста происходит поиск лексем в этом словаре, и из найденных описаний формируется ОА-список толкований лексем исходного текста.

Далее осуществляется преобразование данного списка в семантическую сеть (ОА-граф), представляющая собой онтологическую базу знаний, которая сформирована исходя из информации,закладываемойв анализируемомтексте.Преобразование реализуется в несколько этапов отпростогок сложному.

На каждом этапе осуществляется «склейка» второстепенных лексем в словосочетании (синтагме) с лексемой главной.

Например, при анализе первого предложения из фрагмента текста «There is the chair. The chairisblue» описание объекта «chair» попадет в тематический словарь; при анализе же второго предложения для слова «chair» будет найден объект, который уже упоминался в тексте и к нему будет добавлено свойство «blue».

Далее осуществляютсяэтапы анализа синтаксических конструкций с союзами, и заключительный проход - склейка существительных и глаголов. Для анализа смысловых связей между предложениями в ОА-системе применяется так называемый тематическийсловарь. Схема синтеза семантического графа из текста приведена на рис. 7.

Рис. 7 - Схема построения ОА-графа из списка лексем исходного текстаСалибекян С.М., Халькина С.Б., Тиновицкий К.Д. Объектно-атрибутный подход для семантического анализа естественного языка // Объектные системы. 2014. №1 (8) С.80-86.

Алгоритм преобразования текста в семантический граф задается с помощью правил преобразования (ОА-грамматика), основой которых стали формальные грамматики Хомского. ОА-грамматика в отличие от своего прототипа оперирует не с цепочкой символов, а с цепочкой (списком) капсул с описанием лексем (список исходных лексем) и служит для формирования семантического ОА-графа. Формально ОА-грамматику можно описать как четверку OAG = {A,L,P,G}, где A - алфавит атрибутов; L - алфавит нагрузок ИП (в этот алфавит входят не только числа и строки, но и ссылки на ИК; G - ОА-граф (список описаний лексем исходного языка); P - правила преобразования ОА-графа Там же. С. 84.

Например, для обработки предлога «in» в английском языке применяются правила (цифрами обозначены 1-й и 2-й проходы анализа):

1. in NOUN , temp{Location ={Subj={NOUN*{Location=temp}} Location=in };

2. NOUN1 in*{ Location=temp} , NOUN1*{ Location=temp*{Obj=NOUN1}}; где Location - атрибут места расположениячего-либо, Obj - объект, Subj - субъект.

Рассмотрим в качестве примера предложение с тремя связями: объект, субъект, инструмент.

Так, для предложения «Mikeplayingwithball» будет синтезирован следующий ОА-граф (жирным выделены атрибуты ИП, которые одновременно обозначают семантические роли/валентности):

{ Object = Mike

Subject = { Object = ball

with Subject , temp{Location ={ Subject ={Subject *{Location=temp}} Location=with}

}

Act = playing

}

Для совпадения графов необходимо, чтобы ИП из капсул из вершин графа-запроса полностью совпали с ИП из капсул в вершинах графа-текста. Для ускорения поиска подграфа была разработана методика спектра атрибутов. По этой методике происходит подсчет всех атрибутов, встречающихся в ОА-графе, и далее поиск подграфа начинается с тех вершин, в которых обнаружено наименьшее количество совпадений в обоих ОА-графах. В ОА-графе используются двусторонние связи между узлами для того, чтобы можно было произвести обход графа начиная с любой его вершины. Таким образом, удастся значительно снизить число переборов во время поиска (рис.8).

Рис. 8 - Поиск подграфа в семантическом ОА-графе текстаСалибекян С.М., Халькина С.Б., Тиновицкий К.Д. Объектно-атрибутный подход для семантического анализа естественного языка // Объектные системы. 2014. №1 (8) С.80-86.

В настоящее время требуется расширение семантико-морфологического словаря и увеличение числа правил обработки списка лексем. В результате данной работы будет возможность обработки ОА-системой адаптированных текстов.

Глава 2. Вычислительная часть

2.1 Разработка формата семантико-морфологического словаря

словарь семантический предложение английский

В рамках настоящего исследования необходимо разработать формат семантико-морфологического словаря.

С учетом имеющихся недостатков существующих словарей, мы считаем, что требуется новая структура семантико-морфологического словаря. За основу будет взять стандартный словарь. При этом главными задачами выступали преобразование содержательной части с учетом особенностей использования разрабатываемого словаря и формальная организация словаря с учетом потребностей адресата.

Данный словарь является двуязычным электронным словарем, предназначенным для анализа простых английских предложений.

Рассмотрим основные этапы составления такого словаря.

Таблица 6 - Этапы составления словаря

Разрабатываемый словарь должен выполнять следующие функции:

1) решение проблемы омонимии (многозначности слов);

2) обеспечение описания семантических и морфологических характеристик каждого слова;

3) хранение признак для согласования слов в простом английском предложении, лица;

4) обеспечение наиболее простой трансформации списка толкований слов исходного предложения.

Лексикографическая статья в данном словаре должна обладать максимум лексико-семантической и синтаксической информацией, которая будет релевантна для будущих задач автоматической обработки простых предложений. Для каждого лексикографических типов должна указываться следующая информация:

- транскрипция;

- написание в полной форме;

- орфографические варианты;

- перевод на русский и английский языки;

- толкование;

- синтаксическая и семантическая модель;

- сочетаемость с грамматическими модификаторами;

- возможность употребления в различных синтаксических позициях;

- стандартная сочетаемость;

- синонимы.

Данный словарь будет состоять из описания вышеуказанной информации (рис. 9). В капсулу с описанием морфологических свойств толкования лексемы (падеж, род, число и т.п.) предлагается разместить вышеуказанную информацию. В информационную капсулу (далее - ИК) Капсула - это совокупность информационных пар, служащих для описания определенного объекта (с помощью капсулы обеспечивается абстракция данных). Каждая ИП, входящая в капсулу, задает один из критериев описываемого объекта.описания слова будет помещаться информационная пара (далее - ИП) Информационная пара (ИП) (атрибутированные данные) - совокупность нагрузки(данных или ссылки на данные), и ярлыка (атрибута/уникального идентификатора),описывающего нагрузку. Указатель, хранящийся в нагрузке ИП, может ссылаться наинформационные конструкции любой сложности (переменные, массивы, списки, другие ИП и т.д.). Тип данных, помещенных в нагрузке, определяется по ярлыку ИП. словоформы. В ИК с описанием указанной информации будут помещаться ИП с описанием морфологических свойств толкования словоформы. Для согласования словоформ в описание толкования словоформы добавим ИП со ссылкой на список согласований, который обеспечит автоматическое согласование. Каждая ИП будет состоять из двух линий: в первой хранятся признаки синтаксического согласования, во второй - признака семантического согласования.

Рис. 9. Формат семантико-морфологического словаря

Описания всех словоформ, которые присутствуют в списке толкований слов исходного текста будут скопированы в список слов исходного текста.

Ниже представлен пример поиска слов, зависимых от главного слова,словарем (рис. 10).

Рис. 10 Поиск зависимого слова существительным

2.2 Алгоритм семантического анализа простых предложений в английском языке посредством предлагаемого словаря

В настоящее время имеет распространение методика преобразования списка исходных словоформ, происходящая за несколько этапов: на каждом этапе анализируется та или иная языковая конструкцияВарьева. А.В. О синтаксической форме слова // Мысли о языке. -- М., 2017.. Конструкции классифицируются следующим образом: атомарные - это те конструкции, которые присутствуют в простых предложениях изначально - к примеру, части речи; комплексные - это те конструкции, образуемые после объединения нескольких языковых конструкций. Объединение языковых конструкций называется операцией сцепки. К примеру, сцепка может возникнуть при объединении глагола с наречием: свойство, описываемое наречием, является описанием действия, заданного глаголом, в качестве атрибута (например, gofast). Данная сцепка будет осуществляться на этапе анализа наречия - т.е. в перечне ищется наречие, затем ищется близлежащее существительное. При данной операции будет производиться автоматическое семантическое согласование данных словоформ.

Рис.11. Пример сцепки

Приведем пример.

Одна из проблем, которые могут возникнуть при сцепке, является омонимия. Для ее решения используется преобразование списка толкований слов в новый список, в который будут состоять из линий, содержащих все возможные комбинации толкований слов.

Алгоритм семантического анализа по правилу в тексте заключается в следующей последовательности этапов:

1 этап: Выполняется поиск слова в словаре начальных форм. Если слово в словаре найдено, то этап 5.

2 этап: Слово считывается посимвольно в обратном порядке (начиная с конца слова). Если слово закончилось, то работа алгоритма завершается. На основе текущего списка аффиксов, префиксов, суффиксов и пр. формируется список гипотетических частей слова.

3 этап: Выполняется поиск всех гипотетических аффиксов, префиксов, суффиксов и пр. в словаре. Все найденные аффиксов, префиксов, суффиксов и пр. добавляются в список аффиксов, префиксов, суффиксов и пр.. Если ни один новый аффикс не найден, то переходим к этапу 2.

4 этап: Выполняется поиск начальной части слова в словаре начальных форм. Если слово не найдено, то переходим к этапу 2.

5 этап: В результат добавляется найденная основа и сопутствующий набор аффиксов, префиксов, суффиксов и пр. Переход к этапу 2.

После нормализации, для каждого найденного слова осуществляется вычисление его семантических и морфологических характеристик на основе его аффиксов, префиксов, суффиксов и пр. и морфологического класса основы.

Рис. 12. Алгоритм семантического анализа по правилу в тексте

Разберем указанный алгоритм в соответствии с описанным в главе 1 подходами.

Предложения «Mikeplayingwithball. Hilikessport» будет синтезирован следующий ОА-граф:

{Object = Mike = Hi

Subject1 = { Object = ball

Subject2 = { Object = sport

with Subject1, temp{Location ={ Subject1 ={Subject1 *{Location=temp}} Location=with}

}

Act1 = playing

Act2 =likes

}

Таким образом, предложенный словарь, учитывающий синонимы, будет производить семантический анализ по нескольким семантическим единицам.

Размещено на Allbest.ru

...

Подобные документы

  • Семантическое поле в лингвистике и принципы его построения. Эволюция семантического поля "одежда" в русском языке и исторические изменения его микрополей. Структурно-семантические особенности семантического поля "одежда" в русском и древнерусском языках.

    дипломная работа [349,3 K], добавлен 15.10.2010

  • Понятие феномена "решение" в психологии и лингвистике. Основные ориентиры для принятия решения. Понятие лексико-семантического поля в английском языке. Соотношение феноменов "решение" и "выбор". Ближняя периферия лексико-семантического поля "Decision".

    курсовая работа [85,9 K], добавлен 18.06.2012

  • Понятие и специфика семантического поля цвета. Ассоциации, связанные с цветами в языковом сознании. Сопоставление семантического поля цвета в русском и английском языках. Исследование семантических полей розового, коричневого, голубого и серого цветов.

    курсовая работа [40,6 K], добавлен 05.07.2015

  • Анализ теории семантического поля, типологические свойства: взаимосвязь элементов, регулярный характер связей между элементами. Сущность семантического поля "посуда" в современном русском языке. Особенности организации группировки языковых элементов.

    курсовая работа [62,4 K], добавлен 24.05.2012

  • Системный подход в лингвистике. Семантическое поле и его основные характеристики. Понятие добра и зла как объектов лингвистического исследования. Изучение семантики добра и зла на материале русского языка. Структура семантического поля "добро/зло".

    курсовая работа [67,0 K], добавлен 31.10.2011

  • Фразеологизм как основная единица фразеологии, его разновидности и общая характеристика, направления анализа. Понятие и порядок формирования семантического поля, структурное описание его основных единиц на примере поля "деньги" в английском языке.

    курсовая работа [53,0 K], добавлен 08.06.2014

  • Системные отношения между лексемами. Организация семантического поля как упорядоченного поля наименований и лексики в виде парадигматических и синтагматических семантических полей. Структура семантического поля. Семантическая структура терминов родства.

    реферат [88,5 K], добавлен 15.05.2014

  • Смех как философско-культурно-социальный феномен. Состав и структура лексико-семантического поля "Lachen"/"Lächeln" в современном немецком языке, сочетаемость данных существительных. Лексико-семантическая группа глаголов, обозначающих состояние смеха

    дипломная работа [119,6 K], добавлен 17.09.2014

  • Употребление нужной формы прилагательных в английском языке. Преобразование предложений из действительного залога в страдательный. Постановка предложений в отрицательную и вопросительную форму. Составление вопросов к словам в тексте, словаря к тексту.

    контрольная работа [16,5 K], добавлен 03.02.2014

  • Исследование классификации обращений в корейском языкознании. Изучение принципов общения и взаимоотношений в корейском обществе. Разработка концепции ситуативно-семантического словаря корейских этикетных обращений. Стили устного общения корейского языка.

    реферат [46,5 K], добавлен 06.05.2013

  • Понятие семантического поля. Понятийное поле "жилище" в русском языке. Сравнение русского и английского языков. Трудности, возникающие при переводе с одного языка на другой. Формирование лексико-семантической группы слова "жилище" в английском языке.

    курсовая работа [34,3 K], добавлен 07.03.2014

  • Компонентный анализ лексических единиц как метод изучения семантики. Определение и структура семантического поля, его специфические свойства. Компонентный анализ семантического поля "жилище" (наименования целых построек) в английском и русском языках.

    дипломная работа [442,9 K], добавлен 10.07.2015

  • Развитие теории лексико-семантического поля (ЛСП). Теория Шмелева о регулярных переносах значений в рамках лексико-семантического поля. Оценочная основа эпидигматической системы ЛСП прилагательных вкуса в испанском языке. Лингвистическая теория оценки.

    курсовая работа [94,3 K], добавлен 12.10.2013

  • Исследование семантических группировок в рамках классической и когнитивной лингвистики. Принципы построения лексико-семантического поля. Построение и сравнительный анализ лексико-семантических полей "свобода" и "freedom" в русском и английском языках.

    дипломная работа [978,4 K], добавлен 25.03.2011

  • Структура семантического поля, связь элементов в ней. Характеристика семантического поля запаха в немецком языке. Выявление лексических единиц, применяемых для обозначения запаха (на основе романа П. Зюскинда "Парфюмер"), элементы периферии ближней зоны.

    курсовая работа [48,8 K], добавлен 28.05.2016

  • Понятие ценности применительно к языку, положение о важности соотношения знака с другими знаками и значимость каждой единицы. Структура, состав и иерархия семантического поля "пища", его лингвистическая ценность и высокий дискурсивный потенциал.

    реферат [25,3 K], добавлен 06.09.2009

  • Описание системных связей отдельных лексико-семантических групп (ЛСГ) – необходимый этап в познании системной организации словарного состава английского языка. Наименования домашних животных представляют собой одну из семантических группировок в языке.

    курсовая работа [39,4 K], добавлен 28.03.2008

  • Методы лексико-семантического (компонентного) анализа фразеологических единиц, типология их компонентов в современном русском языке. Компоненты-символы в русской фразеологии. Типы образования фразеологических единиц современного русского языка.

    реферат [105,6 K], добавлен 20.08.2015

  • Элементарное предложение в английском языке. Основные типы предложений: безличные, личные и неопределенно-личные. Особенности главных членов простых предложений. Предложения с неопределенно-указательным, отрицательным и вопросительным подлежащим.

    курсовая работа [36,7 K], добавлен 05.06.2009

  • Характеристика семантического и функционального потенциала английского глагола to do. Сущность семантики, которая имеет большое значение при переводе с английского языка на русский. Понятия "полифункциональность", "многозначность" и "широкозначность".

    контрольная работа [44,4 K], добавлен 27.10.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.