Контекстное фрагментирование в лингвистическом анализе

Задачи лингвистической обработки текстов на естественном языке. Понятие и структура лингвистической модели. Модели лингвистического анализатора. Грамматический и семантический анализ, семантическая интерпретация. Метод контекстного фрагментирования.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 09.01.2016
Размер файла 42,6 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Контекстное фрагментирование в лингвистическом анализе

Г.К. Хахалин,

А.Л. Воскресенский

Введение

Для многих прикладных областей обработки текстов на естественном языке (ЕЯ) лингвистический анализ можно рассматривать как задачу, решающую две основные проблемы: снятие всевозможных неопределенностей в тексте и представление текстовой (явной и неявной) информации на языке модели предметной области.

Следовательно, задачу лингвистического анализа будем трактовать как преобразование предложения ti Т (где Т - множество всех предложений ЕЯ) в некоторое описание mi М (где М - множество семантических описаний всех ситуаций в предметной области), или как отображение Ш: ТМ, позволяющее по заданному предложению ti Т построить адекватное ему описание mi М. Это отображение должно устранить неопределенности поверхностного уровня ЕЯ (омонимию, омографию, неполноту, некорректность и другие), сводя их к однозначному семантическому представлению. Отображение Ш при этом можно рассматривать как реализацию трех отображений: грамматический анализ, семантическая интерпретация и семантический анализ.

лингвистический анализ контекстный фрагментирование

1. Модели лингвистического анализатора

Структура лингвистической модели (ЛМ) определяется выбором языка представления знаний и реализуемой схемой трансляции, а ее наполнение -- используемым подмножеством ЕЯ и моделью проблемной области. ЛМ состоит из трех взаимосвязанных компонентов: модель грамматики (ГМ), модель интерпретации (ИМ) и модель семантики (СМ).

Модель грамматики задается декларативно и образуется совокупностью фрагментов двух типов, которые можно представить в виде гиперграфов. Фрагменты 1-го типа - графы с раскрашенными вершинами и ребрами G1i (Xg, Rg1), где Xg -- множество элементов МГ, включающее слова, грамматические признаки, категории и т. п., a Rg1 -- множество морфологических, родовидовых и структурных отношений («имеет род, число, время, ...», «является видом», «входит в структуру»). Каждый такой фрагмент представляет собой словоформу со всеми грамматическими признаками, обобщениями и связями с более крупными единицами. Объединение этих фрагментов G1=G1i образует морфологическую часть ГМ.

Синтаксическая информация представляется в виде фрагментов 2-го типа, называемых контекстами или контекстными правилами. Контексты образуют иерархическую структуру, которая задается рекурсивно некоторым множеством графов различных уровней. Контекст 1-го уровня определяется как граф G (Xg, Rg2), где Rg2 = Rg1 Rg, а Rg -- система выбранных синтаксических отношений (согласование, управление, следование и т.д.).

Контекст 2-уровня определяется как гиперграф G (Xg{G}, Rg2), где {G} , т. е. граф G содержит вершины из Xg и хотя бы одну вершину из {G}. Тогда множество графов-контекстов k-го уровня определяется выражением {G(Xg{G},Rg2)}. Объединение фрагментов 2-го типа G2=G образует модель синтаксиса. А вся ГМ есть объединение G = G1G2. Другими словами, ГМ образует некоторую сеть, в которой присутствуют слова, их обобщения (например, части речи) и контексты, определяющие правила синтаксической сочетаемости. Т.е. эта модель построена по аналогии с тем, как человек, познающий грамматику ЕЯ, декларативно строит систему правил сочетаемости слов (в отличие от процедурного представления с помощью какой-либо формальной грамматики).

Контекстные правила могут задаваться на любом уровне обобщения своих элементов. На уровне словоформ, основ, лексем, всевозможных классов обобщения и т.д. Контексты могут представлять шаблоны для выделения в предложениях дат, чисел, имен файлов, географических названий, фамилий и т.п. В контексты могут быть добавлены семантические признаки, лишь бы была возможность их выявления в тексте, например, могут использоваться т.н. ролевые структуры. Сама наполняемость контекстных правил, и их номенклатура зависит от разработчика синтаксической части ГМ и его принадлежности к той или иной лингвистической школе.

В определенном смысле модель грамматики можно рассматривать как специальную онтологию предметной области "грамматика ЕЯ" (это аналогично тому, как мы рассуждаем о строении естественного языка на самом языке).

Модель семантики задается декларативно аналогично модели грамматики, только вершинам и ребрам соответствуют понятия и отношения проблемной области. Фрагменты 1-го типа Мi (Xm, Rm1), где Xm -- множество понятий («лексем» М-языка), а Rm1 -- родовидовые и структурные отношения, определяющие «морфологию» М-языка. Его синтаксис задается фрагментами 2-го типа, объединение которых есть

М2 = {М(Xm{M}, Rm2)},

где Rm2 = Rm1Rm, а Rm -- множество отношений проблемной области.

Модель семантики - это онтология предметной области, представленная в виде n-арной семантической сети, в которой структурно заданы описания ситуаций. Примером онтологии может быть тело человека. Или структурное и функциональное описание компьютера. Или конструктивное описание самолета. Естественно, в таких представлениях не используются "структурные" слова ЕЯ (предлоги, союзы, знаки препинания и т.п.). Имена концептов и отношений могут иметь ассоциации со словами ЕЯ, но выполняют номинативную функцию и используются для упрощения и удобства процессов разработки, наполнения и отладки модели.

На М-языке информация задается явно, даже если она неявно представлена в тексте. Например, если в тексте есть словосочетание красный шар, то на М-языке эта ситуация будет представлена в виде тройки (шар) (имеет_цвет) (красный).

Модель интерпретации для каждого словарного элемента задается "гнездом" продукций вида [1]:

(i); Q1; P1; A1 B1; N1

Q2; P2; A2 B2; N2

Qn; Pn; An Bn; Nn

Здесь (i) -- имя продукции, с помощью которого данная продукция выделяется из множества продукций. В качестве имени может выступать слово (основа), словосочетание, знаки препинания и т.п., отражающие суть данной продукции.

Элемент Q характеризует сферу применения продукции - тематику текста. Тема текста может динамически определяться известными статистическими методами.

Основным элементом продукции является ее ядро A B. Интерпретация ядра продукции может быть различной. Обычное прочтение ядра - ЕСЛИ А, ТО В. Более сложные конструкции ядра допускают в правой части альтернативный выбор, например, ЕСЛИ А, ТО В1, ИНАЧЕ В2. В нашем случае А - некоторое упорядоченное множество контекстных правил модели грамматики. В - соответствующее А множество понятий, отношений или их сочетаний из модели семантики. Для не интерпретируемых элементов текста (знаки препинания, предлоги, союзы и т.п.) множество В = .

Элемент P есть условие применимости ядра продукции, и определяется принадлежностью анализируемого слова к определенной части речи.

Элемент N описывает постусловия продукции. Они актуализируются в том случае, если ядро продукции реализовалось. Постусловия описывают действия и процедуры, которые выполняются после реализации В.

Параметр n1 характеризует множественность интерпретации элемента текста.

Модель интерпретации представляет собой словарь системы, где заданы способы "перевода" элементов текста в понятия в зависимости от синтаксических правил.

Проиллюстрируем модель интерпретации для словоформы мыла:

(i)

Q

P

AB

N

мыла

общ., парф.

сущ.

ГК4 мыло

общ.

глаг.

ГК35 мыть

где "общ" - общая лексика, "парф." - парфюмерия, "сущ." - существительное, "глаг." - глагол. Контекст ГК4 определяет синтаксическую конструкцию типа (сущ.1) и (сущ.2) с учетом их грамматических признаков и расположения, например, в словосочетании владелец мыла. А ГК35 определяет контекстное правило типа (сущ.) (глаг.) с учетом признаков и расположения, например, в сочетании девушка мыла.

2. Лингвистический анализ

Процедуры анализа позволяют варьировать глубину и последовательность этапов обработки в зависимости от решаемой задачи (машинный перевод, ЕЯ-доступ к БД и т.д.).

Первоначально рассмотрим стандартную последовательность анализа (разбор, интерпретация, проблемный анализ), введя некоторые определения.

Будем ЕЯ-предложение ti рассматривать как граф ti(), где - слова предложения (верхний индекс задает порядок слов в предложении). Под словами подразумеваются словоформы, знаки препинания, скобки, сокращения и другие "вкрапления" в ЕЯ-текст, которые получены после графематического анализа (здесь он не рассматривается).

Определение 1. Фрагментом fij графа предложения ti будем называть его подграф tij ti k-изоморфный определенному графу контекста G.

Например, в предложении мальчик спит непробудным сном фрагментом может быть словосочетание (мальчик спит), которое выделено с помощью контекста согласования глагола с существительным.

Определение 2. Два фрагмента fik и fim одного предложения ti будем называть связными или пересекающимися, если пересечение графов tik tim .

Например, в предложении стены древнего города можно выделить два пересекающихся фрагмента (стены города) и (древнего города).

Определение 3. Фрагмент fij будем называть вложенным во фрагмент fik, если граф tij является подграфом графа tik.

Определение 4. Фрагмент fij будем называть изолированным, если

tij tik = и j k.

Определение 5. Предложение ti будем считать полностью покрытым фрагментами, если каждое слово ti входит, по крайней мере, в один из фрагментов из {fij}, где {fij} - множество (полного) покрытия.

Примером полного покрытия может быть фрагментация предложения (Хозяйка мыла) (грязное стекло), где первый фрагмент выделен с помощью контекстного правила ГК4, а второй - правила согласования (прил.) и (сущ.).

Определение 6. Будем говорить, что множество фрагментов {fin} образует связную структуру фрагментов для ti, если для любого связного подмножества этого множества справедливо

tij til , где k = .

Определение 7. Предложение ti будем считать полностью разобранным, если оно полностью покрыто фрагментами и множество покрытия {fin} образует связную структуру фрагментов для ti.

Примером полного и связного покрытия может быть разбор (Хозяйка мыла стекло) (грязное стекло).

Грамматический анализ предложения ti состоит в поиске такого множества {fij}, которое полностью фрагментирует ti и образует при этом связную структуру фрагментов. В остальных случаях можно говорить о частичном грамматическом разборе.

Процесс полного разбора носит итеративный характер. Он включает в себя: выбор контекстов-гипотез из множества {G}, сопоставление этих контекстов с ti и выделение связных фрагментов.

Процесс поиска и выбора релевантных ti контекстов определяется {} и удачно сопоставленными контекстами. При этом привлекается информация из G11(Xg, r1) и G12(Xg, r2), где r1 - отношение "является видом", а r2 - отношение "входит в структуру". При удачно сопоставленном контексте G уровня i очередная гипотеза выбирается из множества контекстов уровня (i+1) на основе данных о вложенности.

В результате успешного сопоставления выделяется фрагмент fij. Если для него справедливо tij tik , где l - число связанных фрагментов для ti, то он дополняет связную структуру фрагментов {fil+1}. После чего разбор продолжается для слова {fil+1}, где m - количество слов, принадлежащих fij. Если fij - изолированный фрагмент, то разбор проводится для слова {fil+1}, т.е. для следующего слова, не входящего в связную структуру фрагментов. А сам изолированный фрагмент запоминается с целью его возможного включения в структуру фрагментов в последующих итерациях.

Таким образом, процесс повторяется до получения полного разбора. Результатом этого процесса будет граф разбора i, образованный графами связных фрагментов и данными о сопоставлении контекстов с ti.

Если в процессе разбора невозможно получить полное и связное покрытие, то относительно входного предложения можно предположить, что разбор происходил по ложной ветке (в предложении есть неопределенности), что предложение является неполным или оно некорректно с точки зрения заданного синтаксиса. Например, если в предложении хозяйка мыла грязное окно выделены фрагменты (хозяйка мыла) (слово мыла рассматривается как существительное) и (грязное окно), но они не удовлетворяют критерию связности, то грамматический анализатор пытается рассмотреть омоним слова мыла в качестве глагола. В этом случае получаем связные фрагменты (хозяйка мыла окно) и (грязное окно).

Языки синтаксиса и семантики различны, а в общем случае различна и фрагментация в них. Лексику М-языка составляет множество проблемных понятий и отношений, которые обозначим через рi. Введем понятие подстрочника для предложения ti.

Определение 8. Некоторое частично упорядоченное множество m = ({p}{p}, {p}{p},..., {p}{p}) образует в лексике М-языка подстрочник ti Т, если множества {p} - множество значений в М-языке составляющих ti (слов и словосочетаний); а {p} - прессупозиции, определяемые этими составляющими; n-число проинтерпретированных составляющих.

Определение 9. Подстрочник является однозначным, если для любого l = справедливо |{p}| = 1, т.е. он имеет вид m = (p, p,..., p), где k n (здесь прессупозиции опущены). Число (n-k) характеризует количество неопределенностей (омонимий и др.), снятых относительно множеств {p}.

Семантическая интерпретация состоит в получении по заданному графу грамматического разбора i однозначного подстрочника m. Процесс интерпретации включает в себя построение с помощью системы продукций подстрочника по частям, соответствующим фрагментам fij и снятие неопределенностей в частях подстрочника.

Для элементов fij каждого фрагмента fij по модели интерпретации получаем часть m. Реализуя итеративно процесс для всех fij, получаем весь подстрочник. Снятие неопределенностей в подстрочнике осуществляется операцией пересечения множеств {p}. Если для определенных m k при последовательном пересечении справедливо |{p} {p}| = 1, где {p} и {p} принадлежат части подстрочника, соответствующей одному фрагменту fij, то неопределенность снимается и одно множество исключается из m, второе множество заменяется на единственный элемент пересечения, а прессупозиции для этих двух множеств объединяются. Если невозможно получить однозначный подстрочник, то предложение считается семантически некорректным с точки зрения интерпретации.

Однозначный подстрочник рассматривается аналогично графу предложения ti, поэтому все, что справедливо для ti, справедливо и для графа m.

Семантический анализ состоит в построении описания i (аналогичного i), удовлетворяющего синтаксису М-языка. Анализ выполняется по полной схеме (аналогичной полному грамматическому анализу), в результате которого получается структура на М-языке, соответствующая ситуации, представленной в предложении ЕЯ.

Описанный выше алгоритм предназначен для анализа простых полных предложений. Что касается трансляции элементов связанного текста и, в частности, эллиптических, осложненных и сложных предложений, то их анализ осуществляется расширенным компонентом анализатора, который подробно описан в [2].

3. Настраиваемая последовательность обработки

Для многих задач, где используется лингвистический анализ ЕЯ-текста, нет необходимости проводить полный и последовательный синтаксический анализ предложений. Например, для задач доступа к БД, для поиска по ключевым словам и т.п. Напротив, для других задач необходим полный синтаксический анализ. Например, для машинного перевода, для семантического представления документов и т.д. То есть для множества прикладных задач существует спектр полноты и последовательности лингвистического анализа. Это зависит от решаемой задачи, проблемной области, онтологии, тематической однородности текста и т.д. Поэтому хотелось бы иметь такую архитектуру анализатора, которая подключала бы соответствующие компоненты анализа в зависимости от сложности самого текста. Предлагаемая структура лингвистического анализатора позволяет реализовать подобную схему. Инициализация процесса анализа в такой схеме исходит от интерпретации.

Схема с настраиваемой последовательностью обработки может быть представлена следующим образом. Пусть на вход анализатора поступает ЕЯ-текст. Первое выделенное из текста предложение проходит морфологический анализ. Далее выбирается первое слово с его морфологическими признаками и запускается процесс интерпретации этого слова. Если слово имеет единственную интерпретацию, то осуществляется переход к другому слову. В противном случае выбирается первое контекстное правило из упорядоченного множества правил, заданного в гнезде продукций данного слова. Выбранное правило сопоставляется с морфологической структурой предложения.

На основе результатов сопоставления осуществляется интерпретация фрагмента предложения либо переход к другому контекстному правилу. И так до тех пор, пока не будет выделен фрагмент предложения либо не будет исчерпан список контекстных правил. В последнем случае предложение считается некорректным.

При успешном сопоставлении контекстного правила с предложением получаем частичный синтаксический разбор предложения, т.е. фрагмент разбора с некоторыми уже проанализированными словами дополнительно к выделенному слову.

Далее продолжается интерпретация слов, которые не вошли в какой-либо фрагмент разбора. Этот процесс итеративно продолжается до тех пор, пока не будут проинтерпретированы все слова предложения. Требования полного покрытия и связности фрагментов, необходимые при полном синтаксическом разборе, не являются обязательными при частичном разборе. Если при этом полученное полное покрытие предложения фрагментами не удовлетворяет критерию связности, то его несвязность может быть обнаружена на последующем семантическом этапе анализа, который проводится по полной схеме.

Управление степенью полноты синтаксического разбора осуществляется семантическим интерпретатором в зависимости от степени неопределенности в самом предложении.

Заключение

Предложенный метод контекстного фрагментирования, реализуемый в системе лингвистического анализа, предполагается использовать для системы перевода текста на естественном языке на жестовый язык глухих [3] и для поиска документов по их семантическому представлению.

Литература

Поспелов Д.А. Продукционные модели // Искусственный интеллект: Справочник. Кн. 2. Модели и методы. Под ред. Д.А. Поспелова. М.: Радио и связь, 1990. С. 49-56.

Хахалин Г.К. Лингвистическая трансляция сложных и эллиптических ЕЯ-предложений // Труды VIII национальной конференции по Искусственному Интеллекту РАН - КИИ-2002. Коломна: 2002, С. 251-256.

Voskressenski A. Signs and speech: two forms of human communication // Proceedings of the Ninth International Conference «Speech and Computer» SPECOM'2004, Saint-Petersburg, Russia, 20 - 22 September 2004, pp. 666-669.

Размещено на Allbest.ru

...

Подобные документы

  • Становление лингвистической географии. История возникновения лингвогеографии в Европе. Основные понятия этой науки. Развитие лингвистической географии в России. Картографирование языковых явлений. Диалектное членение русского языка. Ареальная лингвистика.

    курсовая работа [74,8 K], добавлен 07.01.2009

  • Внутренние факторы развития лингвистической науки как предпосылки становления младограмматизма. Развитие младограмматического направления, его основные черты. История Московской лингвистической школы. Шахматов как один из ведущих представителей МЛШ.

    реферат [19,0 K], добавлен 21.06.2010

  • Анализ способов словообразования фитонимов в русском и адыгейском языках. Знакомство с проблемами изучения лексики в современной лингвистике. Рассмотрение признаков слов как лингвистической единицы в целом: семантическая валентность, непроницаемость.

    курсовая работа [58,7 K], добавлен 15.05.2013

  • Прагматика в системе языкознания. Интерпретация проблем перевода в русле лингвистической прагматики. Структура риторического вопроса и его сущность. Семантические и прагматические особенности функционирования риторических вопросов в английском языке.

    курсовая работа [32,2 K], добавлен 16.01.2012

  • Становление теории вторичных текстов (ВТ), их классификация. Понятие ВТ как построенного на основе текста-источника с другими прагматическими целями и в другой коммуникативной ситуации. Сохранение в ВТ элементов когнитивно-семантической структуры текста.

    статья [37,4 K], добавлен 23.07.2013

  • Подходы к изучению обращения, его грамматический и лексико-семантический статус в языке. Проблема нейтральной формы обращения в украинском языке. Особенности функционирования обращения в официальных и неофициальных ситуациях, в художественном тексте.

    дипломная работа [299,9 K], добавлен 14.11.2010

  • Статус консубстанциональных терминов в системе лингвистической терминологии русского и английского языков. Этимологический анализ как важная составляющая изучения специальных лексем. Историко-диахронический анализ русских и английских лексических единиц.

    диссертация [509,9 K], добавлен 01.04.2011

  • Лингвистическая терминология как объект исследования. Теоретические основы описания терминов. Этапы развития лингвистической терминологии, ее формирование посредством описательных грамматик. Словари лингвистических терминов и лингвистические энциклопедии.

    дипломная работа [87,1 K], добавлен 25.02.2016

  • Характеристика термина как единицы языка и речи; их классификация. Рассмотрение общих и частных явлений, свойственные русской лингвистической терминологии, экстралингвистических факторов. Описание деривационных и прагматических особенностей терминов.

    дипломная работа [80,3 K], добавлен 03.02.2015

  • Словообразовательные модели фреквентативных глаголов: собственный компонент, негативный, эмоциональный. Семантический компонент спонтанности, нерегулярности, продвижения к цели, фреквентативные глаголы в разговорном языке и в переводе на финский.

    курсовая работа [42,7 K], добавлен 12.07.2012

  • Определение и составляющие креолизованного текста. История французского комикса. Комикс как креолизованный текст. Сравнительно-сопоставительный анализ лингвистической организации вербальных составляющих текстов французских комиксов разной степени.

    курсовая работа [6,6 M], добавлен 28.09.2014

  • Становление лингвистической теории Ф. Де Соссюра - швейцарского лингвиста, заложившего основы семиологии и структурной лингвистики. Теория языка в концепции Ф.Де Соссюра, его факт многоликости языка и дихотомии. Противопоставление языка и речи лингвистом.

    курсовая работа [208,6 K], добавлен 05.06.2015

  • Структура текста, морфологический уровень. Исследование текста с лингвистической точки зрения. Прямонаправленная и непрямонаправленная связность текста. Важность морфологического уровня текста в понимании структуры текста и для понимания интенции автора.

    реферат [30,4 K], добавлен 05.01.2013

  • Семантическая особенность фразеологических единиц с компонентом глаголом зрительного восприятия в русском языке. Фразеологическое сращение, единство и сочетание. Фразеологизмы со значением собственного зрительного восприятия и эмоциональных отношений.

    курсовая работа [36,0 K], добавлен 16.06.2016

  • Зарождение понятия "компонентный анализ" в лингвистических исследованиях. Применение метода "компонентного анализа" в лингвистической практике. Взаимодействие метода компонентного анализа с другими методами лингвистических исследований.

    курсовая работа [415,4 K], добавлен 27.03.2003

  • Семантический анализ как основной метод исследования паремий. Культурная ценность и распространенность пословиц и поговорок в современном английском языке. Паремиология как наука. Основные отличия пословицы от фразеологизма. Содержание и форма пословицы.

    курсовая работа [30,5 K], добавлен 30.06.2013

  • Термин в современной лингвистике, его специфика как лексической единицы профессиональных подъязыков. Понятийный аппарат терминоведения. Проблемы лексикографирования лингвистической терминологии. Принципы создания двуязычного лингвистического словаря.

    дипломная работа [84,6 K], добавлен 22.05.2012

  • Особенности официально-делового и юридического стиля. Лексико-семантическая организация и особенности словоупотребления в юридических текстах. Официально-деловой стиль и его жанровые разновидности. Синтаксические особенности юридических текстов.

    дипломная работа [215,1 K], добавлен 08.09.2010

  • Уникальность истории иноязычного слова в принимающем языке. Признаки иноязычных вкраплений в лингвистической литературе. Графический облик слова. Разграничение случаев омонимии и полисемии. Общие тенденции в сфере укоренения заимствованной лексики.

    реферат [11,8 K], добавлен 06.05.2011

  • Понятие и истоки прагматики. Принципы классификации сложных слов в современном немецком языке. Словообразовательные модели, морфологическая и структурная внутренняя валентность, стилистические особенности, номинативные и экспрессивные функции композитов.

    дипломная работа [78,9 K], добавлен 20.07.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.