Процедуры выявления знаний об отношениях обусловленности

Исследование способов формализации текстов естественного языка с целью представления их в виде совокупности правил для экспертных систем. Соотношение синтаксической и коммуникативной структур предложений с учётом типологических особенностей текстов.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 19.01.2018
Размер файла 20,9 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

ПРОЦЕДУРЫ ВЫЯВЛЕНИЯ ЗНАНИЙ ОБ ОТНОШЕНИЯХ ОБУСЛОВЛЕННОСТИ

А.В. Жожикашвили (zhozhik@iitp.ru)

Л.В. Савинич (savinitch@iitp.ru)

В.Л. Стефанюк (stefanuk@iitp.ru)

Институт проблем передачи информации РАН, Москва

Исследуются способы формализации текстов естественного языка с целью представления их в виде совокупности правил для экспертных систем. С учётом типологических особенностей текстов, соотносятся синтаксическая и коммуникативная структуры предложений. Разработанные алгоритмы реализованы в виде демонстрационного программного комплекса.

текст язык синтаксический предложение

Введение

Большая часть знаний, накопленных людьми, сегодня хранится в форме текстов на естественном языке. Особенно это характерно для гуманитарных дисциплин или для общедоступных популярных изложений научно-технических дисциплин. В последнем случае изложения часто ориентированы на богатую интуицию человека, который в состоянии все более глубоко проникать в смысл текста по мере того, как в этом возникает необходимость, иногда исправляя или уточняя сказанное.

Современные применения компьютеров в прикладных задачах связаны с необходимостью введения отдельного специалиста - инженера по знаниям, который должен уметь извлекать необходимые продукционные правила из текстов и других источников, опираясь на свои собственные знания и интуицию. В наших работах [Савинич и др., 2007, 2008, 2009] сделана попытка автоматизировать процесс порождения продукционных правил естественно-языкового текста, которые позволят, не прибегая к услугам инженера по знаниям, своевременно вносить уточняющие изменения в продукционные правила в соответствии с новыми публикациями в данной предметной области.

Данная статья является продолжением наших исследований, имеющих своей целью: во-первых, обозначить возможные способы выявления конструкций со значением обусловленности в текстах естественного языка; во-вторых, придать найденным конструкциям формат, используемый в экспертных системах. И, наконец, в-третьих, ожидается, что трансформация любого (или только заданного типа) текста в совокупность конструкций со значением обусловленности позволит осуществить поиск требуемых конструкций при помощи компьютера. Иными словами, задача состоит в том, чтобы чисто формальными методами преобразовывать тексты естественного языка в совокупность строгих логических продукций, типичных для интеллектуальных систем [Стефанюк и др., 2007].

В основе логических правил вывода для интеллектуальной системы обычно лежит математическое понятие импликации (`если …, то'). Но так как в лингвистике импликация имеет другое значение, а именно `нечто подразумеваемое', мы используем иной термин - отношение обусловленности. Обусловленность, или каузальность, то есть причинность в широком смысле слова, объединяет в себе существенно более богатый спектр значений, таких, как основание, обоснование, доказательство и др. Весь этот круг отношений предполагает такую связь ситуаций, при которой одна служит основанием для реализации другой. Таким образом, в нашу задачу требуемого трансформирования текстов в продукции входит также задача формального разграничения логически связанных между собой ситуаций.

Отражая тем или иным образом логическую структуру высказывания, синтаксические отношения образуют в языке формальные признаки слов, обозначающих предмет высказывания, и противопоставленные им признаки слов, типично обозначающих предикацию. С целью представления для интеллектуальных систем формальных признаков слов, с одной стороны, и выявления понятийного аппарата текста, с другой стороны, нами был предпринят анализ лексического состава текста, в результате чего выделены характерные для выбранного типа текста классы лексических единиц и форманты, маркирующие их.

На первом этапе работы нами были выявлены элементы, маркирующие отношение обусловленности в естественном языке, - общеизвестные условные союзы если, в случае, в случае когда, а также их субституты.

На основе данных формальных показателей был составлен алгоритм, автоматически преобразующий текст в набор продукций для использования в интеллектуальной системе [Отчет по теме РФФИ, 2008].

Однако, выявленные формальные компоненты предложения, маркирующие отношение обусловленности, не исчерпывают всех случаев смыслового выражения обусловленности, как, например, в следующем предложении:

Граждане (физические лица) и юридические лица приобретают и осуществляют свои гражданские права своей волей и в своем интересе.

Поэтому для обнаружения иных маркеров отношения обусловленности был предпринят анализ синтаксической структуры предложений в его соотношении со смысловым содержанием.

Мы исходили из того, что тип текста в значительной степени предопределяет его синтаксическую структуру, поэтому обратились к описанию структуры деловых текстов для выявления их типологических особенностей.

1. Основные черты делового текста регулирующего характера

Выбранный для анализа текст представляет собой свод положений, предписываемых к исполнению и регулирующих взаимоотношения участников в различных официально-деловых ситуациях. Такая регулирующая функция выражается в тексте рядом характерных грамматических особенностей.

Основной стилевой чертой данного типа текстов является точность формулировок, не допускающая инотолкования в описании ситуации и её участников [Кожина, 1983]. Эта черта реализуется путём использования специальных терминов и фразеологических сочетаний, характерных для данной сферы деятельности, в однозначности и безубразности нетерминологической лексики:

физические лица, предпринимательская деятельность, гражданские права и др.

Это исключает использование синонимов, которые могут выражать иные смысловые оттенки. Поэтому особенностью деловой речи является неоднократное повторение одних и тех же слов, в основном терминов.

Помимо этого, выражению точности способствует употребление различных уточнений и оговорок, что проявляется в использовании многочисленных уточняющих синтаксических конструкций, причастных и деепричастных оборотов, цепочек однородных членов. А для точности и логичности высказывания характерно преобладание союзной связи. Причём, в большинстве своём используются составные отымённые союзы и предлоги:

в случае; в случае, когда; в соответствии с; вследствие; в результате.

Другой стилевой чертой является безличное, неличное выражение предписываемого регламента. Данная черта проявляется в отсутствии форм глагола 1 и 2 лица, с другой стороны - в преимущественном употреблении форм 3 лица и инфинитива. Форма 3 лица настоящего времени имплицитно выражает долженствование:

Товары, услуги и финансовые средства свободно перемещаются (то есть должны свободно перемещаться) на всей территории Российской Федерации.

Как правило, характер долженствования в деловой речи проявляется в частом использовании кратких прилагательных модального значения долженствования (должен, обязан, обязателен) или инфинитивов глагола (Приказываю: 1) Командировать…; 2) Повысить производительность…; 3) Установить… и т.п.). Например:

Способы самозащиты должны быть соразмерны нарушению и не выходить за пределы действий, необходимых для его пресечения.

Однако в анализируемых нами текстах регламентирующего характера черта долженствования значительно смягчена и выражается также другими сочетаниями: глаголом может + инфинитив глагола; модальным словом вправе + инфинитив, имеющими предписывающий характер:

При осуществлении процедуры признания банкротом индивидуального предпринимателя его кредиторы по обязательствам, не связанным с осуществлением им предпринимательской деятельности, также вправе предъявить свои требования.

Далее следует выделить типичную для деловой речи стандартизированность (шаблон, форма), употребление устойчивых для деловой сферы общения оборотов:

на основании и во исполнение настоящего закона; защита гражданских прав; компенсация морального вреда; возмещение причинённых убытков и т.д.

Типичным признаком деловой речи является её именной характер (т.е. широкое использование имён существительных и имён прилагательных). Употребление в ней существительных значительно превышает использование единиц других лексических категорий. Для существительных характерно употребление не только в свойственной им номинативной функции (называния), но и, очень часто, в атрибутивной (функции определения), образуя ряды номинативных конструкций:

права авторов произведений науки; порядок осуществления права собственности; ограничение дееспособности гражданина и др.

Таким образом, была представлена характеристика делового типа текста с его синтаксическими и грамматическими особенностями.

1. Синтаксическая структура делового типа текста регулирующего характера

Ещё раз отметим, что выявленные формальные маркеры отношений обусловленности (союзы если; в случае; в случае, когда) не исчерпывали всех случаев выражения импликации для интеллектуальной системы. Поэтому нами был использован иной подход для определения обусловленности, выраженной имплицитно.

С учётом прагматической значимости порядка слов в предложении были определены статистические данные для выделения исходной позиции предиката. С этой целью был предпринят анализ коммуникативной структуры предложений.

2. Анализ коммуникативной структуры предложений

Исходя из прагматически релевантного актуального членения, было проанализировано деление предложений на тему и рему высказывания. Тема - "компонент актуального членения предложения, исходный пункт сообщения, - то, относительно чего нечто утверждается в данном предложении". Как показал анализ, тема в анализируемом тексте преимущественно занимает начальную позицию в предложении. Рема - "компонент актуального членения предложения, то, что утверждается или спрашивается об исходном пункте сообщения - теме - и создаёт предикативность, законченное выражение мысли". Как свидетельствует анализ, рема занимает конечную позицию.

Граждане могут иметь имущество на праве собственности…

тема рема

Анализ коммуникативной структуры позволяет нам сделать очевидный вывод: тема высказывания в подобных текстах регулирующего характера преимущественно занимает начальную позицию в предложении и заканчивается перед первым глагольным или именным сказуемым, которое маркируется свойственными им окончаниями. Причём, их число ограничивается только формами инфинитива и глаголами 3 лица настоящего времени, что, как указывалось в разделе 2, свойственно текстам делового типа и поэтому существенно упрощает поиск таких компонентов в предложении.

3. Локализация рематической части предложений в интеллектуальной системе

Способ формального выделения интеллектуальной системой глагола по морфологическим показателям - так называемый вербоцентрический подход - не является новым. Однако в деловых текстах глагол выступает не только формальным разграничителем связанных между собой ситуаций, но также несёт основную смысловую нагрузку в регулировании их отношений.

Поэтому далее был предпринят рекурсивный анализ предложения для выявления компонентов, находящихся в препозиции к глаголу и влияющих на его семантику. Например:

Однако такой гражданин самостоятельно несёт имущественную ответственность по совершённым им сделкам и за причинённый им вред.

(Вертикальная черта показывает, что место членения предложения на тему и рему высказывания сдвинута от глагола влево - перед обстоятельством.)

4. Синтаксический модуль: бессоюзное сложное предложение

Такие предложения характерны для официально-деловой речи. Они используются при перечислении реалий деловой сферы общения, условий взаимодействия сторон и т.д. Обязательным оператором (знаком пунктуации) перед перечисляемыми элементами является двоеточие. Основная синтаксическая функция двоеточия заключается в разграничении связанных ситуаций, из которых одна служит основанием для реализации другой. Таким образом, двоеточие представляет собой формальный маркер для интеллектуальной системы при выделении отношений обусловленности. Помимо этого, при перечислении после двоеточия часто используется цифровая нумерация перечисляемых компонентов и пунктуационный знак - точка с запятой - после каждого компонента, которые также могут служить дополнительными маркерами. Например:

Государственной регистрации подлежат следующие акты гражданского состояния:

рождение;

заключение брака;

расторжение брака;

усыновление (удочерение);

установление отцовства;

перемена имени;

смерть гражданина.

В данном примере одна ситуация реализуется на основании обусловливающих её перечисленных ситуаций. Это пример обратной последовательности в отношениях обусловленности. Однако если двоеточию предшествуют слова с модальным значением долженствования - должен, обязан, вправе, имеет право - то отношение обусловленности выстраивается в прямом порядке. Например:

Участники хозяйственного товарищества или общества вправе:

участвовать в управлении делами товарищества или общества…;

получать информацию о деятельности товарищества или общества;

принимать участие в распределении прибыли…

5. Программная реализация описанных методов

Значительная часть описанных выше методов, позволяющих разбить предложение на части, содержащие условия, и часть, содержащую заключение, были реализованы программно.

В задачу авторов не входило строить специализированную систему, относящуюся к области компьютерной лингвистики. Вместо этого ими был использован традиционный для данного коллектива аппарат продукционных систем. Точнее, была использована так называемая продукционная сеть, состоящая из рекурсивных продукций. Такая продукция, прежде чем отработать, запускает другие продукции системы, и считается успешно выполненной, если работа этих продукций закончилась успехом. Продукционная сеть оказалась удобной для разбора лингвистических конструкций. Такая конструкция может состоять из фрагментов, каждый их которых, в свою очередь, представляет собой сложную структуру, требующую самостоятельного разбора.

В систему, служащую для поиска конструкций обусловленности, был включен механизм исключений. Он был основан на тех же идеях, что и сама продукционная система - на понятии образца и операции сопоставления. В продукционных системах, созданных авторами ранее, продукция считалась применимой к ситуации, если эта ситуация была сопоставима с определенным образцом. В использованной здесь системе продукция считается применимой к ситуации, если эта ситуация сопоставима с определенным образцом и при этом не сопоставима с другими образцами, играющими роль исключений.

Желая упростить программную часть системы, авторы рассматривали в качестве ситуации отдельную фразу, понимая ее как последовательность слов и знаков препинания. В процессе работы, однако, потребовался разбор отдельных слов с целью установить форму слова. В результате продукционная система была сделана двухуровневой. Верхний уровень служит для разбора фраз как последовательностей слов. Нижний уровень применяется для разбора отдельного слова. Поскольку набор слов и набор форм слова, используемый в разбираемых текстах, крайне ограничен, разбор слова позволил в некоторых случаях отказаться от словарей. Так, окончание -ет позволило отнести слово к глаголам 3 лица настоящего времени, причём единственным исключением на весь анализируемый текст оказалось слово лет.

Для участия лингвистов в разработке алгоритмов поиска конструкций со значением обусловленности, был создан вариант, который, используя COM-интерфейс, анализировал непосредственно текст в формате Microsoft Word, и в этом же формате хранились правила продукционной системы, служащие для поиска конструкций со значением обусловленности. Эта программа позволяла работать, не выходя из редактора Word, модифицируя при необходимости правила и повторно запуская продукционную систему. В исходном тексте программа выделяла цветом фразы, в которых ей удалось найти конструкции со значением обусловленности, отдельно выделяя цветом маркеры, служащие для распознавания этих конструкций. Исследователь мог перемещаться по тем выделенным фразам, при этом в отдельном окне показывалось, как эта фраза была разбита в соответствии с выявленным отношением обусловленности.

Заключение

Впервые такая задача автоматизации извлечения экспертных знаний из текста возникла в наших работах по созданию динамических экспертных систем в 1990-х годах [Стефанюк, 1994], когда знания специалистов по сейсмологии стали недоступны, в связи с некоторыми особенностями проходившей в стране "перестройки". При этом, однако, имелась достаточно богатая литература по вопросу сейсмопрогноза. В то время казалось естественным использование инженеров по знаниям, которые, исходя из текстового материала, строили продукционные правила, предназначенные для динамической экспертной системы.

Примерно тогда и возник вопрос об автоматическом извлечении знаний в форме продукций. Однако опыт показал, что эта задача оказалась намного сложнее, чем можно было ожидать, что и потребовало интенсивных исследований.

Благодарности. Работа выполнена при финансовой поддержке РФФИ (проект № 00-01-07836).

Список литературы

1. [Кожина, 1983] Кожина М.Н. Стилистика русского языка. - М.: Просвещение, 1983.

2. [Отчет по теме РФФИ, 2008] Отчет по теме РФФИ, грант № 07-07-00391-а, М.: 2008 (рукопись).

3. [Савинич и др., 2007] Савинич Л.В., Стефанюк В.Л. Представление конструкций со значением обусловленности // Труды 2-й международной конференции "Системный анализ и информационные технологии (САИТ-2007)". - М.: Издательство ЛКИ/URSS, 2007. Т. 1.

4. [Савинич и др., 2008] Савинич Л.В., Стефанюк В.Л. Выражение обусловленности в естественном языке // Информационные технологии и вычислительные системы. - М., 2008. №1.

5. [Савинич и др., 2009] Савинич Л.В., Стефанюк В.Л. К извлечению знаний об отношениях обусловленности // Труды конгресса AIS-IT'09. - М.: Физматлит, 2009. T.1.

6. [Стефанюк, 1994] Стефанюк В.Л. Поведение квазистатической оболочки в изменяющейся нечёткой среде // Труды IV национальной конференции с международным участием «Искусственный интеллект94». - Рыбинск, 1994. Т. 1.

7. [Стефанюк и др., 2007] Стефанюк В.Л., Жожикашвили А.В. Сотрудничающий компьютер: проблемы, теории, приложения. - М.: Наука, 2007.

Размещено на Allbest.ru

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.