Семантический компонент в системах понимания текста

Оценка задач, которые должны решаться средствами семантического анализа. Обзор ограничений на функциональность и стиль анализируемых текстов. Анализ способов организации взаимодействия семантического компонента анализатора с синтаксическим компонентом.

Рубрика Литература
Вид доклад
Язык русский
Дата добавления 19.01.2018
Размер файла 22,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

УДК 81'322.2 : 81'37

СЕМАНТИЧЕСКИЙ КОМПОНЕНТ В СИСТЕМАХ ПОНИМАНИЯ ТЕКСТА** Работа выполнена при финансовой подержке РФФИ (проект № 06-06-80434)

В.Ш. Рубашкин 11 197341, Санкт-Петербург, пр. Испытателей 11, к. 1, кв.386, vrub@mail.nw.ru

В докладе рассматриваются: задачи, которые должны решаться средствами семантического анализа; принципиальные ограничения на функциональность и стиль анализируемых текстов; способы организации взаимодействия семантического компонента анализатора с синтаксическим компонентом; основные модели и методы. Обсуждается требуемая семантическим анализом функциональность концептуального словаря

1. Ситуация в целом

Начнем с очевидного: технологии полного и точного автоматического анализа произвольного текста (и даже делового текста) пока не существует. При этом наименее разработанными являются модели и методы семантического уровня. В отличие от синтаксиса (и тем более морфологии) семантический анализ, да и семантика вообще, не имеют прочной дисциплинарной традиции. Компьютерная семантика и вовсе детище последнего десятилетия. В компьютерной семантике существует ряд сложных теоретических проблем, подходы к которым только нащупываются. Главные из них: стандартизация языков представления знаний; разрешение синтаксической и лексической омонимии; установление референциальных отношений между единицами текста; анализ контекстов, характеризующихся смысловой неполнотой; разработка семантических словарей, необходимых для поддержки алгоритмов семантического анализа. Нужно также иметь в виду, что для достаточно полного понимания текста от системы анализа помимо способности выявить и формализовать буквальную семантику текста требуется также способность к реализации логического вывода по тексту, - что представляет собой еще менее разработанную проблему. Характеризуя ситуацию в целом, можно сказать, что компьютерная семантика еще только выходит из стадии поисковых и научно-исследовательских работ [Nirenburg et al., 2004], [Тузов, 2003].

2. Задачи семантический текст анализатор стиль

С одной стороны, можно сказать, что семантический компонент должен обслуживать и развивать все без исключения лингвистические технологии: в системах распознавания (OCR и Speech Recognition) и в грамматических корректорах он должен формировать дополнительные лингвистические фильтры; в системах перевода поддержать прежде всего разрешение неоднозначностей и поднять уровень профессиональной компетенции; в документальных ИПС - сформировать дополнительные критерии релевантности документа. Однако имеется большой и мало разработанный круг задач, специфических именно для семантического анализа текста. В самом общем виде эти задачи можно характеризовать как задачи перехода от плохо структурированной (ЕЯ-текст) к хорошо структурированной информации, пригодной для обработки стандартными и высокоэффективными средствами информационных технологий. В зависимости от типа формализуемых знаний и, соответственно, типа целевой технологии методы и средства семантического анализа можно разделить на два существенно разных направления: средства формализации фактологической информации (целевая технология, как правило, СУБД) vs средства формализации номологической информации (целевая технология, как правило, экспертные системы). В узком смысле под семантическим анализом часто подразумевают именно первое - извлечение из текста фактологической информации. И если отправляться от технологии СУБД как типовой целевой технологии, то семантический анализатор можно функционально характеризовать как инструмент реализации интерфейса между СУБД и ЕЯ-текстами. В последние годы это направление оформилось в технологию целенаправленного извлечения из текстов информации заранее определенного типа (Information Extraction) [Grishman, 1997], [Ермаков, 2005].

3. Существенные ограничения

Формализовать смысл текста можно лишь при том непременном условии, что он там присутствует и выражен достаточно эксплицитно. Поэтому:

Объектом полного семантического анализа могут быть только тексты, опирающиеся на логически и терминологически отработанную систему понятий.

Объектом полного семантического анализа могут быть стилистически и лексически однородные деловые тексты, регламентированные профессиональной дисциплиной. Методология семантического анализа испытывает большие трудности и, как правило, пасует, сталкиваясь с метафорическими контекстами, словарно не регламентированными переносными значениями и идиоматическими выражениями, смысловыми пропусками, намеками и т. п. Весьма ограничены возможности анализа текста, апеллирующего к энциклопедической и общекультурной компетенции читателя.

Объектом полного семантического анализа являются, как правило, фактографические (ситуативные, планшетные) тексты, описывающие свойства определенной совокупности объектов, отношения между ними, процессы и действия, в которых они участвуют. Это могут быть, например, сообщения о движении и грузообработке судов, сообщения о криминальных происшествиях, сообщения о расположении и состоянии сил и средств, участвующих в военных действиях, рекламные сообщения и т. п. В значительной степени доступны для анализа также нормативные документы разного типа - в частности, нормативно-техническая и юридическая документация.

Выход за пределы этих ограничений хотя и возможен, но требует каждый раз привлечения каких-то специальных методов, ориентированных на специфику решаемой задачи дает частичные результаты.

4. Взаимодействие с синтаксическим уровнем

В идеале на вход семантического компонента должен поступить синтаксически размеченный текст. Очевидно, формат разметки должен быть унифицирован, чему пока, к сожалению, не уделяется должного внимания. В размеченном тексте должна быть представлена следующая информация:

идентификаторы понятий, соответствующих слову (термину);

указание синтаксического хозяина (всех альтернативных хозяев) и вида синтаксической связи;

выделение сегментов (части сложного предложения, обособленные обороты);

раздельное представление всех глобальных вариантов синтаксического разбора;

анафорические отсылки;

дополнительная грамматическая информация о слове, которая может потребоваться в процедурах семантического анализа.

До передачи в семантический компонент должны быть также опознаны и представлены одной лексемой термины-словосочетания; унифицировано представление числовой информации; опознаны собственные имена и т. п. Разумеется, в реальных проектах все эти задачи решаются с той или иной степенью приближения.

5. Модели и методы

Можно считать, что профессиональное сообщество пришло к согласию, по крайней мере в следующих исходных пунктах.

Универсальный целевой язык формализации знаний - это язык логики предикатов. Другие языки (семантические сети, реляционные БД, продукционные языки) могут рассматриваться как ограниченные версии логического языка. В собственно фактографическом анализе, как правило, достаточным оказывается сетевое представление.

Семантический анализ - с точки зрения используемых методов и средств - должен предусматривать два этапа: (а) этап интерпретации грамматически выраженных (синтаксических и анафорических) связей и (б) этап распознавания связей, не имеющих грамматического выражения.

Неоднозначности должны разрешаться самим процессом анализа - по критерию степени смысловой удовлетворительности получаемого в каждом варианте результата.

Ключевым пунктом системы семантического анализа является эффективная словарная поддержка. В этом смысле любая система семантического анализа является тезаурусно (или, как сейчас предпочитают говорить, онтологически) ориентированной. Поэтому основная проблема в создании реально работающих анализаторов - это проблема создания реально работающего понятийного словаря. "Реально работающего" означает, во-первых, обеспечивающего требуемую алгоритмами функциональность и, во-вторых, обеспечивающего удовлетворительное покрытие профессиональных текстов хотя бы в пределах ограниченной предметной области. Сравни, например, [Nirenburg et al., 2004]: "Точность семантического анализа прямо зависит от качества и полноты семантического словаря".

Далее начинается решение конкретных проблем, и здесь единодушие специалистов заканчивается. Поэтому далее мы будем излагать концепцию, представляющую, главным образом, опыт работы и взгляды автора.

Семантический интерпретатор. Прежде всего следует специфицировать различаемые типы семантических отношений в тексте. Для нас это:

ролевые (связи по валентности предиката);

кореференция;

предметно-ассоциативные (отношения между объектами, процессами, значимые в предметной области - быть частью, иметь местом, быть предназначенным для, быть столицей, и т д. );

смысловой повтор (процесс исключения = исключение);

функциональные - т.е., не имеющие непосредственного предметного коррелята (большой - мощности; 20 - кг; 50 - человек; сто - сорок; очень - дорогой и т. п.).

Принимаются следующие основные постулаты интерпретации синтаксических связей.

Тип устанавливаемого семантического отношения определяется семантическими классами и - в определенных случаях - более детальными семантическими характеристиками синтаксического хозяина и слуги. Соответственно, и работа интерпретатора должна управляться категориальной принадлежностью членов интерпретируемой связи. Грамматическое оформление синтаксической связи в одних случаях будет учитываться при определении конкретного содержания семантического отношения (например, выбор конкретной валентности или предметно-ассоциативного отношения), в других (и достаточно многочисленных!) случаях вовсе не играет роли.

Интерпретация синтаксической связи является контекстно-свободной. При условии, что перебор связей интерпретатором производится в направлении "снизу вверх".

Предлоги рассматриваются не как самостоятельный объект интерпретации, а как дополнительная (семантико-грамматическая) характеристика связи между синтаксическим хозяином предлога и управляемым им знаменательным словом.

Для разрешения лексической и синтаксической омонимии, фиксируемой синтаксическим анализатором в межмодульном интерфейсе (см. разд. 4), семантический интерпретатор использует систему эмпирически устанавливаемых предпочтений. (Для удобства сравнения предпочтительности вариантов интерпретации им присваиваются числовые ранги.) На уровне типов семантических отношений устанавливается следующий порядок предпочтений (порядок перечисления соответствует уменьшению приоритета связи).

функциональные связи и связи, устанавливающие факт смысловой избыточности;

ролевые связи, определяемые как обязательные, - при наличии семантически согласованного актанта;

связи кореференции;

ролевые связи, определяемые как факультативные;

предметно-ассоциативные связи специфицируемые; Синтаксические связи, которые интерпретатор, в состоянии лексикализовать конкретным отношением предметной области (портовые сооружения --> сооружения, находящиеся в порту); соответственно, неспецифицируемые связи - те, для которых интерпретатору не удается предложить такую конкретизацию и которые интерпретируются общим понятием связан.

предметно-ассоциативные связи не специфицируемые.

В случае обнаружения синтаксической омонимии сочинительных связей предпочтения определяются степенью согласованности семантических характеристик участников синтаксической связи.

Лексические и локальные синтаксические неоднозначности (наличие у слова альтернативных хозяев) обрабатываются в одном переборном механизме. Глобальные варианты синтаксического разбора предложения рассматриваются в переборном механизме следующего уровня. В этом случае сравниваются суммарные веса интерпретации всех связей предложения.

При установлении разных типов отношений интерпретация определяется следующими положениями.

При установлении ролевых отношений значимы и должны учитываться (применительно к русскому языку) следующие грамматические характеристики участников синтаксической связи:

семантико-синтаксический тип предиката (словарная характеристика);

грамматическая форма предиката;

падеж актанта, возможность адъективной формы для актанта по данной валентности;

возможность предложного управления актантом и способность оформляющего синтаксическую связь предлога выражать отношение по данной валентности. (Информация о способности предлога служить указателем роли для данной валентности хранится в словарном описании предлога.)

Операционально процедура определения возможной роли актанта определяется грамматикой ролевых связей, устанавливающей соответствие вида ( Rf , GFP, TSEMU ) --> VAL_, где Rf - имя синтаксической связи, GFP - грамматическая форма предиката, TSEMU - семантико-синтаксический тип предиката, VAL_ - имя возможной валентности, либо отсылка к ролевой функции предлога.

Затем проверяется соответствие семантических характеристик актанта семантическому условию заполнения валентности предиката (соответствующая пара понятий проверяется на объемную совместимость).

Для установления отношения кореференции необходимыми и достаточными являются следующие условия.

Хозяин и слуга принадлежат семантической категории Объект.

Понятия, соответствующие термам хозяина и слуги, находятся в отношении объемной совместимости.

В случае предложной связи проверяется способность данного предлога выражать отношение кореференции. Подробнее об этом см [Рубашкин, 2005].

Для установления специфицируемых предметно-ассоциативных отношений необходимыми и достаточными являются следующие условия.

Понятия, соответствующие термам хозяина и слуги, находятся в отношении объемной несовместимости, либо (в случае их совместимости) эти термы синтаксически связаны через предлог, не способный выражать отношение кореференции.

С парой термов хозяин - слуга словарно ассоциировано некоторое предметное отношение (<автомобиль, кузов> --> иметь частью) и/или (если связь предложная) предметное отношение ассоциировано с предлогом и падежом.

Для установления не специфицируемых предметно-ассоциативных отношений необходимым и достаточным является истинность первого и ложность второго условия.

Распознавание связей, не имеющих грамматического выражения. Основной проблемой здесь является установление кореференции имен объектов. Нами предложена концептуально простая модель, опирающаяся на тезаурусно-ориентированный механизм установления кореференции имен на уровне межфразовых (и более общо - грамматически не оформленных) связей (гипотеза индикации). Подробное изложение см. [Рубашкин, 1983]. Гипотеза индикации утверждает следующее. Референциальное отождествление имен объектов в связном тексте определяется тремя факторами:

порядком следования имен в тексте;

совместимостью (несовместимостью) имен;

наличием индикаторов референции.

Учет перечисленных факторов может быть сведен к следующим двум пунктам. (1) Несовместимость имен является достаточным условием их референциального различия; при следовании друг за другом несовместимых имен смена референта не маркируется. (2) Совместимые имена по умолчанию (т.е. при отсутствии индикатора смены референта) являются референциально тождественными. Поэтому маркировка референциального различия для следующих друг за другом совместимых имен является обязательной.

Коротко смысл гипотезы индикации может быть передан следующей формулировкой: для несовместимых имен нулевой индикатор маркирует референциальное различие, для совместимых - референциальное тождество.

Прецедентный анализ. Анализ "по образцу" (example-based), основанный на использовании корпуса предварительно размеченных текстов, приобретает все большее значение. Именно этот подход (при непременном сочетании со структурными моделями) дает определенную перспективу в отношении анализа текстов, не регламентированных профессиональной дисциплиной, - текстов свободного стиля. Поэтому разумно построенная система анализа должна обеспечивать не только извлечение знаний из конкретного текста, но и накопление результатов как на синтаксическом, так и на семантическом уровне - для использования их далее в качестве прецедентов. Понятно, что унификация языков разметки, особенно на семантическом уровне, становится более чем актуальной. Следует заметить, что и для этой методологии поддержка функциональностью семантического словаря (генерализация образцов) более чем актуальна.

6. Словарная поддержка процедур семантического анализа

Как видно из сказанного выше, процедуры семантического анализа во всех без исключения случаях опираются на функциональность понятийного словаря.

Наш подход к построению семантического словаря подробно изложен в работах [Рубашкин и др., 1998-2000], [Рубашкин, 2002]. Поэтому ограничимся здесь несколькими принципиальными замечаниями.

Словарь для поддержки семантического анализа должен оперировать смыслами и, следовательно, описывать свойства и отношения понятий а не слов. Точнее, нужны два словаря: кроме собственно концептуального словаря нужен словарь перевода ("Лексикон"), определяющий соответствие слова <--> понятия. Это концептуальный словарь. Отсюда ясно, что любые словари, ограничивающие себя рассмотрением отдельных слов, окажутся мало полезными для такого применения. Таким образом, должна быть четко различена лингвистическая и концептуальная лексикография. Последняя сейчас представлена в рамках общего направления, объединяемого термином инженерная онтология [Staab et al., 2004]. Масштабы, которые оно приобрело в последнее время, вселяют определенный оптимизм.

Концептуальный словарь должен представлять собой нечто большее, чем просто классификационную систему, определяющую родо-видовую иерархию понятий. Из предыдущего видно, что для моделей анализа ключевыми являются следующие функции: вычисление полного набора объемных отношений между понятиями (включение - совместимость - несовместимость); определение возможных для заданной пары понятий предметно-ассоциативных отношений; описание семантических моделей управления предикатов. Для отдельных семантических классов необходимо задание специфических связей (скажем словарь должен обеспечить понимание того, что понятие 'красный' дает ответ на вопрос о цвете вещи, а понятие 'горячий' - не дает; что мощность может измеряться ваттами, но не тоннами и т. д.)

Основные проблемы создания работоспособных концептуальных словарей связаны с переносимостью результатов. Т. е., это проблемы унификации словарных описаний, интеграции специализированных словарей в единую систему понятий и единый вычислительный механизм.

Список литературы

1. [Ермаков, 2005] Ермаков А. Е. Поиск фактов в тексте // Мир ПК, № 2, 2005 http://www.osp.ru/pcworld/2005/02/068.htm

2. [Рубашкин, 1983] Рубашкин В. Ш. О методах анализа связного текста // Вопросы информационной теории и практики. - Вып. 49. - М.: ВИНИТИ, 1983.

3. [Рубашкин и др., 1998-2000] Рубашкин В. Ш., Лахути Д. Г. Семантический (концептуальный) словарь для информационных технологий // Научно-техническая информация. Сер. 2. 1998.- N 1; 1999.- N 5; 2000. - N 7.

4. [Рубашкин, 2002] Рубашкин В. Ш. Универсальный понятийный словарь: функциональность и средства ведения // КИИ-2002. Восьмая национальная конференция по искусственному интеллекту с международным участием. Труды конференции. М.: Физматлит, 2002.

5. [Рубашкин, 2005] Рубашкин В. Ш. Словарная поддержка процедур семантической интерпретации предложных связей // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции "Диалог'2005". - М.: Наука, 2005.

6. [Тузов, 2003] Тузов В.А. Компьютерная семантика русского языка .- СПб.: Изд-во СПбГУ, 2003.

7. [Grishman, 1997] Grishman R. Information extraction: Techniques and challenges // Maria Teresa Pazienza, editor. Information Extraction. Springer-Verlag, Lecture Notes in Artificial Intelligence, Rome, 1997

8. [Nirenburg et al., 2004] Nirenburg S., Raskin V. Ontological Semantics. - Cambridge, MA: MIT Press, 2004

9. [Staab et al., 2004] Staab Steffen, Studer Rudi (eds). Handbook on Ontologies. - Berlin-Heidelberg: Springer-Verlag, 2004

Размещено на Allbest.ru

...

Подобные документы

  • Анализ семантического пространства в прозе Н.В. Гоголя с точки зрения концептуального, денотативного и эмотивного аспектов. Пространственно-временная организация художественной реальности в произведениях автора. Слова-концепты художественного мира.

    курсовая работа [66,1 K], добавлен 31.03.2016

  • Ознакомление с понятием, составом и основными свойствами лексико-семантического поля цвета. Особенности использования красного, белого, желтого и зеленого цвета в сказках О. Уайльда. Трудности перевода слов-цветообозначений в произведениях автора.

    курсовая работа [51,3 K], добавлен 15.08.2013

  • Нарратология как составляющая прозы Довлатова. Изучение имплицитности нарратора в повести "Иностранка". Мемуарность семантического пространства в "Ремесле". "Комедия строгого режима" как социально-политический фарс и первая попытка экранизации писателя.

    дипломная работа [107,6 K], добавлен 02.06.2017

  • Специфика понятия лексико-семантического поля. Типы парадигматических отношений в лексике. Основные вопросы изучения языка произведений Ф.М. Достоевского. Лексико-семантическая группы "Наименования жилища", "Характеристика жилища", "Предметы мебели".

    курсовая работа [78,0 K], добавлен 18.05.2014

  • Авторская песня: определение понятия и история развития. Понятие фонетических и ритмико-интонационных особенностей. Роль фонетических средств в системе средств создания образности художественного (поэтического) текста на примере текстов А. Панкратовой.

    дипломная работа [58,1 K], добавлен 18.01.2014

  • Семантический анализ метра и ритма стихотворения С.А. Есенина "Пороша". Фонетический уровень текста. Словарь лирического стихотворения. Семантика грамматических категорий. Композиционно–речевое единство текста. Изобразительно-выразительные средства.

    реферат [18,7 K], добавлен 21.11.2011

  • Рассмотрение разнообразных средств русского языка, с помощью которых характеризуются запахи. Состав семантического поля "запах" в русском языке. Синонимичный ряд наименований запахов. Влияние одоративных групп слов на красоту и выразительность речи.

    презентация [141,2 K], добавлен 18.12.2010

  • Предметная композиция стихотворений, аллегории лирических сюжетов, повествовательно-элегический стиль, пространство и динамика текста произведений, художественные приемы описания пейзажа, ирония и игра слов, эффект абсурдности образов в русской поэзии.

    контрольная работа [21,9 K], добавлен 13.12.2011

  • Лингвостилистические особенности поэтического текста. Взаимоотношения формы и содержания в переводе поэтических текстов как залог их адекватности. Трансформация смысла в поэтическом переводе. Принцип "намеренной свободы" в переводе поэтического текста.

    курсовая работа [45,2 K], добавлен 14.11.2010

  • Важнейшие составляющие феномена Кавказа как семантического ядра развитого тематического комплекса в русской литературе. Реализация темы боевых действий на Кавказе в прозе Л.Н. Толстого и современных российских писателей (В. Маканина, З. Прилепина).

    дипломная работа [97,5 K], добавлен 17.12.2012

  • Перечень анализируемых немецких сказок, записанных братьями Гримм и русских народных сказок разных авторов. Проведение их количественного и качественного анализа. Сравнительная характеристика животных и анализ частотности употребления их названий.

    курсовая работа [37,4 K], добавлен 01.02.2016

  • Язык художественной литературы. Понятие "семантического поля", его использование в языке стихотворений. Формирование лексики, семантически восходящей к религии. Поэтический язык XIX–XX столетий. Классификация религиозной лексики в языке К. Романова.

    курсовая работа [139,2 K], добавлен 22.05.2012

  • Процесс перевода как специфический компонент коммуникации. Переводческие трансформации – суть процесса перевода, их классификации. Анализ текстов рассказа "Счастливый принц". Особенности перевода К. Чуковского и перевода П.В. Сергеева и Г. Нуждина.

    курсовая работа [51,1 K], добавлен 08.02.2013

  • Вопросы о смысле и цели человеческого существования, нравственного и гражданского долга, возмездия за преступления в трагедии У. Шекспира "Гамлет"; исследование русских переводов XIX века и способов адаптации текста пьесы в русской культурной среде.

    эссе [22,6 K], добавлен 02.05.2012

  • Семантическое словообразование в литературном языке XIX века. Понятие его сущности и специфики языка художественного текста. Определение случаев семантической деривации в области имен существительных в романе "Евгений Онегин". Анализ выявленных дериватов.

    реферат [25,0 K], добавлен 11.05.2011

  • Сочетание изобразительно-выразительных средств языка в произведениях Н. Гоголя. Основной тип речи писателя и цель стиля. Анализ отрывков художественного текста. Использование гипербол, сравнений, эпитетов, эпифор, риторических восклицаний в "Ревизоре".

    презентация [361,9 K], добавлен 05.11.2013

  • Лексические и фонетические особенности текста Супрасльской летописи. Синтаксические особенности исследованного текста. Члены предложения и способы их выражения. Простое и сложное предложения в древнерусском языке. Морфологические особенности текста.

    курсовая работа [34,4 K], добавлен 23.02.2010

  • Краткий обзор жизни Грэма Грина, характерные особенности его творчества. Творческий стиль Грэма Грина на примере его произведений. Выбор активной жизненной позиции. Противопоставление конкретного и абстрактного гуманизма. Коллизия сострадания и жалости.

    дипломная работа [94,8 K], добавлен 14.11.2013

  • Оценочность как текстовая категория. Типы оценок: эмоциональная, эстетическая, этическая, сенсорная, количественная и рациональная. Реализация категории оценки в произведениях рок-поэтов на примере текстов Виктора Цоя, Юрия Шевчука и Игоря Талькова.

    дипломная работа [83,3 K], добавлен 21.09.2011

  • Исследование идейных и исторических причин возникновения верлибра. Анализ связи между формой стихотворения и жанром. Влияние поэзии А. Рембо на творчество поэтов-сюрреалистов. Обзор поэтических текстов французских авторов, написанных свободным стихом.

    курсовая работа [39,4 K], добавлен 17.02.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.