О структуре системы, понимающей текст

Понимание связного текста с позиций системного анализа. Лингвистическая составляющая системы понимания текста, контекстный метод фрагментирования. Язык структурированных семантических сетей (гиперграфов). Экстралингвистические способы коммуникации.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 09.01.2016
Размер файла 21,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

О структуре системы, понимающей текст

А.Л. Воскресенский

Г.К. Хахалин

Аннотация

Рассматривается задача понимания связного текста с позиций системного анализа, который требует выйти за рамки только лингвистической парадигмы. Лингвистическое обеспечение опирается на контекстный метод фрагментирования, а экстралингвистические средства - на сопоставление вербальных и невербальных способов коммуникации и динамические онтологии, имеющие двухуровневую структуру.

Многие приложения нуждаются в том, чтобы компьютер «понимал» смысл текста. Это нужно, в частности, для задач перевода текста с одного языка на другой, поиска информации, автоматического аннотирования и реферирования текстов, распознавания речи, выявления и накопления знаний в различных областях. Попытки решения этой задачи осуществляются на протяжении более 50 лет, но пока не привели к удовлетворительным результатам.

Одной из причин этого, по нашему мнению, является замыкание лингвистов в пределах своей науки. В лингвистике, изучающей словесные языки, язык не только объект изучения, но и инструмент исследователя [1]. При этом лингвистическим средствам придается основная роль в попытках создания систем понимания текста [2]. Но невозможно описать какую-либо систему изнутри, нужно выйти за пределы описываемой системы. Это не учитывается многими лингвистами. Возможно, именно это является причиной трудностей, возникающих в попытках развить средства синтаксического и семантического разбора текста путем выхода за пределы одного предложения.

Делаются попытки представить проблемы лингвистики с точки зрения системного анализа (например, [3]). Но при построении иерархии систем, входящих в «лингвистический универсум», в [3] упускается из виду человек, без психической деятельности которого ни одна из этих систем не может существовать. Однако в [4] показано, что на функциональном уровне система анализа текста должна быть приближена к способам обработки информации человеком в процессе интеллектуальной деятельности.

Основная проблема заключается в том, что способы обработки информации человеком в процессе интеллектуальной деятельности нам неизвестны. Более того, они не могут быть выявлены путем опроса или лингвистического анализа текста, учитывая наблюдения психологов, что «единицы мысли и единицы речи не совпадают» [5].

Лингвистическая составляющая системы понимания текста

Для многих прикладных областей обработки текстов на естественном языке (ЕЯ) лингвистический анализ можно рассматривать как задачу, решающую две основные проблемы: снятие многозначностей в тексте и представление текстовой (явной и неявной) информации на языке модели предметной области (предметной онтологии).

Контекстный метод лингвистического анализа [6] предполагает проведение анализа при использовании трех моделей, построенных в виде специальных онтологий: грамматическая онтология, онтология семантической интерпретации и предметная (семантическая) онтология. Процесс лингвистического анализа осуществляется в три этапа: грамматический анализ, семантическая интерпретация и семантический анализ.

Язык представления грамматической и семантической онтологий - это язык структурированных семантических сетей (гиперграфов). Для грамматического описания используются морфологические признаки, грамматические классы, контекстные синтаксические правила сочетания слов в предложениях и соответствующие отношения между поверхностными элементами языка, а для описания семантики используются представления концептов, отношений между ними и описания ситуаций в предметной области. И та, и другая модель задаются декларативно.

Язык представления онтологии семантической интерпретации - это язык продукций, каждой группе которых приписано имя из лексикона (словаря) системы и набор условий, определяющих интерпретацию фрагментов предложения (слов, словосочетаний, фраз) фрагментами описания ситуаций на языке предметной онтологии. В набор условий входят тематика текста, частеречные признаки, контекстные правила синтаксиса ЕЯ и различного характера присоединенные процедуры, выполняемые при реализации конкретной продукции. Эта онтология, по сути, задает способы «перевода» элементов текста (слов и словосочетаний) в концепты и отношения предметной области в зависимости от контекста. Эти условия как бы «навешаны» на словарь системы, расширенный знаками препинания и специальными «вкраплениями» (даты, числа, коды, номера и т.п.), которые встречаются в текстах на ЕЯ.

Лингвистический анализ реализуется базовым компонентом, который предназначен для трансляции полных простых фраз, и расширенным компонентом, который предназначен для декомпозиции сложных предложений, восстановления эллипсиса и разрешения анафоры. Положительным результатом расширенного компонента всегда является полная простая фраза языка, которая и транслируется базовым компонентом.

Базовый компонент включает процедуры графематического, морфологического и синтаксического анализа, а также процедуры семантической интерпретации и семантического (предметного) анализа. Графематический и морфологический анализ осуществляются с использованием известных стандартизированных процедур.

Синтаксический анализ состоит в поиске такого множества синтаксических контекстных правил, которое полностью «покрывает» анализируемую фразу и образует при этом связную структуру фрагментов. Процесс полного синтаксического разбора носит итеративный характер. Он включает выбор гипотез из множества синтаксических правил, сопоставление этих правил с фразой и выделение связных фрагментов.

В результате успешного сопоставления выделяется определенный фрагмент. Если он расширяет связную структуру фрагментов, выделенных на предыдущей итерации, то разбор продолжается для следующего слова, не входящего в связную структуру фрагментов. Если выделенный фрагмент является изолированным, то он запоминается с целью его возможного включения в структуру фрагментов в последующих итерациях. Процесс повторяется до получения полного разбора. При этом используется метод последовательного анализа и отсева вариантов без пошагового конструирования решения [7], сокращающий число рассматриваемых вариантов фрагментации.

Если в процессе разбора невозможно получить полное и связное покрытие фразы, то относительно входного предложения предполагается, что разбор происходил по ложной ветке, что предложение является неполным или оно некорректно с точки зрения заданного синтаксиса.

Семантическая интерпретация состоит в получении по синтаксической структуре разбора однозначного «подстрочника», т.е. некоторого не до конца оформленного описания ситуации на языке предметной онтологии. Процесс интерпретации включает в себя построение с помощью системы продукций подстрочника по частям, соответствующим фрагментам фразы, а также снятие неопределенностей в частях подстрочника. Этот процесс также реализуется итеративно. Если невозможно получить однозначный подстрочник, то предложение считается некорректным с точки зрения интерпретации либо модель интерпретации неполна.

Семантический анализ состоит в построении полного и связного описания ситуации. Он выполняется аналогично синтаксическому, только в качестве контекстных правил выступают описания микро и макроситуаций, которые являются компонентами модели предметной области. В результате анализа получается структура на языке предметной онтологии, соответствующая ситуации, представленной в предложении ЕЯ. Если невозможно получить однозначное описание ситуации, то предложение считается семантически некорректным либо семантическая модель неполна.

Трансляция сложных предложений основана на базовом компоненте для полных фраз и на схеме трансляции эллипсисов для неполных фраз. Трансляция включает следующие этапы: декомпозиция сложного предложения на фразы по структурным признакам «усложнения»; получение текущей фразовой структуры предложения с последующим ее уточнением; итеративная трансляция каждой выделенной фразы и «сочленение» в предметной онтологии описаний в общую структуру на основе окончательной фразовой структуры ЕЯ-предложения.

Для правильно построенных сложных предложений всегда существуют признаки «усложнения»: союзы, союзные слова, знаки препинания и т.п. Для каждого ЕЯ существует ограниченное множество типов сложных предложений. Это позволяет внести в грамматическую модель понятия и структуры «связок», необходимые для декомпозиции сложных предложений. Все эти структуры естественно «погружаются» в некоторую связную модель, в которой существуют отношения типа «является видом», «входит в структуру» и т.д., с помощью которых можно осуществлять поиск и сопоставление структур «связок» с входным предложением. Элементами структур связок могут быть перечисленные выше признаки усложнения, знаменательные слова и различные их сочетания, между которыми существуют синтаксические и геометрические отношения.

Процесс декомпозиции («разбивки») включает следующие этапы: выбор структур «связок» для разбивки; сопоставление этих структур «связок» с предложением; выделение связующих частей предложения и итеративное выделение фраз. Положительный результат сопоставления структуры связки с предложением дает возможность выделить признак типа рассматриваемого сложного предложения.

Обработка эллипсисов включает два этапа: восстановление их до полных фраз за счет дискурса и трансляция восстановленных фраз с помощью базового компонента. В качестве дискурса используется локальный дискурс (для сложного предложения) или глобальный дискурс (для простых неполных предложений). Отсутствие дискурса или невозможность корректного восстановления эллипсиса характеризует нарушение связности ЕЯ-текста или неполноту соответствующей модели.

Восстановление эллипсисов включает поиск аналогичных фрагментов дискурса и эллипсиса и добавление из дискурса в эллипсис недостающих элементов с их возможной коррекцией.

Экстралингвистический компонент

На основе сопоставлении процессов коммуникации с помощью словесного и жестового языков показано [8], что система понимания текста, помимо средств, обеспечивающих лингвистический разбор текста, должна включать в себя блок, отслеживающий изменения характеристик описываемых в тексте объектов (пространственное положение, размеры, облик, возраст и т.п.) и хранящий значения этих характеристик в привязке к времени текста и к астрономическому времени. Сопоставление в заданные моменты времени текущих значений характеристик для различных объектов позволяет создавать описания ситуаций, причем с учетом объектов, не упоминаемых в текущем обрабатываемом предложении текста, что невозможно лингвистическими средствами, описываемыми в [2].

Но характеристика объектов будет не полной без описания их отношений друг к другу, например, путем отнесения к одной или различным группам и указания характера взаимодействия этих групп (например, дружественный или враждебный). Эта информация может отсутствовать в данном тексте, но может быть почерпнута из внешних источников информации (для человека этими источниками информации могут быть знания, полученные во время обучения, из литературы или других источников).

Язык развивался первоначально из системы коммуникации, обеспечивающей передачу жизненно важных для человека сигналов (опасность, пища и т.п.) [9]. Учитывая это, можно предположить, что при чтении любого текста человек строит систему своих отношений как к тексту в целом, так и к описываемым в нем объектам (эти отношения могут изменяться от отрицательных до положительных, включая нейтральное).

Если добавить к функциям указанного выше блока, отслеживающего изменения характеристик объектов текста, функции пометки объектов текста различными уровнями отношений «хороший» и «плохой», то этот блок в какой-то степени будет выполнять функции такого психического феномена как индивидуальное «Я» (в трактовке И.Г. Фихте).

Разметка объектов этими отношениями может проводиться на основе сопоставления и аналогий с объектами, размеченными при предварительном обучении системы.

Если элементы системы понимания текста, отвечающие за выделение объектов текста (например, именных групп) и выполнение других лингвистических операций обозначить (как в [10]) «оперирующей стороной», то указанный блок в рамках данной терминологии выполняет функции «исследователя операции».

Модель экстралингвистического компонента базируется на использовании онтологий нового типа: динамических, которые имеют двухуровневую структуру, на нижнем уровне которой хранится вся информация, поступившая в систему, тогда как на верхнем динамически обновляющемся уровне представлена информация, соответствующая текущей временной или пространственной ситуации. Подобная онтология, структура которой напоминает модель взаимодействия долговременной и кратковременной памяти, как она описана в [11], может хранить информацию об изменениях объектов, описываемых в тексте, и их перемещениях, более того, она может использоваться для кратковременного прогнозирования развития сюжета.

Основываясь на положениях, изложенных в [11], нижний уровень динамической онтологии включает в себя объекты двух типов: понятия (или концепты), содержащие описания объектов окружающего мира, и связи, которые связывают (группируют) понятия. Связи не являются атрибутами понятий - это самостоятельные объекты, имеющие собственный набор атрибутов, в которые входят ссылки на понятия, с которыми взаимодействует данная связь.

Каждый из концептов нижнего уровня связан (помимо двусторонних связей, связывающих его с другими концептами) с незаполненной связью, используемой для связывания существующего концепта с вновь образуемыми (или изменяемыми) при поступлении новой информации концептами. Этот механизм близок к технологии «вики-вики», используемой в сети Веб 2.0.

В целом нижний уровень динамической онтологии представляет собой сеть, узлами которой являются понятия, а ребрами -- связи между понятиями. Эта сеть может состоять из отдельных несвязанных между собой участков.

Атрибуты включают время установления данной связи (например, астрономическое время, если связь относится к понятиям окружающего мира, или время произведения, если связь относится к понятиям литературного произведения), вес связи и пр.

С течением времени вес связи уменьшается, что имитирует процесс забывания. Минимальный вес связи имеет значение, большее нуля, т.е. однажды установленная связь нижнего уровня никогда не разрывается.

При каждом обновлении связи (одновременном наблюдении сгруппированных данной связью понятий) вес этой связи увеличивается (но не превышает определенного максимального значения, одинакового, скорее всего, для всех связей). Одновременно по определенному закону увеличивается вес всех связей, связанных с этими понятиями, как непосредственно, так и через другие понятия.

Взаимодействие программного агента, осуществляющего семантическую обработку текста, происходит только с верхним уровнем динамической онтологии.

Верхний уровень динамической онтологии включает в себя двусторонние связи, вес которых превышает определенный пороговый уровень, и соответствующие им понятия. Обновление верхнего уровня онтологии производится периодически. Так моделируется обновление онтологии при получении новых знаний и забывании старых.

При включении в атрибуты связей параметра, определяющего предметную область, возможна быстрая перенастройка верхнего уровня онтологии под определенную предметную область.

Содержимое верхнего уровня динамической онтологии имеет вероятностный характер, т.е. восприятие системой обрабатываемого текста весьма сильно зависит от информации, поступающей от внешних источников (не включающих данный обрабатываемый текст). Соответствующие изменения в системе значений (смысловых полей) слов близко к вероятностной модели языка, описанной в [12].

лингвистический текст контекстный фрагментирование

Заключение

Предложена модель обработки текста, включающая как лингвистический, так и экстралингвистический компоненты. Основной функцией экстралингвистического компонента является выявление описываемых в тексте объектов и запоминание изменений их характеристик по мере течения времени текста, используя референциальные ссылки и другие способы идентификации объектов, описываемых в различных предложениях текста, опираясь на результаты работы лингвистического компонента. Сопоставление характеристик объектов в заданный момент времени текста позволяет сформировать описание ситуации в данный момент времени и разрешить неопределенности, которые не могут быть разрешены лингвистическим компонентом системы.

Знание системой в любой момент времени текста состояния каждого из объектов, описываемых в тексте, позволяет сформировать ответы на произвольные вопросы по содержанию текста, что является одним из критериев понимания текста.

Предложенная структура системы базируется на положении, что полное описание какой-либо системы (в данном случае текста) возможно только при выходе за границы этой системы, в данном случае системы лингвистических средств и правил.

Подтверждением эффективности такого подхода является, например, использование в системах распознавания речи программ-«менеджеров», выделяющих из входного звукового потока речевые сигналы и контролирующих ход диалога с системой [13].

Литература

1. Мартынов В.В. Основы семантического кодирования. Опыт представления и преобразования знаний. -- Мн.: ЕГУ, 2001. -- 140 с.

2. Леонтьева Н.Н. Автоматическое понимание текстов. Системы, модели, ресурсы. -- М.: Издательский центр «Академия», 2006. -- 304 с.

3. Карпов В.А. Язык как система. -- М.: Едиториал УРСС, 2003. -- 304 с.

4. Мальковский М.Г. Программы, понимающие естественный язык. // Обработка символьной информации. Вып. 1. -- М.: Изд. ВЦ АН СССР, 1973. -- с. 73 - 115.

5. Выготский Л.С. Психология. -- М.: ЭКСМО-Пресс, 2000.

6. Хахалин Г.К., Воскресенский А.Л. Контекстное фрагментирование в лингвистическом анализе // Труды ХХ национальной конференции по Искусственному Интеллекту с международным участием - КИИ-2006. М.: Физматлит, 2006, с. 479-488.

7. Михалевич В.С., Волкович В.Л. Вычислительные методы исследования и проектирования сложных систем. -- М.: Наука, 1982. -- 288 с.

8. Воскресенский А.Л., Хахалин Г.К. О модели понимания ЕЯ-текста. // Вторая международная конференция по когнитивной науке: Тезисы докладов: В 2 т. Санкт-Петербург, 9 - 13 июня 2006 г. -- СПб.: Филологический факультет СПбГУ, 2006. -- Т. 1, С. 238 - 239.

9. Редько В.Г. Задача моделирования когнитивной эволюции. // Материалы Первой Российской Интернет-конференции по когнитивной науке / Под ред. А.Н. Гусева, В.Д. Соловьева -- М., УМК «Психология», 2004. С. 14 - 28.

10. Моисеев Н.Н. Математические задачи системного анализа. -- М.: Наука, 1981. -- 488 с.

11. Воскресенский А.Л. Забывание как фактор формирования знаний. // Материалы Первой Российской Интернет-конференции по когнитивной науке / Под ред. А.Н. Гусева, В.Д. Соловьева -- М., УМК «Психология», 2004, С. 150 - 155.

12. Налимов В.В. Вероятностная модель языка. О соотношении естественных и искусственных языков: 3 издание. -- Томск - М.: Водолей, 2003.

13. Ли И.В. Локальный и глобальный уровни управления диалогом. // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2007» (Бекасово, 30 мая - 3 июня 2007 г.) / Под ред. Л.Л. Иомдина, Н.И. Лауфер, А.С. Нариньяни, В.П. Селегея. -- М.: Изд-во РГГУ, 2007. -- 658 с.

Размещено на Allbest.ru

...

Подобные документы

  • Проблема понимания речи. Роль слова в понимании текста. Различные подходы к проблеме понимания текста и моделированию понимания в психолингвистике. Концепция специфики индивидуального лексикона. Акцентирование внимания на синтаксической проблематике.

    реферат [26,6 K], добавлен 07.02.2011

  • Лингвистическая модель переводческого процесса. Перевод как вид речевой деятельности, как феномен коммуникации. Роль интерпретации при переводе. Основные типы семантических транформаций в переводе художественного текста, их виды и универсальность.

    реферат [23,5 K], добавлен 30.06.2009

  • Структура текста, морфологический уровень. Исследование текста с лингвистической точки зрения. Прямонаправленная и непрямонаправленная связность текста. Важность морфологического уровня текста в понимании структуры текста и для понимания интенции автора.

    реферат [30,4 K], добавлен 05.01.2013

  • Теоретические основы изучения текста. Разграничение текста и дискурса. Понятие текста и подходы к его анализу. Употребление терминов texte и discours во французском языке. Сравнительно-сопоставительное исследование текста астрологического прогноза.

    дипломная работа [204,5 K], добавлен 03.07.2009

  • Текст как формально-логическое образование. Основные методы криптоанализа. Метод частотного анализа текста. Показатель частоты встречаемости буквы алфавита. Частотные характеристики биграмм. Определение ранжирования данных. Определение контент-анализа.

    реферат [280,3 K], добавлен 28.09.2011

  • Изучение вопросов об определении поэтической функции языка, понятие лингвистической поэтики. Сцены как вариативное начало в составе рамки содержательной конструкции текста. Понятие содержания текста. Цельный versus комплексный анализ интенции текста.

    реферат [38,4 K], добавлен 14.08.2010

  • Понятие текста в концепциях лингвистов и психолингвистов, его основные характеристики, свойства и функции. Подходы к его описанию. Природа и процесс порождения текста. Механизмы и особенности его восприятия на примере анализа художественного произведения.

    курсовая работа [47,8 K], добавлен 15.01.2014

  • История отечественного терминоведения. Выявление лексических и семантических особенностей специального текста для применения этих знаний в практике моделирования семантики специального текста. Требования к терминам, их анализ. Понятие фоновой лексики.

    курсовая работа [106,3 K], добавлен 14.11.2009

  • Фундамент синтаксического анализа. Словоизменительные морфологические средства. Структура системы синтаксического анализатора текста и используемая методика анализа текста. Графематический и фрагментационный анализ. Структура морфологического словаря.

    курсовая работа [194,3 K], добавлен 24.06.2012

  • Современные подходы интерпретации анализа художественно-прозаического текста с учетом его специфики, базовых категорий и понятий. Рассмотрение художественного текста как единства содержания и формы. Практический анализ текста "A Wicked Woman" Дж. Лондона.

    курсовая работа [48,5 K], добавлен 16.02.2011

  • Понятие текста в лингвистике. Стенограмма гуманитарного мышления. Понятие дискурса в современной лингвистике. Особенности создания лингвистики текста. Анализ дискурса как метод анализа связной речи или письма. Область исследования текстоведения.

    реферат [24,6 K], добавлен 29.09.2009

  • Система жанров газетно-публицистического стиля: заметка, хроника, репортаж, интервью и отчет. Специфика информационного текста, его особенности в английском и корейском языке. Понятие стилистического анализа текста косвенных и пассивных конструкций.

    курсовая работа [67,1 K], добавлен 02.08.2015

  • Понятие прецедентного текста. Основные интертекстуальные функции: коммуникативные (апеллятивная и референциальная), дискурсивные и экстралингвистические перлокутивные. Жанрово-стилистические особенности английской шутки как вида юмористического текста.

    дипломная работа [158,6 K], добавлен 19.02.2013

  • Герменевтические принципы и категории исследования текста в лингвистике. Система отношений автор-текст-читатель. Прецедентные структуры языка как способы выражения скрытых смыслов у И.А. Бунина. Пространственно-временной континуум художественного текста.

    дипломная работа [104,7 K], добавлен 18.07.2014

  • Художественный текст в психолингвистической теории, его лингвистическая модель и роль интерпретации при переводе. Личностная обусловленность семантических трансформаций, возникающих при переводе текста на примере фильма К. Тарантино "Pulp Fiction".

    курсовая работа [69,3 K], добавлен 30.06.2009

  • Возможности единиц языка. Передача содержания текста и его смысла. Владение основными речеведческими понятиями, умение определять стиль текста, тип речи, средства связи предложений в тексте. Тенденции слияния обучения языку и речи в единое целое.

    творческая работа [248,3 K], добавлен 19.08.2013

  • Исследование композиционно-речевых форм в структуре англоязычных художественных текстов, проведение разбора повествования, описания и рассуждения. Представление о формально-грамматическом (синтаксическом), речевом и логико-смысловом строении текста.

    курсовая работа [55,4 K], добавлен 23.08.2015

  • Целевое назначение адаптации текста в процессе перевода книги The Wonderful Wizard of Oz на русский язык. Сокращения содержания текста, лексические и стилистические его адаптации как необходимое средство восприятия сюжета для начинающих читателей.

    курсовая работа [39,3 K], добавлен 17.11.2012

  • Концепция Р.К. Миньяр-Белоручева. Основополагающие и вспомогательные компоненты коммуникации. Изучение действий и целей источника текста оригинала. Необходимость в переводе как речевой деятельности. Порождение и восприятие исходного и переводного текста.

    презентация [360,3 K], добавлен 30.10.2013

  • Понятие "перевод". Основные типы переводческих ошибок. Характеристика концепций предпереводческого анализа, различные точки зрения на выполнение и технику перевода. Применение предпереводческого анализа текста на практике (в ходе анализа текстов).

    научная работа [172,9 K], добавлен 11.09.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.