Лингвистические и психологические особенности синтаксического анализа неоднозначных предложений
Явление синтаксической омонимии, затрудняющее понимание текста человеком, негативно влияющее на эффективность работы компьютерных систем. Определение лингвистических и психологических особенностей восприятия предложений, содержащих синтаксические омонимы.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 14.10.2018 |
Размер файла | 35,6 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Лингвистические и психологические особенности синтаксического анализа неоднозначных предложений
Е.В. Шкурко, кандидат филологических наук, доцент кафедры перевода и лингвистической подготовки иностранцев Днипровского национального университета имени Олеся Гончара
Аннотация
В статье рассматривается явление синтаксической омонимии, затрудняющей понимание текста человеком и негативно влияющей на эффективность работы компьютерных систем. Исследуются лингвистические и психологические особенности восприятия неоднозначных предложений. Анализируются ошибки в определении синтаксических связей между компонентами конструкций и их влияние на понимание семантики высказываний.
Ключевые слова: двусторонняя синтаксическая связь, синтаксическая омонимия, омонимизирующий компонент, автоматический синтаксический анализ, закономерности первоначального восприятия текста.
Анотація
У статті розглянуто явище синтаксичної омонімії, яка ускладнює розуміння тексту людиною і негативно впливає на ефективність роботи комп'ютерних систем. Досліджено лінгвістичні та психологічні особливості сприйняття неоднозначних речень. Проаналізовано помилки у визначенні синтаксичних зв'язків між компонентами конструкцій і їх вплив на розуміння семантики висловлювань.
Ключові слова: двосторонній синтаксичний зв'язок, синтаксична омонімія, омонімізуючий компонент, автоматичний синтаксичний аналіз, закономірності первинного сприйняття тексту.
Abstract
The article deals with the phenomenon of syntactic homonymy which complicates the understanding of text by a person and negatively affects the efficiency of computer systems. The linguistic and psychological peculiarities of comprehension of ambiguous sentences are investigated. The errors in the determination of syntactic relationships between components of structures and their influence on understanding of the semantics of utterances are analyzed.
Key words: double-sided syntactic tie, syntactical homonymy, homonymizing component, automatic syntactic analysis, law of primitive text perception.
Постановка проблемы. XX век стал эпохой бурного развития науки, внедрения новейших информационных и компьютерных технологий. Однако для того чтобы воспринимать и обрабатывать информацию машина, должна знать язык, на котором эта информация записана, следовательно, человек должен ввести необходимые знания в понятном для компьютера виде. Когда перед учеными встала задача обучения машины языку, оказалось, что традиционная грамматика не может справиться с ней, поскольку общепринятые лингвистические описания не являются строго структурированными. Возникла необходимость создания более точных описаний языка, понятных вычислительным машинам. Так в 60-е годы прошлого столетия появилось новое научное направление, одной из задач которого и было создание технологий понимания языка для общения человека с машиной, - компьютерная лингвистика.
Однако при построении систем автоматической обработки текста ученые столкнулись с проблемой многозначности, присущей всем языкам мира. Полисемия обусловлена самой сущностью устройства языка, а также биологическими и психологическими предпосылками мышления людей: сознание человека содержит бесконечное количество образов, понятий и тому подобных единиц, однако число языковых знаков ограничено, в силу чего один и тот же звуковой или графический комплекс может стать многофункциональным [4, с. 1314]. Но для автоматической обработки текста любая многозначность противопоказана, поскольку машина может эффективно работать только с конструкциями, имеющими строго однозначную структуру. Вследствие этого возникла настоятельная необходимость изучения такого лингвистического явления, как синтаксическая омонимия.
Анализ последних исследований. В наши дни одним из основных направлений компьютерной лингвистики является создание программ автоматической обработки текстов на естественном языке, который, по мнению специалистов, служит оптимальной формой диалога человека и машины [1, 2, 6]. «Научить компьютер «понимать» текст и означает наделить его способностью добывать из него необходимую для выполнения того или иного задания информацию. Такое «понимание» текста заключается в умении анализировать его на разных уровнях представления информации: морфологическом, синтаксическом, логико-семантическом - и обобщать полученные в ходе подобного анализа результаты в определенной форме» [3, с.126].
Формулировка цели. Цель статьи заключается в рассмотрении явления синтаксической омонимии, затрудняющей понимание текста человеком и негативно влияющей на эффективность работы компьютерных систем, анализе неоднозначных конструкций с использованием традиционных методов исследования и методики автоматического синтаксического анализа высказываний, определении лингвистических и психологических особенностей восприятия предложений, содержащих синтаксические омонимы.
Изложение основного материала. В современном русском языке достаточно широко представлены конструкции, в основе построения которых лежит двусторонняя синтаксическая связь, при которой некоторое слово или словосочетание может быть подчинено нескольким доминантам. Иногда такая множественная связь обусловливает появление синтаксически неоднозначных предложений, поскольку возможность соотнесения определенных компонентов с любой из доминант приводит к изменению семантики высказываний.
Причинами возникновения омонимичных конструкций в русском языке являются порядок следования компонентов высказывания, возможность различного членения предложения на синтагмы или, чаще всего, совокупность указанных факторов, поскольку зачастую синтаксическая неоднозначность бывает обусловлена наличием в предложении компонента, занимающего такую позицию, которая позволяет соотнести его либо с предыдущей, либо с последующей синтагмой. Такой компонент мы называем омонимизирующим.
Так, в предложении После рассмотрения дела в суде стали происходить странные события двойная связь возникает потому, что компонент в суде занимает в высказывании такую позицию, которая позволяет соотнести его с любой из двух возможных доминант. При этом существует возможность двоякого членения предложения на синтагмы: 1) После рассмотрения дела / в суде стали происходить странные события, при котором фраза будет иметь следующее значение: после того, как дело было рассмотрено, в суде стали происходить странные события; 2) После рассмотрения делав суде /стали происходить странные события, при котором предложение приобретает иной смысл: странные события стали происходить после того, как дело было рассмотрено в суде.
Как видим, наличие в тексте синтаксических омонимов затрудняет процесс коммуникации, поскольку ставит адресата речи перед необходимостью выбирать одно из нескольких значений высказывания. Неоднозначность представляет собой серьезную проблему и при проведении автоматической обработки текстов, в частности автоматического синтаксического анализа.
Автоматический синтаксический анализ (АСА) - это анализ, направленный на выявление в тексте синтаксических структур и их формальное представление. Поскольку при анализе текста компьютерная система имеет дело с синтаксическими единицами разной сложности, используются различные стратегии выделения в предложениях минимальных синтагм - слов, связанных определенными видами синтаксических отношений. Локальные системы, предназначенные для анализа отдельных частей синтаксической структуры высказываний, применяют метод непосредственных составляющих или анализ контактных слов; интегральные системы, рассматривающие синтаксическую структуру всей конструкции, направлены на выявление главного и зависимого компонентов без учета их расположения в предложении.
Результаты автоматического синтаксического анализа, полученные в этих системах, имеют разные способы графического представления: в локальных системах используется запись пар непосредственных составляющих с помощью скобок или стрелок, в интегральных системах результаты анализа чаще всего представляются в виде дерева зависимостей, то есть в виде ориентированного графа.
Специалисты, занимающиеся разработкой интеллектуальных программ, утверждают, что современные экспертные системы могут не только обрабатывать информацию, но и оценивать ее, а также делать определенные выводы. Кроме того, компьютеры последнего поколения способны, как люди, выдавать разного рода предположения, опираясь на неполные или неточные сведения.
Мы решили провести эксперимент: с помощью системы автоматического синтаксического анализа проанализировали несколько предложений, содержащих синтаксические омонимы. Эти же конструкции были предложены для анализа студентам специальности «Прикладная лингвистика». И компьютерная система, и студенты получили идентичные задания - установить связи между компонентами анализируемых предложений и изобразить эти отношения графически (студенты - с помощью стрелок, компьютер - в виде дерева зависимостей).
1. Потом был на закуске после обедни, данной городским главою... (Н.В. Гоголь «Мертвые души»)
Это предложение может быть понято двояко, в зависимости от того, с какой из двух возможных доминант - 1) закуска или 2) обедня - будет соотнесен омонимизирующий компонент данной: в первом случае фраза приобретает следующее значение - Чичиков после обеденной службы в церкви закусывал у городского главы; читатель, не знающий точного значения слова «обедня», соотнесет слово данной со второй доминантой и поймет предложение по-другому - после обедни, которую организовал городской глава, герой был еще и на закуске.
Проанализировав указанное предложение, машина выдала следующий результат:
Рис. 1
Для более удобного визуального представления полученных данных воспользуемся другим способом иллюстрации информации:
(((потом) (был) (на закуске) (данной городским главою)) (после обедни)). Компьютерная система правильно установила синтаксические отношения, существующие между компонентами данного высказывания, поскольку имела доступ к корпусам, в которых содержится этот текст, следовательно, владела контекстуальной информацией и абсолютно точно понимала значение слова «обедня», в отличие от студентов-филологов, которые единодушно соотнесли компонент данной со словом «обедня», тем самым допустив ошибку в определении связей между указанными компонентами предложения.
2. Торговка вяленой воблой торчала между ящиками (В. Катаев «Белеет парус одинокий»)
В данном случае омонимизирующим компонентом является словосочетание вяленой воблой, которое занимает в предложении позицию, позволяющую отнести его к словам, стоящим как в препозиции, так и в постпозиции. Если соотнести указанный омонимизирующий компонент с существительным «торговка», предложение получит следующее значение: женщина, торговавшая вяленой воблой, торчала между ящиками; если же отнести словосочетание вяленой воблой к глаголу «торчала», высказывание приобретет другое значение: торговка, имевшая вид вяленой воблы, торчала между ящиками.
Зная контекст и отношение автора к описываемым событиям, можно допустить, что верным с точки зрения адресанта высказывания является второй вариант прочтения данного предложения. Мы предположили, что компьютер, лишённый человеческой интуиции и чувства юмора, соотнесет словосочетание вяленой воблой с ближайшим словом - торговка. И действительно, машина проиллюстрировала отношения между элементами данного высказывания так, как мы и предполагали: (((торговка) (вяленой воблой)) (торчала (между ящиками))).
Студенты определили синтаксические связи по-разному: 80% соотнесли словосочетание вяленой воблой с доминантой «торговка», 20% - с доминантой «торчала».
3. Взгляд горожан радовали который год подряд с любовью и заботой высаживаемые цветочно-кустарниковые ансамбли («Днепр вечерний», 19.07.2011).
Это предложение содержит компонент который год подряд, стоящий в позиции, позволяющей по-разному разделить высказывание на синтагмы: Взгляд горожан радовали который год подряд / с любовью и заботой высаживаемые цветочно-кустарниковые ансамбли и Взгляд горожан радовали / который год подряд с любовью и заботой высаживаемые цветочно-кустарниковые ансамбли.
При анализе выказывания все студенты выбрали первый вариант актуального членения предложения, соотнеся омонимизирующий компонент с глаголом «радовали». Машина не смогла определить связи словосочетания который год подряд с возможными доминантами.
4. Центр социально-экономического развития обеспечит подготовку пакета документов для открытия предприятия в кратчайшие сроки («Днепр вечерний», 5.02.2014).
В этом предложении омонимизирующий компонент в кратчайшие сроки дистанцирован от доминанты «обеспечит», что делает возможным его соотнесение со словоформой «для открытия», вследствие чего высказывание может быть понято двояко: 1) центр в кратчайшие сроки обеспечит подготовку пакета документов; 2) центр обеспечит подготовку документов, которые позволят открыть предприятие в кратчайшие сроки.
90% студентов соотнесли омонимизирующий компонент с ближайшей из возможных доминант - словоформой «для открытия», 10 % - с глаголом «обеспечит». Компьютер же, как и в предыдущем случае, не смог определить связи словосочетания в кратчайшие сроки ни с одной из предполагаемых доминант.
компьютерный лингвистический омоним
Выводы
Полученные результаты синтаксического анализа неоднозначных предложений позволяют нам утверждать следующее:
1. Несмотря на грандиозные открытия в области высоких технологий, наука до конца не познала механизмы человеческого мышления и речи. Как показывают результаты нашего и ряда других исследований, на современном этапе развития компьютерных технологий эффективным является автоматический синтаксический анализ предложений с прямым порядком слов. Кроме того, для правильного понимания синтаксической структуры высказывания и его семантики программа должна иметь доступ к корпусам текстов, что позволяет компьютерной системе опираться на контекст, хотя и это не всегда позволяет правильно определить истинный смысл, заложенный в высказывание его автором (как, например, в рассмотренном выше третьем предложении). И еще - какой бы высокоинтеллектуальной ни была экспертная система, на современном уровне развития искусственного интеллекта машине пока не доступны человеческая интуиция и чувство юмора, которые в определенных ситуациях могли бы помочь ей в процессах обработки текстов на естественном языке.
2. Ошибки, допущенные студентами при определении синтаксических связей между компонентами рассмотренных неоднозначных предложений, объясняются закономерностями первоначального восприятия текста и, в частности, закономерностями смыслового объединения слов, выявленными и детально исследованными Б.С. Мучником: 1) каждое слово, которое может быть связано с несколькими словами, стоящими по одну сторону от данного, объединяется при первоначальном восприятии с ближайшим из этих двух слов, даже если пишущий связывал его с другим, более отдаленным; 2) каждое слово, которое может быть объединено в предложении или с предыдущим словом, или с последующим, объединяется при первоначальном восприятии с предыдущим, даже если пишущий относил его к последующему [2, с. 228-229].
Как показал эксперимент, обнаружить синтаксическую омонимию бывает непросто, следовательно, целесообразно не только ознакомить учащихся школ и вузов с этим негативным языковым явлением, но и обучить их приемам выявления синтаксических омонимов. На наш взгляд, эти знания и умения особенно необходимы студентам-фило- логам и журналистам, творчество которых в перспективе может стать достоянием миллионов читателей.
Список использованных источников
1. Гладкий А.В. Синтаксические структуры естественного языка в автоматизированных системах общения / А.В. Гладкий. - М.: Наука, 2007. - 152 с.
2. Ермаков А.Е. Компьютерная лингвистика и интеллектуальные технологии / А.Е. Ермаков // Труды Международного семинара Диалог-2002: в 2 т. - М.: Наука, 2002. - Т. 2. - С. 23-35.
3. Карпіловська Є.А. Вступ до прикладної лінгвістики: комп'ютерна лінгвістика: Підручник / Є.А. Карпіловська. - Донецьк: Юго-Восток, Лтд, 2006. - 188 с.
4. Колшанский Г.В. Контекстная семантика / Г.В. Колшанский. - М.: Наука, 1980. - 149 с.
5. Мучник Б.С. Человек и текст: Основы культуры речи / Б.С. Мучник - М.: Наука, 1985. - 256 с.
6. Ножов И.М. Морфологическая и синтаксическая обработка текста (модели программы) / И.М. Ножов. - М.: Наука, 2003. - 140 с.
Размещено на Allbest.ru
...Подобные документы
Генерация учебно-тренировочных задач на основе текста учебного материала. Постановка вопросов к членам предложения. Построение дерева синтаксического подчинения. Листинг программы разбиения предложения на отдельные слова и поиска вопросов к ним.
курсовая работа [59,2 K], добавлен 19.05.2009Появление поисковых систем. Применение семантических сетей для анализа текста. Определение релевантности, ранжирование и индексация. Особенности программы Balabolka. Системы анализа речи. Современные особенности поиска. Развитие сервисов поисковых систем.
реферат [3,2 M], добавлен 22.04.2015Разработка технического задания на проектирование, определение требований к программе. Предварительный выбор метода решения синтаксического анализатора, проектирование программного приложения, конфигурация технических средств программы и её тестирование.
курсовая работа [28,5 K], добавлен 28.06.2011Анализ классификаций туристских предложений и построение обобщенной классификации. Разработка методики подбора актуального туристического предложения на основе созданной классификации и проекта информационной системы (ИС). Частичное прототипирование ИС.
дипломная работа [3,3 M], добавлен 01.07.2017Изучение информационных систем, регламентирующих организацию делопроизводства. Разработка предложений по совершенствованию работы с программными и техническими средствами. Приложение учета рекламных конструкций для департаментов архитектуры города.
отчет по практике [1,4 M], добавлен 12.04.2016Содержательная часть языка программирования С++. Правила автоматной грамматики, классификация Хомского. Принцип построения графов, разработка проекта средствами среды программирования Builder C++. Алгоритм синтаксического анализа оператора вывода.
контрольная работа [228,4 K], добавлен 22.05.2012Общие принципы охлаждения и работы различных видов и типов охлаждения компьютерных систем. Технико-экономическое обоснование и анализ различных систем охлаждения. Проектирование и расчеты отопления, вентиляции, природного и искусственного освещения.
дипломная работа [3,4 M], добавлен 10.07.2010Закономерности базового технологического процесса предприятия и предложений по компьютерному управлению этим процессом. Структура системы противоаварийной защиты. Перечень номенклатуры элементов, используемых в системе с указанием их паспортных данных.
отчет по практике [28,5 K], добавлен 19.02.2015Изучение понятия справочно-правовых систем (информационно-правовых систем) - особого класса компьютерных баз данных, содержащих тексты указов, постановлений и решений различных государственных органов. Анализ основных функций "Консультант Плюс".
презентация [1,6 M], добавлен 30.07.2017Справочно-правовые системы - особый класс компьютерных баз данных, содержащих тексты указов, постановлений и решений различных государственных органов. Характеристика ведущих информационно-правовых систем РФ: "Гарант", "Консультант-Плюс", "Кодекс".
контрольная работа [22,0 K], добавлен 21.04.2011Анализ особенностей работы и основных операций с символьными строками, указателями, функциями, динамически выделяемой памятью. Ввод текста в пустые строки. Вывод введённого текста на экран. Замена первых слов строк. Проверка правильности работы программы.
курсовая работа [1,9 M], добавлен 17.07.2014Понятие звука, физиологические и психологические основы его восприятия человеком. Основные критерии и параметры звука: громкость, частота, пространственное положение источника, гармонические колебания. Система пространственной обработки звука EAX.
презентация [952,3 K], добавлен 10.08.2013Анализ процесса восприятия человеком разнородной информации. Характерные ошибки в web-дизайне и составление основных условий для правильного подхода к дизайну сайта. Визуальная система и подсознательная обработка, фокусировка информации пользователем.
курсовая работа [623,6 K], добавлен 18.07.2014Понятие и внутренняя структура операционных систем, их классификация и разновидности, предъявляемые требования, этапы становления и развития, функциональные особенности. Описание и назначение базовых компьютерных систем: DOS, Windows, Linux, Mac.
курсовая работа [44,9 K], добавлен 14.12.2013Обзор технологий обнаружения атак. Модуль накопления и хранения предупреждений. Алгоритм работы подсистемы. Реализация клиент-серверной технологии. Клиентская часть программы. Реализация модуля шифрования, модуля накопления и хранения предупреждений.
дипломная работа [582,6 K], добавлен 17.11.2014Конфигурация аппаратных средств и характеристика программных средств для создания беспроводных компьютерных сетей, особенности их использования и анализ возможных проблем. Технология организация безопасной работы в беспроводных компьютерных сетях.
курсовая работа [2,5 M], добавлен 27.12.2011Особенности создания компьютерных презентаций - набора слайдов по теме для показа на экране. Типы презентаций, этапы и средства их создания, сопровождение спецэффектами. Создание новой презентации. Ввод текста, добавление рисунков, графиков и диаграмм.
курсовая работа [3,8 M], добавлен 23.04.2013Формальные модели морфологии и семантики. Основные синтаксические концепции. Трансформационная грамматика. Представление о модели "смысл-текст". Виды прагматических знаний. Автоматический анализ и синтез речи. Машинный перевод текста. Экспертные системы.
курсовая работа [294,2 K], добавлен 19.06.2015Понятие синтаксического анализа. Программный продукт для обработки данных строкового типа. Построение сканера текстов с использованием утилиты flex, синтаксического анализатора с помощью утилиты bison. Грамматика языка программирования обработки строк.
курсовая работа [261,7 K], добавлен 29.10.2012Описание нетрадиционных и мультипроцессорных архитектур вычислительных систем. Принципы параллельной и конвейерной обработки данных. Теория массового обслуживания и управления ресурсами компьютерных систем. Базовые топологии локальных и глобальной сетей.
книга [4,2 M], добавлен 11.11.2010