Прагматический анализ с применением подходов к автоматизированному созданию онтологической базы знаний

Изучение подхода к автоматизированному пополнению онтологической базы знаний "О Мире" при помощи синтактико-семантического анализа путем "начитывания" естественно-языковых текстов для качественного повышения уровня автоматизированного разрешения анафоры.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 17.01.2018
Размер файла 72,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

УДК 004.89+004.912+004.5+004.93'1+519.7

Прагматический анализ с применением подходов к автоматизированному созданию онтологической базы знаний

П.В. Толпегин ,

Д.П. Ветров ,

Д.А. Кропотов

Предлагается подход к автоматизированному пополнению онтологической базы знаний «О Мире» при помощи синтактико-семантического анализа путем «начитывания» естественно-языковых текстов. Полученные данные позволят качественно повысить уровень автоматизированного разрешения анафоры. Подход особенно применим для языков, широко использующих выразительные средства, в частности - русского, нежели чем для языков, опирающихся на строгие морфологические и синтаксические правила.

Проблема построения онтологии с каждым днем все больше рассматривается в областях, смежных с искусственным интеллектом, в частности, при автоматизированной обработке естественно-языковых (ЕЯ) текстов. В предлагаемой работе рассматриваются подходы к автоматизированному разрешению межклаузной референции в дискурсах текстов при помощи онтологической базы знаний «О Мире» (далее - БЗ), а также подходы к автоматизированному извлечению знаний из массивов текстов (корпусов) (text data mining) и пополнению БЗ.

Достаточно часто яркая цель прагматического анализа затушевывается тем, что внимание авторов разработок фокусируется на технических деталях математических конструкций, а не на конкретных методах составления онтологических баз знаний и анализе свойств предметных областей.

Частота появлений инновационных методов ЕЯ-анализа в последнее время значительно снижается. Джон Бейтман (John Bateman) в исследованиях [Bateman, 2006] отмечает падение количества разработок в области генерации текстов на ЕЯ в последнее время. «Насыщение» инновационными разработками обуславливается преимущественно используемым экстенсивным подходом. В частности, применяется ручное создание классификаторов и словарей. Интенсивное развитие систем ЕЯ-анализа, как один из вариантов, представляется возможным при тесном взаимодействии с системами онтологического распознавания образов (изображений) и распознавания речи. анафора семантический текст автоматизированный

Под онтологическим распознаванием изображений понимается система анализа графической информации, способная выделять и различать объекты, их части, формы и их взаимное расположение. В процессе онтологического распознавания будет возможно установление меронимических (часть-целое) отношений между объектами Мира. Полученная информация может лечь в основу БЗ и сыграть немаловажную роль в референциальном (прагматическом) анализе ЕЯ-текстов. Система распознавания речи должна обеспечивать выделение интонации, пауз и интонационных акцентов (ударений).

Достоинством описываемой интеграции систем ЕЯ-анализа и распознавания является репрезентативность получаемых данных (анализируются реальные изображения, объекты, события, речь и явления) и автоматизация процесса пополнения БЗ.

Основным недостатком является отсутствие высокоточных систем распознавания, которые на промышленном уровне могут решить поставленную задачу. С другой стороны, предлагаемый способ не охватит все то, что невозможно увидеть глазом, то есть понятия и некоторые явления.

Прикладной уровень развития систем ЕЯ-анализа ушел далеко вперед по сравнению с онтологическими системами распознавания. Это приводит к тому, что авторам разработок лингвистических систем приходится восполнять отсутствие недостающих знаний (подобных БЗ) ручным созданием словарей (в частности - онтологических баз данных). Близкими или тождественными разработками к БЗ являются онтологический словарь, база знаний «О Мире» и идеографический словарь. Примерами работ по созданию базы данных, содержащей сведения о понятиях и их отношениях, являются: работа [Баранов, 1996], проект WordNet [WordNet, 2006] - лексическая база знаний английского языка, разрабатываемая в Принстонском Университете (Нью-Джерси, США), EuroWordNet [EuroWordNet, 1999] - аналогичный проект для датского, итальянского, испанского, немецкого, французского, чешского и эстонского языков, RussNet [RussNet, 2005] - проект компьютерного тезауруса лексики русского языка (под руководством И.Азаровой, СПбГУ), Русский WordNet [WordNet, 2004] - проект русской версии WordNet (С. Яблонский, А. Сухоногов, Петербургский Государственный Университет Путей Сообщения).

Прогресс в развитии систем ЕЯ-анализа позволяет строить первичные семантические графы [Сокирко, 2001, Сокирко, 2005], основываясь на графематическом (лексическом), морфологическом, синтаксическом, фрагментационном этапах анализа. На рис. 1 приведен результат работы программы [Сокирко, 2001, Сокирко, 2005] для предложения: «За последнее время количество исследований в области автоматизированного построения онтологии заметно возросло, но проблема до сих пор остается неразрешенной».

Рис. 1. Пример первичного семантического графа

Актуальным этапом в развитии систем ЕЯ-анализа представляется референциальный (прагматический) анализ (разрешение анафоры). Суть этапа заключается в установлении зависимостей между объектами (существительными и местоимениями), упоминаемыми в простых предложениях (клауз) на протяжении целого дискурса.

Предлагается следующая методологическая классификация межклаузной референции.

Классификация межклаузной референции

1.1. Анафора (референция) местоимений

Кореферентные объекты в предложениях могут именоваться по-разному. В частности, с помощью местоимений. Особый интерес представляют личные (он), указательные (этот), вопросительные (который), возвратные (себя) местоимения.

Пример 1. Референция местоимений. Одной цифрой обозначены анафорическое местоимение (анафор) и гипотетические антецеденты. Реферирующий антецедент подчеркнут.

В Атлантическом океане1 ученые нашли "Затерянный город1". Этот1 "город1,2" находится у обнаруженного гидротермального источника2. Его2 заселяют необычные микроорганизмы3 и морские существа3, которые3 выдерживают горячую, чрезвычайно богатую различными минералами морскую воду.[Aqualife, 2006]

1.2. Синонимия отдельных слов, именных групп и более сложных конструкций

Автор может использовать синонимию, как при описании объектов, так и в названии самих объектов. «Премьер-министр» может быть заменен на слово «политик», а глагол «затрагивать» может употребляться, по меньшей мере, в двух значениях: задевать, касаться, трогать, притрагиваться и волновать. Таким образом, проблема понимания ЕЯ-текстов компьютером, в частном случае, сводится к «отождествлению» кореферентных объектов, описанных различными выразительными средствами языка.

1.3. Меронимические, родовые и видовые отношения

Меронимические, родовые и видовые отношения могут встречаться между объектами, упоминающимися в дискурсе.

Пример 2. Меронимические отношения в тексте

Как только известный ученый1 сел под деревом, так на него упало яблоко. [ (яблоко) = часть (дерево) ], [ (него) = (ученый) ]

В [Азарова и др., 2002] приведена более детальная классификация меронимических (реже - партонимических) отношений по логическим связям между понятиями типа «компонент-предмет» (ветка-дерево), «член-множество» (дерево-лес), «материал-предмет» (алюминий-самолет) и другие, как «порция-масса» (кусок-пирог), «место-область» (Москва-Россия).

1.4. Логико-интуиционистские нечеткие правила

Нечеткие правила представляют собой свод закономерностей, накопленных за время наблюдения. В настоящее время представляется сложным говорить об автоматизированном получении таких правил, но они достаточно удобны в использовании со структурированной областью понятий. Пример правила: Зимой холоднее, чем летом.

В [Клещев и др., 2001] приведены неоспоримые примеры подобных правил, описывающих взаимодействие физических объектов:

· антирефлексивность (нельзя поставить объект сам на себя);

· антисимметричность (если один объект стоит на другом, то второй не может в той же ситуации стоять на первом);

· антитранзитивность (неверно суждение, что объект стоит на другом, если между ними есть третий).

Логико-интуиционистские нечеткие правила могут закладываться в систему как вручную, так и выводиться автоматически на основе собранных сведений о Мире.

1.5. Сложные выразительные средства языка

Референция объектов, упомянутых с применением выразительных языковых средств, включает, в частности, метафоричный перенос, который может быть понятен только человеку при полном анализе контекста. Следующий пример демонстрирует обратную ситуацию, в которой объекты не реферируют между собой. С другой стороны, несложно найти контекст, в котором понятия студенты и хулиганы будут обозначать одних и тех же лиц.

Пример 3. Референция в случае использования выразительных средств

Под прикрытием студентов в Париже орудуют банды хулиганов. [ (студенты) (хулиганы) ]

2. Применение машинного обучения к разрешению референции местоимений 3-го лица

Сотрудниками отдела математических проблем распознавания и методов комбинаторного анализа Вычислительного центра им. А.А. Дородницына Российской академии наук (ВЦ РАН) был проведен опыт по ручной разметке корпуса новостных лент на предмет анафоры местоимений третьего лица [Толпегин, 2006]. Предварительно корпус новостей был размечен морфологически, синтаксически и семантически решениями [Сокирко, 2001, Сокирко, 2005, Ножов, 2003]. По результатам разметки была сформирована обучающая выборка для выделения закономерностей в референциальном выборе для местоимений 3го лица с помощью методов машинного обучения [Журавлев, 2006]. Применяя различные методы машинного обучения, удалось добиться эффективности от 62% до 84%. С одной стороны, процент «неудач» в машинном обучении (от 16% до 38%) складывается из погрешностей модулей анализа текстов и погрешностей методов машинного обучения. С другой стороны, анализ ошибочных ситуаций показал, что величина ошибки в обучении в наибольшей степени зависит от выразительных средств языка, которые не подчиняются правилам морфологии, синтаксиса и первичной семантики. Другими словами: результат референциального выбора не всегда однозначно зависит от структуры и других признаков анализируемых предложений. Для одинаковых синтаксических конструкций предложений могут отыскаться совершенно противоположные результаты.

В основу большинства зарубежных решений в области референции положен именно тот подход, который в результате проведенного опыта для русского языка оказался малоэффективным: признаковое пространство морфологии, синтаксиса и первичной семантики [Сокирко, 2001, Сокирко, 2005, Ножов, 2003] не покрывает полностью ответ в референциальном выборе. Рассматриваемый подход по автоматизированному созданию БЗ позволит сформировать недостающий признак, который сыграет немаловажную роль в разрешении референции в тех языках, которые «отступают» от строгих морфологических и синтаксических правил в пользу выразительных средств языка.

Пример 4. Бивалентная конструкция.

Маша купила машину?. Она1 её2 любит.

Структура предлагаемого решения

Автоматизированное составление БЗ

Автоматический способ составления (пополнения) БЗ позволит не только уменьшить трудоемкость задачи, но и повысит репрезентативность собираемой информации. Предлагается подход, который позволит решить задачу автоматизированного пополнения БЗ путем «начитывания» компьютером текстов.

В качестве инструмента для решения был задействован идеографический словарь русского языка О.С. Баранова (http://baranovoc.narod.ru) [Баранов, 1996]. Словарь интересен введенным автором набором тематических рубрик, каждая из которых заполнена соответствующими понятиями и терминами. Рубрикация имеет семь уровней вложенности.

Рассматривая только объекты (существительные), представляется возможным отталкиваясь от морфологических и синтаксических свойств словосочетаний, пополнять древовидную структуру данных.

Пример 5. Извлечение знаний из структуры словосочетаний ножка стула, состав команды, заместитель председателя, годы работы

Идеографический словарь может сыграть важную роль при классификации объектов (существительных) на понятия, объекты живой, неживой природы, предметы и др. [Каневский и др., 2000, Каневский, 2000].

Путем анализа текстов и представления его в виде графа (рис. 1.), предлагается составить статистическую базу данных (СБД), подобную рассмотренному выше идеографическому словарю и БЗ. Результат обработки текста в виде узлов и дуг декомпозируется в СБД таким образом, чтобы по заданному слову и семантической валентности можно было получить набор слов, связанных с введенным словом указанной валентностью, с соответствующими характеристиками.

f ( wordx, valency) = {wordy : characteristics}n.

Разработка нечетких мер

Применение методов интеллектуального анализа данных к данным СБД позволит выявить, в конкретном случае, следующую информацию: для глагола любить в значении валентности СУБЪЕКТ число одушевленных существительных в несколько раз превышает число неодушевленных существительных. В этой связи формирование и вычисление нечетких мер по различным признакам позволит сделать весомый вклад в разрешение референции. Применение нечетких мер позволит увеличить процент правильных референций для пары «анафор-антецедент». В частности, для примера 4 построенная по предложенному алгоритму система определит, что любить может, как правило, одушевленное лицо, в данном контексте - Маша.

Вероятностный корпусно-ориентированный анализ

Корпусно-ориентированный анализ основывается на поиске в эмпирическом корпусе текстов глагола, связанного с анализируемым анафором и гипотетическим антецедентом. Антецедентом, реферирующим с анафором, выбирается тот гипотетический антецедент, который встречается большее число раз, чем другие вместе с глаголом.

Пример 6. Вероятностный корпусно-ориентированный анализ

В автомобиль? Иван встроил блокиратор? коробки переключения передач. Теперь его сложно угнать.

По данным поиска в поисковой системе «Яндекс» (www.yandex.ru) «угнать автомобиль» встречается в 59 раз чаще, чем «угнать блокиратор». Однако рекомендуется проводить поиск по синтаксически размеченному корпусу, чтобы избежать ошибок первого и второго рода: случаев, в которых слова стоят рядом друг с другом, но не взаимосвязаны, и случаев, когда слова взаимосвязаны, но разделены одним или несколькими словами.

Другие задачи БЗ

Разработка, составление и развитие онтологической базы знаний «О Мире» поможет подойти на качественно новом уровне к практическому решению актуальных задач: тематической классификации текстов, разрешению омонимии семантического поля связи существительного и прилагательного, разрешению омографии (орган-орган, мука-мука и др.), т.е. слов, омонимия значения которых разрешима на уровне семантики.

С другой стороны, аккумулируя различным образом информацию путем «начитывания» текстов, БЗ выполняет статистическую функцию. То есть можно будет получить «типичную» информацию, которая характерна для анализируемой среды, а так же просигнализировать об отклонениях в фактологии входных данных: могут быть распознаны «аномалии» в сочетаниях «умный стол» и «третье ухо».

Список литературы

1. [Aqualife, 2006] Журнал о природе и путешествиях Aqualife - http://dudu.narod.ru/hydro.htm

2. [Bateman, 2006] Bateman J. Natural Language Generation Systems. - http://www.fb10.uni-bremen.de/anglistik/langpro/NLG-table/nlg-table-date-sort.html

3. [EuroWordNet, 1999] EuroWordNet - http://www.illc.uva.nl/EuroWordNet/

4. [RussNet, 2005] RussNet - http://www.phil.pu.ru/depts/12/RN/index.shtml

5. [WordNet, 2004] Русский WordNet - http://www.pgups.ru/WebWN/wordnet.uix

6. [WordNet, 2006] WordNet - http://wordnet.princeton.edu/

7. [Азарова и др., 2002] Азарова И.В., Митрофанова О.А., Синопальникова А.А., Ушакова А.А., Яворская М.В. Разработка компьютерного тезауруса русского языка типа WordNet // Доклады научной конференции «Корпусная лингвистика и лингвистические базы данных» СПб., 2002.

8. [Баранов, 1996] Баранов О.С. Идеографический словарь русского языка -М.: ЭТС 1996.

9. [Журавлев, 2006] Журавлев Ю.И., Рязанов В.В., Сенько О.В. "РАСПОЗНАВАНИЕ". Математические методы. Программная система. Практические применения. М.: ФАЗИС, 2006.

10. [Каневский, 2000] Каневский Е.А. Атрибуты существительных // Информационные технологии в гуманитарных и общественных науках: семантико-синтаксический анализ текстов. - СПб.: СПб ЭМИ РАН, 2000. Вып. 9.

11. [Каневский и др., 2000] Каневский Е.А., Клименко Е.Н., Тузов В.А. Об одном подходе к классификации прилагательных // Труды Международного семинара Диалог'2000 по компьютерной лингвистике и ее приложениям. - М.: РосНИИ Искусственного Интеллекта, 2000. Т. 2.

12. [Клещев и др., 2001] Клещев С.А., Артемьева И.Л. Математические модели онтологий предметных областей. Часть 1. Существующие подходы к определению понятия «онтология» // Научно-техническая информация, серия 2 «Информационные системы и процессы», 2001. №2.

13. [Ножов, 2003] Ножов И.М. Морфологическая и синтаксическая обработка текста (модели и программы) // Диссертация на соискание ученой степени кандидата технических наук. - М. 2003.

14. [Сокирко, 2001] Сокирко А.В. Семантические словари в автоматической обработке текста (по материалам системы ДИАЛИНГ) // Диссертация на соискание ученой степени кандидата технических наук. - М. 2001.

15. [Сокирко, 2005] Сокирко А.В. Первичный семантический анализ - http://www.aot.ru/docs/seman.html

16. [Толпегин, 2006] Толпегин П.В., Ветров Д.П., Кропотов Д.А. Алгоритм автоматизированного разрешения анафоры местоимений третьего лица на основе методов машинного обучения // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2006» (Бекасово, 31 мая - 4 июня 2006 г.) / Под ред. Н.И. Лауфер, А.С. Нариньяни, В.П. Селегея. - М.: Изд-во РГГУ, 2006.

Размещено на Allbest.ru

...

Подобные документы

  • Анализ теории семантического поля, типологические свойства: взаимосвязь элементов, регулярный характер связей между элементами. Сущность семантического поля "посуда" в современном русском языке. Особенности организации группировки языковых элементов.

    курсовая работа [62,4 K], добавлен 24.05.2012

  • "Метаязык" как понятие в лингвистике и переводоведении. Особенности научного стиля и обзор классификаций текстов. Жанр телепередач и прагматический аспект перевода научных текстов. Особенности перевода французских текстов научно-популярного подстиля.

    курсовая работа [44,2 K], добавлен 06.03.2015

  • Понятие и структура языковой личности, ее мировоззренческий и культурологический компоненты. Конструирование модели и анализ коммуникативных знаний языковой личности. Исследование прагматической направленности "конфликтного" дипломатического дискурса.

    реферат [34,9 K], добавлен 08.01.2017

  • Классификация прецедентных текстов по степени известности. Подходы к пониманию прецедентности. Тематические группы прецедентных феноменов. Лингво-прагматический анализ речи различных возрастных групп. Возрастные группы, употребляющие прецедентные тексты.

    курсовая работа [299,2 K], добавлен 20.03.2011

  • Выявление структур представления знаний и учета взаимосвязи лингвистических и психологических процессов. Сравнение понятий ситуации (средство передачи мысленного образа, имеющего семантического содержание) и дискурса (процесс порождения связного текста).

    реферат [34,2 K], добавлен 21.08.2010

  • Понятие "семный анализ". Отличие переводческого семного анализа от других. Возникновение окказиональных сем. Основные принципы оценки адекватности перевода. Промежуточный статус словообразования. Несовпадение английской и русской языковых традиций.

    реферат [25,1 K], добавлен 02.04.2016

  • Сущность определения понятийной базы концепта добро, его место в английской языковой картине мира. Лексикографическое и этимологическое описание детального анализа семантической структуры концепта. Обобщенный обзор носителя культурно-языковых ценностей.

    статья [33,4 K], добавлен 25.03.2015

  • Категория побудительности в языковедении. Анализ особенностей предписывающих немецких текстов на примере рекламы. Изучение текстов директивно-регулятивного типа, их места в системе речевой коммуникации. Немецко-русский перевод предписывающих текстов.

    курсовая работа [33,0 K], добавлен 10.04.2013

  • Профессиональный язык как дисциплинарный феномен, обслуживающий сферу человеческой деятельности. Формирование основ предметно-языковых знаний. Педагогическая и методическая терминология и профессионализм. Эффективность общения сообщества специалистов.

    презентация [132,5 K], добавлен 20.11.2014

  • Переводческая компетенция: понятие и сущность. Этика и моральный кодекс переводчика. Фразеологизмы, крылатые слова, пословицы и поговорки как отражение фоновых знаний и их перевод. Культурные и языковые реалии, их значение. Перевод фоновой информации.

    дипломная работа [146,2 K], добавлен 02.07.2015

  • Понятие реалий в переводоведении и лингвострановедении. Особенности и приемы их перевода, обзор различных грамматических форм. Стилистическая эквивалентность текстов, заимствований и реалий. Использование национального колорита. Значение фоновых знаний.

    дипломная работа [72,0 K], добавлен 25.11.2011

  • Лингвокультурология как наука. Лингвокультурология и концепты. Интерпретативная теория перевода. Необходимость культурологических знаний в деятельности переводчика. Виды киноперевода, особенности закадрового перевода. Анализ перевода монтажных листов.

    дипломная работа [76,6 K], добавлен 28.07.2017

  • Цели и задачи, устанавливаемые при изучении иностранного языка. Лингводидактика как методологическая основа освоения знаний. Содержание и характеристики компетенций, используемых в обучении. Формирование и развитие коммуникативной культуры у учащихся.

    курсовая работа [31,6 K], добавлен 24.11.2014

  • Характеристика и классификация рекламных текстов, их лексические и синтаксические особенности. Сравнительный анализ англоязычных и русскоязычных рекламных текстов. Разработка урока в рамках темы "Mass Media" на основе проанализированных рекламных текстов.

    дипломная работа [4,4 M], добавлен 14.02.2013

  • Системный подход в лингвистике. Семантическое поле и его основные характеристики. Понятие добра и зла как объектов лингвистического исследования. Изучение семантики добра и зла на материале русского языка. Структура семантического поля "добро/зло".

    курсовая работа [67,0 K], добавлен 31.10.2011

  • Структурированная система методов лингвокультурологического анализа, приведенная Г. Алимжановой. Методика доминантного анализа. Метод сжатия конкорданса, предполагающий учет всех употреблений анализируемого слова в пределах определенного корпуса текстов.

    доклад [28,7 K], добавлен 03.06.2014

  • Язык, как стихийно возникшая в человеческом обществе и развивающаяся система дискретных звуковых знаков, предназначенная для целей коммуникации и способная выразить всю совокупность знаний и представлений человека о мире. Соотношение языка и мышления.

    реферат [25,4 K], добавлен 12.07.2011

  • Понятие "перевод". Основные типы переводческих ошибок. Характеристика концепций предпереводческого анализа, различные точки зрения на выполнение и технику перевода. Применение предпереводческого анализа текста на практике (в ходе анализа текстов).

    научная работа [172,9 K], добавлен 11.09.2012

  • Исследование лексических и стилистических особенностей английской и русской публицистики. Изучение способов образования публицистических текстов. Анализ лексико-семантических средств в публицистическом тексте на основе газет "Вечерняя Казань" и "Times".

    курсовая работа [48,7 K], добавлен 25.09.2015

  • Понятия "содержание" и "форма" при переводе музыкально-поэтических текстов. Сопоставительный анализ текстов оригинала (подлинника) и перевода. Лексические и грамматические трансформации при переводе музыкально-поэтических текстов песен Джона Леннона.

    дипломная работа [174,2 K], добавлен 09.07.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.