Априорная информация как способ разрешения онтологической и языковой омонимии

Принципы использования априорной информации для разрешения языковой и онтологической омонимии именованных сущностей. Стратегия выбора наиболее вероятного объекта с двумя настраиваемыми параметрами, позволяющая достигнуть точности разрешения омонимии.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 09.12.2018
Размер файла 355,8 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

АПРИОРНАЯ ИНФОРМАЦИЯ КАК СПОСОБ РАЗРЕШЕНИЯ ОНТОЛОГИЧЕСКОЙ И ЯЗЫКОВОЙ ОМОНИМИИ

Егор Сергеевич Антонов

Современные базы данных об объектах действительности содержат миллионы записей. Так, в англоязычной версии Википедии содержится более 4 млн статей [6], в онтологии Freebase - 23 млн сущностей [5] и т.д. Наличие столь больших объемов информации позволяет людям узнать о любом интересующем их объекте, однако поиск этой информации затрудняется из-за различных проблем, в т.ч. из-за проблем омонимии. С одной стороны, имя объекта действительности может совпадать с общеупотребительным словом (языковая омонимия). С другой стороны, одному и тому же имени может соответствовать много объектов действительности (онтологическая омонимия). В качестве примера можно привести имя «Образование», которое, во-первых, является общеупотребительным словом, а во-вторых, таким именем называются сразу несколько объектов (банк, федеральная целевая программа, журнал).

Материал исследования

Первым шагом к определению связи между онтологическим объектом и текстом является определение гипотез именованных сущностей (ИС) в тексте (этап распознавания сущностей). Некоторые классы объектов онтологии (например, персоны) могут иметь довольно сложные шаблоны распознавания. Чтобы избежать проблем с этапом определения гипотез ИС, в качестве исходного материала были выбраны географические объекты онтологии Freebase. На основе данных о заголовке топика из Freebase и идентификаторов Википедии для каждого объекта были выделены имена, под которыми тот может упоминаться в тексте (чуть более 4 млн имен для 1 млн объектов). Таким образом, этап распознавания гипотез ИС сводится к простому поиску 4 млн подстрок. Эта задача была решена с помощью алгоритма Рабина-Карпа [1]. На основе 1700 англоязычных новостных статей был размечен тестовый корпус из 32 тыс. гипотез ИС. Полученные гипотезы нуждаются в последующей обработке. Во-первых, необходимо разрешение коллизий имен (случаи, когда позиции нескольких имен пересекаются в тексте), во-вторых, нужно отсеять «ложные срабатывания», т.е. решить проблему языковой омонимии, в-третьих, нужно из списка объектов базы данных (БД) с данным именем выбрать наиболее подходящий (решение проблемы онтологической омонимии). Первый тип пост-обработки принято называть разрешением структурной омонимии [2]. В нашем корпусе масштаб структурной омонимии оказался незначительным, и большинство случаев удалось решить с помощью простых эвристических правил (удаление вложенных позиций, выбор наиболее длинного из пересекающихся имен). Остальные виды пост-обработки оказывают более значимое влияние на итоговый результат и решаются более трудоемкими методами.

Рост омонимии при больших размерах базы сущностей

Проблемы языковой и онтологической омонимии слабо заметны при малом объеме онтологии (тысячи объектов). Однако они выходят на передний план при использовании больших баз данных (например, Википедии или Freebase).

Рост онтологической омонимии

Рис. 1. Возрастание степени неоднозначности имен в тексте при увеличении размера

На Рис. 1 представлена диаграмма распределения количества сущностей БД, соответствующих одному и тому же имени в тексте, в зависимости от размера базы. Как видно, если в БД присутствует лишь 10 тыс. объектов, то количество случаев неоднозначности в тексте не превышает 5%. Однако уже при увеличении размера базы до 100 тыс. сущностей частота неоднозначных случаев приближается к 29%, а при миллионе сущностей - к 61%. Так, в онтологии Freebase имени Washington соответствуют 77 населенных пунктов.

Проблема языковой омонимии также значительно возрастает при использовании больших объемов данных. В онтологии Freebase некоторые географические объекты имеют имена The, N/A, Bank, Friday, Monday, New, June, March, May, Liberty и т.д. Это может являться как результатом ошибки при заполнении онтологии, так и случайным совпадением имени. График возрастания частоты проблемы языковой омонимии представлен на Рис. 2.

Рост языковой омонимии в зависимости от размера БД

Рис. 2. Рост частоты «ложных» имен в тексте (т.е. случаев, когда имя случайно совпадает с общеупотребительным словом) в зависимости от размера БД

Предыдущие работы

Целью данной статьи является апробация метода, использующего априорную информацию о соответствии между именованной сущностью в тексте и географическим объектом в БД. Похожая попытка уже была предпринята в статьях А. Фейдера и др. [3] и Й. Хоффарта и др. [4]. Исследование А. Фейдера и др. базируется на ранге, приписываемого соответствию между сущностью и именем на основе результатов поиска по Википедии, однако, во-первых, оно проводилось на малом количестве объектов (500 соответствий между именем и онтологической сущностью); во-вторых, использовались тексты другого характера (веб-страницы из блогов, новостей и рассказов). В статье Й. Хоффарта и др. метод приписывает ранг на основе частоты соответствия между сущностью и именем, однако подробное описание отсутствует. Помимо этого, исследование Й. Хоффарта и др. также проводилось на малом количестве текстов (около 600). Таким образом, можно заключить, что метод априорной информации нуждается в дополнительном исследовании.

Метод априорной информации

Разработанный метод наиболее вероятного объекта выбирает для имени в тексте ту связь, которая чаще всего встречалась в обучающем корпусе. Т.е. если имени Washington в большинстве случаев соответствует одна и та же сущность, во всех остальных случаях будет выбираться именно эта сущность.

Мы ожидаем, что оба параметра имеют прямую корреляцию с точностью и обратную корреляцию с полнотой. Помимо влияния указанных выше параметров рассматривалась связь размера обучающего корпуса с достижимым качеством.

Зависимость качества метода априорной информации от минимальной вероятности p

Рис. 3. Зависимость качества метода априорной информации от минимальной вероятности p

Как видно из Рис. 3, параметр p имеет одну вырожденную точку (ноль), когда качество работы метода оказывается значительно хуже других значений. Начиная от p=10% точность метода возрастает, достигая в пике 99, 1% (что оправдывает наши ожидания), а полнота ведет себя несколько разнонаправленно, и лишь начиная с точки p=80% уверенно падает. Функция качества (F1-мера) достигает наибольшего значения в промежутке значения параметра p 30-50%.

Зависимость качества метода априорной информации от параметра m

Рис. 4. Зависимость качества метода априорной информации от параметра m

Параметр m (минимальное количество упоминаний имени в тестовом корпусе) имеет ясный физический смысл: отсекая имена, встречающиеся редко, мы избавляемся от недостоверных случаев соответствия между именем и онтологической сущностью. Например, если в генеральном корпусе сущность E соответствует имени S в 40% случаев, имеется некоторый шанс, что в обучающий корпус попадет лишь малое количество употреблений имени, и статистика соответствия будет сильно искажена. Однако, как видно из Рис. 4, наше предположение оказалось скорее неверным. Увеличивая параметр m, мы отбрасываем не только недостоверные, но и малочастотные достоверные случаи, причем, судя по графику, последних значительно больше. На графике из Рис. 4 наблюдается и прямая корреляция с точностью (рост с 0, 984 до 0, 991), и обратная корреляция с полнотой (падение от 0, 854 до 0, 68). Качество работы метода априорной информации (F1-мера) падает при любых значениях параметра m, отличных от нуля. Теоретически, при очень больших размерах обучающего корпуса может образоваться число больше нуля, при котором F1-мера увеличится, однако на наших объемах в 32 тыс. гипотез ИС получить такое число не удалось.

Минимальный размер обучающего корпуса

Рассмотрим характер изменения качества метода в зависимости от размера обучающего корпуса. Единицей измерения размера корпуса разумно считать новостную статью, т.к. трудно представить себе рост корпуса с помощью другого механизма, кроме добавления новой статьи.

Зависимость качества метода априорной информации от размеров обучающего корпуса

Рис. 5. Зависимость качества метода априорной информации от размеров обучающего корпуса.

На графике заметен логарифмический рост полноты при практически неизменной точности

Как видно из графика на Рис. 5, точность метода практически не меняется при изменении размеров обучающего корпуса. Небольшие колебания можно объяснить простой статистической погрешностью. Полнота же, напротив, показывает логарифмический рост в зависимости от количества статей в обучающем корпусе. Рост полноты стабилизируется на тысяче статей и в дальнейшем все больше затормаживается. Таким образом, можно утверждать, что для создания системы, использующей метод априорной информации, необходима, по меньшей мере, тысяча новостных статей.

В статье был подробно рассмотрен метод разрешения языковой и онтологической омонимии именованных сущностей, основанный на априорной информации из обучающего корпуса. Данный метод имеет два настраиваемых параметра, с помощью которых можно регулировать итоговую полноту и точность: вероятность соответствия между сущностью и именем (p) и минимальное количество упоминаний имени в обучающем корпусе (m). Оба параметра имеют прямую корреляцию с точностью и обратную корреляцию с полнотой, наилучшие значения в нашем случае оказались 0 для параметра m и любое значение из интервала 30-50% для параметра p. Для качественного обучения при помощи системы, использующей метод априорной информации, необходимо минимум 1 тыс. статей. Система, использующая метод априорной информации, принимает верные решения только на сущностях, присутствовавших в обучающем корпусе. Расширение БД происходит за счет низкочастотных сущностей, и шанс, что те попадут в обучающий корпус, невелик. Поэтому использование метода априорной информации при большом размере БД приводит к низкому качеству работы системы.

языковой именованный онтологический омонимия

Список литературы

1.Антонов Е. С. Как найти миллион // RSDN Magazine. СПб.: K-Press, 2011. № 1. С. 60-68.

2.Cucerzan S. Large Scale Named Entity Disambiguation Based on Wikipedia Data // Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Stroudsburg, PA: Association for Computational Linguistics, 2007. P. 708-716.

3.Fader A., Soderland S., Etzioni O. Scaling Wikipedia-Based Named Entity Disambiguation to Arbitrary Web Text // Proceedings of the WikiAI 09 - IJCAI Workshop: User Contributed Knowledge and Artificial Intelligence: an Evolving Synergy. Pasadena, CA: IJCAI Organization, 2009. P. 21-28.

4.Hoffart J., Yosef M. A., Bordino I., Fьrstenau H., Pinkal M., Spaniol M., Taneva B., Thater S., Weikum G. Robust Disambiguation of Named Entities in Text // Proceedings of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2011. P. 782-792.

5.http://wiki.freebase.com/wiki/Main_Page

6.http://www.wikipedia.org

Размещено на Allbest.ru

...

Подобные документы

  • Понятие и проблема омонимии, порядок и принципы ее разграничения с полисемией, классификация и типы. Сравнительный анализ омонимии в русском и английском языке, особенности проявления данной категории и направления лингвистического исследования.

    курсовая работа [38,8 K], добавлен 15.06.2014

  • Понятие и содержание омонимии, ее место и значение в языкознании. Исследование существующих проблем омонимии в языке хинди и в русском языке. Основные причины и предпосылки возникновения омонимов в хинди. Выявление особенностей межъязыковой омонимии.

    курсовая работа [28,3 K], добавлен 22.11.2010

  • Процесс совпадения орфографической формы и звуковой оболочки слова. Определение частотности употребления омонимов в английском языке на примере лексического контекста. Построение каламбуров на полисемии, омонимии, омографах, шуточной этимологизации слов.

    дипломная работа [689,4 K], добавлен 04.01.2014

  • Положение имени существительного в системе частей речи. Возникновение и проблемы полисемии и омонимии существительных в английском языке. Стадии развития и значения одного слова, характеристика его формальных черт. Наличие внутреннего строения лексики.

    контрольная работа [40,3 K], добавлен 11.09.2010

  • Омонимы и их место в системе английского языка. Трудности разграничение омонимии и полисемии, словообразовательные конверсивы. Источники омонимии в английском языке. Подходы к классификации омонимов в английском языке: Лайонз, Скит, Смирницкий, Арнольд.

    курсовая работа [193,6 K], добавлен 26.03.2011

  • Правописание звонких и глухих согласных. Прямая и косвенная речь. Языковая игра у М.Е. Салтыкова-Щедрина. Звуковые законы в русском языке. Оглушение звонких согласных. Обыгрывание лексической многозначности или омонимии. Принципы сочетаемости слов.

    контрольная работа [25,1 K], добавлен 15.08.2013

  • Теоретические понятия языковой игры, политического текста и метафоры. Определение политической метафоры. Классификация примеров метафорического использования языковых единиц. Формирование негативного образа властных субъектов в сознании адресата.

    курсовая работа [38,2 K], добавлен 23.08.2011

  • Понятие языковой картины мира и роль метафоры в ее создании. Анализ использования в текстах англоязычной прессы различных метафорических конструкций. Оценка употребления метафор в текстах англоязычной прессы и способов создания языковой картины мира.

    дипломная работа [248,7 K], добавлен 24.03.2011

  • Оценка представления о ценностной картине мира языковой личности человека. Описание как наиболее часто используемая стратегия самопрезентации. Отбор 90 анкет пользователей сайта "В Контакте". Структура однородных компонентов и перечислительная интонация.

    реферат [21,0 K], добавлен 17.05.2014

  • Взаимосвязь языка и культуры. Содержание понятия языковая картина мира в современной лингвистике. Сущность и главные свойства образности, классификация средств. Отражение в языковой образности социально-культурных факторов английской языковой личности.

    дипломная работа [86,7 K], добавлен 28.06.2010

  • Понятие языковой личности в отечественной лингвистике, уровни ее анализа. Категория комического дискурса как объекта лингвистического исследования. Характеристика вербально-семантического уровня языковой личности шута в поэме Шекспира "Король Лир".

    курсовая работа [55,7 K], добавлен 25.01.2011

  • Изучение основ языковой игры. Теоретические предпосылки исследования и анализ использования различных видов языковой игры в речевой деятельности. Упоминание об игре слов, "забавных словесных оборотах" как средство шутки или "обмана" слушателей.

    реферат [28,5 K], добавлен 21.07.2010

  • Изучение фразеологии – материала, наиболее ментально содержательного с точки зрения воспроизведения языковой картины, и который ярко отражает национальную культуру народа. Влияние на фразеосемантическое поле психического, физического состояния человека.

    статья [21,9 K], добавлен 14.04.2010

  • Языковой портрет музыканта на примере певицы Adele, ее семантико-синтаксические, лексические и морфологические особенности. Отражение языковой личности в музыке. Анализ языковых особенностей современного музыканта в рамках воздействия на общество.

    реферат [21,6 K], добавлен 21.05.2013

  • Перевод и другие виды языкового посредничества, их виды, формы и жанры. Место машинного перевода в общей классификации, его краткая характеристика. Содержание проблемы переводимости при машинном переводе, направления и перспективы ее разрешения.

    курсовая работа [42,2 K], добавлен 17.11.2014

  • Лексическая система русского языка. Слова однозначные и многозначные. Разграничение омонимии и многозначности. Использование антонимов в речи. Отношение паронимов к омонимам, синонимам. Исконно русская лексика. Заимствования из славянских языков.

    курсовая работа [84,1 K], добавлен 20.05.2009

  • Составляющие паремии, двуплановая характеристика пословиц. Явление пареомиологической омонимии и синонимии. Смысловые соответствия пословичных изречений. Связь между немецкими и русскими пословицами, трудности, возникающие при переводе на русский язык.

    курсовая работа [48,5 K], добавлен 11.06.2014

  • История появления и общее понятие языкового портрета личности. Анализ способов речевых манипуляций. Разработка концепции языковой личности в отечественном языкознании. Реконструирование портрета личности. Роль речевых особенностей в языковой личности.

    реферат [22,0 K], добавлен 10.04.2015

  • Контроль и самоконтроль как дидактическая и методическая категории. Европейский языковой портфель как личный документ, который позволяет ученику оценить свою языковую компетенцию в различных языках. Методика работы и опыт использования языкового портфеля.

    курсовая работа [1,1 M], добавлен 04.03.2010

  • Паронимия на материале современного английского языка. Соотношение и взаимодействие внешней и внутренней сторон слова на фоне более широкой проблемы нарушения "закона знака". Отличие паронимии от однокоренной синонимии, однокоренной антонимии и омонимии.

    курсовая работа [46,0 K], добавлен 31.03.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.