Автоматическое извлечение правил для снятия морфологической неоднозначности

Снятие морфологической неоднозначности как ключевой вопрос автоматического создания морфологической разметки текстов. Системы анализа русского языка. Размер корпуса, необходимого и достаточного для получения относительно высокой точности разметки.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 15.01.2019
Размер файла 376,8 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Автоматическое извлечение правил для снятия морфологической неоднозначности

Протопопова Е.В., 3 курс отделения прикладной и математической лингвистики, филологический факультет СПбГУ,

protoev@gmail.com

Аннотация

Ключевым вопросом автоматического создания морфологической разметки текстов является снятие морфологической неоднозначности. Существующие системы анализа русского языка при решении данной задачи используют большие вручную размеченные корпуса текстов, создание которых представляет собой отдельную весьма трудоемкую задачу. В нашей работе предлагается использовать метод, известный как Brill tagger, использующий при обучении данные, размеченные по морфологическому словарю. Также оценивается размер корпуса, необходимого и достаточного для получения относительно высокой точности разметки, приводятся результаты работы системы с использованием различных параметров.

автоматический морфологический разметка текст

Введение

Морфологическая неоднозначность представляет собой весьма рспространённое явление и выделяется на нескольких уровнях: неоднозначность на уровне словоформы (межчастеречная) и неоднозначность форм внутри одной парадигмы (внутрилеммная). Примером неоднозначности первого вида может служить следующая форма:

После (ПОСОЛ, сущ., предл.п.)

После (ПОСЛЕ, наречие)

После (ПОСЛЕ, предлог)

Внутрилеммная неоднохначность часто системна и может быть предсказана для целого класса слов, например, для наречий форма типа «большой» будет иметь 6 вариантов разбора.

Разрешение морфологической неоднозначности (омонимии) считается одной из основных проблем при морфологическом анализе текстов, поэтому основные усилия при создании морфологических анализаторов направлены именно на решение данной задачи. Среди известных подходов к разрешению неоднозначности выделяют детерминированные (основанные на правилах) и вероятностные (статистические) процедуры ([2], [3]).

Используемый нами подход, описанный в работе [1], иногда называют комбинированным: он сочетает использование статистической информации с применением контекстных правил. Работа алгоритма сводится к следующему. Из автоматически размеченного корпуса собирается статистическая информация о встречающихся частеречных тегах и их окружении (контекстах). На основе этой статистической информации выводятся правила преобразования омонимичных тегов в неомонимичные, затем каждому правилу приписывается вес, полученный с помощью специальной функции оценки. Данный подход имеет следующие преимущества:

он не требует использования большого количества вручную размеченных данных;

на выходе мы получаем список правил, который затем может быть проанализирован лингвистом.

Описание метода и данных

Исходный алгоритм

Основная идея алгоритма была описана выше, здесь мы постараемся более подробно изложить принципы его работы. Текст, используемый в качестве обучающего набора, размечается неоднозначно, то есть каждому слову приписываются все возможные варианты его морфологического разбора. Затем собирается статистическая информация о тегах и контекстах, в которых они встречаются. Для каждого тега Х подсчитывается freq(X) - абсолютная частота тега и incontext(X, C) - частота тега Х в контексте С. Далее для каждого омонимичного тега рассматриваются различные варианты снятия омонимии: для каждого возможного варианта вычисляется параметр

,

где Z ? Y. Из Z ? Y выбирается тег R, для которого значение этого параметра максимально. На основе этих данных составляются правила преобразования омонимичных тегов в неомонимичные:

Заменить тег Х на тег Y в контексте С;

каждому такому правилу приписывается вес:

где , Z, Y ? x, Z ? Y, freq(Z) - частота тега Z в корпусе, incontext(Z, C) - частота тега Z в контексте C.

На каждом шаге алгоритм находит правило с наибольшим весом, обучение продолжается, пока вес лучшего правила положителен. При тестировании на наборе размером 200 тысяч слов из Penn Treebank алгоритм показал точность 95.1%, на наборе размером 350 тысяч слов из Брауновского корпуса - 96.0%.

Данные и отличия в реализации

Русский язык (в отличие от английского) является языком с богатой морфологией, то есть при морфологической разметке каждому слову приписываются значения сразу нескольких морфологических категорий. Эта информация наиболее удобно представляется в виде пар «ключ - значение», где ключ - название морфологической категории. В условиях русского языка представляется логичным проводить процедуру снятия морфологической неоднозначности постепенно: от наиболее общих грамматических категорий к более частным, то есть от межчастеречной неоднозначности к внутрилеммной. На первом этапе мы рассматриваем лишь процедуру разрешения межчастеречной неоднозначности с использованием четырех контекстных признаков: по одному слову и тегу справа и слева.

Полученные правила записывались следующим образом:

ADJF NOUN > NOUN | 1:tag=PNCT

то есть «Заменить тег ADJF NOUN на тег NOUN, если следующий тег - PNCT».

В качестве обучающих корпусов для получения правил мы использовали наборы предложений разного размера, выбранные случайным образом из корпуса статей с сайта http://www.chaskor.ru/. Корпус объемом 15 миллионов токенов был размечен с помощью словаря проекта OpenCorpora (http://opencorpora.org/); использовалась упрощенная разметка следующего вида:

2 Школа 393872 школа NOUN inan femn sing nomn

Слова, отсутствующие в словаре, размечались тегами UNKN (неизвестная последовательность кириллических символов), LATN (неизвестная последовательность символов латиницы), NUMR (цифры) and PNCT (знаки препинания).

Результаты

Влияние размера обучающего корпуса

Одной из основных целей работы было определение необходимого и достаточного объема корпуса для получения набора правил, дающего достаточную точность разметки. Для решения этой задачи было проведено несколько экспериментов. Как было сказано выше, на корпусах разного размера - от тысячи до 170 тысяч предложений - были получены различные наборы правил, которые сравнивались между собой.

Наиболее очевидный способ сранить между собой различные списки правил - сравнить их размер и содержание. Результаты (рис.1) подтверждают наше предположение о том, что количество правил увеличивается при увеличении размера обучающего корпуса. Это в основном связано с тем, что правила основываются на контекстных признаках, разнообразие которых увеличивается при увеличении корпуса. С другой стороны, стоит отметить, что количество правил, использующих частеречный тег, стабилизируется на больших корпусах, что объясняется ограниченным количеством частеречных тегов в целом.

Рисунок 1. Изменение списков правил

Рисунок 2. Изменение коэффициента ранговой корреляции (объем корпуса - в тысячах предложений)

Кроме того, для каждых двух наборов правил, полученных на одном размере корпуса, был вычислен коэффициент ранговой корреляции Спирмена. Стоит, однако, отметить, что сравнивались только правила, встреченные в обоих наборах. Наблюдается (рис.2) увеличение значения коэффициента корреляции при увеличении размера корпуса, что, вероятно, свидетельствует о том, что правила, полученные на больших корпусах, располагаются в схожем порядке.

О точности снятия неоднозначности

Для оценки правильности результатов разметки был создан эталон разметки - корпус размером около ста предложений (выбранных случайно из корпуса текстов проекта OpenCorpora), омонимия в разметке была снята вручную. Затем тот же корпус был размечен с помощью морфологического словаря и различных списков правил. Для оценки точности результаты сравнивались с эталонной разметкой, определялось количество ошибок и их типы (омонимичный тег, преобразованный неверно или не преобразованный).

Точность снятия неоднозначности достигает 95.5% при обучении на корпусе размером 60 тысяч предложений и не уменьшается при увеличении размера обучающего корпуса. При этом количество типов ошибок почти не изменяется при увеличении размера корпуса от 20 тысяч предложений. С другой стороны, обучение на корпусе объемом 15 миллионов словоупотреблений не даёт значительного увеличения точности.

Изменение параметров обучения

Полученные результаты показывают, что хотя алгоритм в целом может быть применен к задаче снятия неоднозначности при разметке текстов на русском языке, точность его работы в данном случае может быть увеличена. Мы предлагаем следующие способы доработки алгоритма:

Увеличение числа контекстных признаков. Данное уточнение имеет смысл, если функция оценки правил будет выбирать правила с более отдаленным от рассматриваемого слова контекстом. Результаты экспериментов с использованием восьми контекстных признаков показывают, что примерно 40% правил используют в качестве контекста второе слово справа или слева.

Объединение нескольких контекстных признаков в одном правиле.

Более тщательный отбор обучающего корпуса, например, с точки зрения жанровых особенностей.

Заключение

В работе представлен алгоритм снятия морфологической неоднозначности с использованием неконтролируемого обучения. Точность разметки с использованием модуля, реализующего данный алгоритм, составляет около 95%. Также описаны различные оценки объема оптимального для обучения корпуса и предложены способы доработки системы.

Литература

Brill E. Unsupervised Learning Of Disambiguation Rules For Part-Of-Speech Tagging. In Proceedings of the Third Workshop on Very Large Corpora, MIT, Cambridge, Massachusetts, USA, 1995.

Sharoff S., Joakim Nivre. The proper place of men and machines in language technology: Processing Russian without any linguistic knowledge. Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 25 - 29 мая 2011 г.).

Сокирко А.В., Толдова С.Ю. Сравнение эффективности двух методик снятия лексической и морфологической неоднозначности для русского языка (скрытая модель Маркова и синтаксический анализатор именных групп). URL: http://www.aot.ru/docs/RusCorporaHMM.htm

Размещено на Allbest.ru

...

Подобные документы

  • Рассмотрение видов, типов словообразования и флективного строя русского языка. Проведение лексико-морфологической и семантической характеристики, словообразовательного анализа поэзии А.А. Блока. Изучение обращения как основы поэтического языка поэта.

    курсовая работа [86,6 K], добавлен 26.03.2010

  • Исторические корни морфологии. Современная классификация частей речи. Понятие морфологической нормы русского языка, случаи ее нарушения при употреблении в устной и письменной речи местоимений. Употребление возвратных и притяжательных местоимений.

    реферат [31,0 K], добавлен 12.12.2012

  • Изучение лексикологической и морфологической функций ударения в русском языке. Анализ особенностей фонетического объединения слов в одно целое. Характеристика акцентных систем: монотонии и политонии. Обзор формирования современного русского произношения.

    контрольная работа [44,2 K], добавлен 21.06.2012

  • Понятие и основные функции языка как средства выражения мысли. Сущность теорий звукоподражания, междометий, трудовых выкриков и социального договора. Ознакомление с генетической, ареальной, типологической, а также морфологической классификаций языков.

    реферат [58,2 K], добавлен 04.04.2014

  • Введение основных понятий корпусной лингвистики. Понятие учебного корпуса и лингвистической разметки. Обзор разработок мультимодальных корпусов и изучение их структуры. Создание русско-немецкого подкорпуса. Разметка текстов и аннотирование данных.

    курсовая работа [2,0 M], добавлен 20.06.2014

  • Анализ особенностей морфологической и синтаксической структур новых лингвистических единиц, характеризующих интернет-грамматику речи интернет-сообщений на материале текстов, выбранных из немецких социальных сетей. Примеры лингвистических новообразований.

    курсовая работа [954,7 K], добавлен 31.10.2014

  • Классификация диалектизмов по тематическим группам и их принадлежности к уровням языка: фонетические, морфологические, лексические и синтаксические. Стилистическая роль диалектизмов в авторском повествовании и речи персонажей романа Шолохова "Тихий Дон".

    дипломная работа [93,3 K], добавлен 26.03.2011

  • Исторический характер морфологической структуры слова. Полное и неполное опрощение; его причины. Обогащение языка в связи с процессом переразложения. Усложнение и декорреляция, замещение и диффузия. Исследование исторических изменений в структуре слова.

    курсовая работа [68,0 K], добавлен 18.06.2012

  • Теоретический анализ генеалогической и морфологической классификации языков. Особенности изолирующих, основоизолирующих, агглютинативных, профлективных языков. Типологические характеристики современного китайского языка и его место в классификации языков.

    дипломная работа [83,9 K], добавлен 01.06.2010

  • Морфологический анализ словоформ по количеству компонентов, степени лексической спаянности компонентов, морфологической природе стержневого компонента. Части речи, которой выражен стержневой и зависимый компоненты. Способы выражения связи в предложении.

    контрольная работа [33,1 K], добавлен 22.02.2011

  • Семантическая оппозиция как лингвистическое понятие. Оппозиции в фонологической, лексической, морфологической системах языка. Семантические отношения между членами оппозиции. Семантические оппозиции в украинских печатных средствах массовой информации.

    курсовая работа [41,1 K], добавлен 07.08.2013

  • Особая система ударения, сложившаяся в общегерманском языке-основе и частично сохранившаяся в отдельных древнегерманских языках. Количественные и качественные изменения гласных. Особенности развития морфологической системы древнегерманских языков.

    реферат [25,6 K], добавлен 17.12.2010

  • Пути, особенности влияния различных факторов в совокупности на развития германских языков. Фонетические их особенности. Специфика развития морфологической системы древнегерманских языков. Языковые преобразования: некоторые аспекты лингвистической науки.

    курсовая работа [33,7 K], добавлен 13.09.2015

  • Формирование национальных языков. Изучение отдельных германских языков. Общие характеристики германских языков. Сопоставление слов германских языков со словами других индоевропейских языков. Особенности морфологической системы древнегерманских языков.

    реферат [53,5 K], добавлен 20.08.2011

  • Особенности генеалогической классификации. Общие черты родственных языков. Их разделение по признаку исторического родства. Основные языковые семьи. Типы языков по морфологической классификации (изолирующие, агглютинативные, флективные, инкорпорирующие).

    статья [24,0 K], добавлен 21.12.2017

  • Характеристика и критерии определения наречия в английском и турецком языке, их семантическая классификация и полевая структура. Проблема релевантности адвербиальной детерминации для описания глагольного действия. Атрибутивные и предикативные наречия.

    дипломная работа [744,4 K], добавлен 21.10.2011

  • Русский язык в современном обществе. Происхождение и развитие русского языка. Отличительные особенности русского языка. Упорядочение языковых явлений в единый свод правил. Главные проблемы функционирования русского языка и поддержки русской культуры.

    реферат [24,9 K], добавлен 09.04.2015

  • Различия между отношением процесса к деятелю и к объекту. Рассмотрение морфологической оппозиции категории залога. Противопоставление аналитических форм неаналитическим в неличных формах глагола. Грамматическое значение формы страдательного залога.

    реферат [18,4 K], добавлен 29.07.2013

  • Структура слова в языках мира как основа морфологической классификации. Контенсивная типология языков в трудах М. Мещанинова и Г. Мельникова. Классификация языков в учениях В. Гумбольдта, А. Шлейхера. Типологическая классификация по Дж. Гринбергу.

    курсовая работа [52,9 K], добавлен 07.03.2012

  • Нынешняя реформа по упрощению русского языка уже третья по счету в этом веке. Каждая принесла значительные изменения в правописании. Исследование нового свода правил правописания русского языка и анализ возможных трудностей в обучении школьников.

    доклад [11,5 K], добавлен 24.02.2008

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.