Языковой перенос нейросетевого обучения для частеречной разметки Санкт-Петербургского корпуса агиографических текстов (СКАТ)
Обучение морфологического анализатора на основе искусственных нейронных сетей для разметки Санкт-Петербургского корпуса агиографических текстов. Опыт использования нейросетевой модели с языковым переносом для частеречной разметки древнерусских текстов.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 03.03.2024 |
Размер файла | 35,2 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Языковой перенос нейросетевого обучения для частеречной разметки Санкт-Петербургского корпуса агиографических текстов (СКАТ)
Гудков Вадим Вадимович
Митренина Ольга Владимировна
Соколов Евгений Геннадьевич
Коваль Ангелина Александровна
В статье рассказывается об эксперименте по обучению морфологического анализатора на основе искусственных нейронных сетей для разметки Санкт-Петербургского корпуса агиографических текстов (СКАТ), который разрабатывается на кафедре математической лингвистики СПбГУ Корпус содержит тексты 23 рукописей XV-XVIII вв. объемом около 190 тыс. словоупотреблений, четыре из которых размечены вручную. Для создания автоматического частеречного анализатора использовались модели bi-LSTM, дистиллированная RuBERT-tiny2 и модель RuBERT. Все они были обучены на корпусах текстов на современном русском языке и перенастроены для разметки древнерусских текстов с помощью языкового переноса. Для дообучения языковых моделей на основе архитектуры трансформера необходимо было сформировать свой токенизатор на основе техники byte pair encoding и соотнести токены из оригинального русскоязычного токенизатора и нового на основе индексов. Затем модель дообучалась на задачу классификации токенов. Для настройки модели использовался размеченный подкорпус из трех житий объемом 35 603 токена, 2885 предложений. В эксперименте учитывалась только разметка с указанием части речи, классификация проводилась по 17 тегам, 13 из которых соответствовали частям речи, а оставшиеся четыре отмечали знаки препинания. Для оценки качества модели использовались стандартные метрики F1 и Accuracy. Согласно автоматическим метрикам оценки наилучший результат показала модель RuBERT. С помощью нее была проведена частеречная разметка «Жития Александра Свирского», ошибки разметки были проанализированы вручную. Большинство ошибок были связаны с неверным обобщением закономерностей линейного положения или со сходством словоформ как в крайней левой, так и в крайней правой позиции.
Ключевые слова: агиография, корпус древнерусских текстов, нейросетевая разметка, языковой перенос нейросетевого обучения, частеречная разметка.
Language-based transfer learning approaches for part-of-speech tagging on Saint Petersburg Corpus of Hagiographic texts (SKAT)
Olga V. Mitrenina, Evgenii G. Sokolov, Angelina A. Koval
The article describes an experiment about training a part-of-speech tagger using artificial neural networks on the St. Petersburg Corpus of Hagiographic Texts (SKAT), which is being developed at the Department of Mathematical Linguistics of St. Petersburg State University. The corpus includes the texts of 23 manuscripts dating from the 15th-18th centuries with about 190,000 words usages, four of which were labelled manually. The bi-LSTM, distilled RuBERT- tiny2 and RuBERT models were used to train a POS tagger. All of them were trained on modern Russian corpora and further fine-tuned to label Old Russian texts using a technique called language transfer. To fine-tune transformer-based language models it was necessary to tokenize the texts using byte pair encoding and map tokens from the original Russian-language tokenizer to the new one based on indices. Then the model was fine-tuned for the token classification task. To fine-tune the model, a tagged subcorpus of three hagiographical texts was used, which included 35,603 tokens and 2,885 sentences. The experiment took into account only the tags of the parts of speech, the classification included seventeen tags, thirteen of which corresponded to parts of speech, and the remaining four marked punctuation marks. To evaluate the quality of the model, the standard metrics F1 and Accuracy were used. According to automatic evaluation metrics, the RuBERT model showed the best result. Most of the errors were related to incorrect generalization of linear position patterns or to the similarity of word forms in both the extreme left and extreme right positions.
Keywords: hagiography, corpus of Old Russian texts, neural network tagging, language-based transfer learning, part-of speech tagging.
Проблема автоматической разметки корпусов древних текстов
По самой своей сути историческая лингвистика -- дисциплина корпусная [Haug 2015: 185]. Не имея доступа к живым носителям, историк языка невольно работает с коллекцией текстов. Появление компьютеров позволило заменить собрания текстов на материальных носителях -- глине, камне, папирусе, пергамене или бумаге -- электронными корпусами, что сильно упростило работу исследователя. Особенностью корпуса является многоуровневая система помет (тегов), описывающих лексические, грамматические и прочие характеристики слов и других компонентов текста [Захаров 2017]. Аннотированный (или размеченный) корпус может быть полезен различным ученым: если лингвист найдет в нем удобный инструмент для извлечения языковых данных и статистической проверки гипотез, то филолога и историка может заинтересовать поиск текстовых заимствований или культурных реалий [Sokolov 2019: 338].
Так, специалистам по истории языка уже доступна построенная А. Е. Поляковым на основе данных корпуса церковнославянских текстов Национального корпуса русского языка (НКРЯ) [Поляков 2014: 245] эмпирическая модель словоизменения церковнославянского языка [Поляков]. Исследователь агиографической традиции может благодаря особой разметке корпусов сравнивать объем и расположение библейских и святоотеческих цитат в определенных группах житийных текстов [Алексеева и др. 2022], текстолог благодаря компьютерным средствам может эффективно находить разночтения в сотнях списков [Алексеева, Миронова 2017: 265-271], историк -- сопоставлять описания событий на широком массиве источников.
Ручная разметка корпусов (расстановка тегов) -- это трудоемкая операция, требующая долгого и однообразного труда квалифицированных лингвистов. Поэтому большой популярностью стали пользоваться автоматические способы разметки корпусов. В частности, в Университете Фрайбурга был создан автоматический лемматизатор для средневековых церковнославянских текстов [Podtergera et al. 2016: 88-90], а для упомянутого выше церковнославянского корпуса НКРЯ применялась комбинация машинного и ручного грамматического анализа [Поляков 2014: 252-253].
Однако существующие инструменты грамматического разбора нередко оказываются малоэффективны при разметке древнерусских и церковнославянских памятников. Причина этого кроется в отсутствии для таких текстов единого графико-орфографического стандарта, многочисленных сокращенных и титлованных написаниях, а также значительной вариативности словоизменительных морфем [Podtergera et al. 2016: 68-82].
В последние годы бурное развитие получили технологии, основанные на нейросетевых моделях, в том числе в сфере морфологической разметки текстов на естественном языке [Dereza et al. 2016; NMT]. Свойственная им эффективность позволяет надеяться на успех в применении их и к древним рукописным памятникам.
В нашей статье на примере Санкт-Петербургского корпуса агиографических текстов (СКАТ) рассматриваются перспективы автоматизации процесса морфологической разметки электронных корпусов на основе обучения искусственных нейронных сетей.
Состав и особенности СКАТ
СКАТ -- это развивающийся проект, реализуемый с конца 1970-х гг. усилиями сотрудников и студентов кафедры математической лингвистики Санкт-Петербургского государственного университета и ставший предметом в том числе и международного сотрудничества. Работа над корпусом в последние годы ведется в кооперации с лионской лабораторией IHRIM, имеющей богатый опыт работы с размеченным корпусом старофранцузского языка [Azarova et al. 2021], участники проекта выступают на крупных конференциях, таких как El'Manuscript, Interdisciplinary Perspectives on Data: 2nd International Conference of the European Association for Digital Humanities (EADH) и XLIX Международная научная филологическая конференция им. Л.А. Вербицкой.
Существование проекта СКАТ делает СПбГУ одним из немногих вузов мира, обладающих собственным историческим корпусом славянских языков [Mitrenina 2014], что подчеркивает высокий научный уровень Петербургского университета.
СКАТ включает тексты 23 рукописей XV-XVIII вв. объемом около 190 тыс. словоупотреблений. В основном это жития севернорусских святых, основателей монастырей Русского Севера на территории современных Вологодской, Архангельской и Ярославской областей. Четыре жития корпуса (50 тыс. словоупотреблений) вручную снабжены полной морфологической разметкой, которая была проведена силами студентов кафедры математической лингвистики под руководством Е. Л. Алексеевой. Эти тексты представлены в формате XML в соответствии с рекомендациями Text Encoding Initiative (TEI); в 2021 г. корпус был реализован на платформе TXM [Azarova et al. 2021]. Размеченные жития используются в качестве обучающей выборки для ряда экспериментов по автоматизации процесса морфологического аннотирования.
Структура морфологической разметки СКАТ
В морфологически размеченной части корпуса для токена могут быть указаны следующие шесть параметров: начальная форма слова («lemma»), грамматические характеристики («msd»), часть речи («pos»), словоформа, записанная с помощью символов кириллицы («reg»), словоформа, записанная с помощью специально разработанного шрифта («scr»), а также код, несущий информацию о тексте, которому принадлежит токен, и его порядковом номере в этом тексте («xml:id»). Ниже приведен пример разметки текста:
<w 1ешша="и" ро8="союз" reg='V src='W xml:id="DmPrlc.188"^</w>
<w leшшa="наказатель" шsd="jo;дат;мн;м" pos="сущ" ^="наказателемъ" src="НАКАЗАТЕЛЕМЪ" xшl:id="DшPrlc.189">наказателемъ</w>
<lb n="10"/>
<w leшшa="иже" шsd="м;им;мн;м" pos="мест" reg="иже" src="ИЖЕ" xшl:id="DшPrlc.190">иже</w>
<w leшшa="въ" pos="пред" reg="въ" src="BV xшl:id="DшPrlc.191">въ</w>
<w leшшa="правда" шsd="a;мест;ед;ж" pos="сущ" reg="правд+" src="ПРАBД+" xшl:id="DшPrlcЛ92">правд,B</w>
<w шsd="м;наст;дат;мн;м" pos="прич" reg="св+дущимъ" src="СB+ДUЩИМЪ" xшl:id="DшPrlcЛ93">св,Bдoyщимъ</w>
<pc force="weak" xml:id="DmPrlc.194">.</pc>
<w leшшa="паче" pos="нар" reg="паче" src="nA&4E" xml:id="DmPrlc.195"> па
<lb n="11"/> че
</w>
<w leшшa="же" pos="част" reg="же" src="ЖЕ" xшl:id="DшPrlc.196">же</w>
<w lemma^'TOn' шsd="тв;дат;мн;м" pos="мест" reg="т+мъ" src="Т+МЪ" xшl:id="DшPrlcЛ97">т,Bмъ</w>
<pc force="weak" xml:id="DmPrlc.198">.</pc>
Набор грамматических характеристик в параметре «msd» зависит от части речи, к которой принадлежит слово. Для существительных, прилагательных и числительных указываются тип склонения, падеж, число и род. Например, для слова рвенїю тег будет выглядеть следующим образом: «р;дат;ед;ср».
Для местоимений в зависимости от разряда могут указываться тип склонения, тип местоимения (1-е, 2-е лицо или возвратность), падеж, число и род; при этом сам разряд явным образом не называется. Различия в составе тегов можно увидеть при сравнении характеристик личного местоимения мы (личн;1;им;мн), возвратного местоимения себе (личн;возвр;вин/род) и неличного местоимения сами (тв;им;мн;м).
Грамматический тег для причастий состоит из пяти компонентов: типа склонения, времени, падежа, числа и рода (ср. помышллющи -- «^о;наст;им;мн;м»). Для глагола указываются наклонение, лицо, число, а также время (для изъявительного наклонения), род (для прошедшего времени), класс (для настоящего/будущего времени и повелительного наклонения). Отметим, что такая характеристика, как возвратность, отображается не в теге, а в части речи («прич/в», «гл/в»).
Для слов других частей речи параметр «msd» не указывается.
Знаки препинания также размечаются, однако для них указываются только две характеристики: «force» (длительность паузы) и «xml:id» (код). Кроме того, в корпусе размечены номера страниц и строк рукописи (параметры «п»).
Тег «src» используется для сохранения написания графических особенностей текста в формате plain text. Так, например, для кодировки буквы п (ять) используется знак «+». Обучение модели проводилось на основании тегов «src», однако для удобства чтения примеры в статье будут указаны в оригинальном написании.
У каждого памятника имеется также экстралингвистическая разметка, включающая в себя сведения о его печатном издании, информацию о названии, датировке и библиотечном шифре взятой за основу издания рукописи, а также о лицах, ответственных за редактирование текста и его конвертацию в формат XML-TEI.
В нашем эксперименте учитывалась только разметка с указанием части речи (тег «pos»).
Вопрос о применимости к анализу церковнославянских текстов понятия «предложение» и конкретном его определении и наполнении имеет долгую и сложную историю [Николенкова 2000: 38 и далее]. Поскольку наша статья посвящена не синтаксической, а морфологической разметке житийного корпуса, мы предпочтем не углубляться в проблему выделения минимальных и максимальных синтаксических единиц членения церковнославянских памятников, принимая за предложение отрезок текста любой степени синтаксической сложности и связности, ограниченный с обеих сторон точками.
Искусственные нейронные сети в лингвистических исследованиях
В современной науке о языке для исследовательских и практических целей активно применяются нейросетевые модели. В основе искусственной нейросети лежит идея модели нейрона [Jurafsky, Martin 2020: 137], предложенная в 1943 г. У Мак-Каллоком и У Питтсом [McCulloch, Pitts 1943]. Искусственный нейрон, или узел нейросети, принимая на вход некоторый набор вещественных чисел, по определенной закономерности их обрабатывает и возвращает результат обработки [Jurafsky, Martin 2020: 138]. С помощью так называемой функции активации этот результат преобразуется в выходной сигнал, принадлежащий обычно отрезку от -1 (или 0) до 1 [Jurafsky, Martin 2020: 138; Букия, Протопопова 2016: 131-132]. Узлы нейросети располагаются слоями. Слои должны быть трех типов: по одному входному и выходному и один или несколько промежуточных, скрытых [Васильев 2021: 33]. В каждом последующем слое всякий нейрон получает на вход выходной сигнал всех нейронов предшествующего слоя [Jurafsky, Martin 2020: 147], причем основные преобразования происходят в скрытых слоях. В выходном слое, как правило, бывает столько узлов, сколько предусмотрено решений для стоящей перед нейросетью задачи [Васильев 2021: 34]. К примеру, в нейросетевом морфологическом анализаторе каждый узел выходного слоя будет соответствовать отдельной части речи или варианту части речи с дополнительными морфологическими показателями (как это будет показано далее в статье).
Применяемые в настоящее время нейронные сети обычно имеют большое количество скрытых слоев, из-за чего называются глубокими. Использование такой нейросети, соответственно, называется глубоким обучением [Jurafsky, Martin 2020: 137].
В нейронных сетях применяется так называемый эмбеддинг (от англ. embedding `вложение') -- установление соответствия между собственно лексемами и векторами вещественных чисел. Близкие по употреблению единицы имеют схожее векторное представление, что позволяет нейросети предсказывать их поведение в высказывании и свойства, даже если одна из этих единиц еще не встречалась в данной конкретной речевой цепочке [Jurafsky, Martin 2020: 143].
Искусственная нейронная сеть не может работать с текстами напрямую, она может обрабатывать только числа. Искусственный нейрон принимает на вход набор вещественных чисел, поэтому данные перед обработкой нейросетью должны быть переведены в числовой вид.
Нейросетевая модель BERT и ее дообучение
Для проведения морфологической разметки корпуса СКАТ мы использовали нейросетевую языковую модель BERT (англ. Bidirectional Encoder Representations from Transformers), обученную на русскоязычном корпусе и перенастроенную для разметки древнерусских текстов Авторы благодарят Даниила Гаврилова за предложение использовать этот подход.. Технология перенастройки модели описана в работе [Kuratov, Arkhipov 2019].
Тип моделей BERT появился в 2018 г. Это двунаправленная языковая модель, которую можно дообучить для большинства известных задач обработки естественного языка, таких как машинный перевод, морфологическая разметка, извлечение именованных сущностей и др.
Модель BERT обучается на задаче предсказания слова по контексту. Первые модели, учитывающие контекст, были однонаправленными, то есть могли работать, ориентируясь только на левую часть контекста. Однако чтобы повысить точность предсказания, необходимо было учитывать также и слова, стоящие справа. Для решения этой проблемы были предложены двунаправленные нейросети -- по сути, ансамбль из двух сетей, работающих в противоположных направлениях (одна -- с учетом левого контекста, вторая -- правого) и приводящих свои решения к общему результату. Разработчики BERT придумали более эффективное и изящное решение: применили механизм внимания, позволяющий смотреть сразу по обе стороны искомого токена. Сам токен при этом заменяется маской, из-за чего языковая модель, на которой обучается алгоритм, получила название «маскированной». Еще одним свойством механизма внимания является умение увеличивать или уменьшать вес слов в контексте. Вес отвечает за значимость слова: чем сильнее оно влияет на решение модели, тем больше он должен быть.
BERT использует bite pair encoding (BPE) -- передовой метод токенизации, при котором текст разбивается не на слова, а на части слов (подтокены), которые и хранятся в словарях, при этом неначальные элементы помечаются специальным символом ( ). Сегментация производится исключительно статистическими методами и не соотносится с морфемным составом слова. Еще одним новшеством в устройстве BERT является способ предобучения. Все эти особенности выделяют модель BERT на фоне других систем и делают ее весьма полезной для нашей задачи.
Стандартная предобученная версия BERT довольно громоздкая: весит больше 600 Мбайт, обрабатывает предложение около 120 мс на CPU. Для тестирования нашего подхода, особенно если учесть небольшой размер имеющегося корпуса текстов, таких мощностей не требуется. В связи с этим было принято решение использовать дистиллированную версию модели: RuBERT-tiny2. В ее основе лежит классическая основа BERT (bert-multilingual), параметры которой были уменьшены: словарь сокращен до 83 тыс. токенов, размер эмбеддинга -- в два раза, число слоев -- с 12 до 3. Веса инициализированы случайным образом. Данные для обучающей выборки (2,5 млн коротких текстов) были взяты из параллельных русско-английских корпусов -- от «Яндекс.Переводчика», OPUS-100 и Tatoeba. По оценкам разработчика, модель демонстрирует скорость предсказания одного токена 6 мс и весит всего 45 Мбайт.
Существующие модели BERT можно дообучать, чтобы использовать их для решения других задач. Дообучение, также известное как файнтьюнинг (от англ. fine tuning `тонкая настройка'), основано на предпосылке, что знания, полученные при решении общих заданий, помогают модели справиться с узконаправленными задачами. Суть этого метода состоит в том, что в уже обученную модель добавляется новый слой нейронов. Его веса задаются произвольно, и модель корректирует их, опираясь на параметры остальных слоев. За корректировку весов в модели отвечает функция потерь: это функция, которая сравнивает полученный результат предсказания с ожидаемым и вычисляет ошибку. В процессе дообучения модель старается подбирать веса так, чтобы ошибка была как можно меньше. После дообучения модель можно проверять в действии и оценить ее работу с помощью существующих метрик оценки качества.
Модификация модели и результаты
Чтобы модель BERT смогла работать с текстами на древнерусском языке, ее необходимо было модифицировать. В ее первом слое содержится «словарь» -- индексы и соответствующие им токены. В задачах, связанных с автоматической обработкой языка, кодирование является важнейшим этапом, так как компьютер работает с числовыми векторами, а не со словами естественного языка.
Поскольку индексов для древнерусских слов в оригинальном BERT не предусмотрено, необходимо было произвести кодировку самостоятельно и заменить исходный словарь новым. Важным условием было соблюдение размерности: количество токенов в новом слое должно было быть не больше, чем в старом (в противном случае сети не хватило бы нейронов для их обработки).
Предобучение токенизатора проводилось на неразмеченной части корпуса СКАТ. Далее была проведена настройка на задачу частеречной разметки с помощью размеченного подкорпуса из трех житий: Димитрия Прилуцкого, Дионисия Глушицкого и Кирилла Новоезерского. Общий объем размеченного корпуса -- 35 603 токена, 2885 предложений. Было проведено предварительное разбиение корпуса на обучающую и тестовую выборки в соотношении 0,85:0,15. Модель дообучалась на задачу классификации токенов по стандартной процедуре, описанной в работе [Akbik et al. 2018].
Модели были обучены классифицировать токены в соответствии со следующим набором тегов: «COLON», «COMMA», «DOT», «SEMICOLON», «гл», «инф», «межд», «мест», «нар», «посл», «пред», «прил», «прич», «союз», «сущ», «част», «числ».
В качестве исходной модели была выбрана модель bi-LSTM со следующими параметрами: Window size 2 LSTM state size 200 Optimiser Adagrad Initial learning rate 0.05 Decay rate 0.05 Dropout rate 0.5
Кроме того, были обучены модели RuBERT-tiny2 и RuBERT.
Были выбраны следующие гиперпараметры дообучения:
learning_rate=3e-5,
num_train_epochs=100,
weight_decay=0.01,
Размер батча был установлен на отметке 64 текстов для всех экспериментов. Для оценки качества работы модели использовались стандартные метрики F1 (среднее гармоническое точности и полноты) и Accuracy (количество верно классифицированных объектов относительно общего количества всех объектов). На первых двух эпохах обучения показатели были низкими, поскольку вначале модель использовала существующие у нее веса для текстов на русском языке; однако затем она перестроилась, качество предсказания стало расти. Результаты экспериментов приведены в таблице.
Таблица 1
Название модели |
F1 |
Accuracy |
|
bi-LSTM |
0,72 |
0,81 |
|
RuBERT-tiny2 |
0,80 |
0,87 |
|
RuBERT |
0,81 |
0,88 |
Ручная проверка результатов
С помощью полученной модели была произведена разметка нового файла -- «Жития Александра Свирского». Результат разметки был проанализирован вручную. Для этого из текста случайным образом были выбраны 100 предложений. В целом модель показала достаточно хорошие результаты. Приведем пример предложения, не имеющего ошибок в морфологической разметке: сты млтвою во|орХжлше. прил част сущ гл DOT
Однако существует определенное количество контекстов, в которых распознавание морфологической категории части словоформ оказалось для модели затруднительным. Ниже рассмотрим некоторые распространенные случаи.
Ошибки, объяснимые линейным положением
В некоторых случаях словоформа, находящаяся между двумя элементами одинаковой категориальной принадлежности, ошибочно получает ту же морфологическую помету, что и эти два элемента. Так, в примерах (3) и (4) частица же, находящаяся между двумя местоимениями, определена как местоимение.
(1) сс| все БЫ дл з'бХдєіітса бго“ речеиое.
мест мест мест гл част гл сущ прич DOT
(2) ...и ты ми реклъ еси... союз мест мест мест гл гл
Однако возникает подозрение, что модель вообще оказывается склонной к постановке как минимум двух одинаковых категориальных помет подряд, даже если одна из них не соответствует действительности. Скажем, в примере (5) существительное имя перед двумя прилагательными святыя и живоначальныя опознано также как прилагательное, в примере (6) возвратное местоимение си после глагола сокрушаеши помечено как глагол.
(3) ВЪ НМД стыл| ЖИВОИЛЧЛИЫ трцл. пред прил прил прил сущ DOT
(4) По|ч'то тл сокрХ|шлеши" ТГЛО... нар нар гл гл сущ...
В примере (7) аорист с имперфектным значением бп> перед существительным недугомъ ошибочно определен как существительное, а частица же в примере (8), следующая за наречием, указана моделью как наречие.
(5) ^ер'жимл БТ иедХгом'ь веїлїимг... прич сущ сущ прил...
(6) ...и послт вст| ис^ожлше. союз нар нар мест гл DOT
Наконец, в примере (9) частица же, следующая за двумя наречиями, также названа наречием.
(7) и тлко пл|ки послт в'ст из црквї ис^о|жлше. союз нар нар нар нар мест мест сущ гл DOT
Ошибки, объяснимые сходством
Смешение финитного глагола и существительного. Неоднократно в выбранных предложениях повторяется смешение финитной глагольной формы с именем существительным.
(8) ^ер'жимл БТ иедХгомг веїлїимг ил ы'ио времд. прич сущ сущ прил пред прил сущ DOT
(9) га.ко| ЄДИИ0мХ^0ТДфХ| БЄМ0СТВ0ВЛТИ... союз числ прич сущ
При этом возможно отождествление не только глагола с существительным, но и именной части речи (местоимения или существительного) с глаголом.
(10) га. м'чТІтй ей... ськрХ|шитй. союз сущ гл... инф DOT
(11) ирлвеий во ре гако фиий процвт|те. гл союз гл союз сущ гл DOT
(12) no и влиж'ии|мг сХсТдо й| глти. союз союз прил гл мест инф DOT
Возможно, впрочем, такое отождествление обязано своим появлением определенному сходству конечных элементов некоторых существительных с отдельными показателями глагольного словоизменения, как в примере (15), где слово ризу можно, не принимая во внимание контекст и его значение, счесть формой первого лица единственного числа настоящего времени (как еезу).
(13) ийч'то в'зё| рлз'вт потре|в'иХкі ризХ. мест гл сущ прил гл DOT
Смешение прилагательного с другими частями речи
Словоизменительные элементы кратких форм имени прилагательного зачастую совпадают со словоизменительными или словообразовательными средствами других частей речи. Поэтому прилагательное иногда опознается моделью как наречие или существительное:
(14) пожи же| мало в'ремд в до|врТ исповтдлши. прич част нар сущ пред сущ сущ DOT
Случаи смешения прилагательного с существительным весьма многообразны:
(15) Пришёши| NTKAA МЄВИДИ|мАА БЇЛ СИЛА. гл мест прич сущ сущ DOT
(16) коиечиеі исцелеиїе полХчи.
. сущ сущ прич DOT
(17) и и м'иогл испо|вТдл d пресллв'йе мХжи се. союз союз сущ гл пред прил сущ мест DOT
При этом иногда прилагательное может стоять и в полной форме:
(18) блвитг гла dtfu чтиїи. гл гл прич сущ сущ DOT
Видимо, по той же причине -- из-за фонетической близости конечных элементов словоформ -- наречия, как и прилагательные, могут время от времени опознаваться как существительные:
(19) И ефе и въ пеклр'ик>| ЧАСТО ^ожлше.
союз нар част союз пред сущ сущ гл DOT
(20) И ГЛАДА СТМО И dBAMO... союз гл нар союз сущ...
Особенности разметки словоформ с элементом w в начальной позиции. Отдельную подгруппу составляют ошибки, связанные со словоформами, содержащими букву w (в формате plain text передается буквой w с последующим выносным элементом, заключенным в скобки).
Так, в примерах (23) и (24) существительное итець в графическом представлении и смешивается с предлогом w -- и наоборот. Поскольку обе словоформы в формате plain text различаются только содержимым скобок (титлом), их спорадическое смешение объяснимо.
(21) и и| м'иогы вХдеши| д^виы. союз пред прил гл прил DOT
(22) изыди| № г,емлд твое&| и № рожеиїл сво|его.
гл пред сущ мест союз сущ сущ мест DOT
Однако следует отметить, что и достаточно длинные словоформы, если они начинаются сочетанием «и + скобка» (титло), распознаются моделью как предлоги. Именно предлогами модель сочла аорист №до и причастие wrmnX в примерах (25) и (26).
(23) ...и №до в' до сво с миро.
... союз пред пред сущ мест пред сущ DOT
(24) ... №гилиХ бы|в'шХ иечтомХ| д^Х... пред прич прил сущ
Ошибки при разметке глагольных форм
Смешение причастий с другими глагольными формами. С финитным глаголом может смешиваться как пассивное (примеры (27)-(28)), так и активное (примеры (29)-(30)) причастие.
(25) и № все поиосими| вХде союз пред мест гл гл
(26) спислиоїроди|иноигХмеио гл сущ сущ
(27) и блгвит, бы № стго союз прил гл пред прил
(28) ...по|стиическыми стдиил оукрлси|всА.
.прил сущ гл DOT
Определение одной и той же грамматической формы иногда как причастия, иногда как глагола может встречаться в пределах одного предложения, как в примере (31):
(29) плче| стога. ИЛ МЛТВЛ^ЛІ И МОЛА бХ.
нар част прич пред сущ союз гл сущ DOT
Путаница причастий и прилагательных. Видимо, по причине морфологического сходства, а также из-за возможности перехода отдельных причастий в разряд отглагольных прилагательных модель время от времени смешивает эти категории.
(30) ... члкг [n^]|ku... живыи бли Оби|толи стго.
... сущ мест... прил сущ сущ прил DOT
(31) и глше ВОЛА гид чл дл вХдё.
союз гл прич прич сущ част гл DOT
Смешение существительных с инфинитивами. Видимо, из-за фонетического сходства падежных форм (и даже просто основ) некоторых склонений существительных с глагольной формой инфинитива на -ти зафиксированы случаи неверной разметки такого рода:
(32) сїе... предл^о кг ре|в'иости послХшл|телё.
Мест... гл пред инф сущ DOT
(33) в^дХфИ во стость| жид ё. прич союз сущ инф мест DOT
Общий итог ручной проверки
Как можно видеть, в основе неудачных морфологических разборов с большой долей вероятности лежат ошибки модели, связанные либо с неверным обобщением закономерностей линейного положения («за элементом A с большей вероятностью следует элемент B, чем элемент C»), либо со сходством словоформ, причем как в крайней левой (приставка w-), так и в крайней правой (различные фонетически подобные суффиксы и флексии) позиции. Ошибки, возникающие при сходстве словоформ, объясняются тем, что BERT использует сжатие данных BPE, при котором в словарях хранятся не целые слова, а части слов (подтокены).
Следует упомянуть, что тексты СКАТ могут содержать символы -- разделители строк, но из размеченного корпуса, на основе которого проводилась настройка модели, разделители строк были удалены. Однако это не повлияло на конечный результат: при обработке вариантов текста с разделителями и без них модель производит разметку примерно одинаково.
морфологический анализатор нейросетевой текст
Выводы
Опыт использования нейросетевой модели с языковым переносом для частеречной разметки древнерусских текстов можно считать в целом успешным, учитывая, что в эксперименте применялись небольшие дистиллированные модели, которые быстро обучаются и не требуют больших ресурсов. Предложенный подход позволяет использовать предобученные языковые модели для дообучения на материале малоресурсных языков, т. е. языков, для которых трудно собрать большие корпусы. Описанная модель может использоваться для частеречной разметки других текстов в рамках корпуса СКАТ и -- в перспективе -- за его пределами.
Литература
1. Поляков А.Е. Грамматический словарь церковнославянского языка (по материалам корпуса).
2. Алексеева Е.Л., Азарова И.В., Рогозина Е.А., Сипунин К.В. Корпусное выделение библейских цитат в севернорусских житийных текстах XVI-XVII вв. В сб.: Источниковедение литературы и языка (археография, текстология, поэтика): Памяти Елены Ивановны Дергачевой-Скоп. Новосибирск: ГПНТБ СО РАН, 2022. С. 237-242.
3. Алексеева Е.Л., Миронова Д.М. Компьютерная текстология. В кн.: Прикладная и компьютерная лингвистика. Николаев И.С., Митренина О.В., Ландо Т. М. (ред.). М.: URSS, 2017. C. 259-272.
4. Букия Г.Т., Протопопова Е.В. Машинное обучение в лингвистике. В кн.: Прикладная и компьютерная лингвистика. Николаев И. С., Митренина О. В., Ландо Т М. (ред.). М.: URSS, 2017. С. 121-137.
5. Васильев Ю. Обработка естественного языка Python и SpaCy на практике. СПб.: Питер, 2021.
6. В.П. Захаров. Корпусная лингвистика В кн.: Прикладная и компьютерная лингвистика. Николаев И.С., Митренина О.В., Ландо Т.М. (ред.). М.: URSS, 2017. С. 138-155.
7. Николенкова Н.В. Некоторые принципы синтаксической организации церковнославянского текста: на примере житийных текстов XI-XIII веков: дис.... канд. филол. наук. М., 2000.
8. Поляков А.Е. Корпус церковнославянских текстов: проблемы орфографии и грамматики. Przeglqd Wschodnioeuropejski. 2014 (1): 245-254.
9. Akbik A., Blythe D., Vollgraf R. Contextual String Embeddings for Sequence Labeling. In: Proceedings of COLING 2018. The 27th International Conference on Computational Linguistics. Santa Fe, New Mexico, 2018. P. 1638-1649.
10. Azarova I., Alekseeva E., Lavrentiev A., Rogozina E., Sipunin K. Content Structuring in the St Petersburg Corpus of Hagiographic Texts (SCAT) Scripta & e-Scripta. The Journal of Interdisciplinary Mediaeval Studies. 2021, (21): 69-78.
11. Dereza O.V., Kayutenko D.A., Fenogenova A.S. Automatic Morphological Analysis for Russian: a Comparative Study. Computational Linguistics and Intellectual Technologies. In: Proceedings of the International Conference Dialogue 2016. Computational linguistics and intellectual technologies. Student session (online publication). 2016.
12. Haug D.T.T. Treebanks in historical linguistic research. In: Viti, Carlotta (eds), Perspectives on Historical Syntax. Amsterdam: John Benjamins Publishing Company. P. 185-202.
13. Jurafsky D., Martin J.H. Chapter 7. Neural Networks and Neural Language Models. In: Speech and Language Processing. Draft of December 30, 2020. P. 137-147.
14. Kuratov Yu., Arkhipov M. Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language 2019.
15. McCulloch W. S., Pitts W. A logical calculus of ideas immanent in nervous activity. Bulletin of Mathematical Biophysics. 1943 (5): 115-113.
16. Mitrenina O. The Corpora of Old and Middle Russian Texts as an Advanced Tools for Exploring an Extinguished Language. Scrinium. 2014, (X): 455-461.
17. Neural Morphological Tagging.
18. Podtergera I., Mocken S., Besters-Dilger J. SlaVaComp -- COM Putergesttitzte Untersuchung von VAriabilitat im kirchenSLAvischen. Forschungsergebnisse. Freiburg: Universitatsbibliothek Freiburg, 2016.
19. Sokolov E.G. The project of a deeply tagged parallel corpus of Middle Russian translations from Latin. Journal of Applied Linguistics and Lexicography. 2019, (2): 337-364.
References
1. Alekseyeva Ye.L., Azarova I.V., Rogozina E.A., Sipunin K.V. Corpus selection of biblical quotations in northern Russian hagiographic texts of the 16th-17th centuries. In.: Istochniko-vedenie literatury i iazyka (arkheografiia, tekstologiia, poetika): Pamiati Eleny Ivanovny Dergachevoi-Skop. Novosibirsk: GPNTB SO RAN Publ., 2022. P. 237-242. (In Russian)
2. Alekseyeva Ye.L., Mironova D.M. Digital text studies. In: Prikladnaia i kompiuternaia lingvistika. Nikolayev I.S., Mitrenina O.V, Lando T.M. (red.). Moscow: URSS Publ., 2017. P. 259-272. (In Russian)
3. Bukiya G.T., Protopopova Ye.V. Deep learning applications in linguistics. In: Prikladnaia i kompiuternaia lingvistika. Nikolayev I.S., Mitrenina O.V., Lando T.M. (red.). M.: URSS Publ., 2017. P. 121-137. (In Russian)
4. Vasilyev Yu. Natural language processing in Python and SpaCy. A practical introduction. St Petersburg: Piter Publ., 2021. (In Russian)
5. Zakharov V.P. Corpus linguistics. In: Prikladnaia i kompiuternaia lingvistika. Nikolayev I.S., Mitrenina O.V., Lando T.M. (eds). Moscow: URSS Publ., 2017. P. 138-155. (In Russian)
6. Nukolenkova N.V. Some principles of the syntactic organization of the Church Slavonic text: On the example of hagiographic texts of the 11th-13th centuries. Thesis for PhD in Philological Sciences. Moscow, 2000. (In Russian)
7. Polyakov A.Ye. Church Slavonic corpus: Issues in orthography and grammar. Przeglqd Wschodnioeuropejski. 2014 (1). P. 245-254. (In Russian)
8. Akbik A., Blythe D., Vollgraf R. Contextual String Embeddings for Sequence Labeling. In: Proceedings of COLING 2018. The 27th International Conference on Computational Linguistics. Santa Fe, New Mexico, 2018. P. 1638-1649.
9. Azarova I., Alekseeva E., Lavrentiev A., Rogozina E., Sipunin K. Content Structuring in the St. Petersburg Corpus of Hagiographic Texts (SCAT) Scripta & e-Scripta. The Journal of Interdisciplinary Mediaeval Studies. 2021, (21): 69-78.
10. Dereza O.V., Kayutenko D.A., Fenogenova A.S. Automatic Morphological Analysis for Russian: a Comparative Study. Computational Linguistics and Intellectual Technologies. In: Proceedings of the International Conference Dialogue 2016. Computational linguistics and intellectual technologies. Student session (online publication).
11. Haug D.T.T. Treebanks in historical linguistic research. In: Viti, Carlotta (eds), Perspectives on Historical Syntax. Amsterdam: John Benjamins Publishing Company. P. 185-202.
12. Jurafsky D., Martin J.H. Chapter 7. Neural Networks and Neural Language Models. In: Speech and Language Processing. Draft of December 30, 2020. P. 137-147.
13. Kuratov Yu., Arkhipov M. Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language 2019.
14. McCulloch W.S., Pitts W. A logical calculus of ideas immanent in nervous activity. Bulletin of Mathematical Biophysics. 1943 (5): 115-113.
15. Mitrenina O. The Corpora of Old and Middle Russian Texts as an Advanced Tools for Exploring an Extinguished Language. Scrinium. 2014, (X): 455-461.
16. Neural Morphological Tagging.
17. Podtergera I., Mocken S., Besters-Dilger J. SlaVaComp -- COMPutergesttitzte Untersuchung von VAriabilitat im kirchenSLAvischen. Forschungsergebnisse. Freiburg: Universitatsbibliothek Freiburg, 2016.
18. Sokolov E.G. The project of a deeply tagged parallel corpus of Middle Russian translations from Latin. Journal of Applied Linguistics and Lexicography. 2019, (2): 337-364.
Размещено на Allbest.ru
...Подобные документы
Корпус текстов школьников в контексте корпусной лингвистики, его содержание и пополнение. Пунктуационная разметка текстов, классификация ошибок. Использование языка разметки TEI для кодировки пунктуации. Обработка корпуса с помощью программы Интерробанг.
дипломная работа [1,9 M], добавлен 08.11.2015Изучение алгоритма рекурсивного спуска и системы построения грамматики с помощью лексического анализатора Lex. Написание программы интерпретатора языка разметки HTML. Проверка входной последовательности на корректность входа как общая функция программы.
контрольная работа [226,7 K], добавлен 25.12.2012Искусственные нейронные сети как одна из широко известных и используемых моделей машинного обучения. Знакомство с особенностями разработки системы распознавания изображений на основе аппарата искусственных нейронных сетей. Анализ типов машинного обучения.
дипломная работа [1,8 M], добавлен 08.02.2017HTML как язык разметки гипертекста, его структура, элементы. Каскадные таблицы стилей, их разработка. Верстка: страницы как мы их видим. Новые технологии – HTML5, CSS3. LESS. Динамический язык стилевой разметки. Технологии упрощенной разметки HAML, SASS.
дипломная работа [3,4 M], добавлен 19.04.2013Появление искусственных систем, способных воспринимать и понимать человеческую речь. Автоматическая обработка естественного языка. Анализ, синтез текстов. Системы автоматического синтеза. Проблема понимания, оживление текстов. Модели коммуникации.
реферат [19,0 K], добавлен 02.11.2008Характеристика Русского Учебного Корпуса. Типы ошибок в русском учебном корпусе, совместная встречаемость тегов, алгоритм классификации. Проблема несбалансированности выборки. Результаты классификации, вклад признаков в различные классификаторы.
курсовая работа [51,5 K], добавлен 30.06.2017HTML - язык разметки гипертекста как набор инструкций для программы-просмотрщика (броузера). Понятие и назначение тэгов, их функции и параметры. Смысл понятий "параметр" и "значение параметра". Правила работы с тэгами, создание ссылок с их помощью.
статья [16,8 K], добавлен 10.05.2009Определение понятия гипертекста. Основные части документа SGML. История создания стандартного языка разметки документов HTML. Отличия синтаксиса XHTML от HTML. RSS - семейство XML-форматов для описания лент новостей. Применение языка разметки KML.
презентация [4,3 M], добавлен 15.02.2014Рост активности в области теории и технической реализации искусственных нейронных сетей. Основные архитектуры нейронных сетей, их общие и функциональные свойства и наиболее распространенные алгоритмы обучения. Решение проблемы мертвых нейронов.
реферат [347,6 K], добавлен 17.12.2011Новый язык разметки гипертекста XHTML. Валидация XHTML-документов, определение их типа. Распространённые ошибки в XHTML-разметке. Конформность пользовательских агентов. Использование XHTML с другими пространствами имен. Расширение семантики HTML.
курсовая работа [44,1 K], добавлен 14.07.2009MathML (Mathematical Markup Language): язык разметки математических приложений. Математика и ее система обозначений. Существующие языки математической разметки. Синтаксис и грамматика MathML. Возможности современных браузеров при работе с MathML.
курсовая работа [489,2 K], добавлен 14.07.2009Общая характеристика языка разметки гипертекста Hypertext Markup Language. Структура HTML-документа. Обзор основных возможностей HTML. Элементы современного дизайна Web-страниц. Анализ практического применения HTML (на примере обучающих программ).
курсовая работа [47,9 K], добавлен 24.11.2012Достоинства программы XML. Язык разметки документов. Требования к XML-документу. Его структурные составляющие: элементы, атрибуты, секции CDATA, директивы анализатора, комментарии, специальные символы, текстовые данные. Визуальный редактор Serna Free.
курсовая работа [29,1 K], добавлен 18.07.2014Понятие искусственного нейрона и искусственных нейронных сетей. Сущность процесса обучения нейронной сети и аппроксимации функции. Смысл алгоритма обучения с учителем. Построение и обучение нейронной сети для аппроксимации функции в среде Matlab.
лабораторная работа [1,1 M], добавлен 05.10.2010Описание ДСМ-метода автоматического порождения гипотез. Исследование результатов влияния компонентов ДСМ-метода на качество определения тональности текстов. Алгоритм поиска пересечений. N-кратный скользящий контроль. Программная реализация ДСМ-метода.
курсовая работа [727,0 K], добавлен 12.01.2014Понятие и свойства искусственных нейронных сетей, их функциональное сходство с человеческим мозгом, принцип их работы, области использования. Экспертная система и надежность нейронных сетей. Модель искусственного нейрона с активационной функцией.
реферат [158,2 K], добавлен 16.03.2011Понятие семантики; обзор и анализ существующих средств семантического разбора естественно-языковых текстов. Разработка алгоритма работы системы на основе семантического анализа, его реализация на языке программирования; проектирование интерфейса системы.
дипломная работа [1,7 M], добавлен 18.03.2012Ознакомление с основами расширяемого языка разметки Extensible Markup Language. Изучение основных правил создания XML-документа. Рассмотрение набора элементов языка, секций CDATA, директив анализатора, комментариев, спецсимволов, текстовых данных.
презентация [400,9 K], добавлен 21.12.2014Простейшая сеть, состоящая из группы нейронов, образующих слой. Свойства нейрокомпьютеров (компьютеров на основе нейронных сетей), привлекательных с точки зрения их практического использования. Модели нейронных сетей. Персептрон и сеть Кохонена.
реферат [162,9 K], добавлен 30.09.2013Морфологические анализаторы (морфологизаторы) на различных языках программирования. Анализ методов и технологий автоматической обработки ЕЯ-текстов. Разработка модуля графематического анализа и создания таблицы лексем. Программная реализация классов.
дипломная работа [3,0 M], добавлен 06.03.2012