Русский DeriNet: от словообразовательных словарей к универсальным деривациям

Структурирование доступной информации о словообразовании в русском языке и создание на основе этой информации базы данных в формате UDer. Отбор пар лексем и потенциальных дериватов. Параметры классификации, максимизация количества пар и очистка данных.

Рубрика Иностранные языки и языкознание
Вид дипломная работа
Язык русский
Дата добавления 17.07.2020
Размер файла 137,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Правительство Российской Федерации

Федеральное государственное автономное образовательное

учреждение высшего образования

Национальный исследовательский университет

«Высшая школа экономики»

Факультет гуманитарных наук
Образовательная программа
«Фундаментальная и компьютерная лингвистика»
Выпускная квалификационная работа
Русский DeriNet: от словообразовательных словарей к универсальным деривациям
студента 4 курса бакалавриата группы 162
Игнашина Мария Владимировна
Научный руководитель
Кандидат наук, профессор О.Н. Ляшевская
Москва 2018
Оглавление
Введение
1.1 Терминология
1.2 Обзор литературы
2.1 Universal Derivations: гармонизация
2.2 Universal Derivations: ресурс
2.3 Universal Derivations: методы
3.1 Постановка задачи
3.2 Источники
3.3 Отбор пар лексем и потенциальных дериватов
3.4 Параметры классификации
3.5 Классифкаторы
3.6 Maximum Spanning Tree algorithm
3.7 Максимизация количества пар
3.8 Очистка данных
3.9 Результаты и гармонизация
3.10 Вектор дальнейшей работы
Заключение
Список использованных источников и литературы
Введение

словообразование язык лексема дериват

Сложно представить себе, как бы выглядела современная наука без современных технологий. Это утверждение касается не только технических специальностей, но и некоторых областей гуманитарных. Лингвистика не исключение. Широкое распространение и общая доступность компьютеров с высокими вычислительными мощностями и повсеместный высокоскоростной интернет оказали большое влияние на лингвистику. Каждый год создаются новые электронные ресурсы, позволяющие более эффективно изучать или описывать языки. Исследования в области морфологии в последнее время тоже стали все больше и больше опираться на цифровую грамотность исследователей: собираются электронные словообразовательные базы данных и корпусы дериваций, создаются программы для автоматического морфемного членения слов или автоматического составления его дериватов. В 2018 году учёным, заинтересованных в словообразовании и морфологии, был доступен ассортимент из более чем 60 различных электронных источников и ресурсов в более чем 20 различных индоевропейских языках (Kyjaмnek 2018: 3).

Электронные ресурсы в области морфологии обычно создаются для двух разных целей. Во-первых, полные и единообразные базы данных могут быть полезны исследователям-типологам, заинтересованным в словообразовании. Во-вторых, морфологический анализ - один из первых этапов работы многих систем обработки естественного языка, NLP (Namer Hathout 2019: 5). Обширные и разнообразные словообразовательные базы данных могут дополнить или заменить морфологические парсеры, повысив точность результатов и скорость работы многих систем автоматической обработки естественного языка. К тому же, некоторые системы машинного перевода, учитывающие синтаксическую разметку текста, иногда нуждаются в редкой форме слова, которую легко найти в базе дериваций, но невозможно найти в небольшом обучающем (training) корпусе. Пример такой формы можно найти, пытаясь найти причастие, которым можно перевести на русский нераспространённый английский герундий (Љevинkovб, Z. Ћabokrtskэ 2014: 1092).

Самый большой международный цифровой словообразовательный ресурс называется Universal Derivations https://ufal.mff.cuni.cz/derinet, версия 0.5 (в дальнейшем я буду использовать сокращение UDer). UDer был составлен сотрудниками института формальной и прикладной лингвистики при школе компьютерных наук на факультете математики и физики Карлова университета (ЪFAL). Он содержит гармонизированные данные из 11 индоевропейских языков. Для большинства языков источники либо содержали достаточно полную информация о словообразовании и нуждались исключительно в гармонизации, либо содержали очень немного лексем и могли быть размечены вручную. Для нескольких языков создателям UDer пришлось применить машинное обучение, чтобы установить наличие деривационных связей между словами и разбить их на семьи. Для автоматического поиска дериватов лексем применялись классификаторы деревья решений (Decision Trees Random Forest) и логистическая регрессия (Logistic Regression). Найденные пары были объединены в словообразовательные семьи (Kyjбnek et al. 2019: 105). Самый большой корпус проекта - это база словообразовательных отношений между лексемами чешского языка, которая называется DeriNet, версия 2.0. DeriNet содержит более миллиона лексем и почти 220 тысяч словообразовательных семей (Kyjбnek et al. 2019: 106).

Проект UDer разработал правила аннотации, подходящие для всех 11 языков. Аннотированные базы данных представлены на сайте UDer https://ufal.mff.cuni.cz/derinet/derinet-search, который использует продвинутую система навигации между словообразовательными семьями и несколько видов интуитивно понятного графического представления семей.

Данных русского языка в UDer пока нет. База данных русского языка в формате UDer могла бы помочь при изучении русской морфологии и словообразования или проведения сравнений между словообразовательной продуктивностью частей речи или конкретных лексем трёх славянских языков: чешского, польского и русского.

Наша задача - структурировать доступную информацию о словообразовании в русском языке, и создать на основе этой информации базу данных в формате UDer. Последним шагом мы оценим, насколько хорошо методы, эффективно работающие с данными по деривациям в языках, представленных в UDer, справляются с русскими данными.

1.1 Терминология

Большинство понятий, связанных со словообразованием, достаточно редко определяются в тематических статьях, потому что они входят в базовую программу лингвистических университетов и воспринимаются как само собой разумеющееся. Тем не менее, значение некоторых терминов мне бы хотелось уточнить, потому что во время подготовки я заметила, что они могут немного по-разному использоваться в разных источниках. Для соблюдения однообразия определения берутся из статей, входящих в работы второго международного семинара по ресурсам и инструментам словообразовательной морфологии или в материалах, на которые эти статьи ссылаются.

Морфемы, а именно: суффиксы, префиксы и корни, -- это минимальные наделённые смыслом части слов (Sylak-Glassman 2016: 3).

Морфология -- это совокупность морфем некоторого языка, а также правила их комбинирования (Sylak-Glassman 2016: 3).

Лексемы, связанные словообразовательными отношениями, -- лексемы с общем корнем (Kyjбnek et al. 2019: 102).

Словообразовательная (деривационная) семья -- это набор лексем, связанных между собой морфологически словообразовательными отношениями (Sanacore et al. 2019: 15).

Прямые словообразовательные (деривационные) отношения связывают лексему с образованными от неё лексемами. Косвенные словообразовательные отношения связывают лексемы одной словообразовательной (деривационной) семьи, не связанные прямыми словообразовательными отношениями (Sanacore et al. 2019: 16).

Немотивированное слово -- это лексема, которая не образована ни от какой другой лексемы (;

Kyjбnek 2019: 18).

Словообразовательная база, или базовая лексема, - лексема, от которой был образован дериват (Kцrtvйlyessy 2019: 1).

Виды словообразования, которые обычно рассматриваются в работах, посвящённых деривации (Filko et al. 2019: 74): суффиксация (паразит -- паразит-ка), префиксация (шёл -- при-шёл), циркумфиксация (спать -- ото-спать-ся), словосложение (пар ходить -- пар-о-ход) переразложение (зонтик -- зонт)), субстантивация (прилагательное больной -- существительное больной). К тому же, иногда словообразованию может сопутствовать аблаут (сбор -- собир-ать).

Самый продуктивный вид словообразования в русском языке - аффиксация. Существительные, в основном, образовываются посредством суффиксации, а глаголы - префиксации. Циркумфиксация обычно применяется к глаголам (Shevchenko, Tomaљинkovб 2020: 75).

1.2 Обзор литературы

Электронные ресурсы, посвященные словообразованию, можно разделить на две категории: источники и инструменты (Kyjбnek 2018: 1). Источники обычно составляются вручную, оцифровываются из бумажных материалов, или компилируются из электронных ресурсов меньшего масштаба. Как примеры источников можно назвать корпуса и базы данных. Инструменты обычно принимают в себя слово и совершают с ним некоторую манипуляцию, например, делят его на морфемы или подбирают его дериваты. Инструменты могут работать за счет большого набора правил или обучаться по прецедентам (Namer 2013: 94). Многие источники могут быть созданы исключительно посредством применения инструментов, потому что доступная информация о словообразовании многих языков неоднородна или недостаточна. В то же время многие инструменты могут калиброваться только на обширных базах данных или работают за счет правил, зависящих от доступа к информации о словообразовании.

Разработка инструмента может занять десятилетия, например, работа над морфемизатором французского языка DeмriF началась в 1999 году, а последняя версия проекта вышла в 2013 (Namer 2013: 95). DeмriF разрабатывался в рамках проекта MorTAL (Namer 2003: 32). MorTAL был спонсирован министерством научных исследований Франции с целью подготовить условия, необходимые для создания точных инструментов обработки французского языка. Поскольку во французском языке достаточно много исключений, его обработка требует больших баз данных и четких правил (Hathout, Namer 2002: 178). Чтобы разбивать слова на морфемы, DeмriF использует базу данных с информацией обо всех французских аффиксах. Для каждого аффикса хранятся два параметра: части речи, которые могут присоединять его к себе, и части речи, к которым принадлежат дериваты, образованные присоединением этого аффикса. Помимо частей речи DeмriF хранит примерные семантические значения исходных и получившихся слов. Например, суффикс -able сочетается с глаголами и образует из глаголов прилагательные, а префиксы a-, й- и суффиксы -is(er), -ifi(er) присоединяются к прилагательным и образуют глаголы со значением каузатива.

Таблица 1

DeмriF, приобретение семантических черт [Namer 2003: 34]

аффикс

исходное слово

дериват

a-, й-, -is(er), -ifi(er)

A = (xxx, достижимое, xxx, предикатив)

(tendre `нежный', court `короткий')

V = (каузатив, переходный, [причина, тема])

(attendrir `задобрить', йcourter `сократить')

-able

V = (xxx, переходный, [агенс, тема])

(laver `мыть')

V = (xxx, непереходный, [агенс, место])

(skier `кататься на лыжах')

A = (xxx, ингерентное, экзогенное, предикатив)

(lavable `моющийся, skiable `лыжный)

DeмriF работает рекурсивно и последовательно, разбирая слово на морфемы по одной, от последнего присоединенного аффикса, до не анализируемого немотивированного слова, см. пример (1), для слова dйhanchement `колебание'.

(1)dйhanchement/NOM ==> [ [ dй1 [hanche NOM ] VERBE] ment NOM] (dйhanchement/NOM, dйhancher/VERBE, hanche/NOM) [https://www.cnrtl.fr/outils/DeriF/derif.php]

Система позволяет учитывать сразу несколько возможных версий разбора и при необходимости предлагает несколько финальных версий, которые могут отличаться друг от друга как наборами морфем, так и последовательностью их присоединения, см. пример (2), для слова desservir `вредить', `обслуживать'.

(2а)desservir/VERBE==> [ dй1 [ [serf ADJ] VERBE ] VERBE] (desservir/VERBE, servir/VERBE, serf/ADJ) "(Enlever ce qui a pour effet de -- Annuler l'йtat liй au procиs) de servir" [https://www.cnrtl.fr/outils/DeriF/derif.php]

(2б)desservir/VERBE==> [ dй2 [ [serf ADJ] VERBE ] VERBE] (desservir/VERBE, servir/VERBE, serf/ADJ) "Cesser de servir; servir fortement, intensйment, jusqu'au bout, au loin" [https://www.cnrtl.fr/outils/DeriF/derif.php]

DeмriF может работать с незнакомыми ему, или даже совсем не существующими, словами что позволяет системе медленнее стареть и быть устойчивой к появлению неологизмов, см. пример (3), uberisation `использование приложений и электронных сайтов для облегчения взаимодействия клиентов с поставщиками услуг', происходит от названия компании Uber.

(3)uberisation/NOM==> [ [ [ ubere ADJ**] iser VERBE] ion NOM] (uberisation/NOM, uberiser/VERBE, ubere/ADJ**) " (Action -- rйsultat de l'action) de uberiser" [https://www.cnrtl.fr/outils/DeriF/derif.php]

Другой распространённый тип инструмента, работающего со словообразованием, подбирает к словам дериваты. Инструмент под названием Derivancze для заданного слова находит лексему, от которой оно было образовано, и его дериваты. Поиск лексем ведется в корпусах чешского языка CzTenTen12 и SYN2000. Дериваты этого слова могут принадлежать к одной из 16 различных категорий: диминутивы; феминитивы; наречия; женские фамилии, образованные от мужских; семейные фамилии, образованные от мужских; женские и мужские фамилии, образованные от географических объектов; катойконимы, образованные от названий населённых пунктов; притяжательные прилагательные; относительные прилагательные; имена существительные со значением отвлеченного признака или состояния; активные причастия прошедшего времени; пассивные причастия прошедшего времени; активные причастия настоящего времени; отглагольные прилагательные со значением предназначения; отглагольные существительные со значением лица, занимающегося той или иной деятельностью (Pala, S?merk 2015: 520). Derivancze сначала составляет предполагаемые дериваты из поддерживаемых системой категорий, а после проверяет в корпусе, какие из них действительно существуют. Для каждого слова подбираются только дериваты, которые могут быть образованы от этой части речи, см. примеры (4-6).

(4)kropit `кропить': kropenн `кропление', kropen/kropenэ `кропивший/окропленый', kropнcн `кропящий', kropнcн `кропящий' [Pala, S?merk 2015: 520]

(5)Novбk `Новак': kropenн `кропление', Novбkova `Новакова', Novбkovi `Новаковы' [Pala, S?merk 2015: 520]

(6)dobrэ `добрый': dobшe `домбро' [Pala, S?merk 2015: 520]

Если инструмент хорошо обрабатывает данные одного языка, можно попробовать перенести схему его работы на другие близкие ему языки. Морфологический анализатор GERTWOL проводит автоматическое морфемное членение немецких слов, определяет часть речи, к которой они принадлежат и лемматизирует их. GERTWOL основан на двухуровневой модели, которая работает за счет совокупности правил и лексикона. Правила отвечают за обработку морфонологии языка, а лексикон -- за морфемы (Koskeniemmi, Haapalainen 1996: 121). GERTWOL обучался на 85000 лексемах, большинство которых бралось из словаря The Collins German Dictionary (CGD). CGD содержит информацию о родах слов, ударениях, типах склонений, возможности появления умлаутов в основе и обо всех нерегулярных глаголах. Правила устроены как запреты на определенные виды морфемных сегментаций слов, потому что GERTWOL работает в фрейворке ограничений (constraint-based framework). Идея двухуровневой модели была представлена в 1983 году Коскенниеми (Karlsson 1992: 1). Она применялась не только для GERTWOL, но и для 30 прочих языков. Самыми продуктивными получились анализаторы FINTWOL для финского языка, SWETWOL для шведского языка, ENGTWOL для английского языка, RUSTWOL для русского языка; а также анализаторы суахили, эстонского, датского, баскского, французского, арабского и лапского (Koskeniemmi, Haapalainen 1996: 134). Как и DeмriF, GERTWOL определяет примерные значения слов по сочетаемости аффиксов, однако, в отличии от DeмriF, GERTWOL может сам определить часть речи, к которой принадлежит исходное слово, а также его грамматические характеристики, см. примеры (7-8).

(7)"<deutscher>" `немецкий'

"deutsch" A KOMP

"deutsch" A POS SG NOM MASK

"deutsch" A POS SG DAT FEM

"deutsch" A POS SG GEN FEM

"deutsch" A POS PL GEN [http://www2.lingsoft.fi/doc/gercg/NODALIDA-poster.html]

(8)"<zur>" `в'

"zu-die" PRДP ART DEF SG DAT FEM [http://www2.lingsoft.fi/doc/gercg/NODALIDA-poster.html]

С помощью инструментов, эффективно работающих с разными языками, можно создать источник с гармонизированными данными разных языков. WiktiWF -- это проект по созданию корпуса дериваций английского, французского, чешского, польского, и немецкого языков (Kyjaмnek 2018: 23). WiktiWF использует информацию из Wiktionary https://www.wiktionary.org, онлайн словаря, в котором пользователи могут вручную заполнить морфемное членение слов их ближайшие дериваты. Потенциальная вовлеченность в Wiktionary неограниченного количества пользователей, которые являются носителями размечаемых языков, гарантирует, что большинство дериватов будет указано правильно. Однако обилие разметчиков порождает неоднородность итогового продукта. То есть, для некоторых слов в Wiktionary указаны только прямые дериваты, а для некоторых - деривационная семья почти целиком. Задача WiktiWF -- для каждой лексемы собрать список всех её прямых дериватов и её деривационную семью.

Некоторые источники собираются без применения инструментов. Одна из новых морфемных баз данных русского языка, Unimorph http://courses.washington.edu/unimorph, была составлена вручную (Kyjaмnek 2018: 18). Unimorph собирает лексемы, принадлежащие одной словообразовательной семье, и проставляет между ними деривационные отношения. Данные были взяты из грамматического словаря русского языка (словаря Зализняка). В Unimorph входят исключительно существительные, прилагательные, глаголы и наречия. На данный момент в базе чуть меньше 100000 слов. В открытом доступе Unimorph нет информации о словообразовании, хотя её можно попробовать восстановить по доступному морфемному членению слов, их корням и последней присоединённой морфеме.

Таблица 2

Unimorph, словообразовательная семья лексем с корнем лакон [http://courses.washington.edu/unimorph/userInterface/userSearch.php]

Root

Head

DM

Cyr

Gloss

lakon

lakon-iи-(e)n-

ost`

лакони`чность

laconicity

lakon

lakon-

izm

лакони`зм

brevity

lakon

lakon-iи-

(e)n

лакони`чный

laconic, brief

lakon

lakon-iи-

(e*)sk

лакони`ческий

laconical

2.1 Universal Derivations: гармонизация

В то время как разметка Unimorph делалась вручную, Universal Derivations (UDer) составлялась автоматически или полуавтоматически и собрала данные по 1997179 лексемам из 11 языков. UDer -- коллекция словообразовательных баз данных французского, чешского, испанского, персидского, немецкого, английского, эстонского, финского, португальского, польского и латыни (Kyjбnek et al. 2019: 106). Самая маленькая база данных в UDer -- эстонского языка, EstWordNet 2.1. В EstWordNet меньше тысячи слов и всего 500 семей. Самая большая база данных -- чешского языка, DeriNet 2.0. В DeriNet больше миллиона слов и около двухсот двадцати тысяч семей. Самый маленький источник словообразовательных данных, использованный для создания базы данных португальского языка Nomlex-PT, содержит около 7000 слов. В UDer представлено всего 4 части речи (во всех языках, кроме латыни): существительное, прилагательное, глагол, наречие. В большинстве языков в базах данных существительные превалировали над остальными частями речи, так в DeriNet существительные составляют 44% лексем, прилагательные -- 34.8%, наречия -- 15.7%, а глаголы -- всего 5.5%. Самая длинная словообразовательная цепочка была найдена в DeriNet, в ней 11 слов, то есть, максимальная глубина дерева дериваций в UDer равна 10. Средняя глубина деривационных деревьев в DeriNet -- 0.8 связей. Самая большая средняя глубина у французской базы DeriNet.FA, финской FinnWordNet 2.0 и латинской Word Formation Latin: 1.5 связей.

Таблица 3

Образец DeriNet, словообразовательная семья лексем с корнем lakon [Vidra et al. (2019): приложения]

153907.0

lakonickэ#AA???----??---?

lakonickэ

A

--

--

--

--

--

{"techlemma": "lakonickэ"}

153907.1

lakonickost#NNF??-----?---?

lakonickost

N

Gender=Fem

--

153907.0

Type=Derivation

--

{"techlemma": "lakonickost_^(*3э)"}

153907.2

lakonicky#Dg-------??---?

lakonicky

D

--

--

153907.0

Type=Derivation

--

{"techlemma": "lakonicky_^(*1э)"}

153907.3

lakoniиnost#NNF??-----A---?

lakoniиnost

N

Gender=Fem

--

153907.0

Type=Derivation

--

{"techlemma": "lakoniиnost"}

Базы данных оформляются в виде файлов с таблицами в формате tsv. В таблице два пустых столбца: шестой и девятый. Пустые столбцы делят таблицу на смысловые блоки: первые пять колонок описывают лексему, седьмая и восьмая задают отношения между лексемой и ее ближайшим предком, десятая строчка отведена для дополнительной информации.

Первый столбец отведён под номер слова. Номер создаётся в два этапа. Левая половина номера считается по месту лексемы в упорядоченном по алфавиту списке немотивированных слов (словообразовательных баз). Правая половина -- это номер строчки, которую занимает слово в словообразовательной семье. То есть, если у лексемы есть потомки только первого уровня, как у lakonickэ `лаконичный', правая половина индекса потомка будет номером, под которым он идет в отсортированном по алфавиту массиве потомков. Если глубина дерева больше одного, то правые половины номеров всех дериватов считаются сразу после их прямых предков. То есть, прямые дериваты словообразовательной базы, начинающиеся с последних букв алфавита, получат номер позже, чем лексемы, образованные от прямых дериватов, стоящих вначале алфавита. Левая и правая половины номеров соединяются через точку. Например, hematologickэ `гематологический' имеет номер 144407.5, то есть, идет в списке пятым, несмотря на то что у hematologie `гематология' всего два прямых деривата.

Второй столбец содержит комбинацию слова и его теговой маски - уникальный индекс слова. Теговая маска обычно представляет из себя лексему с её частью речи, записанной через решетку (hashtag). Для существительных теговая маска -- `#N', для глагола -- `#V', для прилагательного -- `#A' и наречия, `#D'. Поскольку база данные в DeriNet обширная и хорошо размеченная, теговые маски были немного усложнены, чтобы комбинации слов и масок не повторялись. Новая система, например, учитывает род и одушевлённость существительных (Vidra et al. 2019: 85).

Третий столбец выделен под обычное, орфографически верное написание слова.

В четвёртый столбец выписана часть речи, к которой принадлежит слово. DeriNet использует сокращения `N', `V', `A', `D'; а остальные базы данных UDer оформлены с использованием более полных наименований `NOUN', `VERB', `ADJ', `ADV'.

В пятом -- дополнительная информация о грамматических свойствах слова.

В седьмом столбце записан номер ближайшего предка лексемы.

В восьмом столбце указано, является ли слово дериватом одного ближайшего предка или сразу двух. `Type=Derivation' для слов с одни ближайшим предком, `Type=Com' для слов, образованых посредством словосложения.

В десятый столбец отправляются дополнительные сведения о лексемах. DeriNet использует столбец, чтобы выделить в слове корень и указать, как из слова можно получить его ближайшего предка.

То есть, минимальная база в формате UDer содержит столбцы два и три - уникальный индекс и само слово. Минимальная база в формате UDer, учитывающая словообразовательные отношения, содержит столбцы два, три, семь и восемь.

2.2 Universal Derivations: ресурс

Получив на вход базу данных с размеченными словообразовательными отношениями, сайт UDer визуализирует словообразовательные семьи в виде графов-деревьев. Корни деревьев располагаются в немотивированном слове -- словообразовательной базе. Рёбра графов находятся на месте словообразовательных связей. UDer поддерживает 4 вида визуализации графов: направленные от деривационной базы сверху вниз, направленные от деривационной базы слева направо, круговой граф с деривационной базой в центре и максимально широко распределённый круговой граф. Визуализации интерактивны, то есть, пользователь может передвигать в удобное место на экране любые узлы графов. UDer позволяет регулировать количество семей, отображаемых на одной странице, что делает навигацию по базе простой и удобной. Для всех лексем указывается часть речи, к которой они относятся.

С помощью поискового механизма DeriSearch, в базах данных формата UDer можно осуществлять поиск по словам, длине словообразовательных цепочек и частям речи. На каждый запрос находятся все словообразовательные семьи, в которых есть элементы, соответствующие запросу. Элементы выделяются красным цветом. Запрос `[][][][][][][][][][][]' извлекает из базы DeriNet все деревья, в которых есть словообразовательная цепочка хотя бы из 11 элементов, а именно, семью со словообразовательной базой шadit `советовать'. Запрос `[][][][][][][][][][]' -- все деревья, в которых есть словообразовательная цепочка хотя бы из 10 элементов, а именно, 11 семей, включая семью к которой принадлежит шadit. По запросу `[pos="NOUN"][pos="NOUN"][pos="NOUN"][pos="VERB"][pos="VERB"][pos="ADJ"][pos="ADV"]' находятся 33 семьи, в которых есть наречие, образованное от прилагательного, образованного от глагола, образованного от другого глагола, образованного от существительного, образованного от другого существительного, в свою очередь образованного от третьего существительного. Поиск через длину словообразовательной цепочки и через части речи можно объединить, например, на запрос `[][][][][][pos="NOUN"][pos="NOUN"][pos="NOUN"]' выдаются 3 словообразовательные семьи, в которых есть деривационные цепочки длиной не менее 8 элементов, которые оканчиваются существительным, произошедшим от существительного, произошедшим от существительного. Самый простой вид поиска -- поиск по слову. Например, под запрос `gotika' подходит всего семья с немотивированным словом Gуt ` гот'.

2.3 Universal Derivations: методы

Чешская база данных DeriNet, испанская DeriNet.ES, персидская DeriNet.FA и польская Word-Formation Network были составлены из материалов с заранее размеченными словообразовательными отношениями, в то время как французская Dйmonette, немецкая DErivBase, английская WordNet, эстонская EstWordNet, финская FinnWordNet, португальская NomLex-PT и латинская Word Formation Latin не совсем подходили под формат DeriNet, поскольку в них было много дубликатов слов с разной разметкой (Kyjбnek et al. 2019: 104). Для формата UDer не желательно, чтобы у слова было больше одного родителя. Данных французского, английского, эстонского, португальского языков было достаточно мало, поэтому все неоднозначные ситуации решались вручную. Однако в немецкой DErivBase и финской FinnWordNet было много данных, поэтому их решили расклассифицировать с помощью машинного обучения (Kyjбnek et al. 2019: 104).

Небольшие корпуса немецких и финских данных были аннотированы вручную. Были составлены пары слов [лексема, потенциальный дериват], и для каждой пары было указано, является ли потенциальный дериват непосредственным потомком лексемы. К тому же в массив были добавлены дополнительные сведения о лексемах:

1) Часть речи, к которой принадлежит лексема, и часть речи потенциального деривата, а также их морфологические свойства, например, род для существительных или вид для глаголов.

2) Расстояние Левенштейна между лексемой и потенциальным дериватом (Levenshtein distance). Обобщенное расстояние Левенштейна (Generalized Levenshtein Distance, GLD) часто называют редакционное расстояние (edit distance). Расстояние Левенштейна вычисляется как минимальная стоимость превращения одной строки в другую посредством последовательности взвешенных операций. Взвешенная операция может быть удалением, добавлением или заменой отдельных символов (Yujian, Bo 2007: 1091).

3) Разность между длинами лексемы и потенциального деривата.

4) Символьные n-граммы лексемы и потенциального деривата. Для каждого слова были взяты начальный и конечный символ, биграмма, триграмма, четыре символа, пять символов и шесть символов. Все начальные и конечные n-граммы, которые встречались в корпусе чаще пяти раз, были включены в список «разрешенных n-грамм». После для каждой из разрешенных n-грамм создавались отдельные столбцы бинарных величин (типа bool), сравнивающие разрешенные в базе данных n-граммы с символьными n-граммами слова.

5) Столбец бинарных величин (типа bool), отражающий, совпадают ли первые символы лексемы и потенциального деривата.

6) Столбец бинарных величин (типа bool), отражающий, совпадают ли первые биграммы лексемы и потенциального деривата.

На собранном массиве были обучены классификаторы, в том числе логистическая регрессия (Logistic Regression) и дерево решений (Decision Trees Random Forest). Для базы данных финского языка, FinnWordNet, лучше всего подошла логистическая регрессия, которая справилась с определением истинных дериватов с F-мерой (F-score) 76.13 %. Для базы данных немецкого языка, DErivBase, лучше всего подошло дерево решений, которое определяло истинные дериваты с F-мерой 82.71 %.

Получившиеся данные все равно не были идеальными, было много дериватов, которые определялись как прямые потомки сразу нескольких лексем. Чтобы очистить результирующие данные был применён алгоритм, который называется максимальное остовное дерево (Maximum Spanning Tree algorithm), из пакета NetworkX для языка программирования питон (Python). Алгоритм максимальное остовное дерево извлекает из набора связанных взвешенными рёбрами вершин дерево с максимальным весом (с максимальной суммой весов рёбер), а специализация NetworkX - работа с графами, подсчёт весов и применение к графам распространенных алгоритмов (Hagberg et al. 2008: 1).

Некоторые графы даже после обработки оказались размечены неправильно. В базе данных английского языка WordNet лексема devaluation `девальвация' отмечена как прямой потомок сразу двух слов: devalue `девальвировать' и devaluate `обесценивать'. Из-за неоднозначности трактовки итоговой базы данных возникло две разных словообразовательных семьи: devalue и devaluation попали в одну, а devaluate было выделено в другую. Из-за таких случаев в итоговые гармонизированные данные была добавлена информация о разделённых семьях.

3.1 Постановка задачи

Наша задача -- составить словообразовательную базу русского языка в формате Uder теми же методами, которыми составлялись базы Uder для других языков. Для этого нам нужен размеченный словообразовательный корпус русского языка и информация о частях речи слов. Надо составить базу пар базовых лексем и их дериватов, которые надо проверить на родство. Надо разработать релевантные для языка признаки родства. Обучить на размеченном корпусе классификатор по признакам определять родство между лексемами. Разметить родство между лексемами. Применить алгоритм максимальное остовное дерево. Перевести данные в формат Uder.

Все программы написаны на Python 3.8.2. Мы используем методы логистическая регрессия (Logistic Regression) и деревья решений (Decision Tree Classifier) из библиотеки scikit-learn 0.22.2. Scikit-learn справляется с большинством задач гораздо быстрее своих конкурентов, что важно нам, из-за размера наших данных (Pedregosa et al. 2011: 2828). Алгоритм максимальное остовное дерево (Maximum Spanning Tree algorithm) был взят из пакета NetworkX, как и в оригинальном исследовании.

Ссылка на код программы и приложения: https://github.com/mashashaitz/Russian-Derinet.

3.2 Источники

В качестве размеченного корпуса лексем и дериватов был использован Словообразовательно-морфемный словарь русского языка А.Н. Тихонова https://old.kpfu.ru/infres/slovar1/begall.htm 1985 года. В словаре А.Н. Тихонова приблизительно 60 000 лексем из около 1500 словообразовательных семей. Словарь А.Н. Тихонова содержит словообразовательные семьи русского языка, оформленные в виде вертикальной последовательности немотивированного слова и его дериватов. Дериваты отображаются немного правее лексем, от которых они были образованы, см. пример (9) для словообразовательной семьи с словообразовательной базой `вынуть'.

(9)вынуть

вынуть-ся

выним-а-ться 1

выним-а-ть

вынимать-ся 2

вынима-ниj-е [вынимание]

по-вынимать

выем

выем-к(а)

выемоч-н-ый

выемч-ат-ый 1

выем-щик

выем-н-ый

выем-н-ой

выем-н-ый

выем-чат-ый 2

по-вынуть [https://old.kpfu.ru/infres/slovar1/gn.php?%E2%FB%ED%F3%F2%FC&c463.gn&1#1]

В словаре А.Н. Тихонова не размечены никакие морфологические свойства слов, но размечены ударения и последние присоединённые морфемы, поэтому для большинства лексем части речи определяются с помощью библиотеки pymystem3. Pymystem3 -- обёртка (wrapper) Yandex Mystem 3.1 для языка Python. Mystem -- это созданный компанией Яндекс морфологический анализатор, который умеет определять часть речи, к которой относятся предоставляемые ему лексемы, и прочие ее морфологические свойства. Mystem основан на словаре Зализняка и используется алгоритмами Яндекса при обработке поисковых запросов (Ilya Segalovich 2003: 6). После обработки словаря программой mystem, в ней оказалось 13493 существительных, 7892 прилагательных, 11651 глаголов и 739 наречий.

Для многих слов в словообразовательно-морфемном словаре русского языка используется полуфонетическое написание с символом мягкости j, чтобы было проще разбивать слова на морфемы (вынима-ниj-е). Многие слова могут быть образованы разными способами в зависимости от их значения, поэтому они входят в словарь А. Н. Тихонова несколько раз. В словообразовательно-морфемном словаре достаточно много слов, появившихся или пользовавшихся популярностью во времена СССР, например, `райсовет' или `колхоз', которые часто были созданы с помощью словосложения или сложения аббревиатур слов. К тому же в словаре А.Н. Тихонова достаточно омонимов, от которых образуются разные семьи, например, слова завод (завод машинки) и завод (предприятие). Некоторые омонимы, такие как знать, печь и мочь, различаются частью речи, к которой они принадлежат, но большинство омонимов различаются только значением. Максимальная длина словообразовательных цепочек в словаре А.Н. Тихонова -- 8 слов.

Словарь морфем русского языка Кузнецовой А. И. и Ефремовой Т. Ф. 1986 года содержит около 70000 слов, из которых около 34000 дублируются в словаре А.Н. Тихонова. Оцифрованная версия словаря представляет из себя таблицу морфем из слов. Для каждой морфемы в таблице указывается: слово, в котором присутствует морфема; тип морфемы; её порядковое место среди остальных морфем в слове; её алломорфы; часть речи, к которой принадлежит слово.

Таблица 4

Образец словаря морфем русского языка Кузнецовой А. И. и Ефремовой Т. Ф. для слова `августовский'

Word

Morpheme

Status

Place

Allomorph

Speechpart

августовский

август

корень

1

август

A

августовский

ий

флексия

3

ый|ий|ой

A

августовский

овск

суффикс

2

--

A

Морфемы в словаре морфем делятся на пять типов: префикс, корень, интерфикс, суффикс, флексия.

Части речи делятся на 15 типов:

1) S -- имена существительные, например, `август'.

2) A -- имена прилагательные и причастия, например, `возбуждающий'.

3) V -- глаголы, например, `августовский'.

4) ADV -- наречия, например, `зависеть'.

5) NUM -- количественные и собирательные числительные и количественные наречия, например, `пятеро' или `нисколько'.

6) ANUM -- порядковые числительные, например, `восьмой'.

7) SPRO -- неопределённые местоимения, например, `кое-что'.

8) APRO -- определительные местоимения (местоименные прилагательные), например, `каждый'.

9) ADVPRO -- местоимённые наречия, например, `отовсюду' или `вон'.

10) PART -- предлоги, например, `вроде'.

11) PRAEDIC -- наречия, междометия и деепричастия, например, `любо', `баюшки' или `выпивши'.

12) CONJ -- союзы, например, `разве'.

13) PR -- наречия времени и места, например, `накануне' или `внутрь'. И некоторые предлоги, например, `вместо'.

14) PARENTH -- частицы и вводные слова, например, `авось' или `во-первых'.

15) NONLEX -- слова, при оцифровке которых были допущены орфографические ошибки и поэтому невозможно автоматически определить, к какой части речи они относятся.

Для приведения в формат UDer, мы очистили слова от местоимений, предлогов и частиц. Слова с орфографическими ошибками (NONLEX) были вручную исправлены и расклассифицированы с помощью Pymystem. При этом остались числительные, потому что они присутствовали и в словаре Тихонова. Количественные и собирательные числительные были закодированы как существительные или наречия, а порядковые - как прилагательные. Всего в итоговой базе данных осталось 4 части речи: 28753 имён существительных, 14665 имён прилагательных, 27708 глаголов и 1237 наречий.

При объединении морфем в группы, так чтобы одна группа соответствовала одному слову, было обнаружено, что очень много морфем в словах не хватает. То есть, при сложении морфем в правильном порядке не получалось слово, из которого морфемы были взяты. Чтобы это исправить мы автоматически дополнили морфемы. Однако около тысячи слов все равно остались плохо разобранными. Большая часть этих слов входит в словарь А.Н. Тихонова. К тому же один и тот же корень мог быть записанным по-разному, не только в словах одной словообразовательной семьи, но и в одном и том же слове. Часто проблемы возникали, когда в разных словах `е' и ` ё' записывалось по-разному, или на конце корня появлялся мягкий знак.

Помимо лексем, их частей речи, их корней и морфемного членения, из словаря морфем русского языка были извлечены все корни, у которых есть алломорфы, и был составлен список групп алломорфов.

Таблица 5

Образец очищенного словаря морфем русского языка Кузнецовой А. И. и Ефремовой Т. Ф. для слов с корнем `авиа'

Word

Morphemes

Roots

Parts of Speech

Symbols where morphemes begin

Symbols where roots are

авиамоделист

['авиа', 'модел', 'ист']

['авиа', 'модел']

N

[0, 4, 9]

[[0, 3], [4, 8]]

авиамодельный

['авиа', 'модель', 'н', 'ый']

['авиа', 'модель']

A

[0, 4, 10, 11]

[[0, 3], [4, 9]]

авиамоторный

['авиа', 'мотор', 'н', 'ый']

['авиа', 'мотор']

A

[0, 4, 9, 10]

[[0, 3], [4, 8]]

авиасвязь

['авиа', 'связ', 'ь']

['авиа', 'связ']

N

[0, 4, 8]

[[0, 3], [4, 7]]

авиатранспорт

['авиа', 'транспорт']

['авиа', 'транспорт']

N

[0, 4]

[[0, 3], [4, 12]]

авифауна

['ави', 'фаун', 'а']

['ави', 'фаун']

N

[0, 3, 7]

[[0, 2], [3, 6]]

3.3 Отбор пар лексем и потенциальных дериватов

Первая трудность, с которой мы столкнулись -- это то, что невозможно проверить связь между всеми возможными парами лексем. Если попробовать взять все возможные пары слов, которые есть в обоих словарях, то придется обрабатывать около пяти миллионов пар, на которые приходится примерно 40000 связей. Если попробовать обработать все слова из словаря морфем русского языка, то количество пар возрастет почти до двадцати шести миллиардов. Такая система будет как минимум очень медленно работать. К тому же, сильный перевес негативных примеров может повлечь за собой ряд негативных последствий, таких, как переобучение классификатора или его потеря чувствительности к положительным примерам.

Для нахождения пар использовалось два разных алгоритма. Первый алгоритм составлял пары из 15 ближайших в словаре А. Н. Тихонова слов, расположенных после лексемы и двух слов, расположенных перед лексемой. Всего 25000 пар напрямую словообразовательно связанных слов из словаря А. Н. Тихонова попали в собранный массив данных. Второй алгоритм был готов записать в потенциальные дериваты все слова, которые разделяют с лексемой либо корень, либо алломорфы корня. Он собрал гораздо больше напрямую словообразовательно связанных слов из словаря А. Н. Тихонова, выделив около 34000 пар напрямую связанных слов. Размер получившейся базы данных -- пять миллионов строк. Собрать все 35676 пары происходящих друг от друга слов и не сильно увеличить при этом базу, едва ли получится из-за ошибок в разметке или оцифровке словаря морфем русского языка.

3.4 Параметры классификации

Для каждой пары лексема -- дериват было собрано 20 различных параметров, по которым в последствии классификаторы определяли, есть ли между словами непосредственная связь:

1) N_p: является ли лексема именем существительным.

2) A_p: является ли лексема именем прилагательным.

3) V_p: является ли лексема глаголом.

4) D_p: является ли лексема наречием.

5) N_c: является ли потенциальный дериват именем существительным.

6) A_c: является ли потенциальный дериват именем прилагательным.

7) V_c: является ли потенциальный дериват глаголом.

8) D_c: является ли потенциальный дериват наречием.

9) lev_dist: расстояние Левенштейна между лексемой и потенциальным дериватом.

10) length: Разность между длиной лексемы и длиной деривата.

11) roots_p: доля корней лексемы, сохранившаяся в потенциальном деривате. Считается как количество общих корней, поделенное на количество корней лексемы.

12) roots_c: доля корней потенциального деривата, совпадающих с корнями лексемы. Считается как количество общих корней, поделенное на количество корней потенциального деривата.

13) morphs_p: доля морфем лексемы, сохранившаяся в потенциальном деривате. Считается как количество общих морфем, поделенное на количество морфем в лексеме.

14) morphs_c: доля морфем потенциального деривата, совпадающих с морфемами лексемы. Считается как количество общих морфем, поделенное на количество морфем в потенциальном деривате.

15) onset_p: количество совпадающих символов из начал слов, поделенное на длину лексемы.

16) onset_c: количество совпадающих символов из начал слов, поделенное на длину потенциального деривата.

17) offset_p: количество совпадающих символов из концов слов, поделенное на длину лексемы.

18) offset_c: количество совпадающих символов из концов слов, поделенное на длину потенциального деривата.

19) begins: бинарная величина, совпадает ли лексема с началом потенциальной деривации.

20) ends: бинарная величина, совпадает ли лексема с концом потенциальной деривации.

Таблица 6

Образец таблицы с потенциальными дериватами для лексемы `августовский', столбцы 1-8

lemma

derivate

N_p

A_p

V_p

D_p

N_c

A_c

V_c

D_c

августовский

август

0

1

0

0

1

0

0

0

августовский

микроавтобус

0

1

0

0

1

0

0

0

Таблица 7

Образец таблицы с потенциальными дериватами для лексемы `августовский', столбцы 9-14

lemma

derivate

lev_dist

length

roots_p

roots_c

morphs_p

morphs_c

августовский

август

6

6

1.0

1.0

0.33

1.0

августовский

микроавтобус

12

0

0.0

0.0

0.0

0.0

Таблица 8

Образец таблицы с потенциальными дериватами для лексемы `августовский', столбцы 15-20

lemma

derivate

onset_p

onset_c

offset_p

offset_c

begins

ends

августовский

август

0.5

1.0

0.0

0.0

1

0

августовский

микроавтобус

0.0

0.0

0.0

0.0

0

0

3.5 Классифкаторы

Автоматический поиск связей между парами слов осуществлялся деревьями решений (Decision Trees) и логистической регрессией (Logistic Regression).

Для логистической регрессии были заданы параметры: размер тестовой выборки (test_size) -- 0.25, случайное состояние (random_state) -- 123, максимальное количество итераций (max_iter) -- 1000, алгоритм оптимизации (solver) -- стандартный L-BFGS (Алгоритм Бройдена -- Флетчера -- Гольдфарба -- Шанно с ограниченным использованием памяти). Для L-BFGS лучше выделять гораздо меньше параметров, и это может казаться на качестве работы логистической регрессии (Liu, Nocedal 1989: 23).

Для деревьев решений были заданы параметры: размер тестовой выборки (test_size) -- 0.25, случайное состояние (random_state) -- 123.

Всего было обучено четыре классификатора: логистическая регрессия для слов, идущих подряд (LogReg1), логистическая регрессия для слов с общим корнем (LogReg2), деревья решений для слов, идущих подряд (DecTree1), деревья решений для слов для слов с общим корнем (DecTree2).

После обучения (training) классификаторов, F-мера (f1_score), посчитанная для каждого класса без учёта его размера, составила 0.7506 у LogReg1, 0.6744 у LogReg2, 0.8683 у DecTree1 и 0.8318 у DecTree2. Для всех параметров была посчитана их важность для деревьев решений и коэффициент при них в логистических регрессиях.

Таблица 9

Коэффициенты при параметрах или важность параметров классификаторов

Часть речи

LogReg1

LogReg2

DecTree1

DecTree2

N_p

-0.64734562889881

-0.3944015464745501

0.027406295033060402

0.027406295033060402

A_p

0.3332145466001381

0.46078447421055935

0.007393191793432976

0.01746693849883254

V_p

-1.9858526744149931

-1.5031534142359502

0.008381076243878663

0.01395674062771414

D_p

1.3125434326122591

1.6270818171828303

0.04209557373533476

0.0374089875464652

N_c

-0.16403630572193362

0.08000010413166334

0.015576465743005512

0.018183994732135292

A_c

-0.41025134263741003

0.021283430791707723

0.016071811119497834

0.015497397576684509

V_c

0.8813013587581449

1.095285206122404

0.0028191178543583656

0.0032507944332004733

D_c

-1.2944540345001885

-1.006257410361977

0.012595563005970773

0.0176612073004334

lev_dist

-0.8555797405929472

-0.910747663872049

0.10711523958144711

0.11658001999895526

length

-0.6611861959571429

-0.7537170467861881

0.10780108972454334

0.07741638712974011

roots_p

0.0739265943636441

1.0061171936189224

0.013548861353212033

0.008443816150537796

roots_c

-0.7677615188554471

-1.661692254032784

0.012816010236447597

0.025279406725516835

morphs_p

1.7216282114398338

2.6265624926811673

0.24475005810051442

0.24098549983051132

morphs_c

-1.5697349800149398

-1.7347692006454456

0.06746519506421521

0.08542263417183896

onset_p

1.6231986572352881

1.6710412951701799

0.1855205134466297

0.15744701995226965

onset_c

2.7452214751455366

3.730568740786167

0.049547045793265035

0.06168889720577041

offset_p

0.4562363264555413

-2.561437982518314

0.02865511549193089

0.041086438957952776

offset_c

-1.984864612470902

0.26677532866988096

0.03051661157115196

0.032101316264872996

begins

-0.3334690495427038

-0.6164313487373448

0.0013732180181827715

0.0009677281838035888

ends

3.748074541898427

4.804810680630772

0.0185519470899206

0.0019224068303383642

Для классификаторов типа логистическая регрессия, самым значимым параметром оказалось, заканчивается ли одно слово на другое (ends). Второй по значимости -- количество символов, которые совпадали в началах лексемы и ее потенциального деривата, поделенное на количество символов в потенциальном деривате (onset_c). Количество символов, совпадающих в началах лексы и ее потенциального деривата, поделенное на количество символов в самой лексеме тоже играло большую роль (onset_p).

Самым важным из параметров для классификаторов типа деревьев решений оказалось количество морфем, которые совпадали у лексемы и ее потенциального деривата, поделенное на количество морфем в лексеме (morphs_p). Второе по важности -- расстояние Левенштейна (lev_dist) между лексемой и дериватом, то есть, минимальное количество преобразований, необходимое чтобы переделать одно слово в другое. Самые малозначимые параметры -- является ли лексема началом или окончанием деривата (begins, ends).

Для классификации данных из словаря морфем русского языка Кузнецовой А. И. и Ефремовой Т. Ф. использовался классификатор DecTree2 и разбиение на пары по общему корню. В сумме в базе получилось 61389 пар лексем и потенциальных дериватов.

3.6 Maximum Spanning Tree algorithm

К полученным данным был применён алгоритм максимальное остовное дерево (Maximum Spanning Tree algorithm) из пакета NetworkX. Для каждой пары, которая была помечена как связанная словообразовательными отношениями, был посчитана вероятность родства. Был составлен взвешенный граф вершин - лексем, рёбер - связей, весов рёбер - вероятностей родства. К графу была применена функция maximum_spanning_tree. В новую базу данных были записаны посчитанные деревья с максимальной суммой весов. Всего 51820 пар лексем и потенциальных дериватов.

3.7 Максимизация количества пар

После применения деревьев решений и логистической регрессии к данным, которых нет в словаре А. Н. Тихонова, осталось около 5500 слов, которым не нашлось пары. Были собраны все случаи из словообразовательно-морфемного словаря русского языка, где классификатор показал, что слова не морфологически не связаны, и на них были обучены различать, где произошла ошибка, ещё два классификатора. После через классификаторы пропустили массив всех возможных пар лексем со словами, которые оказались ни с чем не связаны. Однако, очевидно, собранные параметры не позволяют распределить оставшиеся слова, поэтому повторная классификация дала очень мало. Массив пар лексем со словами, которые оказались ни с чем не связаны, проверили всеми четырьмя классификаторами: логистической регрессией для последовательно идущих лексем, логистической регрессией для лексем с совпадающими корнями, деревьями решений для последовательно идущих лексем, деревьями решений для лексем с совпадающими корнями. После учитывался любой из классификаторов, если он находил пару лексема -- дериват со словом-одиночкой, эта пара считалась правильной и добавлялась в собранный массив лексем -- дериватов. Таким образом удалось расклассифицировать ещё около 3000 слов.

3.8 Очистка данных

Полученный массив пар базовых лексем -- дериватов содержал слишком много шума. Для большинства слов было найдено по несколько «родителей». Чтобы убрать совсем плохие версии, был применён алгоритм, состоящий из четырёх ступеней:

1) Если среди лексем, от которых потенциально произошел некий дериват, есть лексемы, у которых один из корней совпадает с корнем деривата, то из списка потенциальных «родителей» убираются все лексемы без совпадающих корней.

2) Если среди лексем, от которых потенциально произошел некий дериват, есть лексемы, которые напрямую связаны словообразовательными отношениями, то из списка потенциальных «родителей» убираются наименее деривированные лексемы. Это делается, чтобы избегать шума, который дают «родители родителей».

3) Если среди лексем, от которых потенциально произошел некий дериват, есть лексемы, на которые этот дериват начинается, то из списка потенциальных «родителей» убираются все прочие лексемы. Это достаточно неоднозначный пункт, но под него попало достаточно мало лексем, чтобы предположить, что, если даже он иногда убирает лишнее, он не должен сильно портить данные.

4) Если среди лексем, от которых потенциально произошел некий дериват, есть лексемы, на которые этот дериват заканчивается, то из списка потенциальных «родителей» убираются все прочие лексемы. Это тоже неоднозначный пункт, но под него так же попало достаточно мало лексем, чтобы предположить, что он не должен сильно портить данные.

Было составлено ещё несколько фильтров для оставшихся данных:

1) Если лексема и потенциальный дериват оканчиваются на `ть' или `ться', начинаются на `пере', `под', `с', `о', `про', `из, `за', `на', 'при', 'у', `рас', `раз', `в', `до' или `по', но не имеют общих корней, то лексема убирается из списка потенциальных «родителей» этого деривата.

2) Если лексема -- это `полу', `не' или `само' плюс потенциальный дериват, или лексема --потенциальный дериват плюс `ся', то лексема убирается из списка потенциальных «родителей» это...


Подобные документы

  • Объекты изучения в словообразовании. Сущность словообразовательной мотивации. Понятие и пример словообразовательного гнезда. Отличительные черты и особенности словообразования существительных, прилагательных и глаголов в болгарском и русском языке.

    презентация [68,5 K], добавлен 18.01.2011

  • Особенности заимствованных слов в русском языке. Обобщение фонетических, словообразовательных и семантико-стилистических примет старославянских слов. Характеристика старославянизмов. Изучение родов (видов) красноречия. Подготовка ораторского выступления.

    контрольная работа [27,3 K], добавлен 14.12.2010

  • История русского словарного дела. Функции словарей и параметры их классификации. Значения слов, их толкования и примеры употребления как первичные функции словаря. Разделение словарных изданий на лингвистические (филологические) словари и энциклопедии.

    реферат [31,8 K], добавлен 06.04.2011

  • Национально-специфичное и заимствованное в языке. Окказиональные способы словообразования. Рост агглютинативных черт в процессе образования слов. Иноязычные аффиксы в русском языке и их продуктивность. Новые заимствования и их производные.

    курсовая работа [46,8 K], добавлен 24.01.2007

  • Смысловой объем концепта "труд" в русском и французском языках, выявление специфики его языкового выражения с использованием данных энциклопедических и лингвистических словарей. Понятийно-дефиниционные и коннотативные, ассоциативные характеристики.

    реферат [22,3 K], добавлен 06.09.2009

  • Понятие и место словарей в духовной жизни общества, особенности выполняемых ими функций. Количество и многообразие слов в русском языке. История происхождения словаря в Европе и России, отличительные черты основных этапов. Специфика видов словарей.

    реферат [35,5 K], добавлен 18.04.2012

  • Понятие о типах образования слов. Аффиксация как способ образования слов. Особенности современного словообразования в русском языке. Словообразовательные аффиксы в современном русском языке. Префиксально-суффиксальный (смешанный) способ словообразования.

    курсовая работа [26,8 K], добавлен 27.06.2011

  • Сопоставление лексем с партитивной семантикой, обозначающих отношения "части и целого" в русском и польском языках. Выявление фонетических и грамматических особенностей партитив. Грамматические особенности и распределение лексем по семантическим группам.

    курсовая работа [47,7 K], добавлен 10.11.2013

  • Иноязычные заимствования в русском языке, причины их возникновения. Освоение иноязычных слов русским языком, их изменения различного характера. Стилистические особенности средств массовой информации, анализ употребления в них англоязычных заимствований.

    дипломная работа [62,6 K], добавлен 23.07.2009

  • Природа неологизмов, пути их появления в современном русском языке. Экспериментальное исследование появления неологизмов иностранного происхождения в русском языке (за последнее десятилетие). Сферы употребления и источники иностранных неологизмов.

    практическая работа [104,8 K], добавлен 15.10.2010

  • Характеристика понятия возвратности и переходности в русском языке. Рассмотрение употреблений винительного падежа при глаголе бояться по данным различных словарей и справочников. Выявление отклонений от нормы, которые допускаются носителями языка.

    курсовая работа [100,8 K], добавлен 25.02.2015

  • Определение основных лингвистических понятий сферы дипломатии. Пути и основные способы формирования наименований письменных дипломатических актов, регулируемых международным правом, и особенности функционирования данных наименований в русском языке.

    курсовая работа [45,8 K], добавлен 31.03.2013

  • Классификация заимствований и их исторические сферы употребления. Функциональные особенности англицизмов в русском языке. Модные слова: содержание и лексический состав. Языковые факторы, определяющие развитие словарного состава языка путем заимствования.

    курсовая работа [101,8 K], добавлен 05.12.2016

  • Предлог как служебная часть речи, его место в русском языке, классификация и разновидности, определение лексического значения. Общие сведения и специфические признаки предлогов современного немецкого языка, сравнительная характеристика с русским.

    курсовая работа [50,9 K], добавлен 07.06.2010

  • История и источники появления русских фамилий, классификация с точки зрения их возникновения и значения. Исследование происхождения и частотности повторения фамилий в современном русском языке на примере территории Наро-фоминского муниципального района.

    реферат [259,4 K], добавлен 21.09.2012

  • Теория лингвистических исследований. Сравнительно-исторический метод как основа для классификации языков. Изучение этимологических гнёзд в современной науке. Исконная и заимствованная лексика. История слов, восходящих к корню "men" в русском языке.

    дипломная работа [81,1 K], добавлен 18.06.2017

  • Изучение правил спряжения в русском языке - изменения глагола по видам, наклонениям (изъявительному, повелительному, условному), временам, числам, лицам и родам. Продуктивные и непродуктивные классы глаголов. История форм прошедшего и будущего времени.

    реферат [18,6 K], добавлен 29.04.2012

  • Рассмотрение понятия словообразования и выделение способов обогащения современного русского языка. Описание роли неологических процессов; исследование причин английских заимствований и их ассимиляции в русском языке. Изучение заимствованной лексики.

    дипломная работа [124,7 K], добавлен 24.02.2015

  • Признаки аналитизма при выражении лексического и грамматического значения слова в русском языке. Рассмотрение роста аналитизма в системе глаголов, имен существительных, имен прилагательных, наречий, числительных, предлогов, и частиц русского языка.

    реферат [28,6 K], добавлен 29.01.2011

  • Происхождение, написание и значение в языке иностранных слов. Причины заимствования слов. Типы иноязычных слов: освоенные слова, интернационализмы, экзотизмы, варваризмы. Способы появления словообразовательных калек. Тематические группы заимствований.

    презентация [13,9 K], добавлен 21.02.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.