Русский DeriNet: от словообразовательных словарей к универсальным деривациям

Структурирование доступной информации о словообразовании в русском языке и создание на основе этой информации базы данных в формате UDer. Отбор пар лексем и потенциальных дериватов. Параметры классификации, максимизация количества пар и очистка данных.

Рубрика Иностранные языки и языкознание
Вид дипломная работа
Язык русский
Дата добавления 17.07.2020
Размер файла 137,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Некоторые лексема убирается были удалены из списков потенциальных «родителей» вручную.

Во имя избегания циклов, если лексема была размечена как потенциальный дериват своего потенциального деривата, то решение принималось по их длине. Ооставалась только связь между длинным «родителем» и коротким дериватом. Это немного понижает точность, зато больше подходит под формат UDer.

В сумме было убрано почти 6000 пар.

3.9 Результаты и гармонизация

В итоговой базе данных 76994 слов и 88180 связей. Максимальная глубина семьи в итоговой базе данных -- 10 дериватов. Средняя глубина семьи -- 1.38 дериватов. Максимальное количество членов в одной семье -- 623. Среднее количество членов в семье -- 43.54.

Таблица 8

Образец базы русского языка в формате UDer, словообразовательная семья лексем с корнем алтын

41.0

алтын#N

алтын

NOUN

--

--

--

morphs: алтын; roots: алтын

41.1

алтынник#N

алтынник

NOUN

--

--

41.0

Type=Derivation

--

morphs: алтын, н, ик; roots: алтын

41.2

алтынница#N

алтынница

NOUN

--

--

41.1

Type=Derivation

--

morphs: алтын, н, иц, а; roots: алтын

41.3

алтынничать#V

алтынничать

VERB

--

--

41.1

Type=Derivation

--

morphs: алтын, н, ич, а, ть; roots: алтын

41.4

алтынный#A

алтынный

ADJ

--

--

41.0

Type=Derivation

--

morphs: алтын, н, ый; roots: алтын

Формат UDer несколько отличается от формата DeriNet. Русская база данных заполнялась в формате UDer, поэтому значения нескольких столбцов не похожи на таблицу, представленную ранее. В первой и седьмой колонках, как и в DeriNet, располагаются номер деривата и номер лексемы, от которой он произошёл. В восьмой колонке указан тип словообразовательного процесса, посредством которого возникло слово: `Type=Com' для словосложения и `Type=Derivation' для всего остального. Третья колонка отведена под словарную запись лексемы. Во втором столбце располагается слово и его теговая маска, которая оформлена гораздо проще, чем теговая маска в DeriNet: `#' и заглавная буква, обозначающая часть речи (`N' для существительных, `A' для прилагательных, `V' для глаголов, `D' для наречий). В четвертом столбце указана часть речи, к которой принадлежит лексема: `NOUN' для существительных, `ADJ' для прилагательных, `VERB' для глаголов, `ADV' для наречий. Поскольку, кроме частей речи, никаких морфологических признаков в ни в словаре А.Н. Тихонова, ни в словаре А. И. Кузнецовой и Т. Ф. Ефремовой не было, пятый столбец остался незаполненным. Последний, десятый столбец в UDer отведен под любую полезную дополнительную информацию. В DeriNet он содержит выделение корней в словах и схемы посимвольного приведения дериватов к лексемам. Для базы данных русского языка в десятый столбец была помещена информация о морфологическом разборе лексем из словаря морфем русского языка. К тому же для двухкоренных слов в десятый столбец выносится информация об обеих лексемах, от которых произошёл дериват.

Поскольку словообразовательно-морфемный словарь русского языка А.Н. Тихонова и словарь морфем русского языка Кузнецовой А. И. и Ефремовой Т. Ф. -- разные источники, не обязательно, что классификатор, обученный на одном словаре, будет так же хорошо работать на другом. В словаре А.Н. Тихонова очень много сложных слов с двумя родителями и двумя корнями. Чтобы проверить, как на самом деле классификатор справился с данными словаря морфем русского языка, мы случайным образом выбрали сто лексем, которые были размечены, как не имеющие «родителя», и сто лексем, которые были размечены, как имеющие. Полученные массивы были проверены на правильность вручную. Из 100 немотивированных лексем 70 были выделены правильно, при условии, что, если лексема в реальности не является немотивированным словом, однако в базу данных не вошли её родители, она должна быть размечена как базовая лексема. Из 100 наборов родителей, 14 были размечены не полностью правильно, то есть содержали в себе родителя и ещё какой-то мусор. 12 были размечены абсолютно неправильно и 74 -- абсолютно правильно. Точность 74% и полнота 70% -- неплохой результат.

3.10 Вектор дальнейшей работы

Нам видится несколько возможных вариантов дальнейшего развития проекта Russian DeriNet. Можно попытаться улучшить как объём данных, так и качество их обработки.

База морфологических данных русского языка, Unimorph, основанная на словаре Зализняка 1977 года, могла бы дополнить данные из словарей, использованных нами, поскольку работа над составлением базы словообразовательных связей Unimorph пока не завершилась. Как и в словаре А. И. Кузнецовой и Т. Ф. Ефремовой, в Unimorph для всех слов есть разметка на корни и морфемы, поэтому он потребует минимум дополнительной обработки и может быть размечен теми же функциями и методами, что и уже созданная база данных.

Таблица 9

Unimorph, вхождение слова конец [http://courses.washington.edu/unimorph/userInterface/userSearch.php]

Root

Head

DM

Cyr

Gloss

kon 2

kon-(e)c-

0 1

коне`ц

end, finish

Таблица 10

словарь морфем русского языка Кузнецовой А. И. и Ефремовой Т. Ф., вхождение слова конец

Word

Morphs

Roots

Part of Speech

Place of morphs

Places of roots

конец

['кон', 'ец']

['кон']

S

[0, 3]

[[0, 2]]

Проект WiktiWF, собирающий информацию из онлайн словаря Wiktionary, был заинтересован в том, чтобы собрать и обработать данные русского языка. В Wiktionary можно получить морфологическую, морфемную и в какой-то степени словообразовательную разметку слов. Большинство статей словаря включают в себя раздел родственных слов. Благодаря устройству базы Wiktionary, у нас отпадает острая нужда в определении корней слов и разметке возможных пар потенциальных базовых лексем и потенциальных дериватов, потому что все возможные пары уже должны так или иначе находиться в базе. Используя информацию о словообразовательных отношениях в русском языке из словаря Тихонова, можно составить обучающий корпус для классификатора. Обычно слова в Wiktionary разбиты на морфемы и в них выделены корни, поэтому словообразовательную базу по материалам Wiktionary можно подготовить уже написанными функциями и использовать те же параметры и инструменты, что для словаря А. И. Кузнецовой и Т. Ф. Ефремовой. Потенциально это могло бы расширить базу данных русского языка до миллиона словоформ.

Чтобы улучшить качество классификации, можно применить модель нахождения словообразовательных связей с помощью добывания образцов (mining patterns), разработанную в январе этого года. Модель принимает на вход набор лексем и данные для обучения (training). В лексемах выделяются распространённые последовательности символов. Последовательности объединяются в группы по корреляции с морфологическими свойствами слов, в которых они присутствуют. После ранжирования кандидатов по показателям классификатора Gradient Boosting Decision Trees (GBDT), находится набор самых правдоподобных базовых лексем и дериватов. Убираются циклы (Lango et al. 2020: 4). Для Польского языка была получена точность в 82.3 % без изменения порога, заданного классификатором. После того, как был задан порог, уменьшивший количество найденных пар (recall) до 38,2%, точность (precision) возросла до 98.8% (Lango et al. 2020: 4). Схема так же была протестирована на Чешском и показала очень высокую точность результатов (Lango et al. 2020: 5). Модель нахождения словообразовательных связей с помощью добывания образцов можно применять к данным, которые не разбиты на морфемы, что сильно увеличит итоговую базу данных.

Данные словообразовательного словаря современного русского языка, Ульяновой О.А., 2013 могли бы улучшить качество обучения. В словаре представлено более 2000 словообразовательных гнезд наиболее употребительных слов современного русского языка. На точность наших расчетов сильно повлияли особенности словаря Тихонова и для точной работы классификаторов нам необходимо увеличение обучающей (training) выборки.

Заключение

Universal Derivations (UDer) -- база гармонизированных словообразовательных данных 11 индоевропейских языков. Унификация аннотации данных позволяет ученым, занимающимся сравнительным языкознанием, быстрее и удобнее получать информацию о словообразовательных паттернах и стратегиях разных языков. На сайте UDer доступна визуализация словообразовательных семей и удобная система поиска и навигации по базам данных разных языков. К тому же, у такой обширной коллекции единообразных словообразовательных баз есть потенциал быть использованной для ускорения и уточнения автоматической обработки естественного языка.

Словообразовательные семьи в UDer представлены в виде направленных деревьев, с узлами в лексемах и ребрами на месте словообразовательных связей. В самом большом корпусе UDer (чешский DeriNet 2.0) около миллиона лексем. Чтобы собрать некоторые базы данных (немецкую DErivBase и финскую FinnWordNet), к парам базовых лексем и их потенциальных дериватов были применены классификаторы деревья решений (Decision Trees Random Forest) и логистическая регрессия (Logistic Regression), которые определили, есть ли между словами в паре непосредственная деривационная связь (Kyjбnek et al. 2019: 105).

Взяв за основу словообразовательно-морфемный словарь русского языка А.Н. Тихонова 1985 года, мы создали обучающий (training) массив пар потенциальной словообразовательных баз и потенциальных дериватов, содержащий 20 параметров. Мы обучили на собранном массиве два типа классификатора: деревья решений (Decision Trees Random Forest) и логистическая регрессия (Logistic Regression). Для каждого классификатора мы вычислили F-меру (f1_score).

F-мера логистической регрессии, посчитанная для каждого класса данных без учёта его размера, составила 0.7506 на парах, составленных из словарных слов, идущих в алфавитном порядке, и 0.6744 на парах, составленных из слов с одинаковыми корнями. F-мера деревьев решений, посчитанная для каждого класса без учёта его размера, составила 0.8683 на парах, составленных из словарных слов, идущих в алфавитном порядке, и 0.8318 на парах, составленных из слов с одинаковыми корнями.

Расклассифицировав с помощью метода деревьев решений лексемы из словаря морфем русского языка Кузнецовой А. И. и Ефремовой Т. Ф. 1986 года, мы получили базу словообразовательных данных русского языка. Мы гармонизировали данные и привели их к формату UDer.

Две случайные выборки из ста слов показали, что на данных словаря морфем русского языка деревья решений справляются несколько хуже, чем на обучабющей выборке. Около 26% слов в полученной базе данных расклассифицированы неверно.

Максимальная глубина семьи в полученной базе данных -- 10 дериватов. Средняя глубина семьи -- 1.38 дериватов. Максимальное количество членов в одной семье -- 623. Среднее количество членов в семье -- 43.54. Размер базы данных -- 76994 слов.

Ссылка на код программы и приложения: https://github.com/mashashaitz/Russian-Derinet.

Литература

1. Chu, Liu 1965 -- Y.J. Chu and T.H. Liu. On the shortest arborescence of a directed graph. Science Sinica, 14:1396- 1400, 1965.

2. Filko et al. 2019 -- M. Filko, K. Љojat, V. Љtefanec. Redesign of the Croatian derivational lexicon, 2019.

3. Hagberg et al. 2008-- A. Hagberg, P. Swart, D. Chult. Exploring Network Structure, Dynamics, and Function Using NetworkX. Proceedings of the 7th Python in Science Conference, 2008.

4. Karlsson 1992 -- F. Karlsson. SWETWOL: A Comprehensive Morphological Analyser for Swedish. Nordic Journal of Linguistics, 1992, 15(1), 1-45. doi:10.1017/S033258650000247XА

5. Кузнецова, Ефремова 1986 -- А. И. Кузнецова, Т. Ф. Ефремова. Словарь морфем русского языка: Ок 52 000 words. - Москва, Русский язык 1986, 1135 стр., 1986

6. Kхrtvйlyessy 2019 -- L. Kхrtvйlyessy Cross-linguistic research into derivational networks //Proceedings of the Second International Workshop on Resources and Tools for Derivational Morphology. - 2019. - С. 1-4.

7. Koskeniemmi, Haapalainen 1996-- K. Koskeniemmi, M. Haapalainen: GERTWOL - Lingsoft Oy. In: Hausser, R. (ed.) Linguistische Verifikation: Dokumentation zur Ersten Morpholympics 1994, Niemeyer, Tьbingen. Sprache und Information, 1996, vol. 34, pp. 121-140

8. Kyjaмnek 2018 -- L. Kyjaмnek. Morphological Resources of Derivational Word-Formation Relations. Technical Report TR-2018-61, 2018, Faculty of Mathematics and Physics, Charles University.

9. Kyjaмnek et al. 2019 -- L. Kyjaмnek; Z. Ћabokrtskэ; M. Љevинkovб; J. Vidra. Universal Derivations Kickoff: A Collection of Harmonized Derivational Resources for Eleven Languages. In Proceedings of the 2nd Workshop on Resources and Tools for Derivational Morphology, 2019. Prague: Charles University, pp. 101-110. ISBN: 978-80-88132-08-0.

10. Lango et al. 2020 -- M. Lango, Z. Ћabokrtskэ, M. Љevинkovб, Semi-automatic construction of word-formation networks. Lang Resources & Evaluation (2020). doi: https://doi.org/10.1007/s10579-019-09484-2

11. D. C. Liu, J. Nocedal. "On the Limited Memory Method for Large Scale Optimization". Mathematical Programming B. 45, 1989, (3): 503-528. CiteSeerX 10.1.1.110.6443. doi:10.1007/BF01589116

12. Namer 2003 -- F. Namer. «Automatiser l'analyse morphoseмmantique non affixale: le systeМme DeмriF», 2003.

13. Namer 2013 -- F. Namer. A Rule-Based Morphosemantic Analyzer for French for a Fine-Grained Semantic Annotation of Texts. Communications in Computer and Information Science, 2013. 380. 93-115. 10.1007/978-3-642-40486-3_6.

14. Namer, Hathout 2019 -- F. Namer, N. Hathout. ParaDis and Dйmonette: From Theory to Resources for Derivational Paradigms. In Proceedings of the Second International Workshop on Resources and Tools for Derivational Morphology pages, 2019, 5 - 14, Prague, Czechia. W19-8502.

15. Pala et al. 2015 -- K. Pala, P. Љmerk. Derivancze -- Derivational Analyzer of Czech. In: Krбl P., Matouљek V. (eds) Text, Speech, and Dialogue. TSD 2015. Lecture Notes in Computer Science, vol 9302, 2015. Springer, Cham

16. Pedregosa 2011 -- Pedregosa F. et al. Scikit-learn: Machine learning in Python //Journal of machine learning research. - 2011. - Т. 12. - №. Oct. - С. 2825-2830.

17. Sanacore et al. 2019 -- D.Sanacore, N. Hathout and F. Namer. Semantic descriptions of French derivational relations in a families-and-paradigms framework, 2019.

18. Segalovich 2003 -- I. Segalovich. A Fast Morphological Algorithm with Unknown Word Guessing Induced by a Dictionary for a Web Search Engine, 2003. 273-280.

19. Љevинkovб, Z. Ћabokrtskэ 2014 -- M. Љevинkovб, Z. Ћabokrtskэ: Word-Formation Network for Czech. In: Proceedings of the 9th International Language Resources and Evaluation Conference (LREC 2014). Paris: ELRA, 2014, pp. 1087-1093. ISBN 978-2-9517408-8-4.

20. Shevchenko, Tomaљинkovб 2020 -- V. Shevchenko, S. Tomaљинkovб. "7 Derivational networks in Russian". In 7 Derivational networks in Russian. Berlin, Boston: De Gruyter Mouton, 2020. doi: https://doi.org/10.1515/9783110686630-007

21. Sylak-Glassman 2016 -- J. Sylak-Glassman. The Composition and Use of the Universal Morphological Feature Schema (UniMorph Schema), 2016. Working Draft, v. 2

22. Тихонов 1985 -- А.Н. Тихонов. Словообразовательный словарь русского языка в двух томах: Ок 145000 слов. - М. "Русский язык". - 1 том 854 с., 2 том 885 с., 1985.

23. Vidra et al. 2019 -- J. Vidra, Z. Z?abokrtskyм, L. Kyjaмnek, M. S?evc?iмkovaм, S?. Dohnalovaм. DeriNet 2.0, 2019. LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (UмFAL), Faculty of Mathematics and Physics, Charles University. http://hdl.handle.net/11234/1-2995.

24. Yujian, Bo 2007-- L Yujian, L. Bo A normalized Levenshtein distance metric. IEEE Trans Pattern Anal Mach Intell. 2007;29(6):1091?1095. doi:10.1109/TPAMI.2007.1078

Размещено на Allbest.ru

...

Подобные документы

  • Объекты изучения в словообразовании. Сущность словообразовательной мотивации. Понятие и пример словообразовательного гнезда. Отличительные черты и особенности словообразования существительных, прилагательных и глаголов в болгарском и русском языке.

    презентация [68,5 K], добавлен 18.01.2011

  • Особенности заимствованных слов в русском языке. Обобщение фонетических, словообразовательных и семантико-стилистических примет старославянских слов. Характеристика старославянизмов. Изучение родов (видов) красноречия. Подготовка ораторского выступления.

    контрольная работа [27,3 K], добавлен 14.12.2010

  • История русского словарного дела. Функции словарей и параметры их классификации. Значения слов, их толкования и примеры употребления как первичные функции словаря. Разделение словарных изданий на лингвистические (филологические) словари и энциклопедии.

    реферат [31,8 K], добавлен 06.04.2011

  • Национально-специфичное и заимствованное в языке. Окказиональные способы словообразования. Рост агглютинативных черт в процессе образования слов. Иноязычные аффиксы в русском языке и их продуктивность. Новые заимствования и их производные.

    курсовая работа [46,8 K], добавлен 24.01.2007

  • Смысловой объем концепта "труд" в русском и французском языках, выявление специфики его языкового выражения с использованием данных энциклопедических и лингвистических словарей. Понятийно-дефиниционные и коннотативные, ассоциативные характеристики.

    реферат [22,3 K], добавлен 06.09.2009

  • Понятие и место словарей в духовной жизни общества, особенности выполняемых ими функций. Количество и многообразие слов в русском языке. История происхождения словаря в Европе и России, отличительные черты основных этапов. Специфика видов словарей.

    реферат [35,5 K], добавлен 18.04.2012

  • Понятие о типах образования слов. Аффиксация как способ образования слов. Особенности современного словообразования в русском языке. Словообразовательные аффиксы в современном русском языке. Префиксально-суффиксальный (смешанный) способ словообразования.

    курсовая работа [26,8 K], добавлен 27.06.2011

  • Сопоставление лексем с партитивной семантикой, обозначающих отношения "части и целого" в русском и польском языках. Выявление фонетических и грамматических особенностей партитив. Грамматические особенности и распределение лексем по семантическим группам.

    курсовая работа [47,7 K], добавлен 10.11.2013

  • Иноязычные заимствования в русском языке, причины их возникновения. Освоение иноязычных слов русским языком, их изменения различного характера. Стилистические особенности средств массовой информации, анализ употребления в них англоязычных заимствований.

    дипломная работа [62,6 K], добавлен 23.07.2009

  • Природа неологизмов, пути их появления в современном русском языке. Экспериментальное исследование появления неологизмов иностранного происхождения в русском языке (за последнее десятилетие). Сферы употребления и источники иностранных неологизмов.

    практическая работа [104,8 K], добавлен 15.10.2010

  • Характеристика понятия возвратности и переходности в русском языке. Рассмотрение употреблений винительного падежа при глаголе бояться по данным различных словарей и справочников. Выявление отклонений от нормы, которые допускаются носителями языка.

    курсовая работа [100,8 K], добавлен 25.02.2015

  • Определение основных лингвистических понятий сферы дипломатии. Пути и основные способы формирования наименований письменных дипломатических актов, регулируемых международным правом, и особенности функционирования данных наименований в русском языке.

    курсовая работа [45,8 K], добавлен 31.03.2013

  • Классификация заимствований и их исторические сферы употребления. Функциональные особенности англицизмов в русском языке. Модные слова: содержание и лексический состав. Языковые факторы, определяющие развитие словарного состава языка путем заимствования.

    курсовая работа [101,8 K], добавлен 05.12.2016

  • Предлог как служебная часть речи, его место в русском языке, классификация и разновидности, определение лексического значения. Общие сведения и специфические признаки предлогов современного немецкого языка, сравнительная характеристика с русским.

    курсовая работа [50,9 K], добавлен 07.06.2010

  • История и источники появления русских фамилий, классификация с точки зрения их возникновения и значения. Исследование происхождения и частотности повторения фамилий в современном русском языке на примере территории Наро-фоминского муниципального района.

    реферат [259,4 K], добавлен 21.09.2012

  • Теория лингвистических исследований. Сравнительно-исторический метод как основа для классификации языков. Изучение этимологических гнёзд в современной науке. Исконная и заимствованная лексика. История слов, восходящих к корню "men" в русском языке.

    дипломная работа [81,1 K], добавлен 18.06.2017

  • Изучение правил спряжения в русском языке - изменения глагола по видам, наклонениям (изъявительному, повелительному, условному), временам, числам, лицам и родам. Продуктивные и непродуктивные классы глаголов. История форм прошедшего и будущего времени.

    реферат [18,6 K], добавлен 29.04.2012

  • Рассмотрение понятия словообразования и выделение способов обогащения современного русского языка. Описание роли неологических процессов; исследование причин английских заимствований и их ассимиляции в русском языке. Изучение заимствованной лексики.

    дипломная работа [124,7 K], добавлен 24.02.2015

  • Признаки аналитизма при выражении лексического и грамматического значения слова в русском языке. Рассмотрение роста аналитизма в системе глаголов, имен существительных, имен прилагательных, наречий, числительных, предлогов, и частиц русского языка.

    реферат [28,6 K], добавлен 29.01.2011

  • Происхождение, написание и значение в языке иностранных слов. Причины заимствования слов. Типы иноязычных слов: освоенные слова, интернационализмы, экзотизмы, варваризмы. Способы появления словообразовательных калек. Тематические группы заимствований.

    презентация [13,9 K], добавлен 21.02.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.