Корпуси текстів: здобутки України та перспективи врахування закордонного досвіду
Порівняльний аналіз характеристик текстових корпусів української мови, з'ясування можливостей їх застосування в дослідницькій роботі. З'ясування найсуттєвіших параметрів електронних корпусів. Семантична розмітка та створення корпусів різних дискурсів.
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | украинский |
Дата добавления | 20.09.2020 |
Размер файла | 50,2 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Київський національний університет імені Тараса Шевченка
КОРПУСИ ТЕКСТІВ: ЗДОБУТКИ УКРАЇНИ ТА ПЕРСПЕКТИВИ ВРАХУВАННЯ ЗАКОРДОННОГО ДОСВІДУ
С. Фокін, канд. філол. наук, доц.
Київ
Анотація
текстовий корпус мова дискурс
Розглянуто дев'ять текстових корпусів української мови, порівнюються їхні характеристики, можливості використання в дослідницькій роботі. З'ясовано, що найсуттєвішими параметрами електронних корпусів є розмітка як текстів у цілому (жанрово-тематична, ареальна, хронологічна, соціологічна), так і графічних слів у ньому (частиномовна, семантична); зараз бракує розмітки за дискурсивними характеристиками. Узагальнено принципи пошуку: можливість шукати слово, лексему, словосполучення, речення, а також маски виразів в узагальненому вигляді, однак виклик найближчого майбутнього - семантична розмітка та створення корпусів різних дискурсів.
Ключові слова: корпусна лінгвістика, корпус текстів, українська мова, метамовний пошук, методологія досліджень, дискурс.
Annotation
S. Fokin, PhD, Associate Professor Taras Shevchenko National University of Kyiv, Kyiv
TEXTUAL CORPORA: UKRAINIAN LINGUISTS' ACHIEVEMENTS AND ASSIMILATION OF FOREIGN EXPERIENCE
Though five or more corpora of the Ukrainian language exist since 2010 or earlier, the majority of them remain unknown to researchers and corpus-based studies in Ukrainian philology are seen rather as exotic and exceptional cases. In the present study we offer an overview of nine Ukrainian corpora, among which the widest and the fullest are "Ukrainian Language Corpus" at web-portal mova.info and "GRAK" f'General Regionally Annotated Corpus of Ukrainian). Two of them make part of corpora collections ("Leeds Corpora Collection") and ("Corpora Collection of Leipzig University"); two corpora are made on the basis of electronic document archives, which appears to demonstrate that nowadays any set of electronic textual documents corresponding to a common criterion are convertible into a simple corpus. Today's large