Історичний корпус української мови: основні принципи створення

Принципи створення історичного корпусу українських текстів для вирішення різнопланових дослідницьких завдань. Побудова історичних корпусів за хронологічним критерієм. Лінгвістичне опрацювання підготовленого тексту, створення морфологічного аналізатора.

Рубрика Иностранные языки и языкознание
Вид статья
Язык украинский
Дата добавления 08.04.2019
Размер файла 21,8 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Історичний корпус української мови: основні принципи створення

О. Ніка

У статті визначаються основні принципи створення історичного корпусу українських текстів для вирішення різнопланових дослідницьких завдань. український текст лінгвістичний корпус

Ключові слова: корпусна лінгвістика, історичний корпус українських текстів, принципи побудови історичного корпусу.

В статье определены основные принципы создания исторического корпуса украинских текстов для решения разноплановых исследовательских задач.

Ключевые слова: корпусная лингвистика, исторический корпус украинских текстов, принципы построения исторического корпуса.

The article defines the basic principles of forming the historical corpus of the Ukrainian language aimed at solving diverse research tasks.

Key words: corpus linguistics, historical corpus of the Ukrainian texts, basic principles of forming the historical corpus.

Як відомо, створення національного корпусу є обов'язковим щодо рідної мови. У сучасній лінгвістиці частіше виникає питання не про створення окремого корпусу (чи підкорпусу) текстів певної мови, а про його максимальне наповнення і використання для різнопланових дослідницьких завдань (колекції корпусів на www.corpus.leeds.ac.uk,www.uow.edu.au). Історичні корпуси (підкорпуси) текстів уже створені на матеріалі різних мов, слов'янських і неслов'янських: російської, нідерландської, ісландської, американської англійської, валлійської мов. У паралельному корпусі перекладів давніх текстів представлено "Слово о полку Ігоревім". Словник-конкорданс укладений на основі зібрання творів Г. Сковороди.

На часі обговорення концепції побудови, наповнення і використання історичного корпусу української мови, що визначили актуальність цієї наукової проблеми і завдання статті.

У вітчизняній лінгвістиці основні засади створення дослідницького корпусу української мови викладено в монографічних дослідженнях Н. Дарчук [1], Є. Карпіловської [4].

Корпус сучасних українських текстів, розміщений на www.mova.info, підготовлений лабораторією комп'ютерної лінгвістики Інституту філології Київського національного університету імені Тараса Шевченка. У корпус включено: законодавчі, наукові, науково-технічні, художні (поетичні і прозові), публіцистичні тексти, а також фольклорні.

Пропозицію "спеціалізувати підкорпуси за хронологією, чи за історичними періодами розвитку української мови" висловлювала О. Демська-Кульчицька, яка, по- кликаючись на періодизацію української мови В. Німчука, запропонувала охопити "текстовий матеріал давньоукраїнського (ХІІ-ХІУ), ранньоукраїнського (ХУ- ХУІ), і середньоукраїнського (Хуі-ХУііі) періодів та сучасну українську мову (ХІХ-ХХІ) з виокремленням періоду кінця ХХ - початку ХХІ ст." [3].

Без сумніву, основний принцип історичного корпусу текстів - синхронно-діахронний, тобто описати динаміку мови можна через зіставлення двох (чи більше) синхронних зрізів, проте в цьому разі актуалізується визначення назв і точних меж синхронних зрізів української мови, відповідно, їх представлення в текстовому вимірі.

Історичні корпуси будуються за хронологічним критерієм (він, безсумнівно, є основним), а також доповнюватися жанрово-стильовим критерієм.

У цьому плані показовий Регенсбурзький діахронічний корпус (на його основі виконується наукова тема "Корпусна лінгвістика і діахронічний синтаксис" (науковий керівник проекту - проф., д-р Р. Майєр).

У складі національного корпусу російської мови є декілька історичних підкорпусів (www.ruscorpora), як-от: "Рукописні пам'ятки Давньої Русі" (берестяні грамоти, літописи), "СКАТ" (агіографічні тексти), "Манустрипт" (літописи, житія, мінеї та ін.). До цього переліку також додано корпус публіцистичних текстів першої половини ХІХ ст., що вже виходить за межі давнього періоду, який традиційно окреслюється до ХVІІІ ст.

Одним із найбільш наповнених історичних корпусів російської мови є "Манускрипт", який повно репрезентує історичні ресурси кирилицею і глаголицею, що охоплюють Х-ХІУ ст.

Побудова історичних корпусів за хронологічним критерієм увиразнена сукупністю різних часових зрізів, першим з яких є синхронний зріз до ХІУ ст.

В історичному корпусі російської мови наступний синхронний зріз охоплює період ХУ - початку ХУІІІ ст. Цей ресурс у відкритому доступі функціонує з 2013 року під назвою "Історичний корпус середньоросійських пам'яток ХУ - початку ХУІІІ ст.". Як зазначають лінгвісти, він налічує 3 млн слововживань, що репрезентують літературні твори, літописи, житія, ділові грамоти, побутове листування цього часу.

Умовність назви "середньоросійська мова" на позначення хронологічного періоду ХУ - початку ХУІІІ ст. прокоментував філолог, учасник цього корпусного проекту Б. Орєхов в інтерв'ю електронному ресурсу "ProScience" [5]. На його думку, вибір назви "середньо- російська мова" передусім мотивується тим, що фіксує певну послідовність у хронології синхронних зрізів, а тому в робочому порядку встановлює часову вертикаль в історичних корпусах.

Проаналізувавши основні принципи створення корпусів текстів, зокрема історичних, вважаємо, що оптимально історичний корпус українських текстів будується як дослідницький, загальномовний, повнотекстовий, двомовний, анотований.

Як правило, корпуси текстів є дослідницькими, оскільки призначені для отримання адекватних результатів для різнопланових завдань науковців.

Загальномовність корпусу текстів, на відміну від його спеціалізації, реалізується у повному представленні писемних пам'яток різних періодів, без особливого маркування виявленої в цих текстах діалектної, стилістичної та іншої інформації.

Якщо для корпусів сучасних текстів достатньою та показовою є фрагментарність, то історичні джерела в корпусі, на нашу думку, варто репрезентувати повноте- кстово. Мотивація цього вибору зумовлена повнотою представлення лінгвальної інформації в корпусі, фіксованим реєстром джерел. Відкритий характер історичного корпусу конкретизується відповідно до поставленої мети як поступове його розширення.

Попри полілінгвальність мовної ситуації в Україні корпус текстів зорієнтований на репрезентацію писемних джерел староукраїнською та церковнослов'янською мовами, що в такий спосіб характеризує співвідношення принципів мономовності/багатомовності.

Анотованість джерел у корпусі передбачає максимальне врахування загальної інформації про текст: автор, повна назва тексту (заголовок), рік написання (для рукописів), друкування, місце видання, назва друкарні, жанр, стиль, оригінал чи переклад (з якої мови), редакція, список. У паспорті джерела також зазначаються дослідницькі видання писемної пам'ятки, основні дослідження про неї.

Отже, у концепції історичного корпусу української мови передбачено:

• синхронічно-діахронічний принцип, який оптимально відображає різні синхронічні зрізи в історії української мови, репрезентує її динаміку.

• принцип різностильової повноти, що репрезентує писемні тексти різних стилів і жанрів кожного синхронного зрізу.

Зокрема, писемні пам'ятки другої половини ХУІ - ХУІІ ст. характеризують період розквіту староукраїнської літературної мови, відзначають повну картину жанрово-стильового розмаїття української мови старої доби, поступовий перехід до нового, структурно- функціонального принципу стильової диференціації.

Переваги побудови корпусу цього часу - у нових та оновлених жанрах, перекладах, барокових текстових інноваціях та ін., що відрізнятиме корпус української мови з-поміж інших мов. Така мотивація актуалізує створення окремого корпусу українських текстів, що удоступнює раритети ХУІ-ХУІІ ст. для вирішення дослідницьких завдань, дає можливість працювати з великим обсягом лінгвального матеріалу за допомогою спеціально заданого дослідником пошуку.

Послідовність створення такого історичного корпусу (підкорпусу) передбачає кілька етапів:

1) добір репрезентативних текстів за встановленими дослідницькими критеріями;

2) наукова підготовка текстів, що максимально наближує їх передавання до оригіналу, проте уніфіковує деякі особливості накреслення літер, діакритику та ін.;

3) встановлення морфологічного анотування, що передає мовну інформацію про квазіфлексії та квазіос- нови, приписує їм відповідні парадигматичні класи.

Добір текстів у межах окремого періоду проводиться за жанрово-стильовим критерієм, тобто сукупність текстів, що належать до одного жанру (стилю), становить окремий сегмент у текстовій репрезентації періоду.

Наукова підготовка писемних пам'яток для проведення морфологічного анотування в історичному корпусі ускладнюється через роботу зі значними за обсягом текстовими матеріалами, їх переведення в електронний вигляд.

Для цього потрібно уніфікувати спосіб передавання писемних пам'яток за встановленими однотипними правилами: набирати (розпізнавати за допомогою спеціальних програм) тексти, максимально наближаючи їх графічний та орфографічний запис до оригіналу, проте без збереження в електронному варіанті окремих графічних знаків (наприклад, діакритичних знаків), неістотних для морфологічного анотування староукраїнських оригіналів. Таке наукове опрацювання писемних джерел за однотипними правилами потребує тривалої підготовки та ускладнює роботу.

Електронні версії вже виданих на сьогодні писемних джерел, хоч й орієнтуються на прийняті правила публікації давніх текстів, проте не завжди вирізняються однотипністю.

Більш того, в українському історичному джерелознавстві усталився підхід до транслітерування текстів, що передбачав передавання окремих літер за допомогою символьного зображення, спеціальне увиразнення надрядкових літер у рядковому записі, збереження більшості діакритичних знаків (різні типи наголосів, титла), дослідницькі примітки про особливості прочитання складних (з погляду збереження оригіналу та його прочитання) місць. Факсимільні видання як найбільш надійні джерела передавання оригіналу не відповідають вимогам дослідницького пошуку в корпусі.

Для прикладу, в історичному корпусі агіографічних текстів "СКАТ" укладено словопокажчик, тобто "списки словоформ з їхніми адресами (номерами аркушів і рядків) у рукописах" [1, с. 40], а житія двічі представлено - у текстовому форматі і форматі редактора Word: "у текстовому файлі передбачено кодування для всіх букв слов'янського алфавіту, текст рукопису поділений на слова і представлений у лінійному вигляді: виносні букви у круглих дужках вставлені на своє місце в слові за смислом, пропущені акцентні знаки. Особливими символами відзначаються кінці рядків, стовпчиків і аркушів рукопису; межі тексту, який вноситься з полів; помилкові написання. Текст у редакторі Word також створюється на основі текстового файлу, у нього вносяться діакритичні знаки, і всі виносні літери займають місце над рядком, за зовнішнім виглядом цей текст наближується до тексту рукопису, відрізняючись від нього тим, що розділений на слова" [1, с. 41].

Лінгвістичне опрацювання підготовленого тексту передбачає встановлення морфологічної інформації (анотування) кожному слову. Під морфологічною інформацією розуміється: частиномовна належність слова, його основні граматичні значення, розрізнення власних і загальних назв.

Принципи створення морфологічного аналізатора викладено в монографії Н. Дарчук [2, с. 58-66], зокрема другий, флексійний етап ґрунтується на інформації про квазі- основи і квазіфлексії, що дає підстави приписати номер парадигматичного класу кожній словозмінюваній лексемі.

Для історичного корпусу така інформація має бути створена: визначено квазіоснови і квазіфлексії (за наведеною термінологією), приписано нові номери парадигматичних класів.

На відміну від сучасного, в історичному корпусі враховуються диференційні граматичні значення староукраїнської мови порівняно із сучасною. Максимальне увиразнення диференційних значень у давній мові передається за допомогою кодів, які створюються окремо.

Наприклад, якщо взяти за основу морфологічні коди в системі АГАТ [2, с. 356], то для диференційних граматичних значень (двоїни, аориста, імперфекта) давньої мови додаються нові коди. Так, ЙЫ - іменник чоловічого роду, називний відмінок двоїни. Граматичні коди, які використовуються для морфологічного анотування українського тексту, утворюються з двох символів (двозначні), у них перший символ вказує на частиномовну належність, другий - на граматичне значення словоформи.

Опрацювання і представлення отриманих результатів може проводитися в різних напрямках: від тексту (контексту) - до парадигми і, навпаки, від парадигми - до тексту (контексту). Вибір оптимального варіанта залежить від дослідницьких завдань і ступеня наповненості корпусу, опрацьованих текстів за допомогою морфологічного анотування.

Вирішення поставлених завдань передбачає розв'язання окремих проблемних питань щодо 1) варіативності і 2) динаміки мови.

Проблема варіативності вирішується в такий спосіб, що уодноманіюються ті графічні та орфографічні варіанти, які не впливають на фонетику. Наприклад, під час підготовки текстового варіанта уніфіковуються різні варіанти написання тієї самої літери.

У парадигмі об'єднуються варіанти написання словоформ, а саме: рядкова літера зі зредукованим, рядкова літера без зредукованого, виносна літера без зредукованого.

Динаміка змін ураховується за допомогою порівняння різних синхронних зрізів, що вибудовують діахронію.

Отже, основні принципи створення історичного корпусу української мови ґрунтуються на вже відомих засадах, деталі - у специфіці роботи з текстовим українським матеріалом певного історичного зрізу, нове - у побудові парадигм за вказаними граматичними параметрами, у перспективі - не тільки морфологічна, але й синтаксична, лексична атрибуція цих текстів.

Список використаних джерел

1. Герд А.С. Корпус древнерусских агиографических текстов СКАТ: современное состояние и перспективы развития / А.С. Герд, И.В. Азарова, Е.Л. Алексеева, Е.С. Иванова // Современные информационные технологии и письменное наследие: от древних рукописей к современным текстам : материалы международной научной конференции. - Ижевск, 2006. - С. 38-42.

2. Дарчук Н.П. Комп'ютерне анотування українського тексту: результати і перспективи : монографія / Наталія Дарчук. - К. : Освіта України, 2013. - 544 с.

3. Демська-Кульчицька О.М. Український національний корпус / О. Демська-Кульчицька [Електронний ресурс]. - Режим доступу: www.rastko.rs.

4. Карпіловська Є.А. Вступ до прикладної лінгвістики: компютерна лінгвістика: підручник. - Донецьк : "ТОВ Юго-Восток ЛТД", 2006. - 188 с.

5. Создан новый корпус среднерусских текстов [Электронный ресурс] // ProScience. - Режим доступа: http://polit.ru/news.

Размещено на Allbest.ru

...

Подобные документы

  • Головна, загальна мета створення будь-кого тексту - повідомлення інформації. Поняття іформаційної насиченості тексту та інформативності. Визначення змістовності тексту - встановлення співвідношення між висловлюванням і ситуацією, відбитою в ньому.

    реферат [28,3 K], добавлен 08.04.2011

  • Створення загальнокитайської мови і стандартизація вимови. Упорядкування і проблема ієрогліфічної писемності на сучасному етапі. Перехід до алфавітного письма і проблема орфографії. Система сполучення двох методів машинної обробки китайських текстів.

    курсовая работа [62,2 K], добавлен 22.12.2010

  • Поняття архаїзми, напрямки дослідження архаїзмів в лексикографі. Тематичнi групи архаїзмiв, значення слiв архаїзмiв у тлумачному словнику української мови А. Iвченка. Співвідношення архаїчного значення слів, особливості створення сучасних словників.

    реферат [33,1 K], добавлен 16.08.2010

  • Дослідження основних особливостей історичного детективу та складнощів його перекладу з англійської на українську мову. Характеристика культурно-історичних реалій та їх місця в жанрі історичного детективу. Визначення рис детективу як жанру літератури.

    курсовая работа [59,7 K], добавлен 21.06.2013

  • Основні аспекти лінгвістичного тексту, його структура, категорії та складові. Ступінь уніфікації текстів службових документів, що залежить від міри вияву в них постійної та змінної інформації. Оформлення табличних форм, опрацювання повідомлення.

    статья [20,8 K], добавлен 24.11.2017

  • Лінгвістичні, психологічні та методичні умови формування умінь і навичок ділового мовлення на уроках української мови. Основні закони сучасної риторики. Способи створення руху в промові. Основні правила дискусії. Розподіл ролей та проведення дебатів.

    реферат [25,3 K], добавлен 18.09.2014

  • Розвиток української літературної мови давньої і середньої доби. Доба відродження української літературної мови. Розвиток урядової мови в напряму зближення з живою мовою із впливом мови центральноєвропейських канцелярій: латинської, німецької, польської.

    реферат [21,1 K], добавлен 14.10.2011

  • Теоретичні засади дослідження компресії як лінгвістичного явища при перекладі публіцистичного тексту. Механізм стиснення тексту на синтаксичному рівні. Єдність компресії та декомпресії під час перекладу газетних текстів з англійської мови українською.

    курсовая работа [63,8 K], добавлен 21.06.2013

  • Виникнення і первісний розвиток української мови. Наукові праці україномовців про виникнення української мови. Дослідження розвитку писемної української мови: діяльність Кирила і Мефодія. Спільність української мови з іншими слов'янськими мовами.

    реферат [29,5 K], добавлен 26.11.2007

  • Ознайомлення із основними етапами історичного розвитку української літературної мови. Визначення лексичного складу мови у "Щоденнику" Євгена Чикаленка. Вивчення особливостей правопису, введеного автором. Погляди Чикаленка на розвиток літературної мови.

    реферат [65,0 K], добавлен 19.04.2012

  • Створення присвійних прикметників. Створення форм прикметників різних географічних назв. Переклад російських лексем на позначення назв осіб за професією українською мовою. Основні способи творення дієслів, прислівників. Складні, складноскорочені слова.

    реферат [63,8 K], добавлен 21.11.2010

  • Текст як добуток мовотворчого процесу, що володіє завершеністю. Історія формування лінгвістики тексту. Лінгвістичний аналіз художнього тексту. Інформаційна самодостатність як критерій тексту. Матеріальна довжина текстів. Поняття прототипових текстів.

    реферат [25,1 K], добавлен 30.01.2010

  • Проблема конструювання лінгвістичної бази даних художніх порівнянь. Мета створення лінгвістичної бази даних – укладання електронного словника художніх порівнянь українського поетичного мовлення другої половини ХХ століття. Методика створення бази даних.

    статья [2,2 M], добавлен 23.04.2008

  • Прийоми і методики морфологічного аналізу. Особливості вживання частин мови у професійному мовленні. Правильне вживанням іменників та прикметників у діловому спілкуванні. Використанням дієслівних форм і прийменникових конструкцій у професійних текстах.

    реферат [40,9 K], добавлен 28.02.2017

  • Для вивчення навчально-професійної лексики проводиться переклад тексту з російської мови на українську. Культура професійного мовлення та лексичне багатство української мови. Культура ділового професійного мовлення та укладання тексту документа.

    контрольная работа [24,8 K], добавлен 01.02.2009

  • Ознаки стислого тексту, поняття слогану як його різновиду. Характерні риси експресивного мовлення в рекламному тексті, його емоційне забарвлення. Аналіз лексичних, граматичних та інтонаційних засобів створення експресивності в англомовних слоганах.

    курсовая работа [35,8 K], добавлен 22.06.2015

  • Українська літературна мова як вища форма національної мови. Стилі української мови в професійному спілкуванні. Типізація мовних норм. Поняття та ознаки культури мовлення. Становлення українського правопису і його сучасні проблеми, шляхи їх вирішення.

    реферат [25,2 K], добавлен 26.01.2015

  • Основні характеристики казки та значення цього виду літературного твору. "Морфологія казки" Проппа. Надсинтаксичні рівні одиниць тексту: супрасинтаксичний, комунікативний. Закони компресії тексту. Переклад як складова частина утворення вторинних текстів.

    дипломная работа [104,3 K], добавлен 06.12.2015

  • Основні прийоми термінотворення. Принципи передачі іншомовних науково-технічних термінів засобами української мови. Джерела формування, лексико-семантичні особливості, класифікація і детермінізація сучасної технічної термінології в китайській лінгвістиці.

    дипломная работа [158,9 K], добавлен 25.09.2014

  • Предмет та цілі германського мовознавства, його місце у циклі гуманітарних дисциплін. Індоєвропейська мовна сім’я. Вивчення історичних особливостей мови. Сучасні й давні германські мови, писемність германців. Періоди розвитку прагерманської мови.

    презентация [1,4 M], добавлен 19.09.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.