Електронний словник мови Тараса Шевченка: методика і технології укладання

Переваги електронних словників, перспективи їх використання у лінгвістичних дослідженнях. Теоретико-методичні аспекти Електронного словника мови Т. Шевченка. Лексичні, морфологічні та синтаксичні характеристики текстів. Структура та інтерфейс словника.

Рубрика Иностранные языки и языкознание
Вид статья
Язык украинский
Дата добавления 05.12.2018
Размер файла 83,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Електронний словник мови Тараса Шевченка: методика і технології укладання

Наталія Дарчук, канд. філол. наук, доц., Маргарита Лангенбах, канд. філол. наук, асист.

КНУ імені Тараса Шевченка, Київ

Стаття присвячена теоретико-методичним аспектам Електронного словника мови Тараса Шевченка. Розглядається внутрішня структура та інтерфейс словника, лінгвістична параметризація текстового матеріалу. Оцінюються переваги електронних словників у цілому та даного проекту зокрема, перспективи його використання у лінгвістичних дослідженнях.

Ключові слова: електронний словник, Тарас Шевченко, комп'ютерна лексикографія, лінгвістична база даних.

Однією з характерних рис сучасної науки є активне використання комп'ютерних інструментів, які не лише оптимізують дослідницький процес, але й допомагають оформити напрацьовані результати в максимально зручному для користувачів вигляді. Лінгвістика у цьому сенсі не виняток. Зокрема, однією з галузей, тісно пов'язаних із інформаційними технологіями, є комп'ютерна лексикографія, до завдань якої належать:

- створення електронних картотек на базі розмічених текстових масивів, формування машинних фондів різної структури та призначення;

- розробка систем автоматичного конвертування паперових словників у комп'ютерний формат;

- поповнення словників в автоматичному режимі опрацювання інформації;

- укладання словопокажчиків, конкордансів, частотних словників;

- використання мультимедійних і гіпертекстових засобів представлення інформації (зображення, звукові або відео додатки, гіперпосилання);

- укладання перекладних словників на основі електронних корпусів паралельних текстів;

- укладання автоматичних словників;

- створення інтегрованих лексикографічних комп'ютерних систем тощо.

Серед здобутків українського електронного словникарства - комп'ютерний "Словник афіксальних морфем української мови", розроблений в Інституті мовознавства НАН України ім. О. О. Потебні; електронні версії 11-томного тлумачного "Словника української мови" (онлайн-версію) та академічного "Орфографічного словника української мови", розроблені Українським мовно-інформаційним фондом НАН України; термінологічні словникові бази даних та спеціальна комп'ютерна система укладання словників PolyDic, створені колективом науковців університету Львівська політехніка", онлайн-конкорданс творів Г. Сковороди та ін.

Колекція різноманітних словників розміщена на порталі, що підтримується лабораторією комп'ютерної лінгвістики Інституту філології Київського національного університету імені Тараса Шевченка. Новітнім проектом цього колективу є Електронний словник мови Тараса Шевченка, приурочений до святкування 200-річного ювілею поета.

Як зазначає Є. Карпіловська, важлива перевага електронних словників - структурування інформації, що уможливлює роботу користувача з потрібними йому даними в зручному й гнучкому режимі доступу. Л. Бєляєва також називає такі властивості електронного словника, як значне пришвидшення процесу пошуку інформації, її збалансованість, системність і ретельність добору [Беляева : 73]. Оскільки постать Тараса Шевченка винятково важлива для української філології і постійно привертає увагу науковців, цілком закономірною є потреба створення сучасного зручного інструменту для роботи з його творчою спадщиною. У цьому полягає актуальність і новизна проекту.

Метою роботи було укладення електронного словника з урахуванням сучасних лексикографічних методик і технологій для створення розгорнутого опису мови поета та оптимізації роботи дослідників із текстами його творчої спадщини.

Така мета передбачала виконання низки завдань, з-поміж яких:

лінгвістичний аналіз текстів Т. Шевченка;

укладання бази даних зафіксованих мовних одиниць із їхніми граматичними та кількісними характеристиками;

створення зручного користувацького інтерфейсу, за яким можна було б здійснювати пошук, сортувати та статистично опрацьовувати зібрану в базі інформацію відповідно до потреб дослідників.

Об'єктом дослідження були оцифровані поетичні тексти Т. Шевченка, предметом - їх лексичні, морфологічні та синтаксичні характеристики.

Над проектом працював колектив лабораторії комп'ютерної лінгвістики, зокрема В. Сорокін, М. Лангенбах, Я. Ходаківська,О. Тютенко, а також група студентів магістратури у складі М. Білоконь, А. Дригіної, К. Ксьондзик, В. Мяснікової, М. Лисенко та А. Шкоди. Керівник проекту - Н. Дарчук.

Укладання словника відбувалося в декілька етапів, на яких матеріал було піддано лінгвістичному і статистичному опрацюванню. За результатами створювалися словникові статті з багатоаспект- ною інформацією про лексичні одиниці, морфеми або словосполучення та частотою вживання їх у досліджуваних текстах.

Лінгвістична підготовка матеріалу для словника здійснювалася двома способами. Перший етап було проведено шляхом автоматичного морфологічного і синтаксичного аналізу. Автоматичний морфологічний аналіз був застосований для визначення частин мови та їх граматичних форм. На етапі автоматичного синтаксичного аналізу відбувалося виокремлення словосполучень і приписування їм необхідної інформації (роль словоформи у сполуці, тип синтаксичного зв'язку). На другому етапі опрацювання матеріалу здійснювалося автоматизовано, за підтримки лінгвістів, які контролювали правильність результатів автоматичного аналізу, редагували й усували виявлені помилки.

Оскільки синтаксичні і лексичні характеристики проявляються у взаємодії різної кількості одиниць, але переважно в межах речення, граничним контекстом був обраний відрізок від крапки до крапки, тобто речення. Мінімальним відрізком був контекст у три позиції 1- Х +1 (де Х - аналізована словоформа), тобто словоформа у препозиції та постпозиції до аналізованої словоформи.

Синтаксична інформація у словнику представлена моделями словосполучень. Опис синтаксису через словосполучення мотивується тим, що це міжрівнева лексико-морфолого-синтаксична одиниця [Головин : 190-193]. Словосполучення водночас є і номінативною одиницею, і елементарною синтаксичною конструкцією. На основі словосполучень формуються члени речення і синтаксичні конструкції, розкривається сутність міжслівних зв'язків.

Словосполученнями були визнані підрядні, сурядні та предикативні сполуки, оскільки всі вони демонструють важливу властивість: кожен із компонентів цих конструкцій - носій морфологічних ознак із релятивною функцією, тобто властивістю приєднувати до себе словоформи і приєднуватися до них, утворюючи певний синтаксичний комплекс.

Сполучуваність слів описувалася за такими параметрами:

тип сполуки, до якої входить аналізована словоформа (за частиномовною належністю головного члена): іменникова, прикметникова, дієслівна, прислівникова, числівникова, займенникова.

роль словоформи у сполуці (тільки для підрядних конструкцій, оскільки в сурядних та у випадку координації обидва члени є рівноправними):

ядрова (словосполучення, в яких аналізована словоформа є головним);

ад'юнктна (словосполучення з аналізованою одиницею в ролі залежного члена).

тип синтаксичного зв'язку: підрядний, сурядний, координація.

Статистичні характеристики одиниць словника подані у вигляді двох параметрів - абсолютної та середньої частоти. Самої лише абсолютної кількості прикладів може бути недостатньо для відтворення об'єктивної картини, оскільки слова не завжди рівномірно розподілені по текстах. Для врахування такого явища вводиться поняття середньої частоти, а також середнє квадратичне відхилення абсолютної частоти - параметр, який характеризує рівномірність розподілу слів у текстах.

Уся інформація заносилася до бази даних, яка має таку структуру: колонки з номерами слова, речення й тексту; словосполучення; кожна зі словоформ, що його складають; їх початкові форми (леми), граматичні класи словоформ-компонентів словосполучення; тип синтаксичного зв'язку. Укладання лінгвістичної бази даних сприяє систематизації і чіткому структуруванню інформації, а також суттєво спрощує процес поповнення та редагування матеріалу.

До того ж, виконання різноманітних пошукових завдань вимагає втручання лінгвіста-дослідника до представлення інформації, унаочнення відношень між різними її типами (виведення, включення, виключення, заміна, суміщення тощо), що уможливлюється застосуванням лінгвістичних баз даних. Отже, бази даних є формалізованими моделями мовних об'єктів і створюють фактографічне підґрунтя для розв'язання багатьох лінгвістичних задач.

Інтерфейс словника складається з чотирьох сторінок. Перша сторінка містить інформацію про проект, решта подає різноманітну лінгвістичну інформацію. Структура сторінок організована за єдиним принципом (рис. 2): основне поле пропонує лінгвістичні параметри добору інформації, пошук контекстів за словоформами або лексемами, морфемною моделлю слова, частиномовною належністю, категорійними характеристиками (рід, число, відмінок, час, особа тощо), синтаксичною моделлю словосполучення). У результатах виводяться знайдені одиниці з кількісними даними і контекстами вживання. Ліва бічна панель сторінки містить меню зі статистичними параметрами, а також посилання на інші сторінки словника.

Параметри опису одиниць словника відкривають широке поле для лінгвістичного аналізу творчості Т. Шевченка. Так, наприклад, дослідження моделей сполучуваності дає відповідь на такі питання:

- чи можливі випадки, коли словоформа певної частини мови у реченні не має залежних від неї елементів, або, навпаки, нічому не підпорядкована;

- словами яких частин мови може керувати слово (частина мови);

- до яких комплексів може входити і в якій ролі;

- якими комплексами може керувати;

- чи може дане слово утворювати предикативні сполуки, і якщо так, то з якими класами слів тощо.

Рис. 1. Сторінка пошуку

В якості ілюстрації наведемо відомості про отриманий у результаті дослідження синтаксису творів Т. Шевченка перелік частиномовних моделей сполучуваності:

Моделі дієслова

Ядрові моделі дієслова

- дієслово + іменник: благословить дітей;

- дієслово + прикметник: ставати зеленим;

- дієслово + прийменник + іменник: дивлюсь на тебе;

- дієслово + дієслово: жити хочу.

Ад'юнктні моделі дієслова

- дієслово + дієслово: ліг одпочить;

Предикативні моделі дієслова

У цьому виді зв'язку дієслово є присудком або підметом:

- іменник + дієслово: Вітер віє.

Сурядні моделі дієслова

дієслово + дієслово: гралися, хвалили.

Моделі іменників

Ядрові зв'язки іменників

- прикметник + іменник: вольнії села;

- займенниковий прикметник + іменник: мій квіте;

- іменник + іменник: день радості;

Предикативні зв'язки іменника

- іменник + дієслово: верба похилилась.

Моделі прикметників

Ядрові моделі прикметників

- прислівник + прикметник: дуже цікаве;

- прикметник + прийменник + іменник: великая в женах;

- прикметник + сполучник + іменник: червоних як калина.

Ад'юнктні моделі прикметників

- дієслово + прикметник: був дужий;

- прикметник + іменник: вольнії села.

Предикативні моделі прикметників

- іменник + прикметник: ангелом святим.

Сурядні зв'язки прикметників

- прикметник + сполучник + прикметник: зелений і синій.

Моделі прислівників

Ядрові зв'язки прислівника. Ядровим вважається прислівник, якщо він не може бути опущений без порушення змісту, тобто є лексично зв'язаним

- іменник + прислівник: гріха менше;

- прислівник + прислівник: досі нудно;

- прислівник + прийменник + займенниковий іменник: тихо в мене.

Ад'юнктні зв'язки прислівників

- прислівник + прислівник: досі нудно;

- прислівник + прикметник: надто молодую.

Предикативні зв'язки прислівників

- іменник + прислівник: билини кругом.

Сурядні зв'язки прислівників

- прислівник + сполучник + прислівник: любенько та тихо. Коло потенційних досліджень із застосуванням словника охоплює морфологічні, лексичні, синтаксичні й стилістичні розвідки. Цьому сприяє різноманітність лінгвістичної розмітки текстів та гнучкість інтерфейсу користувача, що свідчить про високу ефективність електронних словників і, зокрема, словника мови Тараса Шевченка.

інтерфейс словник шевченко лексичний

Список використаних джерел

1. Беляева Л. Потенциал автоматизированной лексикографии и прикладная лингвистика / Л. Беляева // Известия РГПУ им. А. И. Герцена. - № 134. - СПб, 2010. - С. 70-79.

2. Головин Б. Введение в языкознание / Б. Головин. - М.: Высшая школа, 1966. - 328 с.

3. Дарчук Н. Комп'ютерна лінгвістика (автоматичне опрацювання тексту): підручник / Н. Дарчук. - К.: Видавничо-поліграфічний центр "Київський університет". - 351 с.

4. Дарчук Н., Грязнухіна Т. Частотний словник сучасної української публіцистики / Н. Дарчук, Т. Грязнухіна // Мовознавство. - 1996. - № 4-5. - С. 15-18.

5. Карпіловська Є. Вступ до прикладної лінгвістики: комп'ютерна лінгвістика: Підручник / Є. Карпіловська - Донецьк: ТОВ "Юго-Восток, Лтд", 2006. -188 с.

6. Лангенбах М. Електронна база моделей семантико-синтаксичної сполучуваності іменників української мови / М. Лангенбах. - Науковий вісник Волинського національного університету імені Лесі Українки. - Луцьк: Вежа, 2008. - с. 249-252.

7. Мисак Р. Комп'ютерні словники: класифікація та укладання / Р. Мисак // Збірник наукових праць: "Проблеми української термінології". - Львів, 2008. С. 52-55.

8. Перебийніс В., Сорокін В. Традиційна та комп'ютерна лексикографія / В. Перебийніс, В. Сорокін. - К.: Видавничий центр КНЛУ, 2009. - 218 с.

Размещено на Allbest.ru

...

Подобные документы

  • Давня та сучасна українська лексикографія. Поняття словника. Орфографічний словник української мови. Тлумачний словник української мови. Словник синонімів української мови. Винекнення лексикографії з практичних потреб пояснення незрозумілих слів.

    реферат [33,0 K], добавлен 25.01.2009

  • Задачі та історія тлумачного словника. Переваги електронних словників. Характеристика найпопулярніших тлумачних словників англійської мови та механізм роботи з ними. Якість тлумачень лексики: загальновживаної, сленгової, спеціалізованої та неологізмів.

    курсовая работа [1,9 M], добавлен 07.10.2009

  • Місце іншомовних запозичень в словниковому складі англійської мови. Асиміляція запозичень та фонетична адаптація. Вплив запозичень на обсяг словника англійської мови. Орфографічний вплив французької мови. Характеристика основних джерел запозичень.

    дипломная работа [474,0 K], добавлен 12.06.2011

  • Етапи зародження та розвитку літературної мови, оцінка її ролі та значення в сучасному суспільстві. Опис долі української мови, історія та передумови її пригнічення. Відродження мови з творчістю Котляревського, Квітки-Основ'яненка і Тараса Шевченка.

    сочинение [20,4 K], добавлен 25.11.2010

  • Основні ознаки культури мови, що стосуються лексичних і фразеологічних засобів різностильових текстів. Шість стилів мовлення та їх особливості. Лексичні (словотвірні) та морфологічні засоби стилістики. Смисловий зв'язок між словами: слово та контекст.

    реферат [35,0 K], добавлен 17.12.2010

  • Проблема конструювання лінгвістичної бази даних художніх порівнянь. Мета створення лінгвістичної бази даних – укладання електронного словника художніх порівнянь українського поетичного мовлення другої половини ХХ століття. Методика створення бази даних.

    статья [2,2 M], добавлен 23.04.2008

  • Читання як компонент навчання іноземної мови. Читання як культура сприйняття писемного мовлення. Етапи роботи з текстом. Сучасні вимоги до жанрової різноманітності та принципів відбору текстів з іноземної мови. Загаьні переваги автентичних текстів.

    контрольная работа [25,9 K], добавлен 08.04.2011

  • Морфологічні елементи та синтаксичні конструкції, що піддаються певним трансформаціям під час перекладу з англійської мови українською, та їхні українські відповідники. Аналіз трансформацій, застосованих до науково-технічних текстів, досвід використання.

    курсовая работа [51,6 K], добавлен 04.01.2014

  • Омофразія в системі рівнойменності мовних одиниць. Утворення омофраз в результаті фразеологізації словосполучень в англомовній військовій лексиці. Усунення омофразії у текстах оригіналу. Структура і принципи укладання загального словника омофраз.

    курсовая работа [183,6 K], добавлен 13.12.2011

  • Співвідношення частин мови в тексті. Експресивні та смислові відтінки тексту. Морфологічні помилки як ненормативні утворення. Найголовніша ознака літературної мови – її унормованість. Характеристика загальноприйнятих правил - норм літературної мови.

    реферат [56,1 K], добавлен 16.11.2010

  • Джерела походження фразеологізмів в українській мові, функції та вживання їх у мовленні. Семантичний аспект фразеологічного вираження. Особливості вираження фразеологічної діяльності у творах Тараса Шевченка. Огляд висловів, які стали афоризмами.

    презентация [3,0 M], добавлен 14.05.2014

  • Проблема формирования словника кросскультурного терминологического словаря. Лингвистический, логико-понятийный, лексикографический подходы к объективному отбору лексических единиц, их достоинства и недостатки. Составление системной классификации терминов.

    статья [222,2 K], добавлен 20.08.2013

  • Поняття та історія математичної методики в лінгвістиці. Статистичні закономірності як основа організації словника і тексту будь-якої мови. Математичні методи в дослідженні мови. Напрями математичної лінгвістики: лінгвостатистика та стилостатистика.

    реферат [15,5 K], добавлен 15.08.2008

  • Фонові знання, необхідні перекладачеві для перекладу текстів з гендерної лінгвістики. Граматичні, лексичні та термінологічні труднощі при перекладі. Наслідки вживання сексистської мови. Систематизація виокремлених лексичних одиниць та їх складність.

    дипломная работа [347,3 K], добавлен 22.07.2011

  • Поняття теоретичної і практичної лексикографії та напрямки її розвитку. Принципи класифікації словників, що вміщують інформацію про речі, явища, поняття та слова. Різниця між енциклопедичними та лінгвістичними (одномовними й багатомовними) словниками.

    реферат [27,9 K], добавлен 28.03.2014

  • Поняття словника, його види та призначення. Давня та сучасна українська лексикографія. Місце і значення словників у житті сучасників. Антропонімічні, двомовні і багатомовні перекладні словники, діалектні, граматичні та лінгвокраїнознавчі словники.

    реферат [28,2 K], добавлен 05.01.2013

  • Історія формування австралійського варіанту англійської мови. Реалізація голосних і приголосних звуків, інтонаційні особливості. Лексичні відмінності австралійського варіанту від британського англійського стандарту розмовної мови і літературних творів.

    курсовая работа [51,2 K], добавлен 05.01.2015

  • Поняття архаїзми, напрямки дослідження архаїзмів в лексикографі. Тематичнi групи архаїзмiв, значення слiв архаїзмiв у тлумачному словнику української мови А. Iвченка. Співвідношення архаїчного значення слів, особливості створення сучасних словників.

    реферат [33,1 K], добавлен 16.08.2010

  • Масова інформація та її мова, українська та російська мови в радіоефірі. Культура мовлення: правильність, точність, логічність, чистота, виразність, достатність і ясність, доречність мовлення. Орфоепічні, лексичні, морфологічні та синтаксичні помилки.

    курсовая работа [48,0 K], добавлен 06.11.2012

  • Словотвірні процеси у дериваційній системі пізньої середньоукраїнської мови. Особливості основоскладання, суфіксального, конфіксального та нульсуфіксального словотвору та активності використання дериватів. Українська наукова історична лексикографія.

    дипломная работа [126,6 K], добавлен 19.09.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.