Сучасні корпуси текстів: вимоги до метаданих

Розгляд основних вимог до презентації метаданих, встановлених розробниками систем опрацювання текстів. Аналіз сучасного стану здійснення метарозмітки корпусів. Окреслення принципів метаопису текстів, реалізованих в загальнодоступних корпусах текстів.

Рубрика Иностранные языки и языкознание
Вид статья
Язык украинский
Дата добавления 31.01.2018
Размер файла 25,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Київський національний лінгвістичний університет

Сучасні корпуси текстів: вимоги до метаданих

Шкляревський В.Г.

Анотація

презентація метаопис текст корпус

У статті розглянуто основні вимоги до презентації метаданих, встановлених розробниками систем опрацювання текстів. Аналізується сучасний стан здійснення метарозмітки корпусів. Окреслено принципи метаопису текстів, реалізовані в загальнодоступних корпусах текстів.

Ключові слова: текст, корпус текстів, метарозмітка, метадані, стандарт метаданих, вимоги до презентації метаданих.

Аннотация

В статье рассмотрены основные требования к презентации метаданных, установленные разработчиками систем проработки текстов. Анализируется современное состояние осуществления метаразметки корпусов. Очерчены принципы метаописания текстов, реализованные в общедоступных корпусах текстов.

Ключевые слова: текст, корпус текстов, метаразметка, метаданные, стандарт метаданных, требования к презентации метаданных.

Annotation

This paper considers the main requirements to corpora data presentation, established by the text processing system developers. The state of art in elaborating corpus encoding is analyzed. The main principles of encoding used in corpuses are examined.

Keywords: text, corpus of texts, encoding, metadata, standard of metadata, requirements to data presentation.

Сьогодні вивчення мови щільно пов'язане з використанням інформаційних технологій і напрацюваннями корпусної лінгвістики зокрема [4, c. 68]. Значення корпусів полягає в можливості дослідження мови в аспекті її функціонування, що дає змогу мати справу з реальними фактами мови. Для надання доступу користувачам, опрацювання, багаторазового використання і забезпечення сумісності корпусу з іншими корпусами необхідне відповідне стандартне оформлення метаданих текстів. Із цією метою розробники систем опрацювання текстів розробляють рекомендації і вимоги до оформлення метаданих, або паспортизації текстів.

Актуальність дослідження вимог до метаданих пояснюється розбудовою й широким застосуванням корпусів у різних галузях лінгвістики.

Метою цієї розвідки є визначення вимог до оформлення метаданих при укладанні корпусів текстів. Для досягнення поставленої мети необхідно виконати такі завдання:

- зіставити чинні стандарти корпусних метаданих;

- виявити спільні параметри в аналізованих стандартах метарозмітки;

- визначити параметри, необхідні і достатні для паспортизації текстів корпусу;

- дослідити реалізацію презентації метаданих у загальнодоступних корпусах текстів.

У корпусній лінгвістиці до метаданих відносять інформацію про текстові дані, що входять до складу корпусу і становлять уміст електронного заголовка. За О. Демською-Кульчицькою [4, с. 89], основним функціональним призначенням корпусних метаданих є інформування якісно різних користувачів про тексти на предмет їхнього авторства, стилістично-жанрової специфіки, тематики, дати і місця написання. Без такої інформації про тексти, що входять до складу корпусу, використання ресурсу в лінгвістичних дослідженнях і програмних застосуваннях є неможливим.

На сьогодні в корпусній лінгвістиці розроблено кілька систем стандартів метарозмітки корпусів, серед яких найчастіше використовуваними є Text Encoding Initiative (TEI), Open

Language Archive Community (OLAC) [11] і ISLE Metadata Initiative (IMDI) [13]. Рекомендації ТЕІ передбачають багаторівневий склад метаданих [7]. Зокрема розробник корпусу текстів має обов'язково подати таку інформацію про корпусні дані:

1) назва корпусу, розробник або назва компанії, спосіб доступу до корпусу та особа, відповідальна за забезпечення доступу, контактні дані, наявність корпусу у вільному доступі;

2) вихідні дані корпусу з детальним описом кожного джерела текстів;

3) бібліографічний опис корпусу текстів, виконаний у звичайному форматі (автор, назва, видавництво, дата, ISBN тощо) або за стандартами цитування TEI, BibTeX.

Для представлення метаданих про тексти усного мовлення доцільно зазначити демографічні дані кожного мовця й контекст. Крім того, до метаданих належать: розмір кожного тексту й корпусу в цілому; мова текстів, розпізнана за допомогою стандартного коду ідентифікації мов; класифікація текстів, використовувана в процесі розмітки корпусу; інформація стосовно метарозмітки корпусу (мета проекту й гіпотеза дослідження, застосовані принципи й методи); принципи редагування (коректування, нормалізація, цитування, сегментація й інтерпретація); використання XML- або SGML-анотування (з наданням копії DTD або XML-схеми, дефініціями використаних в DTD елементів, зазначенням змін, внесених до схеми, перелік розмічених елементів із вказаною частотою їхньої появи в текстах) і схема здійснення класифікацій текстів [7].

На відміну від TEI стандарт метаданих IMDI [13] пропонує менш деталізовану схему паспортизації корпусу із зазначенням таких параметрів:

1) період роботи над проектом (ім'я виконавця роботи на кожному етапі укладання корпусу, назва проекту, дата);

2) адреса організації (назва, контактні дані виконавців, примітки),

3) укладач корпусу - особа / організація, відповідальна за укладання корпусу (ім'я, контакти);

4) елементи корпусу (контекст, жанр тексту, мета написання, мови, використовувані коди лінгвістичної розмітки);

5) дані учасників проекту (тип виконуваної роботи, ім'я, посада, мова, етнічна група, вік, стать, освіта, анонімність участі);

6) джерела (веб-посилання, розмір джерел, тип, формат, якість, доступ, примітки);

7) анотування (посилання на джерело, дата, тип, формат, мова розмітки, примітки).

У стандарті метаданих Open Language Archive Community (OLAC) за основу прийнято рекомендації Dublin Core Metadata Initiative (DCMI), які передбачають виділення набору з п'ятнадцяти елементів метаданих. Розробники зазначають, що метадані, за винятком метаданих типу Title, можуть дублюватися у процесі метарозмітки. Однак порядок надання інформації для представлення тексту має бути чітким. Крім того, можливими є уточнення до загальної назви елемента. У випадку, коли уточнення краще передає сутність і призначення елемента, бажано використовувати уточнення замість загальної назви. До елементів метаданих OLAC [11] належать:

1) дані розробника (із зазначенням посади працівника - автор / редактор / спонсор тощо);

2) межі дослідження (хронологічні / територіальні / обсягу);

3) автор ідеї (використовується, коли поняття “розробник” недостатньо);

4) дата (створення / публікації / ліцензування / отримання авторських прав / внесення змін - необхідно вказати принаймні хоча б одну характеристику з уточненням);

5) опис (коротка анотація корпусу);

6) формат (файлів / розширення джерел / розмір або тривалість аудіо-джерел);

7) визначник посилання в межах тексту; мова / мови текстів; видавець корпусу;

8) зв'язки з іншими корпусами (частина - підкорпус / версія іншого корпусу);

9) права на використання корпусу;

10) джерела корпусу; суб'єкт корпусу (тема корпусу); назва корпусу;

11) тип (жанр джерела).

До інших елементів метаопису також належать: зміни першоджерела; власник авторських прав [11]. У проаналізованих вище стандартах метаданих є параметри паспортизації, які повністю збігаються, серед них: інформація про розробника корпусу, умови його укладання - джерела, термін створення, мова текстів, формат файлів, інформація стосовно збереження авторських прав. Отже, на думку розробників презентація зазначених даних для паспортизації текстів є обов'язковою. Це свідчить про те, що більшість систем опрацювання текстів орієнтовані на аналіз даних, які характеризують процес укладання корпусу, або сприятиме сумісності корпусу текстів з іншими інформаційно-пошуковими системами, зокрема для створення зіставних і паралельних корпусів текстів тощо.

Важливим також є елемент метаопису, що стосується формату файлів та особливостей метарозмітки корпусу. Зазначення цієї інформації забезпечує безпомилкове опрацювання текстів за допомогою метарозмітки. При цьому стандарт метаданих ТЕІ є найбільш деталізованим з-поміж інших в аспекті зазначення параметрів метаданих. Водночас елементи метаопису за стандартом IMDI дають змогу формулювати гіпотези лінгвістичних досліджень на основі демографічних даних учасників проекту - власне мовців-інформантів. Система OLAC надає розробникам можливість уточнення ряду елементів метаопису, серед яких: термін дослідження, хронологія, опис, формат, визначник посилань у межах тексту, зв'язки з іншими корпусами, авторські права й назва (за наявності альтернативної назви корпусу).

Крім проаналізованих вище стандартів метаданих зовнішньої метарозмітки, існують стандартні класифікації текстів, якими керуються розробники в паспортизації корпусів. До таких стандартів належить міжнародна класифікація Дж. Синклера, пізніше доповнена С. Шаровим. Зазначена класифікація Синклера-Шарова ґрунтується на стандартах метаданих Expert Advisory Group on Language Engineering Standards (EAGLES). За цим стандартом передбачена характеристика тексту за загальноприйнятою схемою комунікації Р. Й. Якобсона [4, с. 75]. У класифікації [6, с. 63] представлені такі елементи опису:

1) автор текстів (тип автора, стать, вік);

2) аудиторія (обсяг, стать, вік, освіта, підготовленість до сприйняття текстів);

3) мета комунікації (інформування, дискусія, рекомендації, розважання);

4) предмет комунікації (тема);

5) обставини; канал комунікації (усне / письмове мовлення, стилі, жанри).

В основу такого підходу до метаопису текстів корпусу покладено соціолінгвістичні засади створення тексту. Однак недолік зазначеного підходу до класифікації текстів полягає у відсутності інформації про необхідне програмне забезпечення для подальшого опрацювання корпусу. З іншого боку, на відміну від окреслених вище стандартів метаданих, стандарт Синклера-Шарова передбачає деталізований аналіз тематики текстів і надання інформації про аудиторію, для якої призначено тексти корпусу, та обставини їх створення. Зазначені параметри можуть бути використані в соціолінгвістичних дослідженнях мови.

Розробники корпусу British National Corpus (BNC) при здійсненні метарозмітки керувалися рекомендаціями й вимогами ТЕІ Guidelines. У такий спосіб укладачі поєднали остаточне глибинне опрацювання текстів - лінгвістичну анотацію за кодами частини мови (part-of-speech tagging) і визначення формальних, структурних особливостей текстів (параграфи, назви частин тощо). Метарозмітка текстів здійснюється за параметрами, що надають відомості про текст, автора й аудиторію. У вільному доступі в мережі Інтернет перебуває XML-версія метарозмітки текстів корпусу [8]. Складовою частиною, або підкорпусом BNC, є The Bergen Corpus of London Teenage Language (COLT), укладений для вивчення усного мовлення лондонських підлітків (у віці від 13 до 17 років) з різних районів Лондона [Stenstrom, p. 13-26]. Тексти корпусу COLT транскрибовано й розмічено в кодах частиномовної належності, при цьому необхідними параметрами паспортизації текстів є соціальні характеристики мовців: вік, стать, місце проживання, соціальний статус та етнічна належність.

Незважаючи на розроблені рекомендації і стандарти метарозмітки, більшість укладачів корпусів для опису текстів обирає індивідуальний набір метаданих або доповнює існуючі стандарти власними параметрами. Це дає змогу точніше охарактеризувати тексти в аспекті мети створення й використання корпусу в дослідженнях. Відмінні від загальних стандартів метадані звичайно вказують на специфіку корпусу й доповнюють основні параметри метаопису, визнані всіма розробниками систем опрацювання текстів.

Так, Маннгеймський корпус німецької мови DeReKo містить інформацію про основні елементи корпусу: дату публікації, період створення, ім'я автора, назву видавництва, функціональний стиль тексту (періодична література, художня література тощо), місце публікації, тип тексту, тему та інші категорії, інформацію про копії, розмір копій, кількість слів / речень / параграфів, знаки старої і нової орфографії, умови ліцензії. Залежно від джерела тексту метадані перебувають у вільному або обмеженому для користувача доступі [9, с. 57].

Розробниками Китайського корпусу за основу метарозмітки прийнято рекомендації та вимоги OLAC і DCMI. Зазначена метарозмітка включає сорок шість параметрів, п'ятнадцять з яких належать до стандартів як OLAC, так і DCMI, три параметри - до стандарту OLAC, а двадцять вісім елементів метаопису визначаються виключно користувачем [12, с. 30].

Укладачі Національного корпусу російської мови (НКРЯ) користуються класифікацією Синклера-Шарова з власними корективами [6, с. 65]. Зміни до класифікації передусім стосуються таких елементів метаопису, як жанр та тема текстів. На відміну від EAGLES розробники НКРЯ пропонують більш деталізовані параметри класифікації текстів, що сприятиме точнішому процесу метарозмітки корпусу й повному опису його вмісту. Опис текстів корпусу передбачає двадцять п'ять параметрів, дев'ять з яких характеризують сам текст, три - автора, три - можливу аудиторію, чотири - бібліографічні дані про текст і п'ять параметрів стосуються службової інформації, необхідної для обліку й організації текстових файлів у складі корпусу. Однак серед використовуваних метаданих відсутня інформація, необхідна для розроблення програмного забезпечення [6, с. 65]. Крім описаної вище стандартної класифікації Синклера- Шарова, в корпусній лінгвістиці відома також класифікація текстів Дж. Аткінса, розроблена на основі двадцяти дев'яти параметрів, необхідних для планування збалансованого за жанрами текстів корпусу [10, р. 16-17].

В українській корпусній лінгвістиці проблема встановлення вимог до метаданих уперше постала на початку 2000 рр. Вимоги стосовно мовних даних корпусу та інформації про них визначалися потребами користувача - лінгвістів різної спеціалізації [4, с. 89-90]. При укладанні Національного корпусу української мови за стандарт індивідуального набору і структури корпусних метаданих було обрано систему метаданих Динамічного корпусу сучасної російської публіцистики. На базі цих даних була створена матриця параметрів, яка дозволила виділити сімдесят типів, за якими відбувався відбір текстів до Національного корпусу української мови. Проект національного корпусу мав на меті здійснення метарозмітки відповідно до набору метаданих В. Андрющенко [4, с. 90-91] на базі дванадцяти параметрів. По суті це є стандартним набором, базованим на схемі метаопису ТЕІ, що складається з таких параметрів: бібліографічний опис (ім'я автора, повна назва й ідентифікація джерела), копірайт, ідентифікатори комп'ютерної версії тексту, жанру, системи кодування, предметної галузі, тому / частини / книги / розділу / глави / дії [4, с. 90-91].

Хоча проект укладання Національного корпусу української мови не було завершено, його досвід використано для побудови дослідницьких корпусів текстів [1; 14; 15]. Дослідницький Корпус текстів української мови, розроблений в Інституті філології Київського національного університету імені Тараса Шевченка [15], побудовано із зазначенням інформації, що стосується анотування тексту (автор, джерело, рік видання тощо), структуризації тексту (номер розділу, абзацу, речення тощо), жанрових особливостей і типу тексту. Варто зауважити, що метатекстова розмітка корпусу є міжнародною (стандарт EAGLES Дж. Синклера з додатками для слов'янських мов С. Шарова), що, на думку укладачів, у майбутньому має полегшити зіставлення результатів у міжнародному Корпусі [3, с. 47].

Метарозмітка Корпусу українських текстів [14], розробленого на кафедрі української мови та прикладної лінгвістики Донецького національного університету, характеризується такими параметрами [2, с. 227]:

1) форма мовлення (усне, письмове, мережеве) та

2) стиль з подальшою класифікацією на підстилі (художній, науковий, офіційно-діловий, публіцистичний, конфесійний, розмовний), жанр тексту, час появи в аспекті п'яти зрізів (українсько-руський період - X-XV століття, староукраїнський період - XVI-XVIII ст., новоукраїнський період - XIX ст. - 1933 р., українсько-радянський період 1933-1991 рр., новітній український - з 1991 р.).

При цьому параметр часу появи тексту зумовлює специфіку й використання корпусу як діахронного для вивчення граматичної службовості, оскільки розробники розглядають дату появи тексту як відправну точку для розрізнення суттєвих правописних і граматичних відмінностей [2, с. 227].

Розроблений у лабораторії комп'ютерної лінгвістики Київського національного лінгвістичного університету корпус текстів з комп'ютерної лінгвістики [1, с. 405] призначено для створення тримовного тлумачного словника термінів [16]. Метарозмітка зазначеного корпусу, крім вихідних даних, включає окреме кодування анотації тексту, що дає можливість у майбутньому створити на базі корпусу автоматичну систему реферування фахових текстів [1, с. 405]. Отже, встановлений набір метаданих поряд з функціями пошукового механізму й лінгвістичною розміткою визначає функціональні можливості використання корпусу і його сумісність з іншими програмними продуктами.

Проект Корпусу анотацій наукових статей [5, с. 33] із комп'ютерної лінгвістики, створений у лабораторії комп'ютерної лінгвістики Київського національного лінгвістичного університету, включає два типи даних: 1) інформацію про автора (ім'я, місце роботи, чи є англійська рідною / нерідною мовою) і 2) текст (тема, назва, обсяг, джерело, дата публікації).

Метаінформація корпусу анотацій зберігається в окремій базі даних.

Проект корпусу фахових текстів з когнітивної лінгвістики, до якого входять повні оригінальні тексти англомовних авторів кінця ХХ - початку ХХІ століття, зокрема праці Джорджа Лакоффа, Марка Джонсона, Марк Тернера, Джерома А. Фельдмана, передбачає детальну тематичну розмітку. Тобто об'єктом опису стануть саме тематичні особливості текстів, а не структура, що дасть змогу виявити основні тенденції розвитку когнітивної лінгвістики на базі аналізу текстів англомовних авторів. Проведене дослідження вимог до метаданих дозволило дійти таких висновків:

1. У корпусній лінгвістиці до метаданих відносять інформацію про текстові дані, що входять до складу корпусу.

2. Найпоширенішими в сучасній корпусній лінгвістиці є стандарти класифікацій метаданих ТЕІ, IMDI і OLAC.

3. Параметри метаопису, представлені в рекомендаціях і вимогах усіх стандартів, складають перелік обов'язкових для зазначення метаданих.

4. Обов'язковими метаданими, необхідними для виконання лінгвістичних досліджень і програмних застосувань корпусу, є дані про розробника корпусу, умови його укладання - джерела, терміни створення, мову текстів, формат файлів, авторські права.

5. Залежно від мети створення корпусу й потреб користувачів розробники доповнюють стандарти або формують власні набори метаданих, про що свідчать особливості реалізації стандартів метаданих у сучасних корпусах текстів.

Література

1. Бобкова Т Корпус текстів з комп'ютерної лінгвістики / Т Бобкова та ін. // Матеріали 4-ї Міжнародної науково-технічної конференції “Комп'ютерні науки та інформаційні технології - 2009” 15-17 жовтня 2009 р. - Львів, 2009. - С. 405-407.

2. Данилюк І. Корпус текстів для вивчення граматичної службовості / І. Данилюк // Лінгвістичні студії. - Вип. 26. - Донецьк : ДонНУ, 2013. - С. 224-229.

3. Дарчук Н. П. Дослідницький корпус української мови : основні засади і перспективи / Н. П. Дарчук // Вісник Київського нац. ун-ту ім. Т Шевченка. Серія : Літературознавство. Мовознавство. Фольклористика. - К.: ВПЦ “Київський університет”, 2010. - № 21. - С. 45-49.

4. Демська-Кульчицька О. Основи національного корпусу української мови : [монографія] / Орися Демська-Кульчицька. - К. : Інститут української мови НАНУ 2005. - 219 с.

5. Коломієць В. Корпус анотацій наукових статей із комп'ютерної лінгвістики / В. Коломієць, В. Орел // Комп'ютерна лінгвістика : сучасне і майбутнє. Матеріали Міжнародної науково- практичної конференції. - К. : КНЛУ, 2012. - С. 32-34.

6. Савчук С. О. Метатекстовая разметка в Национальном корпусе русского языка: базовые принципы и основные функции / С. О. Савчук // Национальный корпус русского языка: 2003-2005. Результаты и перспективы. - М. : [б. в.], 2005. - С. 62-88.

7. Bumard L. Metadata for Corpus Work / L. Bumard. - [Access Mode] : http://users.ox.ac.uk/- lou/wip/ metadata.html

8. Burnard L. Reference Guide for the British National Corpus (XML Edition) / L. Bumard // British National Corpus Consortium by the Research Technologies Service. - Oxford : Oxford University Computing Services, 2007. - [Access Mode] : http://www.natcorp.ox.ac.uk/docs/URG

9. Kupietz M. The Mannheim German Reference Corpus (DeReKo) as a basis for empirical linguistic research / M. Kupietz, H. Keibel // Working Papers in Corpus-based Linguistics and Language Education. - No. 3. - Tokyo : Tokyo University of Foreign Studies, 2009. - Р. 53-59.

10. McEnery T. Corpus-based Language Studies : An Advanced Resource Book / T. McEnery, R. Xiao,Y. Tono - London : Routledge, 2006. - 386 р.

11. Simons G. OLAC Metadata Usage Guidelines / G. Simons, St. Bird, J. Spanne. - [Access Mode] : http://www.language-archives.org/NOTE/usage.html

12. The Standard of Chinese Corpus Metadata / He Tingting, Xiaoqi Xu // Proceedings of the Fifth Workshop on Asian Language Resources (ALR-05) and First Symposium on Asian Language Resources Network (ALRN). - 2005. - P. 24-31. - [Access Mode] : http://anthology.aclweb.org/ I/I05/ I05-4004.pdf

13. Wittenburg Р. Metadata Proposals for Corpora and Lexica / Р. Wittenburg, W. Peters, В. Broeder // LREC, 2002. - Max-Planck-Institute for Psycholinguistics. - [Access Mode] : http://www.mpi.nl/IMDI/ documents/2002%20LREC/Metadata%20Proposals%20for%20Corpora%20and%20Lexica.pdf

Джерела ілюстративного матеріалу

14. Корпус текстів української мови кафедри української мови та прикладної лінгвістики Донецького національного університету. - Донецьк. - Режим доступу : http://corpora.pp.ua/bonito/

15. Корпус текстів української мови. - К. - Режим доступу : http://www.mova.info/corpus. aspx?l1=209

16. Тримовний тлумачний словник термінів. - К., 2010. - Режим доступу : http://www. complinguide. com.ua/Corpus.aspx

Размещено на Allbest.ru

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.