Главная Коллекция "Revolution" Иностранные языки и языкознание Критерії визначення якості лінгвістичних корпусів на прикладі китайської, японської та індонезійської мов

Критерії визначення якості лінгвістичних корпусів на прикладі китайської, японської та індонезійської мов

Теоретичні розвідки та практичні дослідження задля нормалізації корпусу. Аналіз співвідношень type/tokenratio, а також показників середньої довжини речення ASL. Побудова та оцінка графіків розподілу лексики по частотності та довжині речень у корпусі.

Рубрика	Иностранные языки и языкознание
Вид	статья
Язык	украинский
Дата добавления	15.04.2023
Размер файла	554,2 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Інститут філології Київського національного університету імені Тараса Шевченка

Критерії визначення якості лінгвістичних корпусів на прикладі китайської, японської та індонезійської мов

Олександр Козоріз,

кандидат філологічних наук, асистент кафедри мов і літератур Далекого Сходу та Південно-Східної Азії

м. Київ

Анотація

У результаті дослідження автором було створено вісім лінгвістичних корпусів паралельних текстів на основі різних джерел з порівняльною метою (три основних і п (ять похідних). Дієвими виявилися методи завантаження матеріалу для корпусу на основі частотного списку, електронних словників, а також частотних списків слів попередньо самостійно створених корпусів. Проведено теоретичні розвідки та практичні дослідження задля нормалізації корпусу. Результативними для дослідження корпусу виявилися співвідношення type/ tokenratio, показники середньої довжини речення ASLтощо. TTR, ASL, type, tokensта інші показники корпусу можуть різнитися відповідно до мови, лівої чи правої частини корпусу. Побудова графі~ків розподілу лексики по частотності та довжині речень у корпусі яскраво унаочнює результати досліджень, ефективно репрезентує матеріал. Для укладених корпусів було обраховано загальну кількість знаків, слів та речень у корпусі з відповідною узагальнюючою таблицею; встановлено середню довжину речень ASL, співвідношення type/ tokenratioTTR; написано програму на мові Pythonдля обрахунку зазначених величин; складено частотні списки лексики, пораховано загальну кількість унікальної лексики та побудовано відповідні логарифмічні графіки; запропонована методика аналізу розподілу лексики частотного словника тексту на основі графі~ків шляхом поділу їх на три частини: початкову, середню та хвостову - вважається нами перспективною. Запропоновано комплексну методику визначення якості корпусу на основі показників TTR, type, показників графіку розподілу лексики корпусу по частотності, а також розподілу речень корпусу по кількості слів. Для визначення продуктивних моделей речень запропоновано методику статистичного зрізу у вигляді окремих корпусів із відповідними довжинами речень. Розроблено методологію роботи з корпусами східних мов - китайської, японської, що не містять проміжків між словами, а також порівняльну методику для індонезійської мови.

Ключові слова: якість лінгвістичного корпусу, електронний корпус текстів, паралельний корпус, нейронні мережі, системи автоматичного перекладу, китайська мова, японська мова, індонезійська мова.

Abstract

Oleksandr Kozoriz,

Ph. D. in Philology, Assistant at the Department of Languages and Literatures of the Far East and Southeast Asia Taras Shevchenko National University of Kyiv (Kyiv, Ukraine)

Criteria for determining the quality of linguistic corpora based on the example of Chinese, Japanese and Indonesian languages

The result of authors research is creation of eight linguistic corpora of parallel texts based on different sources in comparative purposes (three as the main and five as the derivatives). The methods for downloading material for the corpus, which are based on the frequency list, electronic dictionaries, as well as frequency word lists of previously self - created corpora, proved to be effective. The theoretical investigations and practical researches for normalization of the corpus were carried out. The type / token ratio, indicators of the average sentence length ASL, etc. proved to be effective for the study of the corpus. TTR, ASL, types, tokens and other indexes may vary according to the language, left or right part of the corpus. The construction of the graphs of the vocabulary distribution by frequency and length of sentences in the body clearly illustrates the results of the research and represents the material effectively. For the enclosed corpora, the total number of signs, words and sentences in the corpus with the corresponding summary table were calculated; the average sentences length (ASL), the type / token ratio (TTR) were determined; the program was written in Python to calculate all these values; frequency lists of vocabulary were compiled, the total number of unique vocabulary was calculated and the corresponding logarithmic graphs were constructed. The proposed method of analysis of the frequency dictionary vocabulary distribution, which is based on the graphs by dividing them into three parts (initial, middle and tail), is considered promising. A complex method for determining the quality of the corpus based on the TTR, type indicators, indicators of the graph of the corpus vocabulary distribution by frequency, as well as the distribution of corpus sentences by the quantity of words is offered. To determine the productive models of sentences, a method of the statistical section in the form of separate corpora with the appropriate lengths of sentences is shown. The methodology of working with the corpora of Oriental languages (Chinese, Japanese), which do not contain spaces between words, has been developed. The comparative methodology for the Indonesian languagewas conducted.

Key words: linguistic corpus quality, electronic text corpus, parallel corpus, neural networks, automatic translation systems, Chinese language, Japanese language and Indonesian language.

Основна частина

Нині спостерігається значний інтерес до використання корпусів в освітній та професійній сферах. Значна кількість словників укладається на основі корпусів. Серйозною проблемою виявляється визначення якості корпусу, відбір необхідного матеріалу, в тому числі серед величезної кількості наявних корпусів. Адже добір текстів для корпусу, а також текстів перекладу - права частина корпусу, визначають якість термінології, що добувається на їхній основі.

Актуальність і новизна теми полягає у тому, що запропоновано аналіз на основі поєднання різноманітних статистичних характеристик корпусу для визначення його якості, у тому числі в автоматичному режимі. Швидке визначення якості лінгвістичних корпусів великих обсягів із навчальною, дослідницькою та прикладною метою на основі статистичних даних раніше не здійснювалося подібним чином. Створення якісних паралельних корпусів східних мов із українською парою наразі є необхідною умовою для покращення роботи систем машинного перекладу. Окремо була розроблена методологія роботи з корпусами східних мов, що не містять проміжків між словами: китайська та японська мови.

Задля досягнення мети дослідження слід виконати такі завдання: визначити джерела лінгвістичного матеріалу; створити чи отримати кілька корпусів із різних джерел, користуючись відмінними методами; розглянути основні можливі характеристики створених корпусів; запропонувати критерії оцінювання якості корпусів. Під якістю корпусу ми розуміємо високий ступінь різноманітності ілюстративного матеріалу для окремої лексичної одиниці. Якість паралельного корпусу, як оцінювання якості перекладених текстів правої частини паралельного корпусу, у межах цієї статті розглядатися не буде.

В Україні у сфері корпусної лінгвістики працювали такі дослідники: О.О. Балабан, Н.М. Бобер, М.М. Брик, Н.П. Дарчук, О.А. Дюндик, А.М. Желєзко, В.В. Жуковська, В.П. Захаров, П.В. Зернецький, О.М. Зубань, Л.С. Івашкевич, Я.В. Капранов, Є. А. Карпіловська, В.І. Качанов, В.В. Комаренко, А.В. Корольова, Ю.В. Крав - цова, Н. Є. Леміш, Л.Л. Макарук, Т.Б. Маслова, С.А. Матвєєва, Б.О. Назаров, В.О. Папіжук, В.М. Підвойний, Ю.І. Позніхіренко, В.Ф. Старко, А.А. Таран, О.М. Тищенко, О.В. Ткачик, Т.С. Толчеєва, М.О. Шведова, С.М. Щербина. Основні напрями їхніх досліджень можна побачити у матеріалах першої Міжнародної науково-прикладної конференції «Прикладна і корпусна лінгвістика: розроблення технологій нового покоління» за 25 квітня 2018 року. Закордоном відомі такі прізвища: S. Hoffmann, S. Evert, G. Kennedy, T. MacEnery, C. Meyer, T. Otlogetswe, J. Sinclair, J. Svartvik, E. Tognini - Bonelli, A. Hardie, G. Leech, Ch. Fillmore, P. Baker, Douglas Biber, W. Francis, R. Xiao, Lu. Xiaofei та багато інших. Усі зазначені дослідники мають власний підхід, завдання і мету дослідження корпусів, що лише опосередковано по'вязані з результатами наших досліджень, запропонованими тут методиками створення та аналізу корпусів.

Найбільш вдалим прикладом іноземних досліджень, що корелюють із нашими, буде стаття G. CorpasP. та M. Seghiri «Розмір має значення» (GloriaCorpasPastor), де описується робота програми ReCor, яка призначена для визначення ідеального розміру репрезентативного корпусу; показує кількість типів, кількість лексем, співвідношення TTR, кількість слів, що з'являються лише один раз (V1) та кількість слів, які з'являються лише двічі (V2); зазначена програма окремо створює файли списки слів із їхньою частотністю поданими в алфавітному порядку та ранжова - ними. Попри вагомі результати дослідниці доходять висновку, що наразі питання репрезентативності корпусу та його ідеальний розмір лишається невизначеним.

Під лінгвістичним корпусом ми розуміємо великий (не менше одного мільйона речень) за обсягом набір мовних даних, відібраних за певним організуючим принципом, які зберігаються в електронному вигляді. Відповідно паралельний корпус - це електронний корпус унікальних речень, який окрім оригінальних текстів має переклади іншою мовою, що вирівняні відповідно до оригіналу за реченнями. Головним атрибутом якісного корпусу виступає його репрезентативність, обумовлена домінантою, що об'єднує всі тексти єдиним логічним задумом. Усі корпусно-орієнтовані дослідження покладаються на якість, кількість та репрезентативність корпусу як основу для отримання достовірних результатів.

Оскільки жоден корпус текстів не містить інформацію про всі сфери лексики і граматики, яким би великим цей корпус не був, а будь-який малий корпус може надати факти, які ніколи не можна було б з'ясувати жодним іншим способом, тому основна задача при створені корпусу - це збалансовано відібрати матеріал для дослідження.

На думку Т. МакЕнері репрезентативність більшості корпусів великою мірою обумовлюється набором жанрів, включених до корпусу (збалансованість), та критеріями відбору текстів кожного жанру (відібраність) (McEnery2006, 11).

На нашу думку, основними напрямками використання паралельних корпусів на сьогодні є: 1) навчальні та дослідницькі цілі, аби перевірити, чи використовується певна лінгвістична форма в мові в певному контексті; 2) для створення систем машинного перекладу, які теж «навчаються» на паралельних корпусах; тому репрезентативним буде відбір речень за двома критеріями: лексичним та граматичним. Лексичний полягає у доборі речень, що містять слова за частотним списком мови або списками-слів створених на базі термінологічних словників, при цьому кожне таке слово має бути представлене мінімум 10 ілюстративними реченнями у корпусі. Визначити граматичний критерій дещо складніше, оскільки відсутній частотний список граматичних моделей речень, а варіативність мовлення наближається до безкінечності.

Однак критерієм, що корелює з частотністю граматичних моделей речень, може бути довжина речення у поєднанні з частотністю кожного слова цього речення. Ми знаємо, що речення короткої і середньої довжини трапляються частіше в усному мовленні, натомість художню прозу і популярні журнали репрезентують середні та довгі речення; самі лише довгі речення характерні для публіцистичних та наукових текстів. Тому, ймовірно, варіативність вживання певного слова для певної довжини речення буде обмеженою.

До нашої уваги потрапили такі статистичні характеристики корпусів як: загальна кіль кість знаків (characters), загальна кількість слів (wordsабо tokens), загальна кількість речень (sentences'), загальна кількість різних слів (type), співвідношення TTR, ASLтощо. Співвідношення type/ tokenratio (TTR) - це співвідношення між типами та лексемами корпусу. «Типи» - це сукупність різних слів корпусу. Як показали попередні наші дослідження, чим довший текст, тим менший відсоток TTR. Значення TTRрахувалося за англійською частиною паралельного корпусу. ASL - це середня довжина речення (англ. Averagesentencelength)= words/ sentences). Представлені нижче статистичні характеристики рахувалися за англійською частиною корпусів, оскільки тут легше здійснити поділ на слова, а згадані вище індекси були розроблені саме під англійську мову.

Окремо автором було розроблено методологію дослідження корпусу шляхом поділу логарифмічного графіка розподілу лексики корпусу по частотності на три частини: початкову, середню та кінцеву. Кінцева ділянка графіка представляє лексику з частотою вживання, що дорівнює 1, середня частина графіка репрезентує частотність від 10 до 2 слововживань, початок графіка - лексика з частотністю вище за 11 включно. На нашу думку частотність 10 є оптимальною для логарифмічного графіка.

Скориставшись своїм попереднім досвідом, було створено власний паралельний корпус китайсько-англійських перекладів на основі сайту-словника Quword (Quword). Першим кроком було складання списку слів для пошуку та завантаження. З цією метою, спочатку за основу було взято частотний список англійської мови 5000 слів, який є у вільному доступі; оскільки інформація щодо частотного списку на 60 і 220 тисяч слів дається фрагментарно - лише кожне п'яте слово (Wordfrequencydata).

Завантаження сторінок зазначеного словника виконувалося за допомогою програми WinHTTrackWebsiteCopier (HTTrackWebsiteCopier). Пошукові запити: https.. //www. qwword.com/ liju/w/onlyабо https://www.quword.com/search? - word=єєУп. Для подальшого редагування отриманого htmlкоду за допомогою регулярних виразів використовувався текстовий редактор EmEditor (EmEditor). Об'єднуємо усі отримані сторінки в одну командою: «copy*.* file_name». Фільтруємо всі строчки, що починаються з тегів: «<dl><dt>». Вилучаємо зайве. Не всі словники можна скачувати таким чином, наприклад, сайт https:// www.youdao.com/має захист від скрейпінгу.

Для подальшого збільшення величини корпусу ми застосували інший метод. Шляхом першого завантаження було отримано корпус на 106 000 паралельних пар речень китайської і англійської мов; після складення частотного списку англійської частини цього корпусу, отримано словник - список вже на 42 000 слів, на основі якого була повторена процедура завантаження і отримано корпус до 920 000 пар речень або 12 900 000 лексем, який має словник на 166 000 слів, 46% яких (76 000) вживаються лише один раз - правий «хвіст» графіка; середня частина графіка - частоти від 10 до 2-х - займає близько 28% лексики (47 000); найчастотнішими є перші 26% слів (43 000), див. Граф. 1. TTRкорпусу - 1,3% (166 000 / 12 900 000). Середня довжина речення становить 14 слів.

Дещо інакший підхід було застосовано для отримання інформації з іншого сайту Xxenglish (Xxenglish). На основі словника Collins (CollinsEnglishDictionary) було підготовлено список слів (близько 80 000) та проведено завантаження. У результаті отримано корпус на 1 330 000 пар речень або 18 691 000 лексем, який має словник на 322 000 слів, 50% яких (162 000) вживаються лише один раз - правий «хвіст» графіка; середня частина графіка - частоти від 10 до 2-х - займає близько 30% лексики (96 000); найчастотнішими є перші 20% слів (64 ?0). TTRкорпусу - 1,7% (322 000 / 18 691 000). Середня довжина речення становить 13,68 слів.

У порівнянні помітно аномально високий TTRдругого корпусу, хоча із зростанням обсягу корпусу ця величина має зменшуватися, тобто тут він має бути меншим за 1,3% (TTRпершого меншого корпусу). Також на Граф. 2 помітно, що «сходинка» лексики, з якої починається спад, змістилася до початку графіка, тобто кількість гарно проілюстрованої лексики (більше 10 слововживань на корпус) зменшилася щодо загального обсягу лексики. Можна говорити про недостатню якість корпусу, а отже і сайту-першоджерела для потреб створення корпусів.

Для порівняння було також досліджено третій корпус отриманий з сайту OPUS (Theopenparallelcorpus) обсягом 106 000 пар речень або 668 000 лексем, який має словник всього на 11 700 слів; 35% яких (4150) вживаються лише один раз - правий «хвіст» графіка; середня частина графіка - частоти від 10 до 2-х - займає близько 41% лексики (4750); найчастотнішими є перші 24% слів (2 800), див. Граф. 3. TTRкорпусу - 1,75% (11 700 / 668 000). Середня довжина речення становить 6,3 слів. Для порівняння та узагальнення результатів аналізу корпусів див. Табл. 1.

Порівняльна таблиця статистичних даних корпусів

graph

characters

words (token)

sentences

type

TTR

ASL

початок

середина

кінець

1

61 372 000

12 900 000

920 000

166 000

1,3%

14

26%

28%

46%

2

91 182 000

18 691 000

1 366 000

322 000

1,7%

13,68

20%

30%

50%

3

2 476 000

668 000

106 000

11 700

1,75%

6,3

24%

41%

35%

Граф. 1. Логарифмічний графік розподілу лексики корпусу по частотності на 920 000

Граф. 2. Логарифмічний графік розподілу лексики корпусу по частотності на 1 366 000

Граф. 3. Логарифмічний графік розподілу лексики корпусу по частотності на 106 000

Усі зазначені у таблиці характеристики можна автоматично підрахувати за допомогою невеличкої програми, написаної автором на мові Python, що використовує модуль NaturalLanguageToolkit (NLTK), спеціально розроблений для аналізу «природних мов»:

Середня довжина речення ASLдає слабке уявлення про реальні довжини речень корпусу. Тому було досліджено довжину кожного речення у словах для зазначених корпусів та побудовано графіки, тобто пораховано кількість речень у корпусі відповідної довжини. Кількість слів у реченні визначалася регулярним виразом: ^A(\w+VW+) {X}$ - де Х, кількість слів у реченні; словосполучення тут не враховані, оскільки в кінці виразу обов^?язково має стояти розділовий знак; «\W+» - означає один і більше розділовий знак (пробіл, кома, крапка, тире, апостроф тощо); регулярний вираз «\w+» використовувався для пошуку слів, відповідно «\w» - для знаків (символів). Підрахунок загальної кількості знаків із пробілами та іншими розділовими знаками у тексті дещо відрізняється від кількості знаків у самих лише словах, це треба враховувати при визначенні середньої довжини слова.

Граф. 4. Графіки розподілу кількості слів у реченні для корпусів на 920 000, 1 330 000 та на 106 000 речень

На Граф. 4 розподілу кількості слів у реченні добре видно, що другий, найбільший корпус, має пік в районі 8 слів - тобто це досить характернадовжина речення цього корпусу, таких речень тут найбільше. Загалом середня довжина речень двох найбільших корпусів від 6 до 12 слів, що характерно для розмовної мови; менший корпус, створений штучно, спеціально для коротких речень. У другому (найбільшому за обсягом) корпусі помітна аномалія: кількість речень з довжиною у 4 слова менша вдвічі (8600 речень проти 16000 речень), ніж у корпусах суттєво менших за обсягом. Цікаво, що усі корпуси мають відносно незначну кількість речень - на 2, 3, 4 і 5 слів.

Тому було проведено інший експеримент для речень із довжиною у 4 слова. З цією метою на основі попередніх корпусів зроблено статистичний зріз у вигляді трьох окремих корпусів з довжинами речень у 4 слова. Результати статистичних досліджень представлено у Табл. 2, корпуси 1.а, 2.а, 3.а.

Порівняльна таблиця статистичних даних корпусів на 4 слова у реченні

graph

characters

words (token)

sentences

type

TTR

ASL

початок

середина

кінець

1.a

331320

64396

16101

16361

25%

4

3,5%

40,5%

56%

2.a

205445

34492

8623

14853

43%

4

1,7%

32,3%

66%

3.a

261567

66840

16711

4839

7,2%

4

15%

42%

43%

3.b

220480

59116

14780

2765

4,7%

4

25%

70%

5%

3.c

117719

32636

8160

703

2,1%

4

81%

19%

0,01%

Граф. 1.aЛогарифмічний графік розподілу лексики корпусу на 920 000 по частотності для 4-слівних речень

Граф. 2.a Логарифмічний графік розподілу лексики корпусу по частотності на 1 366 000 для 4-слівних речень

Граф. 3.aЛогарифмічний графік розподілу лексики корпусу по частотності на 106 000 для 4-слівних речень

Граф. 3.b Логарифмічний графік розподілу лексики корпусу по частотності на 106 000 для 4-слівних речень, скоригований по частотності 1

Граф. 3.cЛогарифмічний графік розподілу лексики корпусу по частотності на 106 000 для 4-слівних речень, скоригований по частотності від 1 до 10

Звернімо увагу, що найвагомішим показником якості корпусу є TTR, чим він менший-то краще. На великих корпусах він може становити показники менші за 1, на малих має наближатися до 1.

Показники у кілька десятків відсотків означають, що перед нами корпус, який складається зі словосполучень. Зазначені спостереження не стосуються оцінки якості невеличких творів, де TTRмає бути навпаки більшим, що буде говорити про елегантність і різноманіття мови автора.

Не менш важливими є кількісні показники частотності лексики, що добре видно на графіках розподілу лексики корпусів по частотності для речень довжиною в чотири слова, див Граф. 1.а, 2а, 3.а.

Найгірші результати репрезентації лексики продемонстрував корпус 2.а, який має довжелезний «хвіст» - 66% (слова, що вживаються лише один раз), невеличку середину - 32,3%, і куций початок 1,7% - означає, що корпус складається переважно зі словосполучень, які не повторюються. У корпусі 1.а дещо коротший «хвіст» 56%, дещо довша середина 40,5% і початок 3,5% - це кращий результат ніж у попередньому випадку, але все ще не ідеально як для корпусу, що репрезентує саме текстовий матеріал. Найкраще репрезентує лексику корпус із графіком 3.а, у нього найкоротший «хвіст» - 43% і найбільший початок - 15%, хоча загальний словник корпусу (показник type - 4839) менший за попередні два корпуси, але кожне слово має широкий ілюстративний вжиток.

Проведемо ще один експеримент, який полягає у вилучені з корпусу речень, що мають рідковживану лексику: обріжемо правий «хвіст» корпусу, див. Граф. 3.b (тут обрізано речення, що містять слова на одне входження) та Граф. 3.c (тут обрізано речення, що містять слова від 1 до 10 входжень). Як видно з цих графіків та статистичної інформації у Табл. 2. Нам вдалося покращити TTRкорпусу до 2,1%, а початкову частотну лексику довести до 81%. Хоча загальний показник кількості лексики (показник type) зменшився до 703 одиниць, а корпус представляє лише речення з довжиною у чотири слова, але суттєво зрослаякість ілюстративного матеріалу, майже на кожне слово із частотного списку тепер можна знайти більше десяти прикладів вживання у корпусі. Тобто, якщо застосовувати такі тексти у навчальному процесі, студенту достатньо мати лише 703 слова словникового запасу для їхнього розуміння. Такі скориговані корпуси можуть бути використані як дидактичний матеріал для студентів, так і для створення термінологічних словників.

На підтвердження наших слів проілюструємо якість корпусу 3.а вживанням англійської словоформи «saw», див. Табл. 3. Хоча наведено лише деякі приклади вживання у невеличкому корпусі речень, втім, очевидно, що моделі речень, представлені тут для довжин у 4 слова, є достатньо репрезентативними. Основна модель речення буде «S - P - О» у різноманітних варіаціях додавання однослівного означення чи обставини або складного додатку (ComplexObject).

Ілюстративна таблиця вживання словоформи «saw» для корпусу 3.а на 4 слова у реченні

He also saw it.

ЛыТІїґµЅБЛЎЈ

I saw what happened.

ОТїґµЅ·ўЙъБЛКІГґКВЎЈ

I saw a dog.

ОТїґµЅБЛТ»Мх№·ЎЈ

I saw you yesterday.

ОТЧтМмїґµЅДгБЛЎЈ

I saw five men.

ОТїґµЅОеёцДРИЛЎЈ

I saw your father.

ОТїґјыБЛДгёёЗЧЎЈ

I saw her yesterday.

ОТЧтМмјы№эЛэЎЈ

No one saw anything.

Г»УРИЛїґµЅИОєО¶«ОчЎЈ

I saw him jump.

ОТїґµЅЛыМшБЛЎЈ

No one saw us.

Г»УРИЛїґµЅОТГЗЎЈ

I saw him recently.

ОТЧоЅьјы№эЛыЎЈ

Nobody saw it coming.

Г»УРИЛїґµЅЛьµДµЅАґЎЈ

I saw him running.

ОТїґµЅЛыФЪЕЬІЅЎЈ

She saw him smile.

ЛэїґµЅЛыОўР¦ЎЈ

I saw the fight.

ОТїґµЅБЛґтјЬЎЈ

Tom never saw Mary.

МАД·ґУОґјы№эВкАцЎЈ

I saw the sunrise.

ОТїґµЅБЛИХіцЎЈ

Tom saw the cat.

МАД·їґјыБЛДЗЦ»ГЁЎЈ

I saw them kissing.

ОТїґµЅЛыГЗЅУОЗЎЈ

We saw her dance.

ОТГЗїґµЅБЛЛэµДОиµёЎЈ

I saw Tom blush.

ОТїґµЅМАД·БіємБЛЎЈ

We saw it all.

ОТГЗїґµЅБЛТ»ЗРЎЈ

They saw something odd.

ЛыГЗїґµЅБЛЖж№ЦµД¶«ОчЎЈ

Tom saw what happened.

МАД·ЦЄµА·ўЙъБЛКІГґКВЎЈ

Для роботи зі східними мовами, що не містять проміжків між словами, як наприклад китайська чи японська, можна додатково використовувати програму поділу речень на слова SegmentAnt (SegmentAnt). Програма звісно дає певний відсоток помилок, але в ній дозволено використовувати також власний словник для збільшення точності правильного сегментування речення на слова.

Аби перевірити якість роботи програми та методологію роботи із зазначеними східними мовами загалом було використано відносно невеликий японсько-український та китайсько-український корпус субтитрів із сайту OPUS (Theopenparallelcorpus). Після поділу на слова східна частина текстів виглядає наступним чином, див. Табл. 4.

Ілюстративна таблиця роботи програми SegmentAntдля японської та китайської мов

японська мова

українська мова

Я^ИҐІйЦ§ЕдСФ^ХЯаОґАґ№з7'Ц§ЕдСФs

Хто контролює минуле - той контролює майбутнє,

¬FФЪ&Ц§0d ХЯ^Я^ИҐНЭЦ§0dTІФ

Хто контролює сьогодення - той контролює минуле

¶юФэ#ОТЎ©®№ъ

Це наша земля.

ЖЅєНtШN·y®№ъ

Земля миру та достатку.

Х{єНtПЈНы®№ъ

Земля гармонії та надії.

¶ю¶ю#ОТЎ©®№ъ

Це наша земля.

китайська мова

українська мова

І»Ј¬ОТТЄЙъ»оЈЎ

Ні, я буду жити!

ОТГЗТЄНжЧЄХвёціЗХтЈЎ

Будемо святкувати на всю.

РЎРДЈ¬ДгФхСщїЄіµµД

Уважніше за кермом.

ОТФЪїЄіµВрЈї

Я за кермом?

ОТПІ»¶ДгµДіµ

Мені подобається твоя машина.

ДгїЄЛьЈ¬ЛьѕНКЗДгµД

Тоді забирай її, вона твоя.

ОТµДЕуУСФЪДДАпЈї

Де мій друг?

ИГЛыЅшАґЈ¬ЛыКЗОТµДїНИЛЈЎ

Впусти його, він мій гість!

ОТГЗИҐВтТ»Р©»Ё

Давай купимо квітів.

Таблиця статистичних даних корпусів субтитрів японської та китайської мов

Language

characters

words (tokens)

sentences

^typ^e

TTR

ASL

японська

1 551 151

879 784

132 404

41 372

4.70

6.64

китайська

2 215 564

1 420 580

237 741

70 921

4.99

5.98

Таблиця статистичних даних англо-індонезійського корпусу субтитрів

Language

characters

words (tokens)

sentences

type

TTR

ASL

англійська

215 019 441

57 316 396

9268181

210 298

0.37

6.18

індонезійська

244 991 807

46 285 450

9268181

310 553

0.67

4.99

Аналіз статистичних характеристик проводився за східномовними частинами корпусу з використанням зазначеної вище програми на Python. Як бачимо з отриманих даних, див. Табл. 5 та Граф. 5, наша методологія цілком дозволяє проводити статистичний аналіз східних мов - японської та китайської, що не мають поділу тексту на окремі слова. Показники TTRговорять про те, що перед нами корпуси середньої якості, а показники ASLта графіки розподілу кількості слів у реченні підказують розмовний характер текстів, що не суперечить зазначеній тематиці субтитрів. Інші показники дають нам уявлення про розмір корпусу: загальну кількість речень, слів, унікальних слів та символів.

Граф. 5. Графіки розподілу кількості слів у реченні для корпусів японської та китайської мов

корпус лексика речення лінгвістичний

Граф. 6. Графіки розподілу кількості слів у реченні для англо-індонезійського корпусу субтитрів на 9 млн. речень

Аби урізноманітнити методологію роботи з корпусами інший тип експерименту ми провели на базі лівої і правої частин англо-індонезійського корпусу субтитрів із сайту OPUS (Theopenparallelcorpus), порівнявши розподіл довжин речень для цих двох мов, див. Табл. 6 та Граф. 6.

Корпус має досить великий обсяг - 9 мільйонів речень, тому результати дослідження, а отже і висновки, є абсолютно достовірними. Як бачимо на Граф. 6 - кількість речень зазначена у млн., у індонезійській мові суттєво більше (на 200 тис.) кожної довжини коротких речень від 2 до 5 слів, що корелює з показниками tokensта ASLу Табл. 6 і говорить про більшу довжину англійського речення у порівнянні до індонезійського. Цікавим також є факт, що кількість унікальних слів (type) в англійській мові є набагато меншою ніж в індонезійській.

Отже, найкраще оцінку якості корпусу дає комплексний підхід, визначальними є поєднання таких факторів як: побудова графіків розподілу лексики по частотності у поєднанні з графіками розподілу кількості слів у реченні (довжини речень), співвідношення type/ toke^ rat^oTTR, показник type (загальна кількість унікальної лексики), а також запропонована методика аналізу розподілу лексики частотного словника на основі графіків шляхом поділу їх на три частини: початкову, середню та хвостову.

Будь-який корпус допасовується до цілей і мети, що мотивували його створення. Відповідно до критеріїв зазначених нами вище, графіки розподілу кількості слів у реченні мають бути збалансовані по всій довжині, бажано аби речення кожної довжини у корпусі були представлені рівномірно по кількості. TTR, ASL, type, tokensта інші показники корпусу можуть різнитися відповідно до мови, лівої чи правої частини корпусу. Рекомендований показник TTRякісного корпусу має становити менше 1%, ідеально 0,5% на великих корпусах (більше двох мільйонів речень); показник type - що більше, то краще, але він корелює з попереднім показником; графік розподілу лексики по частотності має мати рівномірну висоту по всій довжині осі координат «Х», що буде означати широкий ілюстративний вжиток кожної лексичної одиниці у межах корпусу (більше 10 одиниць). Ці показники можна корегувати експериментально, вилучаючи з корпусу речення, що мають рідковживану лексику (частотність = 1 або позиції від 1 до 10), але оскільки вони тісно пов'язані з довжинами речень, то буде відповідне розбалансування довжин речень, прогнозоване їх зменшення. Тому, можна запропонувати іншу методику: додавання до корпусу речень, що містять лексику з малими частотами від 1 до 10, на жаль, як показала практика, не завжди можна знайти необхідний матеріал.

Для визначення продуктивних моделей речень виправданою є методика статистичного зрізу у вигляді окремих корпусів із відповідними довжинами речень, на основі яких можна робити ґрунтовні всебічні узагальнення щодо лексичного вжитку і граматичних моделей. Тексти таких корпусів можуть бути ефективно використані як дидактичний матеріал для студентів на початковому етапі навчання іноземним мовам, для створення термінологічних словників, навчання нейронних мереж, систем автоматичного перекладу.

Список використаних джерел

1. Collins English Dictionary (2006), 8th Ed., Harper Collins Publishers, London.

2. EmEditor. URL: https://www.emeditor.com/ (accessed 12 March 2021).

3. Gloria Corpas Pastor &Miriam Seghiri (2010), «Size matters: A quantitative approach to corpus representativeness», pp. 111-146. URL: https://wlv.openrepository.com/handle/2436/622560 (accessed 12 March 2021).

4. HTTrack Website Copier. URL: http://www.httrack.com (accessed 12 March 2021).

5. McEnery T., Xiao R. and Tono Y. (2006), Corpus-based Language Studies: an Advanced Resource Book / T. McEnery, R. Xiao, Y. Tono. London, Routledge, 386 p.

6. NLTK. URL: http://www.nltk.org/ (accessed 12 March 2021).

7. QuWord. URL: www.quword.com/ (accessed 12 March 2021).

8. SegmentAnt. URL: https://www.laurenceanthony.net/software/segmentant/ (accessed 12 March 2021).

9. The open parallel corpus. URL: https://opus.nlpl.eu/ (accessed 12 March 2021).

10. Word frequency data. URL: www.wordfrequency.info/samples.asp (accessed 12 March 2021).

11. Xxenglish. URL: www.xxenglish.com/ (accessed 12 March 2021).

References

1. Collins English Dictionary (2006), 8th Ed., Harper Collins Publishers, London.

2. EmEditor. URL: https://www.emeditor.com/ (accessed 12 March 2021).

3. Gloria Corpas Pastor &Miriam Seghiri (2010), «Size matters: A quantitative approach to corpus representativeness»Ј¬pp. 111-146. URL: https://wlv.openrepository.com/handle/2436/622560 (accessed 12 March 2021).

4. HTTrack Website Copier. URL: http://www.httrack.com (accessed 12 March 2021).

5. McEnery T., Xiao R. and Tono Y. (2006), Corpus-based Language Studies: an Advanced Resource Book / T. McEnery, R. Xiao, Y. Tono. London, Routledge, 386 p.

6. NLTK. URL: http://www.nltk.org/ (accessed 12 March 2021).

7. QuWord. URL: www.quword.com/ (accessed 12 March 2021).

8. SegmentAnt. URL: https://www.laurenceanthony.net/software/segmentant/ (accessed 12 March 2021).

9. The open parallel corpus. URL: https://opus.nlpl.eu/ (accessed 12 March 2021).

10. Word frequency data. URL: www.wordfrequency.info/samples.asp (accessed 12 March 2021).

11. Xxenglish. URL: www.xxenglish.com/ (accessed 12 March 2021).

Размещено на Allbest.ru
...

статья "Критерії визначення якості лінгвістичних корпусів на прикладі китайської, японської та індонезійської мов" скачать

Подобные документы

Називні речення
Поширені і непоширені називні речення. Основні види односкладних речень. Особливості односкладних речень з головним членом - підметом. Способи вираження головних членів речення односкладних речень. Роль односкладних речень у текстах різних стилів.

разработка урока [145,1 K], добавлен 25.11.2014

Складне речення. Складносурядне речення
Поняття про складне речення, його функції в мові. Засоби вираження зв’язку між частинами складного речення. Характеристика типів складних речень. Структура складносурядних речень, їх основні різновиди. Ознаки складносурядних речень, його складові частини.

лекция [22,2 K], добавлен 26.08.2013

Структура складносурядних розповідних речень в сучасних німецьких художніх фільмах
Речення як вербальний засіб вираження інформації, що слугує комунікативним інтересам мовця. Аналіз результатів дослідження структурних особливостей розповідних складносурядних речень, вербалізованих у діалогічному мовленні персонажів німецького кіно.

статья [23,6 K], добавлен 27.08.2017

Історичний розвиток багатокомпонентних речень
Вивчення багатокомпонентного складного речення в системі мови. Неелементарне складносурядне речення. Структурні особливості неелементарних складнопідрядних речень. Багатокомпонентні конструкції у пам'ятках староукраїнської писемності XIV-XVII ст.

курсовая работа [95,3 K], добавлен 26.03.2014

Безсполучникові складні речення. Синтаксичні конструкції. Українська пунктуація. Граматичний аналіз речень
Різновиди складних безсполучникових речень. Види безсполучникових складних речень з різнотипними частинами. Складні синтаксичні конструкції, їх функції у мові. Формування української пунктуації, її основні принципи. Схеми граматичного аналізу речень.

курс лекций [124,3 K], добавлен 26.08.2013

Складні сполучникові речення
Поняття та визначення складних речень, особливості їх утворення з двох чи більше простих, об'єднаних в одне ціле змістом і інтонацією. Застосування сполучників та сполучних слів, види розділових знаків, їх використання. Утворення складносурядних речень.

презентация [211,1 K], добавлен 25.11.2011

Безособові речення в сучасній англійській мові
Просте речення. Визначення. Структура. Види простого речення. Категорія безособовості. Безособові речення в історичному контексті. Присудок безособових речень. Двочленні структури з it. Дієслівний та іменний присудок. Засоби вираження предикативу.

курсовая работа [58,4 K], добавлен 23.06.2007

Складнопідрядні речення
Загальна характеристика складнопідрядних речень, їх структура і функції в мові. Класифікація підрядних речень, характеристика їх видів. Різнотипні, нерівноправні частини, залежні одна від другої, у складі складнопідрядних речень. Основі засоби зв'язку.

лекция [52,1 K], добавлен 26.08.2013

Функціонально-семантична модель речення: поширювальні інтенції
Дослідження функціональної типології поширювачів структурної моделі речення сучасної української мови. Зроблено акцент на ідентифікації функціонально-семантичної моделі речення, що досить неоднозначно витлумачується в різних лінгвістичних колах.

статья [19,9 K], добавлен 31.08.2017

Безполучникові складні речення у прозі Г. Тютюника
Історія становлення теорії безсполучниковості в українському мовознавстві. Структурно-семантичні особливості речень із різнофункціональними частинами. Експресивно-виражальні можливості безсполучникових складних речень та багатокомпонентних утворень.

дипломная работа [156,7 K], добавлен 13.06.2011

Особливості граматичної структури і функціонування складносурядних речень з єднальними сполучниками
Місце складносурядного речення у синтаксичній системі української мови. Специфіка та класифікація складносурядних речень з єднальними сполучниками. Граматичні та смислові, розділові знаки та смислові зв’язки між частинами складносурядного речення.

курсовая работа [35,8 K], добавлен 06.12.2015

Односкладні речення у творчості Івана Драча
Лінгвістичні особливості функціонування односкладних особових речень у поезії І. Драча. Безособові односкладні речення та специфіка їх уживання у поетичному мовленні. Особливості уживання номінативних односкладних речень у збірці "Сонце і слово" Драча.

курсовая работа [42,3 K], добавлен 25.04.2011

Особливості класифікації інтернет-лексики сучасної китайської мови
Інтернет-мова як відображення нових форм комунікації. Особливості та класифікація інтернет-лексики сучасної китайської мови. Основні причини, які впливають на специфіку китайської інтернет-лексики, щодо труднощів перекладу та її тематичної класифікації.

курсовая работа [131,0 K], добавлен 13.12.2014

Дослідження семантико-стилістичних особливостей поліпредикативних речень
Дослідження англійських та українських дієслівних парадигм. Семантичні особливості складносурядних речень в українській мові і англійському перекладі роману "Коханець леді Чаттерлі". Аналіз семантико-стилістичних особливостей поліпредикативних речень.

дипломная работа [93,7 K], добавлен 08.09.2011

Речення. Види речень за метою висловлювання
Поняття про види речень за метою висловлювання та інтонацією, їх комунікативна функція. Формуванням комунікативної компетентності учнів, збагачення їх словникового запасу, вмінь працювати в групі, колективі, формування соціальної компетентності.

методичка [14,0 K], добавлен 06.01.2010

Типи зв’язку у складному англійському реченні
Поняття про складне речення та його ознаки. Типи синтаксичного зв’язку між його компонентами. Комунікативно-мовленнєва функція сполучників. Характеристика складносурядних та складнопідрядних речень. Практичне дослідження особливостей їх перекладу.

курсовая работа [85,1 K], добавлен 19.03.2015

Типологія номінативних речень в англійській, французькій та українській мовах
Вивчення типів номінативних речень, що на когнітивному рівні моделюються за ментальними схемами, одиницею представлення яких є синтаксичний концепт. Класифікація речень за структурними типами: репрезентативні, директивні, експресивні та квеситивні.

статья [22,1 K], добавлен 07.11.2017

Класифікація простого речення в українській мові
Прості речення як одиниці мовлення, що мають комунікативну функцію. Їх класифікація за метою висловлення та характером питань. Ступінь емоційного забарвлення розповідних, питальних, спонукальних і бажальних речень. Приклади ствердження і заперечення.

презентация [1,6 M], добавлен 13.05.2015

Опис когнітивно-комунікативного потенціалу еліптичного речення сучасної англійської мови
Проблема еліпсису та еліптичних речень. Методика позиційного аналізу речення. Семантичний критерій смислового заповнення. Використання методики трансформаційного аналізу. Функціонально-комунікативні особливості еліптичного речення англійської мови.

дипломная работа [51,4 K], добавлен 03.12.2010

Дистрибутивний аналіз. Методика безпосередніх складників. Трансформаційний аналіз – методи лінгвістичних досліджень
Дистрибуція. Дистрибутивний аналіз як методика дослідження мови на основі оточення (дистрибуції, розподілу) окремих одиниць у тексті. Методика безпосередніх складників. Трансформаційний аналіз, його використання в теорії і практиці машинного перекладу.

реферат [17,7 K], добавлен 15.08.2008

Другие документы, подобные "Критерії визначення якості лінгвістичних корпусів на прикладі китайської, японської та індонезійської мов"

главная

рубрики

по алфавиту

вернуться в начало страницы

вернуться к началу текста

вернуться к подобным работам

Рубрики

По алфавиту

Закачать файл

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.

graph	characters	words (token)	sentences	type	TTR	ASL	початок	середина	кінець
1	61 372 000	12 900 000	920 000	166 000	1,3%	14	26%	28%	46%
2	91 182 000	18 691 000	1 366 000	322 000	1,7%	13,68	20%	30%	50%
3	2 476 000	668 000	106 000	11 700	1,75%	6,3	24%	41%	35%

He also saw it.	ЛыТІїґµЅБЛЎЈ	I saw what happened.	ОТїґµЅ·ўЙъБЛКІГґКВЎЈ
I saw a dog.	ОТїґµЅБЛТ»Мх№·ЎЈ	I saw you yesterday.	ОТЧтМмїґµЅДгБЛЎЈ
I saw five men.	ОТїґµЅОеёцДРИЛЎЈ	I saw your father.	ОТїґјыБЛДгёёЗЧЎЈ
I saw her yesterday.	ОТЧтМмјы№эЛэЎЈ	No one saw anything.	Г»УРИЛїґµЅИОєО¶«ОчЎЈ
I saw him jump.	ОТїґµЅЛыМшБЛЎЈ	No one saw us.	Г»УРИЛїґµЅОТГЗЎЈ
I saw him recently.	ОТЧоЅьјы№эЛыЎЈ	Nobody saw it coming.	Г»УРИЛїґµЅЛьµДµЅАґЎЈ
I saw him running.	ОТїґµЅЛыФЪЕЬІЅЎЈ	She saw him smile.	ЛэїґµЅЛыОўР¦ЎЈ
I saw the fight.	ОТїґµЅБЛґтјЬЎЈ	Tom never saw Mary.	МАД·ґУОґјы№эВкАцЎЈ
I saw the sunrise.	ОТїґµЅБЛИХіцЎЈ	Tom saw the cat.	МАД·їґјыБЛДЗЦ»ГЁЎЈ
I saw them kissing.	ОТїґµЅЛыГЗЅУОЗЎЈ	We saw her dance.	ОТГЗїґµЅБЛЛэµДОиµёЎЈ
I saw Tom blush.	ОТїґµЅМАД·БіємБЛЎЈ	We saw it all.	ОТГЗїґµЅБЛТ»ЗРЎЈ
They saw something odd.	ЛыГЗїґµЅБЛЖж№ЦµД¶«ОчЎЈ	Tom saw what happened.	МАД·ЦЄµА·ўЙъБЛКІГґКВЎЈ

японська мова	українська мова
Я^ИҐІйЦ§ЕдСФ^ХЯаОґАґ№з7'Ц§ЕдСФs	Хто контролює минуле - той контролює майбутнє,
¬FФЪ&Ц§0d ХЯ^Я^ИҐНЭЦ§0dTІФ	Хто контролює сьогодення - той контролює минуле
¶юФэ#ОТЎ©®№ъ	Це наша земля.
ЖЅєНtШN·y®№ъ	Земля миру та достатку.
Х{єНtПЈНы®№ъ	Земля гармонії та надії.
¶ю¶ю#ОТЎ©®№ъ	Це наша земля.
китайська мова	українська мова
І»Ј¬ОТТЄЙъ»оЈЎ	Ні, я буду жити!
ОТГЗТЄНжЧЄХвёціЗХтЈЎ	Будемо святкувати на всю.
РЎРДЈ¬ДгФхСщїЄіµµД	Уважніше за кермом.
ОТФЪїЄіµВрЈї	Я за кермом?
ОТПІ»¶ДгµДіµ	Мені подобається твоя машина.
ДгїЄЛьЈ¬ЛьѕНКЗДгµД	Тоді забирай її, вона твоя.
ОТµДЕуУСФЪДДАпЈї	Де мій друг?
ИГЛыЅшАґЈ¬ЛыКЗОТµДїНИЛЈЎ	Впусти його, він мій гість!
ОТГЗИҐВтТ»Р©»Ё	Давай купимо квітів.

Language	characters	words (tokens)	sentences	^typ^e	TTR	ASL
японська	1 551 151	879 784	132 404	41 372	4.70	6.64
китайська	2 215 564	1 420 580	237 741	70 921	4.99	5.98