Квантитативна верифікація ранґового розподілу апроксимаційної залежності в реченнях поступки: корпусно-математичний підхід

Характеристика актуальних математично-лінгвістичних методів дослідження в межах корпусного аналізу текстів. Особливість автоматично скомпільованого корпусу реалізації універсальних речень поступки в художніх текстах Британського національного корпусу.

Рубрика Иностранные языки и языкознание
Вид статья
Язык украинский
Дата добавления 22.01.2023
Размер файла 410,6 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Київський університет імені Бориса Грінченка

Квантитативна верифікація ранґового розподілу апроксимаційної залежності в реченнях поступки: корпусно-математичний підхід

Тугай О.М.

Анотація

У репрезентованій статті розглянуто провідні актуальні математично-лінгвістичні методи дослідження в межах корпусного аналізу текстів, а саме автоматично скомпільованого корпусу реалізації універсальних речень поступки в художніх текстах Британського національного корпусу. В термінах корпусного підходу обчислено та отримано відповідні дистрибутивно-статистичні дані частоти появи або вживання та організації досліджуваних речень поступки. Розподіл актуалізації універсальних речень поступки у Британському національному корпусі встановлено за рангом найбільшої / найменшої частоти вживання сполучників поступки від сполучника still до сполучника howsoever як від 1 до 31 рангу із урахуванням отриманих квантитативних показників. Провідну увагу також зосереджено на доцільності та практичності використання математичних методів та створення математичних моделей для розв'язання певних лінгвістичних задач в корпусному аналізі великих масивів текстів та метаданих. За методом Ціпфа квантитативні показники рангового розподілу апроксима- ційної залежності універсальних речень поступки, а саме частоти появи речень від ранґу сполучника поступки верифіковано в наступній конфігурації: ступінь розподілу ідентифіковано як f (x) ~ 166585, коефіцієнт ступеня розподілу визначено як у ~ 2.65, та, відповідно, коефіцієнт детермінації отримано як R2 ~ 0.83. За методом X (хі-квадрат) визначено індикатор похибки вибіркової частоти речень універсальної поступки від середньої або апроксимаційної залежності як X ~ 1.15, що сигналізує про випадкове відхилення вибіркової частоти реалізації досліджуваних речень зі сполучником поступки від апроксимаційної залежності. Отримані точні дані з урахуванням розрахунків корпусного аналізу обґрунтовано доводять реле- вантність залучених математичних методів для обчислення та квантитативної верифікації ранґового розподілу апроксимаційної залежності універсальних речень поступки в художніх текстах Британського національного корпусу.

Ключові слова: універсальне речення поступки, корпусна лінгвістика, квантитативна верифікація, ранґовий розподіл, апроксимаційна залежність, Британський національний корпус.

Abstract

Tuhai O. M. QUANTITATIVE VERIFICATION OF RANK DISTRIBUTION OF APPROXIMATION DEPENDENCE IN CONCESSIVE SENTENCES: CORPUS-MATHEMATICAL APPROACH

The presented article deals with the leading topical mathematical and linguistic methods of research within the framework of corpus analysis of texts, namely the automatically compiled corpus of universal concessive sentences realization in the written fiction texts of the British National Corpus. In terms of the corpus approach, the corresponding distributional and statistical data of the frequency of occurrence or usage and organization of the studied concessive sentences are calculated and obtained. The distribution of universal concessive sentences actualization in the British National Corpus is determined by the rank of the highest / lowest frequency of concessive conjunctions usage from conjunction still to conjunction howsoever as from the 1st to the 31st rank, taking into account the obtained quantitative indicators. Leading attention is also focused on the expediency and practicability of mathematical methods usage and creating mathematical models for solving certain linguistic problems in the corpus analysis of large arrays of texts and metadata. According to the Zipf's method, the quantitative indicators of the rank distribution of the approximation dependence of universal clauses of concession, namely, frequency of concessive sentences ' occurrence from the rank of the conjunction of concession, are verified in thefollowing configuration: the degree of distribution is identified as f (x) ~ 166585, the coefficient of the degree of distribution is determined as у ~ 2.65, and accordingly, the coefficient ofdetermination is obtained as R2 ~ 0.83. According to the x2 (chi-square) method, the indicator of the error of the sampling frequency of universal concessive sentences from the average or approximation dependence is determined as x2 ~ 1.15, which signals about a random deviation of the sampling frequency of the studied sentences with concessive conjunction implementation from the approximation dependence. The obtained accurate data, taking into account the calculations of the corpus analysis, reasonably prove the relevance of the involved mathematical methods for the calculation and quantitative verification of the rank distribution of the approximation dependence of the universal sentences of concession in the written fiction texts of the British National Corpus.

Key words: universal concessive sentence, corpus linguistics, quantitative verification, rank distribution, approximation dependence, British National Corpus.

Постановка проблеми. Типовою ознакою сучасного мовознавства є застосування різних математичних методів та моделювання лінгвістичних систем для аналізу лінгвістичного матеріалу, вирішення статистичних задач у найрізноманітніших наукових гуманітарних дослідженнях, які відзначаються яскраво вираженим міждисциплінарним характером, що розширює межі імплементації методів одних наук в інших, як, наприклад, соціальних та гуманітарних. Причому застосування математичних підходів в лінгвістиці містить різноманітних характер, як розрахунок статистичних характеристик текстів або розробка реґресійних моделей. «Моделювання - це певна універсальна процедура, яка має чітко означену кінцеву мету та суворо детермінований спосіб її досягнення». Проте методи моделювання в лінгвістиці не виникли з нічого: принцип створення моделей у лінгвістиці має «відбиток» того чи іншого магістрального підходу [2, с. 10-12].

Корпусні дослідження також виступають потужним інструментом для вивчення мови. Вони уможливлюють зробити пошук лінгвістичних даних автоматизовано; дають змогу проаналізувати мовні явища вичерпно й різноаспектно із залученням значного за обсягом матеріалу великих структурованих колекцій текстів природних мов [1, с. 17].

У нашій розвідці застосування корпусного та математичного підходів у поєднанні для аналізу реалізації універсальних речень поступки в художніх текстах Британського національного корпусу (British National Corpus - BNC) має важливе значення для чіткого розуміння характеру взаємодії та шляхів імплементації зазначених методів у лінгвістиці. Релевантність дослідження полягає в обґрунтуванні доцільності застосування запропонованих математичних методів та моделей для квантитативної верифікації отриманих метаданих великих масивів корпусів текстів. Наочна демонстрація певних способів математичного опису зазначених мовних даних, специфіки розв'язання лінгвістичних задач та процесів за допомогою корпусного та математичного аналізу уможливить ідентифікувати особливі риси та параметри лінгвістичного моделювання для оцінки ймовірності використання певних мовних моделей в різних текстах.

Аналіз останніх досліджень і публікацій. На сьогодні корпусні та математичні дослідження в лінгвістиці мають актуальне значення, оскільки відзначаються точною обробкою метаданих великих масивів корпусів різних текстів, отриманням відповідної квантитативної верифікації певного мовного аспекту, як ранґовий розподіл словоформ у певному тексті або в мовній групі.

Як показує здійснений нами огляд літератури, корпусні дослідження загального характеру активно розглянуті та опрацьовані як в українських наукових працях - О. Ю. Андрушенко [1], В. В. Жуковської [3], так і в розвідках зарубіжний науковців - W. J. Crawford та E. Csomay [8], Yan Zhang [11]. Вузькоспря- мовані специфічні питання корпусної лінгвістики висвітлено у працях Н. Бобер, Я. В. Капранова, А. Кукаріної, Т Тронь, Т Насаєвич [7; 4]. Феномен застосування математичних теорій в лінгвістиці та методів лінгвістичного моделювання достатньо ретельно представлено у працях О. Васильєва, І. Васильєвої, О. Чалого [2].

Методи інноваційного та математичного моделювання також неодноразово були представлені у працях українських мовознавців О. С. Колесника, Р К. Махачашвілі, І. В. Семеніста. Так, О. С. Колесник розробив та представив універсальні моделі ірраціонального пізнання та семі- озу в діахронних та крос-культурних аспектах шляхом застосування матриці математичних даних та формул із утворенням відповідних концептуальних лінгвістичних моделей для опису різних мовних аспектів [9]. Р. К. Махачашвілі та І. В. Семеніст ретельно дослідили макро- та мікроструктури глобальної інноваційної логос- фери комп'ютерного буття [10].

Проте на сьогодні невирішеними залишилися питання реалізації синтаксису германських мов, задачі яких передбачають імплементацію корпусних та математичних методів, що становить певну лакуну в сучасних дослідженнях з германістики та зумовлює актуальність нашої розвідки.

Основними методами нашого дослідження слугували методи корпусного та математично- лінгвістичного аналізу.

Методика дослідження з урахуванням корпусного аналізу полягає в автоматичній вибірці універсальних речень поступки зі сполучниками поступальної дії (31 сполучник - 52973 приклади) із текстів художньої літератури сучасного Британського національного корпусу (Табл. 1).

Таблиця 1 Ранґовий розподіл сполучників універсальної поступки в художніх текстах Британського національного корпусу

Ранґовий розподіл сполучників універсальної поступки в художніх текстах Британського національного корпусу

Ранґ сполучника поступки

Назва сполучника поступки

Частота реалізації за спаданням

1

still

16986

2

(even) though

7742

3

yet

7556

4

although

3892

5

anyway

3693

6

however

3012

7

after all

2582

8

unless

1431

9

despite

1427

10

with all

978

11

at the same time

851

12

in spite of

638

13

nevertheless

603

14

in any case

591

15

at any rate

218

16

anyhow

164

17

for all that

108

18

yet ... though / though . yet

81

19

regardless of

71

20

with all that

70

21

nonetheless

66

22

in any event

48

23

after all that

40

24

yet . although / although . yet

34

25

notwithstanding

32

26

in spite of the fact that

26

27

at all events

12

28

irrespective of

8

29

despite that

6

30

nevertheless . though

6

31

howsoever

1

Загалом:

52973

Методика дослідження з урахуванням одного із фундаментальних або «класичних» методів математичної лінгвістики, а саме закону Ціпфа для рангового розподілу слів у тексті [2, с. 10], полягає у з'ясуванні апроксимаційної залежності логарифма частоти появи (вживання) досліджуваних речень поступки від логарифма ранґу певного сполучника універсальної поступки (за функцією спадання сильної ознаки реалізації поступальної дії - від сильної актуалізації поступки (сполучник still) до реалізації слабкої функції поступки (сполучник howsoever)) - для окреслення розподілу апроксимації коливань реалізації та вживання цих речень в художніх текстах сучасного BNC - від найбільшої / найменшої кількості реалізації певного структурно-семантичного типу речення із відповідним сполучником до частоти актуалізації речень поступки зі сполучником «сильної / слабкої» функції вираження поступальної дії.

Методика аналізу матеріалу за «хі-квадрат критерієм» (х2 метод аналізу) полягає у верифікації випадковості чи суттєвості відхилення або похибки нашої вибіркової частоти від середньої для ідентифікації точності даних апроксимацій- ної залежності частоти сполучника універсальної поступки від його рангу [5, с. 398-399]. У нашому дослідженні корпусний та математично-лінгвістичний підходи відіграють суттєве значення для аналізу квантитативних даних реалізації універсальних речень поступки в художніх текстах Британського національного корпусу. Корпусний та математичний інструментарій дав змогу виміряти кількісні показники актуалізації досліджуваних речень поступки та розподіл їх вживання в сучасному корпусі англійських художніх текстів.

Постановка завдання. Об'єктом нашої розвідки є розроблений корпус універсальних речень поступки, скомпільований із художніх текстів Британського національного корпусу. Предметом статті виступають дистрибутивно-статистичні характеристики вживання концесивних клауз в сучасних англійських художніх творах корпусної лінгвістики. Метою дослідження є застосування класичних математичних методів (закон Ціпфа та х2 аналіз) для обчислення та окреслення статистичних даних рангового розподілу апрок- симаційної залежності логарифма частоти появи універсальних речень поступки від логарифма рангу вживання сполучника уведення поступальної дії в реченні.

Для реалізації мети нашої розвідки передбачаємо розв'язання таких завдань: 1) обгрунтувати релевантність застосування математичних методів та відповідних математичних моделей в корпусній лінгвістиці; 2) здійснити процедуру квантитативної верифікації універсальних речень поступки в художніх текстах BNC; 3) визначити розподіл актуалізації універсальних речень поступки за рангом частоти вживання сполучника уведення поступальної дії; 4) з'ясувати та окреслити апроксимаційну залежність логарифма частоти появи речення від логарифма рангу сполучника поступки; 5) ідентифікувати показник похибки вибіркової частоти речень універсальної поступки від середньої або апроксимаційної залежності за «хі-квадрат критерієм» - х2 метод - із детермінацією суттєвості чи випадковості такого відхилення. Матеріалом дослідження слугували виокремлені з художніх текстів Британського національного корпусу універсальні речення поступки, корпус яких склав 52973 одиниць (див. табл. 1).

Виклад основного матеріалу. У філологічних студіях корпусна лінгвістика вже зарекомендувала себе як самодостатня наукова галузь знань. Інструменти корпусу як знаряддя для керування великими масивами даних призводять до більш організованого набору слів у хаотичній різноманітності мов. Корпусний підхід можна також назвати методом дистрибутивно-статистичного аналізу, який широко використовується в методиці навчання англійської мови, і який одночасно виступає одним із методів різних галузей лінгвістичних досліджень при оцінці чи обробці даних [7, с. 176].

За О. Ю. Андрушенко, «більш репрезентативні результати даних корпусу сприяють перегляду багатьох лінгвістичних постулатів і демонструють якісно нові характеристики конкретних одиниць як однієї мови, так і багатьох мов» [1, с. 17]. На сьогодні існують монолінгвальні корпуси текстів, наприклад, The Intelligent Web-based Corpus, British National Corpus, American National Corpus, CoRola, TS Corpus тощо, які загалом мають обсяг близько 14 млрд. слововживань із різножанрових текстів та містять різноманітну корпусну розмітку, включаючи колігацію або узгодження, семантичне тегування, лематизацію тощо [1, с. 17; 8].

Окремі корпуси текстів мають свій діапазон слововживань. Так, як зазначають провідні українські дослідники різних аспектів корпусної лінгвістики Н. Бобер, Я. Капранов, А. Кукаріна, Т Тронь та Т. Насалевич, Британський національний корпус містить діапазон у 100 мільйонів слів, серед яких 90% становлять письмові тексти, і лише 10% - розмовні тексти (підкорпуси), які належать до різних жанрів кінця ХХ ст., а саме: зразки ділового листування, науково-популярна література, газетні статті, тексти на релігійну тематику, записи урядових промов, транскрибовані записи неофіційних передач тощо [7, с. 182]. Для кращого розуміння дистрибутивно-статистичних наукових даних у досліджуваних художніх текстах з BNC варто правильно окреслити поняття «корпусні тексти». Слідом за В. В. Жуковською, визначаємо «корпус текстів як машиночитану, збалансовану, репрезентативну колекцію спеціально позначених (анотованих) текстів, відібраних за фіксованими параметрами для досягнення певної лінгвістичної мети та досліджуваних нелінійно за принципом гіпертексту» [3, с. 58].

У нашій розвідці для застосування математично- лінгвістичних методів з метою квантитативної верифікації отриманих даних спочатку було застосовано метод корпусного аналізу великих масивів текстів. Для цього першим кроком було залучено онлайн сервіс Британського національного корпусу [6] для розробки та компіляції спеціального корпусу універсальних речень поступальної семантики зі залученням 31 сполучника поступки шляхом автоматичного пошуку за певним сполучником.

На рис. 1, 2 продемонстровано автоматичний пошук універсальних речень поступки зі сполучником though (за виключенням сполучуваності «as though») в художніх текстах BNC наступним шляхом [6]: 1) у розділі «Query options» головного меню вибираємо опцію «Written restrictions»; 2) у розділах «Derived text type» та «Genre» вибираємо опції «Fiction and verse» та «W:fict:drama / W:fict:poetry / W:fict:prose», відповідно; 3) у пошукове віконце «Query term» уводимо певний досліджуваний сполучник поступки; 4) виставляємо опції у відповідних віконцах «Query mode» та «Number of hits per page»; 5) натискаємо кнопку «Start query» та отримуємо результат пошуку. математичний лінгвістичний текст речення

Другим кроком було застосовано автоматичне обчислення квантитативних даних з визначенням відповідного ранґу кожного сполучника поступки та було отримано квантитативні показники ранґо- вого розподілу універсальних речень поступальної дії в художніх текстах BNC (див. табл. 1).

На рис. 3, 4 продемонстровано отримані обчислені результати автоматичного пошуку реалізації універсальних речень поступки зі сполучниками though (за виключенням сполучуваності «as though») та although в художніх текстах BNC [6]:

Рис. 1. Автоматичний пошук універсальних речень поступки зі сполучником though в художніх текстах BNC

Рис. 2. Виставлення опцій текстового типу та жанру для автоматичного пошуку універсальних речень поступки в художніх текстах BNC

Рис. 3. Загальний результат автоматичного пошуку універсальних речень поступки зі сполучником though (без урахування сполучуваності «as though») в художніх текстах BNC

Рис. 4. Точний результат автоматичного пошуку універсальних речень поступки зі сполучником although в художніх текстах BNC

Відповідно, кількісний показник частоти реалізації сполучника або прислівника still із позначкою 16986 одиниць реалізації універсальних речень поступки у BNC зумовив отримання ним логарифма першого ранґу, що сигналізує про сильний ступінь вираження функції поступки із цим сполучником, тоді як квантитативний показник частоти актуалізації сполучника howsoever із позначкою як 1 одиниця розподілення універсальних речень поступки у BNC став тригером отримання ним останнього логарифма 31 ранґу серед всіх інших сполучників поступки, що сигналізує про слабкий ступінь реалізації функції поступки із зазначеним конектором (див. табл. 1). У нашому дослідженні залучаємо формулу закону Ціпфа із поправкою Мандельброта для обчислення постійної величини залежності частоти появи універсальних речень поступки від ранґу певного сполучника (див. Табл. 2), що зображено на графіках рис. 5, 6: на горизонтальній осі відкладаємо логарифм ранґу вживання сполучника поступки від сильної до слабкої функції вираження поступальної дії в реченні; на вертикальній осі зображуємо логарифм частоти реалізації універсальних речень поступки в художніх текстах BNC.

Рис. 5. Логарифмічна шкала залежності кількості вживань речень поступки від ранґу сполучника поступки в художніх текстах BNC

Рис. 6. Лінійно-вертикальна шкала залежності кількості вживань речень поступки від ранґу сполучника поступки в художніх текстах BNC

Зокрема, загальний обсяг скомпільованого нами корпусу універсальних речень поступки в художніх текстах Британського національного корпусу становить 52973 речень, кількість досліджуваних сполучників поступки дорівнює 31 одиниці. І, відповідно, обчислені значення складають: А ~ 166585 та у ~ 2.65 для параметрів розподілу, що входять у закон Ціпфа. При цьому коефіцієнт детермінації R2 складає 0.83 - що за законом Ціпфа (де параметр розподілу має бути < 2) є добрим результатом та хорошим релевантним показником ступеня розподілу частоти вживання від ранґу сполучника універсальної поступки.

Частотний розподіл відповідності вживання сполучника поступки в художніх текстах BNC представлено на графіках у рис. 5 та рис. 6.

Висновки і пропозиції

Отже, у нашій науковій розвідці обґрунтовано та доведено доцільність використання математично-лінгвістичних методів, таких як закон Ціпфа та метод «хі-квадрату» для обчислення дистрибутивно-статистичних даних з автоматично скомпільованого корпусу універсальних речень поступки в художніх текстах Британського національного корпусу. З урахуванням корпусного аналізу розподіл реалізації універсальних речень поступки у BNC визначено в термінах найбільшої / найменшої частоти вживання сполучників поступки від сполучника still до сполучника howsoever за ран- ґом частоти їхнього вживання від 1 до 31. З'ясовано, що розподіл апроксимаційної залежності логарифма частоти появи універсальних речень поступки в художніх текстах BNC від логарифма ранґу кожного сполучника має точні дані квантитативної верифікації, а саме: ступінь розподілу f (x) ~ 166585, коефіцієнт ступеня розподілу у ~ 2.65, коефіцієнт детермінації R2 ~ 0.83 при похибці апроксимаційної залежності х2 й 1.15, що є показником випадкового відхилення вибіркової частоти реалізації речень зі сполучником поступки від апроксимаційної залежності. Це доводить відповідність вживання частоти або кількості речень універсальної поступки із ран- ґом сполучника поступки в художніх текстах BNC, а також доцільність та точність залучених математичних розрахунків. Наступні розвідки у царині корпусної лінгвістики вбачаємо в залученні математично-статистичного аналізу великих масивів корпусних текстів речень поступальної дії різної семантики у германських мовах в синхронній та діа- хронній площинах.

Список літератури

1. Андрушенко О. Ю. Інформаційно-структурні перетворення адитивного адверба EVEN (на матеріалі пам'яток і текстів корпусів англійської мови XII-XVII ст.). Вісник КНЛУ. Серія Філологія. Том 24. № 1. 2021. С. 16-32.

2. Васильєв О., Чалий О., Васильєва І. Математичні методи та моделі в лінгвістиці. Україна модерна. № 27. 2019. С. 9-28.

3. Жуковська В.В. Вступ до корпусної лінгвістики: навчальний посібник. Житомир : Вид-во ЖДУ ім. І. Франка, 2013. 142 с.

4. Капранов Я. В. Презентація наукових результатів квантитативної ностратичної верифікації ступенів споріднення афразійської, індоєвропейської і картвельської мовних сімей. Вісник КНЛУ. Серія Філологія. Том 23, № 2. 2020. С. 58-71.

5. Кочерган М. П. Загальне мовознавство: підручник. Видання 2-ге, виправлене і доповнене. Київ : Видавничий центр «Академія», 2006. 464 с.

6. BNC Web at Lancaster University.

7. Bober N., Kapranov Y., Kukarina A., Tron T., Nasalevych T. British National Corpus in English language teaching of university students. International Journal of Learning, Teaching and Educational Research. June 2021. Vol. 20, No. 6. P 174-193.

8. Crawford W. J., Csomay E. Doing corpus linguistics. New York - London: Routledge, Taylor & Francis Group, 2016. 178 p.

9. Kolesnyk O. The cognitive premises of myth-oriented semiosis. Cognitive Studies | Etudes cognitives, 2019 (19).

10. Makhachashvili R. K., Semenist I. V. Phenomenological paradigm of digital innovative logosphere modelling (based on innovations of the Chinese language). New Philology, (85), 2022. P 173-180.

11. Yan Zhang. Adversative and Concessive Conjunctions in EFL Writing: Corpus-based Description and Rhetorical Structure Analysis. 1st ed. Singapore, Shanghai : Springer Nature Singapore Pte Ltd. & Shanghai Jiao Tong University Press, 2021. 234 p.

Размещено на Allbest.ru

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.