Окремі аспекти квантитативних досліджень української мови
Обчислення кількости тих чи тих лінгвальних явищ. Побудова на основі обчислених кількісних даних стохастичних моделей мовних явищ. Перевірка гіпотез про лінгвальні явища статистичними методами. Мінімальний обсяг вибірки щодо обсягу текстів автора.
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | украинский |
Дата добавления | 27.05.2020 |
Размер файла | 265,3 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Окремі аспекти квантитативних досліджень української мови
Ігор Кульчицький
Анотація
Статтю присвячено окремим аспектам статистичних досліджень. Коротко описано необхідність використання таких методів у лінгвістиці та охарактеризовано основні напрями їхнього застосування, до яких належать: різноманітні обчислення кількости тих чи тих лінгвальних явищ; побудова на основі обчислених кількісних даних стохастичних моделей мовних явищ; перевірка гіпотез про різні лінгвальні явища статистичними методами; впровадження одержаних результатів у різні галузі, що пов'язані з використанням та вивченням природних мов. Зазначено, що кожну лінгвальну одиницю досліджують як компоненту мовної системи. Зокрема, це її будова та належність до граматичного класу, лексична та синтаксична сполучуваності, місце одиниці в мовній системі і її підсистемах та накладені на неї мовною системою обмеження (наприклад, відсутність деяких словозмінних форм іменників, відсутність ступенів порівняння прикметників і прислівників, неповна дієслівна парадигма і под)., семантичні особливості тощо. Підкреслено, що проведення нових досліджень над наявними та новими збірками текстів дає змогу як підтвердити раніше виявлені, так і визначити нові статистичні параметри та закономірності будови текстів, структурних особливостей різних мов. Дослідження такого типу є основою статистичної типології текстів та мов. Виокремлено такий напрям статистичних досліджень, як атрибуція текстів (встановлення авторства текстів). Подано результати окремих статистичних досліджень творів Василя Стефаника, Михайла Яцкова, Ліни Костенко та Петра Карманського, які здійснено на кафедрі прикладної лінгвістики Національного університету «Львівська політехніка». Для вказаних творів обчислено частотність символів, їхню милозвучність, визначено можливий мінімальний обсяг вибірки щодо обсягу всіх текстів автора. Стверджено, що таку вибірку необхідно формувати випадковим вибором фраґментів тексту з усіх творів автора. Перевірено й одержано неґативний результат стосовно гіпотези про те, що частотність символів у творах автора може бути індикатором авторства. Для творів В. Стефаника та М. Яцкова статистично опрацьовано кількість абзаців у творах, довжину абзаців у реченнях, довжину речень у словоформах та довжину словоформ. Зроблено висновки.
Свого часу лорд Кельвін писав, що ми лише тоді щось знаємо про те, що говоримо, коли можемо це виміряти й подати в числах, - інакше наше знання недостатнє й незадовільне (цитуємо за працею Лотфі Заде1). На підтвердження цієї тези сучасна лінгвістика, яка багата своїми дослідницькими методами та способами аналізу тексту, тяжіє до застосування квантитативних методів у вивченні лінгвальних явищ. Редактори колективної монографії Заде Лотфи, Понятие лингвистической переменной и его применение к принятию приближенных решений (Москва: Мир, 1976), 9. Reinhard Kцhler, Gabriel Altmann, Rajmund Piotrowski, eds. Quantitative Linguistik: ein internationals Handbuch = Quantitative linquistics: an international handbook (Berlin, New York: de Gruyter, 2005). вказують на такі аспекти лінгвостатистичних досліджень:
квантитизація за допомогою операціоналізації та вимірювання мовних сутностей та якостей для опису їх кількісними характеристиками;
кількісний аналіз та опис лінгвістичних і текстових об'єктів;
числова класифікація лінгвістичних та текстових об'єктів для подальших досліджень або з практичних міркувань;
розроблення та застосування статистичних процедур для порівняння мовних і текстових об'єктів;
моделювання лінгвістичних структур, функцій та процесів за допомогою квантитативних моделей та математичних методів;
побудова теорії на основі пошуку універсальних законів мови й тексту;
пояснення мовних явищ (властивостей, структур, процесів) засобами теорії;
введення лінгвістики в загальну систему наук, тобто встановлення відповідностей вивчення міждисциплінарних відносин у формі узагальнення, аналогії або специфікації;
розроблення оригінальної лінгвістичної методології щодо конкретних характеристик предмета лінгвістичного дослідження;
практичне застосування в різних галузях, зокрема в контексті навчання та викладання, психології / психолінгвістики / психіятрії, стилістики / криміналістики, комп'ютерної лінгвістики та мовних технологій, документознавства, контент-аналізу, мовного планування, дослідження масової комунікації тощо.
Ці аспекти умовно можна згрупувати за такими трьома напрямами:
різноманітні обчислення кількости тих чи тих лінгвальних явищ;
побудова на основі підрахованих кількісних даних стохастичних моделей мовних явищ;
перевірка гіпотез про різні лінгвальні явища статистичними методами;
впровадження одержаних результатів у різні галузі, що пов'язані з використанням та вивченням природних мов І.М. Кульчицький, «Дослідження довжини речення та слова у творах Романа Іваничука», Вісник Національного університету «Львівська політехніка»: Інформаційні системи та мережі, 872 (2017): 139-149..
Застосування математичних методів, зокрема й статистичних, у мовознавстві започаткували у середині XIX - на початку XX століть праці російського математика українського походження Віктора Буняковського, німецьких науковців Ернста Ферстемана (Ernst Fцrsteman), Фрідріха Кедінґа (Friedrich Kaeding), російського математика Андрія Маркова, у подальшому їх було розвинуто у працях Ґабріеля Альтмана (Gabriel Altmann), Райнгар- да Кьолера (Reinhard Kцhler) (Німеччина); Петера Ґжибека (Peter Grzybek) (Австрія); Гейзи Віммера (Geiza Wimmer) (Словаччина); Адама Павловскі (Adam Pawlowski), Ядвіґи Самбор (Jadwiga Sambor) (Польща); Юхана Тулда- ви (Естонія); Раймунда Піотровского, Анатолія Шайкевич (Росія) та інших Там само, 143; В.А. Звегинцев, Очерки по общему языкознанию (Москва: МГУ, 1962), 113-151..
1994 року засновано Міжнародну асоціяцію квантитативної лінгвістики (IQLA), основна мета якої сприяти застосуванню математичних та статистичних методів у лінгвістичному моделюванні, аналізі текстів та суміжних галузях The International Quantitative Linguistics Association, http://www.iqla.org/.. Очолюють її такі науковці Ibid, http://www.iqla.org/iqla_contact.html.:
Арджуна Туцці (Arjuna Tuzzi), університет Падуї, Італія - президент. Наукові інтереси: статистичний аналіз текстових даних; інструменти соці- яльних опитувань (формулювання питань, дизайн опитування, помилки, не пов'язані із вибіркою); процеси та методи оцінювання; аналіз виборчих даних; аналіз політико-інституціонального спілкування.
Джордж Мікрос (George Mikros), Каподістрійський університет, Афіни, Греція - віце-президент. Наукові інтереси: комп'ютерна лінгвістика та стилістика, статистичний аналіз лінгвістичних даних, соціолінгвістичні варія- ції, інтелектуальний аналіз тексту, атрибуція та верифікація авторства, інтелектуальний аналіз даних, машинне навчання, фонетика.
Герман Мойсль (Hermann Moisl), Університет Ньюкасл, Великобританія - секретар. Наукові інтереси: загальна комп'ютерна та кількісна лінгвістика;
створення мовного корпусу та кластерний аналіз одержаних із корпусу даних; середньовічні англійська та ірландська мови; динамічні лінгвістичні моделі.
Еммеріх Келіх (Emmerich Kelih), Віденський університет, Австрія - скарбник. Наукові інтереси: фонологія слов'янських мов (особливо складів); загальна графологія; мовна економія, частота, морфосинтаксичні стратегії кодування; типологія стандартизованих слов'янських мов; корпусна лінгвістика (особливо паралельні тексти); кількісний аналіз тексту та мови; мінімальні словники.
Радек Чех (Radek Cech), університет Острави, Чеська Республіка - член ради. Наукові інтереси: кількісний аналіз тексту та кількісний синтаксис (валентність, складні синтаксичні мережі).
Рамон Феррер-і-Канчо (Ramon Ferrer-i-Cancho), політехнічний університет Каталонії, Іспанія - член ради. Наукові інтереси: теорія частотності (слів), теорія порядку (слів), пізнавальні процеси у тварин і спілкування між ними, складні мережі, еволюційна біологія, геноми та теорія інформації.
Свен Науман (Sven Naumann), університет Тріра, Німеччина - член ради. Наукові інтереси: машинне навчання; розширене машинне навчання; оброблення природних мов; автоматичне одержання даних (інформації); корпусна лінгвістика; класифікація текстів; маркування позначками; синтаксичний аналіз (розбір).
Реля Вуланович (Relja Vulanovic), Кентський державний університет, США - член ради. Наукові інтереси: числові методи, сингулярні збурення, математика та квантитативна лінгвістика.
Шейла Емблтон (Sheila Embleton), Йоркський університет, Торонто, Канада - представниця Північної та Південної Америки. Наукові інтереси: історична лінгвістика, соціолінгвістика, діялектологія, математичні та статистичні методи в лінгвістиці, ономастика, семіотика Пірса, ґендерні дослідження, діялектометрія з конкретним застосуванням до британських, фінських та румунських діялектів.
Гаруко Санада (Haruko Sanada), університет Рішшьо, Токіо, Японія - представник Азії. Наукові інтереси: лінгвістика, японське мовознавство.
Почесним президентом асоціяції є Ґабріель Альтман (Gabriel Altmann), Німеччина. Наукові інтереси: розроблення гіпотез про лінгвістичні закони, які виходять із теоретичних припущень, сформульованих математично, а потім емпірично досліджених. Низка мовних законів набули своєї нинішньої форми завдяки Ґ. Альтману, серед них - закон про диверсифікацію, який називають законом Менцерата-Альтмана, та закон Піотровського.
Офіційним періодичним виданням асоціяції є журнал «Квантитативна лінгвістика» tte International Quantitative Linguistics Association, http://www.iqla.org/iqla_journal.html., який заснований 1994 й виходить 4 рази на рік. Це своєрідний міжнародний форум для публікування праць із застосування математики і статистики в лінгвістичних дослідженнях. Зокрема, його тематикою є:
моделювання всіх аспектів природної мови в межах теоретичної та історичної лінгвістики, а також соціо-, психо- та нейролінгвістики, діялектології;
практичне застосування математичних і статистичних методів в опрацюванні природної мови, корпусній лінгвістиці, машинному перекладанні та вивченні мови тощо;
методологічні проблеми лінгвістичного вимірювання, побудови моделі, вибірки та теорії тесту;
питання будови філософії мови та мовознавства в межах філософії науки.
Усі статті в цьому журналі проходять жорсткий експертний огляд: первинний огляд редактора та рецензування двома анонімними рецензентами.
Засновник і до сьогодні редактор журналу - Райнгард Кьолер (Reinhard Kцhler), університет Тріра, Німеччина. Наукові інтереси: кількісні та системні теорії мовознавства; лінгвістична синергетика.
За час існування асоціяції під її егідою проведено 10 наукових конференцій. В останній (2016, Трір, Німеччина http://www.iqla.org/qualico2016abstracts.pdf.) взяли участь 77 науковців, які репрезентували 32 університети з 16 країн світу (Австрія - 3, Великобританія - 2, Греція - 1, Іспанія - 1, Італія - 2, Канада - 1, Китай - 5, Німеччина - 2, Польща - 1, Росія - 3, Словаччина - 1, США - 2, Чехія - 3, Швейцарія - 1, Японія - 4), дві академічні установи (Польща, Росія) та одну аналітично-дослідницьку організацію (США).
Статистичні дослідження української мови розпочато у другій половині минулого століття, коли в Інституті мовознавства ім. О. О. Потебні АН УРСР було створено групу структурно-математичної лінгвістики Соломія Бук, «Статистичні характеристики лексики основних функціональних стилів української мови: спроба порівняння», Лексикографічний бюлетень, 13 (2006): 166-170.. На сьогоднішній день статистичні дослідження виконують в Українському мовно-інформаційному фонді, Інституті лінгвістики Київського національного університету ім. Тараса Шевченка, Львівському національному університеті ім. Івана Франка, Національному університеті «Львівська політехніка» та ін. В.А. Широков, Інформаційна теорія лексикографічних систем (Київ: Довіра, 1998); Соломія Бук, «Сучасні методи дослідження мови письменника у слов'янознавстві», Проблеми слов'янознавства, 61(2012): 86-95; Соломія Бук, «Лінгвостатистичний опис «Не спитавши броду» Івана Франка», Вісник Львівського університету, 55 (2011): 230-242;
«Лінгвістичний портал», http://www.mova.info/. В.І. Перебийніс, «Що дає статистика лінгвістам?», Вісник Київського лінгвістичного університету, VI, 2 (2003): 27.
Отже, за останні три десятиліття квантитативна лінгвістика зазнала бурхливого розвитку як у теорії, так і на практиці. Завдяки їй у лінгвістику було впроваджено кількісні методи й моделі, які використовують у природничих та суспільних науках, що сприяє розвитку нових теоретичних поглядів та розв'язанню практичних проблем у її різних галузях.
За Валентиною Перебийніс, кількісні методи уточнюють результати досліджень не тільки в мовленні, але й у мові, уможливлюють науково обґрунтовані, часом непередбачувані висновки11. Разом із забезпеченням вірогідности результатів статистичні методи уможливлюють розкриття таких властивостей мовних одиниць та будови тексту, які без них неможливо було би виявити. Ефективність квантитативних методів зумовлено низкою причин Там само, 29.:
одержані під час дослідження точні кількісні дані завжди можна перевірити, на відміну від якісних, на кшталт «незначно», «часто» тощо;
завжди можна визначити - випадково чи істотно коливаються значення показників, які зіставляють;
можна визначити необхідну та достатню для вірогідних висновків кількість дослідницького матеріалу;
необхідна формалізація під час визначення одиниць дослідження мінімізує чинник суб'єктивносте та забезпечує вірогідні результати високого ступеня точности;
такі методи дають змогу дійти правильних висновків.
Кожну лінгвальну одиницю досліджують як компоненту мовної системи. Зокрема, це її будова та належність до граматичного класу, лексична й синтаксична сполучуваності, місце одиниці в мовній системі і її підсистемах та накладені на неї мовною системою обмеження (наприклад, відсутність деяких словозмінних форм іменників, відсутність ступенів порівняння прикметників і прислівників, неповна дієслівна парадигма і под)., семантичні особливості тощо Там само, 28..
Статистично досліджуючи будову лінгвістичних одиниць, до уваги беруть їхню довжину, морфемну чи словотвірну структуру, кількість складів, морфем або слів, які її утворюють.
У граматичних дослідженнях вивчають розподіл лінгвістичних одиниць за частинами мови, словозмінними класами, типами словозміни тощо. Аналізуючи синтаксичну й лексичну сполучуваність, розглядають моделі синтаксичних конструкцій, колокації тощо.
У семантичних дослідженнях зосереджуються на кількості значень мовних одиниць, лексичних групах, до яких ці одиниці належать, характер їхніх лексичних та граматичних значень.
Оскільки кожна із цих ознак лінгвістичної одиниці може впливати на її частоту, тобто частота відображає ту чи ту її властивість (певну сукупність властивостей), виявити такі взаємозв'язки можна лише за допомогою статистичних обстежень.
Особливості вживання конкретної одиниці в певному тексті визначають її функційні властивості: частота, позиція, сполучуваність, яка залежить від характеру тексту, від функційного чи авторського стилю і змінюється від тексту до тексту.
Щоб виявити відмінність між частотами мовної одиниці в різних стилях та жанрах, встановлюють і закономірності функціювання одиниці в цих стилях, і особливості останніх. Частоти одиниць, істотно різні в різних стилях, називаються статистичними параметрами стилів, на яких базує свої висновки нова галузь мовознавства - стилеметрія Валентина Перебийніс, ред., Статистичні параметри стилів (Київ: Наукова думка, 1967).. Ці параметри властиві всім рівням мови, оскільки тексти можуть істотно відрізнятися за частотами фонем, морфем, слів і лексичних груп, синтаксичних конструкцій.
Проведення нових досліджень наявних та нових збірок текстів дає змогу як підтвердити раніше виявлені, так і визначити нові статистичні параметри та закономірності будови текстів, структурних особливостей різних мов. Дослідження такого типу є основою статистичної типології текстів та мов.
У прикладному мовознавстві атрибуцію тексту розуміють як вивчення текстового матеріялу, щоб встановити авторство або одержати певну інформацію про особистість автора чи умови, за яких створено текст. Для цього необхідно розв'язати чи ідентифікаційну, чи діягностичну задачу ТВ. Батура, «Формальные методы определения авторства текстов», Вестник НГУ, 10, 4: 81-94..
Розв'язуючи ідентифікаційні задачі, припускають, що автор тексту відомий дослідникові. За допомогою задач цього типу:
підтверджують або відкидають авторство конкретної особи;
перевіряють, чи та сама особа написала весь текст;
перевіряють факт, що справжній автор - той, хто написав текст.
За допомогою діягностичних задач визначають такі характеристики автора, як місце народження та постійного проживання, рідна мова, рівень освіти, знання іноземних мов, а також підтверджують чи спростовують факт свідомого спотворення мови та ін. У такому разі припускають, що автор тексту не відомий, тому порівняти текст, що досліджують, з авторським неможливо.
Методи атрибуції застосовують на пунктуаційному, ортографічному, синтаксичному, лексико-фразеологічному та стилістичному рівнях.
На пунктуаційному рівні з'ясовують особливості вживання пунктуаційних знаків, специфічні стосовно останніх помилки автора і т. ін.
На ортографічному рівні виявляють специфічні помилки у правописі.
На синтаксичному рівні приділяють увагу типовим синтаксичним структурам, перевазі розповідних, питальних чи окличних речень, уживанню активного чи пасивного стану, порядку слів у реченні, специфічним синтаксичним помилкам тощо.
На лексико-фразеологічному рівні визначають кількісний та якісний словниковий запас автора, зокрема характерні особливості вживання фразеологізмів, схильність до використання рідковживаних чи іншомовних слів, діалектизмів, архаїзмів, неологізмів, професійних термінів, арґотизмів, навички вживання прислів'їв, приказок, афоризмів і т. ін.
На стилістичному рівні визначають жанр тексту, його загальну будову, зокрема для літературних творів - сюжет, типові образотворчі прийоми (метафора, іронія, алегорія, гіпербола, порівняння), стилістичні фігури (антитеза, риторичне питання тощо), інші характерні мовні прийоми.
До авторського стилю зазвичай зараховують синтаксичний, лексико-фразеологічний та стилістичний рівні. Їхній аналіз є доволі складний і водночас збуджує найбільший інтерес.
Методи аналізу стилю ділять на дві групи: експертні й формальні. В експертних методах текст опрацьовують професійні лінгвісти - експерти. Формальні методи ділять на методи, що базовані на машинному навчанні (баєсівський класифікатор, нейронні мережі, дерева рішень, метод опорних векторів, генетичні алгоритми, метод к-найближчих сусідів) та методи, що базовані на статистичних дослідженнях (одновимірні: критерій Стьюдента, двосторонній критерій Фішера, хі-квадрат Пірсона; багатовимірні: метод головних компонент, критерій Колмогорова-Смірнова, ланцюги Маркова, хі-квадрат Пірсона для розподілів, статистичний кластерний аналіз тощо). Базу формальних методів зазвичай становлять порівняння обчислених характеристик текстів. Як формальну модель текст чи тексти автора зображують вектором параметрів, кожний із яких об'єктивно розкриває ту чи ту характеристику тексту Там само, 83..
Для порівняння двох текстів беруть інтегральну характеристику, яку обчислюють тим чи тим способом (наприклад, ентропію) Там само, 84.. У найпростіших ситуаціях сукупність параметрів розглядають як звичайний вектор у п-мірному декартовому просторі, а за інтеґральну характеристику беруть звичайну декартову відстань між кінцями відповідних їм векторів. Здебільшого за параметри, що характеризують текст, беруть його ті чи ті статистичні характеристики: частоту вживання окремих частин мови, знаків пунктуації, конкретних слів, фразеологізмів, архаїзмів, рідковживаних та іншомовних слів, кількість і довжину речень (виміряну у словах, складах, символах), обсяги словника, кількість повнозначних і службових слів, середню довжину речення, відношення кількости дієслів до загальної кількости слововживань у тексті тощо.
Вибираючи параметри, треба враховувати, що не всі вони придатні для атрибуції текстів через один із двох таких недоліків:
Відсутність рівноваги. Розкид значень параметра в текстах одного автора такий великий, що діяпазони його значень і різних авторів перекриваються. Очевидно, що такий параметр не дасть змоги розрізнити авторство, а його використання у складі групи створюватиме додатковий побічний шум.
Відсутність розрізнювальної здатности. Значення параметра визначають властивостями мови, якою написані тексти, а не індивідуальними особливостями мови автора. Такий параметр набуває близьких значень для будь-яких текстів будь-якого автора.
З огляду на це параметри перед використанням належить досліджувати на стійкість та розрізнювальну здатність. При цьому бажано використовувати максимально можливу кількість авторів та виходити із припущення, що формальний параметр має відповідати таким умовам Ігор Кульчицький, «Ентропія одно- та двограм символів в україномовних текстах», Науковий вісник Волинського національного університету імені Л. Українки, 6, 2016: 183-189.:
Масовість. Параметр повинен збігатися з тими характеристиками тексту, які автор лише незначною мірою контролює на свідомому рівні. Це необхідно для того, щоби відкинути можливість свідомого спотворення чи зміни автором типового для нього стилю або стилізації під іншого автора.
Стійкість. Параметр передбачає збереження постійного значення для одного автора. Очевидно, що внаслідок випадкових чинників обов'язково буде певне відхилення значень від середнього значення, однак воно має бути незначним.
Розрізнювальна здатність. В ідеалі параметр має набувати істотно різних значень (незначні коливання можливі для одного автора) для різних авторів. Варто зазначити, що вибрати параметри, які ґарантовано розрізняють двох авторів, дуже складно. Хай би які не були параметри, завжди є ймовірність того, що за цими параметрами два або більше авторів виявляться близькими через випадковий збіг. Тому, як свідчить практика, достатньо, щоб параметр давав змогу переконливо розрізняти між собою різні групи авторів, тобто щоби була досить велика кількість груп авторів, для яких середнє значення параметра значно відрізняється. У такому разі параметр, мабуть, не дасть змоги розрізнити текстів авторів однієї групи, однак уможливить розрізнення текстів авторів, що перебувають у різних групах.
Застосування статистичних методів у лінгвістичних дослідженнях покажемо на прикладах визначення складників статистичного профілю творів окремих авторів. З усього різноманіття таких характеристик зупинимося на частотності графем, довжині абзаців, речень та словоформ. Такі дослідження проводять на кафедрі прикладної лінгвістики Національного університету «Львівська політехніка».
Дослідницький матеріял сформовано так. Для дослідження вибрано твори Василя Стефаника Василь Стефаник, «Межа», Літературно-науковий вісник, 92, 2 (1927): 97-98; Василь Стефаник, «Портрет», Твори (Харків: ДВУ, 1929, 94-95); Василь Стефаник, Твори (Львів: Видавнича Спілка «Діло», 1933); Василь Стефаник, «Шкільник», Рідна школа, 1932: 2-4., Михайла Яцкова Михайло Яцків, Вибрані твори (Київ: Дніпро, 1973)., Ліни Костенко Ліна Костенко, Вибране (Київ: Дніпро, 1989). та Петра Карманського П.С. Карманський, Поезії (Київ: Укр. письменник, 1992).. Наявність у матеріялі творчого доробку двох новелістів, які творили в різний час, та двох поетів, один із яких репрезентує Наддніпрянську, а другий - Наддністрянську Україну, дала змогу порівняти твори за визначеними показниками як у стильовому, так і в часовому та регіональному розрізах. Для проведення досліджень твори названих авторів перетворено на електронну форму та звірено з паперовими ориґіналами. Отже, дослідницька збірка містить: усі (55) відомі на сьогодні новели В. Стефаника, вибрані (42) новели М. Яцкова, 328 поезій Л. Костенко та 320 поезій П. Карманського.
Для проведення статистичних досліджень на рівні символів (графем) із творів кожного автора утворено масив символьних рядків за такими правилами:
у текстах залишено тільки символи розширеної української абетки, до якої залучено символи традиційної абетки, пропуск, дефіс та апостроф;
усі букви перетворено на великі;
між словами залишено лише один пропуск;
утворено один суцільний текст послідовним приєднанням через пропуск текстів: для новел в алфавітному порядку за назвами, для поезії - за порядком розміщення у збірці;
утворений текст поділено на масив символьних рядків однакової довжини, яка становить 108 символів (трикратний розмір розширеного алфавіту - вибрано автором інтроспективно); якщо останній рядок мав довжину меншу ніж 108 символів, то його відкинуто.
Для досліджень довжин абзаців, речень та словоформ у новелах В. Стефаника та М. Яцкова позначено початок і кінець речень та абзаців.
Методика обчислень була такою.
Усі статистичні показники обчислювали за стандартними для математичної статистики формулами Валентина Перебийніс, ред., Статистичні параметри стилів, 23-43.. Зокрема, середнє обчислювали за формулою:
де хі - варіанта, пі - кількість наявностей варіанти в дослідах, і - номер варіанти, а середнє квадратичне відхилення - за формулою:
де хі - варіанта, и - кількість навяностеи варіанти в дослідах, і - номер варіанти, х - середнє значення.
Міру коливання середньої частоти обсилювали за формулою:
а стандартну похибку - за формулою:
де а - середнє квадратичне відхилення, п, - кількість наявностей варіанти в дослідах, і - номер варіанти, х - середнє значення.
Відносну похибку обчислювали за формулою:
де - середнє, - - міра коливання середньої частоти.
Для кожного масиву виконано такі дії:
Крок 1. Обчислено абсолютну (кількість) та відносну частоту кожного символу розширеної української абетки в цілому символьному масиві. За одержаними частотами для кожного символу визначено його ранґ та обчислено ентропію за формулою А.М. Яглом, И.М. Яглом, Вероятность и информация (Москва: КомКнига, 2007).:
де pi - відносна частота i-го символу.
Крок 2. Визначено розмір сеґмента тексту в рядках. Розмір вибірки встановлено діленням націло кількости рядків у масиві на 100. Залишок використано для організації послідовного вибору сеґментів.
Крок 3. Послідовно, починаючи з першого рядка, з символьного масиву вибирали сеґмент визначеної в попередньому кроці довжини. Для кожного символу розширеної української абетки у вибраному сеґменті визначали абсолютну й відносну частоти, ранґ та ентропію. Після досягнення кінця масиву вибір із подальшими обчисленнями послідовних сеґментів починали з другого рядка, потім - з третього і т. д. Кількість зміщень від початку масиву була регламентована залишком від ділення націло кількости рядків у масиві на 100. Після завершення вибору послідовних сеґментів визначено середню частоту та ентропію кожного символу.
Крок 4. Аналогічні обчислення проведено для сеґментів, які формували з рядків масиву за допомогою генератора випадкових чисел. Розмір сеґмента та кількість вибірок відповідала значенням попереднього кроку.
Крок 5. За результатами проведених обчислень проаналізовано відповідність частот символів у цілому масиві та вибраних сеґментах. За теоретичне підґрунтя взято критерій узгоджености К. Пірсона (Х ) Ружевич Н.А. Математична статистика (Львів: Видавництво Національного ун-ту Львівська політехніка, 2001).. За гіпотетичну теоретичну функцію розподілу прийнято частотний розподіл символів у дослідницькому масиві тексту. Для кожного вибраного сеґмента обчислювали статистику критерію Xexp . За нульову гіпотезу Н0 прийняли твердження: «у тексті-вибірці розподіл частот символів розширеної української абетки не відрізняється від відповідного розподілу в текстовому масиві». tcr = Х\-а,к-1 визначали за стандартною таблицею для рівня значущости а=0,05 та відповідному ступені свободи k-1. Число k (максимально - кількість символів розширеної української абетки, дорівнює 36) залежало від приведення одержаних послідовностей до вимоги рівності мінімального значення в послідовності не менше ніж 5. Якщо отримували, що Xexp -- tcr, то гіпотезу відхиляли, інакше її приймали.
Крок 6. За одержаними результатами визначено усереднений ранґ частоти кожного символа. Таким ставало те значення ранґу, яке символ займав найбільшу кількість разів як у всьому тексті, так і в кожному сеґменті. Якщо ранґи двох символів збігалися, то враховувалося абсолютне значення кількости.
Крок 7. Для всього символьного масиву та окремо для послідовно й випадково вибраних його сеґментів обчислено розподіл символів за типами та милозвучність тексту. Милозвучність визначали як відсоток сукупносте голосних, сонорних та дзвінких букв.
Крок 8. Для кожного масиву проведено аналіз розміру сеґмента, починаючи з якого його частота символів відповідала частоті символів всього масиву. З цією метою початковий розмір сеґмента встановили в одну соту розміру масиву. Для всіх можливих сеґментів такої довжини обчислювали за критерієм узгоджености Пірсона (див. попередній крок) кількість збігів частот символів у сеґменті й масиві. Після того розмір масиву збільшували на одну соту й операцію повторювали. Дослід закінчували тоді, коли розмір сеґмента дорівнював приблизно 99 % розміру всього масиву.
На завершальному етапі пораховано довжини абзаців, речень та словоформ у новелах В. Стефаника та М. Яцкова.
Усі обчислення виконано за допомогою власних програм, написаних мовою Python.
Внаслідок обчислень одержано такі показники.
Кількість символів у масивах рядків, утворених із текстів кожного автора, подано в таблиці 1.
Таблиця 1. Кількість символів у масивах рядків, що утворені з текстів автора
Автор |
Кількість символів |
|
Василь Стефаник |
286092 |
|
Михайло Яцків |
246888 |
|
Ліна Костенко |
237384 |
|
Петро Карманський |
218700 |
Як бачимо, кількість символів у прозових творах та в поезії зіставна.
У таблиці 2 подано частотність символів як у цілих масивах (колонка Т), так і в сеґментах (колонка С, значення усереднено) творів автора. У списку символів «<SP>» означає «пропуск».
Таблиця 2. Частотність символів у творах авторів
Символ |
Частота |
||||||||
В. Стефаник |
М. Яцків |
Л. Костенко |
П. Карманський |
||||||
Т |
С |
Т |
С |
Т |
С |
Т |
С |
||
А |
0,0811 |
0,0811 |
0,0745 |
0,0746 |
0,0662 |
0,0662 |
0,0616 |
0,0615 |
|
Б |
0,0205 |
0,0204 |
0,0164 |
0,0163 |
0,0164 |
0,0165 |
0,0162 |
0,0163 |
|
В |
0,0429 |
0,0431 |
0,0474 |
0,0476 |
0,0423 |
0,0423 |
0,0426 |
0,0426 |
|
Г |
0,0139 |
0,0139 |
0,0147 |
0,0147 |
0,0133 |
0,0132 |
0,0140 |
0,0140 |
|
Ґ |
0,0007 |
0,0007 |
0,0002 |
0,0002 |
0,0001 |
0,0001 |
0 |
0 |
|
Д |
0,0293 |
0,0293 |
0,0286 |
0,0286 |
0,0256 |
0,0255 |
0,0261 |
0,0262 |
|
Е |
0,0393 |
0,0393 |
0,0389 |
0,0389 |
0,0446 |
0,0447 |
0,0396 |
0,0397 |
|
Є |
0,0052 |
0,0052 |
0,0041 |
0,0041 |
0,0035 |
0,0035 |
0,0042 |
0,0042 |
|
Ж |
0,0082 |
0,0082 |
0,0072 |
0,0072 |
0,0101 |
0,0101 |
0,0088 |
0,0088 |
|
З |
0,0177 |
0,0178 |
0,0183 |
0,0183 |
0,0166 |
0,0166 |
0,0193 |
0,0193 |
|
И |
0,0607 |
0,0607 |
0,0540 |
0,0540 |
0,0540 |
0,0541 |
0,0541 |
0,0542 |
|
І |
0,0436 |
0,0437 |
0,0475 |
0,0475 |
0,0505 |
0,0507 |
0,0521 |
0,0521 |
|
Ї |
0,0043 |
0,0044 |
0,0049 |
0,0049 |
0,0040 |
0,0040 |
0,0034 |
0,0034 |
|
Й |
0,0129 |
0,0129 |
0,0108 |
0,0108 |
0,0114 |
0,0114 |
0,0137 |
0,0137 |
|
К |
0,0318 |
0,0319 |
0,0309 |
0,0309 |
0,0297 |
0,0297 |
0,0256 |
0,0256 |
|
Л |
0,0328 |
0,0328 |
0,0361 |
0,0361 |
0,0346 |
0,0345 |
0,0332 |
0,0331 |
|
М |
0,0256 |
0,0256 |
0,0242 |
0,0241 |
0,0273 |
0,0274 |
0,0306 |
0,0307 |
|
Н |
0,0424 |
0,0424 |
0,0474 |
0,0472 |
0,0490 |
0,0490 |
0,0502 |
0,0503 |
|
О |
0,0744 |
0,0744 |
0,0752 |
0,0753 |
0,0694 |
0,0692 |
0,0639 |
0,0640 |
|
П |
0,0213 |
0,0214 |
0,0243 |
0,0243 |
0,0217 |
0,0217 |
0,0211 |
0,0211 |
|
Р |
0,0299 |
0,0299 |
0,0345 |
0,0345 |
0,0367 |
0,0367 |
0,0382 |
0,0383 |
|
С |
0,0320 |
0,0320 |
0,0343 |
0,0343 |
0,0354 |
0,0355 |
0,0388 |
0,0388 |
|
Т |
0,0454 |
0,0453 |
0,0412 |
0,0412 |
0,0443 |
0,0444 |
0,0435 |
0,0434 |
|
У |
0,0273 |
0,0273 |
0,0289 |
0,0289 |
0,0292 |
0,0292 |
0,0286 |
0,0287 |
|
Ф |
0,0006 |
0,0006 |
0,0009 |
0,0009 |
0,0012 |
0,0013 |
0,0006 |
0,0006 |
|
Х |
0,0096 |
0,0096 |
0,0107 |
0,0107 |
0,0109 |
0,0109 |
0,0123 |
0,0123 |
|
Ц |
0,0053 |
0,0053 |
0,0053 |
0,0054 |
0,0064 |
0,0064 |
0,0046 |
0,0046 |
|
Ч |
0,0086 |
0,0086 |
0,0109 |
0,0109 |
0,0115 |
0,0115 |
0,0103 |
0,0103 |
|
Ш |
0,0086 |
0,0086 |
0,0076 |
0,0077 |
0,0073 |
0,0074 |
0,0072 |
0,0072 |
|
Щ |
0,0035 |
0,0035 |
0,0042 |
0,0042 |
0,0049 |
0,0050 |
0,0047 |
0,0047 |
|
Ь |
0,0084 |
0,0085 |
0,0125 |
0,0126 |
0,0165 |
0,0165 |
0,0171 |
0,0171 |
|
Ю |
0,0063 |
0,0063 |
0,0071 |
0,0071 |
0,0067 |
0,0067 |
0,0092 |
0,0092 |
|
Я |
0,0162 |
0,0162 |
0,0203 |
0,0204 |
0,0190 |
0,0189 |
0,0198 |
0,0198 |
|
' |
0,0001 |
0,0001 |
0,0010 |
0,0009 |
0,0014 |
0,0014 |
0,0014 |
0,0014 |
|
- |
0,0009 |
0,0009 |
0,0009 |
0,0009 |
0,0010 |
0,0010 |
0,0012 |
0,0011 |
|
<SP> |
0,1887 |
0,1888 |
0,1742 |
0,1743 |
0,1775 |
0,1775 |
0,1822 |
0,1822 |
Для кожного автора частоти символів у всьому тексті та в його сеґментах порівняли за критерієм узгоджености Пірсона. Порівняння засвідчило, що частоти символів належать до однієї генеральної сукупносте. Отже, доходимо висновку, що для визначення частотности символів у творах одного автора не потрібні всі його твори, а достатньо вибірки з текстів його творів. Спосіб одержання та розмір вибірки буде обговорено в подальшому викладі матеріалу.
Зовсім інші, дещо несподівані для автора, результати дало аналогічне порівняння частотности символів творів досліджуваних авторів. Додатково для цього утворено масив рядків символів із творів усіх авторів та використано результати частотности символів, що одержані на масиві художніх творів українською мовою обсягом близько 12 мільйонів символів в Українському мовно-інформаційному фонді НАНУ В.А. Широков, Інформаційна теорія лексикографічних систем.. Результати обчислення Хехр подано в таблиці 3.
Таблиця 3. Значення Хехр для критерію узгоджености Пірсона в текстових масивах
Й Я Я се *в- н и М |
М. Яцків |
Л. Костенко |
* й В и В Я Он л И |
Усі разом |
Є 1 |
||
В. Стефаник |
4915,28 |
9732,77 |
10619,12 |
15999,91 |
595609,76 |
||
М. Яцків |
4108,43 |
2001,57 |
3269,28 |
2844,06 |
336053,40 |
||
Л. Костенко |
7560,72 |
1951,62 |
1415,46 |
4100,14 |
464173,59 |
||
П. Карманський |
39582,89 |
4670,69 |
1807,84 |
21765,88 |
438749,87 |
||
Усі разом |
2765,80 |
696,24 |
976,60 |
1775,66 |
353203,86 |
||
УМІФ |
7376,82 |
4282,76 |
7158,29 |
7808,78 |
19287,34 |
За максимально допустимого ґсг = 4 9 можна стверджувати, що частота символів у творах кожного автора суворо індивідуальна й не збігається ні з частотою символів у об'єднаному масиві текстів, ні з частотою символів, одержаною в УМІФ. Причину такого явища, на мою думку, необхідно шукати в подальших дослідженнях, збільшуючи як кількість творів, так і кількість авторів.
Такі результати породжують припущення, що частотність символів у творах автора може слугувати розрізнювальною ознакою під час встановлення авторства тексту. Для перевірки цього припущення, обчислюючи частоти символів у тексті чи його сеґменті, визначали ентропію символу, вважаючи, що саме вона й буде ознакою-розрізнювачем. Узагальнені результати подано в таблиці 4.
Таблиця 4. Ентропія символів у текстах авторів
Автор |
Увесь текст |
Вибірка |
||||
Тип |
Ентропія |
|||||
Ентропія |
Мінімальна |
Середня |
Максимальна |
|||
В. Стефаник |
4,40874 |
послідовна |
4,3009 |
4,389 |
4,4862 |
|
випадкова |
4,3236 |
4,3992 |
4,4623 |
|||
М. Яцків |
4,46697 |
послідовна |
4,3536 |
4,4468 |
4,5439 |
|
випадкова |
4,3803 |
4,456 |
4,541 |
|||
Л. Костенко |
4,48014 |
послідовна |
4,3448 |
4,4609 |
4,5414 |
|
випадкова |
4,3868 |
4,4677 |
4,5503 |
|||
П. Карманський |
4,47987 |
послідовна |
4,3633 |
4,4576 |
4,5373 |
|
випадкова |
4,3865 |
4,4663 |
4,5545 |
Аналіз значень ентропії символів для текстів творів авторів, залучених до дослідження, та сеґментів текстів доводить, що вона не може бути показником належности твору конкретному автору, оскільки її значення між авторами перекриваються. Підкреслимо, що йдеться тільки про твори 4 авторів. Загальних висновків можна буде дійти лише за значного збільшення кількости авторів та їхніх творів. Окрім того, доцільним, на мою думку, був би пошук інших розрізнювальних індикаторів авторства, базованих не тільки на частотності символів, але й на частотності комбінацій двох, трьох і т. ін. символів. Хоча проведені дослідження з символьними двограмами Ігор Кульчицький, «Ентропія одно- та двограм символів в україномовних текстах», Науковий вісник Волинського національного університету імені Л. Українки, 6, 2016: 183-189. позитивного результату не дали.
Одержані результати заперечують і припущення про стабільність інваріантносте частотности букв у текстах кожної мови, зокрема української. На рис. 1 показано частотні ранґи символів, які вони одержували у проведених обчисленнях частотности як у кожному з масивів, так і у кожному з його сеґментів.
Темно-жовтим кольором позначено нормований ранґ кожного символу, жовтим - ранґи, частота одержання яких близька до нормованого, зеленим - решта ранґів із меншими кількісними значеннями (зокрема з 1-2), які було присвоєно символу. Проведене дослідження дало змогу виокремити групу найчастотніших (таблиця 5), середньочастотних (таблиця 6) та низькочастотних (таблиця 7) символів у текстах творів названих письменників. Подальші дослідження уможливлять уточнення цих показників для української мови.
Таблиця 5. Найчастотніші символи української мови
Символ |
Кількість разів одержання нормованого ранґу |
Ранґ |
|||||
нормований |
Розмах |
Найбільш можливі |
|||||
мінімум |
максимум |
мінімум |
максимум |
||||
<SP> |
52 404 |
і |
1 |
1 |
1 |
1 |
|
О |
26 780 |
2 |
2 |
10 |
2 |
3 |
|
А |
24 559 |
3 |
2 |
9 |
2 |
3 |
|
И |
29 356 |
4 |
2 |
11 |
4 |
5 |
|
І |
13 239 |
5 |
2 |
14 |
4 |
7 |
|
Н |
13 101 |
6 |
2 |
15 |
5 |
7 |
|
В |
9 812 |
7 |
3 |
18 |
5 |
9 |
|
Т |
10 814 |
8 |
3 |
18 |
5 |
9 |
|
Е |
10 830 |
9 |
2 |
17 |
7 |
10 |
|
Р |
10 342 |
10 |
4 |
19 |
10 |
12 |
|
С |
11 854 |
11 |
3 |
19 |
10 |
12 |
|
Л |
9 478 |
12 |
4 |
13 |
10 |
12 |
Нормований ранґ - це ранґ, який символ отримував найбільшу кількість разів у всіх (54404) обчисленнях частоти символів. Якщо ранґ збігався для декількох символів, то їх ранжували за спаданням значення кількости. Розмах - це найбільше та найменше значення ранґу, яке отримував символ хоча б один раз. Зрозуміло: що значення ранґу менше, то сам ранґ вищий. Найбільш можливі - це найближчі до нормованого ранґи, які одержував символ.
Таблиця 6. Середньочастотні символи української мови
Символ |
Кількість разів отримання нормованого ранґу |
Ранґ |
|||||
Нормований |
Розмах |
Найбільш можливі |
|||||
мінімум |
максимум |
мінімум |
максимум |
||||
К |
10 032 |
13 |
5 |
22 |
12 |
15 |
|
У |
11 642 |
14 |
6 |
21 |
13 |
16 |
|
Д |
11 572 |
15 |
7 |
25 |
13 |
16 |
|
М |
10 883 |
16 |
7 |
24 |
14 |
17 |
|
П |
15 778 |
17 |
9 |
27 |
16 |
18 |
|
Я |
13 353 |
18 |
12 |
28 |
18 |
19 |
|
З |
13 883 |
19 |
11 |
28 |
18 |
20 |
|
Б |
11 230 |
20 |
8 |
29 |
19 |
21 |
|
Г |
12 107 |
21 |
14 |
30 |
20 |
22 |
|
Й |
8 631 |
22 |
15 |
33 |
22 |
25 |
|
Ь |
7 620 |
23 |
13 |
32 |
20 |
23 |
|
Х |
10 074 |
24 |
33 |
33 |
23 |
25 |
|
Ч |
9 685 |
25 |
16 |
33 |
23 |
26 |
|
Ж |
9 560 |
26 |
17 |
34 |
25 |
27 |
|
Ш |
10 374 |
27 |
18 |
34 |
26 |
28 |
|
Ю |
9 540 |
28 |
16 |
35 |
27 |
29 |
Таблиця 7. Низькочастотні символи української мови
Символ |
Кількість разів одержання нормованого ранґу |
Ранґ |
|||||
Нормований |
Розмах |
Найбільш можливі |
|||||
мінімум |
максимум |
мінімум |
максимум |
||||
Ц |
10 735 |
29 |
20 |
36 |
28 |
30 |
|
Щ |
11 724 |
30 |
21 |
36 |
29 |
32 |
|
Є |
13 170 |
31 |
22 |
36 |
30 |
32 |
|
Ї |
12 824 |
32 |
20 |
36 |
30 |
32 |
|
' |
15 694 |
33 |
29 |
36 |
33 |
35 |
|
Ф |
14 977 |
34 |
27 |
36 |
33 |
35 |
|
- |
17 839 |
5 |
25 |
36 |
33 |
35 |
|
Ґ |
32 391 |
36 |
27 |
36 |
35 |
36 |
Ще один досліджуваний показник - це милозвучність текстів. Розподіл символів за типами подано в таблиці 8.
Обчислення милозвучносте дали такі результати:
Василь Стефаник - 78,7 %;
Михайло Яцків - 78,5 %;
Ліна Костенко - 78,0 %;
Петро Карманський - 78,3 %.
Таблиця 8. Розподіл символів за типами
В. Стефаник |
М. Яцків |
Л. Костенко |
П. Карманський |
||
Голосні |
32,60 % |
31,90 % |
31,40 % |
30,00 % |
|
Приголосні: |
44,00 % |
45,20 % |
45,20 % |
45,70 % |
|
сонорні |
18,66 % |
20,07 % |
20,16 % |
20,84 % |
|
дзвінкі |
9,02 % |
8,54 % |
8,23 % |
8,45 % |
|
глухі |
16,32 % |
16,63 % |
16,86 % |
16,41 % |
|
Допоміжні |
23,40 % |
22,90 % |
23,40 % |
24,30 % |
До допоміжних символів належать ті з 36 символів, які не віднесені ні до голосних, ні до приголосних.
Порівняння одержаних величин із показниками, поданими для українськомовних текстів у монографії «Статистичні параметри стилів», показало, що милозвучність творів Василя Стефаника та Михайла Яцкова найближча до милозвучносте творів суспільно-політичного (78,7 %), Ліни Костенко та Петра Карманського - до драматургічного (77,9 %) стилів. На мою думку, видимої причини такого явища ще вказати не можна. Цілком можливо, що проблема полягає в доборі текстової інформації, але поданий у монографії матеріял дослідження був дібраний коректно. На жаль, за неофіційною інформацією, первинні матеріали цього дослідження втрачені, тому відтворити їх неможливо. Відповідь, мабуть, за майбутніми дослідженнями.
Ще одне дослідження проведено для визначення мінімального розміру вибірки тексту, після якого частотність символів збігається з частотністю символів у всіх творах автора. Як було сказано вище, частоту символів порівнювали з частотою у всьому тексті, для всіх можливих сеґментів певного ...
Подобные документы
Лінгвогеографія як метод вивчення просторового розміщення мовних явищ. Опис і порівняння мови з іншою за допомогою зіставного метода. Історія і розвиток мовної типології, мовні універсалії. Структурний метод як метод синхронного аналізу мовних явищ.
реферат [21,3 K], добавлен 15.08.2008Дослідження функціонально-семантичного поля темпоральності в латинській мові. Аналіз праць лінгвістів щодо поняття "поле". Огляд основних характеристик функціонально-семантичного поля. Вивчення структурних особливостей мовних явищ у польовому вимірі.
статья [24,7 K], добавлен 19.09.2017Системний характер мови. Парадигматичні, синтагматичні й ієрархічні відношення між мовними одиницями. Основні й проміжні рівні мови. Теорія ізоморфізму й ієрархії рівнів мови. Своєрідність системності мови: співвідношення системних і несистемних явищ.
реферат [28,2 K], добавлен 14.08.2008Процес творення єдиних мовних норм. Проект Українського правопису за редакцією В. Німчука. Проект Правопису за редакцією В. Русанівського. Проект змін до чинного Правопису Інституту української мови НАНУ. Секрети української мови.
реферат [15,7 K], добавлен 19.03.2007Виникнення і первісний розвиток української мови. Наукові праці україномовців про виникнення української мови. Дослідження розвитку писемної української мови: діяльність Кирила і Мефодія. Спільність української мови з іншими слов'янськими мовами.
реферат [29,5 K], добавлен 26.11.2007Українська літературна мова як вища форма національної мови. Стилі української мови в професійному спілкуванні. Типізація мовних норм. Поняття та ознаки культури мовлення. Становлення українського правопису і його сучасні проблеми, шляхи їх вирішення.
реферат [25,2 K], добавлен 26.01.2015Місце фонетики та орфоепії в національно-мовному просторі особистості. Звук мовлення і фонема. Рух і положення мовних органів при вимові певних звуків. Правила фонетичного та орфографічного складоподілу. Основні фонетичні одиниці української мови.
контрольная работа [84,2 K], добавлен 21.11.2010Петро Яцик, як особистість і унікальний українець (на основі спогадів Андрія Товпаша та Михайла Слабошпицького). Внесок мецената у розвиток рідної мови в Україні та за кордоном. Щорічний Міжнародний конкурс знавців української мови імені Петра Яцика.
реферат [151,1 K], добавлен 24.01.2013Розвиток української літературної мови давньої і середньої доби. Доба відродження української літературної мови. Розвиток урядової мови в напряму зближення з живою мовою із впливом мови центральноєвропейських канцелярій: латинської, німецької, польської.
реферат [21,1 K], добавлен 14.10.2011Поняття та місце вільного поєднання в системі синтаксичних зв’язків сучасної української мови. Критерії диференціації явищ слабкого керування та вільного поєднання у відмінковому вияві. Специфіка зв’язку цілісних словосполучень із синтаксичною домінантою.
автореферат [50,3 K], добавлен 11.04.2009Асимілятивні, дисимілятивні процеси, подовження, спрощення у групах приголосних, відбиття цих явищ на письмі. Види асиміляції звуків. Подовжені м'які приголосні. Словник Лаврентія Зизанія (1596), "Лексикон" Памви Беринди (1627) та сучасні словники.
методичка [56,7 K], добавлен 21.11.2010Особливості контакту мовних систем. Внутрішньонаціональні мовні культури і їх взаємодія. Мовна поведінка різних двомовних носіїв. Соціокультурні умови мовного контакту. Аспекти проблем, пов'язаних з функціями мови в багатомовному та двомовному колективі.
контрольная работа [26,4 K], добавлен 17.01.2011Феномен сленгу як лінгвістичного явища і об’єкту досліджень. Джерела формування, семантико-структурні, словотворчі та функціональні особливості українськомовного молодіжного сленгу. Аналіз динаміки змін у лексичному складі сучасної української мови.
курсовая работа [46,3 K], добавлен 01.04.2011Роль і значення для розвитку мови місця її народження, дальшого поширення, положення країни на карті світу. Належність української мови до широко розгалуженої мовної сім'ї слов'янських мов. Переконлива відмінність української мови у її фонетиці.
реферат [24,8 K], добавлен 01.03.2009Мова як найвищий дар людини й цілого народу, талісман їхньої долі, таланту, безсмертя. Деякі аспекти історії виникнення української мови та писемності, докази її давності. Особливості золотої скарбниці української усної народної творчості, її значення.
сочинение [13,6 K], добавлен 21.04.2011Аспекти вивчення віддієслівних іменників у вітчизняних і зарубіжних мовознавчих студіях. Методика когнітивно-ономасіологічного аналізу, мотиваційні особливості й диференціація мотиваційних типів віддієслівних іменників сучасної української мови.
автореферат [28,4 K], добавлен 11.04.2009Давня та сучасна українська лексикографія. Поняття словника. Орфографічний словник української мови. Тлумачний словник української мови. Словник синонімів української мови. Винекнення лексикографії з практичних потреб пояснення незрозумілих слів.
реферат [33,0 K], добавлен 25.01.2009Читання як компонент навчання іноземної мови. Читання як культура сприйняття писемного мовлення. Етапи роботи з текстом. Сучасні вимоги до жанрової різноманітності та принципів відбору текстів з іноземної мови. Загаьні переваги автентичних текстів.
контрольная работа [25,9 K], добавлен 08.04.2011Загальна характеристика основних гіпотез виникнення мови, у тому числі теорії божественності її появи. Історичні відомості про проведення "царських експериментів" з визначення природної, "першої правильної" мови. Аналіз походження та джерел Адамової мови.
реферат [27,2 K], добавлен 11.09.2010Роки навчання в школі, педагогічному училищі, вищих навчальних закладах. Трудова діяльність доктора філологічних наук В.О. Горпинича. Його наукові праці, присвячені питанням граматики. Аналіз досліджень, присвячених питанням граматики української мови.
дипломная работа [7,2 M], добавлен 04.11.2013