Корпусне дослідження текстів рублики "Надзвичайні новини" у французькій, англійській та українській мовах
Поняття, предмет і метод корпусної лінгвістики. Дослідження корпусу текстів рубрики "Надзвичайні новини" у французькій, англійській та українській мовах. Складання основного тематичного глосарію Надзвичайних новин на тематику "вірусні захворювання".
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | украинский |
Дата добавления | 19.07.2020 |
Размер файла | 697,4 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
4
КОРПУСНЕ ДОСЛІДЖЕННЯ ТЕКСТІВ РУБРИКИ«НАДЗВИЧАЙНІ НОВИНИ» У ФРАНЦУЗЬКІЙ, АНГЛІЙСЬКІЙ ТА УКРАЇНСЬКІЙ МОВАХ
Махачашвілі Р.К., доктор філологічних наук, доцент, завідувач кафедри романської філології та порівняльно-типологічного мовознавства
Інституту філології Київського університету імені Бориса Грінченка
Білик К. М.,
викладач кафедри романської філології та порівняльно-типологічного мовознавства
Інституту філології Київського університету імені Бориса Грінченка
Анотація. Стаття присвячена дослідженню корпусу тексів рубрики «Надзвичайні новини» у французькій, англійській та українській мовах. Для укладання тематичного глосарію надзвичайних новин тематики «Вірусні захворювання» ми використали інструмент корпусної лінгвістики «Voyant Tools». Визначено ключові лексеми, встановлено синонімічний ряд і проаналізовано частоту використання слів і словосполучень вищезазначеної тематики. Метою статті є ознайомлення з базовими поняттями корпусної лінгвістики, опис можливостей роботи з корпусними базами даних у лінгвістичних дослідженнях, аналіз інструменту корпусної лінгвістики «Voyant Tools», укладання інноваційного глосарія текстів рубрики «Надзвичайні новини» тематики «Вірусні захворювання» у французькій, англійській, українській мовах. Корпусна лінгвістика є надзвичайно важливою галуззю сучасної лінгвістичної науки. Представлена робота містить практичний аналіз корпусу текстів новинного спрямування. У центрі уваги корпусного дослідження опиняється мовна особа, тобто її мовна діяльність, масова комунікація, проблема її опису. Саме тому досліджуваний інструмент корпусної лінгвістики приділяє увагу конкордансу, відносній та абсолютній частотності слів, ключовим словам, сполучуваності слів, багатокомпонентним групам, контекстуальному вживанню слів.
Реалізація поставленої мети передбачає виконання таких завдань:
- дослідити новинні тексти рубрики «Надзвичайні новини» у французькій, англійській та українській мовах;
- відібрати характерні для тематики «Вірусні захворювання» лексичні одиниці;
- проаналізувати семантичну специфіку відібраного лексичного матеріалу.
У ході дослідження новинних повідомлень було встановлено, що найчастіше вживаними лексемами є: вірус, зараження, поширення, люди, Китай, адже саме ці слова дають читачеві схематичну картину того, про що йтиметься у газетній шпальті.
Ключові слова: корпусна лінгвістика, надзвичайні новини, лексеми, текст, частота, коронавірус, «Voyant Tools».
Summary.The article is devoted to the research of the corpus of texts of the “Extraordinary News” section in French, English and Ukrainian. When compiling a thematic innovative glossary of extraordinary viral diseases topics, we used the corpus linguistics tool “Voyant Tools”. Key tokens have been identified, a synonym has been established and the frequency of use of words and phrases of the above subject has been analyzed.
The purpose of the article is to get acquainted with the basic concepts of corpus linguistics, describe the possibilities of working with corpus databases in linguistic research, analysis of corpus linguistics tools “Voyant Tools”, compilation of an innovative glossary of texts “Emergency News” topics in “Viral News” in French, English, Ukrainian. Corpus linguistics is an extremely important branch of modern linguistic science. The presented work contains a practical analysis of the body of news texts. The focus of the corpus research is the linguistic person, that is, his linguistic activity, mass communication, the problem of his description. That is why the tools of corpus linguistics under study pay attention to concordance, relative and absolute word frequency, keywords, word compatibility, multicomponent groups, contextual use of words.
The realization of this goal implies the following tasks:
- to research news articles of the “Extraordinary News” section in French, English and Ukrainian.
- select vocabulary units that are specific to the topic of “Viral diseases”;
- analyze the semantic specificity of the lexical material selected.
In a study of news reports, it was found that the most commonly used tokens are: virus, infection, spread, humans, China, because these words give a schematic picture to the reader of what the language in the newspaper covers. In view of further consideration and study of this topic, it is advisable to research and compare the token-nominees of the concepts of DEATH, VIRUS and to establish common and different in linguistic analysis in three languages.
Key words: corpus linguistics, breaking news, lexical items, text, frequency, coronavirus, Voyant Tools.
тематичний глосарій корпусна лінгвістика текст
Постановка проблеми. Останнім часом у потоці інформаційно-комунікаційних технологій набуває особливого значення автоматичне опрацювання інформації. Завдяки інформаційно-комунікаційним технологіям, які мають універсальні технічні можливості для аналізу, збереження та відбору матеріалу мови, розвивається нова галузь мовознавчих досліджень - корпусна лінгвістика, основним завданням якої є аналіз великої кількості емпіричного матеріалу та створення об'єктивних висновків щодо лінгвістичного корпусу тексту.
Корпусна лінгвістика передбачає застосування загальних принципів побудови, обробки лінгвістичних корпусів текстів, які здійснюються за допомогою інформаційно-комунікаційних технологій, розробку методик збору мовних явищ. Згідно з дослідженням В.А. Широкова корпус характеризується як «обмежений за об'ємом набір електронних текстів, зібраних із метою максимально точно представити варіант мови, яка досліджується» [4, с. 24]. В.П. Захаров зазначає, що корпус текстів - «значний за обсягом, представлений в електронному вигляді, уніфікований, структурований, розмічений, філологічно компетентний масив мовних даних, створений для вирішення конкретних лінгвістичних завдань» [8, с. 3].
О.М. Демська-Кульчицька визначає: «Корпус текстів - машиночитане стандартно організоване зібрання репрезентативних для певної мови, діалекту або іншої підмножини мови писемних або усних текстів, призначених для лінгвістичного аналізу й опису, відібраних і впорядкованих згідно з експліцитними екстра та інтралінгвальними критеріями» [7, с. 20].
Спираючись на дослідження вищезгаданих науковців, виокремимо характерні ознаки корпусу текстів, а саме:
- емпіричний підхід до синтезу мовних даних;
- створення великого за обсягом корпусу тексту як основи для дослідження лінгвістичного аналізу;
- залучення комп'ютерних технологій для розбору матеріалу;
- аналіз частоти використання слів і словосполучень певної тематики.
Виклад основного матеріалу. Контентом корпусів текстів слугували 12 повідомлень рубрики «Надзвичайніновини» французького видання «LeParisien», англійського «TheGuardian» та українського «Газета по-українськи» тематики «Вірусні захворювання».
Зважаючи на дослідження вищезазначених науковців, ми дійшли висновку, що аспекти корпусу текстів були досліджені з погляду на загальні характеристики. Крім того, у працях не зверталася увага на застосування програми для дослідження корпусу текстів «Voyanttools». Більш того, окремі фахівці акцентують на вивченні корпусу текстів лише українською мовою, тому метою нашого дослідження є використання інструменту корпусної лінгвістики відкритого доступу «VoyantTools» (https://voyant-tools.org), що є веб-платформою, яка виконує аналіз тексту.
Програма дозволяє здійснити науковий розбір тексту, виділити у корпусі частоту вживання лексичних одиниць, створити діаграми, схеми тощо. Також «Voyanttools» можна використовувати для аналізу онлайн-текстів або текстів, завантажених користувачами.
Здійснюючи аналіз вибірки новин англійського видання «TheGuardian» тематики «Вірусні захворювання» за допомогою веб-програми «VoyantTools», ми зафіксували, що цей корпус налічує 2 909 слів і 955 словосполучень. Із них виокремлено 44 ключові лексичні одиниці, які стосуються тематики «Коронавірус», визначено частоту вживання та використання слів у реченні. Серед найбільш вживаних слів: virus (29); coronavirus (27); people (27); health (20); cases (18); china (17); wuhan (16); confirmed (14); symptoms (12); new (11); spread (11); chinese (10); ago (9); infected (9); said (9); tested (9); uk (9); government (8); hospital (8); patients (8); far (7); level (7); public (7); 1d (6); city (6); flu (6); highest (6); hubei (6); medical (6); negative (6); number (6); province (6); reported (6); risk (6); situation (6); weeks (6); centre (5); cough (5); died (5); doctor ; emergency (5); hong (5); hospitals (5); news (5); provinces; world (5); year (5); affected (4); announced (4); appears (4); breathing (4); coronaviruses (4); countries (4); crisis (4); days (4); human (4); infection (4); kong (4); organization (4)
За сегментною діаграмою простежується топ 5 ключових слів тематики «Коронавірус» (рис. 1).
Рис. 1. Діаграма частоти вживання слів тематики «Коронавірус» в англійській мові
Демонструючи результат роботи програми, котра дозволяє зробити аналіз лексем новин французького видання «Le Parisien», виводимо показники, за якими статистика корпусу тексту налічує 4 293 слів та 1 254 словосполучень, із яких можна виокремити частоту використання слів від найбільш частого використання слова у тексті до найменшого, а саме: cas (31); France (29); personnes (28); coronavirus (27); chine (25); virus (25); Wuhan (20); janvier (19); parisien (18); chinois (l7); 2020 (16); santй (15); morts (12); symptфmes (12); afp (11); Paris (11); patients (11); samedi (11); ville (10); bordeaux (9); jours (9); matin (9); vendredi (9); 2019 (8); contact (8); l'йpidйmie ; ministиre (8); savoir (8); annoncй (7); autoritйs (7); charge ; dimanche (7); faire (7); faut (7); franзais (7); l'instant (7); modifiй (7); mortalitй (7); premier (7); taux (7); actualitйs (6); adresse (6); collectйe (6); commerciales (6); d'autres (6); hфpital ; l'actu (6); l'actualitй (6); l'essentiel (6); l'hфpital (6); m'inscris (6); mail (6); maladie (6); newsletter (6); nouveau (6).
Як бачимо, найбільш вживані лексеми-номінанти у новинах французькою мовою є: cas (випадок); france (Франція); personnes (люди); coronavirus (коронавірус); chine (Китай); virus (вірус)(рис. 2).
Рис. 2. Діаграма частоти вживання слів тематики «Коронавірус» у французькій мові
Здійснено також аналіз корпусу текстів українських новин, згідно з яким програма «Voyant Tools» продемонструвала такі ключові слова: у (96); в (93); з (73); на (65); і (45); що (40); коронавірус (38); також (37); Китаю (35); не (32); до (30); Китаї (29); та (27); про (26); коронавірусу (24); від (23); здоров'я (23); охорони (22); за (21); коментувати (18); коронавірусом (18); людей (18); це (16); із (16); через (15); який (15); а (14); для (14); закрили (14); зараження (14); зафіксували (14); осіб (14); повідомляє (14); фото (14); читайте (14); ВООЗ (13); він (13); вірусу (13); захворювання ; нового (13); січня (13); які (13); його (12); карантин (12); кількість (12); лікарні (12); поки (12); китайського (11); влада (10); й (10); місто (10); місті (9); року (9); ухань (9); Франції ; час (9); ще (9); як (9).
Крім того, можна застосувати для візуалізації термінів, що найчастіше зустрічаються в корпусі текстів, «Хмару слів «Cirrus (Циррус)»». (рис. 3).
Рис. 3. «Хмара слів «Cirrus (Циррус)»»
Результати показали, що найбільше застосовані в повідомленнях українською мовою прийменники у, в, на, сполучник і. Другу позицію займають такі слова: коронавірус, Китай, зараження. На третій позиції зазначені слова, які французькими й англійськими ЗМІ були виокремлені як топ-5 найуживаніших - Ухань, Франція, вірус, захворювання.
Таким чином, використовуючи інструмент корпусної лінгвістики «Voyant Tools», можемо виокремити ключові лексеми корпусу текстів, провести системні, широкі за кількістю охопленого емпіричного мовного матеріалу дослідження мови.
Отже, завдяки розвитку сучасних інформаційних технологій з'явилася нова сучасна лінгвістична дисципліна - корпусна лінгвістика, для якої характерний аналіз інтерпретаційних процесів, корпусу текстів, лексичний розбір. Однією з переваг дисципліни є оперування великим обсягом тексту, виклад аналізу корпусу тексту в електронному варіанті, що дозволяє економити час.
У перспективі подальшого розгляду і вивчення цієї теми доцільно дослідити та порівняти лексеми-номінанти концептів СМЕРТЬ, ВІРУС і встановити спільне та відмінне в лінгвістичному аналізі у трьох мовах.
Література
1.Демська О.М. Текстовий корпус: ідея іншої форми. Київ : ВПЦ НаУКМА, 2011. 282 с.
2.Демська-Кульчицька О. Основи Національного корпусу української мови. Київ : Наук. видання ІУМ НАН України, 2005. 219 с.
3.Захаров В.П. Корпусная лингвистика:учебно-методическое пособие. Санкт-Петербург, 2005. 48 с.
4.Корпусна лінгвістика / В.А. Широков, О.В. Букагов, Т.О. Грязну- хіна та ін. Київ : Довіра, 2005. 471 с.
5.Махачашвілі РК. Открытаявербальная е-среда: исседовательские принципы и ИКТ инструменты. Open Educational E-environment of modern university. 2016. № 2. С. 27-33.
6.Le Parisien. URL: http://www.leparisien.fr/faits-divers/4/.
7.The Guardian. URL: https://www.theguardian.com/world.
8.Газета по-українськи. URL: https://gazeta.ua/news/np.
9.MacEnery T., Hardie A. Corpus Linguistics: Method, Theory and Practice. Cambridge University Press, 2012. 294 p.
10.Voyant Tools. URL: https://voyant-tools.org.
Размещено на Allbest.ru
...Подобные документы
Фразеологізм як об'єкт дослідження лінгвістики. Поняття фразеологізму та його характерні риси в англійській та українській мовах. Класифікація фразеологічних одиниць. Особливості анімізмів в українській та англійській мовах. Поняття та опис концепту.
курсовая работа [42,3 K], добавлен 06.12.2008Реконструкція архетипної символіки лексем sky/ciel/небо в англійській, французькій та українській мовах. Архетипні образи, що стали основою утворення зазначених лексем. Відмінності у структурі значення лексичних одиниць sky/ciel/небо в аналізованих мовах.
статья [22,7 K], добавлен 18.08.2017Зіставне дослідження ад’єктивно-адвербіальних словосполучень в українській та англійській мовах. Характеристика особливостей сполучуваності прислівників із прикметниками. Огляд атрибутивних семантико-синтаксичних відношень між компонентами словосполучень.
статья [26,9 K], добавлен 19.09.2017- Основні правила передачі соціально-політичних реалій, використовуючи англомовні публіцистичні тексти
Американізми, які входять до поняття суспільно-політичні реалії. Особливості текстів публіцистичного стилю в українській і англійській мовах. Способи передачі слів-реалій при перекладі текстів: транслітерація, транскрипція, уподібнення, калькування.
курсовая работа [30,6 K], добавлен 03.10.2014 Порівняльний аналіз категорії виду в англійській та українській мовах. Перспективність досліджень порівняльної аспектології. Зв'язок категорії виду з категорією часу, парадигма часових форм. Значення українських і англійських дієслів доконаного виду.
курсовая работа [31,3 K], добавлен 06.05.2009Порівняльний аналіз назв музичних інструментів, походження слів як об'єкт прикладного лінгвістичного аналізу. Експериментальна процедура формування корпусу вибірки. Етимологічні характеристики назв музичних інструментів в англійській та українській мові.
курсовая работа [58,9 K], добавлен 18.04.2011Класифікація фразеологічних одиниць як стійких сполучень слів, їх образність і експресивність. Співставний аналіз фразеологічних одиниць з компонентом найменування кольору в англійській та українській мовах за лексико-семантичними полями кольору.
курсовая работа [368,1 K], добавлен 16.11.2012Сутність, особливості та принципи типологічної класифікації мов. Аналіз структури слова у різних мовах (українській, французькій та англійській). Загальна характеристика основних елементів морфологічної класифікації мови, а також оцінка її недоліків.
реферат [26,1 K], добавлен 11.09.2010Поняття граматичної категорії в англійській мові. Співвідношення відмінків української та англійської мов, їх особливості при перекладі іменника з прийменником. Проблеми, пов’язані з визначенням відмінка в англійській мові та шляхи їх розв’язання.
контрольная работа [23,4 K], добавлен 31.03.2010Проблема визначення фразеологічного звороту, класифікація у науковій літературі. Семантичні та структурні особливості фразеологічного звороту на позначення характеру людини в англійській та українській мовах. Особливості англо-українського перекладу.
дипломная работа [118,3 K], добавлен 07.02.2011Загальні фразеологізми-бібліїзми в англійській та українській фразеосистемах. Структурні і семантичні особливості відповідників фразеологізмів-бібліїзмів в англійській та українській мовах. Кореляція між фразеологізмами-бібліїзмами і текстами Біблії.
дипломная работа [65,1 K], добавлен 16.06.2011Вивчення типів номінативних речень, що на когнітивному рівні моделюються за ментальними схемами, одиницею представлення яких є синтаксичний концепт. Класифікація речень за структурними типами: репрезентативні, директивні, експресивні та квеситивні.
статья [22,1 K], добавлен 07.11.2017Значення слова та його різновиди. Лексеми, які входять до лексико-семантичної групи слів на позначення транспортних засобів в англійській та українській мові. Системні відношення між найменуваннями транспортних засобів, спільні та відмінні риси.
курсовая работа [213,9 K], добавлен 18.12.2014Проблема функціонування української мови у сфері медичної діяльності. Особливості та труднощі перекладу медичних абревіатур і термінів в англійській та українській мовах. Лексико-семантичний аналіз та класифікація помилок при перекладі текстів з анатомії.
дипломная работа [91,4 K], добавлен 19.05.2012Сутність категорії часу в культурології і лінгвістиці. Проблеми класифікації фразеологічних одиниць; національно-культурна специфіка їх формування. Семантичний аналіз ідіом, що позначають час з образною складовою в англійській та російських мовах.
магистерская работа [916,0 K], добавлен 23.03.2014Концепт як основна лінгвокультурологічна основа опису мови. Культурно обумовлені особливості феномена концепту "колір". Функціонування концепту "red" в англійській та українській мовах - емоційно-експресивна фразеологія й міжкультурні особливості.
курсовая работа [41,7 K], добавлен 27.07.2008Загальне поняття про топоніми та підходи до класифікації топонімічної лексики. Топоніми в англійській мові на прикладі топонімії Англії. Розвиток та сучасний стан топонімії в Україні. Етимологія та структура англійських та українських географічних назв.
курсовая работа [49,4 K], добавлен 16.02.2015Прикметник як категорія означуваних слів, особливості його параметричної форми. Типи лексичного значення слова та семантична деривація. Поняття валентності в лінгвістиці. Семантична структура параметричних прикметників в англійській і українській мовах.
дипломная работа [149,2 K], добавлен 12.06.2015Дослідження теорії антропоцентризму в когнітивній та комунікативній лінгвістиці. Особливості дискурсів із висловлюваннями відмови в англійській та німецькій мовах. Аналіз заголовків, які сигналізують про антропоцентричну тональність прозових текстів.
курсовая работа [45,5 K], добавлен 13.10.2012Артикль як засіб вираження визначеності та невизначеності в англійській мові. Порівняльна типологія вираження визначеності/невизначеності в англійській та українській мовах: вказівні та неозначені займенники, прикметники із значенням визначеності.
курсовая работа [51,4 K], добавлен 09.01.2011