Oxford Text Archive: досвід обробки корпусних даних

Новітні шляхи та інструменти для обробки корпусних даних. Особливості визначення понять "корпус" та "лінгвістичний корпус". Опис основних характеристик та головні етапів роботи з електронним Oxford Text Archive та комп'ютерною програмою WordSmith.

Рубрика Иностранные языки и языкознание
Вид статья
Язык украинский
Дата добавления 06.04.2019
Размер файла 191,0 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

УДК 811:811.111

Київський університет імені Бориса Грінченка

Oxford text archive: досвід обробки корпусних даних

Юзькова І.В.,

Анотація

корпус лінгвістичний електронний wordsmith

У статті розглянуто новітні шляхи та інструменти для обробки корпусних даних. Особлива увага надається визначенню понять «корпус» та «лінгвістичний корпус». Описані основні характеристики та етапи роботи з електронним Oxford Text Archive та комп'ютерною програмою WordSmith.

Ключові слова: корпус, лінгвістичний корпус, OTA, конкорданс.

Аннотация

В статье рассмотрены новейшие пути и инструменты для обработки корпусных данных. Особое внимание уделяется определению понятий «корпус» и «лингвистический корпус». Описаны основные характеристики и этапы работы с электронным Oxford Text Archive и компьютерной программой WordSmith.

Ключевые слова: корпус, лингвистический корпус, OTA, конкорданс.

Annotation

The article deals with the latest methods and instruments for the corpus data analysis. Particular attention is paid to definition of the notions "corpus" and "linguistic corpora". The basic characteristics and stages of work with electronic Oxford Text Archive and computer program WordSmith are described.

Key words: corpus, linguistic corpora, OTA, concordance.

Новітніми інструментами для дослідження лінгвістичних даних і прикладних задач стали корпуси текстів. Сьогодні корпусна лінгвістика, як і будь-який новий науковий напрям «не тільки відкрила невідомі раніше перспективи досліджень, а й започаткувала створення певних правил і закономірностей роботи з матеріалом, а також, що теж неминуче для революційного напряму, спричинила необхідність розв'язання цілої низки нових проблем, досі невирішених лінгвістам» [2]. Завдяки стрімкому розвитку в науковому лінгвістичному словнику з'явилися дуже близькі поняття: «електронні бібліотеки», «масив текстів», «колекція текстів», «електронний архів», «повна текстова база даних», які стали предметами наукових пошуків як вітчизняних, так і зарубіжних дослідників. Саме тому актуальним вбачається розгляд найбільшого та широковживаного електронного архіву Oxford Text Archive (далі -- ОТА).

Метою статті є висвітлення характерних ознак Оксфордського текстового архіву і шляхів обробки наявних в ньому даних. Матеріал дослідження взятий з джерела фактичного матеріалу ОТА.

Для того щоб зрозуміти, з чого складається окремий текстовий архів у нашому випадку ОТА, необхідно розглянути тексти, безпосередньо з яких і складаються корпуси текстів, а з них -- архіви. Під корпусом текстів В.Н. Шевчук розуміє величезний масив текстів (як письмових, так і усних) природної мови, представлених в комп'ютерному вигляді, тобто на машинному носії, і належним чином упорядкованих з метою їх використання в наукових і практичних дослідженнях [5]. Лінгвістичний корпус -- це масив текстів, зібраних в єдину систему, сформовану за певними ознаками (мовою, жанром, часом створенням, автором тощо) і забезпечених пошуковою системою. Він може містити як письмові тексти (газет, журналів, літературних творів), так і транскрипти радіо- і телепередач. Організація корпусу може бути найрізноманітнішою. Залежно від цілей його створення в корпус можуть входити тексти конкретною мовою, одного або кількох авторів і літературних жанрів, написані в певний історичний період і т.д. Весь масив текстів систематизований. Це означає, що в корпусі зафіксоване розташування кожного слова в реченні щодо інших слів, а також враховується частота його використання у цьому корпусі [4].

Першим досить великим корпусом, тексти якого зберігалися на машинному носії, був Браунівський (Brown corpus 1960 -- for American English). Його розробники У Френсіс та Г. Кучера розглядали поняття корпусу як сукупність текстів, яка вважається репрезентативною для певної мови чи діалекту, що призначена для лінгвістичного аналізу [6]. Браунівський корпус швидко перетворився в популярний об'єкт дослідження та навіть у певний стандарт для створення інших корпусів. Аналогічними були структури побудови наступних корпусів: Lancaster-Oslo/Bergen Corpus (LOB -- 1978 р.), London-Lund Corpus (LLC -- 1987 р.), he Freiburg-Brown corpus of American English (Frown -- 1992 р.). Найвідоміший на сьогодні British National Corpus (BNC) було створено в 1990-ті рр. [1, 3]. Проте мало хто знає, що Oxford Text Archive (ОТА) був започаткований набагато раніше і став основою для створення у 2006 р. he Oxford English Corpus (OEC).

OTA -- це архів електронних текстів та інших літературних і мовних ресурсів, які були створені, зібрані й розподілені з метою дослідження літературних та лінгвістичних питань в університеті Оксфорд.

ОТА був створений Луї Бюрнардом у 1976 р. спочатку як Оксфордський архів електронної літератури. Він вважається одним із перших архівів цифрових навчальних текстових ресурсів для збору і поширення матеріалів з усіх доступних наукових центрів. ОТА продовжує співпрацю з Оксфордським університетом обслуговування з використанням електронно-обчислювальних машин OUCS, який володіє відповідними науково-дослідними проектами, що здійснюються в Оксфордському електронному науково-дослідному центрі на факультеті лінгвістики, філології та фонетики Оксфордського університету [7]. ОТА також керує розподілом британського національного корпусу (BNC).

Структура архіву містить 8 розділів: 1) власне архів (OEC); 2) рекомендації щодо завантаження ресурсів; 3) новини; 4) Оксфорд (для обмеженого кола користувачів); 5) електронні мовні ресурси; 6) проекти; 7) поради та 8) проблемні питання.

Особливо значущим надбанням в ОТА є власне архів (OEC), в якому зосереджений найбільший у своєму роді текстовий корпус англійської мови, що містить понад два мільярди слів. У свою чергу, власне архів має 3 підрозділи: TEI texts, Corpora та Legacy formats

TEI texts (he Text Encoding Initiative texts). Ініціатива кодування тексту -- консорціум, що згалом розвиває і підтримує стандарт для представлення текстів у цифрову форму. Його головним результатом є набір керівних принципів, які визначають методи кодування для машинописних текстів в основному в гуманітарних, соціальних науках і лінгвістиці [9]. Тексти в у цьому підрозділі доступні в різних форматах для читання, завантаження або посилання.

Corpora. Колекції мовних даних, що містять тексти з різних джерел, як правило, складені для цілей лінгвістичного дослідження. Підрозділ являє собою своєрідний каталог власних накопичених корпусних даних та корпуси інших університетів із відкритим (безкоштовним) чи обмеженим доступом до інформації.

Legacy formats (застарілі файли). З'явився на світ у 1976 р. Деякі з ресурсів обмеженого доступу, багато файлів мають формат, який досить важко розшифрувати та використати, хоча більшість з них звичайний текст. Оскільки ОТА не в змозі запропонувати підтримку роботи з таким типом файлів, тому й був створений такий підрозділ.

Через ОТА проходить безліч наукових документів, розмічених відповідно до останніх вимог кодування матеріалів та текстів, а це обов'язкове зазначення таких даних, як:

• назва документа;

• автор документа (якщо відомо);

• стать автора (якщо відомо);

• тип мови (наприклад, британська чи американська англійська);

• жанр джерела;

• рік (дата, якщо відомо);

• дата збору матеріалу архівом;

• доступ до матеріалів;

• статистика документа (кількість символів, слів тощо) [7].

Цифрова версія Оксфордського англійського корпусу форматується в XML і зазвичай аналізується за допомогою спеціального програмного забезпечення.

Для досліджень у сфері корпусної лінгвістики, де фігурують великі за обсягом вибірки текстів, необхідне використання декількох типів програмного забезпечення: комерційні комп'ютерні програми (LEXA, MonoConc, MicroConcord, TACT, WordSmith, WordCruncher, Manatee (Bonito), IMS Corpus Workbench (CQP), XAIRA, Visual Corpus Manager (VCM), EXMARaLDA, Corpus-Manager(Co-Ma)), а також програми, розроблені для специфічних процедур аналізу, наприклад для граматичних моделей [3, 92].

Основні процедури, які доступні досліднику при здійсненні аналізу корпусу текстів, містять:

• пошук заданого слова, словосполучення в корпусі;

• висновок результатів пошуку з урахуванням оточення в окремому полі;

• підрахунок кількості прикладів вживання слова в корпусі;

• сортування результатів пошуку за необхідними параметрами.

Всі дані процедури швидко і точно виконуються за допомогою комп'ютерної програми складання конкордансу (пошуку відповідностей).

У нашому випадку для обробки корпусних даних використовувалась програма WordSmith 6.0. Перед початком роботи з програмою на головній сторінці контролера інструментів користувачу пропонуються три кнопки основних інструментів і декілька клавіш для уточнення налаштувань. Клавіша “Concord” укладає конкорданси, “KeyWords” знаходить у текстах ключові слова, а “WordList” створює списки слів у тексті або колекції текстів. Для вдалого використання програмного забезпечення спочатку необхідно завантажити чи створити власний корпус текстів (рис. 1). Особливої уваги потребує оформлення документа для подальшого завантаження файлу в програму.

<header>

<title> THE DUKE OF YORK TO PRINCE HENRY </title>

<year> 1610 </year>

<addresser> CHARLES </addresser>

<addressee> PRINCE HENRY </addressee>

</header>

Good brother, I hope you are in good health and merry, as I am, God be thanked.

In your absence I visit sometimes your stable, and ride your great horses, that at your return I may wait on you in that noble exercise. So committing you to God, I rest Your loving and dutiful brother York.

To my brother the Prince. [8]

Рис. 1. Приклад правильного оформлення тексту для роботи з WordSmith Tools

Після впорядкування та оформлення матеріалу за допомогою WordSmith можна створювати список частотності вживання слів у одному тексті чи в корпусі текстів. За допомогою порівняння власного корпусу даних із BNC отримуємо список ключових слів. Поряд із кожним ключовим словом розміщені різні цифри, які містять інформацію про те, як часто вживається кожне слово у вихідному тексті (текстах) і наскільки ця частотність відрізняється від частотності його вживання у референтному корпусі (рис. 2).

Рис. 2. Список ключових слів, укладених на основі PCEEC (17 ст.) порівняно з BNC

Найбільш репрезентативний та швидкий спосіб обробки інформації за допомогою WordSmith -- це укладання конкордансу. Конкорданс -- це список усіх уживань слова, перед і після якого є слово-розділю- вач, такий як знак пунктуації, пробіл тощо.

Рис. 3. Список усіх уживань слова “brother” з його лівим і правим оточенням

Для наочності зазначено в програмі пошукове слово brother для вибраних текстів з Parsed Corpus of Early English Correspondence (PCEEC) (рис. 3). Отримані результати засвідчують, що вибране слово має найбільшу сполучуваність зі словами dearest, good, loving ліворуч від центрового слова; із займенником I та сполучником and -- праворуч.

Отже, можна дійти висновку про те, що слово brother є не тільки ключовим для створеного нами корпусу на основі ОТА, але й найбільш сполучуваним з його лівим і правим оточенням.

Література

1. Ванівська О.І. Основні підходи до аналізу мовних даних у корпусній лінгвістиці / О.І. Ванівська // Наукові записки. -- Острог : Вид-во Національного університету «Острозька академія», 2012. -- Вип. 27. -- 368 с. -- (Серія «Філологічна»).

2. Голубкова Е.Е. Вестник Московского государственного лингвистического университета. Языкознание / Е.Е. Голубкова. -- М. : МГЛУ, 2009. -- Вып. 572. -- С. 30.

3. Жуковська В.В. Вступ до корпусної лінгвістики : навч. посіб. / В.В. Жуковська. -- Житомир : Вид-во ЖДУ ім. І. Франка, 2013. -- 140 с.

4. Сысоев П.В. Иностранные языки в школе / П.В. Сысоев. -- М. : ООО «Методическая мозаика», 2010.-- Вып. 4. -- С. 12.

5. Шевчук В.Н. Электронные ресурсы переводчика : справочные материалы для начинающего переводчика. -- М. : Либрайт, 2010. -- С. 44.

6. Halliday M.A.K. Lexis as a linguistic level / C.E. Bazell, J.C. Catford, M.A.K. Halliday & R.H. Robins (Eds.) // In Memory of J.R. Firth. -- London : Longman, 1966. -- P. 148-162.

7. [Електронний ресурс]. -- Режим доступу : http://en.wikipedia.org/wiki/Oxford_English_Corpus- cite_ref-oec_2-0MacEnery T. and Wilson A. Corpus Linguistics. -- Edinburgh : University Press, 1996. -- P. 23.

ДЖЕРЕЛА ІЛЮСТРАТИВНОГО МАТЕРІАЛУ

8. Parsed Corpus of Early English Correspondence (PCEEC) [Електронний ресурс]. -- Режим доступу : http://ota.ahds.ac.uk/desc/2510

9. Text Encoding Initiative [Електронний ресурс]. -- Режим доступу : http://www.tei-c.org/index.xml

Размещено на Allbest.ru

...

Подобные документы

  • Text and its grammatical characteristics. Analyzing the structure of the text. Internal and external functions, according to the principals of text linguistics. Grammatical analysis of the text (practical part based on the novel "One day" by D. Nicholls).

    курсовая работа [23,7 K], добавлен 06.03.2015

  • Creation of the oldest universities in the United Kingdom of Great Britain - Oxford and Cambridge, which are two types of degrees: bachelor's and master's. Brief history of the city's founding, development of trade and industry, meaning nationwide.

    контрольная работа [19,4 K], добавлен 08.02.2012

  • Systematic framework for external analysis. Audience, medium and place of communication. The relevance of the dimension of time and text function. General considerations on the concept of style. Intratextual factors in translation text analysis.

    курс лекций [71,2 K], добавлен 23.07.2009

  • Modern sources of distributing information. Corpus linguistics, taxonomy of texts. Phonetic styles of the speaker. The peculiarities of popular science text which do not occur in other variations. Differences between academic and popular science text.

    курсовая работа [24,6 K], добавлен 07.02.2013

  • Translation as communication of meaning of the original language of the text by the text equivalent of the target language. The essence main types of translation. Specialized general, medical, technical, literary, scientific translation/interpretation.

    презентация [1,3 M], добавлен 21.11.2015

  • System of education from an elementary school up to high school and some areas of a countryside in Great Britain. In high school pass examination on the certificate GCE. Universities in GB that have turned to national legends: Oxford and Cambridge.

    реферат [17,1 K], добавлен 09.02.2009

  • Educational text from English with translation about history of Ukraine. Some information about history of Ukraine, its independence, Zaporizka Sich, activity of the Dnipro Cossacks. Short dictionary, list of questions to the text and answers to them.

    контрольная работа [1,4 M], добавлен 21.11.2010

  • Recommendations about use of a text material and work with expressions. Rules of learning and a pronunciation of texts taking into account articles, prepositions and forms of verbs. The list of oral conversational topics on business English language.

    методичка [50,8 K], добавлен 15.02.2011

  • Classification of allusion according its position in the text, main stylistic functions. Allusion as a category of vertical context its varieties in the eccentric tale "Alice’s Adventures in Wonderland". Stylistic functions in the eccentric tale.

    курсовая работа [33,2 K], добавлен 12.07.2012

  • Проблема конструювання лінгвістичної бази даних художніх порівнянь. Мета створення лінгвістичної бази даних – укладання електронного словника художніх порівнянь українського поетичного мовлення другої половини ХХ століття. Методика створення бази даних.

    статья [2,2 M], добавлен 23.04.2008

  • Використання словників для з'ясування значення неологізму або з контексту. Способи передачі неологізмів сфери економіки, комп`ютерних технологій та Інтернет засобами української і російської мов. Особливості адекватного перекладу даних типів неологізмів.

    дипломная работа [93,7 K], добавлен 20.03.2011

  • Розвиток англійської мови, його етапи та головні періоди: давньо- та середньо- та ново англійський. Опис сучасних діалектів британського та інших варіантів їх лінгвістичні відмінності та особливості. Вплив запозичень на формування англійської мови.

    курсовая работа [93,2 K], добавлен 28.10.2015

  • Психолінгвістичний аналіз функціонування знань індивіда у процесі когнітивної обробки дискурсу. Фреймова репрезентація англійської терміносистеми в галузі медицини. Репрезентування знань в науковій концептосфері на матеріалі термінів сфери біотехнологій.

    курсовая работа [719,0 K], добавлен 19.05.2013

  • Визначення поняття терміну у лінгвістиці. Класифікація англійських термінів. Особливості відтворення комп'ютерної термінології українською мовою. Кількісний аналіз засобів перекладу англійських скорочень з обчислювальної техніки, Інтернету, програмування.

    курсовая работа [48,8 K], добавлен 22.02.2015

  • State Schools. Private Schools. The junior classroom. Division of pupils of an elementary school in three streams. The grammar school. Aspects of British University. The colleges in the University of London. Oxford, Cambridge. The University of London.

    реферат [6,7 K], добавлен 12.09.2008

  • Визначення та класифікація гумору як важливої частини спілкування між людьми. Дослідження теорій у цій сфері. Телесеріал "Теорії Великого вибуху" як культурно-лінгвістичний феномен, особливості гумору в цьому творі. Дослідження теорії релевантності.

    курсовая работа [38,8 K], добавлен 27.05.2015

  • Reading the article. Matching the expressions from the first two paragraphs of this article. Answer if following statements true or false or is it impossible to say, are given the information in the article. Find adjectives to complete some definitions.

    контрольная работа [33,0 K], добавлен 29.04.2010

  • Визначення головних помилок в українському кіноперекладі та шляхи їх запобігання. Розгляд основних способів перекладу кінофільмів, їх поширення у світі та історичні особливості, аналіз субтитрування та дублювання у контексті доместикації та форенізації.

    дипломная работа [998,4 K], добавлен 14.02.2023

  • Лінгвокогнітивний механізм сприйняття британського менталітету засобами гумору в текстовій комунікації. Лінгвістичний аналіз та засоби мовного втілення гумору. Структурно-семантичний аспект та особливості перекладу британських гумористичних текстів.

    дипломная работа [1,5 M], добавлен 14.07.2016

  • Наукове трактування понять "лексичне значення" та "полісемія". Способи виникнення полісемії в системі лексикології. Виявлення основного значення слова. Співвідношення лінгвістичних понять полісемія та омонімія. Вживання полісемії в різних аспектах мови.

    курсовая работа [51,8 K], добавлен 08.03.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.