Лінгвістичний корпус української термінології в макросистемі наукових досліджень
Виявлення проблемних завдань, які виникають під час розробки та створення корпусу текстів української термінології, способів їх вирішення та вагомості для проведення наукових досліджень. Лексикографічна та алгоритмічна форми побудови корпусу текстів.
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | украинский |
Дата добавления | 11.07.2018 |
Размер файла | 29,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
ЛІНГВІСТИЧНИЙ КОРПУС УКРАЇНСЬКОЇ ТЕРМІНОЛОГІЇ В МАКРОСИСТЕМІ НАУКОВИХ ДОСЛІДЖЕНЬ
Веретеннікова Н. В., асистент кафедри
інформаційних систем та мереж Національного
університету «Львівська політехніка»
Анотація
У статті окреслено коло проблемних завдань, які виникають під час розробки та створення корпусу текстів української термінології, способи їх вирішення та вагомість для проведення наукових досліджень.
Ключові слова: корпус текстів, лінгвістичні дані, бази даних, автоматизована система, інформаційно- пошукові запити.
Аннотация
Веретенникова Н. В. Лингвистический корпус украинской терминологии в макросистемах научных исследований.
В статье определен круг проблемных задач, возникающих при разработке и создании корпуса текстов украинской терминологии, способы их решения и важность для проведения научных исследований. Самой большой проблемой является проблема общения человека и компьютера. Именно поэтому лингвистический корпус должен содержать полный словарь и генератор словоформ, а также формализованный современный толковый словарь (тезаурус) на украинском языке. Методологической основой для построения корпуса текстов являются две формы: лексикографическая и алгоритмическая, т. е. машинная форма. Лингвистический корпус - это система комплексной автоматизации лингвистических исследований и разработок. Это инструментальная система для производства языковых процессоров и средств автоматизации лингвистических исследований, которая обеспечена информационным фондом источников данных о языке во всем объеме этого понятия. Задача лингвистического изучения человеко-машинного языка становится особенно актуальной в связи с развитием систем искусственного интеллекта. Важной проблемой при создании корпуса текстов является построение адекватной алгоритмическо-программной базы, то есть фонда лингвистических процессоров и фонда утилитних лингвистических алгоритмов и программ.
Ключевые слова: корпус текстов, лингвистические данные, базы данных, автоматизированная система, информационно-поисковые запросы.
Summary
корпус текст термінологія лексикографічний
Veretennikova N. V. Linguistic corpus of the Ukrainian terminology in the x macrosystem of scientific research.
The article identifies some problems arising during the development and creation of text corpus of the Ukrainian terminology, their solutions and importance for scientific research. The article identifies some problems arising during the development and the creation of text corpus of the Ukrainian terminology, their solutions and the importance for scientific research. Actually, the main task is a problem of communication between human and computer. Therefore, a linguistic corpus should contain complete dictionary and word form generator as well as modern explanatory dictionary (thesaurus) in Ukrainian. The methodological basis for text corpus building is two forms: lexicographical form and algorithmic, machine form. A linguistic corpus should be presented as a system of complex automation of linguistic research and development. This system is instrumental for producing language processors and automation of linguistic research provided with an information fund of sources about the language throughout its concept. The tasks of linguistic study of human-machine language is especially relevant in connection with the development of artificial intelligence. An important problem in creating a text corpus is to build an adequate algorithmic and software framework that is a fund of linguistic processors as well as a fund ofprogramme linguistic algorithms and applications. It is impossible without software to form the corpus itself or to conduct research based on its theoretical character or to conduct research of applied nature.
Key words: corpus of texts, linguistic data, databases, automated system, information retrieval requests.
Виклад основного матеріалу
З появою Інтернету як всеосяжного комунікаційного середовища змінюються звичні способи отримання інформації, видозмінюються засоби доступу до неї, що прискорює прогрес у всіх суспільних сферах та ініціює появу нових цінностей, тенденцій і проблем.
Власне найбільшою проблемою є проблема спілкування людини та комп'ютера [1]. Живе, тобто письмове або усне, спілкування з машиною - мрія кожного програміста. Багато хто вважає, що будь-яка спроба механізувати мову є неможливою. Мова як ресурс та як засіб висловлювання є чимось адекватним лише для людини або, принаймні, для процесу відображення людиною дійсності. Мові можна протиставити один лінгвістичний феномен, який, зберігаючи багато її властивостей, водночас підготовлений для того, щоб стати об'єктом механізації, залишаючись при цьому природним засобом висловлювання людини. Це є феномен ділової прози, тобто мовний носій виробничих відносин людини [2].
Створення електронного фонду мови кваліфікованими лінгвістами повинно випереджати створення виробничих лінгвістичних систем, тому що це не тільки б дозволило уникнути дублювання великих зусиль, але і захистило би здорову тканину мови від самоуправління та некваліфікованого підходу.
Питанням створення лінгвістичних корпусів української мови присвячені праці В. А. Широкова [7] та І. М. Кульчицького [3].
Створення лінгвістичного корпусу української термінології з бібліотекознавства - це проблема, вирішення якої буде мати дуже велику наукову, загальнокультурну і прикладну цінність. Цей корпус має містити повний словник і генератор словоформ, а також формалізований сучасний тлумачний словник (тезаурус) українською мовою [4].
Загалом лінгвістичний корпус може стати могутнім концентратором нашого знання про мову, знання повного, яке не відстає від плину часу, детального й узагальненого разом, та збирає всі попередні часові зрізи.
Російські вчені ще у 80-х роках досліджували проблему створення словників в автоматизованому режимі. Словник російської мови, створений в автоматизованому режимі, вчені назвали машинним фондом [4]. Така назва проіснувала недовго. При переході на персональні комп'ютери поняття машинного фонду нівелювалося. Але ідея розвивалася, і на сьогоднішній день для російської мови створено величезний банк даних, який отримав назву - комп'ютерний корпус. Для української мови відсутній повний комп'ютерний корпус.
Лінгвістичний корпус - це складна, розгалужена і глибоко автоматизована система, здатна вирішувати як інформаційно-пошукові, так і дослідні мовознавчі і філологічні завдання [4]. Повний комп'ютерний корпус української мови - це і банк даних, і «розумний», спеціалізований банк знань, яким можна користуватися як книгою, яка здатна запропонувати рішення або націлити дослідника на певне рішення. Крім того, він повинен стати і творчою лабораторією.
По-перше, методологічною основою для побудови корпусу текстів є дві форми: лексикографічна форма й алгоритмічна, машинна форма. Тому ключовою одиницею, навколо якої буде групуватися мовна інформація в корпусі, має бути слово. Крім того, для кожного слова описана його історія, яка, у свою чергу, корелює з історією народу і його культурою. Тому в корпусі текстів повинні бути представлені обидві альтернативи - і «культура», і «структура».
По-друге, лінгвістичний корпус потрібно подати як систему комплексної автоматизації лінгвістичних досліджень і розробок, що складається з накопичених лінгвістичних даних, які об'єктивовані текстами, картотеками, словниками, граматиками та іншими лінгвістичними джерелами, і програмного забезпечення використання цих даних і конструювання нових лінгвістичних об'єктів [3].
Словники, що містяться в корпусі, будуть постійно поповнюватися новою лексикою з текстів, кожне слово може бути безпосередньо перевірене на текстах в усіх своїх аспектах, відповідні словникові статті можуть бути відредаговані, так що комп'ютерний словник у кожен момент часу буде готовим до поліграфічного відтворення новим «виправленим і доповненим виданням».
Щоб якомога глибше пізнати природу мови, треба використовувати модель мови, тобто формальну систему, яка повинна бути адекватною і рівною живому організму мови, але водночас вона повинна бути відкритою і доступною для спостереження, вивчення і змін.
Лінгвістичний корпус текстів є інструментальною системою для виробництва мовних процесорів і засобів автоматизації лінгвістичних досліджень, яка забезпечена інформаційним фондом джерел даних про мову у всьому обсязі цього поняття. Корпус текстів - це, перш за все, можливість поглянути на свій об'єкт у новому ракурсі. Чим масштабнішим буде корпус, тим глибше в особливості будови мови він дозволить проникнути, тим ширше розкриє рамки розуміння самого об'єкта, виразніше виявляє «білі плями» в наших знаннях про нього.
Завдання лінгвістичного вивчення людино-машинної мови стає особливо актуальним у зв'язку з розвитком систем штучного інтелекту. Для таких систем характерне використання адаптованої природної мови на вході, на виході і всередині, причому її функціонування всередині самої системи могло би служити прообразом тієї мови, яка виступає як посередник, проміжна мова між природним інтелектом і природною мовою. Такий корпус стане важливим елементом при формуванні переліку ключових слів у сформованих метаданих на документ та інформаційних запитах [4].
Корпус повинен мати лінгвістичний інвентар, тобто упорядкований перелік усіх лінгвістичних об'єктів певного класу, зафіксованих за допомогою деякої метамови із заданою точністю і експліцитністю. Серед інструментарію варто виділити формальні (містять елементи плану вираження) і семантичні (які включають елементи плану змісту). Серед формальних - фонологічні, морфонологічні, лексемні і т. д., а серед семантичних - лексико-семантичні, морфосемантичні, орієнтовані на парадигматику або на синтагматику і т. д.
У вузькому сенсі корпус текстів можна визначити як динамічну (гнучку) систему інвентаризації української мови, яка розвивається та включає машинне представлення основних типів лінгвістичних даних і багатий набір програм.
У широкому сенсі корпус текстів - це потужна система, пов'язана, перш за все, із завданнями прикладної лінгвістики і включає стандартні алгоритми і програми, які цілеспрямовано моделюють будь-яку людську діяльність.
Первинними джерелами корпусу у вузькому сенсі можуть бути три основні ресурси даних: а) існуючі тексти (усні і письмові); б) існуючі словники граматики; в) результати психолінгвістичних та соціолінгвістичних експериментів.
У сучасних наукових, технічних і ділових текстах основне ядро - терміни. Кожен термін має значення тільки в конкретній терміносистемі, поза якою він вже перестає функціонувати як термін певної науки, галузі знання.
Наприклад, сучасна діалектна лексика - це частина лексики сучасної розмовної мови, це одна із синхронічних форм її реалізації, і якщо корпус текстів української мови повинен якось враховувати сучасну розмовну мову, то питання про співвідношення із сучасною діалектною прамовою не може не викликати сумніву.
Лексика бібліотекознавства - термінологічний складник науки про бібліотечну справу, що забезпечує інтерфейс між бібліотекарем і користувачем, інструментарій бібліотекознавців [1].
Лінгвістичний корпус текстів із бібліотекознавства повинен володіти, принаймні, властивостями деякої колекції текстів - результатів мовленнєвої діяльності (тексти різних жанрів і стилів), представляти собою сховище лінгвістичних даних (словники і граматики), бути інструментом досліджень (програмні засоби опрацювання текстів) і одночасно програмою досліджень відповідно до інтересів представників різних мовознавчих дисциплін.
Слід врахувати і особливості кола користувачів майбутнього корпусу: це не однорідне середовище абонентів системи, це не лінгвісти і філологи різного профілю, а бібліотекознавці з практично необмеженим переліком своїх завдань.
Можна виділити два типи корпусів: культурні та прикладні. За функціями культурний корпус повинен формуватися як скарбниця української лексики, що має цінність сама по собі, або як архів для довідкової служби з термінологічних засад українською мовою, або як картотека матеріалів, які могли би стати основою різного роду лексикографічних і лексикологічних досліджень бібліотекознавчих тестів. За функціями прикладні корпуси повинні бути лінгвістичним забезпеченням системи переробки текстової інформації на природній мові.
Важливою проблемою при створенні корпусу текстів є побудова адекватної алгоритмічно- програмної бази, тобто фонду лінгвістичних процесорів і фонду утилітних лінгвістичних алгоритмів та програм. Без програмного забезпечення неможливо ні сформувати сам корпус, ні організовувати на його базі дослідження теоретичного характеру, ні вести дослідження прикладного характеру з передачею частини лінгвістичних і програмних продуктів зацікавленим організаціям.
Організація робіт зі створення корпусу текстів української термінології з бібліотекознавства повинна мати чіткий ієрархічний характер. На чолі проекту слід поставити невелику кількість компетентних мовознавців, бібліотекознавців, математиків і програмістів, наділених реальними повноваженнями, які відповідають за успіх справи. Загалом, побудова корпусу пов'язана з опрацюванням колосальних обсягів лінгвістичного матеріалу.
Отже, лінгвістичний корпус текстів - це велика автоматизована макросистема, що включає в себе низку підсистем і мікросистем, також це унікальна інформаційна система багатоцільового призначення і колективного користування. Створення корпусу текстів української термінології з бібліотекознавства як єдиної макросистеми в єдності та розмаїтті взаємно поєднаних мікросистем - справа складна і трудомістка, але реальна та потрібна.
Отже, у функціональному аспекті бібліотека XXI ст., поряд з виконанням традиційних завдань документно-комунікаційного центру, має забезпечити реалізацію повного технологічного циклу інтелектуальних інформаційних технологій від бібліографування до виділення зі сховищ даних нових знань і надання їх користувачам.
При цьому неабияку роль відіграватимуть лінгвістичні засоби, які належать до числа найважливіших, системоутворюючих елементів будь-якої інформаційно-бібліотечної системи. Їхня якість визначає ефективність результатів роботи системи в цілому. Стрімке впровадження в останні десятиліття нових інформаційних технологій у практику роботи бібліотек вплинуло на розвиток лінгвістичного забезпечення. Цей вплив мав як позитивні моменти, так і негативні, що вимагають подальшого дослідження.
Список використаної літератури
1. Веретеннікова Н. В. Лінгвістичні засоби комунікаційних інтерфейсів бібліотеки / Н. В. Веретеннікова, Е. Кунанець // Сучасні проблеми діяльності бібліотеки в умовах інформаційного суспільства: матеріали п'ятої міжнародної науково-практичної конференції. Львів: Вид-во Львівської політехніки, 2013. С. 524-535.
2. Ершов А. П. К методологии построения диалоговых систем: феномен деловой прозы [Электронный ресурс] / А. П. Ершов. Режим доступа: http://ershov.iis.nsk.su/archive/eaindex.asp?lang=1&did=11235.
3. Кульчицький І. М. Комп'ютерно-технологічні аспекти створення сучасних лексикографічних систем / М. Кульчицький. К.: НБУ ім. В. І. Вернадського, 2002. 59 с.
4. Машинный фонд русского языка: идеи и суждения / сб. науч. тр. / под ред. Ю. Н. Караулова. М.: Наука, 1986. 238 с.
5. Семеног О. Словник у професійній діяльності: ціннісні орієнтири / О. Семеног // Інформаційно- телекомунікаційні технології в сучасній освіті: досвід, проблеми, перспективи: зб. наук. праць. Львів: ЛДУ БЖД, 2012. С. 267-270.
6. Сидорчук Н. М. Організація даних та функціональна структура лексикографічної системи «Український національний лінгвістичний корпус» / Н. М. Сидорчук // Математичні машини і системи. 2006. № 2. C. 126-135.
7. Широков В. А. Інформаційна теорія лексикографічних систем / В. А. Широков. К.: Довіра, 1998. 331 с.
Размещено на Allbest.ru
...Подобные документы
Проблема розвитку сучасної української термінології, вимоги до створення термінів. Зміни в лексичному складі, стилістиці усного і писемного мовлення. Сучасний стан україномовної термінології окремих галузей: музичної, математичної, науково-технічної.
реферат [23,1 K], добавлен 09.12.2009Історія та особливості творення української фінансово-економічної термінології. Морфологічний та морфолого-синтаксичний способи творення. Проблеми іншомовних запозичень. Словотворчі особливості сучасної української фінансово-економічної термінології.
курсовая работа [46,8 K], добавлен 18.05.2017Сучасна українська криміналістична та кримінально-процесуальна термінологія. Ресурси української правничої термінолексики. Синтагматичні властивості гібридних дериватів та композити у правничій термінології. Термінологічні "Псевдодрузі перекладача".
контрольная работа [43,6 K], добавлен 22.11.2010Дослідження лінгвістичного явища синонімії в термінології. Сутність і передумови виникнення термінологічної дублетності. Засоби вираження економічного поняття в синтаксичному аспекті, форму субстанції: морфологічна, семантична й денотативна (ситуативна).
статья [22,3 K], добавлен 18.12.2017Формування української економічної термінології. Визначення фонду економічної термінології, її місця у словниковому складі. Вивчення шляхів появи економічних термінів у термінологічній системі. Диференціювання термінів за ступенем семантичної цілісності.
статья [26,4 K], добавлен 31.08.2017Поняття "термін" у лінгвістичній науці. Джерела поповнення української термінології. Конфікси в афіксальній системі сучасної української мови. Специфіка словотвірної мотивації конфіксальних іменників. Конфіксальні деривати на позначення зоологічних назв.
дипломная работа [118,0 K], добавлен 15.05.2012Становлення і розвиток української суспільно-політичної термінології. Термінознавство як наука. Семантичне переосмислення як спосіб творення суспільно-політичної термінології. Творення слів засобами питомої словотвірної системи, використання запозичень.
курсовая работа [64,4 K], добавлен 03.10.2014Проблема функціонування української мови у сфері медичної діяльності. Особливості та труднощі перекладу медичних абревіатур і термінів в англійській та українській мовах. Лексико-семантичний аналіз та класифікація помилок при перекладі текстів з анатомії.
дипломная работа [91,4 K], добавлен 19.05.2012Характеристика англомовної екологічної термінології. Зміст понять "термін" та "екологія". Характеристика текстів. Словотвірні типи та структурні особливості екологічних термінів. Спосіб транскрипції, транслітерації, калькування, парафрастичного перекладу.
курсовая работа [40,1 K], добавлен 20.03.2015Традиційні та прикладні аспекти вивчення та розв’язання лексико-граматичної омонімії неособової форми англійського дієслова Рarticiple II. Особливості кодування Participle II у корпусах текстів. Тестування програми зняття омонімії форм Participle.
дипломная работа [377,6 K], добавлен 16.09.2014Визначення та види термінологічної лексики. Соціокультурні аспекти англомовних текстів. Особливості функціонування та шляхи перекладу англійської юридичної термінології українською мовою. Труднощі відтворення у перекладі складних термінів-словосполучень.
курсовая работа [51,9 K], добавлен 21.06.2013Виникнення та етапи розвитку української фінансово-кредитної термінології. Термінологізація питань як результат вторинної номінації (семантичний спосіб творення термінів). Функціональний аспект інтерпретації кредитно-фінансових терміно-сполучень.
реферат [34,6 K], добавлен 20.10.2012Основні класифікації текстів і методи перекладу. Дослідження термінології в науково технічному стилі. Стилістика-граматичні особливості англійського тексту. Особливості використання інформаційних технологій при перекладі науково-технічних текстів.
курсовая работа [103,8 K], добавлен 29.05.2014Огляд новітньої української термінології. Розгляд проблем спадщини, запозичень, перекладу термінів. Особливості словотворення та правопису термінів; орфографічні рекомендації. Питання запису українських власних назв латинкою, культури наукової мови.
реферат [35,0 K], добавлен 02.06.2015Дослідження складних слів і їх функціонування. Розвиток української лінгвістичної термінології та типи термінів: іменники, прикметники, складні дієслова та прислівники. Використання основоскладання для утворення складних слів в фiзичнiй термiнологii.
курсовая работа [26,6 K], добавлен 26.03.2009Окреслення семантичних процесів, які відбуваються в сучасній технічній термінології української мови. Висвітлення конструктивної ролі метафори як чинника становлення і розвитку геологічної термінології. Визначення функціонального навантаження метафори.
статья [28,9 K], добавлен 24.04.2018Фонові знання, необхідні для перекладу текстів у галузі юриспруденції. Дослідження шляхів перекладу німецької юридичної термінології на українську мову. Основні прийоми перекладу термінів-словосполучень. Аналіз лексико-граматичних трансформацій.
курсовая работа [137,8 K], добавлен 28.12.2012Лінгвокогнітивний механізм сприйняття британського менталітету засобами гумору в текстовій комунікації. Лінгвістичний аналіз та засоби мовного втілення гумору. Структурно-семантичний аспект та особливості перекладу британських гумористичних текстів.
дипломная работа [1,5 M], добавлен 14.07.2016Основні жанри наукових досліджень. Анотації до кандидатської та докторської дисертацій. Загальна характеристика та види рефератів. Мовні кліше для написання рецензії. Види наукових і навчальних видань, відгуки. Аналітична записка, науковий звіт.
учебное пособие [81,4 K], добавлен 12.01.2011Визначення та характеристика прецизійної і термінологічної лексики, як провідної особливості науково-публіцистичних текстів. Ознайомлення зі способами перекладу термінів у науково-публіцистичних текстах. Аналіз сутності науково-популярного викладу.
курсовая работа [82,8 K], добавлен 20.03.2019