Функціонування прийменників в українському тексті: морфологічний та семантико-синтаксичний аспекти

Роль прийменника в тексті на морфологічному, синтаксичному та семантичному рівнях шляхом застосування методик автоматизованого аналізу та створення лінгвістичного забезпечення відповідних мовно-інформаційних технологій автоматичної обробки текстів.

Рубрика Иностранные языки и языкознание
Вид автореферат
Язык украинский
Дата добавления 24.08.2014
Размер файла 78,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Національна академія наук України

Інститут мовознавства ім. О.О.Потебні

УДК 811.161.2'367.633

ФУНКЦІОНУВАННЯ ПРИЙМЕННИКІВ В УКРАЇНСЬКОМУ ТЕКСТІ: МОРФОЛОГІЧНИЙ ТА СЕМАНТИКО-СИНТАКСИЧНИЙ АСПЕКТИ

Спеціальність 10.02.01 - українська мова

АВТОРЕФЕРАТ

дисертації на здобуття наукового ступеня

кандидата філологічних наук

БУГАКОВ ОЛЕГ ВІТАЛІЙОВИЧ

Київ - 2006

АНОТАЦІЯ

Бугаков О.В. Функціонування прийменників в українському тексті: морфологічний та семантико-синтаксичний аспекти. - Рукопис.

Дисертація на здобуття наукового ступеня кандидата філологічних наук за спеціальністю 10.02.01-українська мова. - Інститут мовознавства ім. О.О. Потебні НАН України, Київ, 2005.

У дисертації описано результати проведеного комплексного формального аналізу функціонування прийменників в українському тексті на трьох рівнях: морфологічному, синтаксичному та семантичному. Методологічні основи розробленого інструментарію (лінгвістичні бази даних) дозволили уточнити реєстр прийменників української мови та подати кількісні характеристики параметрів їх функціонування у межах зон прийменникових зв'язків, а саме: позиції головного і залежного слів, контактність головного слова з прийменником, лексична довжина зони прийменникових зв'язків, граматичні та лексичні характеристики компонентів ЗПЗ.

На основі проведеного аналізу розроблено алгоритми усунення граматичної омонімії прийменників та ідентифікації складених прийменників у тексті. Крім того, подано принципи побудови алгоритму встановлення зон прийменникових зв'язків у тексті.

Аналіз семантики прийменників, проведений із застосуванням теорії семантичних станів, дозволив визначити 20 типів семантичних відношень, які, в свою чергу, поділяються на 131 конкретне семантичне відношення. Дані аналізу лягли в основу побудови електронного семантичного словника прийменникових конструкцій як лексикографічної системи.

Розроблені алгоритми та семантичний словник передбачається використати у роботі морфологічного та семантико-синтаксичного аналізаторів як сервісних програм розмітки УНЛК.

Ключові слова: прийменник, складений прийменник, омограф, зона прийменникових зв'язків, контекстний аналіз, автоматичний синтаксичний аналіз, лінгвістична база даних, Український національний лінгвістичний корпус.

АННОТАЦИЯ

Бугаков О.В. Функционирование предлогов в украинском тексте: морфологический и семантико-синтаксический аспекты. - Рукопись.

Диссертация на соискание ученой степени кандидата филологических наук по специальности 10.02.01-украинский язык. - Институт языковедения им. А.П. Потебни НАН Украины, Киев, 2005.

В диссертации поданы результаты комплексного формального анализа функционирования предлогов в украинском тексте на трех уровнях: морфологическокм, синтаксическом и семантическом.

Разработаны принципы построения субкорпусов текстов в виде лингвистических баз данных (ЛБД), ориентированных на конкретные исследования, которые должны служить текстовой поддержкой технологиям автоматической обработкой текста (АОТ) в тех ситуациях, когда в рамках контекстного анализа исследователю удобнее при определении диагностирующих контекстов иметь дело с прецедентной базой конкретных языковых явлений, а не со всем корпусом текстов. Основным требованием к этим ЛБД является то, что их структурирование и организация доступа к информации в базах должны обеспечить возможность автоматической классификации материала по каждому из параметров, и любой их комбинации. Построенные таким образом ЛБД могут сами быть инструментом других исследований, на основе которых будут автоматически формироваться другие базы данных.

Методологические основы разработанного инструментария (ЛБД) позволили сформировать реестр предлогов украинского язика, проанализировать грамматическую омонимию предлогов с другими лексико-грамматическими класами слов в языке и в тексте, определить ее типы и количественные характеристики, провести анализ функционирования омографов с предложным компонентом в текстах трех стилей (художественный, публицистический и научный), а также подать количественные характеристики параметров функционирования предлогов в пределах зон предложных связей, а именно: позиции главного и зависимого слов, контактность позиций главного и зависимого слов, контактность главного слова с предлогом, лексическая длина зоны предложных связей, грамматические и лексические характеристики компонентов ЗПС.

Описаны алгоритмы устранения грамматической омоними предлогов и идентификации составных предлогов в тексте, а также принципы построения алгоритма установления зоны предложных связей в тексте.

Анализ семантики предлогов с применением теории семантических состояний позволил выделить 20 типов семантических отношений, которые, в свою очередь, делятся на 131 конкретное семантическое отношение. Данные анализа стали основой построения электронного семантического словаря предложных конструкций как лексикографической системы.

Созданные алгоритмы и семантический словарь планируется использовать в работе морфологического и семантико-синтаксического анализаторов как сервисных программ разметки УНЛК. Они также могут быть использованы при разрешении других задач, связанных с АОТ.

Ключевые слова: предлог, составной предлог, омограф, зона предложных связей, контекстный анализ, автоматический синтаксический анализ, лингвистическая база данных, Украинский национальный лингвистический корпус.

ABSTRACT

Bugakov O.V. Functioning of prepositions in the Ukrainian text: morphological and semantic-syntactic aspects. - Manuscript.

The theses represent the results of realized complex formal analysis of prepositions functioning in the Ukrainian text on three levels: morphologic, syntactic and semantic. The methodological principles of the developed research tools have allowed to form a list of prepositions of the Ukrainian language and give quantitative descriptions of the parameters of their functioning in the limits of prepositional connections zones: positions of main and dependent words, contacts of main word with preposition, word length of prepositional connections zone, grammatical and lexical descriptions of the components of prepositional connections zone.

The algorithmic rules of morphological and part-of-speech disambiguation and identification of complex prepositions in text are developed. Besides, the principles of creating the algorithm of identification of prepositional connections zones in text are given.

The analysis of prepositions semantics held using the theory of semantic states allowed to determine 20 semantic relations types. They are divided into 131 concrete semantic relations. That became the basis for creating the electronic semantic dictionary of prepositional constructions as a lexicographic system.

Created algorithms and semantic dictionary will be used in the work of morphological and semantic analyzers and parser as service programs for marking the Ukrainian National Linguistic Corpus.

Key words: preposition, complex preposition, homograph, prepositional connections zone, context processing, context processing, automatic syntactic processing, linguistic database, Ukrainian National Linguistic Corpus.

Дисертацією є рукопис.

Роботу виконано у відділі лінгвістики Українського мовно-інформаційного фонду НАН України.

Науковий керівник - кандидат філологічних наук, старший науковий співробітник Грязнухіна Тетяна Олександрівна, Український мовно-інформаційний фонд НАН України

Офіційні опоненти - доктор філологічних наук, професор, член-кореспондент НАН України Клименко Ніна Федорівна, Інститут мовознавства ім. О.О. Потебні НАН України, провідний науковий співробітник;

кандидат філологічних наук Дудко Ірина Володимирівна, Національний педагогічний університет ім. М.П.Драгоманова, доцент кафедри української мови

Провідна установа - Київський національний лінгвістичний університет, кафедра українського та загального мовознавства

Захист відбудеться 17 жовтня 2006 р. о 14.00 на засіданні спеціалізованої вченої ради Д.26.172.01 для захисту докторських (кандидатських) дисертацій при Інституті мовознавства ім. О.О. Потебні НАН України (01001, м. Київ, вул. Грушевського, 4).

З дисертацією можна ознайомитися в науковій бібліотеці Інституту мовознавства ім. О.О. Потебні НАН України.

Автореферат розіслано 15 вересня 2006 р.

Учений секретар спеціалізованої вченої ради доктор філологічних наук, професорН.Г. Озерова

ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ

Прийменник належить до тих граматичних класів слів, які постійно перебувають у центрі уваги мовознавців, оскільки сама лінгвістична сутність цієї одиниці мови не є однозначною. Незважаючи на всю різноманітність поглядів стосовно статусу прийменника, його релятивна функція визнається всіма лінгвістами. Як тими, хто не вважає прийменник окремим словом, відносячи його до аналітичних синтаксичних морфем чи часток речення, так і тими, хто наділяє прийменник повноцінним лексичним значенням або ж певним лексичним значенням, співвідносним із релятивною сферою об'єктивної дійсності.

Саме через свою значущість у тексті як мовна одиниця, що безпосередньо бере участь в організації синтаксичних та семантичних текстових структур, а також через високу частоту вживання та динаміку лексичного складу прийменник завжди викликав інтерес у мовознавців. Це підтверджено великою кількістю публікацій за останні роки та проведенням конференцій і семінарів, присвячених актуальним проблемам вивчення прийменника (Москва, Росія 2003; Тулуза, Франція 2003; Колчестер, Велика Британія 2005; Тренто, Італія 2006).

Пояснити це можна тим, що з кінця ХХ ст. пріоритетні позиції в лінгвістичній науці займає корпусна лінгвістика, яка надає такий інструмент дослідження, як лінгвістичні корпуси текстів, що слугують могутньою інформаційно-лінгвістичною підтримкою у вивченні різноманітних аспектів мови. Виконання цієї функції корпусом текстів можливе лише за умови, що він лінгвістично маркований (на морфологічному, синтаксичному та семантичному рівнях) та репрезентативний за обсягом. Використання лінгвістичних корпусів текстів звільняє дослідників від багатьох видів рутинної роботи. З іншого боку, проблеми, що виникають при створенні корпусів тексту, стимулюють у лінгвістиці появу нових ідей, розробку нових підходів, створення нових мовно-інформаційних технологій.

Новітні дослідження прийменника в сучасній лінгвістиці спираються на праці: Н.І.Астаф'євої, І.О.Бодуена де Куртене, В.С.Бондаренка, Л.А.Булаховського, В.В.Виноградова, І.Р.Вихованця, А.П.Загнітка, Г.О.Золотової, Г.Є.Крейдліна, Є.Куриловича, І.К.Кучеренка, І.І.Мещанінова, М.М.Нікольського, О.М.Пєшковського, О.О.Потебні, О.М.Селіверстової, Є.Т.Черкасової, Л.В.Щерби та ін. Важливим є й досвід розробок наукових розвідок щодо опису прийменникової системи різних мов, проведених у межах прикладної лінгвістики: Н.Д.Арутюнової, М.Гнаткової, Т.О.Грязнухіної, О.В.Зубова, О.С.Кулагіної, Н.М.Леонтьєвої, Ю.М.Марчука, Т.Г.Ніканорової, С.Є.Нікітіної, В.Петкевича, В.Ш.Рубашкіна, О.М.Шаранди та ін.

Актуальність роботи визначено кількома факторами:

§ зростанням інтересу до дослідження різних аспектів функціонування прийменників у тексті;

§ важливістю формування репрезентативних корпусів текстів для проведення лінгвістичних досліджень;

§ необхідністю розробки автоматизованих систем аналізу текстової інформації (зокрема, морфологічного та семантико-синтаксичного аналізаторів);

§ інтенсивністю розвитку лінгвістичних досліджень, присвячених вивченню граматичної омонімії, еліптичних конструкцій та семантики мовних одиниць.

Зв'язок роботи з науковими програмами, планами, темами. Представлена дисертація є продовженням розробки наукових тем Українського мовно-інформаційного фонду НАН України: „Теоретико-лінгвістичні та інформаційні засади автоматизованої обробки природної мови” (4.19.11), „Лексикографічні системи в інтелектуальному опрацюванні природної мови” (0102U003220), „Дослідження мовно-інформаційних процесів та розподілених систем національної словникової бази” (0102U003221).

Мета і завдання дослідження. Метою роботи є багатоаспектне вивчення функціонування прийменника в тексті на морфологічному, синтаксичному та семантичному рівнях шляхом розробки і застосування методик автоматизованого аналізу та створення за одержаними результатами лінгвістичного забезпечення відповідних мовно-інформаційних технологій автоматичної обробки текстів у тих їх частинах, що безпосередньо стосуються прийменника. прийменник синтаксичний автоматизований лінгвістичний

Досягнення поставленої мети передбачає розв'язання таких завдань:

побудувати лінгвістичні бази даних (ЛБД) як інструмент та матеріал для аналізу функціонування прийменника на морфологічному, синтаксичному та семантичному рівнях;

уточнити реєстр прийменників на основі аналізу українських текстів;

проаналізувати функціонування граматичних омонімів із прийменниковим компонентом та скласти алгоритм усунення омонімії цього типу в тексті;

розробити алгоритм розмежування складених прийменників від структурно тотожних синтаксичних конструкцій у тексті;

проаналізувати зони прийменникових зв'язків (у тому числі еліптичні прийменникові конструкції) та виділити принципи встановлення зон прийменникових зв'язків у тексті (модуль алгоритму АСА);

проаналізувати семантику прийменників на засадах теорії семантичних станів мовних одиниць; систематизувати семантичні відношення, у вираженні яких бере участь прийменник;

побудувати електронний семантичний словник прийменникових конструкцій у формалізмі інформаційної теорії лексикографічних систем з використанням побудованої ЛБД.

Об'єктом дослідження є лексико-граматичний клас прийменників української мови.

Предмет дослідження - морфологічний та семантико-синтаксичний аспекти функціонування прийменників у тексті.

Матеріал дослідження - Український національний лінгвістичний корпус загальним обсягом понад 42 млн. слововживань.

Методи дослідження. У роботі було застосовано методи теорії лексикографічних систем та теорії семантичних станів, обчислювального експерименту, дистрибутивний та статистичний.

Наукова новизна роботи полягає в тому, що вперше в українському мовознавстві застосовано комплексний формальний підхід до вивчення функціонування прийменників на репрезентативному корпусі українських текстів із застосуванням сформованих автоматизованим шляхом спеціалізованих лінгвістичних баз даних (ЛБД). У дисертації такими є: 1) лінгвістична база прийменникових сполучень - претендентів на роль складеного прийменника, 2) лінгвістична база граматичних омографів з прийменниковим компонентом, 3) лінгвістична база зон прийменникових зв'язків. На основі формального підходу уточнено реєстр українських прийменників, створено алгоритми локалізації та ідентифікації прийменників та їх зон зв'язків у тексті, що знаходять своє застосування в системах автоматичного синтаксичного аналізу українського тексту та автоматизованого лінгвістичного маркування Українського національного лінгвістичного корпусу УМІФу. Крім того, укладено електронний семантичний словник, який описує семантику українських прийменників у формалізмі теорії семантичних станів В.А.Широкова.

Практичне значення дослідження полягає у можливості використання розроблених алгоритмів та лексикографічних систем у системах АОТ. Алгоритм розпізнавання прийменникової функції, реалізованої в тексті граматичними омографами, компонентами яких є прийменники, став частиною загального алгоритму контекстного аналізу омонімічних одиниць у системі АОТ УМІФу. Алгоритм ідентифікації складених прийменників у тексті використано морфологічним аналізатором у правилах формування лексичних одиниць, представлених на морфологічному рівні кількома графемними словами. Алгоритм встановлення зон прийменникових зв'язків у тексті та семантичний словник можуть бути використані на етапі семантико-синтаксичного аналізу, в системах машинного перекладу, автоматичного редагування, а також у синтаксичному та семантичному маркуванні корпусу текстів. Побудовані ЛБД передано до Національної словникової бази УНЛК як його субкорпуси, що слугуватимуть матеріалом для подальших досліджень прийменника.

Особистий внесок здобувача. Усі винесені на захист положення та результати дисертації здобувач розробив самостійно.

Апробація результатів дисертації. Основні положення проведеного дослідження обговорено на міжнародних наукових конференціях: „Українська мова в часі і просторі” (Львів, 2004), „Філологія в Київському університеті: історія та сучасність", присвячена 200-річчю від дня народження М.О.Максимовича (Київ, 2004), „MegaLing'2005. Прикладная лингвистика в поиске новых путей” (Крим, Меганом, 2005); Міжнародній конференції з прикладної (комп'ютерної) лінгвістики (Київ, 2006); І Всеукраїнській науковій конференції молодих учених-філологів “Vivat Academia” (Львів, 2001); у роботі круглих столів Міжнародної школи гуманітарних наук Центральної і Східної Європи, що проводилася у рамках сесії “Корпуси текстів в лексикографічних дослідженнях” (Варшава, 2004); на постійно діючому науковому семінарі “Комп'ютерна лінгвістика” (Київ, Київський національний лінгвістичний університет, 2005); на засіданнях ученої ради та наукових семінарах Українського мовно-інформаційного фонду НАН України.

Обсяг і структура дисертації. Дисертація складається зі вступу, чотирьох розділів, висновків, додатків та списку використаної літератури, який містить 252 найменування. Обсяг дисертації без списку використаної літератури становить 163 сторінки. Загальний обсяг роботи (з бібліографією і додатками) - 233 сторінки.

ОСНОВНИЙ ЗМІСТ РОБОТИ

У Вступі обґрунтовано актуальність теми, окреслено об'єкт і предмет дослідження, сформульовано мету і завдання роботи, подано відомості про наукову новизну отриманих результатів та їх практичне застосування.

Перший розділ „Теоретико-методологічні засади вивчення функціонування прийменника в українському тексті” присвячено огляду наукової літератури з питань вивчення прийменників стосовно морфологічного статусу, притаманності їм лексичного значення, ролі в синтаксичній та семантичній структурі українського речення, а також обґрунтуванню доцільності використання ЛБД.

Лексико-граматичний клас прийменників української мови становить відкриту систему, яка постійно поповнюється. Цей процес відбувається за рахунок препозиціоналізації, а також шляхом утворення складених прийменників зі сполучень прийменника з повнозначним словом, в яких останнє повністю або значною мірою втрачає свої лексичні, парадигматичні та синтаксичні зв'язки з відповідним лексико-граматичним класом, до якого воно належить, перебираючи на себе категоріальне значення прийменника та уточнюючи його. Обидва процеси є поширеними мовленнєвими явищами, а тому проблема уточнення реєстру прийменників не може бути вирішена без всебічного дослідження їх функціонування в тексті.

Через брак повної відповідності між лінійною структурою речення, представленою послідовністю слів у реченні, та його багатовимірною синтаксичною структурою, що відображає зв'язки підпорядкування, у встановленні зон прийменникових зв'язків (далі ЗПЗ) у тексті виникають питання, що потребують подальшого з'ясування. До складу ЗПЗ входять прийменник, головне слово (ГС), яке керує прийменниково-іменниковою синтаксемою, і залежне слово (ЗС), яке підпорядковується головному за допомогою прийменника. В аналізі необхідно розкрити: 1) наявність дистантних зв'язків прийменника з ГС та ЗС, 2) недетерміноване пре- чи постпозитивне розташування ГС та ЗС стосовно прийменника, зумовлене вільним порядком слів у реченні, 3) поширене в українських текстах слабке прийменникове керування (прийменникове прилягання), при якому вживання прийменника більшою мірою зумовлене змістом, а не валентністю ГС, 4) вживання прийменника в еліптичних конструкціях, 5) встановлення однорідних ГС і ЗС. Це вимагає від дослідника розробки методології комплексного семантико-синтаксичного аналізу функціонування в тексті прийменника як одного з основних носіїв синтаксичної функції.

Своєрідність прийменника як лексико-граматичного класу слів полягає в характері закладених у ньому значень: конкретне, часткове значення прийменника розглядається як лексичне, а абстрактне, узагальнене - як лексико-граматичне. Однак і часткові значення прийменників відрізняються від значень самостійних класів слів більшим ступенем узагальненості. Прийменник, відірваний від субстантивів, звичайно має багато різноманітних, часто багатопланових лексичних значень, що утруднює його позаконтекстуальний опис Кононенко В.І. Прийменниково-субстантивний комплекс в аспекті синтаксису // Мовознавство. - 1978. - №3. - С. 3-12..

Вибір об'єктом дослідження семантики прийменника тріади „ГС - прийменник - ЗС”, в якій прийменник виконує роль засобу зв'язку між головним і залежним словами тріади, зумовлений тим, що значення засобу зв'язку виражається іменем змістового відношення між двома текстовими одиницями R(x, y), де в позиції x і y перебувають лексичні одиниці. Формула R(x, y) має певну передбачувальну силу: семантика слів, які виражають відношення, обмежує семантичні класи x і y, і навпаки; а часто вистачає знання семантичних ознак двох або навіть одного члена тріади, щоб передбачити семантику інших Леонтьева Н.Н. Роль связей в семантической разметке корпуса текстов // Труды международной конференции „Корпусная лингвистика - 2004”. - СПб.: Изд-во С.-Петерб. Ун-та, 2004. - С. 196-205.. При цьому важливими є не лише характеристики ізольованих лексем, а й відображення зв'язків між ними.

У процесі організації дослідження зазначених аспектів функціонування прийменників у тексті було вирішено створити ЛБД, відповідні цим аспектам: лінгвістичну базу прийменникових сполучень - претендентів на роль складеного прийменника (ЛБСП), лінгвістичну базу граматичних омографів з прийменниковим компонентом (ЛБОП) та лінгвістичну базу зон прийменникових зв'язків (ЛБЗПЗ). Їхнє використання як матеріалу та інструменту аналізу забезпечує розв'язання поставлених у роботі завдань щодо: 1) усунення граматичної омонімії прийменника з іншими частинами мови; 2) ідентифікації складених прийменників; 3) встановлення зон прийменникових зв'язків; 4) визначення семантичних відношень, у вираженні яких бере участь прийменник.

У другому розділі „Ідентифікація прийменників на етапі автоматичного морфологічного аналізу тексту” на матеріалі створених баз досліджується функціонування прийменників-омографів та складених прийменників.

ЛБОП будувалася на основі морфологічно розмічених текстів трьох стилів (наукового, художнього, публіцистичного), кожен із яких представлений вибіркою в 1 млн. слововживань. База представлена у вигляді таблиць із полями “Порядковий номер контексту”, “Граматичний омограф”, “Контекст”, “Функція омографа”. Загальний обсяг бази - 200.123 контексти, з яких 59.748 - речення з художніх текстів, 68.911 - публіцистичних та 71.464 - наукових.

Список омографів для ЛБОП, сформований на основі українських словників, сучасних українських граматик і наукових досліджень, присвячених прийменнику, охоплює 142 одиниці. Функціональні можливості кожного омографа зі списку було представлено множиною граматичних класів, функцію яких даний омограф може виконувати в тексті, у вигляді ланцюжків кодів цих класів.

У результаті було визначено 13 типів прийменникової омонімії (ТПО): PT (навколо, близько), ІP (шляхом, круг), DP (при), PQ (у, о), ІPT (протягом, окіл), DPT (вглиб, подовж), АPT (вище, раніше), DІP (край), PQT (вперед), PQZ (на), PTZ (за), IPTZ (кругом), IPSZ (помість).

У системах АОТ усунення граматичної омонімії текстових одиниць передбачає визначення частиномовної функції омографа, а також його конкретного граматичного значення, актуалізованого в тексті. Тому при подальшому розгляді функціонування типів прийменникової омонімії останні були представлені у вигляді моделей, в яких компоненти омографа записувалися двосимвольними граматичними кодами, перший символ яких позначає граматичний клас, другий - його підклас (конкретне граматичне значення) У роботі використано граматичну класифікацію і принципи кодування граматичної інформації, прийняті в системі АМА УМІФу. За цією класифікацією, родова ознака іменників виноситься в код граматичного класу; граматичний підклас прийменника представлено відмінком (відмінками) залежної іменної форми; граматичний підклас іменника - це відмінок і число; ад'єктива - рід, число, відмінок; дієслова - вид, спосіб, час, особа, число, рід (у дієслів минулого часу).. Визначені в такий спосіб моделі розглядалися з погляду їхнього кількісного складу (скільки омографів описує дана модель), довжини омонімічного ланцюжка, вимірюваної кількістю двосимвольних кодів у ньому, а також з погляду зіставлення частоти вживання моделі в різних стилях. Останні показники підраховувалися в процентному співвідношенні до частоти вживання відповідного даній моделі типу омонімії. Кількість моделей, визначених у такий спосіб у межах 13 ТПО прийменника з урахуванням граматичних підкласів компонентів омографа, - 43, що складає 2,9% від загальної кількості моделей, якими описано всю граматичну омонімію мови (1486) Корпусна лінгвістика / В.А.Широков, О.В.Бугаков, Т.О.Грязнухіна та ін. - К.: Довіра, 2005. - 471 с.. Проте в тексті ці 2,9% реалізують близько 15% усіх омонімічних кодів. Це ще раз підкреслює важливість дослідження саме цієї групи.

Проведений аналіз функціонування омографів із прийменниковим компонентом з погляду актуалізації їхніх конкретних граматичних значень на рівні типів і моделей прийменникової омонімії дав можливість вивести ряд критеріїв, за якими визначалася можливість усунення омонімії ще на етапі до проведення контекстного аналізу, а саме: стилістичний, тематичний та статистичний. Після їх застосування список моделей скоротився до 29, представлених 117 омографами. Для них і встановлювалися розпізнавальні контексти на сформованій базі конкордансів та укладався алгоритм контекстного аналізу. Алгоритм будувався як ієрархічна сукупність правил, у яких формально зафіксовано текстові умови однозначного визначення граматичної сутності омографа. Правила алгоритму об'єднувалися в ситуації відповідно до граматичного статусу омографа, тобто його моделі. У них представлено дистрибутивні властивості граматичних класів - компонентів моделі щодо їхньої синтагматичної сполучуваності у лінійному ланцюжку слів у реченні.

Другу базу, ЛБСП, побудовану на корпусі текстів обсягом 23 млн. слововживань, орієнтовано на попередньо укладений список прийменникових сполучень - претендентів на роль складеного прийменника (ПСП). До ЛБСП входять автоматично відібрані контексти для ПСП зі списку. Довжина контекстів визначалася межами речення, в якому перебував конкретний ПСП. База представлена у вигляді таблиці з полями “Порядковий номер контексту”, “Претендент на роль складеного прийменника”, “Контекст”, “Функція ПСП”. Загальна довжина ЛБСП - 51.025 речень.

Аналіз складених прийменників (СП) починався з укладання списку прийменникових сполучень - претендентів на роль СП обсягом 144 одиниці без урахування варіантів (в/у_межах). За структурою СП було зведено до чотирьох типів: 1) простий прийменник + іменник у непрямому відмінку (PrepN: з_метою, за_допомогою); 2) простий прийменник + іменник у непрямому відмінку + простий прийменник (Prep1NPrep2: у_відповідь_на, у зв'язку_з); 3) прислівник + простий прийменник (AdvPrep: разом_з, залежно_від); 4) складені прийменники незважаючи_на, невважаючи_на, зважаючи_на. Конструкції, які не відповідали визначеним структурним формулам, були вилучені зі списку прийменникових сполучень - претендентів на роль СП.

Сформовані в ЛБСП конкорданси розглянуто з погляду функціонального навантаження потенційних СП в синтаксичній структурі речення щодо виконання ними функцій прийменника. Аналіз здійснювався за такими диференційними ознаками: а) контактність компонентів; б) наявність зліва від прийменникового сполучення іменної форми у чітко визначеному відмінку; в) трансформація лексичного значення повнозначного слова в СП; г) можливість заміни СП простим прийменником без зміни значення (ознака є релевантною для більшості українських прийменників типу PrepN). Унаслідок застосування визначених критеріїв отримано список обсягом 69 СП, 44 з яких належить до групи PrepN, 16 - до AdvPrep, 6 - до Prep1NPrep2, 3 - до VPrep.

Складені прийменники, на відміну від простих, характеризуються однозначністю щодо вимоги відмінка залежної від них форми (родового, давального, знахідного або орудного). Відповідно до цього всі СП було поділено на 4 групи: 1) СПД - складені прийменники, які беруть участь у керуванні залежною іменною формою в давальному відмінку: на_зміну, на_противагу (2); 2) СПЗ - беруть участь у керуванні залежною формою в знахідному відмінку: зважаючи_на, невважаючи_на, незважаючи_на, з_огляду_на, у_відповідь_на (5); 3) СПО - беруть участь у керуванні залежною формою в орудному відмінку: в/у_порівнянні_з, вслід/услід_за, згідно_з, нарівні_з, одночасно_з, паралельно_з, порівняно_з, поруч_з, поряд_з, разом_з, спільно_з, слідом/слідком_за, у_зв'язку_з (13); і, нарешті, до кількісно найбільшої групи 4) СПР належать складені прийменники, які беруть участь у керуванні залежною формою в родовому відмінку: відповідно_до, на_адресу, у_справі тощо (49).

За даними ЛБСП, частота вживання прийменникових сполучень - претендентів на роль СП - у функції прийменника становить близько 93%. З 69 досліджуваних сполучень 19 актуалізують тільки функцію прийменника: відповідно_до, в/у_порівнянні_з, вслід/услід_за, залежно_від, за_рахунок, згідно_з, з_урахуванням, нарівні_з, невважаючи_на, незважаючи_на, незалежно_від, на_відміну_від, паралельно_з, під_час, подібно_до, порівняно_з, слідом/слідком_за, стосовно_до, у_відповідь_на. Ці прийменникові сполучення було виділено в окремі списки відповідно до відмінка залежних від них іменних форм. В алгоритмі ідентифікації СП у тексті передбачається приписування їм коду прийменника без додаткових перевірок лише за входженням до цього списку. Для решти 50 прийменникових сполучень, які в текстах нашої вибірки актуалізують функції як прийменника, так і сполучення слів, укладалися правила розмежування цих функцій за контекстними умовами.

Розробка формальних правил розмежування в тексті синтаксичних конструкцій типу “прийменник + повнозначне слово (+ прийменник)”, “повнозначне слово + прийменник” від тих, де відповідні конструкції виступають у функції прийменників і на лексичному рівні виступають у ролі еквівалентів слова, необхідна з кількох причин. По-перше, для проведення лексичної розмітки корпусу текстів, на основі якої здійснюється аналіз лексичного рівня текстів; по-друге, для зменшення числа синтаксично неоднозначних ситуацій на етапі АСА, що, в свою чергу, зменшує кількість варіантів при машинному перекладі.

У третьому розділі „Аналіз функціонування прийменника на синтаксичному рівні” на основі третьої створеної бази здійснювався аналіз зон прийменникових зв'язків з метою розробки окремого модуля АСА українського тексту, а саме, алгоритму встановлення зон прийменникових зв'язків у тексті. ЛБЗПЗ представлена у вигляді таблиць, що відповідають конкретним прийменникам і структуровані за такими полями: “Контекст”, “Довжина ЗПЗ”, “Позиція прийменника в реченні”, “Позиція ГС відносно прийменника”, “Контактність ГС з прийменником”, “ГС”, “Граматичні ознаки ГС”, „Семантичний клас ГС”, “ЗС”, “Граматичні ознаки ЗС”, „Семантичний клас ЗС”, “Відношення“, “Ремарки”. Загальний обсяг бази - 20.767 контекстів.

Указані поля відповідають множині параметрів, за якими і здійснювався аналіз ЗПЗ у тексті. Встановлені в дослідженні кількісні характеристики щодо кожного з описуваних параметрів враховано у визначенні ієрархії правил в алгоритмі. Вони дали змогу оцінити ступінь навантаження різних видів інформації (граматичної, лексичної) для формального встановлення прийменникових зв'язків.

У визначенні зон зв'язків прийменника важлива інформація про позицію прийменника в реченні щодо частоти вживання його в першій позиції, оскільки ця ознака може вважатися такою, що з великою ймовірністю однозначно прогнозує в реченні претендента на ГС і напрямок його пошуку.

Межами ЗПЗ для випадків з препозитивним розташуванням головного слова є ГС і залежна відмінкова форма, для випадків з постпозитивним розташуванням головного слова межами ЗПЗ є прийменник і ГС. Довжина ЗПЗ визначається кількістю словоформ, які входять до її складу (включаючи її межі). Аналіз довжини ЗПЗ передбачав визначення для кожного прийменника максимального, мінімального і типового її показників Типовою вважаємо довжину, характерну для 75% всіх ЗПЗ..

Аналіз матеріалу показує, що дистантне розташування ГС стосовно прийменника становить 61,77% усіх прийменникових вживань, що значно ускладнює автоматичне визначення ГС прийменника. Якщо залежне слово в тексті (незалежно від контактного/дистантного розташування) формально легко визначається переважно як перший зліва від прийменника іменник / займенник-іменник у відмінку, якого даний прийменник вимагає, то у випадку з ГС виникають труднощі. В ситуаціях з розташуванням ланцюжка іменників праворуч від прийменника претендентами на роль ГС можуть бути усі ці іменники в препозиції до прийменника, а також дієслово-присудок у будь-якій позиції в реченні. Якщо в такій ситуації за іншими ознаками не вдається однозначно визначити ГС при АСА, для виділення найбільш імовірного варіанта доцільно знати прийменники з перевагою контактного розташування ГС.

При автоматичному пошуку головного слова у ЗПЗ труднощі виникають у випадку дистантного препозитивного, а не постпозитивного розташування його в зоні, оскільки в постпозиції головним словом переважно є дієслівна форма. Тому важливими є дані про співвідношення кількості випадків пре- і постпозитивного розташування ГС в ЗПЗ конкретних прийменників. Значний відсоток зон з препозитивним розташуванням ГС (69,29%), вирахуваний відносно загальної кількості всіх ЗПЗ досліджуваних прийменників, свідчить про типовість упорядкування прийменникових зв'язків в українському тексті за схемою “ГС ... прийменник ... ЗС”. Перевага зон з постпозитивним розташуванням ГС виявлена у прийменників з-посеред, насеред, опріч, праворуч (всі по 100%), згідно (70,45%), незважаючи_на (72,97%), пріч (75%), згідно_з (75,09%), на_відміну_від (76,6%), попри (78,85%). Отримані дані використовуються в алгоритмі ідентифікації ЗПЗ при АСА для визначення пріоритетного напрямку пошуку ГС конкретних прийменників.

Для більшості українських прийменників процедура встановлення зв'язків із ЗС значно простіша, ніж з ГС, оскільки майже всі вони вимагають залежної форми після себе, тому алгоритм її пошуку розрахований переважно на правий контекст. Але деяким прийменникам притаманна властивість керувати залежним словом як в пре-, так і в постпозиції. Це стосується насамперед прийменників, які вимагають після себе іменної форми в давальному відмінку: вслід/услід, навздогін/наздогін, навперейми, назустріч/навстріч, наперекір, напереріз, на_зміну, на_противагу, а також двох прийменників, які вимагають після себе іменної форми в родовому відмінку: ради, заради.

Як показують дані ЛБЗПЗ, у тексті роль ГС можуть виконувати 10 граматичних класів слів: дієслово, іменник, займенник-іменник, займенник-прикметник, прикметник, дієприкметник, числівник, прислівник, присудкове слово, абревіатура та число. Функцію залежного слова - всі іменні класи, а також число, абревіатура і скорочення. Займенник-іменник, числівник, число, абревіатура і скорочення у функції ЗС переважно знаходяться в контактній позиції з прийменником. Прикметник, дієприкметник, займенник-прикметник і числівник у ролі ЗС можуть виступати тільки у випадку еліпсиса, формальними ознаками якого є розташовані праворуч від них крапка, крапка з комою, двокрапка, тире, прийменник та дієслово.

За даними лексичних характеристик ГС, для кожного з представлених у ЛБД прийменників визначено: 1) входження прийменника у стійкі сполучення: один до (від/за/перед) одного(-им), Євангелія від Матвія (Іоанна...), час від часу, віком до/від + Ц/Ч, родом з тощо; 2) група лексем, які мають у текстах регулярні зв'язки з конкретним прийменником. Формальним показником регулярності при цьому вважається повторюваність тих самих лексем у функції ГС відповідного прийменника. У правилах АСА при встановленні ГС тих прийменників, для яких в ЛБД визначено лексеми, що вступають з ними в регулярні зв'язки, перевага надається саме цим лексемам, незважаючи на їхню позицію в реченні. При знаходженні в тексті інших претендентів на роль ГС, ці лексеми вибираються основним варіантом при АСА.

Виявлені в результаті аналізу закономірності організації прийменникових зв'язків у реченні - загальні для всіх прийменників, специфічні для конкретних - лягли в основу розробки принципів укладання алгоритму ідентифікації ЗПЗ в українському реченні як модуля АСА.

Четвертий розділ „Дослідження функціонування прийменників на семантичному рівні” присвячено аналізу семантики прийменників. Основним методом її дослідження було обрано теорію семантичних станів, розроблену В.А.Широковим Широков В.А. Семантичні стани мовних одиниць та їх застосування в когнітивній лексикографії // Мовознавство. - 2005. - №№ 3-4. - С. 47-62..

Відповідно до засад теорії семантичних станів мовних одиниць, викладеної в першому розділі, семантичний стан g(Х) прийменника Х визначаємо як реалізацію конкретного семантичного відношення в тексті між головним і залежним словами, зумовлену семантичними станами останніх, що репрезентують об'єкти позамовної дійсності, між якими встановлюється конкретне відношення.

Так, семантичним станом прийменника під_час у текстовій ситуації є “відношення дії1 (ГС) до дії2 (ЗС), в момент здійснення якої відбувається дія1” (Часове відношення 3 з род.в.): звучати під_час зустрічі.

Формально відповідність між мовною одиницею (у нашому випадку, прийменником) та її семантичним станом записується як:

g : Х g(Х), (1)

де Х - певна одиниця мови; g - відповідність між Х та g(Х) - формальним об'єктом, що репрезентує семантичний стан одиниці Х, який має своїми детермінантами елементи засобів матеріального вираження семантики.

Сукупність усіх семантичних станів будь-якого прийменника Х позначимо як {g(Х)}. Прийменники української мови як клас мовних одиниць позначимо символом P; належність Х до P - як: Х P; множину всіх семантичних станів для всіх прийменників Х P - як: {g(Х); Х P} G. Символ G і відповідає ідеальному семантичному словнику прийменникових конструкцій.

Припустимо, що існує оператор F, дія якого визначена на множині семантичних станів прийменників G і який інтерпретовано як оператор сукупності значень певних семантичних категорій. Дія оператора F становить собою сумарну дію операторів: M -- граматичне значення ГС (лексико-граматичний клас ГС), Z -- граматичне значення ЗС (лексико-граматичний клас ЗС), Q -- лексичне значення ГС (семантичний клас ГС), S -- лексичне значення ЗС (семантичний клас ЗС), R -- семантичне відношення, у вираженні якого бере участь прийменник (просторове, часове, об'єктне, суб'єктне тощо), V -- відмінок залежної відмінкової форми. В ЛБЗПЗ, на основі якої створювався семантичний словник, значення семантичних категорій фіксуються в полях, за допомогою яких описується семантичний стан прийменника Х. Оператор F становить певний інтелектуальний механізм, який, аналізуючи семантичний стан g(Х), в якому перебуває прийменник Х, ідентифікує певні значення семантичних категорій, що відповідають саме цьому семантичному стану. Математичною мовою дія оператора F може бути виражена у такий спосіб:

F g i (Х) = (Rm Vn Qk Sl Mi Zj) g i (Х), (2)

де Mi, Zj, Qk, Sl, Rm, Vn - певні значення семантичних категорій, зафіксовані у відповідних полях ЛБЗПЗ для прийменника Х; функції gi(Х), і = 1, 2, … репрезентують семантичні стани прийменника Х, які маркують його приналежність до значень Mi, Zj, Qk, Sl, Rm, Vn оператора F. Значення Mi, і = 1, 2, … називаються власними значеннями оператора M, що відповідають семантичним станам gi(Х), і = 1, 2, … За аналогічним принципом визначаємо власні значення інших операторів.

Електронний семантичний словник, створений на засадах теорії семантичних станів, забезпечує вхід до нього за кожним значенням складників оператора F та будь-якою комбінацією цих значень.

Множина всіх семантичних станів, які відповідають власному значенню будь-якого з операторів M, Z, Q, S, R, V, називається множиною часткових семантичних станів і позначається символами G(Mi), G(Zj), G(Qk), G(Sl), G(Rm), G(Vn). Так, множину всіх семантичних станів G(Vn), які відповідають власному значенню оператора V, інтерпретуємо як:

G(Vn): = {g: V g= Vn gi}, (3)

де Vn - певне значення семантичної категорії V. Множина G(Vn) складається лише з тих семантичних станів, які характеризуються певним значенням категорії V, а саме - значенням Vn. Наприклад, G(V1), V1 = „родовий відмінок”, означає сукупність всіх семантичних станів прийменників української мови, які можуть керувати залежними словами в родовому відмінку.

Проведення дослідження з метою виявлення множини типових семантичних станів класу прийменників є необхідною передумовою створення семантичного словника прийменникових конструкцій.

Встановленню семантичних станів прийменників передує визначення сукупності семантичних відношень, що передаються прийменниковими синтаксичними конструкціями в тексті, з урахуванням семантичних атрибуцій усіх трьох компонентів ЗПЗ.

Інформаційною базою для дослідження семантики прийменників слугувала створена нами лінгвістична база зон прийменникових зв'язків (ЛБЗПЗ) обсягом 20.767 речень, структуру якої описано в третьому розділі. З неї було вилучено 638 речень - випадків вживання прийменників у складі стійких сполучень. Зважаючи на те що прийменники, входячи до складу таких сполучень, беруть участь у вираженні нетипових для себе семантичних відношень, було вирішено залишити їх поза увагою нашого дослідження. Таким чином, обсяг ЛБД, на якому проводилось дослідження функціонування прийменників у тексті на семантичному рівні, скоротився до 20.129 речень. Зони прийменникових зв'язків у цьому розділі розглядалися з погляду семантичної інтерпретації синтаксичного зв'язку між ГС та ЗС, встановлюваних за допомогою прийменника.

У результаті проведеного на ЛБЗПЗ аналізу було виділено 20 типів семантичних відношень, які можуть виражати прийменники в тексті: об'єктні (16,65% від загальної кількості ЗПЗ в ЛБД), просторові (12,23%), часові (9,29%), відношення умови (8,51%), причинові (7,69%), лімітивні (7,5%), відношення мети (7,41%), відношення напрямку руху (5,17%), комітативні (4,02%), суб'єктні (3,67%), відношення способу дії (3,31%), корелятивні (3,14%), атрибутивні кількісні (2,89%), порівняльні (2,74%), атрибутивні якісні (1,57%), відношення призначення (1,4%), генеративні (1,38%), партитивні (0,89%), функціональні (0,29%), трансгресивні (0,26%).

Із зіставлення показників поширення ЗПЗ в ЛБЗПЗ із конкретними типами відношень виявляється, що найпоширенішими типами семантичних відношень, які передають у тексті прийменникові конструкції, є об'єктні (стукати у двері, хапати за штани) і просторові (сидіти на східцях, побудувати поблизу заводу). Вони властиві майже 30% усіх прийменникових конструкцій в ЛБД. Цим типам відповідає і найбільша кількість різних прийменників. У передачі просторових відношень беруть участь 60 прийменників, об'єктних - 39. До цих типів за показником частоти поширення в тексті наближаються відношення умови (можливий у випадку згоди, працювати попри труднощі), часові (побачити об одинадцятій, статися усередині вересня) та причинові (заснований на фактах, вмирати від хвороби). Разом з першими двома ці типи відношень покривають понад 50% прийменникових конструкцій у ЛБД.

Непоширеними типами відношень, кожному з яких у базі відповідає менше 2% ЗПЗ, є трансгресивні відношення (переведення в готівку, перекваліфікувати на педіатрів), функціональні (поновитися у ролі клерка, стати за старшу), партитивні (входити до складу, складатися з 120 депутатів), генеративні (кандидат від демократів, емісари з-за Бугу), атрибутивні якісні (характерний для багатьох, здатний на вбивство) та відношення призначення (конкурс для дітей, комітет у справах сім'ї).

Зіставлення прийменників із погляду їхніх потенційних можливостей виражати певні типи семантичних відношень показало, що з 185 аналізованих прийменників 136 виражають лише один тип відношень, 24 - по 2, 8 - по 3, 6 - по 4. Решта 11 прийменників виражають по 5 і більше типів відношень. Це: через, з-під (по 5 типів семантичних відношень), між (6), під (9), від, по (по 11), до (15), за, на (по 16), в/у, з (по 19).

У групі однозначних прийменників первинним є лише без (виражає об'єктні відношення). Всі інші прийменники є вторинними за походженням. Однозначні прийменники найчастіше беруть участь у вираженні просторових відношень (24,26% серед однозначних прийменників), а також відношень умови (12,5%), об'єктних (10,29%) та часових (8,09%).

У тексті кожен із виділених типів семантичних відношень реалізує, як правило, певну множину конкретних відношень залежно від семантичного стану конкретного прийменника, що визначається в тексті згідно з інтерпретацією теорії семантичних станів мовних одиниць стосовно семантики прийменника шістьма параметрами: релятивною семантикою самого прийменника (квазілексичне значення), відмінком ЗС, у керуванні яким бере участь прийменник (квазіграматичне значення), а також лексичною і граматичною семантикою ГС і ЗС. З урахуванням зазначених параметрів у межах аналізованої ЛБЗПЗ нами було виділено 131 семантичне відношення, у вираженні яких бере участь прийменник. Кожне з них у роботі описано через значення параметрів полів ЛБД щодо лексичної та семантичної інформації компонентів ЗПЗ. За відповідними даними автоматично було створено електронний семантичний словник прийменникових конструкцій, який становить собою реалізацію певної лексикографічної системи.

Відповідно до засад інформаційної теорії лексикографічних систем, розробленої В.А.Широковим Широков В.А. Інформаційна теорія лексикографічних систем. - К.: Довіра, 1998 - 331 с., структуру словникової статті V(x) семантичного словника можна представити у вигляді:

де x - реєстрова одиниця словника (прийменникова конструкція); F і C - оператори, що виділяють у тексті формальну (Л(x)) і змістову (P(x)) частини опису реєстрової одиниці х; H - оператор, який забезпечує відповідність між Л(x) та P(x); елемент Л(x) відіграє роль лівої (реєстрової), а P(x) - правої (інтерпретаційної) частини словникової статті V(x). Кожна з визначених частин, у свою чергу, поділяється на ліву та праву частину, тобто відбувається рекурсивна редукція другого порядку. Структура лівої частини набуває вигляду:

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.