Системотехніка та технологія лексикографічних систем семантичного типу

Теорія лексикографічних систем семантичного типу. Розробка та формулювання лексикографічної бази даних тлумачного Словника української мови, клієнтської програми Українського національного лінгвістичного корпусу для поповнення словника ілюстраціями.

Рубрика Коммуникации, связь, цифровые приборы и радиоэлектроника
Вид автореферат
Язык украинский
Дата добавления 29.08.2014
Размер файла 301,9 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

НАЦІОНАЛЬНА АКАДЕМІЯ НАУК УКРАЇНИ

НАЦІОНАЛЬНА БІБЛІОТЕКА УКРАЇНИ імені В.І.ВЕРНАДСЬКОГО

Автореферат

дисертації на здобуття наукового ступеня

кандидата технічних наук

Спеціальність - 05.13.06 Автоматизовані системи управління

та прогресивні інформаційні технології

СИСТЕМОТЕХНІКА ТА ТЕХНОЛОГІЯ ЛЕКСИКОГРАФІЧНИХ СИСТЕМ СЕМАНТИЧНОГО ТИПУ

ЯКИМЕНКО КОСТЯНТИН МИКОЛАЙОВИЧ

Київ - 2006

ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ

лексикографічний семантичний словник тлумачний

Останнім часом у теорії та практиці інформаційної науки все вагоміше місце займає розробка моделей, методів і технологій, орієнтованих на використання природної мови в комп'ютерних системах. За прогнозами фахівців, протягом найближчих років значна частина інформаційних технологій буде переорієнтована саме на використання природної мови. В той же час, створення інтелектуальних систем обробки інформації та інтелектуальних людино-машинних інтерфейсів без глибокого розуміння механізмів природної мови взагалі вважається немислимим. Саме тому все важливішим стає завдання розробки ефективних технологічних методів та засобів, що можуть бути застосовані при розв'язанні однієї з основних проблем лінгвотехнології - проблеми значення одиниць та конструкцій мови, тобто семантично-орієнтованих засобів обробки природномовних інформаційних масивів.

Розв'язання цього завдання у сучасній науці потребує нових підходів та способів опрацювання мовного матеріалу, оскільки у більшості лінгвістичних досліджень слово як об'єкт аналізу розглядається з позицій однієї чи двох граматичних категорій або окремих лексико-семантичних груп. При цьому обсяг досліджуваного матеріалу не завжди репрезентативний, а результати подібних досліджень фіксуються в описовій формі, не адаптованій для формалізованого аналізу й ефективного застосування у прикладних системах.

Викладене ставить перед інформаційною наукою вимогу комплексної та ефективної параметризації семантики, передусім граматичної і лексичної. Комплексність полягає у встановленні множини параметрів, які з достатньою повнотою описують семантичні властивості мовних одиниць, та визначенні суттєвих зв'язків між ними. Ефективність же вимагає, щоб, по-перше, результати було отримано на мовному матеріалі значного обсягу; по-друге, щоб було вироблено і застосовано єдині методологічні принципи класифікації матеріалу; по-третє, щоб результати представлялися в уніфікованій формі, доступній та зручній для застосування в комп'ютерних технологіях.

Прикладом семантичних досліджень, орієнтованих на комп'ютерні застосування, стали спроби автоматизованого аналізу змісту великих словників із метою виявлення в них різнопланових семантичних структур, зокрема праці під керівництвом Симмонса з аналізу структури словника Вебстера, дослідження структури та побудова семантичних мереж на основі Longman Dictionary of Contemporary English (праці Міхелса, Накамури та Нагао, Фоссена) та ін. Ці дослідження розвиваються з кінця 60-х років минулого століття. Однак, у численних спробах побудови семантичних систем на основі аналізу тлумачних словників структура словника та словникової статті розглядалися не як репрезентанти онтологічних властивостей та закономірностей мови, а скоріше як засоби для забезпечення зручності, компактності, економності і т. ін. при поданні різнохарактерної лінгвістичної інформації. Тим очевиднішим постає завдання системного осмислення та інтерпретації словникових систем абстраговано від їхнього конкретного текстового втілення. Апарат для цього надає теорія лексикографічних систем.

Тлумачні словники є джерелом величезного інформаційного ресурсу, тому не випадково багатотомні словники тлумачного типу вважаються найвищими досягненнями кожної національної лексикографії, і вони фактично набувають статусу національного надбання. Саме тому надзвичайно великого значення набуває завдання укладання нового тлумачного Словника української мови. Створення подібного продукту є надзвичайно працемістким і виступає, фактично, як основне завдання у програмі створення Національної словникової бази, що виконується за Указом Президента України від 7 серпня 1999 р. № 967. Зважаючи на перспективи застосування цього словника як основи для комп'ютерних семантичних аналізаторів природної мови, стає зрозумілим, що застосування комп'ютерних технологій для його розробки є безальтернативним.

Зауважимо, що лексикографічні системи семантичного типу покликані забезпечити ефективний інструментарій для розв'язання проблем створення інтелектуальних інформаційних систем опрацювання природної мови. При цьому такі системи повинні інтегрувати максимально повний набір семантичних відношень між елементами мови, таких як синонімія, антонімія, гіпо- та гіперонімія, фразеологічні відношення тощо. Отже, завдання створення подібних систем для української мови є актуальним. Варто додати, що воно визначається і завданнями, які випливають з постанови Кабінету Міністрів України від 02.10.03 № 1546 "Про затвердження Державної програми розвитку і функціонування української мови на 2004-2010 роки" (п. 10 "Створення і забезпечення функціонування української мови в інформаційному комп'ютерному середовищі" та п. 11 "Проведення фундаментальних і прикладних наукових досліджень у галузі лінгвістичної технології"). Викладене потребує одержання цілої низки формалізованих лінгвістичних фактів із лексичної та граматичної семантики на максимально повному мовному матеріалі, що неможливо без розробки нових лінгвістичних комп'ютерних технологій та відповідного інструментарію.

Проблемі розробки нових технологій для створення семантично-орієнтованих систем та проведення досліджень на їх основі і присвячене наше дисертаційне дослідження "Системотехніка та технологія лексикографічних систем семантичного типу".

Зв'язок дослідження з науковими програмами, планами, темами.

Результати дисертаційного дослідження одержано в процесі виконання загальнодержавної та відомчої тематики науково-дослідних робіт і рішень Уряду України, а саме:

1. Указу Президента України від 7 серпня 1999 р. № 967 "Про розвиток національної словникової бази" та розпорядження Кабінету Міністрів України від 22 листопада 2000 р. № 464-р "Про першочергові завдання із створення національної словникової бази" (завдання 2. Розроблення комп'ютерної технології та створення технологічного комплексу для укладання фундаментальної багатотомної академічної лексикографічної системи "Словник української мови").

2. Відомчих наукових тем НАН України "Україномовні лексикографічні системи" (Шифр теми: 4.19.15.) та "Дослідження мовно-інформаційних процесів та розподілених систем національної словникової бази" (Шифр теми: 0102U003221).

Мета і завдання дослідження. Метою дисертаційної роботи є розробка моделей лексикографічних систем семантичного типу, створення комп'ютерних семантично-орієнтованих систем та ефективного інструментарію для проведення досліджень на їх основі.

Досягнення цієї мети передбачає виконання таких науково-технічних завдань:

– розвинення теорії лексикографічних систем для систем семантичного типу;

– розробку концептуальних моделей, алгоритмів та програмного забезпечення автоматизованого формування лексикографічних баз даних семантичного типу;

– розробку програмно-технологічного інструментарію для укладання великих тлумачних словників, у першу чергу нового тлумачного 20-томного Словника української мови;

– розробку алгоритмів та програмних засобів автоматизованої конверсії, синтезу та інтеграції семантичних систем на основі лексикографічних баз даних тлумачного, фразеологічного, синонімічного та етимологічного типу;

– розробку та створення програмних засобів для проведення семантичних досліджень на основі лексикографічних баз даних семантичного типу.

Об'єктом дослідження є лексикографічні системи семантичного типу як необхідний компонент у людино-машинних системах.

Предметом дослідження є нові інформаційні технології розробки, укладання та ведення лексикографічних систем семантичного типу.

Методи дослідження ґрунтуються на комп'ютерному моделюванні лінгвістичних явищ. Використовується інформаційна теорія лексикографічних систем, теорія баз даних, формалізована інтерпретація мовного матеріалу та засоби його автоматичної конверсії до лексикографічних баз даних, сучасні інструментальні засоби програмування.

Наукова новизна:

– запропоновано структуру фундаментальної академічної лексикографічної системи "Словник української мови" (ЛС СУМ) та відповідної лексикографічної бази даних (ЛБД);

– розроблено системотехнічні засади фундаментальної академічної ЛС СУМ і алгоритми та структури баз даних для створення та ведення Українського національного лінгвістичного корпусу;

– на основі розвиненої концептуально-технологічної схеми запропоновано елементи технології для укладання тлумачних словників інших мов, зокрема російської;

– розроблено системотехнічні та технологічні засади для інтеграції тлумачної ЛБД із фразеологічною та синонімічною;

– створено алгоритми для підтримки комп'ютерної версії Етимологічного словника української мови й відповідний інструментальний комплекс;

– побудовано концептуальні моделі ЛБД для представлення явищ граматичної та лексичної семантики дієслова, іменника та прикметника;

– при використанні дієслівної ЛБД одержано нові класифікації українських дієслів.

Практична цінність. Застосування розроблених технологій до академічної лексикографічної проблематики дозволило одержати низку практично цінних результатів. На основі розвиненої теорії створено інструментальний комплекс укладання нового СУМа та Український національний лінгвістичний корпус, з використанням яких стало можливим створити 20-томний тлумачний Словник української мови протягом 4 років. Більше того, ЛБД СУМа та програмний комплекс було адаптовано для укладання тлумачних словників інших мов, зокрема "Словаря русского языка в четырех томах". Інтеграція ЛБД СУМа зі Словником фразеологізмів української мови дозволила значно розширити фразеологічну систему СУМа. Синонімічна інструментальна ЛБД, створена на основі Словника синонімів української мови, у сполученні з ЛБД СУМа стала основою української семантичної системи тезаурусного типу. Нова ЛБД синонімів увійшла також до складу останніх версій Інтегрованої лексикографічної системи (ІЛС) "Словники України". Етимологічна ЛБД у сполученні з інструментальним програмним комплексом стала засобом для редагування Етимологічного словника української мови, створення багатомовного індексу та проведення етимологічних досліджень. Семантичні ЛБД, побудовані на основі ЛБД СУМа, стали потужним інструментом для проведення серії лінгвістичних досліджень граматичної та лексичної семантики різних частин мови, зокрема була одержана принципово нова класифікація українських дієслів. Використання ЛБД СУМа дозволило створити систему семантичного маркування в системах опрацювання текстів, написаних природною мовою.

Особистий внесок здобувача. Всі результати дисертації, які винесено на захист, одержано автором самостійно. Їх висвітлено у наукових працях [1-12]. Конкретний особистий внесок автора в опублікованих разом зі співавторами наукових працях вказано в переліку публікацій за темою дисертації.

Апробація роботи. Основні положення та результати дисертаційного дослідження доповідалися на міжнародних та місцевих конференціях, у тому числі: ІV Міжнародній науково-технічній конференції "Електронні інформаційні ресурси: проблеми формування, збереження, обробки, поширення, захисту і використання" (Київ, жовтень 2003 р.), Міжнародній конференції "EVA 2004 Москва. Информация для всех: культура и технологии информационного сообщества" (Москва, грудень 2004 р.), численних семінарах Українського мовно-інформаційного фонду НАН України.

Публікації з теми дисертації. Результати дисертаційної праці висвітлено у дванадцяти наукових працях, серед яких колективна монографія, три самостійних статті у виданнях, що ввійшли до переліку ВАК України, два електронних видання, два авторських свідоцтва, а також тези двох міжнародних наукових конференцій.

Структура роботи. Дисертація складається зі вступу, трьох розділів основного змісту, висновків, списку використаної літератури, який містить 133 найменування, та 4 додатків. Обсяг дисертаційного дослідження без списку використаної літератури - 165 сторінок, загальний обсяг роботи (з бібліографією та додатками) - 205 сторінок.

ОСНОВНИЙ ЗМІСТ РОБОТИ

У першому розділі "Лексикографічні системи семантичного типу та їх застосування" розглянуто основні напрямки сучасної семантики та проблеми, що виникають у ході семантичних досліджень. Основою таких досліджень звичайно є тлумачні словники, що в ідеалі мають бути універсальними словниками, які з точністю могли б відобразити мовну стихію, усі розряди одиниць лексикону зі всіма їх властивостями. Традиційні паперові словники є далекими від цього ідеалу і вже не в змозі виконувати весь спектр завдань, що постає перед лексикографами. Саме тому виникає необхідність використати теорію лексикографічних систем для моделювання Л_системи тлумачного словника, а згодом і побудови його ЛБД. Згідно з цією теорією, загальна структура лексикографічної системи подається діаграмою:

де IQ(D) є класом елементарних інформаційних одиниць (ЕІО), V(IQ(D)) - множиною їх описів, а L(IQ(D)) і P(IQ(D)) - частини опису, котрі представляють відповідно форму та зміст елементів з IQ(D). Граф (2) символічно представляє процес рекурсивної редукції лексикографічної системи RRЇ[V(IQ(D))]

Застосувавши цей підхід до тлумачного Словника української мови, отримаємо таке розвинення, тобто Л-систему з класом ЕІО "СЛОВО", яка підтримує рекурсивну редукцію другого порядку:

Тут символом IW(U) позначено клас слів української мови; природною інтерпретацією структурного елемента ?0(IW(U)) виступає його інтерпретація як носія граматичної семантики, а P0(IW(U)), відповідно, лексичної семантики. Їх зв'язок і поєднання лінгвістичного об'єкта в єдине ціле забезпечує функція Н0(IW(U)). У свою чергу, структурний елемент ?0(IW(U)), розглядуваний як репрезентант граматичної семантики, набуває інтерпретації як Л-система, що підтримує відношення словозміни, словотвору (та, можливо, інші морфологічно-дериваційні відношення на рівні лексичної системи, а також, певною мірою, орфоепічні відношення - акцентуацію та вимову). У конструкції репрезентанта лексичної семантики P0(IW(U)) представлено цілу низку семантичних відношень, причому явно виділено ієрархію лексичних значень (для кожної лексеми вони зосереджені в структурному елементі LР01(IW(U)) і представлені у вигляді формул тлумачення) та відповідних мікроконтекстів (прикладів слововживань), які репрезентовано в елементах PР01(IW(U)).

Другий розділ "Системотехніка та технологія лексикографічної системи тлумачного Словника української мови" присвячено побудові моделі даних та розробці технології створення ЛБД СУМа, створенню на цій основі інструментального комплексу для використання в процесі укладання нового тлумачного Словника української мови та її адаптації до тлумачного словника російської мови.

Розглянуто структуру лівих частин словникових статей СУМа окремо для кожної частини мови та правих частин і побудовано їх концептуальні моделі. Аналіз структур правих частин P(x) словникових статей СУМа дозволив вичленити структуротвірні елементи, подані на рис. 1.

Найбільшим із них є той, що відтворює ефект багатозначності реєстрової одиниці - полісемію. Сi - це частина P(x), яка дає тлумачення і-го значення реєстрової одиниці x. У кожній рубриці Сi розташовуються ілюстрації і-го значення, тобто приклади його використання у літературному тексті, які позначаємо символом J(i, q), а також фрагменти словникової статті, які відображають її відтінки; відтінки значення Сi позначатимемо через V(i, j). До кожного відтінку може подаватися одна або кілька ілюстрацій. Символом JV(i, j, k) позначимо k-ту ілюстрацію відтінку V(i, j).

У загальному випадку до значення Сi може належати комплекс стійких сполучень слів (ССС) F(i, j). Кожне ССС з комплексу може, у свою чергу, мати декілька значень FС(i, j, k); до кожного значення подається кілька ілюстрацій J (i, j, k, m) та відтінків V (i, j, k, r), останні, у свою чергу, можуть мати по декілька ілюстрацій J FСV(i, j, k, r, l).

Рис. 1. Графічна репрезентація структури правої частини словникової статті у СУМі

Саме цю модель було взято за основу структури ЛБД електронної версії СУМа.

З метою створення ЛБД СУМа було здійснено конверсію паперового варіанту 11-томника до електронної форми. Цей етап виконувався засобами сканування та розпізнавання тексту, в результаті чого було одержано цифровий варіант тексту 11-томного СУМа. Після цього текст СУМа (9856 сторінок) було збережено в RTF-форматі та роздруковано для коректури з метою виправлення помилок, які виникли при роботі програми оптичного розпізнавання. Після подвійної коректури й внесення виправлень до електронного тексту СУМа було одержано еталонний варіант електронної версії тексту 11-томника. Останнім етапом підготовки до створення ЛБД стала конверсія з RTF-формату до HTML-формату з системою кодування Unicode засобами текстового редактора Microsoft Word.

Для забезпечення процесу автоматичної конверсії тексту СУМа до ЛБД було розроблено програмне забезпечення виділення елементів його структури відповідно до будови Л-системи та з використанням поліграфічних ознак їх текстової ідентифікації.

На рис. 2 можна побачити схему зв'язків між таблицями ЛБД СУМа. Тут наявні таблиця реєстрових слів, тлумачень, стійких сполучень слів, відтінків, формул тлумачення, ілюстрацій та інші. Як видно зі схеми, структура ЛБД досить складна, тому контроль за коректністю даних у ній передбачає серію допоміжних операцій під час додавання, видалення або модифікації записів.

Рис. 2. Схема зв'язків між таблицями ЛБД СУМа

Для редагування та перегляду ЛБД СУМа було створено інструментальний комплекс, який працює під управлінням операційної системи Microsoft Windows 2000 або Microsoft Windows XP; сама ЛБД функціонує під управлінням СУБД Microsoft SQL Server. Комплекс орієнтовано на роботу в мережевому середовищі, де багато користувачів одночасно мають доступ до ЛБД СУМа. При цьому залежно від привілеїв користувачі можуть отримувати можливість редагування статей або тільки їх перегляду. Крім того, для редагування реєстр СУМа було розбито на 9 приблизно рівних технологічних томів, за кожний з яких відповідає окремий науковий редактор, а кожний з цих томів у свою чергу поділено між 3 або 4 лексикографами. Тому було вирішено ввести діапазони редагування СУМа безпосередньо до ЛБД та створити відповідні записи для авторизації користувачів. Під час ініціалізації програма аналізує ім'я користувача і залежно від нього обмежує доступ технолога до ЛБД СУМа відповідним технологічним томом.

Програма редагування дозволяє візуалізувати представлення будь-якої словникової статті СУМа у вигляді дерева. При цьому значно спрощується доступ до структурних елементів словникової статті, а зв'язки між ними унаочнюються. Чимало допоміжних елементів словникової статті не потребують збереження в ЛБД, а створюються динамічно на етапі формування поліграфічного представлення статті. Такі автоматичні операції допомагають уникнути багатьох помилок при редагуванні словникових статей, а помилкове введення елементів, які порушують структуру словника, взагалі є неможливим. Процес редагування стає більш простим, контрольованим та уніфікованим, легко здійснюються операції додавання, вилучення та коригування окремих елементів словникових статей. Програма реалізує також низку допоміжних функцій для роботи з ЛБД СУМа: копіювання статті, встановлення ознак редагування, запис статей у файл для наступного роздруку, вибір режиму фільтрації (за частиною мови, за діапазонами редагування, за довільним запитом), переставлення елементів статті у потрібній послідовності тощо.

При укладанні нового СУМа постало завдання поповнення словника текстовими ілюстраціями, для вирішення якого було розроблено системотехнічні концепції та технологічний інструментарій Українського національного лінгвістичного корпусу (УНЛК). Основна ідея моделі УНЛК на концептуальному рівні полягає у забезпеченні автоматичного розбиття електронного тексту літературного джерела на мікроконтексти - фрагменти тексту, які групуються навколо слова, що є об'єктом лінгвістичного дослідження та інтерпретації. Програмний комплекс УНЛК виконує завдання автоматичного формування бази даних корпусу та забезпечення можливості роботи з нею. Формування ЛБД УНЛК передбачає проведення природномовної індексації текстів, під час якої відбувається виділення слів у тексті, передморфологічний аналіз та граматична ідентифікація слів з використанням спеціально розробленого граматичного словника. Також аналізується внутрішня структура тексту, тобто поділ його на розділи, абзаци і т. н.; при цьому текст повинен бути відповідним чином промаркований до початку індексації.

На виході процедури індексації отримуємо кортеж, що складається з ідентифікатора слова, індексу слова, ідентифікатора структурного елемента тексту, до якого належить слово, коду частини мови та коду граматичної категорії. Ця інформація зберігається в базі даних, яка складається з набору зв'язаних між собою таблиць (див. рис. 3).

Рис. 3. Схема зв'язків між таблицями ЛБД УНЛК

Функції індексації та перегляду, а також багато інших функцій роботи з ЛБД УНЛК можуть бути викликані через пункти меню та діалогові вікна клієнтської програми. Це - вибір файлів для індексації, вибір мови, індексація текстів у автоматичному або інтерактивному режимі, видалення проіндексованих файлів з ЛБД, запис у файл мікроконтекстів для слів або словосполучень, перегляд списку текстів, слів, індексів та мікроконтекстів, отримання статистичної інформації та інше.

На сьогоднішній день обсяг ЛБД УНЛК становить понад 35 мільйонів слововживань до приблизно 120000 реєстрових та 465000 нереєстрових слів із близько 1500 першоджерел загальним обсягом понад 550 Мб текстових файлів у кодуванні Unicode. Ця кількість продовжує збільшуватись у ході поповнення УНЛК УМІФу.

Зрозуміло, що при формуванні, поповненні та редагуванні ЛБД СУМа виникає низка помилок. Це, зокрема, помилки при розпізнаванні тексту, помилки під час конверсії розпізнаного тексту до ЛБД, помилки при редагуванні ЛБД, помилки цілісності та ін. З метою найбільш ефективного їх виправлення та уникнення типових помилок при подальшому редагуванні було проаналізовано структурні елементи словникових статей (реєстрові слова, ліві частини, формули тлумачення, ілюстрації і т. ін.) та вироблено критерії, яким повинні відповідати ці елементи при збереженні їх у ЛБД. Далі на основі цих критеріїв було розроблено засоби забезпечення коректності даних, до яких входять функції перевірки тексту, що вводиться до ЛБД, а також багатофункціональна програма тестування SUMTest. Використання цих засобів дозволило виправити в автоматизованому режимі велику кількість помилок та значною мірою уніфікувати подання структурних елементів у ЛБД СУМа.

Таким чином, розроблені ЛБД СУМа, інструментальна система її підтримки та редагування та система УНЛК дозволяють працювати над створенням нового Словника української мови значно ефективніше, ніж це було можливо при використанні тільки традиційних засобів укладання словників. Так, створення основного корпусу нового СУМа тривало лише три роки, у той час як укладання попередньої його паперової версії продовжувалося понад 30 років. При цьому кількість статей у новому словнику збільшилася на 30% і становить зараз близько 175000 реєстрових одиниць, а кількість ілюстрацій збільшилася більше ніж на 20%. Зрозуміло, що здійснити такий великий обсяг роботи за такий стислий термін без використання сучасних інформаційних технологій було б неможливо.

Зазначену технологію також було використано для створення електронної версії тлумачного словника російської мови. Це завдання спочатку постало в рамках проекту БРУС ("Большой русско-украинский словарь"), над яким УМІФ працює спільно з Інститутом російської мови ім. В.В. Виноградова РАН. Але зрозуміло, що електронний тлумачний словник і сам по собі має велику цінність. Його основою став 4-томний "Словарь русского языка", аналіз структури якого показав, що вона є подібною до структури СУМа з деякими відмінностями (що можна вважати додатковим підтвердженням наших теоретичних настанов). Отже, ЛБД та програмний комплекс редагування СУМа було розширено в такий спосіб, щоб зробити їх придатними для роботи з російським словником. Сформована з використанням розробленої технології, ЛБД цього словника налічує понад 83000 словникових статей.

У третьому розділі "Технологічні аспекти інтеграції лексикографічних систем семантичного типу та їх застосування у семантичних дослідженнях" розглянуто Л-системи, побудовані на основі різних семантичних відношень, технології створення ЛБД для них та аспекти інтеграції таких ЛБД із тлумачною ЛБД.

У першому підрозділі розглянуто технологію інтеграції СУМа та Словника фразеологізмів української мови (СФУМ) з метою отримання максимально повної та коректно побудованої підсистеми стійких сполучень слів. Для виконання цього завдання було побудовано концептуальну модель даних Л-системи СФУМа і на цій основі розширено ЛБД СУМа. Після цього було розроблено алгоритм конверсії тексту та індексу СФУМа до новостворених ЛБД.

Для інтеграції ЛБД СФУМа з ЛБД СУМа з першої було виокремлено реєстр підсистеми стійких сполучень слів (ССС), порівняно з фразеологічним реєстром та виявлено тотожні елементи. Крім того, підсистему ССС СУМа було переформовано, зокрема перевизначено опорні слова, відсилкові слова та типи ССС. З цією метою у дисертації було створено спеціальний програмний інструментарій, який забезпечив автоматизацію цього процесу. Отриману в такий спосіб підсистему було інтегровано з ЛБД СФУМа, в результаті чого тлумачний словник поповнився великою кількістю фразеологізмів (зараз він налічує більше 23000 тлумачних ССС-комплексів), а подання наявних у ньому стійких словосполучень стало більш коректним та систематизованим.

У другому підрозділі розглянуто принципи інтеграції СУМа та Словника синонімів української мови (ССУМ), що необхідно для побудови систем тезаурусного типу. Оскільки відношення синонімії є базовим для таких систем, їх створення потрібно розпочинати з виділення в мові синонімічних рядів - синсетів. Для цього було використано електронний словник синонімів, який базується на двотомному фундаментальному ССУМі. У дисертації проведено аналіз його структури, результатом чого стала побудова нової ЛБД ССУМа, де кожний синонім утворює окремий запис, але при цьому групується в синсет з іншими синонімами.

ЛБД ССУМа було використано для реалізації функції синонімії в ІЛС "Словники України" (версії 1.03 та наступних), завдяки чому вона набула більш коректної внутрішньої структури та стала зручнішою у використанні (зазначену систему було використано також і у відповідній словниковій системі Українського лінгвістичного порталу http://ulif.org.ua). У цьому ж підрозділі описано інструментальний комплекс ССУМ, який інтегровано з тлумачною Л-системою, що дозволяє встановлювати зв'язки між синонімами або синсетами та тлумаченнями в СУМі. Визначення таких зв'язків на всьому масиві зазначених ЛБД породжує семантичну Л_систему з повністю реалізованим відношенням синонімії між її елементами.

Третій підрозділ присвячено технології створення комп'ютерної версії Етимологічного словника української мови (ЕСУМ), однією з визначальних рис якого є багатомовність. Л-систему цього словника було проаналізовано та побудовано структуру ЛБД ЕСУМа (рис. 4).

Рис. 4. Схема зв'язків між таблицями ЛБД ЕСУМа

Автором було розроблено програму конверсії тексту ЕСУМа до ЛБД та створено програмний комплекс редагування ЛБД ЕСУМа. Він дає можливість легко отримувати доступ до будь-якого структурного елемента словника, додавати, вилучати та редагувати його елементи, а також візуалізувати словникові статті у форматі, наближеному до поліграфічного, та будувати до них багатомовний індекс.

ЛБД СУМа також стала матеріалом для проведення різноманітних семантичних досліджень. На її основі були створені ЛБД дієслів, аналіз яких дав можливість сформулювати три аксіоми, що є фундаментальними для українських дієслів та дозволяють побудувати їх класифікацію залежно від структури лівих частин словникових статей СУМа. Теоретично було підраховано, що максимально можлива кількість таких класів становить 7140. Проведений обчислювальний експеримент на масиві дієслів СУМа дозволив встановити, що тільки 52 з них реалізовані в наявному корпусі СУМа (на масиві понад 43 тисячі дієслів), причому кожен з цих класів узгоджується з розвиненою теорією. Цей результат є значним підтвердженням того, наскільки потужний інструмент являє собою семантична лексикографічна система, збудована на основі СУМа. Аналогічні ЛБД створено для іменника та прикметника.

ВИСНОВКИ

У ході дисертаційного дослідження розв'язано ряд актуальних науково-технічних проблем української лінгвістичної технології та отримано низку практично цінних результатів.

Так, у дисертації побудовано лексикографічну модель даних для тлумачних словників, яка при застосуванні принципу рекурсивної редукції Л-системи дозволила вичленити у їх структурі основні структуротвірні елементи. У такий спосіб теорію лексикографічних систем розвинено для систем семантичного типу, що надає можливість для побудови універсального словника, в якому зафіксована максимальна лексична система.

З використанням розвиненої теорії розроблено концептуальну модель Л-системи тлумачного Словника української мови, на основі якої створено структуру ЛБД цього словника. Розроблено технологію, яка дозволила в автоматизованому режимі сформувати цю ЛБД на основі тексту 11-томного СУМа. Зауважимо, що етап виокремлення структурних елементів у розпізнаному та відредагованому тексті словника та рознесення їх до відповідних полів ЛБД виконувався цілком автоматично засобами розробленого програмного забезпечення.

Для укладання нового тлумачного Словника створено технологічний інструментальний комплекс, який дає можливість редагувати будь-які структурні елементи у ЛБД СУМа. Також створено ЛБД Українського національного лінгвістичного корпусу та програму роботи з нею, яка значно прискорила процес поповнення СУМа текстовими ілюстраціями. Таким чином, розроблений у ході дисертаційного дослідження технологічний комплекс дозволив створити новий 20_томний тлумачний Словник української мови всього за 4 роки. Крім того, на основі розвиненої технології ЛБД СУМа розширено, щоб забезпечити підтримку електронних тлумачних словників будь-якої мови, якщо їх структура є подібною до структури СУМа. Зокрема, розроблену технологію адаптовано для укладання російського тлумачного словника й створено відповідний інструментальний комплекс.

У дисертації також розроблено методи та засоби формування інших ЛБД семантичного типу на основі текстів, отриманих з паперових словників. Сформовано фразеологічну ЛБД на основі Словника фразеологізмів української мови, синонімічну ЛБД на основі Словника синонімів української мови та етимологічну ЛБД на основі Етимологічного словника української мови. Для ЛБД СФУМа розроблено технологію автоматизованої інтеграції з ЛБД СУМа, використання якої привело до впорядкування підсистеми стійких сполучень слів СУМа та поповнення СУМа значною кількістю фразеологізмів. Засоби інтеграції синонімічної та тлумачної ЛБД дали можливість побудувати систему тезаурусного типу для української мови. Для синонімічної та етимологічної ЛБД також розроблено відповідні програмні комплекси їх редагування.

ЛБД СУМа було використано для створення ЛБД “Дієслово". Ці ЛБД разом з розробленими програмними засобами зарекомендували себе як потужні інструменти для проведення лінгвістичних досліджень. З використанням ЛБД “Дієслово" одержано нові дані про структуру граматичної та лексичної семантики українського дієслова, зокрема нова фундаментальна класифікація українських дієслів, а також побудовано нові типи словників.

Результати дисертаційної роботи дозволяють стверджувати, що створено концептуальну та технологічну основу систем автоматичного семантичного маркування природномовних текстів, що відкриває перспективи для розробки інтелектуальних семантичних механізмів пошуку, розуміння та діалогу на рівні неструктурованої (текстової) інформації.

ПУБЛІКАЦІЇ З ТЕМИ ДИСЕРТАЦІЇ

1. Рабулець О.Г., Сухарина Н.М., Широков В.А., Якименко К.М. Дієслово в лексикографічній системі. - К.: Довіра, 2004. - 259 с. (особистий внесок: розроблено програмне забезпечення для формування ЛБД "Дієслово" на основі формальної структури ЛС СУМ, створено ЛБД для представлення граматичної та лексичної семантики дієслів української мови, створено алгоритм для автоматичного визначення сигнатурного типу лівих частин словникових статей).

2. Якименко К.М. Комп'ютерний інструментарій лексичного картографування // Реєстрація, зберігання і обробка даних. - 2003. - Т. 5. - № 4. - С. 72-80.

3. Якименко К.М. Комп'ютерна технологія укладання лексикографічної системи "Словник української мови" // Проблемы программирования: Сб. науч. тр. - К., 2004. - № 1. - С. 24-37.

4. Якименко К.М. Загальні принципи організації та побудови української системи WordNet // УСиМ: Управляющие системы и машины. - К., 2005. - № 1. - С. 55-68.

5. Широков В.А., Рабулець О.Г., Шевченко І.В., Костишин О.М., Якименко К.М. Технологічні основи сучасної тлумачної лексикографії // Мовознавство. - 2002. - № 6. - С. 49-86. (особистий внесок: розроблено та сформовано ЛБД СУМа, розроблено програмне забезпечення технологічного комплексу ЛС СУМ та УНЛК).

6. Широков В.А., Сухарина Н.М., Якименко К.М. Лексикографічна система як джерело лінгвістичних класифікацій // Вісник Київського лінгвістичного університету. Серія "Філологія". Т. 6. - № 2. - 2003. - С. 43-53. (особистий внесок: створено ЛБД для представлення граматичної семантики дієслів української мови, розроблено алгоритм для автоматичного визначення сигнатурного типу лівих частин словникових статей).

7. Широков В.А., Рабулець О.Г., Шевченко І.В., Костишин О.М., Якименко К.М. Свідоцтво про реєстрацію авторського права на твір № 14593 "Комп'ютерна програма "Інтегрована лексикографічна система "Словники України" (ІЛС "Словники України") версія 1.3". - 2005. (особистий внесок: розроблено алгоритм індексування словникових статей та сформовано ЛБД, яка реалізує функцію синонімії).

8. Широков В.А., Рабулець О.Г., Шевченко І.В., Костишин О.М., Якименко К.М. Свідоцтво про реєстрацію авторського права на твір № 14594 "Комп'ютерна програма "Інтегрована лексикографічна система "Словники України" (ІЛС "Словники України") версія 1.4". - 2005. (особистий внесок: розроблено алгоритм індексування словникових статей та сформовано ЛБД, яка реалізує функцію синонімії).

9. Широков В.А., Рабулець О.Г., Шевченко І.В., Костишин О.М., Якименко К.М. Інтегрована лексикографічна система "Словники України", версія 1.03. Електронне видання на лазерному диску. ISBN 966-507-149-1. - К., 2003. (особистий внесок: розроблено алгоритм індексування словникових статей та сформовано ЛБД, яка реалізує функцію синонімії).

10. Широков В.А., Рабулець О.Г., Шевченко І.В., Костишин О.М., Якименко К.М. Інтегрована лексикографічна система "Словники України", версія 1.04. Електронне видання на лазерному диску. ISBN 966-507-166-1. - К., 2004. (особистий внесок: розроблено алгоритм індексування словникових статей та сформовано ЛБД, яка реалізує функцію синонімії).

11. Якименко К.Н. Виртуальные лексикографические системы // Электронные информационные ресурсы: проблемы формирования, хранения, обработки, распространения, защиты и использования - 2003: Материалы ІV Международной науч.-технич. конф. - К.: УкрИНТЭИ, 2003. - С. 47-49.

Размещено на Allbest.ru

...

Подобные документы

  • Вибір можливих варіантів типу кабелю та цифрових систем передач. Визначення приналежності до типу телекомунікаційної мережі. Алгоритм розрахунку кількості обладнання. Розрахунок капітальних витрат та вибір найкращого варіанту схеми організації зв'язку.

    курсовая работа [1,0 M], добавлен 17.12.2012

  • Розробка програми використання метода Гаусса для ПЕОМ типу PC з операційною системою Windows. Програма розроблена за допомогою мови програмування Object Pascal в середовищі Delphi – для операційної системи Windows 9x-XP. Алгоритм роботи програми.

    курсовая работа [244,0 K], добавлен 27.02.2009

  • Классификация акустических локационных систем по назначению и типу первичного преобразователя, по характеру частотного спектра сигнала, по типу модулирующего воздействия, по избирательности. Область применения датчиков локации. Алгоритм идентификации.

    курсовая работа [2,2 M], добавлен 11.08.2010

  • Особливості аналогових і цифрових систем в телекомунікаційних системах зв’язку (комутації). Розробка структурної схеми МТМ. Розрахунок інтенсивності телефонного навантаження. Визначення кількості з’єднувальних ліній і групового тракту між станціями.

    курсовая работа [639,8 K], добавлен 18.08.2014

  • Проектування модулів пам’яті загальною ємністю 22 Кбайти на м/с КР537РУ2А та К573РФ2. Розробка схеми центрального процесору на ОМК MCS-51 відповідно до типу пам’яті. Створення програми на асемблері, яка виводить цифру 5 на знакосинтезуючий індикатор.

    курсовая работа [1,7 M], добавлен 09.11.2011

  • Технічні засоби міжконтролерного обміну інформацією з визначенням та виправленням помилок: принципи утворення коду, структурна, функціональна та принципова схеми контролера. Обґрунтування вибору елементної бази та мови програмування, розробка програми.

    курсовая работа [1,9 M], добавлен 19.01.2010

  • Синтез двокаскадного комутаційного блоку, схема включення точки комутації багатократного координатного з'єднувача. Проектування міської телефонної мережі, що складається з чотирьох районних АТС, в яку ввімкнено координатну підстанцію типу ПСК-1000К.

    курсовая работа [1,9 M], добавлен 05.02.2015

  • Синтез двокаскадного комутаційного блока, його структурні параметри. Зображення функціональної схеми з'єднувального тракту зв'язку абонентів. Зображення схеми комутаційного блоку типу ПВПВ. Ємності та діапазони номерів всіх станцій, включених в МсТМ.

    курсовая работа [2,6 M], добавлен 06.11.2016

  • Пристрої захисту офісу. Аналіз мікропроцесорних охоронних датчиків. Апаратна частина та принципова схема. Вибір типу контролера, наведення його технічних характеристик. Підбір елементів схеми, калькуляція виробу. Вибір середовища та мови програмування.

    курсовая работа [982,3 K], добавлен 15.02.2012

  • Назначение и применение сигнализации для обмена служебной информацией между абонентами, коммутационными узлами, станциями сети электросвязи. Классификация и типы сигнализации. Анализ блоков станции, участвующих в работе сигнализации по типу 2 ВСК.

    лабораторная работа [826,4 K], добавлен 15.07.2009

  • Методи векторної та скалярної оптимізації широко використовуються при проектуванні систем і мереж зв’язку. Розгляд деяких прикладів, що іллюструють осбливості застосування методів оптимізації при отриманні оптимальної структури і параметрів даних систем.

    реферат [125,2 K], добавлен 13.02.2011

  • Система реєстрації даних як високопродуктивний обчислювач з процесором або контролером, накопичувачем інформації й інтерфейсом зв'язку. Розробка функціональної схеми й вибір елементної бази. Аналіз принципової електричної схеми. Економічні розрахунки.

    дипломная работа [694,4 K], добавлен 20.02.2011

  • Преимущества третьего класса систем сигнализации ОКС №7, принцип его работы и составные части. Основы системы общеканальной сигнализации №7, ее функциональные уровни и режимы. Схема централизованной системы сигнализации по общему каналу и маршрутизации.

    лабораторная работа [778,0 K], добавлен 15.07.2009

  • Синтезування синхронного двійково-десятковий лічильник, на основі одного тригера D-типу і трьох тригерів JK-типу, які працюють в коді з вагою розрядів 6-2-2-1. Діаграми Вейча для функцій входів тригерів. Моделювання схеми лічильника у середовищі "OrCAD".

    курсовая работа [198,7 K], добавлен 13.05.2011

  • Розрахунок і розробка топології і конструкції функціональних вузлів радіоелектронної апаратури (РЕА) у виді гібридних інтегральних схем (ГІС) і мікро збірок (МЗБ). Визначення розмірів плати. Вибір матеріалу, розрахунок товстоплівкових резисторів.

    курсовая работа [571,9 K], добавлен 27.11.2010

  • Проведення аналізу особливостей функціонування багатоконтурних систем з ЗВЗ. Розробка методики вибору параметрів завадостійких кодів в кожному контурі. Обґрунтування кількості контурів в системах передачі даних. Аналіз числових параметрів ефективності.

    дипломная работа [3,2 M], добавлен 19.09.2011

  • Вибір проміжної частоти і типу підсилювача проміжної частоти. Розрахунок смуги пропускання радіоприймального пристрою та розподілу її між окремими блоками. Розрахунок граничної чутливості радіоприймального пристрою та вибір типу схеми перших каскадів.

    курсовая работа [222,6 K], добавлен 21.05.2014

  • Основні види і параметри цифрових осцилографів. Вимірювання за допомогою цифрового осцилографа GDS-840С. Архітектура послідовної обробки вхідних сигналів. Вдосконалення існуючої методики випробування цифрового запам’ятовуючого осцилографа типу GDS-840С.

    дипломная работа [796,4 K], добавлен 20.06.2014

  • Огляд сучасних систем телемеханіки та їх елементної бази. Розробка передавального напівкомплекту кодоімпульсної системи телемеханіки та принципової електричної схеми, розрахунок параметрів аналого-цифрового перетворювача, побудова діаграми роботи.

    курсовая работа [217,0 K], добавлен 28.09.2011

  • Критична довжина і критична частота основного типу хвиль коаксіального кабелю. Залежність групової швидкості від частоти. Визначення критичної довжини хвилі і критичної частоти основного типу хвиль прямокутного хвилеводу з певним поперечним перерізом.

    контрольная работа [508,9 K], добавлен 05.05.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.