Ідентифікація екологічного знання в автоматизованих інформаційно-бібліотечних системах

Дослідження семантичної структури предметної галузі комплексу екологічних дисциплін. Розробка та обґрунтування формалізованої моделі процесу ідентифікації змістовних ознак екологічних лінгвістичних об’єктів на основі методу компараторної ідентифікації.

Рубрика Программирование, компьютеры и кибернетика
Вид автореферат
Язык украинский
Дата добавления 29.04.2014
Размер файла 80,8 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Міністерство освіти і науки України

Херсонський державний технічний університет

УДК 004.9:[02+504]

Автореферат

дисертації на здобуття вченого ступеня кандидата технічних наук

Ідентифікація екологічного знання в автоматизованих інформаційно-бібліотечних системах

05.13.06. - Автоматизовані системи управління та прогресивні інформаційні технології

Єлісєєв Віктор Валентинович

Херсон 2002

Загальна характеристика роботи

Актуальність теми. Сучасний стан розвитку автоматизованих інформаційних систем та їх широке впровадження визначають ефективні засоби вирішення проблемних питань у різних галузях. Однією з найбільш актуальних сучасних проблем є погіршення стану навколишнього середовища. Відкритий і швидкий доступ до інформації, що стосується довкілля, є основою належного рівня екологічної безпеки і гарантується міжнародним і національним законодавством.

Велику роль в забезпеченні інформаційних потреб різних груп населення відіграють бібліотеки. Їх функції в сучасних умовах трансформуються через підвищення загального рівня автоматизації і зростання кількості електронних видань. Концепція електронних бібліотек втілюється в багатьох країнах на національному рівні. Бібліотеки інтегрують ресурси Інтернет як на рівні електронних каталогів, так і повнотекстових баз даних (ПТБД).

Значний науковий і теоретичний внесок в розвиток галузі автоматизації доступу до інформації в бібліотеках зроблений: Ф.С. Воройським, Р.Т. Гарбором, Л.Й. Костенком, Дж. Солтоном, Я.Л. Шрайбергом та іншими.

Ефективність аналітико-синтетичної обробки документів і інформаційне забезпечення потреб користувачів у галузі екології та охорони навколишнього середовища утруднені через складність комплексу екологічних дисциплін, велику кількість джерел, відсутність адекватних інформаційно-пошукових мов. Вирішення цієї проблеми полягає в підвищенні ефективності пошуку введенням до автоматизованої інформаційно-бібліотечної системи (АІБС) додаткових засобів автоматичної обробки, побудованих на основі алгоритмів, що моделюють роботу фахівців і враховують структуру предметної галузі.

Значний внесок у вивчення міждисциплінарної структури екологічного наукового знання зроблений фахівцями у цій предметній галузі: Ю. Одумом, Н.Ф. Реймерсом, И.И. Дедю, А.М. Гиляровим, Г.М. Білявським та іншими, колективами укладачів бібліотечно-бібліографічних класифікацій, рубрикаторів і класифікаторів.

Аналітико-синтетична обробка екологічних текстів є складним і наукомістким процесом, який вимагає від суб'єктів вичерпного розуміння особливостей структури предметної галузі і високого рівня спеціальних предметних знань, залучення колективу бібліотечних фахівців із різною предметною спеціалізацією. Її автоматизація є ефективним шляхом вирішення цієї проблеми. Інтеграція до АІБС спеціальних засобів на основі математичних алгоритмів ідентифікації наукового знання разом із використанням відповідного лінгвістичного забезпечення надає можливості практично реалізувати моделі професійної поведінки експертів. Розробка таких алгоритмів передбачає дослідження і моделювання інтелектуальних процесів.

Важливий внесок у розвиток теорії і практики алгоритмічного моделювання функцій інтелекту і властивих йому процесів зробили: Т. Виноград, Д. Мінськи, Д.О. Поспєлов, Н. Хомський, Р. Шенк та інші науковці. Вітчизняна наукова школа проф. Ю.П. Шабанова-Кушнаренка розробила напрямок, який отримав назву теорії інтелекту. В його межах вирішуються завдання моделювання й автоматизації функцій інтелектуальної діяльності. Теорія інтелекту дає ефективний математичний апарат опису інтелектуальних процесів.

Розв'язаня вказаної проблеми передбачає ґрунтовне вивчення структури предметної галузі й особливостей поведінки досвідчених фахівців, розробку необхідного математичного, лінгвістичного та програмного забезпечення відповідних підсистем АІБС.

Зв'язок роботи з науковими програмами, планами, темами. Робота виконувалась на кафедрі екології Миколаївської філії Національного університету "Києво-Могилянська Академія" в період з 1998 по 1999 роки за планом науково-дослідної роботи в межах наукової теми "Розробка автоматизованої навчальної інформаційної системи з екології". Робота була закінчена в термін з 2000 по 2002 р.р на кафедрі інформаційних технологій і документознавства Харківського гуманітарного інституту "Народна українська академія", в межах комплексної наукової теми кафедри "Дослідження актуальних проблем побудови інтелектуальних систем". Алгоритми аналізу текстів були використані під час виконання держбюджетної теми Міністерства оборони "Корекція-А" Харківського військового університету. Частина досліджень, що стосується аналізу предметної галузі, була виконана в межах плану науково-дослідних робіт кафедри комп'ютерних технологій МФ НаУКМА за темою "Аналіз сучасних інформаційних технологій в бібліотечній справі та розробка системи автоматизації бібліотечної і інформаційної діяльності (САБІД)" (ДР № 0198U5007814 від 10.12.1998).

Мета і завдання дослідження. Метою дисертаційної роботи є розв'язання проблеми автоматичної ідентифікації екологічних текстів у складі баз даних автоматизованих інформаційних бібліотечних систем, на основі застосування формальних моделей їх інтелектуального аналізу фахівцями у предметній галузі і суб'єктами аналітико-синтетичної обробки документів, для здійснення тематичного і семантичного пошуку.

Для досягнення мети дослідження були вирішені наступні завдання:

1. Досліджено семантичну структуру предметної галузі комплексу екологічних дисциплін і визначено особливості їх застосування в процесі аналітико-синтетичної обробки екологічних текстів.

2. Побудовано формалізовану модель процесу ідентифікації змістовних ознак екологічних лінгвістичних об'єктів на основі методу компараторної ідентифікації.

3. На основі вивчення лінгвістичних особливостей екологічних текстів розроблено методику та математичні засоби їх лексико-семантичного аналізу.

4. Розроблено методику автоматичної побудови семантичної мережі спеціалізованого багатомовного тезаурусу, систематизації текстів ПТБД і пошуку в множині текстів, релевантних запиту користувача, який виражено обмеженою природною мовою.

5. Реалізовано розроблені методи у вигляді програмних процедур і визначено можливі схеми реалізації розроблених формальних алгоритмів у вигляді модулю, який інтегрований у підсистему каталогізації і користувальницького доступу існуючої АІБС, а також в пошукову систему на основі HTTP-серверу.

Об'єкт дослідження - автоматизовані інформаційно-бібліотечні системи, призначені для аналітико-синтетичної обробки екологічних текстів.

Предмет дослідження - моделі й алгоритми інтелектуальних процесів ідентифікації змісту текстів екологічної спрямованності, їх аналітико-синтетичної обробки і пошуку в їх масивах.

Методи дослідження. Аналіз і моделювання інтелектуальних процесів базується на методах компараторної ідентифікації лінгвістичних об'єктів, алгебри скінченних предикатів, математичної статистики, теорії множин, теорії графів, лінгвістичного аналізу.

Наукова новизна одержаних результатів. У процесі розв'язання завдань, згідно мети отримано такі результати:

- запропоновано оригінальний метод аналізу структури міждисциплінарної галузі знання комплексу екологічних дисциплін, який оснований на властивостях екологічної інформації;

- обґрунтовано використання методу компараторної ідентифікації екологічних текстів і розроблено формальний апарат опису процесу їх аналізу на основі моделі предметної галузі;

- вперше сформульовано алгоритм автоматичної побудови спеціалізованого тезаурусу на основі ознак галузевої належності дескрипторів;

- розроблено формальні алгоритми і реалізовано процедури автоматичної індексації і предметизації сукупності екологічних текстів в АІБС із врахуванням стилістичних особливостей їх графемної структури, ідентифікації їх позиції в ієрархічній структурі динамічної класифікаційної системи, що об'єктивно відображає предметну галузь, яка представлена текстами у складі АІБС.

Наукова новизна полягає в забезпеченні можливості використання розроблених моделей для автоматичної аналітико-синтетичної обробки підмножини текстів в АІБС, що неможливо було ефективно зробити із використанням традиційних методів. Розроблений метод формалізації структури складної міждисциплінарної галузі комплексу екологічних дисциплін також може бути застосований до інших міждисциплінарних галузей наукового знання.

Практичне значення отриманих результатів. Розроблені алгоритми дозволяють значно підвищити ступінь автоматизації аналітико-синтетичної обробки текстів екологічної спрямованості. Реалізовано методи автоматичної побудови семантичної мережі тезаурусу, реферування, індексації, побудови динамічної класифікації предметної галузі комплексу екологічних дисциплін, систематизації і пошуку екологічних текстів.

Практичні результати дисертаційних досліджень було використано для покращення автоматизації аналітико-синтетичної обробки підфонду текстів екологічної спрямованості у науково-методичному відділі Центральної наукової бібліотеки Харківського національного університету ім. В.Н.Каразіна і в Харківському науковому інформаційно-бібліотечному центрі ветеринарної медицини. Вони також були використані для удосконалення аналітико-синтетичної обробки екологічних текстів в бібліотеці і на кафедрі екології Миколаївської філії Національного університету "Києво-Могилянська Академія". Окрім цього, результати роботи були використані при виконанні науково-дослідних робіт за темою "Корекція - А" в Харківському військовому університеті. Практичне впровадження підтверджено документально.

Теоретичні наукові положення, результати аналізу семантики предметної галузі і особливостей її лінгвістичних об'єктів використані у навчальному процесі у МФ НаУКМА при розробці навчально-методичних комплексів і змісту курсів "Банки екологічної інформації", "Системи екологічної інформації", "Іноземна екологічна інформація", "Екологічні інформаційні технології", а також частково - при розробці курсу "Біометрія" і підготовці навчального посібника "Біометрія".

Особистий внесок здобувача. Всі результати дослідження отримані автором самостійно. В роботі, що була виконані у співавторстві, дисертантом особисто:

- розроблено формальний опис структури екологічного тексту;

- запропоновано модель аналізу предметної галузі на основі виділення сукупності пов'язаних дисциплін;

- обґрунтовано використання методу компараторної ідентифікації для моделювання інтелектуальної обробки екологічних текстів і розроблено відповідний математичний апарат;

- запропоновано систему ознак галузевої належності дескрипторів.

- розроблено і програмно реалізовано моделі підсистем автоматичного реферування, індексації, систематизації і предметизації екологічних текстів в АІБС.

Апробація результатів дисертації. Результати досліджень оприлюднено на:

1. Науково-методичних конференціях "Могилянські читання", Миколаїв, 1999 - 2002;

2. Наукових семінарах з екології МФ НаУКМА, Миколаїв, 1998 - 2000;

3. Міжнародній конференції "Лісотехнічна освіта і наука в контексті проблем довкілля і розвитку: стратегія на ХХІ століття", Львів, 1999;

4. Шостій щорічній науковій конференції "Україна: людина, суспільство, природа", Київ, 2000;

5. Науково-практичній конференції "Проблеми розвитку культури Миколаївської області", Миколаїв, 2000;

6. Науково-практичній конференції "Атомна промисловість: точка зору молодих науковців", м. Южноукраїнськ, 2000;

7. Науково-практичній конференції "Інноваційні методи в екологічній освіті", Харків, 2000.

Публікації. Основні положення дисертації опубліковані в 8 друкованих наукових роботах, з них 7 статей у наукових збірках і 1 тези доповіді.

Структура і обсяг роботи. Дисертаційна робота складається із вступу, чотирьох розділів, заключення, списку літератури з 114 найменувань, чотирьох додатків; включає 10 рисунків. Загальний обсяг роботи складає 157 сторінок, в тому числі 124 сторінки основного тексту.

Основний зміст роботи

автоматизована інформаційно бібліотечна система

У вступі обґрунтована актуальність дисертаційної роботи, сформульовані основна мета і завдання дослідження, наведені відомості про зв'язки досліджень із науковими програмами, планами і темами, висвітлено наукову новизну одержаних результатів, їх практичне значення та впровадження результатів дослідження.

У першому розділі проведено аналіз проблеми і постановку завдань дослідження. Описано сучасний стан автоматизації спеціальних і наукових бібліотек, новітні підходи в цій галузі і головні тенденції її розвитку. Визначено місце і роль інформаційно-пошукових засобів АІБС в аналітико-синтетичній обробці екологічної інформації. Показано, що аналітико-синтетична обробка масивів таких текстів є складним наукомістким процесом, який вимагає залучення знань значної кількості фахівців із різною фаховою підготовкою.

Автоматизація аналізу і пошуку екологічних текстів утруднена через відсутність релевантних інформаційно-пошукових засобів, що в значній мірі обумовлено методологією цієї галузі знання. Розповсюджені АІБС не підтримують автоматизовану аналітико-синтетичну обробку фондів екологічних текстів, що проявляється в структурі їх лінгвістичного забезпечення. В той же час алгоритми аналізу екологічних текстів передбачають використання (в межах методики спеціальної систематизації) експертного знання про структуру предметної галузі, сукупності пов'язаних понять різних наукових дисциплін, а також прийняття класифікаційного рішення на основі виявлення семантичних зв'язків між окремими смисловими елементами текстів.

Розглянуто можливості використання різних видів інформаційно-пошукових мов для ідентифікації екологічного знання в ПТБД АІБС і обґрунтовано необхідність застосування більш ефективних засобів для відображення структури предметної галузі. Напрямком дослідження було обрано створення надійних і точних засобів ідентифікації екологічного знання в АІБС.

У розділі проаналізовані джерела екологічної інформації та перетворення, яких вона зазнає під час проходження по інформаційних комунікаціях. Екологія як наука спирається в плані постачання наукових відомостей про окремі системоутворюючі об'єкти на інформацію, яка отримана дослідниками інших наукових напрямків. Отже, існує коло наукових дисциплін, які пов'язані з екологією такого роду інформаційними відношеннями.

У другому розділі розроблені математичні засоби формалізації екологічної інформації в АІБС. У якості методологічної основи побудови математичних моделей використано формальну мову алгебри скінченних предикатів і теорію компараторної ідентифікації лінгвістичних об'єктів, розвинутої на її базі.

Аналіз проблеми дозволив визначити сукупність множин, що є базовими для побудови моделей із використанням методу компараторної ідентифікації: текстів у складі ПТБД АІБС:

ключової термінології предметної галузі:

,

дисциплін предметної галузі:

.

Для кожної пари елементів і є осмисленим предикат P(ti, kj)=, ={0,1}, що виражає здатність лексичної одиниці предметної області описувати зміст конкретного тексту. При його автоматичному визначенні на множинах Т і К предикат буде для одних і тіх же і постійно приймати однакові значення.

Міждисциплінарний характер предметної галузі обумовлює складну тематичну структуру множини текстів. Спостерігається стійка тенденція до використання в них термінологічних одиниць із складу тезаурусів різних наукових дисциплін, які є джерелами інформації про природні об'єкти і закономірності фізичного світу. Виділення множини D цих дисциплін і напрямків досліджень дозволяє виявити лексико-семантичну структуру предметної галузі і формально описати процес ідентифікації змісту екологічного тексту. На добутку множин KxD введений предикат P(kj, dh)=, ={0,1}, що описує належність дескрипторів kj до тезаурусів дисциплін dh. Визначення значення предикату P(kj, dh) для всіх пар елементів множин ставить у відповідність кожному елементові множини D певний набір дескрипторів.

Ключові терміни у складі тексту можуть виконувати функцію індикаторів наявності ознак елементів множини D у текстах з множини T. На основі входження ключових термінів до тексту можливо встановити сукупність всіх dh, що пов'язані з ним. Показник частотності ключових термінів із врахуванням графемного статусу даної лексичної одиниці в тексті дозволяє визначити сумарну вагу для кожного dh.

Операція сортування елементів dh за спаданням значення їх ваги ставить у відповідність кожному тексту впорядковану послідовність

Вона інтерпретується як встановлення множини логічних значень тематично-текстового предикату:

. (1)

Ця послідовність відбиває загальну тематику тексту таким чином, що чисельно визначає співвідношення окремих семантичних компонентів тексту. Аналогом цієї процедури при виконанні аналітико-синтетичної обробки суб'єктом є пошук складеного класифікаційного індексу для тексту із невизначеною галузевою або тематичною належністю.

Існування можливості визначити індекс тексту свідчить про те, що цей текст знаходиться в межах предметної галузі комплексу екологічних дисциплін. Предикат (1) задає структуру семантичних відношень на множині текстів і визначає формальний вигляд відношення еквівалентності Ф між будь-якими двома семантично близькими текстами таким чином, що:

. (2)

Відношення Ф визначає розбивку множини Т на шари умовної еквівалентності, якими представлені семантично близькі тексти, і задає на декартовому добутку TxT предикат . Аналогічно, на множині всіх індексів визначене відношення еквівалентності Y:

, (3)

яке задає на множині всіх індексів предикат , що визначає розбивку множини на шари еквівалентних індексів.

Предикати , , дозволяють виконати логічну і математично обґрунтовану класифікацію сукупності текстів міждисциплінарної галузі знання. Кожному класу всіх текстів, виділених при розбивці множини Т, умовно еквівалентних тексту , відповідає предикат , який задає відношення:

. (4)

Кожному класу всіх послідовностей, виділених при розбивці множини , умовно еквівалентних послідовності , відповідає предикат , який задає відношення:

. (5)

Існує сюр'єкція , яка відображає множину класів умовно еквівалентних текстів на множину груп умовно еквівалентних індексів. Таким чином, індекси виступають у ролі імен шарів розбивки .

Застосування алгоритму систематизації розглянуто в роботі на прикладі вибірки текстів (i=10) і ключових термінів (j=10), що відносяться до предметної галузі. Отримано множину шарів умовної еквівалентності текстів, які виражаються через диз'юнктивну форму тематично-текстового предикату і множину шарів умовно еквівалентних індексів , що виступають як ідентифікатори або класи текстів.

Предметизація текстів полягає в відображенні змісту тексту через присвоєння йому сукупності предметних рубрик. Зміст тексту t визначає його предмет :

= g(t), , (6)

де T - множина всіх предметів текстів з множини T. Значення предикату визначається не безпосередньо, а через усвідомлення виражених ключовими термінами понять ,. Отже, на добутку множин тем текстів і понять заданий предикат . Значення предикату також встановлюється суб'єктом не безпосередньо, а через усвідомлення належності поняття до семантичного поля певної дисципліни d. Отже на добутку множин понять і семантичних полів дисциплін заданий предикат .

Визначення індексу виконується через усвідомлення суб'єктом складу множини семантичних полів , релевантних темі даного тексту і з'ясування їх відносної ваги у формуванні загального смислу тексту. Тому тематично-текстовий предикат (1) може бути виражений через новий предикат , який описує здатність суб'єкту знаходити місце теми даного тексту в семантичній структурі міждисциплінарної предметної галузі.

Наявність предикату X(,) дозволяє виразити предикати еквівалентності ) і через предикати еквівалентності і , що описують інтелектуальні процеси у свідомості суб'єкту аналітико-синтетичної обробки.

Формальний опис обробки екологічних текстів надає можливість відтворювати процеси індексації, систематизації і предметизації текстів однієї з найскладніших предметних галузей за допомогою програмних засобів АІБС.

В третьому розділі описується лінгвістичне забезпечення (ЛЗ) аналітико-синтетичної обробки текстів екологічної спрямованості. Визначено межі предметної галузі, на прикладах розглянуто лексико-семантичні особливості екологічних текстів, проаналізовано структуру термінологічного комплексу.

Міждисциплінарна інтеграція і складність об'єктів досліджень є критичними факторами по відношенню до обсягів наукової інформації і спеціалізованих інформаційно-пошукових мов, кількості інформації на вході лінгвістичного процесору, семантичної структури тезаурусів спеціалізованих АІБС. Вони утруднюють розробку лінгвістичного забезпечення АІБС для даної предметної області із використанням стандартних підходів.

Розроблені математичні моделі надають можливості ефективно вирішити цю проблему. Було виконане виділення достатньої, ненадлишкової і несуперечливої множини D пов'язаних дисциплін, придатної для класифікаційної розбивки тексту. Кожному елементу множини D було однозначно поставлено у відповідність знову сформульоване мнемонічне ім'я, повний перелік яких наведено у додатку додатку А до дисертації.

Фіксація відношення ключових термінів до елементів множини D виконується експертно, за допомогою спеціально розроблених допоміжних засобів. Обробка текстів починається з визначення їх типу за обсягом текстової інформації. Всі тексти поділяються за обсягом на: графемно-короткі; середні; графемно-довгі. Виконується виділення в структурі тексту найбільш інформативних графемних елементів. Графемний аналіз також дозволяє виділити для довгих текстів структурні субодиниці: розділи, глави тощо та виконати їх подальшу незалежну обробку. На основі пошуку специфічних ознак національних наборі символів визначається мова тексту, в тому числі й текстів зі змішаними наборами літер, що характерно для природознавчих текстів.

На етапі лексичного аналізу виконується пошук в тексті дескрипторів, які зберігаються в БД багатомовного ІПТ, що для кожної з мов містить їх повні словникові форми та нормалізовані морфологічно незмінні основи. Алгоритм нормалізації морфологічного аналізатору зберігається процедурно і використовує бази даних флексій і квазифлексій для всіх мов тезаурусу. Це дозволяє уникнути накопичення у дескрипторних статтях тезаурусу словозмінних парадигм.

У розділі розглянуто розроблену математичну модель структури ІПТ для даної предметної галузі. На відміну від традиційної дескрипторно-аскрипторної схеми ІПТ, у наведеній моделі логічна структура семантичної мережі обумовлена характером заповнення певного багатовимірного простору, утвореного системою елементів множини

вимірність якого дорівнює потужності множини D.

Для семантично пов'язаних дескрипторів і в даній моделі визначені чотири типи взаємовиключних відношень (R1, R2, R3, R4), а саме: збіг множин

(R1(,) ~

умовна еквівалентність дескрипторів); асоціативне включення

(R2(,) ~ )

асоціативне перетинання

(R3(,) ~ ());

відсутність зв'язку

(R4(,) ~ ()).

Формальним показником ступеня тісноти асоціативного семантичного зв'язку між дескрипторами є числове значення відносного показника n?? потужності перетинання

що характеризується для різних типів відношень наступним чином:

R1 (nab=na=n?); R2 ((nab=n?, nab<nb)); R3 ((nab<n?, nab<nb)); R4 (nab=0).

Кожна пара дескрипторів множини К зв'язана відношеннями одного з чотирьох наведених типів:

які утворюють на множині К семантичну мережу ІПТ.

Наведено математичну модель процесу систематизації множини текстів екологічної спрямованості. На етапі обробки ПТБД автоматичний компаратор ставить у відповідність кожному тексту індекс . Відображення в індексі лише першорядних семантичних компонентів тексту відбувається на основі зважування значень відносно значення першого елементу індексу і суми значень всього індексу. Для формування індексів у якості елементів використовуються мнемонічні імена.

Аналіз структури простору, заповненого індексами, надає уяву про класифікаційний розподіл текстів по семантичному полю предметної галузі. Впорядкованість індексів задає структуру відношень між ними і є основою побудови ієрархічної деревоподібної класифікаційної системи. Для кожних двох текстів a,bT та їх індексів , де індекси і їх перетинання характеризуються потужністю , можливо встановити один з п'яти типів взаэмовиключних відношень, а саме: збіг індексів

(R1(,) ~ )

родовидове включення індексів

(R2(,) ~ ~() () () ();

асоціативне включення індексів

(R3(,)~() ())

асоціативне перетинання індексів

(R4(,)~() () () ());

відокремленість індексів

(R5(,)~( = )).

У роботі визначено вигляд відношення, яке для кожної пари індексів задає шукану ієрархічну класифікаційну систему, що характеризується наявністю більш ніж однієї верхівки, системою родовидових і асоціативних зв'язків, більш загальним змістом коротких індексів у порівнянні із довгими, залежністю структури від тематичної структури ПТБД, завдяки чому зберігається об'єктивність і функціональність класифікації.

В четвертому розділі описано практичну реалізацію розроблених математичних моделей і алгоритмів у вигляді пакету прикладних програм аналітико-синтетичної обробки екологічних текстів і пошуку в повнотекстовій базі даних "Экотекст". Використана мова програмування - Visual Basic 6.0.

Виділені елементи предметної галузі заносяться до БД класифікатору з текстовими полями для мнемонічних імен і назв елементів. Значення предикату фіксується в одному полі дескрипторної статті у вигляді множини мнемонічних імен. Визначення класів на множині дескрипторів реалізується динамічно як відбір підмножин дескрипторних статей за параметрами. Динамічно відтворена на основі математичної моделі семантична мережа тезаурусу представляє собою зважений граф G(R,K) із циклами, де K - це множина дескрипторів тезаурусу, що є вершинами графу, а R - множина ребер графу, представлена парами

ei=Rn--(ki1,--ki2),--kijОK,--RnО(R1,--R2,--R3,--R4)

Вага ребер дорівнює значенню показника n??.

Графемний аналізатор визначає мову тексту, тип тексту за обсягом, розбиває текст на абзаци, визначає їх графемний статус в тексті і фіксує його значення за допомогою числового показника ваги. На основі відбору інформативних елементів тексту створюється квазиреферат, який представляє найбільш семантично вагому частину тексту. Квазиреферат передається на вхід лексичного аналізатору, який шукає перетинання лексем тексту і дескрипторів тезаурусу із можливими комбінаціями морфологічно-незмінних основ у простих реченнях.

Компаратор знаходить множини значень предикатів P(ti,kj) і P(ti,dh), визначає для тексту значення ваг семантичних компонент і формує індекс тексту. Процедура побудови семантичної мережі класифікації аналогічна процедурі побудови мережі тезаурусу: для кожної пари індексів визначається один з п'яти типів взаємовиключних відношень. У разі визначення типу відношення для пари текстів, перевірка переривається і здійснюється перехід до іншої пари індексів.

Побудована мережа представляє собою зважений граф H(R,T) із циклами, де T - множина всіх елементів повнотекстової бази даних, відображена на множину індексів , а R - множина встановлених відношень.

Реалізовано два види пошуку в ПТБД: семантичний координатний пошук за структурою класифікації і пошук за формальними ознаками (автор, назва, ключові слова, кількісні характеристики тощо). Семантичний пошук реалізовано на основі компараторної ідентифікації змісту запиту користувача, вираженого природною мовою.

Запит аналізується із використанням вищеописаних процедур: для нього формується індекс , який тимчасово включається до семантичної мережі класифікації як додаткова верхівка va. Шукається ланцюг графу, до якого належить верхівка, що представляє запит. Класи умовної еквівалентності текстів інтерпретуються на даному графі як верхівково- та реберно-незалежні маршрути, причому вага всіх ребер маршрутів дорівнює одиниці, тобто представляє відношення збігу індексів повних текстів. При необхідності максимальної релевантності результатів пошуку і обмеженні їх кількості як результат пошуку представляються всі верхівки маршруту, на якому знаходиться va. При розширенні границь пошуку до множини релевантних текстів включаються індекси текстів, які пов'язані з індексом запиту іншими типами відношень.

У розділі наведено моделі інтеграції розроблених алгоритмів і програмного забезпечення до існуючих АІБС із бібліографічними БД у міжнародному форматі MARC і інформаційно-пошукових систем на основі HTTP-серверу у складі MS IIS під управлінням ОС Windows.

Для доступу до вмісту текстових полів MARC-сумісних БД АІБС пропонується застосовувати додаткове програмне забезпечення, яке безпосередньо звертається до БД, виділяє в записах придатні для компараторної ідентифікації за описаними алгоритмами текстові поля, індексує документи і імпортує бібліографічну інформацію до додаткових БД підсистеми ідентифікації екологічних текстів, яка також обробляє запити користувача і здійснює пошук.

Висновки

У дисертації наведено теоретичне узагальнення і нове вирішення наукової проблеми, що виявляється в автоматичній ідентифікації екологічних текстів у складі повнотекстових баз даних АІБС на основі застосування формальних моделей їх інтелектуального аналізу фахівцями. Вирішення цієї проблеми має велике значення для покращення доступу до екологічної інформації через підвищення ефективності аналітико-синтетичної обробки і здійснення тематичного і семантичного пошуку.

За матеріалами дисертації можна сформулювати такіі головні висновки і результати.

1. Досліджено семантичну структуру предметної галузі комплексу екологічних дисциплін і визначено особливості використання відомостей про її структуру в процесі аналітико-синтетичної обробки екологічних текстів.

2. Побудовано формалізовану модель процесу ідентифікації змістовних ознак екологічних лінгвістичних об'єктів на основі методу компараторної ідентифікації, розроблено математичні методи їх лексико-семантичного аналізу.

3. Із використанням системи введених предикатів і відношень розроблено компараторну методику автоматичної побудови семантичної мережі спеціалізованого багатомовного інформаційно-пошукового тезаурусу АІБС, систематизації елементів повнотекстової бази даних, пошуку текстів, що є релевантними природномовному запиту користувача.

4. Розроблено формальні алгоритми і реалізовано процедури автоматичної індексації і предметизації сукупності екологічних текстів в АІБС із врахуванням стилістичних особливостей їх графемної структури, ідентифікації їх позиції в ієрархічній структурі динамічної класифікаційної системи, що об'єктивно відображає підмножину тем предметної галузі.

5. Забезпечено можливість використання розроблених формалізмів для автоматичної аналітико-синтетичної обробки екологічних текстів в АІБС, що неможливо було ефективно зробити з використанням традиційних методів. Розроблений метод формалізації структури складної предметної галузі до інших міждисциплінарних галузей наукового знання.

6. Розроблені методи і алгоритми реалізовані у вигляді процедур пакету прикладних програм. Визначені моделі їх інтеграції у вигляді модуля підсистеми каталогізації і доступу користувачів до існуючої АІБС, та пошукової системи на основі HTTP-серверу.

7. Практичні результати дисертаційних досліджень було використано для покращення автоматизації аналітико-синтетичнолї обробки підфонду екологічних текстів, у науково-методичному відділі Центральної наукової бібліотеки Харківського національного університету і в Харківському науковому інформаційно-бібліотечному центрі ветеринарної медицини, на кафедрі екології та в бібліотеці Миколаївської філії Національного університету "Києво-Могилянська Академія". Алгоритми аналізу текстів були використані під час виконання держбюджетної теми Міністерства оборони "Корекція-А" Харківського військового університету.

Основний зміст дисертації відбито у публікаціях

1. Єлісєєв В.В. Автоматизована дидактична інформаційна система з екології // Науковий вісник Укр. держ. лісотех. ун-ту.- 2000. - Вип. 10 (1). - С. 98 - 102

2. Єлісєєв В.В. Компараторна ідентифікація екологічних текстів для пошуку релевантних документів в повнотекстових БД та електронних каталогах АІБС // Вісн. Херсон. держ. техн. ун-ту. - 2001. - № 4(13). - С.17 - 19

3. Шаронова Н.В., Єлісєєв В.В. Математичне моделювання процесів ідентифікації і класифікації текстів з екологічної тематики в автоматизованих інформаційних бібліотечних системах // Вісн. Херсон. держ. техн. ун-та. - 2001. - № 1(10). - С. 18 - 21.

4. Єлісєєв В.В. Аналіз визначень терміну екологія // Наук. праці Миколаївської філії нац. ун-та "Києво-Могилянська Академія". - 1999. - Т.3. - С.124 - 125

5. Єлісєєв В.В. Впорядкування інформації - поточна проблема екологічної науки // Наук. записки Нац. ун-та "Києво-Могилянська Академія". - 2000. - Т.18, ч.ІІ. - С.334 - 337

6. Єлісєєв В.В. Екологічна інформація та її біологічна складова: деякі властивості // Наук. праці Миколаївської філії нац. ун-та "Києво-Могилянська Академія". - 2000. - Т.6. - С.42 - 43

7. Єлісєєв В.В. Систематизація і класифікація екологічної інформації як засіб підвищення якості екологічної освіти в ВНЗ // Людина і довкілля: Проблеми неоекології. - 2000. -№ 1(1). - С.60 - 66

8. Єлісєєв В.В. Радіоекологія і техногенна складова екологічної інформації // Тези доп. наук.-практ. конф. “Атомна промисловість: Точка зору молодих науковців". - Миколаїв: МФ НаУКМА, 2001. - С. 10 - 12.

Анотація

Єлісєєв В.В. Ідентифікація екологічного знання в автоматизованих інформаційно-бібліотечних системах. - Рукопис.

Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.13.06 - автоматизовані системи управління та прогресивні інформаційні технології. - Херсонський державний технічний університет, Херсон, 2002.

Дисертація присвячена розробці забезпечення обробки і ідентифікації екологічних текстів у складі повнотекстових БД автоматизованих інформаційних бібліотечних систем на основі моделей їх інтелектуального аналізу фахівцями.

Для розробки моделей і алгоритмів використано математичний апарат компараторної ідентифікації. Введена система предикатів і відношень дозволила автоматизувати процедури реферування, індексації, систематизації, предметизації і пошуку екологічних текстів, побудови семантичних мереж спеціалізованого інформаційно-пошукового тезаурусу і класифікаційної системи. Моделі і алгоритми програмно реалізовані в пакеті прикладних програм "Екотекст". Наведено відомості про впровадження результатів дослідження.

Ключові слова: автоматизовані бібліотечні системи, екологічна інформація, класифікація, пошукові системи, компараторна ідентифікація, алгебра скінченних предикатів.
Summary

Yeliseyev V.V. Identification of ecological knowledge in automated information-library systems. - Manuscript.

Thesis for technical sciences candidate's degree by speciality 05.13.06 - automated control systems and progressive information technologies. - Kherson State Technical University, Kherson, 2002.

The thesis considers the development of algorithms and software for identification of ecological texts in full-text databases of automated information-library systems on the base of models their intellectual analysis by specialists. For these goals the mathematical methods of comparer identifications were used.

The created system of predicates and relations allowed to automate the procedures of abstracting, indexing, systematizations, subject headlines defining and searching of ecological texts, building of semantic networks of specialized thesaurus and classification system. The models and algorithms are implemented in the 'Ecotext' software package. Information about introduction of the research results is given.

Keywords: automated library systems, ecological information, categorization, search systems, comparer identification, finite predicates algebra.

Аннотация

Елисеев В.В. Идентификация экологического знания в автоматизированных информационно-библиотечных системах. - Рукопись.

Диссертация на соискание ученой степени кандидата технических наук по специальности 05.13.06 - автоматизированные системы управления и прогрессивные информационные технологии. - Херсонский государственный технический университет, Херсон, 2002.

Диссертация посвящена разработке обеспечения автоматизации аналитико-синтетической обработки и идентификации экологических текстов в составе полнотекстовых БД автоматизированных информационных библиотечных систем (АИБС) на основе моделей их интеллектуального анализа специалистами предметной области и субъектами библиографической деятельности.

Решение данной проблемы крайне важно для полноценного, эффективного и быстрого доступа к экологической информации, который является основой необходимого уровня экологической безопасности общества, усовершенствования методов управления состоянием окружающей среды, повышения уровня научных исследований, экологического образования и культуры. Существование данной проблемы обусловлено неприспособленностью стандартных информационно-поисковых средств АИБС для проведения семантического анализа и поиска специальных текстов, порожденных в предметных междисциплинарных областях со сложной структурой, какой является экология.

Для разработки моделей и алгоритмов использован метод компараторной идентификации лингвистических объектов основанный на математическом аппарате алгебры конечных предикатов. Введенная система предикатов и отношений позволила построить формальную математическую модель семантической структуры предметной области, разработать методику автоматизации реферирования, индексации, систематизации, предметизации и поиска экологических текстов, построения семантических сетей специализированного информационно-поискового тезауруса и иерархической древовидной классификационной системы на основе оригинального метода анализа тематических индексов.

Математические модели предусматривают формализацию анализа лингвистических объектов в текстовом представлении на уровне интеллектуальных процессов понимания и анализа. В работе изложены результаты лексико-семантического анализа предметной области, рассмотрены особенности экологической информации.

Построение семантической сети тезауруса производится с использованием базы экспертных знаний о структуре предметной области. Автоматически устанавливается четыре типа отношений между дескрипторами, которые соответствуют степени семантической связи между ними. Индексация и предметизация текста производится на основе соотнесения автоматическим компаратором его содержания с отдельными элементами предметной области и фиксации, установленных соответствий в виде совокупности мнемонических обозначений, упорядоченных в порядке убывания веса данного семантического компонента в тексте.

Алгоритм поиска позволяют пользователю излагать поисковое предписание в виде предложений естественного языка, которые подвергаются лингвистическому анализу и соотносятся с информацией об охвате фондом электронных текстов предметной области для поиска в нем непосредственных, родовидовых и ассоциативных соответствий текстов теме запроса.

Все разработанные модели и алгоритмы реализованы в пакете прикладных программ аналитико-синтетической обработки и поиска экологических текстов "Экотекст". Сравнение результатов автоматизированной обработки текстов и поиска с аналогичными результатами, полученными с использованием стандартных поисковых средств, показало их более высокую релевантность в первом случае при значительном снижении времени поиска и уменьшении размеров баз данных индексов.

Эффективность разработанного программного, математического и лингвистического обеспечения подтверждается эффективностью внедрения практических результатов диссертационного исследования. Они были использованы в рамках автоматизации аналитико-синтетической обработки подфонда текстов, связанных с комплексом экологических дисциплин, в научно-методическом отделе Центральной научной библиотеки Харьковского национального университета и в Харьковском научном информационно-библиотечном центре ветеринарной медицины, на кафедре экологи и в библиотеке Николаевского филиала Национального университета "Киево-Могилянская Академия". Алгоритмы анализа текстов были использованы во время выполнения госбюджетной темы Министерства обороны "Коррекция-А" в Харьковском военном университете.

Ключевые слова: автоматизированные библиотечные системы, экологическая информация, классификация, поисковые системы, компараторная идентификация, алгебра конечных предикатов.

Размещено на Allbest.ru

...

Подобные документы

  • Основні ознаки, що дозволяють здійснювати ідентифікацію складних об’єктів моніторингу на основі нечітких алгоритмів кластерного аналізу. Вибір доцільного алгоритму кластеризації складних об’єктів моніторингу та синтез математичної моделі кластеризації.

    курсовая работа [1,2 M], добавлен 12.01.2016

  • Аналіз технічного завдання: призначення розробки, відомості про LAN-мережі. Принципи ідентифікації вузлів комп’ютерної мережі в багатозадачних операційних системах. Проектування компонентів програми. Аналіз синтаксису Bash. Результати тестування.

    курсовая работа [645,6 K], добавлен 23.01.2012

  • Характеристика функціональної структури предметної області програмного комплексу. Розробка архітектури програмної системи. Вибір типу архітектури й зразків проектування. Опис декомпозиції, залежностей та інтерфейсу. Детальне проектування модулів та даних.

    курсовая работа [462,2 K], добавлен 19.12.2013

  • Поняття й головні способи персоніфікації користувача. Основи біометричної ідентифікації. Технологія зняття відбитків пальців, типи капілярних візерунків. Дослідження існуючих засобів контролю доступу на основі біометричних даних, їх недоліки та переваги.

    курсовая работа [4,7 M], добавлен 30.01.2012

  • Проблемі захисту інформації. Основні загрози та методи їх рішень. Апаратно-програмні засоби захисту. Використання ідентифікації приводу оптичного накопичувача за характеристиками лазерного диску. Аутентифікація за допомогою ідентифікації лазерного диску.

    курсовая работа [65,2 K], добавлен 01.04.2013

  • Методи місцевизначення рухомих об’єктів і їх застосування у навігаційних системах. Режим диференціальної корекції координат. Розробка структури AVL системи і алгоритмів функціонування її окремих модулів. Встановлення апаратного і програмного забезпечення.

    дипломная работа [2,2 M], добавлен 18.10.2015

  • Вивчення інтерфейсу, архітектури, функцій (генерування криптографічних послідовностей випадкових чисел, операції із електронним підписом) бібліотеки CryptoAPI. Розгляд способів ідентифікації та аутентифікації як захисту від несанкціонового доступу.

    реферат [502,9 K], добавлен 06.04.2010

  • Розробка гри "Арканоід", з можливістю гри, як одного та і двох гравців одночасно на одному гральному полі, за допомогою Visual Studio 2008 з XNA Framework. Аналіз предметної галузі. Опис концептуальної моделі. Реалізація взаємодії між гравцем та системою.

    курсовая работа [5,5 M], добавлен 21.01.2010

  • Дослідження теоретичних аспектів проектування автоматизованих систем тестування знань. Розробка програми, яка призначена для забезпечення автоматизації процесу формування тестів та всього процесу контролю знань у дистанційній навчальній системі.

    дипломная работа [2,1 M], добавлен 26.10.2012

  • Узагальнена структурна схема інформаційної системи та алгоритми її роботи. Проект бази даних. Інфологічне проектування і дослідження предметної області. Розробка інфологічної моделі предметної області. Розробка композиційної, логічної системи бази даних.

    курсовая работа [861,7 K], добавлен 21.02.2010

  • Аналіз предметної галузі задачі моделювання пострілу балісти через стіну по мішені. Структури даних та діаграми класів для розв'язання задачі. Схеми взаємодії об’єктів та алгоритми виконання їх методів. Опис розробленої програми, інструкція користувача.

    курсовая работа [1,0 M], добавлен 18.05.2014

  • Фізичні характеристики компакт-диска. Помилки та можливості їх появи. Коди Ріда-Соломона. Проблеми захисту інформації. Основні загрози та методи їх рішень. Боротьба з комп’ютерним піратством. Аутентифікація за допомогою ідентифікації лазерного диску.

    дипломная работа [74,6 K], добавлен 25.03.2013

  • Огляд програмного комплексу SPSS у ПАТ "Платинум Банк". Аналіз обробки результатів анкетування та ідентифікації інтересів опитаних. Система Access як інструмент управління базами даних. Метод інтеграції даних усіх типів досліджень на замовлення клієнта.

    реферат [2,5 M], добавлен 05.11.2012

  • Дослідження класифікації автоматизованих інформаційних систем. Обґрунтування вибору мови і системи програмування. Програмне забезпечення та опис компонентів середовища. Інтерфейс програмного комплексу. Розрахунок повної собівартості програмного продукту.

    дипломная работа [584,1 K], добавлен 26.06.2015

  • Цілі і завдання розробки, її предмет і актуальність. Опис предметної області, цілі і завдання програми. Вибір методу рішення, опис процесу програмування і вибір інструментальних засобів для реалізації проекту, опис вхідних та вихідних даних, інтерфейсу.

    курсовая работа [327,1 K], добавлен 01.09.2014

  • Розробка програми, яка б дозволяла протестувати знання з дисципліни "Програмування на мові С", виставити оцінку. Опис та обґрунтування методу організації вхідних та вихідних даних, вибору складу технічних та програмних засобів. Проведення лістингу.

    курсовая работа [11,0 K], добавлен 08.08.2009

  • Характеристика проблемних моментів автоматизації процесу формування питань у білеті для визначення рівня знань студента. Розробка бази вимог щодо організації перевірки якості знань і програмного забезпечення для організації та управління даними бази.

    курсовая работа [2,6 M], добавлен 06.12.2013

  • Обґрунтований вибір засобів для проектування автоматизованої інформаційно-довідкової системи. Опис структури технологічного процесу обробки даних для розв’язання задачі. Комп'ютерна реалізація окремих об'єктів системи (таблиці, форми, звіти, запити).

    курсовая работа [30,7 K], добавлен 14.05.2011

  • Розробка структури бази даних. ER-моделі предметної області. Проектування нормалізованих відношень. Розробка форм, запитів, звітів бази даних "Автосалон". Тестування роботи бази даних. Демонстрація коректної роботи форми "Додавання даних про покупців".

    курсовая работа [4,0 M], добавлен 02.12.2014

  • Загальна характеристика предметної області. Дослідження процесу побудови судна. Вітчизняний і закордонний досвід використання СУПС. Розробка детермінованої моделі сітьового графіка і моделювання. Моделювання сітьового графіка методом статвипробувань.

    курсовая работа [368,7 K], добавлен 22.06.2007

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.