Методи, моделі та алгоритми контекстного обміну даними та їх використання при проектуванні інформаційних систем

Основи побудови системи контекстного обміну даними. Принципи визначення показників якості даних інформаційної системи. Методи і алгоритми числової оцінки якості даних. Підходи до інтеграції семантично різнорідних баз даних, їх порівняльна характеристика.

Рубрика Программирование, компьютеры и кибернетика
Вид автореферат
Язык украинский
Дата добавления 07.01.2014
Размер файла 74,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Харківський державний технічний університет радіоелектроніки

Білецький Євген Володимирович

УДК 681.518:681.3.016:658.512

Методи, моделі та алгоритми контекстного обміну даними та їх використання при проектуванні інформаційних систем

05.13.06 - автоматизовані системи управління та прогресивні інформаційні технології

Автореферат дисертації

на здобуття наукового ступеня

кандидата технічних наук

Харків 2000

Дисертацією є рукопис

Робота виконана в Харківському державному технічному університеті радіоелектроніки Міністерства освіти і науки України.

Науковий керівник - кандидат технічних наук, професор Дудар Зоя Володимирівна, Харківський державний технічний університет радіоелектроніки, професор кафедри ПЗЕОМ.

Офіційні опоненти:

- доктор технічних наук, професор Сіроджа Iгор Борисович, Державниий аерокосмічний університет ім. М.Є. Жуковського “ХАІ”, завідувач кафедри інформатики та програмного забезпечення автоматизованих систем;

- кандидат технічних наук, доцент Танянський Сергій Станіславович, Університет внутрішніх справ, доцент кафедри інформаційних систем і технологій в діяльності ОВС, м. Харків.

Провідна установа

Національний технічний університет України “КПІ”, кафедра автоматизованих систем обробки інформації та управління.

Захист відбудеться “ 11 ” жовтня 2000 р. о 13 годині на засіданні спеціалізованої вченої ради Д 64.052.01 в Харківському державному технічному університеті радіоелектроніки, за адресою 61166, м.Харків, просп. Леніна, 14; т. 409451.

З дисертацією можна ознайомитись у бібліотеці Харківського державного технічного університету радіоелектроніки, за адресою 61166, м. Харків, просп. Леніна, 14.

Автореферат розісланий “ 08 ” вересня 2000 р.

Вчений секретар спеціалізованої вченої ради Саєнко В.І.

ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ

Актуальність теми. Майже півсторіччя тому американський математик Норберт Винер сказав про інформацію: “Інформація є інформація, не матерія й не енергія”, підкреслюючи її особливу нематеріальну суть. Людству знадобилось 30-40 років для того, щоб перетворити інформацію з наукової категорії у категорію комерційну. На сьогоднішній день будь-яку глобальну проблему неможливо вирішити без переробки значних обсягів інформації та комунікаційних процесів. Питання надійності, своєчасності та ефективності інформації набуває сьогодні особливого значення. Як правило, інформацію треба аналізувати, переосмислювати, приймати чи відхиляти, а також розробляти нові шляхи її пошуку. Зараз у світі склалась ситуація, коли потік інформації випереджає можливості людини з її переробки та ефективного використання. Перехід від традиційних методів зберігання, пошуку та розповсюдження інформації до нових привів до кращого орієнтування у явищах, процесах, а також до нових технічних рішень.

Основні ідеї сучасних інформаційних технологій базуються на концепції баз даних. Згідно з цією концепцією, основою інформаційної технології є дані, які повинні бути організовані у бази даних з метою адекватного відображення реального світу та задоволення інформаційних потреб користувачів. Бази даних є невід'ємною частиною сучасних АСУ усіх рівнів. Зріст обсягу та структурної складності даних, що зберігаються в базах даних, а також кількості користувачів інформаційних систем стало причиною створення зручних загальносистемних засобів інтеграції даних та управління ними.

У 80-ті роки завдяки досягненням у галузі штучного інтелекту з'являються системи, що базуються на використанні знань. У цей час виникає тенденція “інтелектуалізації” систем баз даних. На зовнішньому рівні їх архітектури реалізуються у різноманітні семантичні моделі даних. Крім того, останнім часом має місце тенденція збільшення масштабів баз даних. У більшості випадків це пов'язано не стільки з зростом обсягу інформації, що зберігається в окремо існуючій базі, скільки зі з'єднанням великої кількості різнорідних сховищ інформації. Різнорідність розподілених у просторі та часі компонентів системи обумовлює велику кількість помилок обробки інформації, що призводить до зниження якості оброблюваної інформації. Вирішення цієї проблеми має велику користь для підприємств та установ України, які інтегрують свої інформаційні ресурси до світових.

Дослідження, що проводились останніми роками, спрямовані на розробку “інтелектуальної надбудови” над базою даних з метою отримання її контексту, який можна передавати разом з даними. Обробка даних разом з їх контекстом дозволяє усунути різнорідність розподілених компонент бази даних та підвищити якість оброблюваної інформації. Великий внесок у розробку теоретичних і прикладних питань формування контексту даних зробили Т. Виноград, Е.В. Попов, Д.А. Поспєлов, М.Ш. Цаленко, Ю.П. Шабанов-Кушнаренко, М.Ф. Бондаренко, Ст. Меднік, М. Сігел, Р. Ванг та ін.

Дослідження, що проведені у цій дисертаційній роботі, спрямовані на розвиток теорії побудови контексту бази даних та розробку інформаційної технології, яка, використовуючи контекст бази даних, дозволяє корис-тувачам працювати з різнорідними розподіленими великомасштабними системами баз даних як з простою семантично однорідною базою даних.

Зв'язок роботи з науковими програмами, планами, темами. Робота виконувалася на кафедрі програмного забезпечення ЕОМ Харківського державного технічного університету радіоелектроніки відповідно до плану науково-дослідної роботи, в рамках держбюджетних тем № 022 “Розробка комплексу засобів информаційної підтримки моделей соціально-економічного розвитку регіону” (№ ДР 0197U012128) та № 107-2 “Розробка принципів проектування систем, що підтримують контекстну обробку інформації, з метою їх використання при створенні інформаційно-аналітичної системи прийняття рішень при управлінні соціально-економічним розвитком регіону” (діє з 2000 р.), на яких аспірант Білецький Є.В. працював на посаді старшого наукового співробітника та відповідального виконавця.

Мета і задачі дослідження. Метою роботи є розробка нової інформаційної технології, що базується на методах, моделях та алгоритмах контекстного обміну даними та її реалізація у вигляді програмної системи.

Поставлена мета роботи обґрунтувала такі задачі дослідження:

Розробити багаторівневу модель знань системи контекстного обміну даними.

Розробити принципи формування контекстно-онтологічних відношень у базі знань системи контекстного обміну даними.

Розробити принципи визначення показників якості даних інформаційної системи.

Розробити методи та алгоритми контекстного обміну даними, що базуються на багаторівневий моделі контекстних знань: метод побудови концептуальної моделі бази даних, метод придбання контексту, метод маніпулювання контекстом для пошуку контекстних перетворень.

Розробити методи та алгоритми числової оцінки якості даних.

Розробити інформаційну технологію, що використовує методи, моделі та алгоритми контекстного обміну даними.

Реалізувати їнформаційну технологію контекстного обміну даними у вигляді програмної системи для розв'язання практичної задачі інтеграції різнорідних баз даних.

Об'єктом дослідження у роботі є розподілені великомасштабні системи баз даних.

Предметом дослідження є методи, моделі та алгоритми контекстного обміну даними у семантично різнорідних базах даних.

Методи дослідження базуються на ідеях і принципах штучного інтелекту, логіки предикатів, теорії реляційних баз даних.

Наукова новизна одержаних результатів.

У роботі вперше теоретично обґрунтовано доцільність викорис-тання логіки предикатів вищого порядку як моделі знань системи контекстного обміну даними. Введені предикат-властивість та предикат альтернатив, що дозволило сформувати багаторівневу контекстну модель бази даних засобами логіки предикатів вищіх порядків (одержано вперше).

Доведено можливість заміни метасемантичної мережі логікою предикатів вищих порядків при моделюванні контекстних знань , що дає підставу для застосування математичних та програмних засобів логіки предикатів до семантичних моделей предметних областей (удосконалено).

Розроблено новий принцип визначення показників якості даних, який базується на теорії множин. Цей принцип дозволяє мінімізувати кількість показників якості даних, що спрощує розрахунок інтегрального показника якості даних (одержано вперше).

Розроблено нові принципи формування контекстно-онтологічної структури бази знань системи контекстного обміну даними, які дозволяють зменшити кількість контекстних перетворювань (дістало подальший розвиток).

Розроблено нові методи контекстного обміну даними, які дають підставу для створення нової інформаційної технології контекстного обміну даним:

- метод концептуалізації бази даних (дістало подальший розвиток);

- метод контекстуалізації бази даних (удосконалено);

- метод пошуку послідовностей контекстних перетворень (удосконалено);

- метод оцінки якості даних бази даних (удосконалено).

Практичне значення одержаних результатів. Розроблена нова інформаційна технологія, що базується на методах, моделях та алгоритмах контекстного обміну даними. Ця технологія застосована для побудови системи контекстного обміну даними, яка доведена до програмної реалізації. Система може бути використана для інтеграції будь-яких різнорідних баз даних з метою їх коректної взаємодії. Система впроваджена у вигляді підсистеми контекстного обміну даними програмного комплексу інформаційної підтримки хроматографічного експерименту (акт впровадження від 28.12.1999 р.). Комплекс використовується. у Фармакопійному комітеті Коммедбіопрому України, що дозволяє скоротити час вибору оптимальних параметрів хроматографування на підставі інформації, яка зберігається в семантично різнорідних базах даних.

Основні положення, висновки та рекомендації, які викладені в дисертаційної роботі, використані у навчальному процесі при підготовці курсів "Математичні моделі інформаційних процесів та управління динамічними об'єктами" і “Методологія розробки програмних продуктів та великих програмних систем” на кафедрі програмного забезпечення ЕОМ Харківського державного технічного університету радіоелектроніки ХТУРЕ (акт впровадження від 3.04.2000 р.).

Особистий внесок здобувача. Всі результати дисертації отримані автором самостійно.

У роботі [2] автору належить розробка класифікації семантичних конфліктів у різнорідних великомасштабних базах даних і розробка принципів контекстного посередництва у системі “база даних - користувач”; [1,7] - дослідження принципів побудови системи контекстного обміну даними; у роботі [3] запропоновано використання метасемантичної мережі як моделі знань контекстного посередника, розроблена структура системи контекстного обміну даними та основні алгоритми функціювання цієї системи; у [4] розроблена модель знань контекстного посередника з використанням логіки предикатів вищих порядків; у роботі [5] автором запропонований принцип визначення показників якості даних інформаційних систем, базуючись на теорії множин, та розроблені методи оцінки якості даних таблиць бази даних; у [8] розроблені принципи формування контекстно-онтологічних відношень у базі знань системи контекстного обміну даними; у роботі [6] автором розроблена структура бази даних та принципи побудови програмного комплексу інформаційної підтримки хроматографічного експерименту.

Апробація результатів роботи.

Основні результати дисертаційної роботи були викладені на:

- III міжнародній конференції “Теория и техника передачи, приема и обработки информации”, Туапсе, 1997 р.;

- IV міжнародній конференції “Теория и техника передачи, приема и обработки информации”, Туапсе, 1998 р.;

- II молодіжному форумі “Радиоэлектроника и молодежь в XXI веке”, Харків, 1998 р.;

- Міжнародній конференції “Информационные технологии: наука, техника, технология, образование, здоровье”, Харків, 1998 р.

Публікації. За результатами дисертаційної роботи опубліковано 8 робіт, з них 4 статті у наукових фахових виданнях, згідно з переліком ВАК України, та 4 доповіді на конференціях.

Структура та обсяг роботи. Дисертація складається з вступу, чотирьох розділів, висновків і додатків та має загальний об'єм 145 сторінок. Містить 15 рисунків, 5 додатків, список використаних літературних джерел з 117 найменувань.

ОСНОВНИЙ ЗМІСТ РОБОТИ

У вступі обгрунтована актуальність дисертаційної роботи, сформульовані основна мета і завдання досліджень, наведені відомості про зв'язки обраного напрямку досліджень із планами організації, де виконана робота. Дано стислу анотацію отриманих у дисертації рішень, відзначена їх практична цінність, наведені дані про використання результатів проведених досліджень у народному господарстві.

У першому розділі дисертаційної роботи досліджені підходи до інтеграції семантично різнорідних баз даних, дана порівняльна характеристика підходів з слабим зв'язком, з міцним зв'язком, обґрунтована доцільність використання підходу контекстного обміну даними. Проведений огляд та аналіз конфліктів даних (схематичних, семантичних тощо), що мають місце при взаємодії баз даних. Доведено, що підхід контекстного обміну даними є найбільш ефективним засобом усунення цих конфліктів.

Досліджені моделі знань, що можуть використовуватись контекстним посередником (логічна, фреймова, функціональна, продукційна моделі, семантичні мережі), дана їх порівняльна характеристика. Обгрунтована доцільність використання метасемантичної моделі та логіки предикатів вищого порядку, як базових моделей знань для побудови контексту бази даних.

Досліджені основні методи оцінки показників якості даних інформаційної системи. Основним недоліком існуючих методів оцінки якості даних є необгрунтовано велика кількість показників якості даних та їх взаємозалежність, що призводить до недоцільності їх використання у системах реального масштабу часу, до яких відноситься система контекстного обміну даними. Це доводить необхідність розробки нових принципів і методів оцінювання якості даних.

На основі проведених досліджень сформульовані зазначені вище мета та задачі дисертаційної роботи.

У другому розділі досліджуються теоретичні основи побудови системи контекстного обміну даними. Головним питанням розділу є розробка моделі знань цієї системи.

Розроблена модель знань контекстного посередника на основі метасемантичної мережі. Для побудови такої моделі розв'язується задача пошуку семантичного зв'язку між двома об'єктами (концептами) семантичної мережі:

(1)

де - суперпозиція усіх відношень, які зв'язують концепт х та концепт у.

Таким чином, зв'язок між двома об'єктами мережі на одному рівні - це семантична сума суперпозицій усіх відношень від х до у.

Операція семантичного посилення визначає зв'язок між об'єктами різних рівнів метасемантичної мережі. Кожний наступний рівень мережі є рівнем контекстів для об'єктів попереднього рівня. Таким чином зв'язок між двома об'єктами мережі з урахуванням контексту має вигляд:

(2)

де LX-Y - семантичний зв'язок між об'єктами та з урахуванням контексту; SL - семантичний зв'язок на базовому рівні мережі; SL(i) - семантика контексту i-го рівня.

Семантичне відношення еквівалентності SAME зв'язує семантично еквівалентні об'єкти мережі. Семантичне відношення незнання NIL вказує на відсутність семантичного зв'язку між об'єктами мережі.

Відношення еквівалентності SAME вказує на можливість семантичного конфлікту між об'єктами, які воно зв'язує. Для усунення цього конфлікту потрібний перехід на вищий рівень контекстної моделі та пошук зв'язку. Якщо на будь-якому рівні мережі (1) об'єкти вдалося зв'язати тільки смисловими відношеннями та непосиленими відношеннями SAME, то конфлікт можливо вважати усуненим.

Розроблена модель знань контекстного посередника на основі логіки предикатів вищих порядків. Для побудови контекстної моделі БД засобами логіки предикатів вищих порядків використовуються предикати рівності D та еквівалентності E та введені нові предикати:

- предикат-властивість зв'язує предметні змінні (концепти) різних рівнів контекстної моделі БД, одна з яких є властивістю іншої. Якщо предикат Р означає властивість змінної х, то P(x)=1 х Є P Є(х,P). Змінюємо предикатний символ Є на М, предикат Р на змінну вищого порядку х1 та отримуємо предикат-властивість М(х,х1), який зв'язує предметну змінну x та її контекст x1;

- предикат альтернатив А(х,у), який зв'язує усі відношення між х та у на одному рівні контекстної моделі БД;

- предикат незнання N(х,у), який вказує на відсутність зв'язку між предметними змінними.

Якщо змінні х та у зв'язані предикатом еквівалентності, то між ними існує семантичний конфлікт, для усунення якого потрібний перехід на вищий рівень контекстної моделі та пошук зв'язку:

(3)

,

де Rx1->y1 - відношення, які беруть участь у зв'язуванні предметних змінних х1 та у1.

Якщо предметні змінні зв'язані тільки смисловими предикатами та предикатами рівності, то конфлікт можливо вважати усуненим.

Проведено порівняльний аналіз алгебри логіки предикатів вищих порядків та метасемантичної мережі. В таблиці 1 наведені аналогічні поняття цих моделей знань.

Таблиця 1. Аналогічні поняття логіки предикатів вищих порядків та метасемантичної мережі

Метасемантична мережа

Логіка предикатів вищих порядків

Об'єкт предметної галузі (концепт)

Предметна змінна (концепт)

Відношення

Предикат

Семантичний зв'язок

Предикат альтернатив

Властивість

Предикат-властивість

Семантичне посилення

Предикат вищого порядку

SAME- відношення

Предикат рівності

Предикат еквівалентності

Відношення незнання

Предикат незнання

Тобто усі основні поняття, які використовуються при контекстному обміні даними для цих моделей, можуть взаємозамінюватись. Але логіка предикатів має істотні переваги: для таких систем існують методи автоматичного виводу, предикат однозначно задається характеристикою, наявність предикатів рівності та еквівалентності дозволяє автоматизувати виявлення конфліктів даних. Таким чином, логіка предикатів є найбільш відповідною до потреб системи контекстного обміну даними.

Досліджено додаткові питання, які пов'язані з формуванням бази знань системи контекстного обміну даними. В додаток до базових понять контексту користувача бази даних (C) та загальних онтологій (О) введені нові поняття мікроконтексту (MC) - множини специфічних знань користувача; активних онтологій (AO), існуючих тільки в момент перетворення; активного контексту (AC) - множини знань, яка перетворюється, та пасивного контексту (PC) - множини знань, яка не перетворюється в процесі інтеграції баз даних. Встановлено зв'язки між цими поняттями та запропоновані множинні співвідношення, які мають вигляд:

, ,

(4)

де i,j - ідентифікатори інтегрованих баз даних; (*), (+), (-) - знаки перетину, об'єднання та різниці множин.

Таким чином, шляхом формування зазначених вище множин знань з'являється можливість зменшити кількість контекстних перетворювань і знизити вплив користувачів на галузь загальних онтологій.

Запропонований спосіб визначення показників якості даних, який базується на недоліках відображення множини - дійсна система у множину - інформаційна система F:{RS}->{IS}. Цей спосіб дозволяє зменшити кількість показників якості даних до чотирьох (точність, повнота, значимість, однозначність), що спрощує розрахунок інтегрального показника якості даних з метою отримання вірогідної оцінки якості в реальному масштабі часу.

Розроблені у другому розділі теоретичні висновки є базою для створення методів та алгоритмів контекстного обміну даними.

Третій розділ дисертаційної роботи присвячений розробці методів контекстного обміну даними, які базуються на теоретичних положеннях, розроблених у другому розділі. Цими методами є концептуалізація та контекстуалізація бази даних, пошук послідовностей контекстних перетворень, оцінювання якості даних відношень та представлень бази даних.

Концептуалізація БД - створення концептуальної моделі БД у внутрішньому представленні системи. Фізичне представлення баз даних містить таблиці у третій нормальній формі, а також запити, які зв'язують ці таблиці в представлення, тому концептуалізація проводиться в два етапи.

Перший етап - формування внутрішнього представлення таблиць. На цьому етапі аналізуються усі таблиці і формується список концептів {A}, якими є атрибути таблиць; визначаються залежності між неключовими і ключовими атрибутами, та для кожної такої залежності визначається предикат K (AК , Ai), де AК Є {A} - ключовий атрибут; Ai Є {A} - неключовий атрибут. Для складених атрибутів формуються предикати, що вказують на наявність зв'язку HAS_PART між складеним атрибутом і його частиною HP(AС ,Aі), де AС Є {A} - складений атрибут; Аі Є {A} - частина складеного атрибуту. Таким чином, формується множина таблиць {Т}, кожна з которих містить список атрибутів.

Другий етап концептуалізації бази даних - декомпозиція запиту та зв'язування таблиць. Кожен запит, який формує представлення має загальний вигляд:

Qі = select {AN}і from {TM}і where {L}і (5)

де {AN} - список оригінальних імен атрибутів; {TM} - список оригінальних імен таблиць; {L} - послідовність логічних операцій.

На множинах {AN} та {TM} проводиться пошук пар атрибутів для зв'язування таблиць, на множинах {AN} та {L} формується реляційна операція Rі. Якщо запит є складним Q = {Qі}, то формується послідовність реляційних операцій R = {Rі}, на базі якої формуються зв'язки між таблицями.

Контекстуалізація бази даних - процес детектування конфліктів та побудова багаторівневої контекстної моделі бази даних. Суть цього процесу полягає в тому, щоб побудувати необхідне число рівнів контексту при інтеграції баз даних. Контекстна модель бази даних являє собою множину:

DBCM = { {A}, {P}, {HP}, {M} } (6)
де {A} - множина предметних змінних або концептів предметної галузі; {P} - множина предикатів, що зв'язують предметні змінні; {HP} - множина предикатів HAS_PART; {M} - множина предикатів-властивостей.
Для побудови контекстної моделі бази даних проводиться пошук відношень рівності та еквівалентності на останньому існуючому N-рівні (якщо існує тільки базовий рівень, то N=0) між концептами х Є {AN i} і у Є {AN j} баз даних i та j. Якщо D(х,у)=1, то конфлікт між концептами відсутній. Якщо Е(х,у)=1, то між концептами існує семантичний конфлікт, для усунення якого потрібна побудова нового вищого рівня контекстної моделі, побудова зв'язків M(х,х1) і M(у,у1) між концептами та їх властивостями, та побудова зв'язку між концептами х1 Є {AN+1 i} і у1 Є {AN+1 j} на новому N+1-рівні контекстної моделі. Така побудова базується на галузі онтологій. Якщо на деякому рівні концепти довелось зв'язати тільки смисловими предикатами P та предикатами рівності, контекстну модель інтегрованих баз даних можна вважати побудованою.
На етапі пошуку послідовностей контекстних перетворень відбувається їх визначення на кожному з рівнів контексту у випадку конфлікту. Визначення послідовності перетворень між значеннями двох баз зводиться до розв'язання задачі пошуку семантики відношення між двома відповідними концептами х та у. Такий пошук відбувається починаючи з базового та закінчуючи найвищим рівнем контекстної моделі бази даних. На кожному N-му рівні контекстної моделі проводиться побудова предиката альтернатив А(хN,уN) як предикатної операції над усіма предикатами, які входять у множину {D,E,PN}. Розв'язання цієї задачі розробляється методом резолюцій. Якщо в альтернативі є предикат еквівалентності Е(х,у), то пошук послідовностей перетворень проводиться на наступному рівні контекстної моделі між властивостями (хN+1,уN+1) концептів (хN,уN). Пошук послідовностей перетворень закінчується, коли в альтернативі відсутні предикати еквівалентності. Таким чином, послідовністю контекстних перетворень є множина:
CCSq = { {X}, {Y}, {P}, {HP}, {M}, {D}, {*}, {+} } (7)
де {X}, {Y} - множини предметних змінних або концептів предметної галузі баз даних, між якими ведеться пошук перетворень; {P} - множина предикатів, що зв'язують предметні змінні; {HP} - множина предикатів HAS_PART; {M} - множина предикатів-властивість; {D} - множина предикатів рівності та еквівалентності; {*}, {+} - предикатні операції добутку та суми.

Перетворення бази даних на основі інтерпретації отриманих послідовностей перетворень проводиться, починаючи з вищого рівня контексту та закінчуючи базовим рівнем. При цьому предикат Р вказує на виклик методу перетворення, предикати HP та D вказують на відсутність перетворень, предикат М - між пердметною змінною та її властивістю, предикатна операція (*) вказує на безпосереднє слідування методів перетворення, що викликаються, предикатна операція (+) вказує на альтернативність перетворень. Таким чином на основі інтерпретації отриманих послідовностей перетворень проводиться фізичне перетворення інтегрованих баз даних.

В роботі розроблено метод оцінювання показників якості даних. Для опису цього методу вводяться деякі припущення: інформаційна система (IS) моделює дійсну систему (RS); для IS базовою моделлю є реляційна модель; IS складається з таблиць, які реалізують прості відношення, та запитів, що формують представлення; представлення побудовані за правилами реляційної алгебри. З цього походить, що: кожна таблиця IS моделює клас об'єктів RS; таблиця є множиною кортежів; кожен кортеж таблиці моделює екземпляр об'єкту RS; кожна ознака кортежу моделює властивість об'єкту.

Об'єкти RS вступають у відношення між собою. У дослідженій моделі такими відношеннями є операції реляційної алгебри. Таким чином, задача виявлення якості даних зведена до задачі оцінювання якості даних відображень.

Для чисельної оцінки якості даних відношень та представлень баз даних запропоновано метод, що базується на таких визначеннях, поняттях і твердженнях: R - відношення БД, |R| - кількість кортежів відношення; існує чотири показника якості даних: М - значимість, C - повнота, U - однозначність, A - точність. Кожному показнику якості даних відповідає зворотній (IM, IC, IU, IA).

Профіль якості даних відношення бази даних - вектор, координатами якого є показники якості даних:

(8)

Узагальнена формула для визначення інтегрального показника якості даних таблиці приймає такий вигляд:

(9)

де Q - інтегральний показник якості даних таблиці; і - номер часткового показника; ai - ваговий коефіцієнт часткового показника; qi - значення часткового показника якості даних.
Базуючись на означеннях операцій реляційної алгебри, можливо оцінити показники якості даних представлень. У роботі розроблено метод обчислення точності даних представлення ADB як функцій від точності таблиць AT і точності відношень-результатів операцій реляційної алгебри AR:
ADB = F ( {AT}, {AR} ) (10)

При цьому чисельне значення якості даних представлення є якість даних результату останньої операції запиту, що формує ці представлення.

У системі контекстного обміну даними якість даних має важливе значення. Обчислення показників якості даних допомагає визначити базу даних, до якої необхідно приводити контекст інших БД, встановити пріоритети БД для їх інтеграції або відмовити в інтеграції, розробити рекомендації з використання БД у різних контекстах.

У четвертому розділі розроблені алгоритми, які базуються на методах контекстного обміну даними та визначення якості даних, розроблених у третьому розділі. На основі цих алгоритмів розроблена інформаційна технологія, яка є базою для побудови системи контекстного обміну даними, структура якої подана на рис. 1. Ця система складається з трьох підсистем: підсистеми придбання та обробки контекстних знань, підсистеми маніпулювання контекстними знаннями та підсистеми маніпулювання даними. Якщо фізичне представлення бази даних змінюється, достатньо лише змінити підсистему маніпулювання даними на аналогічну підсистему, яка підтримує інший формат бази даних.

алгоритм якість інформаційний база

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Рис. 1. Структура системи контекстного обміну даними

Діаграма потоків даних системи контекстного обміну даними у нотації Чена подана на рис 2. На діаграмі зображені потоки: T- таблиці, Q - запроси, A атрибути (концепти), P - предикати, HP - предикати HAS_PART, M - предикати-властивість, DBCM - контекстна модель бази даних, CSq - послідовність контекстних перетворень; сховища: DB - база даних, ERM - концептуальна модель бази даних, base level - базовий рівень контекстної моделі, CO - загальні онтології, IC - внутрішній контекст, DBCM - контекстна модель бази даних, CSq - послідовність контекстних перетворень, DBc - перетворена база даних; процеси: 1- побудова концептуальної моделі бази даних, 2 - побудова базового рівня контекстної моделі бази даних, 3 - побудова багаторівневої контекстної моделі бази даних, 4 - побудова послідовності контекстних перетворень, 5 - перетворення концептуальної моделі бази даних, 6 - перетворення бази даних.

Рис. 2. Діаграма потоків даних системи контекстного обміну даними

На основі одержаних теоретичних результатів розроблено програмний комплекс інформаційної підтримки хроматографічного експерименту, який використовує інформаційну технологію контекстного обміну даними для інтеграції баз даних, які містять інформацію про проведені хроматографічні експерименти. Основна мета функціонування комплексу: використовуючи дані баз даних прототипів, виявити закономірності змін форми хроматограм при змінах структурної формули речовини та умов експерименту і знайти оптимальні умови експерименту для речовин, які досліджуються. Разом з технічним засобом хроматографом цей комплекс є частиною АСУ гнучким автоматизованим виробництвом лікарських препаратів. Нині існують подібні комплекси інформаційної підтримки хроматографічного експерименту на різних підприємствах з виробництва лікарських препаратів, та їх бази даних містять достатньо великі обсяги даних про вже проведені експерименти. Ці дані можливо використовувати, з'єднавши їх з даними розробленого комплексу. Але при такому з'єднанні виникають вже згадані схематичні та семантичні конфлікти. Для розв'язування цих конфліктів до комплексу інформаційної підтримки хроматографічного експерименту введена підсистема контекстного обміну даними, яка дозволяє трансформувати дані баз даних, що підключаються.

Для інтеграції баз даних прототипів хроматограм необхідно вирішити конфлікти структур, представлень, метрик та імен значень. Останні з перерахованих конфліктів відносяться до другого рівня структури конфліктів, тому була використана трьохрівнева (другого порядку) контекстна модель баз даних. Обробка баз даних згідно з технологією контекстного обміну даними проводиться у чотири етапи: концептуалізація, контекстуалізація, пошук послідовностей контекстних перетворень, фізичне перетворення баз даних на основі інтерпретації одержаних ланцюгів контекстних перетворень.

У додатках наведено концептуальні моделі інтегрованих баз даних, контекстні моделі баз данних з використанням метасемантичної мережі та логіки предикатів вищих порядків, форми програмної підсистеми контекстного обміну даними.

ВИСНОВКИ

У дисертації наведене теоретичне узагальнення і нове вирішення наукової задачі, що виявляється в розробці інформаційної технології на підставі методів, моделей та алгоритмів контекстного обміну даними. Ця технологія реалізована у вигляді програмної системи та може бути використана для розв'язання задачі коректної взаємодії семантично різнорідних баз даних автоматизованих систем обробки інформації та управління. У ході дослідження досягнуті наступні результати:

Обгрунтована доцільність використання контекстного обміну даними для вірішення проблеми інтеграції різнорідних баз даних, що дало можливість визначити напрямок досліджень як розробку нової інформаційної технології контекстного обміну даними.

Обгрунтований вибір багаторівневих семантичної мережі та логіки предикатів, як базових моделей знань для побудови контексту бази даних. Це дало підставу для розробки теоретичних основ побудови системи контекстного обміну даними

Розроблені моделі представлення знань системи контекстного обміну даними з використанням метасемантичної мережі (2) та логіки предикатів вищих порядків (3), теоретично обґрунтована можливість заміни метасемантичної мережі логікою предикатів вищих порядків при описі контекстної моделі бази даних. Обгрунтована доцільність використання логіки предикатів вищих порядків для побудови контексту бази даних, що дає можливість застосування математичних та програмних засобів логіки предикатів для реалізації бази знань системи контекстного обміну даними.

Реструктуризована база знань системи контекстного обміну даними шляхом введення понять активних онтологій, активного і пасивного контексту (4) з метою зменшення кількості контекстних перетворень. Представлені теоретико-множинні співвідношення між цими поняттями. Це дозволяє зменшити кількість контекстних перетворювань у процесі інтеграції баз даних.

Запропонований новий принцип визначення показників якості даних, який базується на недоліках відображення дійсної системи в інформаційну систему. Цей принцип дозволяє зменшити кількість показників якості (8), що спрощує розрахунок інтегрального показника якості даних (9).

Розроблені методи концептуалізації (5), контекстуалізації (6) та пошуку послідовностей контекстних перетворень бази даних (7), які застосовані у новій інформаційній технології контекстного обміну даними для вирішення задачі інтеграції різнорідних баз даних. На підставі цих методів розроблені алгоритми функціонування системи контекстного обміну даними

Розроблені методи оцінки якості даних інформаційної системи, розроблені алгоритми оцінки показників якості даних для відношень і представлень бази даних (10). На прикладі оцінки показника точності продемонстрована процедура отримання чисельної оцінки показників якості даних.

На підставі нової інформаційної технології розроблена структура системи контекстного обміну даними, яка складається з трьох підсистем: підсистема придбання та обробки контекстних знань, підсистема маніпулювання контекстними знаннями та підсистема маніпулювання даними. Якщо фізичне представлення бази даних змінюється, достатньо лише змінити підсистему маніпулювання даними на аналогічну підсистему, яка підтримує інший формат бази даних.

Система контекстного обміну даними програмно реалізована та може бути використана для інтеграції будь-яких різнорідних баз даних з метою їх коректної взаємодії. Система впроваджена у вигляді підсистеми контекстного обміну даними програмного комплексу інформаційної підтримки хроматографічного. Комплекс використовується у Фармакопійному комітеті Коммедбіопрому України, що дозволяє скоротити час вибору оптимальних параметрів хроматографування на підставі інформації, яка зберігається в семантично різнорідних базах даних.

ПУБЛІКАЦІЇ ЗА ТЕМОЮ ДИСЕРТАЦІЇ

Дударь З.В., Белецкий Е.В., Логвиновский А.А. Структура контекстного обмена // АСУ и приборы автоматики.- Х., 1997.- № 104. - С. 117-122.

Дударь З.В., Белецкий Е.В., Калиновский А.С., Мокрый Е.В. Стратегии разрешения проблем взаимодействующих систем баз данных // АСУ и приборы автоматики.- Х., 1997.- № 105. - С. 97-100.

Бондаренко М.Ф., Дударь З.В., Белецкий Е.В., Байгозина О.Г. Сруктура системы контекстного обмена данными. // Проблемы бионики. -Х., 1999.Вып.50.- С. 18-24.

Белецкий Е.В. Модель знаний контекстного посредника. // Проблемы бионики. -Х., 2000. -Вып.51.- С. 56-59.

Бондаренко М.Ф., Дударь З.В., Белецкий Е.В. О методе определения качества данных в системах, поддерживающих контекстную обработку информации. // Информационные технологии: наука, техника, технология, образование, здоровье.- Х., -1998.- С. 183-185.

Biletskiy Ye.V. Kulikov A.Yu. System of Automated Modeling Chromotographical Process. // School of Foundamental Medicine Journal.- 1998.- № 2.-P. 80-81.

Дударь З.В., Белецкий Е.В. Контекстный обмен данными для решения проблемы логического соединения в крупномасштабных системах баз данных. // III межд. конф. “Теория и техника передачи, приема и обработки информации”: Тез. докл.- ХТУРЭ, Туапсе.- 1997.- С. 294.

Бондаренко М.Ф., Дударь З.В., Белецкий Е.В. Активные онтологии в структуре контекстного обмена данными. // IV межд. конф. “Теория и техника передачи, приема и обработки информации”: Тез. докл.- ХТУРЭ, Туапсе.- 1998.- С. 241.

АНОТАЦІЯ

Білецький Є.В. Методи, моделі та алгоритми контекстного обміну даними та їх використання при проектуванні інформаційних систем. - Рукопис.

Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.13.06 - автоматизовані системи управління та прогресивні інформаційні технології - Харківський державний технічний університет радіоелектроніки, Харків, 2000.

Дисертація присвячена питанням розробки інформаційної технології контекстного обміну даними. В роботі вперше використана логіка предикатів вищого порядку як модель знань системи контекстного обміну даними. Введені предикат-властивість, предикат альтернатив, що дозволило сформувати многорівневу контекстну модель бази даних засобами логіки предикатів вищіх порядків. Розроблено метод оцінювання якості даних, який базується на теорії множин. Цей метод дозволяє мінімізувати кількість показників якості даних, що спрощує розрахунок інтегрального показника якості даних. Розроблені методи та алгоритми концептуалізації та контекстуалізації бази даних і пошуку послідовностей перетворень контекстів, які базуються на моделюванні контекстних знань засобами логіки предикатів вищих порядків. Розроблена нова інформаційна технологія, що базується на методах та алгоритмах контекстного обміну даними. Створена підсистема контекстного обміну даними програмного комплексу інформаційної підтримки хроматографічного експерименту, впровадженого в Фармакопійному комітеті Коммедбіопрому України.

Ключові слова: різнорідні бази даних, контекстний обмін даними, контекстна модель бази даних, логіка предикатів вищих порядків, якість даних, концептуалізація, контекстуалізація, контекстні перетворення.

АННОТАЦИЯ

Белецкий Е.В. Методы, модели и алгоритмы контекстного обмена данными и их использование при проектировании информационных систем. - Рукопись.

Диссертация на соискание ученой степени кандидата технических наук по специальности 05.13.06 - автоматизированные системы управ-ления и прогрессивные информационные технологии - Харьковский государственный технический университет радиоэлектроники, Харьков, 2000.

Диссертация посвящена вопросам разработки информационной технологии контекстного обмена данными. В работе впервые использована логика предикатов высших порядков как модель знаний системы контекстного обмена данными. Введены предикат-свойство, предикат альтернатив, что позволило сформировать многоуровневую контекстную модель базы данных средствами логики предикатов высших порядков. Разработан метод оценки качества данных, который базируется на теории множеств. Этот метод позволяет минимизировать количество показателей качества данных, что упрощает расчет интегрального показателя качества данных. Разработаны методы и алгоритмы концептуализации и контекстуализации базы данных и поиска последовательностей преобразований контекстов, которые базируются на моделировании контекстных знаний средствами логики предикатов высших порядков. Разработана новая информационная технология, которая базируется на методах и алгоритмах контекстного обмена данными. Создана подсистема контекстного обмена данными комплекса информационной поддержки хроматографического эксперимента, который внедрен в Фармакопейном комитете Коммедбиопрома Украины. Ключевые слова: разнородные базы данных, контекстный обмен данными, контекстная модель базы данных, логика предикатов высших порядков, качество данных, концептуализация, контекстуализация, контекстные преобразования.

ABSTRACT

Biletskiy Ye.V. Data Context Interchange Methods, Models and Algorithms and It Using in the Information Systems Projecting Process. - Manuscript.

Thesis for a candidate degree of the technical sciences on the specialty 05.13.06 - Automated Control Systems and Progressive Information Technologies - Kharkiv State Technical University of Radioelectronics, Kharkiv, 2000.

This work is devoted to development of the data context interchange information technology. The research direction of this work is the development of the database context creation theory allowing users to employ a heterogeneous database as a simple semantically homogeneous database using the database context. Here, we investigate the approaches of the semantically heterogeneous databases integration, the strong link, weak link and context interchange approaches are compared. The data conflicts between databases under their interaction are analyzed. It is shown, the data context interchange approach is the most effective approach for elimination of data conflicts. The knowledge models usable by context mediator are researched. The meta-semantic net and higher order predicate logic models were assumed as based knowledge models for context mediator. The information system data quality estimation basic methods are researched. The main disadvantages of existing data quality estimation methods are exposed, their using in the real scale of time was proved not expedient.

The theoretical basics of the data context interchange system construction are researched. The knowledge models based on meta-semantic net and higher order predicate logic are developed. The meta-semantic net and higher order predicate logic were compared as the knowledge models. The conclusion was made that the main concepts of these models may be mutual changed. There was also proved the advantage of the higher order predicate logic as a knowledge model for a context mediator. The extended points concerning the problem of forming data context interchange system knowledge base are researched. Our work introduces new concepts such as active ontologies, micro-context, active context and passive context. The links between these concepts are set and theoretical-set ratios for them are proposed. The new way of the data quality dimensions definition is proposed, it allows to minimize their number to four (accuracy, completeness, meaningful and unambiguous) and simplify calculation of the integral data quality index in the real scale of time.

There were developed following context interchange methods: conceptualization, contextualization (context forming), context conversion sequence searching, and data quality estimation basing on theory of sets. The method of definition of data quality indexes is created; it is based on the set theory. The main data quality dimensions are looked over and the common formula for estimation of the integral data quality index is proposed. The calculation method of the data accuracy of a representation is developed due to the function of the table accuracy and the relational algebra relation accuracy. Here it is proved the fact that a data quality value of a representation is the data quality value of the last query operation forms this representation.

The algorithms based on the data context interchange and the data quality definition methods are developed. Basing on these methods, the information technology is developed; it is the base for forming data context interchange system. The structure of this system is represented. Basing on the theoretical conclusions, the Complex for Chromatography Experiment Information Support is created. The complex contains the context interchange subsystem and uses the data context interchange information technology for integration of databases consisting of the semantically heterogeneous information about completed chromatografy experiments. This complex is implemented in the Ukraine Commedbioprom Pharmacopoeia Committee. Usage of this complex allows reducing time of the optimal chromatography parameters selection.

Keywords: heterogeneous databases, data context interchange, the higher order predicate logic, quality of the data, conceptualization, contextualization, context conversion.

Размещено на Allbest.ur

...

Подобные документы

  • Загальна характеристика існуючих методів обміну даними між компонентами MS Office, їх властивості та напрямки використання. Формат даних, що вставляються з буфера обміну. Відмінності у властивостях створених, впроваджених та вставлених даних.

    курсовая работа [190,2 K], добавлен 07.02.2003

  • Апаратна організація Web-серверу гнучкої комп’ютеризованої системи в середовищі Linux Debian. Забезпечення обміну даними між персональним комп’ютером і зовнішніми вимірювальними приладами, прийом/передача даних крізь USB-інтерфейс в системи обміну даними.

    дипломная работа [3,3 M], добавлен 25.10.2012

  • Узагальнена структурна схема інформаційної системи та алгоритми її роботи. Проект бази даних. Інфологічне проектування і дослідження предметної області. Розробка інфологічної моделі предметної області. Розробка композиційної, логічної системи бази даних.

    курсовая работа [861,7 K], добавлен 21.02.2010

  • Види секретної інформації та методи захисту. Тип і об’єм вхідних даних. Програмна реалізація системи алгоритму шифрування зі стисненням. Призначення та опис програмного продукту Export. Алгоритми захисту зберігання та обміну секретною інформацією.

    дипломная работа [1,1 M], добавлен 19.09.2012

  • Створення і використання індексів та переглядів БД. Створення і використання тригерів, генераторів та збережених процедур на боці SQL-сервера. Отримання практичних навичок обміну даними між прикладенням і БД. Перегляд записів зв’язаних таблиць БД.

    лабораторная работа [1,9 M], добавлен 08.06.2009

  • Апаратні та програмні засоби комп'ютерних мереж, необхідність об'єднання ПК у одне ціле - локальну обчислювальну мережу. Вимоги, які висуваються до сучасних технологій обміну даними. Середовище обміну, канали, пристрої передавання та приймання даних.

    реферат [549,2 K], добавлен 18.03.2010

  • Поняття та основна мета створення інформаційної системи, її різновиди та процедура побудови, підходи до обробки. Концепція баз даних та методи керування ними, предметна область і процес проектування. Структурована мова запитів SQL, елементи та оператори.

    учебное пособие [1,7 M], добавлен 14.11.2009

  • Методи використання традиційних файлових систем - набору програм, які виконують для користувачів деякі операції, наприклад, створення звітів. Системи керування баз даних. Основні поняття реляційної моделі даних. Реляційна алгебра і реляційне числення.

    реферат [40,2 K], добавлен 13.06.2010

  • Використання баз даних та інформаційних систем. Поняття реляційної моделі даних. Ключові особливості мови SQL. Агрегатні функції і угрупування даних. Загальний опис бази даних. Застосування технології систем управління базами даних в мережі Інтернет.

    курсовая работа [633,3 K], добавлен 11.07.2015

  • Побудування інформаційної концептуальної моделі дошкільного навчального закладу. Визначення ідентифікуючого набора атрибутів інформаційної системи. Відомості про структуру програми, мова програмування. Код створення бази даних на мові Transact-SQL.

    курсовая работа [433,7 K], добавлен 27.03.2016

  • Розгляд процесу автоматизації бази даних для довідника астронома. Основи реляційних баз даних для проектування інформаційних систем. Застосування тригерів для забезпечення цілісності даних і реалізації складної бізнес–логіки в системних процедурах.

    курсовая работа [22,3 K], добавлен 12.03.2019

  • Визначення інформаційних систем. Загальна характеристика складових частин внутрішньої інформаційної основи систем. Пристрої перетворення графічної інформації в цифрову. Системи управління базами даних. Технологія створення карт засобами MapInfo.

    реферат [39,4 K], добавлен 05.12.2013

  • Аналіз відомих підходів до проектування баз даних. Моделі "сутність-зв'язок". Ієрархічна, мережева та реляційна моделі представлення даних. Організація обмежень посилальної цілісності. Нормалізація відносин. Властивості колонок таблиць фізичної моделі.

    курсовая работа [417,6 K], добавлен 01.02.2013

  • База даних як організована структура, призначена для зберігання інформації. Проектування та реалізація в СУБД MS Access інформаційної системи "База даних Internet-ресурсів тестів з психології". Розробка логічної системи даних, інструкції користувача.

    курсовая работа [5,3 M], добавлен 22.10.2012

  • Можливості застосування середовища MySQL для роботи з базами даних. Завдання системи SQL Server. Розробка концептуальної моделі бази даних "Сервісний центр". Створення таблиць phpmyadmin, заповнення їх даними. Створення запитів і зв’язків у phpmyadmin.

    курсовая работа [2,3 M], добавлен 27.05.2015

  • База даних - фундаментальний компонент інформаційної системи. Визначення технічного завдання для проекту. Підготовка певної додаткової інформації. Розробка та супровід стандартів. Стандарти - основа для навчання персоналу та організації контролю якості.

    презентация [535,8 K], добавлен 21.11.2013

  • Проектування інформаційної системи для супроводу баз даних. Моделі запиту даних співробітником автоінспекції та обробки запиту про машини та їх власників. База даних за допомогою SQL-сервер. Реалізація запитів, процедур, тригерів і представлення.

    курсовая работа [1,7 M], добавлен 18.06.2012

  • Проектування інформаційної системи; концептуальне (інфологічне) проектування, побудова ER-діаграми, нормалізація даних. Даталогічне проектування баз даних, фізичне проектування інформаційних систем. СУБД Access: об'єкти, створення таблиць, запитів, форм.

    курсовая работа [13,9 M], добавлен 09.01.2010

  • Виявлення основних сутностей предметної області. Побудова схеми реляційної бази даних. Вбудовані процедури і тригери. Опис архітектури програмної системи і концептуальної моделі бази даних, програмної реалізації та інтерфейсу користувача додатку.

    курсовая работа [4,3 M], добавлен 05.12.2012

  • Особливості експлуатації протоколу HTML (гіпертексту). Засоби обміну інформацією у ньому і підготовка даних у форматі HTML з використанням розширених засобів форматування даних. Основи використання таблиць каскадних стилів і активних елементів JavaScript.

    реферат [32,4 K], добавлен 26.04.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.