Комп'ютерні методи підвищення достовірності та повноти інтегрованих баз даних
Удосконалення методу діагностування даних на основі природної інформаційної надмірності. Створення моделі схожості рядків та методу злиття записів. Створення інформаційної технології для підвищення достовірності й повноти інтегрованих баз даних.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | автореферат |
Язык | украинский |
Дата добавления | 26.09.2015 |
Размер файла | 255,7 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Міністерство освіти і науки України
Національний аерокосмічний університет ім. М.Є. Жуковського “Харківський авіаційний інститут”
УДК 004.65:681.3.01
комп'ютерні МЕТОДИ підвищення достовірності та повноти інтегрованих баз даних
05.13.06 - інформаційні технології
Автореферат дисертації на здобуття наукового ступеня
кандидата технічних наук
Завгородній Андрій Юрійович
Харків 2008
Дисертацією є рукопис.
Роботу виконано в Національному аерокосмічному університеті ім. М.Є. Жуковського “Харківський авіаційний інститут” Міністерства освіти і науки України.
Науковий керівник:
доктор технічних наук, професор, лауреат Державної премії України Кулік Анатолій Степанович, Національний аерокосмічний університет ім. М.Є. Жуковського “Харківський авіаційний інститут”, завідуючий кафедрою систем управління літальних апаратів.
Офіційні опоненти:
доктор технічних наук, професор Безкоровайний Володимир Валентинович, Харківський національний університет радіоелектроніки, професор кафедри системотехніки;
кандидат технічних наук, доцент Бабенко Тетяна Василівна, Національний гірничий університет, керівник інформаційно-комп'ютерного комплексу.
Захист відбудеться “11” квітня 2008 р. о 14 годині на засіданні спеціалізованої вченої ради Д64.062.01 у Національному аерокосмічному університеті ім. М.Є. Жуковського “Харківський авіаційний інститут” за адресою: 61070, Харків-70, вул. Чкалова, 17.
З дисертацією можна ознайомитися в науково-технічній бібліотеці Національного аерокосмічного університету ім. М.Є. Жуковського “Харківський авіаційний інститут” (61070, Харків-70, вул. Чкалова, 17).
Автореферат розісланий “7” березня 2008 р.
Вчений секретар
спеціалізованої вченої ради Латкін М.О.
ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ
Актуальність теми. Безперервне зростання вимог до функціональності автоматизованих систем управління (АСУ), використання програмних продуктів, які були створені неодночасно та різними колективами розробників, призвели до того, що сучасну АСУ можна охарактеризувати як сукупність неоднорідних і розподілених підсистем. Разом із тим подальший розвиток, зокрема впровадження систем підтримки прийняття рішень, потребує інтеграції таких підсистем у єдиний інформаційний простір. Необхідною умовою успішного вирішення цієї задачі є створення засобів, які б дозволили отримувати користувачам АСУ достовірні й повні дані. Але сучасні засоби інтеграції найчастіше нездатні виконати цю умову. Так, через наявність недостовірних і неповних даних в АСУ виконання 33% інтеграційних проектів прийшлось зупинити, більше того, організації щорічно втрачають від 8 до 60% свого прибутку. Аналіз практики використання АСУ дозволяє також визначити головну причину появи недостовірних та неповних даних - помилки оператора, зумовлені обмеженістю його психофізіологічних можливостей.
Значний внесок у пошук шляхів розв'язання зазначених проблем зробили такі вчені, як Л. Інгліш, Т. Редман, В. Кім, В.А. Литвинов, В.В. Крамаренко, Е. Рам, Х.Б. Ньюкомб, Д. Кнут, А. Монге, В.І. Левенштейн, А.С. Кулік, М. Хернандес, А. Маркус, Дж. Малетик, Дж. Хіпп, Р. Агравал та інші. Так, аналізуючи роботи різних авторів, можна зазначити, що відомі методи інтеграції баз даних дозволяють підвищувати достовірність і повноту лише даних, наведених у декількох джерелах інформації. Разом із тим такого обмеження позбавлені методи, в яких використано природну інформаційну надмірність даних, тобто знання про конкретні особливості даних та їх сполучення. Відзначаючи безумовну корисність упровадження згаданих методів, слід зауважити, що постійне зростання обсягів даних, що обробляються, зумовлює потребу в створенні більш ефективних за швидкодією методів.
У той же час навіть комбіноване використання згаданих методів не може гарантувати досягнення прийнятних показників достовірності й повноти. Тому єдиним шляхом для їх підвищення залишається введення тимчасової надмірності, тобто дублювання введення інформації. Але у цьому випадку суттєво збільшується трудомісткість операцій, що виконуються операторами. Тому актуальною науково-технічною задачею є розробка нових методів підвищення достовірності й повноти даних у процесі інтеграції неоднорідних баз даних, що дозволяють раціонально використовувати надмірність.
Зв'язок роботи з науковими програмами, планами, темами. Робота над дисертацією проводилася автором на кафедрі систем управління літальних апаратів Національного аерокосмічного університету ім. М. Є. Жуковського “Харківський авіаційний інститут” у 2000-2007 рр. відповідно до плану науково-дослідних робіт за держбюджетними темами Д301-30/00 “Теоретичні основи синтезу і математичне моделювання інтелектуальних систем управління аерокосмічними об'єктами за наявності збурень” (ДР № 0100U002191), Д301-6/03 «Розробка науково обґрунтованих методів та інструментальних засобів автоматизації прийняття рішень при управлінні адміністративно-господарчою діяльністю сучасного вищого навчального закладу» (ДР № 0103U004079) та за грантом Президента України “Розробка комп'ютерної системи інтелектуальної підтримки прийняття рішень при управлінні адміністративно-господарчою діяльністю сучасного вузу” (ДР № 0105U006872). Особисто автором, який був одним із співвиконавців робіт, у межах зазначених тем було проведено аналіз результатів, що було досягнуто при інтеграції даних, запропоновано новий метод злиття записів, створено модель даних про персонал університету для буфера сховища даних.
Мета і задачі дисертаційного дослідження. Дисертаційне дослідження проводилося з метою підвищення ефективності процесу інтеграції баз даних для корпоративного управління за допомогою використання надмірності, що дозволить підвищити достовірність і повноту даних. Для досягнення поставленої мети було визначено такі задачі:
1. Провести аналіз існуючих методів підвищення достовірності й повноти баз даних.
2. Розробити метод інтеграції баз даних, що враховує достовірність і повноту даних.
3. Удосконалити метод діагностування даних на основі природної інформаційної надмірності.
4. Створити модель схожості рядків та удосконалити метод злиття записів.
5. Удосконалити метод пошуку природної інформаційної надмірності.
6. Створити інформаційну технологію для підвищення достовірності й повноти інтегрованих баз даних.
7. Впровадити створену інформаційну технологію у реальні АСУ і оцінити ефективність її використання.
Об'єкт дослідження - процес інтеграції баз даних в автоматизованих системах управління. інтегрований база дані інформаційний
Предмет дослідження - методи підвищення достовірності й повноти інтегрованих баз даних.
Методи дослідження. У дисертаційній роботі при дослідженні процесу інтеграції баз даних в АСУ використані методи системного аналізу, теорії ймовірності для оцінки показників достовірності й повноти, теорії сигнально-параметричного діагностування, методи теорії множин і числення предикатів для створення методу діагностування даних; методи теорії множин для ство-рення моделі схожості рядків; теорії скінченних автоматів для розробки процедури порівняння рядків; при розробці методу набуття знань про дані - методи аналізу даних, теорії алгоритмів і теорії перешкодостійкого кодування для створення компактного відображення відношення.
Наукова новизна одержаних результатів
1. Вперше розроблено метод інтеграції, оснований на злитті неоднорідних баз даних, в якому на відміну від існуючих ефективно використано структурну, інформаційну та тимчасову надмірності, що дозволяє підвищити достовірність і повноту інформації в корпоративних системах управління.
2. Удосконалено метод підвищення достовірності баз даних на основі інформаційної надмірності шляхом використання діагностичних моделей, що дозволяють послідовно знімати невизначеність щодо стану даних за допомогою непрямих ознак наявності помилок і дають можливість підвищити швидкодію методу.
3. Удосконалено метод пошуку природної інформаційної надмірності шляхом введення компактного відображення вихідного відношення та пошуку рішення у відображенні, що дозволило підвищити швидкодію методу.
4. Дістало подальшого розвитку метод злиття записів за допомогою побудованої доменно-незалежної моделі схожості рядків, що враховує специфіку введення даних людиною-оператором і передбачає можливість використання скорочень та абревіатур.
Практичне значення отриманих результатів. У результаті впровадження розроблених методів і засобів у складі підсистеми підвищення достовірності й повноти даних автоматизованої системи управління персоналом університету «ХАІ» (АСУ ПУ «ХАІ») достовірність і повнота даних системи підвищилися на 8 і 5% відповідно. Для забезпечення показників достовірності й повноти на рівні 99,35 та 98,08% було розроблено рекомендації, що передбачають додаткове введення семи (16,3% від загальної кількості) атрибутів, у той час як організація подвійного введення усіх атрибутів АСУ ПУ «ХАІ» без застосування запропонованих методів дозволила б забезпечити достовірність і повноту даних на рівні 98,73 та 98,06% відповідно. Впровадження цієї ж системи для підвищення достовірності й повноти даних автоматизованої системи документообігу, що супроводжує збут готової продукції НВП «Хартрон-Плант» (АСУ ЗГП «Плант»), дало можливість підвищити відповідні показники на 9,2 та 1,5%. Для подальшого підвищення показників розроблено рекомендації, згідно з якими потрібно організувати додаткове введення дев'яти атрибутів (12%), що дозволить підвищити відповідні показники в АСУ ЗГП «Плант» на 10,3 та 5,9%.
Теоретичні результати дисертаційної роботи у вигляді методів пошуку знань і діагностування даних упроваджено в навчальний процес університету «ХАІ» на кафедрі систем управління літальними апаратами.
Результати наведених вище впроваджень засвідчено відповідними актами.
Особистий внесок здобувача. У працях, опублікованих разом із співавторами, особисто здобувачу належать такі результати, як математичне забезпечення методу пошуку схожих рядків [1], математичне забезпечення методу діагностування даних [2], функціональна декомпозиція підсистеми інтеграції даних [4], структурна декомпозиція підсистеми підвищення якості даних [5,17], реалізація перевірки необхідних умов схожості при використанні відстані Левенштейна як критерію схожості двох рядків [7], аналіз шляхів підвищення якості даних АСУ ПУ «ХАІ» на етапі її впровадження у діяльність університету [8], доказ запропонованих необхідних умов схожості рядків при використанні відстані редагування абревіатур як критерію схожості [9], доказ діагностованості запропонованих діагностичних моделей даних [10], виявлення місця процедур діагностування даних [11], аналіз можливих джерел набуття знань про дані [12], опис існуючих методів пошуку схожих рядків [13], формалізація понять скорочення і абревіатура [14], процедура обчислення відстані редагування абревіатур [15], математичне забезпечення методу пошуку асоціативних правил [16]. Роботи [3,6] виконані без співавторів.
Апробація результатів дослідження. Основні положення і результати дисертації доповідалися і обговорювалися на засіданнях кафедри систем управління літальних апаратів Національного аерокосмічного університету ім. М. Є. Жуковського “Харківський авіаційний інститут”. Деякі положення та результати викладалися на науково-технічних конференціях: “Автоматика-2002”, Донецьк, 2002 р.; “Інформаційні комп'ютерні технології в машинобудуванні”, Харків, 2002, 2004, 2005 рр.; “Інформаційні технології в системі керування вищою освітою України”, Херсон, 2004 р.; “Автоматизація, технологія та якість в машинобудуванні”, Донецьк, 2004 р.; “Дні науки `2005”, Дніпропетровськ, 2005 р.; «East-West Fuzzy Colloquium», Ціттау, Німеччина, 2005-2006 рр.; «Гарантоздатні (надійні та безпечні) системи, сервіси та технології», Полтава, 2006 р.
Публікації. Результати дисертаційної роботи відображено в 17 публікаціях. Серед них: 1 свідоцтво про реєстрацію авторського права на твір, 3 статті у наукових журналах, 2 статті у збірниках наукових праць, що включені в список видань ВАК України, 1 стаття у науково-технічному журналі і 10 тез доповідей, які опубліковано за матеріалами науково-технічних конференцій, симпозіуму та семінару.
Структура і обсяг роботи. Дисертаційна робота має у своєму складі вступ, чотири розділи, висновки і три додатки, викладена на 176 сторінках, у тому числі 32 рисунки по тексту, 1 рисунок на окремій сторінці, 5 таблиць по тексту, список літературних джерел із 135 найменувань на 13 сторінках, 3 додатки на 31 сторінці.
основний Зміст роботи
У вступі обґрунтовано актуальність вибраної теми. Висвітлено ії зв'язок із науковими програмами, планами і темами. Сформульовано мету й задачі дисертаційного дослідження. Показано наукову новизну та практичне значення отриманих результатів. Відображено особистий внесок здобувача й наведено дані про апробацію та публікації результатів дисертації.
У першому розділі проаналізовано сучасний стан проблеми інтеграції розподілених АСУ. Показано, що у випадку наявності успадкованих систем, внесення змін до яких дуже ускладнено, слід вибрати підхід, що базується на інтеграції даних організації шляхом створення єдиного сховища даних. Виходячи з аналізу літературних джерел виділено проблему «брудних» або неякісних даних, як таку, що заважає успішному впровадженню та функціонуванню проектів орієнтованих на побудову сховищ даних. Розглянуто існуючі підходи до оцінки якості даних і проаналізовано ситуації, коли використання неякісних даних призводило до істотних матеріальних втрат, неможливості впровадження нових прогресивних інформаційних технологій, провалу окремих проектів або навіть до загибелі людей. Результат аналізу таких ситуацій дозволяє відокремити показники достовірності й повноти даних як ключові показники якості даних, підвищення яких дозволить уникнути таких ситуацій. На базі критичного аналізу існуючих методів підвищення достовірності й повноти даних сформульовано задачі, розв'язання яких необхідно для досягнення мети дослідження.
Основний зміст розділу опубліковано у роботах [1,2,4-6, 9,10,13].
Другий розділ присвячено розробці методу інтеграції даних в АСУ та розбито на чотири підрозділи.
У першому підрозділі з точки зору даного дослідження розглянуто загальний процес функціонування організації з впровадженою АСУ. Відповідно до робіт А. Мотро достовірність і повноту даних кожного джерела даних Sch, що входить до складу АСУ, можна оцінити як
, , (1)
де джерело Sch визначається як сукупність реляційних відношень Sch={R1,R2,…,Rq}; SSch, CSch -показники достовірності й повноти джерела Sch; q - кількість відношень у Sch; , - показники достовірності й повноти і-го відношення з Sch. Згідно зі згаданими вище роботами, кожен доданок з (1) обчислюється за допомогою процедури, суттю якої є порівняння реального відношення з еталонним. Оскільки одержання еталону не завжди є можливим, була запропонована процедура обчислення достовірності й повноти даних відношення, яка базується на ймовірностях виникнення неякісних даних і може бути визначена за допомогою таких рівнянь:
,, (2)
(3)
(4)
де Ri - i-те відношення Sch із заголовком {A0:T0, A1:T1, …, Ah:Th}, Aj - ім'я атрибута, Tj - домен, на якому визначено атрибут; A0 - ключовий атрибут; jR - відношення, отримане як проекція відношення Ri за ключовим та j-м атрибутами; (h+1) - кількість атрибутів у Ri; pim - ймовірність того, що кортеж з ідеального відношення буде пропущено при введенні даних; pid - ймовірність того, що кортеж з ідеального відношення буде продубльовано в реальному відношенні; pjRi - ймовірність того, що після усунення кортежів, що дублюються, j-й атрибут випадково вибраного кортежу буде помилковим.
Таким чином, отримавши експериментально або за допомогою експерта оцінки pim, pid, pjRi для кожного відношення джерела та використавши залежності (1)-(4), можна отримати показники достовірності й повноти даних у кожному джерелі.
У другому підрозділі проаналізовано результати, яких можна досягти за допомогою впровадження традиційного процесу інтеграції даних. Використання нових методів злиття записів, в яких враховано специфіку введення даних людиною-оператором, дозволить отримати такі результати. По-перше, в усіх відношеннях буфера сховища даних Schbuf ={Rbuf_1,Rbuf_2,…,Rbuf_l} виявляються і, отже, усуваються кортежі, що дублюються, тобто . По-друге, кортеж може бути пропущено тільки тоді, коли цей кортеж пропущено в кожному з джерел, отже, , де u - кількість джерел, в яких наведено і-те відношення; - ймовірність того, що кортеж з ідеального і-го відношення буде пропущено в g-му джерелі. По-трете, для того, щоб в атрибутах, що дублюються в різних джерелах, не було виявлено помилку, потрібно, щоб у кожному атрибуті було припущено однакову помилку, тому , де u - кількість джерел, в яких наведено j-й атрибут і-го відношення; - ймовірність того, що j-й атрибут i-го відношення буде помилковим у g-му джерелі.
Таким чином, проаналізувавши джерела, що є складовими АСУ, можна отримати нижню межу відповідних показників, які забезпечуються впровадженням традиційної системи інтеграції даних. Але, оскільки на практиці значення таких показників залишається незадовільним, є доцільним змінити процес інтеграції даних додаванням помічених на рис. 1 операцій.
Рис. 1 Схема процесу інтеграції неоднорідних даних у сховище даних
Результат, що отримується після застосування методу злиття записів у деякий момент часу, можна уявити як деяке універсальне відношення зі структурою, що визначається предмет-ною областю. Для спрощення математичних міркувань у дисертації на бінарному домені T01={0,1} визначено відношення , яке отримується з по аналогії з роботами щодо аналізу даних.
У третьому підрозділі розглянуто метод підвищення достовірності даних на основі природної надмірності. На цьому етапі виникає задача аналізу відношення з метою виявлення помилкових атрибутів, що не були виявлені впродовж витягу та злиття записів, знаходження передбачуваного правильного значення для того, щоб повернути дані в операційні підсистеми для виправлення. Крім того, для спрощення виправлення бажано сформувати пояснення, де саме зроблено помилку. Отже, задачею системи підвищення якості даних на основі природної інформаційної надмірності є діагностування даних із глибиною до виду помилки.
Інформаційним ресурсом, що дозволяє розв'язувати такі задачі, є знання про конкретні специфічні властивості даних та їх сполучень. У роботі знання щодо даних подано як сукупність правил F={f1, f2, …, fn}. Кожне правило уявляється у вигляді трійки f=(i,H,C), де i - номер правила в базі знань; H, С - множини атрибутів ( та ), що описують посилку та висновок правила відповідно. Відображаючи залежності між атрибутами, кожне правило дозволяє сформувати двозначний предикат, що відображає, чи суперечать атрибути кортежу r даному правилу: , де fi(r)=0 - атрибути r суперечать правилу fi, а fi(r)=1 - атрибути r відповідають правилу fi або не суперечать йому, оскільки не виконується умова в посилці правила; h1, h2, …, hHcnt, c1, c2, …, cCcnt - усі атрибути, що складають посилку та висновок правила.
Виникнення в будь-якої помилки є невизначеною подією з точки зору моменту k її появи, помилкового кортежу з , атрибута, в якому вона з'явиться, конкретного виду помилки. Тому є достатньо очевидним, що підхід, який використовується в існуючих системах і полягає в послідовній перевірці кожного кортежу з на відповідність кожному правилу з F, буде неефективним. Разом із тим подібна проблема ефективно вирішується в рамках системного підходу до діагностування систем управління (СУ) та інших об'єктів, запропонованого професором Куліком А.С., де створюється ефективна процедура діагностування шляхом послідовного зняття невизначеності щодо стану СУ та використання концепції діагностичних моделей (ДМ), що дозволяють діагностувати за непрямими ознаками відмов та ін. Положення згаданого підходу було використано для створення ефективного методу діагностування даних. Так, згідно з принципом послідовного зняття невизначеності щодо стану даних було розроблено послідовність діагностування, яка складається із задач виявлення помилок, пошуку кортежів із помилками, пошуку помилкових атрибутів і визначення виду помилки. Розглянемо вирішення кожної з них.
Результатом вирішення задачі виявлення помилок є встановлення факту, чи є хоча б один кортеж у , який суперечить хоча б одному правилу з F, тобто
. (5)
Визначимо допоміжні функції Qsupp(R,Z) (підтримка множини атрибутів Z у відношенні R) та ddet(R,F): , , де R - відношення, визначене на бінарному домені; z1,z2,…,zn - множина атрибутів відношення R, що складає у сукупності вихідний набір Z; - оператор реляційної алгебри, що позначає вибірку з R за заданою умовою; Fruleset і Fhyp - множини наборів атрибутів, що визначаються на основі множини правил таким чином: , , де - оператор реляційної алгебри, що позначає проекцію з R за заданою множиною атрибутів; EXT R ADD (вираз) AS Ім'яАтрибута - оператор розширення відношення R, що додає новий атрибут Ім'яАтрибута, обчислюючи його для кожного кортежу, як указано у виразі; - i-та множина атрибутів із Fruleset та Fhyp відповідно. За допомогою таких функцій було визначено ДМ виявлення помилок: , де - еталонне відношення; - непряма ознака наявності помилки.
Окрім формування ДМ у процесі вирішення задачі було строго доведено такі твердження.
Твердження 1. Якщо R1 - відношення, що містить тільки один кортеж r, а F - множина правил, то значення функції ddet(R1,F) буде дорівнювати нулю тоді й тільки тоді, коли кортеж r не суперечить жодному з правил F, та буде меншим за нуль тоді й тільки тоді, коли кортеж r суперечить хоча б одному з правил F, тобто і . Твердження 2. Відношення R є безпомилковим, тобто жоден із кортежів R не суперечить жодному з правил F тоді й тільки тоді, коли значення функції ddet(R,F) буде дорівнювати нулю, тобто .
Доведення цих тверджень, по-перше, дозволило при виявленні помилок не обчислювати еталонне відношення, оскільки , і, по-друге, засвідчило повну діагностованість побудованої ДМ.
На етапі пошуку кортежів із помилками треба знайти конкретні кортежі з , що суперечать хоча б одному правилу з F, тобто прямою ознакою наявності помилки в кортежі є
. (6)
Для побудови ДМ на цьому етапі потрібно було визначити такі допоміжні функції: , де - множина усіх атрибутів кортежу r, що дорівнюють одиниці; М - деяка множина, елементами якої, в свою чергу, є множини атрибутів; . Тоді ДМ пошуку помилкових кортежів , де - еталонний кортеж. Як і при вирішенні попередньої задачі, наведені вище твердження дозволили не обчислювати еталонний кортеж, оскільки , та засвідчити повну діагностованість ДМ. Результатом вирішення пошуку кортежів із помилками є розбиття вихідного відношення на безпомилкове відношення і відношення, яке містить усі кортежі з помилками . Слід також відмітити, що при використанні ДМ і відомого алгоритму обчислення підтримки наборів, який використовують при знаходженні асоціативних правил, алгоритмічна складність вирішення цієї та попередньої задачі становить , у той час як при використанні (5),(6) становить , що підтверджує тезу про ефективність діагностування за непрямими ознаками.
Вирішення задачі пошуку помилкових атрибутів здійснюється в два етапи. На першому з них для кожного кортежу за існуючими правилами виконують прямий логічний висновок. Результатом такого висновку стає кортеж , атрибути якого дорівнюють одиниці, якщо вони дорівнюють одиниці в або існують правила, згідно з якими вони мають дорівнювати одиниці. На другому етапі для кожного атрибута з вихідного неперетворюваного відношення формується множина відповідних значень Ai з . Тоді ДМ, що дозволяє виявити помилковість атрибута, можна визначити як , де - функція, що дорівнює кількості одиниць у підмножині атрибутів W кортежу r.
При визначенні виду помилки в дисертаційній роботі розглянуто найбільш поширений випадок, коли спосіб введення даних оператором дозволяє звузити множину можливих видів до однократних транскрипцій, додавання символу, пропуск символу, транспозиції суміжних символів і двократних транскрипцій. Після вирішення попередньої задачі є рядок , який був введений користувачем, та рядок , який ймовірно мав бути введеним. Показано, що так же, як і раніше, діагностування за прямими ознаками не є ефективним. Описано такі непрямі ознаки: , , , та , де Eq(v1,v2) - функція від двох рядків v1,v2 однакової довжини, значення якої дорівнює кількості позицій, у яких символи з v1 та v2 неоднакові; Cmp(v1,v2) - функція від двох рядків, значення якої дорівнює n-1, де n - номер першої позиції, в якій рядки неоднакові; - рядок, що є дзеркальним відображенням рядка v, тобто останній символ із v є першим у і т.д. Із використанням цих непрямих ознак було збудовано ДМ для кожного виду помилки з наведених вище: , , , і , де - істина, якщо була допущена однократна транскрипція; - додавання символу; - пропуск символу; - транспозиція суміжних символів; - двократна транскрипція. За результатами аналізу сформульованих ДМ було збудовано дихотомічне дерево, яке дозволяє виконувати операцію визначення виду в найгіршому випадку за час , у той час, коли діагностування за прямими ознаками знадобилося би .
Нарешті, у четвертому підрозділі другого розділу розглянуто методику оцінки показників достовірності й повноти після застосування наведеного методу діагностування даних. Так, правило, що надано у вигляді для тих кортежів, де воно має виконуватися, дозволяє стверджувати, що атрибут буде помилковим після використання методу діагностування тільки в тому разі, коли в систему діагностування цей кортеж потрапить із помилками, зробленими як у цьому атрибуті, так і одночасно хоча б в одному з атрибутів, що створюють посилку правила. Тоді, разом із додаванням ймовірностей появи у відношенні кортежів, що мають відповідати певному правилу або сполученням, задачу оцінки показників розв'язуємо за допомогою традиційних засобів теорії ймовірності. Так, якщо у множині правил F є тільки два правила, у посилці яких є значення атрибута відношення , то - ймовірність появи помилкового значення в атрибуті після застосування методу становить
(7)
де - ймовірність помилки у випадково вибраному серед атрибутів, що надійшли до методу діагностування; , - ймовірність помилки серед атрибутів, що складають посилку відповідно першого та другого правил; - ймовірність появи кортежу, у якому мають виконуватися як правило f1, так й f2; - ймовірність появи кортежу, у якому має виконуватися правило f2, але не f1 і т.д.
Рівняння (7) дозволило також створити евристику, за допомогою якої можна зменшити кількість правил у системі діагностування даних. Дійсно, неважко переконатися, що якщо для двох правил з однаковим висновком виконується умова H1 H2, то друге правило можна без втрати в ефективності системи вилучити з множини правил.
Визначені у цьому та у другому підрозділі залежності, що дозволяють оцінити показники достовірності й повноти після виконання методів злиття й діагностування, дозволили сформулювати метод створення рекомендацій щодо введення тимчасової надмірності. Згідно з ним, якщо згадані вище процедури не дозволяють отримати потрібні показники, то необхідно додавати в АСУ атрибути, для яких забезпечується подвійне введення. Пошук конкретних атрибутів для подвійного введення здійснюється за принципом «жадібного» вибору, тобто на кожній ітерації ми вибираємо той атрибут, що максимально наближує систему до отримання потрібних показників.
Основний зміст розділу опубліковано у роботах [2, 4, 5, 10-12].
У третьому розділі викладено суть нового методу злиття записів, затребуваність якого полягає у неможливості за умови застосування існуючих методів урахування поширеної ситуації, коли оператором використовуються скорочення та абревіатури. Як і в інших методах злиття записів, ключовими частинами запропонованого методу є пошук схожих рядків і пошук схожих кортежів. Для пошуку схожих рядків на основі вербального опису було таким чином формалізовано поняття скорочень та абревіатур: F(p,w)=S2[p{,c1z,..., c1c2...cmz}], a=p1…pk, piF(pi,wi), де - пустий символ; с1, …, сm - змістові символи, що належать алфавіту с, будь-який ланцюжок якого дозволяє сформувати слово; - позначення операції конкатенації двох ланцюжків; z -ланцюжок над алфавітом del з довжиною, що дорівнює нулю або одиниці; del - алфавіт символів-роздільників, що використовуються для розділення слів у словосполученнях; F(p,w) - предикат, що є істинним, у випадку коли рядок p є скороченням слова w= c1c2...cm; а - абревіатура словосполучення, поданого рядком st=w1z1 w2z2…zk-1wk.
Далі по аналогії з відомою відстанню Левенштейна введено поняття відстані редагування абревіатур між двома рядками, що позначає мінімальну кількість операцій вставлення, видалення та транскрипції символу, необхідних для такого перетворення одного рядка, після якого він буде абревіатурою або скороченням другого рядка. Одночасно з введенням такого поняття було описано процедуру обчислення відстані редагування абревіатур, що базується на побудові недетермінованого скінченного автомата для одного з рядків, і таким чином формалізовано постановку моделі схожості рядків:
, (8)
де da(st1, st2) - відстань редагування абревіатур між рядками st1 і st2; л - деякий поріг схожості.
Тоді задачею пошуку схожих рядків буде пошук у деякому наборі рядків ST={st1, st2,...,stn}, усіх пар рядків st1, st2ST, для яких виконується умова (8). Одним з очевидних, але неефективних, шляхів вирішення цієї задачі є підхід, у рамках якого потрібно виконати (n*(n-1))/2 обчислень відстані редагування абревіатур для всіх можливих пар рядків із ST. Замість такого вирішення в роботі запропоновано швидкий метод пошуку схожих за моделлю (8) рядків суть полягає у виконанні таких двох етапів.
На першому етапі усі рядки з ST відображаються в - мірний евклідів простір , з осями якого асоціюються , - к випадково вибраних рядків із ST, тобто кожному рядку stiST ставиться у відповідність точка , координати якої дорівнюють простим відстаням Левенштейна до осей , де ' - позначення операції видалення з рядка усіх символів-роздільників.
Другий етап базується на таких, доведених у роботі необхідних умовах схожості.
Твердження 3. Відстань редагування абревіатур між рядками st1 і st2 не перевищує величини деякого порога тоді й тільки тоді, коли величини MyLCS(st1,st2) також не перевищують заданого порога, тобто da(st1, st2) MyLCS(st1,st2), де , lcs - найдовша спільна підпослідовність. Твердження 4. Якщо st1, st2 - рядки, відстань редагування абревіатур між якими не перевищує деякого порога , то точка P(st2) розміщується в Ek у межах гіперкуба із центром у P(st1) і стороною . Твердження 5. Якщо st1, st2 - рядки, відстань редагування абревіатур між якими не перевищує деякого порога , то абсолютне значення різниці відстаней від точок P(st1) і P(st2) до начала координат у Ek не перевищує , тобто .
Так, з урахуванням наведених тверджень другий етап методу пошуку схожих рядків може бути викладеним таким чином. Для кожної точки P(sti), варіюючи значення змінної len від мінімального значення довжини рядку до максимального відповідно до твердження 5, переглядають точки, для яких відстань до початку координат перебуває у діапазоні . . Кожна точка, що переглядається, у свою чергу, перевіряється відповідно до твердження 4 на влучення в межі гіперкуба із центром у точці P(sti). Далі для рядків, що є у межах гіперкуба, обчислюють величину MyLCS. І, нарешті, лише коли MyLCS не перевищує величини порога відповідно до твердження 3, виконується «дороге» обчислення відстані редагування абревіатур.
Вирішення задачі пошуку схожих кортежів було побудовано на базі попереднього методу. В роботі показано, що оскільки для злиття записів треба знаходити пари кортежів, які можуть містити пропущені атрибути або семантичні помилки, треба змінити традиційну модель схожості кортежів і сформулювати постановку задачі таким чином. Нехай дано відношення R, що містить n кортежів виду tpli=(sti1, sti2,...,stih), . Тоді рішенням задачі пошуку схожих кортежів будемо вважати усі пари кортежів tpl1, tpl2R, для яких виконуються умови: 1) , ; 2) , де Sim - набір індексів, що відповідають номерам реквізитів, які є схожими в кортежах tpl1 і tpl2; i - деякий поріг схожості, що використовують при порівнянні рядків, які відображають i-й реквізит кортежів; k - кількість схожих реквізитів; k - величина, що задає мінімальну кількість схожих реквізитів; - сума відстаней між схожими реквізитами; - поріг схожості, який використовують для оцінки суми відстаней. В роботі наведено ряд рекомендацій, що дозволяють підвищити швидкодію вирішення задачі в цій постановці.
Основний зміст розділу опубліковано у роботах [1, 3, 9, 13-15].
Четвертий розділ, що складається з чотирьох підрозділів, присвячений опису розробленої комп'ютерної системи підвищення достовірності й повноти даних в АСУ. Перший з них містить опис структури та функцій створеної комп'ютерної системи, що дозволяє підвищувати достовірність і повноту інтегрованих баз даних за допомогою методів, запропонованих у попередніх розділах.
Другий підрозділ містить опис запропонованого методу пошуку асоціативних правил, що дозволяє спростити впровадження системи в АСУ за допомогою автоматичного пошуку правил для підсистеми діагностування даних. Основна причина низької швидкодії таких методів - надзвичайно великий обсяг вихідних даних та, як наслідок, значна кількість операцій, що виконуються для робити з вторинною пам'яттю (I/O операції), протягом пошуку наборів, що часто зустрічаються.
З урахуванням того, що вихідне відношення R визначено на бінарному домені та густина одиниць на практиці надзвичайно невелика, було запропоновано відображення, що отримується з вихідного відношення R таким чином. На першому кроці вихідне відношення R довільно розбивається на v субвідношень так, щоб виконувалися умови
,
де - операції об'єднання та перетинання реляційної алгебри; - кардинальність відношення R; m - деяке ціле число.
На наступному кроці розглядається кожен атрибут кожного субвідношення ri. Такий атрибут можна подати як ланцюжок w довжиною u в бінарному алфавіті ={0,1}, в якому кожна j-та позиція визначає значення відповідного атрибута кортежу ri. Тоді результуюче відображення можна уявити як набір даних, в якому для кожного з таких ланцюжків міститься така інформація: а) кількість позицій, в яких w містить одиниці; б) значення геш-функції Н(w) від ланцюжка w, що визначається як перевірні розряди кодового слова коду Хеммінга, в якому інформаційні розряди відповідають ланцюжку w; в) відсортована послідовність значень функції h(j), де j - усі номери позицій w, що дорівнюють одиниці, h(j) - перевірні розряди вибраного коду Хеммінга, в якому тільки j-й інформаційний розряд дорівнює одиниці.
Обсяг пам'яті, необхідний для зберігання такого відображення, буде дорівнювати , де m - кількість перевірних розрядів у вибраному коді Хеммінга; u - кількість кортежів у v-1 субвідношеннях (u=2m-m-1); pR - кількість атрибутів у відношенні R; - густина одиниць у R. Неважко переконатися, що за умови низької густини одиниць таке відображення суттєво менше, ніж вихідне відношення.
Далі в другому підрозділі викладено метод пошуку асоціативних правил, що є аналогічним відомому методу Partition за тим винятком, що всі операції виконуються у відображенні. Зроблені аналітичні оцінки доводять, що шляхом введення відображення вихідного відношення метод, який пропонується, в разів ефективніший за Partition. Крім того, наведено результати експериментів, що доводять раніше зроблені аналітичні оцінки.
Наступні два підрозділи послідовно розкривають, яким чином впровадження розробленої системи у реальні АСУ дозволило підвищити достовірність і повноту відповідних баз даних.
Так, наприклад, достовірність та повнота даних в АСУ ПУ «ХАІ» до впровадження системи була оцінена як 89,63 та 89,6%. Використання структурної надмірності яка в ХАІ з'являється за рахунок існування успадкованих систем «Зарплата» та «Планування» дозволяє підвищити відповідні показники до 95,98 та 93%. Впровадження діагностування даних на основі природної інформаційної надмірності дало можливість забезпечувати достовірність та повноту даних на рівні 97,67 та 94,6%. За рахунок вимоги подвійного введення семи (16,3% від загальної кількості) атрибутів вдалося підвищити достовірність та повноту даних АСУ ПУ «ХАІ» до 99,35 та 98,08%.
Відсутність у системі АСУ ЗГП «Плант» структурної надмірності стала причиною того, що використання засобів злиття записів та діагностування даних дозволило підвищити повноту лише на 1,5% у той час, як достовірність була підвищена на 9,2%. Але, впровадження рекомендації, згідно з якими потрібно організувати додаткове введення дев'яти атрибутів, дозволило підвищити повноту 5,9%, а достовірність на 10,3%. Навіть за умов відсутності структурної надмірності отримані результати перевищили показники які можливо було отримати впровадженням подвійного введення усіх атрибутів АСУ ЗГП «Плант» без використання розробленої системи.
Крім того, для кожного з наведених методів дано приклади неякісних даних, що були усунені за їх допомогою, та проведено експерименти, які дозволили оцінити швидкодію методів на реальних даних. Наведені для даних АСУ ПУ «ХАІ» результати експериментів засвідчили для кожного методу підвищення швидкодії відносно аналогів або, як у випадку з методом злиття записів, істотне підвищення точності результатів при збереженні прийнятної швидкодії.
Основний зміст розділу опубліковано у роботах [1, 4-6, 8, 11, 12, 16, 17].
Висновки
У дисертації вирішено актуальну науково-технічну задачу розробки нових методів підвищення достовірності й повноти даних у процесі інтеграції неоднорідних баз даних, що дозволяють раціонально використовувати надмірність.
1. Запропоновано новий метод інтеграції даних, який на відміну від існуючих за рахунок наявності етапів «Злиття записів» і «Підвищення достовірності на основі природної інформаційної надмірності» дозволяє застосувати для підвищення достовірності й повноти даних усі види надмірності, характерні для розподілених та неоднорідних АСУ. Крім того, запропонований метод включає в себе етап «Формування рекомендацій щодо введення тимчасової надмірності», який за допомогою використання розроблених процедур оцінки показників достовірності й повноти до і після виконання вказаних раніше етапів дозволяє раціонально вводити в АСУ додаткову надмірність.
2. Виявлено схожість задач підвищення достовірності даних на основі природної інформаційної надмірності й діагностування об'єктів різної природи. На базі відомого системного сигнально-параметричного підходу до діагностування систем управління формалізовано задачу діагностування даних і сформульовано основні положення для створення ефективного методу підвищення достовірності даних. Використання принципів послідовного зняття невизначеності про стан даних і діагностування за непрямими ознаками наявності помилок дозволило створити швидкий метод підвищення достовірності на основі природної інформаційної надмірності. Перевагу розробленого методу над відомими аналогами доведено як аналітичними оцінками, так і експериментально.
3. Розроблено нову доменно-незалежну модель схожості рядків, що враховує поширену ситуацію використання операторами скорочень та абревіатур. Для побудованої моделі строго доведено ряд необхідних умов схожості, що дозволило створити швидкий метод пошуку схожих рядків, який став основою для створення методу злиття записів. Використання такого методу дозволило підвищити оперативність виконання етапу злиття записів, підвищивши, у свою чергу, ефективність запропонованого методу інтеграції даних.
4. Удосконалено метод пошуку асоціативних правил, що використовується для автоматичного пошуку природної інформаційної надмірності, удосконалено шляхом введення компактного відображення вихідного відношення та наступного пошуку шуканих правил у відображенні, що дозволило підвищити швидкодію методу. Проведені аналітичні та експериментальні оцінки ефективності запропонованого методу довели його перевагу над відомими аналогами.
5. На основі розроблених методів було створено інформаційну технологію за допомогою якої запропоновано систему підвищення достовірності й повноти інтегрованих баз даних в АСУ.
6. Впровадження в АСУ ПУ «ХАІ» такої системи дозволило підвищити показники достовірності й повноти даних на 8 і 5% відповідно. Задача забезпечення відповідних показників на рівні 99,35 та 98,08% може бути вирішена при додатковому введенні 16,3% атрибутів. Використання такою системою існуючої в АСУ ЗГП «Плант» надмірності дозволило підвищити показники достовірності й повноти на 9,2 і 1,5% відповідно. Забезпечення додаткового введення 12% атрибутів дозволить підвищити відповідні показники в АСУ ЗГП «Плант» на 10,3 та 5,9%.
Список опублікованих праць за темою дисертації
1. Кулик А.С., Чухрай А.Г., Завгородний А.Ю. Нечеткий поиск похожих строк в системах повышения качества данных автоматизированных систем организационного управления // Радіоелектронні і комп'ютерні системи. 2006. №7(19). С. 17-22.
2. Кулик А.С., Завгородний А.Ю. Диагностирование данных корпоративных информационных систем на основе естественной избыточности // Радіоелектроніка. Інформатика. Управління. 2006. №2. С. 120-128.
3. Завгородний А.Ю. Метод быстрого поиска ассоциативных правил // Системи обробки інформації. Харків: ХУПС, 2006. Вип. 8. С. 109 - 114.
4. Информационная технология организационного управления техническим высшим учебным заведением / В.С. Кривцов, Н.В. Нечипорук, А.С. Кулик, А.Г. Чухрай, Е.В. Мирная, О.А. Пищухина, А.Ю. Завгородний // Авиационно-космическая техника и технология. 2005. №7. С. 304-316.
5. Информационная система управления административно-финансовой деятельностью университета «ХАИ» / В.С. Кривцов, А.С. Кулик, Н.В. Нечипорук, А.Г. Чухрай, А.Ю. Завгородний // Вісн. Харк. нац. ун-ту: «Математичне моделювання. Інформаційні технології. Автоматизовані системи управління». Харків: ХНУ, 2004. №629. Вип. 3. С. 144-158.
6. Завгородний А.Ю. Задача поиска “похожих” наименований в атрибутах реляционного отношения // Инженер. 2004. №5. С. 109 - 111.
...Подобные документы
Створення бази даних аптеки готових лікарських форм для підвищення ефективності її роботи та автоматизації обробки результатів її діяльності. Обмеження при роботі з базою даних. Аналіз системних вимог. Вибір засобів розробки інформаційної системи.
курсовая работа [477,7 K], добавлен 09.12.2013Побудування інформаційної концептуальної моделі дошкільного навчального закладу. Визначення ідентифікуючого набора атрибутів інформаційної системи. Відомості про структуру програми, мова програмування. Код створення бази даних на мові Transact-SQL.
курсовая работа [433,7 K], добавлен 27.03.2016Проблема інформаційної обробки геологічних даних. Методи побудови розрізу з відомих елементів залягання. Підготовка даних для аналізу. Ієрархія об'єктів, що беруть участь в побудовах. Розрахунок витрат на розробку та впровадження проектного рішення.
магистерская работа [4,2 M], добавлен 17.12.2014Проектування бази даних: визначення об’єктів, структура таблиць, побудова схеми даних, забезпечення цілісності даних, створення певних відношень між таблицями, створення запитів, побудова форм, оформлення об’єктів. Розробка інструкції користувача.
курсовая работа [1,9 M], добавлен 19.09.2014Проектування бази даних предметної області "Магазин будівельних матеріалів". Аналіз сукупності вхідних і вихідних даних, шляхи удосконалення інформаційної системи обліку товару. Організація інформаційної бази, розробка логічної і фізичної моделі.
курсовая работа [559,2 K], добавлен 09.05.2016Оператори визначення даних. Створення таблиць. Вилучення таблиць. Додавання записів. Модифікація даних. Видалення даних. Пошук даних. Database Desktop. Компонент TQuery.
реферат [165,8 K], добавлен 13.06.2007Побудова інформаційної системи, що буде слугувати для автоматизації процесу захисту персональних даних клієнтів банку. Вибір методу проектування архітектури та моделі функціонування системи. Перелік масивів, використовуваних під час розв’язання задачі.
дипломная работа [1,8 M], добавлен 02.06.2017Створення гнучкої клієнт-серверної системи інформаційної підтримки підвищення кваліфікації персоналу ДП № 9 з застосуванням мови програмування PHP, системи керування базами даних MySQL. Розробка алгоритмів, програмна реалізація основних процедур системи.
дипломная работа [1,8 M], добавлен 26.10.2012Аналіз відомих підходів до проектування баз даних. Моделі "сутність-зв'язок". Ієрархічна, мережева та реляційна моделі представлення даних. Організація обмежень посилальної цілісності. Нормалізація відносин. Властивості колонок таблиць фізичної моделі.
курсовая работа [417,6 K], добавлен 01.02.2013Структури даних як способи їх організації в комп'ютерах. Підтримка базових структури даних в програмуванні. Дерево як одна з найпоширеніших структур даних. Бінарні дерева на базі масиву. Створення списку - набору елементів, розташованих у певному порядку.
контрольная работа [614,7 K], добавлен 18.02.2011Побудова інформаційної системи "Магазин товарів для настільного тенісу" з автоматизації роботи магазину. Концептуальне моделювання бази даних. Обґрунтування вибору СУБД. Логічне проектування бази даних. Схема бази даних. Створення таблиць в конструкторі.
курсовая работа [8,8 M], добавлен 16.12.2015Оцінка необхідності створення на сучасному підприємстві автоматизованої інформаційної системи та її значення в процесі управління. Етапи розробки структури бази даних, зміст, призначення. Операційна інформація з обліку фінансово-розрахункових операцій.
контрольная работа [29,4 K], добавлен 06.10.2010Створення інформаційної системи для спортивного магазину харчування. Обґрунтування вибору мови програмування. Текстуальний опис алгоритму. Проектування бази даних. Комп'ютеризація торгівельних закладів, отримання необхідних даних в автоматичному режимі.
дипломная работа [1,3 M], добавлен 12.05.2015Створення бази даних та робота з нею у програмному забезпеченні Microsoft Access. Проектування форм для зручного заповнення таблиць, звітів для відображення даних та їх друку, кнопкової форми, яка потрібна для зручної навігації між функціями бази даних.
курсовая работа [1,3 M], добавлен 04.10.2014Проектування інформаційної системи для супроводу баз даних. Моделі запиту даних співробітником автоінспекції та обробки запиту про машини та їх власників. База даних за допомогою SQL-сервер. Реалізація запитів, процедур, тригерів і представлення.
курсовая работа [1,7 M], добавлен 18.06.2012Проектування бази даних, що реалізує звіти про графік робіт на об’єктах впродовж місяця. Графічне зображення нагромаджувачів даних. Побудова діаграм потоків даних і переходів станів, таблиць у вигляді двовимірного масиву, запитів. Створення бази даних.
курсовая работа [1,2 M], добавлен 29.02.2012База даних як складова частина інформаційної системи. Загальні принципи створення контролерів автоматизації MS Office. Розробка гнучкої комп'ютеризованої системи, призначеної для автоматизації розрахунку учбового навантаження. Моделі представлення даних.
дипломная работа [4,7 M], добавлен 26.10.2012Створення оригінальної розподіленої інформаційної системи на основі технології SOAP. Надана архітектура клієнт-серверної взаємодії: клієнтське прикладення споживає Web-сервіс з Internet, а отримані об'єктні методи звертаються до віддалених даних на Web.
лабораторная работа [556,0 K], добавлен 08.06.2009Поняття та основна мета створення інформаційної системи, її різновиди та процедура побудови, підходи до обробки. Концепція баз даних та методи керування ними, предметна область і процес проектування. Структурована мова запитів SQL, елементи та оператори.
учебное пособие [1,7 M], добавлен 14.11.2009Проектування інформаційної системи; концептуальне (інфологічне) проектування, побудова ER-діаграми, нормалізація даних. Даталогічне проектування баз даних, фізичне проектування інформаційних систем. СУБД Access: об'єкти, створення таблиць, запитів, форм.
курсовая работа [13,9 M], добавлен 09.01.2010