Інформаційні технології семантичного захисту інформації в системах документообігу

Особливості створення нових інформаційних технологій захисту документів на основі контролю їх семантики для автоматизованої системи управління документообігом, що включає підсистему виробництва документів та специфіку підсистеми використання документів.

Рубрика Производство и технологии
Вид автореферат
Язык украинский
Дата добавления 10.08.2014
Размер файла 128,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Державний комітет зв'язку та інформатизації України

Національна академія наук України

Державний науково-дослідний інститут інформаційної інфраструктури

УДК 004.451.36:681.5:002

інформаційні технології семантичного захисту інформації в СИСТЕМАХ ДОКУМЕНТООБІГУ

Спеціальність 05.13.06 -- автоматизовані системи управління

та прогресивні інформаційні технології

АВТОРЕФЕРАТ

дисертації на здобуття наукового ступеня

кандидата технічних наук

Сабат Володимир Іванович

Львів -- 2005

АНОТАЦІЇ

Сабат В. І. Інформаційні технології семантичного захисту інформації в системах документообігу. -- Рукопис.

Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.13.06 - автоматизовані системи управління та прогресивні інформаційні технології, Державний науково-дослідний інститут інформаційної інфраструктури, Львів, 2005.

Дисертація присвячена створенню інформаційних технологій системи захисту документів на основі використання методів аналізу семантики документів. Система захисту розглядається як компонента, що входить в структуру автоматизованої системи документообігу, який включає підсистему виробництва документів, а також підсистему використання документів. Ці дві підсистеми зв'язані між собою двостороннім зв'язком, що дозволяє аналізувати семантику документів не тільки на основі власних семантичних параметрів, а й на основі даних про результати управляючої дії документів на об'єкти управління.

В дисертації досліджено різні типи семантичних небезпек, які можуть привести до реалізації атак на документи і, на основі них, розроблено моделі семантичних загроз. Розроблено структуру системи захисту документів та системи аналізу мети проектування документу, яка використовується при проведенні семантичного контролю документів.

Ключові слова: інформаційна технологія, семантика, суперечність, семантичний словник, семантична значущість, фраза.

Сабат В. И. Информационные технологии семантической защиты информации в системах документооборота. -- Рукопись.

Диссертация на соискание научной степени кандидата технических наук по специальности 05.13.06 -- автоматизированные системы управления и прогрессивные информационные технологии, Государственный научно-исследовательский институт информационной инфраструктуры, Львов, 2005.

Диссертация посвящена созданию информационной технологии системы защиты документов на основе использования анализа семантики документов. Система защиты рассматривается как компонента, которая входит в рамки системы документооборота, которая включает подсистему производства документов, а также подсистему использования документов. Эти две подсистемы связаны между собой двухсторонними связями, что позволяет анализировать семантику документов не только на основе собственных семантических параметров, а и на основе данных о результатах управляющего действия документов на объекты управления.

В диссертации исследованы различные типы семантических опасностей, которые могут привести к реализации атак на документы и, на основе которых, разработаны модели семантических угроз. Разработана структура системы защиты документов и структура системы анализа цели проектирования документа, которая используется при проведении семантического контроля документов.

В работе проанализированы автоматизированные системы документооборота, исследованы методы семантического анализа, которые используются при построении интерпретаторов для языков программирования. Рассмотрены основные проблемы и задачи, которые необходимо решить при создании систем семантического анализа с целью защиты документов.

Исследованы теоретические основы построения семантических анализаторов. Определены основные факторы семантического анализа и основные компоненты системы интерпретации. Разработаны логические методы формального описания и семантического анализа текстов, созданы методы специализированного семантического анализа. Разработан метод определения величины семантической значимости отдельных слов, которые используются в текстах документов, и введено новое понятие семантической непротиворечивости и семантической полноты текстов документов.

Исследованы особенности защиты информации в системах автоматизированного документооборота. Сформулирован ряд определений и правил согласования слов и фраз в системе документооборота. Приведена и описана функциональная схема системы документооборота. Рассмотрены основные параметры системы документооборота, которые связаны с опасностями и на основе использования их построены соотношения, которые описывают модели угроз.

Исследованы модели угроз, проанализированы методы защиты и рассмотрена общая организация работы системы защиты документов на основе семантического анализа. Описаны методы расчета величин значений семантических угроз, благодаря чему создается возможность определять необходимый уровень защиты, адекватный существующим опасностям. Расчет всех угроз базируется на предложенном представлении о семантической значимости слов, фраз, предложений и целых фрагментов текста документа. Приведены и описаны функциональные блок-схемы отдельных подсистем, которые непосредственно предназначены для решения задач защиты.

Ключевые слова: информационные технологии, семантика, противоречивость, семантический словарь, семантическая значимость, фраза.

Sabat V. I. Information technologies of semantic protection in the systems of documents circulation. -- Manuscript.

The dissertation for the degree of candidate of technical sciences in speciality 05.13.06 -- automatic control systems and progressive information technologies. -- State Scientific and Research institute of Information Infrastructure, Lviv, 2005.

The dissertation is devoted to creation of information technologies the system of documents protection on the basis of the use of methods of analysis of semantics of documents. The protection system is considered as a component that is included in the structure of the automated system of documents circulation which embraces the subsystem of production of documents, and also subsystem of the use of documents. These two subsystems are reciprocal connected by bilateral communication that allows to analyse the semantics of documents not only on the basis of own semantic parameters but also on the basis of information about the results of documents control actions on the objects of management.

The different types of semantic dangers which can result in realization of attacks on documents are investigated in dissertation. The models of semantic threats are developed. On the basis of them the structure of the system of documents protection and the system of documents analysis of purpose planning which is used for the execution of semantic control of documents there is developed.

Key words: information technologies, semantics, contradiction, semantic dictionary, semantic meaningfulness, phrase.

Дисертацією є рукопис

Робота виконана в Українській академії друкарства Міністерства освіти і науки України та у Державному науково-дослідному інституті інформаційної інфраструктури Державного комітету зв'язку та інформатизації України і НАН України

Науковий керівник: доктор технічних наук, професор Дурняк Богдан Васильович, Українська академія друкарства, м. Львів, ректор

Офіційні опоненти: доктор технічних наук, професор, Коростіль Юрій Мирославович, Інститут проблем моделювання в енергетиці НАН України, м. Київ, завідувач відділом

доктор технічних наук, професор Тимченко Олександр Володимирович, Національний університет „Львівська політехніка”, професор кафедри „Телекомунікацій”

Провідна установа: Харківський національний університет радіоелектроніки Міністерства освіти і науки України, м. Харків.

Захист відбудеться “29червня 2005 р. о 14:00 год. на засіданні спеціалізованої вченої ради Д 35.813.01 при Державному науково-дослідному інституті інформаційної інфраструктури (79601, м. Львів, вул. Тролейбусна, 11).

З дисертацією можна ознайомитись у бібліотеці Державного НДІ інформаційної інфраструктури (79601, м. Львів, вул. Тролейбусна, 11).

Автореферат розіслано “27” травня 2005 р.

Вчений секретар Спеціалізованої вченої ради, кандидат технічних наук Пеленський О. Л.

ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ

Актуальність теми. Автоматизація управління процесами проектування та використання документів в наш час інтенсивно розвивається у зв'язку із широким запровадженням електронного документообігу та визнанням цифрових підписів як таких, що мають юридичну силу. В традиційних системах документообігу компоненти використання документів виносяться за рамки системи, а сама система документообігу розглядається як формальний засіб для проектування документів та для ведення їх обліку. Таке звуження функціональних можливостей приводить до погіршення контролю за документами і зниження їх ефективності. Електронні документи, на відміну від паперових, є більш вразливими на різноманітні спотворення тому, що вони використовують існуюче мережне комп'ютерне середовище, яке не гарантує необхідної безпеки передавання та зберігання документів і відповідного захисту від атак.

У зв'язку з тим в дисертації обґрунтовано можливість розроблення інформаційних технологій семантичного захисту інформації у структурі автоматизованої системи електронного документообігу, до складу якої входять не тільки засоби проектування, але й підрозділи використання документів, пов'язані між собою як прямими, так і зворотними зв'язками.

Аналіз літературних джерел показує, що значний внесок у розроблення та визначення теоретичних засад семіотики, семантики та логіки моделей документів заклали А. Тарський, Я. Лукасевич, А. Мальцев, К. Гедель, Г. Рузавин. Базові концепції захисту інформації в каналах зв'язку та теорії кодування обґрунтував у своїх працях К. Шенон. Під керівництвом В. М. Глушкова виконано фундаментальні роботи з побудови автоматизованих систем управління електронним документообігом. Ч. Мідоу, Є. Д. Смірнова, Н. М. Соломатін та І. В. Івлєв визначили семантичні концепції створення систем електронного документообігу, а М. Ш. Цаленко розвинув дослідження проблеми моделювання семантики в базах даних. Проблему захисту інформації в корпоративних системах досліджували В. В. Домарєв, В. С. Борсуков, С. В. Клименко та А. В. Чечкін. Основні концепції інформаційних технологій для створення баз даних, експертних систем з врахуванням проблем їх захисту сформовані під керівництвом В. І. Скуріхіна.

Разом з тим, для успішного функціонування автоматизованих систем документообігу важливим є забезпечення захисту документів і в першу чергу -- інформації, яка міститься в них. Якщо мова йде про захист інформації, то визначальним фактором захисту документів є захист їх змісту. Спотворення змісту документу з метою здійснення несанкціонованого впливу на об'єкт управління, є значно більшою загрозою, ніж втрата документу чи несанкціоноване його розкриття. Тому семантичний контроль документів в автоматизованій системі документообігу з метою їх захисту є актуальною задачею, розв'язання якої сприятиме підвищенню ефективності управління виробництвом і використанням документів у різних галузях.

Зв'язок роботи з науковими програмами, планами, темами. Основні результати роботи отримано протягом 1998-2002 р. при виконанні проекту ПТ УАД „Створення теоретичних засад програмного та комп'ютерного забезпечення для захисту електронного документообігу в класах-лабораторіях комп'ютерної техніки Поліграфічного технікуму УАД”, а також при виконанні господарської угоди між Українською академією друкарства і державним підприємством Поліграфічний комбінат „Україна” №204 від 30.08.2003 р. на тему „Розробка базових компонентів інформаційної технології захисту зображень, бланків і цінних паперів на основі нейромереж” (розроблення системи семантичного захисту інформації).

Мета і задачі дослідження. Метою роботи є створення нових інформаційних технологій захисту документів на основі контролю їх семантики для автоматизованої системи управління документообігом, що включає підсистему виробництва документів та підсистему використання документів. інформаційний документ автоматизований семантика

Для досягнення мети, вирішено такі задачі:

· розроблення та обґрунтування методів визначення міри семантичної значущості окремих компонент тексту документу;

· сформування понять про семантичну значущість і семантичну суперечність слів у контексті фраз документа та розроблення методів їх визначення;

· побудова моделі загроз, що існують в системі документообігу;

· розроблення методу семантичного аналізу з використанням засобів математичної логіки та формальних граматик;

· розроблення структури автоматизованої системи документообігу, в якій реалізований семантичний контроль документів.

Об'єктом дослідження є автоматизовані системи управління документообігом.

Предметом дослідження є методи захисту документів на основі семантичного аналізу тексту документа.

Методи дослідження. В дисертаційній роботі використані методи математичної логіки для розроблення алгоритмів побудови моделей загроз, методи формальних граматик для означень правил узгодження слів і фраз в документах та методи комп'ютерного моделювання для реалізації нових інформаційних технологій семантичного захисту інформації.

Наукова новизна роботи полягає в тому, що:

· розроблено метод побудови семантичного словника для автоматизованої системи документообігу, який ґрунтується на присвоєнні кожному слову документа інтерпретаційного розширення з базової предметної області інтерпретації і дає можливість визначати величини семантичної значущості окремих слів у текстах документів;

· вперше обґрунтовано і запроваджено поняття про семантичну несуперечність та про семантичну повноту речень тексту документів з використанням семантичного словника і визначенням семантичної значущості слів в контексті фраз документа, що забезпечує можливість побудови семантичних аналізаторів для автоматизованих систем документообігу;

· запроваджено характеристики семантичних властивостей фрагментів тексту документа (семантичну значущість слів та фраз; міру семантичної суперечності між компонентами, або фрагментами документа; семантичну узгодженість між окремими фразами; рівень таємності, міру безпосередньої доступності і період актуальності документа), які забезпечують можливість визначити наявні в них семантичні загрози;

· розроблено математичні моделі семантичних загроз, які існують в автоматизованій системі документообігу, з контролем і врахуванням змін величин семантичних параметрів, що дає можливість визначати тип загрози, обчислювати поточні значення її величини і розв'язувати задачу оперативного управління необхідним рівнем захисту документів;

· розроблено нові методи реалізації інформаційних технологій для автоматизованих систем документообігу з використанням компонент захисту документів на основі семантичного аналізу, контролю та корекції інформації, що гарантує необхідну протидію семантичним небезпекам.

Практичне значення одержаних результатів. Обґрунтовано і розроблено інформаційні технології автоматизованої системи документообігу, яка включає підсистеми проектування та використання документів, компоненти семантичного захисту інформації, що міститься в документах, і дає можливість здійснення контролю за використанням документів згідно з визначеною метою щодо їх створення.

Розроблені алгоритми загальної організації роботи системи семантичного захисту документів на основі семантичного аналізу їх, дають можливість реалізувати програмні засоби семантичного аналізу та захисту документів, а розроблені алгоритми семантичного контролю окремих компонент тексту документів та документів у цілому, дають можливість виявляти семантичні суперечності в автоматизованих системах документообігу, визначати величини семантичних загроз і коригувати інформацію в документах для подолання небезпек несанкціонованого доступу.

Реалізація і впровадження результатів роботи. На основі розробленої архітектури автоматизованої системи документообігу реалізовано програмні компоненти засобів семантичного аналізу та контролю документів, завдяки яким вирішуються задачі семантичного захисту документів.

Теоретичні і практичні результати дисертації використано при розробленні програмного і апаратного забезпечення, яке впроваджено:

· у науково-дослідній роботі при розробленні базових компонентів інформаційної технології семантичного захисту інформації в Українській академії друкарства;

· у структурі спеціалізованого комп'ютерного кабінету в Поліграфічному технікумі Української академії друкарства;

· у навчальному процесі в Українській академії друкарства при підготовці фахівців з спеціальності „Технологія електронних мультимедійних видань”.

Особистий внесок здобувача. Всі основні результати, що складають зміст дисертаційної роботи, отримані самостійно. У публікаціях, написаних у співавторстві, здобувачеві належить: [3] -- розроблення методу реалізації семантичного аналізу, [5] -- визначення основних небезпек в системах автоматизованого документообігу, [8] -- спосіб побудови моделей систем захисту, [10] -- архітектура структури системи документообігу, [12] -- моделі семантичних загроз.

Апробація результатів роботи. Основні наукові результати та положення дисертаційної роботи представлялися, доповідалися та обговорювалися на національних та міжнародних конференціях: XXІIІ наук.-тех. конф. “Моделювання” в Інституті проблем моделювання в енергетиці ім. Г. Е. Пухова (м. Київ, 2004 р.), наук.-практ. конф. „Сучасні проблеми телекомунікацій -- 2004” (Національний університет „Львівська політехніка”, Львів, 2004 р.), наук.-метод. конф. „Підготовка фахівців в галузі телекомунікацій і Болонський процес” (Національний університет „Львівська політехніка”, Львів, 2004 р.), міжнародна конф. „Інформаційні технології друкарства” (Українська академія друкарства, Львів, 2004 р.), міжнародна наук.-практ. конф. „Інформаційні технології в сучасній економіці, менеджменті та освіті” (м. Львів, 2005 р.).

Публікації. Основний зміст дисертаційної роботи викладено у 15 наукових працях, серед яких 12 статей у фахових наукових виданнях України та 3 статті у працях наукових конференцій.

Структура та обсяг дисертації. Дисертаційна робота складається з вступу, чотирьох розділів, висновків, списку використаних джерел (114 найменувань) та додатку з актами впровадження. Обсяг дисертації складає 153 стор. друкованого тексту, з них основного тексту -- 142 стор.

ОСНОВНИЙ ЗМІСТ РОБОТИ

У вступі обґрунтовано актуальність теми дисертаційної роботи, сформульовано мету та основні вирішені задачі, наукову новизну, практичну значущість, подано короткі анотації розділів дисертації.

У першому розділі наведено результати аналізу проблеми створення автоматизованих систем документообігу (АСДО) та захисту документів.

АСДО були першими системами, що створювались у структурах автоматизованих систем управління підприємствами. Структура АСДО містить сукупність цілого ряду засобів, які забезпечують різні аспекти її функціонування. До основних підсистем, що реалізують функціональні можливості АСДО, можна віднести такі: проектування, контроль, використання, захист, база даних документів і технічні засоби реалізації системи.

До документів у системі документообігу віднесено тексти, які мають певну функціональну орієнтацію і відповідають таким умовам та обмеженням: текстовий документ призначається для здійснення управління соціальними об'єктами, або соціальними процесами; кожний документ повинен відповідати певним вимогам, які визначають його форму та допустимий зміст, що відображається в текстовій формі; спроектований і випущений документ в рамках АСДО повинен мати час існування, на протязі якого відповідний документ може використовуватися; кожний документ повинен мати параметри, які регулюють спосіб його функціонування в АСДО. Сучасну систему документообігу розглядають з точки зору проектування документів, створення засобів обліку і контролю за документами. Ця обставина підтверджує важливість для АСДО реалізації взаємозв'язку між проектуванням документу і його використанням.

Другою характерною особливістю сучасних систем АСДО є те, що функціонування такої системи розглядається тільки в межах однієї організації. Захист документів в АСДО є однією з ключових функцій, які повинні реалізуватися в системі. Систему документообігу, в цілому, слід розглядати, як систему, в якій поєднується підсистема автоматизації проектування документів та підсистема контролю всіх етапів існування та функціонування документів. Першим етапом або технологічним процесом, який аналізується з точки зору контролю документів, є процес проектування документів. На цьому етапі можуть виконуватися такі функції: контроль засобів проектування, контроль типу запроектованого документа, контроль коректності документа, контроль термінів проектування документа та загальний контроль документа.

Іншою важливою підсистемою в системі документообігу є підсистема захисту документів, у якій реалізуються різні типи засобів захисту, орієнтовані на роботу в довільних фрагментах технологічного процесу АСДО. До таких засобів захисту можна віднести: захист документів у процесі їх проектування, захист документів на етапі їх функціонування і захист документів при їх зберіганні.

Засоби захисту розробляються на основі існуючих чи можливих загроз. На етапі проектування документа можуть існувати такі загрози: заміна суті опису управляючої дії; зміна значень параметрів документа; несанкціоноване створення документа; впровадження в документ компонент або фрагментів, які повністю або частково суперечать початковій меті проектування документів; використання несертифікованих засобів для проектування документів; зміна технологічних етапів проектування документа.

Кожний окремий елемент засобів захисту функціонує таким чином: розпізнає дію атаки на документ чи на АСДО в цілому; здійснює протидію атаці, або нейтралізує її дію; формує елементи, які постійно знаходяться в технологічному циклі і завдяки яким успішне втручання в документ відповідною атакою стає неможливим, або модифікує компоненти технологічного процесу таким чином, щоб реалізація уже розпізнаної атаки при її повторенні була неможливою.

Для опису семантики мов програмування існують три основні підходи: операційний, аксіоматичний та узагальнений.

Операційний підхід реалізується в термінах певної абстрактної машини і використовується при створенні базового інтерпретатора відповідної мови, наприклад, семантика умовного виразу може бути записана в такий спосіб:

IF в THEN e1 ELSE e2.

Виходячи з робіт Р. Флойда та Й. А. Хоара, можна розглядати слабкі операторні формули p{S}q, де p -- логічний вираз, що описує передумови виконання оператора S, а q -- логічний вираз, що описує умову результату виконання оператора S. Семантика такої операторної формули полягає у наступному. Якщо виконання оператора S почалось зі стану щ, який задовольняє умову p, і завершилось станом н, то останній задовольняє умову q, що записується у вигляді:

.

Крім слабких операторних формул, розглядаються сильні операторні формули p[S], де p, S і q мають ту ж саму інтерпретацію. Якщо оператор почав виконуватися із стану щ, який задовольняє оператор p, то його виконання обов'язково завершиться і довільний отриманий результат н буде задовольняти умову q.

У теоретичних дослідженнях, проведених з формальними мовами, на рівні з іншими проблемами, також розглядається аналіз семантики мов програмування. При цьому семантика зіставляється не з самими словами, а з деревами їх виводу. Один із методів визначення семантичної функції фрази полягає в однозначному визначенні значення цієї функції з підфраз першого рівня. Формально фразу X подано як синтаксичне об'єднання власних підфраз першого рівня у вигляді:

X = ц(y1,…, ym) = u1 y1,…, umynum+1,

де u1,…,um+1 -- довільні термінальні послідовності підфраз y1,…, ym.

Обмеження на семантичну функцію названі принципом гомоморфної інтерпретації, а визначення семантики фрази через семантику її підфраз першого рівня -- семантичними правилами. Вказані правила і методи дослідження семантики формальних мов є підставою для побудови семантичного аналізу систем документообігу.

У другому розділі викладено теоретичні основи побудови семантичних аналізаторів для аналізу документів у автоматизованій системі документообігу. Основою будь-якого семантичного аналізу є: наявність системи інтерпретації та правил її використання; гомоморфізм між правилами використання системи інтерпретації та правилами побудови документів, які передбачено інтерпретувати; семантична несуперечність системи документів і системи інтерпретації.

Складовими частинами системи інтерпретації є такі компоненти: семантичний словник системи документів Sc; семантичне середовище G(Sc); система правил використання семантичного середовища.

Структура семантичного словника представлена у вигляді ієрархічного дерева, яке аналітично записується таким чином:

,

де Sik -- множина ключових слів xik,j; Sjz -- множина контекстно обумовлюючих слів xjz,i; Sjz(zi) -- множини з різним рівнем семантичної значущості слів, які розміщаються у словнику Sc. Кількість слів, що реалізують інтерпретацію I(xi), складає не тільки кількість слів одного рядка інтерпретації, а й сумується з кількістю слів інтерпретаційного розширення I(xik) для слова xik з словника Sc. Це записується за допомогою співвідношення:

,

де р - функція перерахунку кількості елементів інтерпретаційного опису xi; xki - слова інтерпретаційного опису слова x*ik, яке має в рамках словника Sc власну інтерпретацію I(xi); р(xik1) = р(xik2) = … = р(xikm) - величини семантичної значущості слова xi(ki) у множині Sik, які задаються певним інтервалом числових величин, або р[xi(ki)] = [m, n]. Для множин Siz також задаються діапазони значень р(xiz), які визначають приналежність кожного з xiz до тієї чи іншої множини Siz.

В загальному вигляді така структура семантичного словника записується співвідношенням:

,

де „” -- символ виключаючої функції диз'юнкції.

Предметна область інтерпретації Q -- це, в найпростішому вигляді, список множини елементів, які відображають усе, що на поточний момент відомо про неї. Якщо в рамках Q передбачається формувати новий об'єкт, або досліджувати нові процеси, які не мають абсолютного відображення в Q, то виникає необхідність у використанні процесів формування нової інтерпретації. Кожному елементу xi нового досліджуваного об'єкту приписується, або визначається його семантика за допомогою інтерпретаційного перетворення I(Q). Якщо компоненти нового об'єкту описуються як xi з Sc, то S(xi) = I(qi,…, qim), де qi Q -- елементи, які визначаються у вигляді текстових описів через {qi,…, qi+k} Q і qi {qi,…, qi+k}. У випадку середовищ, поданих в текстовій формі природної мови, у ролі функції I найчастіше використовується синтез функцій вибору і конкатенації, хоча можуть застосовуватись й інші функціональні перетворення.

Семантична значущість для слова xi в складі виразу нi завжди менша від персональної семантичної значущості xi з семантичного словника Sc. У документі di для кожного слова xi ведуть такі підрахунки величини значень семантичної значущості р(xi): всі речення розбивають на вирази нi у відповідності з прийнятою в Sc структурою V = {н1,…, нm}, а для кожного виразу його семантичну значущість р(vi) визначають за співвідношенням:

де рj(xi, vj) -- семантична значущість слова xi в контексті виразу vj.

Семантичною суперечністю , для кожної конкретної позиції тексту, названо величину виходу функції, що відображає залежність р(vi), за верхню межу функції, яка відображає залежність р(xi) у відповідній позиції тексту.

Величину суперечності в заданій позиції тексту визначено співвідношенням:

i = рi(vi) - рi(vi).

Для побудови моделей семантичного аналізу документів введено параметри, що відображають аспекти, пов'язані з захистом документів. Найпоширенішим у системах захисту є параметр, який характеризує міру таємності документа Pt. Другий параметр характеризує міру безпосередньої доступності документа Pd. Третій, важливий параметр, який характеризує документ і який використовують в задачах захисту документів, є час актуальності документа Pa. Серед осіб, які проводять аналіз дії документів, можуть бути й особи, яким заборонений доступ до інформації в конкретних документах.

У цьому випадку виникають такі задачі, що пов'язані із забезпеченням захисту інформації, або захисту документа:

· визначення швидкості зниження рівня таємності інформації в документі за період її використання для управління;

· визначення способу вимірювання величини таємності інформації як неперервної змінної та узгодження цієї величини з системами визначення міри таємності, що є по своїй суті дискретними і використовуються практично в установах, які проектують документи.

Швидкість зміни рівня таємності документа описано залежністю V[Pt(di)] = R / t, де R -- кількість параметрів, які формують зміни в об'єкті управління; -- одиниця часу, наприклад один день; t = t2 - t1, де t2 -- момент часу виникнення змін в об'єкті, t1 -- дата видачі документа, -- коефіцієнт пропорційності.

Вищевказані параметри використано для семантичного аналізу тексту документа і для формування моделей відповідних семантичних загроз.

В третьому розділі досліджено особливості захисту інформації у системах автоматизованого документообігу. Для цього введено і розглянуто такі означення та правила.

Означення 1. Фразою Si названо таку сукупність слів x1,…, xm, яка побудована у відповідності з синтаксисом мови См, якою проектується документ і для якої справедливе співвідношення:

.

Означення 2. Слово x*i названо порожнім, якщо воно не має інтерпретаційного розширення у семантичному словнику.

Правило 1. Якщо у фразі використано кілька слів одного граматичного класу, то розміщені першими у фразі слова, що належать даному класу, мають найвищий пріоритет при їх семантичній оцінці і, відповідно, найвищу семантичну значущість щодо інших слів цього класу.

Це правило названо правилом пріоритетів і формально записане у вигляді:

,

де i -- ідентифікатор граматичного класу, до якого віднесено слова xi і xj. Знак „” означає порядок розміщення слів xi і xj в межах фрази Si. У цьому випадку функція fi описує різні схеми розміщення слів одного класу у фразах, які мають завдяки цим розміщенням різні семантичні значущості.

Правило 2. Серед можливих схем розміщення двох слів xi(i) і xj(j) у фразі Si вибрано ту схему, яка забезпечує максимальне семантичне узгодження між схемами розміщення xi(i) xj(j), xj(j) xi(i) і префіксом та суфіксом фрази.

Правило 3. Якщо фраза Si регулярно використовується при проектуванні документа di, то для слів x1,…,xk, що належать одному граматичному класу (i), формується маска mi(Si), яка визначає розміщення кожного слова у фразі Si.

Означення 3. Міра семантичної узгодженості визначається довжиною секвенційного дерева i, що зв'язує два фрагменти, між якими встановлюється семантична узгодженість.

Величину семантичної узгодженості записано у вигляді формули:

де i -- секвенція з системи , яка зв'язує перехід між j і k, що описують поточні фрагменти, між якими встановлена семантична узгодженість, або i : j (Si) k (Sj); (Si), (Sj) -- функції, що описують фрагменти текстів Si і Sj, відповідно.

До базових параметрів, які визначають семантику документа, віднесено: семантичну значущість слів, фраз, або інших фрагментів документа; міру семантичної суперечності між компонентами, або фрагментами документа; семантичну узгодженість між окремими фразами документа; рівень таємності документа; міру безпосередньої доступності документа; період актуальності документа; швидкість зміни рівня захищеності документа.

Функціональна схема системи документообігу наведена на рис. 1.

На рис. 1 використано позначення: СВД -- система виробництва документа; ВМД -- визначення мети документа, ФСД -- формування структури документа, ЗД -- заповнення документа, КСД -- контроль семантики документа, ІП -- ідентифікатор помилки, КД -- корекція документа, ПДВ -- підготовка документа до видачі користувачеві, ТД -- транспортування документа, СКД -- система використання документа; ВД -- використання документа, АД -- архівація документа, ФЗЗ -- формування зворотного зв'язку.

Рис. 1. Блок-схема системи документообігу

Для дослідження небезпек, що існують по відношенню до документа, сформовано модель документа, яку описано у вигляді систем співвідношень, кожна з яких відповідає певному рівню ієрархії структури документа .

Співвідношення для фраз записано у вигляді:

S1 = (x11 x12x1m); …; Si = (xi1 xi2xik); …; Sn = (xn1 xn2xnn),

де xij -- окремі слова, що складають фразу Si; -- знак конкатенації між окремими словами фрази Si. На другому ієрархічному рівні структури di описуються співвідношеннями, що складають окремі речення, які формально подано у вигляді:

h1 = (S11 xi S12xj S1m),…, hi = (Si1 Si2Sik),…

…,hm = (Sm1 Sm2 xi xkSmm)

де Sij -- окрема фраза речення hi. На третьому рівні ієрархії документ di описано елементами його структури або абзацами qi. Сукупність таких співвідношень виражено у формі:

q1 = (h11 h1k),…, qn = (hn1 hnm).

Слова xi і xj вживаються у фразі Si разом тільки в тому випадку, коли вони мають спільні фрагменти семантичного розширення.

Означення 4. Контекстно залежна інтерпретація I(xi, xj) слова xj від слова xi, яке є контекстом фрази Si, визначається кількістю спільних компонент в інтерпретаційних розширеннях слів xi і xj, використаних у фразі у вигляді xi xj.

Вираз для загрози, яку може використати небезпека семантичної суперечності:

Z() = i[(I)],

де i -- функція, що залежить від величини (I), яка вказує на різницю інтерпретації слова з семантичного словника I(xi) та інтерпретації слова в контексті фрази I(xi, vi), або (I) = I(xi) - I(xi, vi). Необхідність використання функції i[(I)] обумовлюється тим, що відхилення між семантичним значенням слова xi і семантичним значенням цього ж слова в межах фрази Si залежить також від синтаксичних правил побудови фраз.

Загроза небезпеки виникнення конфлікту записується у вигляді співвідношення:

Z(k) = {i[I(Si) - I(Si, Sj)],

де I(Si) -- інтерпретація фрази Si; I(Si, Sj) -- контекстно залежна інтерпретація фрази Si від контексту, який в даному випадку складається з фрази Sj. Загроза конфлікту Z(k) тим імовірніша, чим менша [(Si, Sj)], або чим менша семантична різниця між двома вибраними фразами Si і Sj. Відсутність семантичної різниці між Si і Sj визначається мірою близькості інтерпретації фрази Si та Sj у предметній області W. Тому загрозу виникнення конфлікту визначено шляхом уточнення інтерпретації фраз I(Si), яке полягає у виділенні у фразі Si і Sj кількості слів, які мають одинакові граматичні ознаки qi, що відповідають групі слів, які є, наприклад, дієсловами. Тоді:

Zi(k) = /{*i[I(Si)] - *j(Sj)]},

де *i і *j -- функції підрахунку кількості дієслів і визначення їх інтерпретацій через пов'язані з ними словами у фразах Si і Sj. Якщо I(xi(q)) = xid, то співвідношення для Z(k) уточнюється:

,

де -- сума величин інтерпретації дієслів у фразі Si; -- сума величин інтерпретації дієслів у фразі Sj; (xid = xjd) -- дві інтерпретації дієслова з фрази Si і Sj, які рівні між собою.

Вираз для визначення величини синтаксичної суперечності подано як величину відповідного типу загрози і описано як:

де перша сума відповідає всім елементам синтаксичних схем i, що використані в документі di; друга -- всім елементам базових схем граматики CM, які не виводяться в CM; третя -- всім елементам вивідних схем i. Таким чином, залишаються тільки недопустимі компоненти схем i з di, які не є базовими і не виводяться з системи схем синтаксичних правил.

На основі сформульованих правил та означень для побудови фрагментів тексту і визначення семантичної значущості окремих текстових компонент розроблено моделі загроз конфліктів, семантичної і синтаксичної суперечностей. Величини вказаних загроз в системі документообігу адекватно визначаються при проведенні семантичного аналізу документа через контроль його власних семантичних параметрів.

В четвертому розділі сформовано моделі загроз, досліджено методи захисту та розглянуто загальну організацію роботи системи захисту документів на основі семантичного аналізу.

Величина загрози зміни міри актуальності документа Z(a) прямо пропорційна кількості функціонально значимих фрагментів hi у фразах Si, що визначається як та інтервалу часу, через який передається інформація про поточний стан документа i:

де , , -- коефіцієнти пропорційності. Функції fi для кожної окремої W описуються в словнику Sc.

Загрозу зміни рівня таємності документа Z(t) визначено як міру відхилення інтерпретації фраз Si і документа в цілому при використанні опису предметної області в межах Wi від інтерпретації, що використовує найповніший опис W:

Загроза зміни швидкості рівня захисту документа Z(v) описується на основі аналізу різниці між відношенням всіх даних документа I(d) до величини реальної зміни в процесі управління об'єктом і відношенням всіх даних документа до величини змін в цьому ж процесі, які повинні відбутися у випадку відсутності протидії. Або це можна записати у наступній формі:

де I(d) -- повна інформація, що міститься в документі; Qr -- величина змін в процесі управління об'єктом, яка обумовлюється даними I(d) з документа; Qr* =Qr - Qp, Qp -- величина протидії змінам, які здійснюються за рахунок несанкціонованого отримання інформації з документа.

Загрозу розбіжності мети документа з результатами управління Z(u) визначено таким чином:

Z(u) = |I(d) - I(Q)|,

де I(d) -- інтерпретація документа; I(Q) -- інтерпретація результатів управління об'єктом.

В роботі сформовано методи розрахунку величини значень наведених вище загроз, завдяки чому стає можливим визначати необхідний рівень захисту, який є адекватним реальним небезпекам. Розрахунок всіх загроз базується на запровадженому понятті про семантичну значущість слів, фраз, речень та цілих фрагментів тексту документу. Також розроблено функціональні блок-схеми окремих підсистем, що безпосередньо призначені для розв'язування задач захисту.

На рис. 2 наведено блок-схему системи захисту, де використано позначення: МЗ -- моделі загроз, РРБ -- розрахунок рівня безпеки, РВЗ -- розрахунок величини загрози, АІА -- архів історії атак, ПВА -- протидія виявленій атаці, ВЗ -- поточне значення величини загрози, ДВЗ -- допустиме значення величини загрози, КД -- документ, який підлягає контролю, Вих.Д -- вихідний документ.

Рис. 2. Блок-схема системи захисту

Функціональну блок-схему підсистеми визначення мети документа подано на рис. 3.

Рис. 3. Блок-схема визначення мети

На блок-схемі рис. 3 скорочення: АД -- блок аналізу даних, що поступають по каналах зворотного зв'язку, ММ -- блок модифікації мети, при розбіжності між метою і результатом управління об'єктом, ФМ -- формування мети при ініціації проектування документу ІПД, ФПД -- формування плану документу, ФСД -- формування схеми документу підсистемою виготовлення документів, АЗРТ -- аналіз зміни рівня таємності, ФПМЗ -- формування параметрів моделі загрози Z(t), МД -- модифікація документу, СЗД -- система захисту документу, АДД -- архів документів системи АСДО.

Обґрунтовано і розроблено блок-схему системи семантичного захисту документів та проаналізовано функціонування її в реальних інформаційних мережних комп'ютерних системах. На основі розроблених блок-схем, моделей загроз та запроваджених семантичних параметрів реалізовано програмні засоби семантичного аналізу та захисту документів.

Основні результати та ВИСНОВКИ

В дисертаційній роботі розв'язано актуальну наукову задачу розроблення нової інформаційної технології захисту документів в автоматизованій системі документообігу на основі семантичного аналізу їх змісту. При цьому отримано такі результати:

1. Розроблено новий метод визначення величини семантичної значущості окремих слів та фраз на основі підрахунку їх інтерпретаційних розширень, що дає можливість обчислювати кількісні величини значень семантичних параметрів у процесі семантичного аналізу.

2. Запроваджено нові семантичні параметри системи документообігу (семантичну значущість слів та фраз; міру семантичної суперечності між компонентами або фрагментами документа; семантичну узгодженість між окремими фразами; рівень таємності; міру безпосередньої доступності; термін актуальності документа), які описують семантичні особливості текстів документів і забезпечують можливість визначати наявні в них семантичні загрози.

3. Розроблено методи виявлення семантичної суперечності та конфліктних ситуацій, шляхом визначення семантичної значущості слів семантичного словника в контексті фраз документа, які дають можливість визначити рівень відповідних загроз і несанкціонованих змін семантичного значення текстів документів.

4. Вперше розроблено математичні моделі загроз, з використанням семантики документів (семантичної суперечності, небезпеки виникнення конфлікту, небезпеки виникнення синтаксичної суперечності, зміни міри актуальності, рівня таємності, швидкості рівня захисту документів та розбіжності мети документа з результатами управління), які використовуються у випадку виникнення відповідних небезпек здійснення атак на документи.

5. Розроблено нові методи захисту документів, що ґрунтуються на аналізі їх семантики засобами математичної логіки і які покладено в основу алгоритму управління документообігом.

6. Розроблено нову архітектуру реалізації системи документообігу, в якій передбачається зворотний зв'язок між проектантами та користувачами документів, що дає можливість охопити семантичним контролем документи на всіх стадіях їх існування.

Результати впроваджено у систему організації автоматизованого управління документообігом Української академії друкарства та Поліграфічного технікуму УАД, де вони реалізовані у вигляді АСДО.

СПИСОК ОПУБЛІКОВАНИХ ПРАЦЬ ЗА ТЕМОЮ ДИСЕРТАЦІЇ

1. Сабат В. І. Математичні моделі спеціалізованих семантичних аналізаторів // Моделювання та інформаційні технології. Зб. наук. праць. - Вип. 21. - 2003. - С. 195-203.

2. Сабат В. І. Логічні методи формального опису семантичного аналізу текстів // Зб. наук. праць ІПМЕ ім. Г. Є. Пухова НАН України. - Вип. 20. - 2003. - С. 113-121.

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.