Моделі, методи та програмні засоби інформаційно-аналітичного ядра інтелектуальної системи підтримки прийняття рішень

Метод ефективного кодування та відтворення знань на основі морфологічного та семантичного аналізу текстових даних і аналізу складних інформаційних об'єктів. Аналіз статистик для характеристик релевантності та швидкості алгоритмів обробки інформації.

Рубрика Программирование, компьютеры и кибернетика
Вид автореферат
Язык украинский
Дата добавления 27.02.2014
Размер файла 105,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Національний Технічний Університет України

“Київський Політехнічний Інститут”

УДК 681.3.06

МОДЕЛІ, МЕТОДИ ТА ПРОГРАМНІ ЗАСОБИ ІНФОРМАЦІЙНО-АНАЛІТИЧНОГО ЯДРА ІНТЕЛЕКТУАЛЬНОЇ СИСТЕМИ ДЛЯ ПІДТРИМКИ ПРИЙНЯТТЯ РІШЕНЬ

Спеціальність 01.05.03 - математичне та програмне забезпечення

обчислювальних машин і систем

АВТОРЕФЕРАТ

дисертації на здобуття наукового ступеня

кандидата технічних наук

Брагинський Олег Леонідович

Київ 2001

Дисертацією є рукопис.

Роботу виконано в Національному технічному університеті України "Київський політехнічний інститут" на кафедрі обчислювальної техніки.

Науковий керівник: Кандидат технічних наук, доцент Пустоваров Володимир Ілліч, Національний технічний університет України "Київський політехнічний інститут", доцент кафедри обчислювальної техніки

Офіційні опоненти: Доктор технічних наук, професор, Додонов Олександр Георгійович завідуючий відділом Інституту проблем реєстрації інформації НАН України, м. Київ.

Кандидат технічних наук, докторант, Яловець Андрій Леонідович, Інститут проблем моделювання в енергетиці імені Г.Є. Пухова НАН України, м. Київ, відділ спеціалізованих засобів моделювання.

Провідна установа: Інститут проблем математичних машин і систем НАН України, м. Київ, відділ інтелектуальних систем математичного моделювання складних об'єктів та процесів

Захист відбудеться 14 січня 2002 р. о 14:30 годині на засіданні спеціалізованої ради Д26.002.02 у Національному Технічному Університеті України “ Київський Політехнічний Інститут” (м. Київ, пр. Перемоги, 37, корп. 18, ауд. 306).

Відгуки на автореферат у двох примірниках, завірені печаткою установи, просимо надсилати за адресою: 03056, м. Київ, пр. Перемоги, 37, Вченому секретарю НТУУ “КПІ”.

З дисертацією можна ознайомиться в бібліотеці Національного Технічного Університету України “ КПІ”.

Автореферат розісланий 12 січня 2001 р.

Вчений секретар спеціалізованої ради,

кандидат технічних наук, доцент М.М. Орлова

Загальна характеристика роботи

Актуальність теми дисертації обумовлена постійним зростанням обсягів інформації, необхідної для прийняття рішень, а також недостатніми швидкістю і релевантністю роботи існуючих програм підготовки даних для підтримки прийняття рішень. Особливим попитом починають користуватися інтелектуальні системи, здатні обробляти дані різноманітних інформативних типів, різного рівня структурованості, форматів та форм, перетворюючи їх на знання, до яких може звернутися користувач, послуговуючись природною, нехай навіть обмеженою, мовою.

Розв'язання науково-технічної задачі побудови семантичних моделей, розробки інтелектуальних методів, створення ефективних програмних засобів інформаційно-аналітичного ядра інтелектуальної системи, що працює в рамках розподіленого сервера знань корпоративної інформаційної мережі, для виконання задач підтримки прийняття рішень є актуальним.

Зв'язок роботи з науковими програмами, планами та темами. Дисертаційна робота виконувалась у розвиток державних науково-технічних програм “Сучасні інформаційні технології у створенні інтегрованих виробничих комплексів”, тема “Розробка, дослідження та застосування засобів інтелектуалізації у процесі проектування баз даних та прикладних програм в автоматизованих системах на базі ПЕОМ” (№ держреєстрації 0195u008180, 1994-96 рр.), та "Концепції, концептуальні підходи та інформаційно-правова база захисту інформації в комп'ютерних системах" (№ держреєстрації 0195u038973, 1994-96 рр.), що виконувалась на замовлення ДСТЗІ України, та в рамках робіт напрямку “Перспективні інформаційні технології, прилади, системи зв'язку”, що виконувались на кафедрі обчислювальної техніки НТУУ “КПІ” в 1997-1999 рр.

Мета і задачі дослідження. Метою дисертаційної роботи є побудова семантичних моделей, розробка інтелектуальних методів, створення ефективних програмних засобів інформаційно-аналітичного ядра інтелектуальної системи (ІС) для підтримки прийняття рішень (ППР) із питань аналізу ситуацій на нових засадах побудови багатомірних семантичних векторних моделей (СВМ) представлення понять із використанням правил семантичної обробки даних (СОД), сформульованих експертами предметних галузей знань, для використання в складі розподіленого сервера знань корпоративної інформаційної мережі.

Об'єктом дослідження є системне програмне забезпечення (СПЗ) ядра аналітичних інформаційних систем. Предметом дослідження є вивчення можливості ефективного використання семантичних ознак (СО) та правил для поліпшення швидкісних та селективних характеристик СПЗ. У відповідності до визначеної мети поставлено та розв'язано такі основні завдання:

аналіз існуючих програмних засобів інформаційного пошуку, фільтрації, корекції та здобування знань в агрегатах даних різного рівня структурованості та різноманітних типів;

розробка нових методів ефективного кодування та відтворення знань на основі морфологічного та семантичного аналізу текстових даних і аналізу складних інформаційних об'єктів (СІО) за елементарними взірцями для забезпечення високопродуктивної СОД;

розробка та дослідження нових інтелектуальних методів асоціативного пошуку інформації на основі побудови й використання багатомірного абстрактного координатного простору семантичних ознак (БАКПСО);

розробка нових багатомірних семантичних векторних моделей, порівняльний аналіз їх сумісності та універсальності для представлення простих і складних понять в межах комплексу обраних предметних галузей знань;

дослідження та порівняльний аналіз семантично орієнтованих методів генерації альтернативних синтезованих відповідей на запит, оцінка повноти відповідей, релевантності та визначення критеріїв вибору кращої альтернативи;

дослідження статистик для характеристик релевантності та швидкості алгоритмів обробки інформації, що дозволяють визначити порівняльну ефективність різних методів здобування знань.

Основними практичними задачами дисертаційної роботи є розробка моделей та методів для побудови комплексу програмних засобів підтримки прийняття рішень в інформаційно-аналітичній інтелектуальній системі, зручної в експлуатації при обробці великих обсягів інформації.

Методи дослідження дисертації базуються на використанні спеціальних методів штучного інтелекту, семантичного аналізу, математичної логіки, статистичного аналізу, програмування, основних положень теорій множин, графів, кінцевих автоматів та теорії прийняття рішень.

Наукова новизна одержаних результатів:

розроблено семантичні векторні моделі елементарних і композиційних взірців та понять для довідників і мов зображувальних засобів на основі побудови багатомірного простору семантичних ознак, що дозволило значно підвищити точність представлення та формалізувати автоматизоване представлення СІО в БЗ системи;

запропоновано інтелектуальні методи підтримки актуальності семантичних моделей ПГЗ шляхом формування баз ОП та ОУ, що дозволило підвищити точність аналізу текстів, запитів користувача, релевантність синтезу відповідей на основі аналізу поточних структурних одиниць змісту (СОЗ) розподілених і частково суперечних даних з урахуванням коефіцієнтів довіри та обмежень діапазонів багатозначних умов;

удосконалено інтелектуальні методи аналізу СІО і даних різного рівня структурованості за елементарними взірцями, та текстових даних на основі морфологічного аналізу, що дозволило значно підвищити швидкість та вдосконалити якість обробки даних;

на основі розроблених та застосованих семантичних моделей та інтелектуальних методів сформульовано методики та розроблені програмні засоби ЯІСППР для розв'язання задач інформаційного пошуку за синтаксичними правилами, семантичними взірцями та ознаками.

Практична цінність дисертаційної роботи визначається побудовою на основі теоретичних результатів конкретних практичних моделей, методів та програмної реалізації інформаційно-аналітичного ядра ІС для систем підтримки прийняття рішень (СППР) із метою автоматизації процесу здобування знань із даних різного рівня структурованості; розробкою методик використання створеного спектра програмних засобів, орієнтованих на збір, фільтрацію, корекцію та семантичну обробку інформації.

Запропоновані засоби автоматизації обробки знань дозволяють значно знизити трудомісткість інформаційного пошуку. Розроблене інформаційно-аналітичне ядро ІС здобування знань для ППР значно скорочує зусилля розробників та користувачів інформаційних ресурсів по опрацюванню блоків неструктурованих даних.

Впровадження результатів наукової роботи було здійснено для компаній ЗАО “Альфа Капітал Україна” при побудові систем прозорого пошуку й знищення комп'ютерних вірусів на основі аналізу СІО за елементарними взірцями (1998р.), автоматизованої класифікації текстів на основі морфологічного аналізу текстових даних (1999р.) та системі підтримки прийняття рішень у фінансовій сфері на основі побудови семантично орієнтованих векторних моделей бізнес-процесів, документів та корпоративних ресурсів (2000р.), АКБ “Київінвестбанк” - системи моніторингу безпеки інформаційних потоків даних, що становлять комерційну таємницю на основі багатомірних семантичних векторних моделей інформаційних потоків, ресурсів та користувачів (2000р.), і ЗАО “Альфа Банк” - розподіленого серверу знань корпоративної мережі з використанням правил семантичної обробки знань, сформульованих експертами предметних галузей (2001р.), що підтверджено п'ятьма актами впровадження.

Результати досліджень і розробок можуть бути застосовані в організаціях, що займаються високошвидкісним інформаційним пошуком, аналітичною обробкою гранично великих обсягів даних, проблемами ефективного керування численними та різнорідними ресурсами, моделюванням та прогнозуванням державної економіки.

Особистий внесок здобувача. Основні результати роботи одержано автором самостійно. Автору належить наступне:

Метод швидкісного морфологічного розбору нетекстових конструкцій та текстових даних із наступним ефективним кодуванням семантичних та синтаксичних ознак для підвищення компактності представлення знань.

Метод комплексного кодування та обробки знань із метою поліпшення характеристик швидкості глибинного семантичного аналізу і релевантності синтезу текстів відповідей на запити користувача.

Методи корекції нетекстових даних та текстів електронних документів при внесенні їх у базу даних (БД) на основі статистичних характеристик типових інформаційних об'єктів та природних мов.

Метод визначення тотожності та ступеню близькості фрагментів даних різного рівня структурованості на основі аналізу СІО за елементарними взірцями.

Багатомірні СВМ представлення понять, об'єктів пошуку (ОП), об'єктів уваги (ОУ) і предметних галузей знань (ПГЗ) для виявлення тенденцій поведінки об'єктів, аналізу складних взаємних зв'язків і виявлення неявних закономірностей.

Результати досліджень експериментально перевірені у промислових умовах, доповідалися й обговорювалися на наукових конференціях.

Апробація результатів дисертації. Основні положення проведених досліджень та результати їх упровадження доповідались і обговорювались на наукових семінарах та науково-технічних конференціях, в тому числі на другій міжнародній конференції “Теорія і техніка передачі, прийому та обробки інформації” (Харків - Туапсе, 1996), третій міжнародній конференції "Стратегії та методики навчання мовам для спеціальних цілей" (Київ, 1997), першій міжнародній конференції-виставці із систем керування документами, знаннями та діловими процесами "Електронний офіс '99" (Ялта, 1999г.), другій міжнародній науково-практичній конференції “Сучасні інформаційні та електроні технології” (Одеса, 2001) та на наукових семінарах кафедри обчислювальної техніки НТУУ “КПІ”.

Публікації. За темою дисертації опубліковано 10 робіт, із них 7 - в фахових виданнях, затверджених ВАК України; особистих - 5.

Структура та обсяг дисертації. Дисертаційна робота складається з вступу, чотирьох розділів, заключної частини та додатків, що складає 186 сторінок друкованого тексту, включає 28 малюнків, 37 таблиць, список використаної літератури на 285 назв.

Основний зміст роботи

алгоритм інформація релевантність обробка

У вступі сформульовано мету та завдання досліджень, окреслені основні положення дисертаційної роботи, викладена її загальна характеристика. Дослідження останніх років показали, що багатомовні інформаційні системи, побудовані для пошуку й накопичення знань через обробку синтаксичних ознак текстової та табличної інформації, не дають бажаного ефекту точності пошуку через неоднозначність представлення змістовної інформації (ЗІ). Показано, що для підтримання високої швидкості й точності аналізу при переході від систем інформаційного пошуку до ІС здобування знань важливо мати єдиний формат представлення семантики для даних, що аналізуються і для бази знань (БЗ) системи.

У першому розділі проведено аналіз існуючих програмних засобів інформаційного пошуку та здобування, способів організації, обробки та представлення знань. Для цього переглянутий розвиток систем інтелектуального аналізу даних (ІАД) із позицій орієнтації на пошук та подальшу обробку ЗІ в інформаційних системах, вказано на причини, що визначають перспективи використання СПЗ для пошуку ЗІ. Наведено приклади та визначено умови вдалого використання методів та систем ІАД при розв'язанні прикладних задач. Відзначено головні недоліки існуючих рішень за швидкістю й точністю обробки, обґрунтовано гіпотези про можливість усунення недоліків за допомогою інтелектуальних засобів.

За допомогою класифікації інформаційних джерел, методів, технологій та систем ІАД визначено спрямованість запропонованих у роботі моделей і методів на покращення швидкості та точності СППР. Обґрунтовано необхідність проведення досліджень із структуризації текстових та компаундних файлів, які є основними носіями даних в інформаційних системах, визначення їх семантичних характеристик та ефективного представлення для СОД при побудові інформаційно-аналітичного ядра інтелектуальної системи для підтримки прийняття рішень (ЯІСППР).

Сформульовано вимоги та запропоновано узагальнену структуру програмних засобів реалізації моделей та методів ЯІСППР, БЗ системи, запитів користувачів, реакцій системи, першоджерел даних.

Сформульовано загальну постановку задачі побудови моделей, методів та програмних засобів для ЯІСППР:

Дано: первинні джерела І1(FT, Fm) інформації у вигляді текстових FT і компаундних файлів Fm із використанням різних мов представлення L; довідники синтаксичного контролю (ДСК) Dsl для l-ої мови Ll(V, Vo, Rs, V0), що визначається граматиками складових, де V - множина позначень мови, Vo - множина термінальних позначень, Rs - синтаксичні правила, V0 Vo - початковий символ; перелік ПГЗ gp, що плануються до обробки; перелік задач G, що визначаються метою функціонування багатомовної ІС G(gp, Oss(Uu), Qu(Uu, Ll)) G, що конкретизується у ОП Oss, ОУ Oa та запитах Qu користувача Uu сформульованих природною мовою Ll.

Треба визначити: моделі ПГЗ Mpg на основі словників V спеціальних термінів та баз знань Bk сталих відношень між термінами та характеристиками, моделі ОП MOss, ОУ MOa та запитів MQ, необхідні для реалізації задач G, коди C для представлення синтаксичних Os та семантичних Oc ознак, що сприяють ефективному розв'язанню задач G; структуру DcS та елементи DcE довідників семантичної відповідності (ДСВ) Dc; моделі M і методи Mt розв'язання основних задач семантичного аналізу; правила генерації висновків Rgr, формування Rga та визначення релевантності Rr рішень з відбору інформації I2 для створення синтезованих відповідей a.

З позицій поставленої задачі G розглянуто традиційні підходи до синтезу відповідей a на запити Q у природній мові Ll, формування та налагодження БЗ Bk. Проведено аналіз та класифікацію структурних елементів основних компаундних файлів Fm, що використовуються в сучасних інформаційних системах. Для отримання ефективних форм представлення СВМ M у межах мовних образотворчих засобів запропоновано використовувати узагальнені ієрархічні словники парної відповідності V(O, C(O)) ознак O та їх кодів C(O), що скорочують витрати часу при статистичному, граматичному та семантичному аналізі, реконфігурації та реконструкції вихідних даних. На основі словників V та правил їх обробки R будуються довідники D = (V(O, C(O)), R). Для ефективної синтаксичної обробки у внутрішньому представленні пропонується використовувати синтаксичні Os та семантичні Oc ознаки.

У другому розділі детально розроблено моделі для організації інформаційно-аналітичного ЯІСППР, мовно-незалежної та аналітичної частин БЗ системи; створення та верифікації багатомірних СВМ ПГЗ; методи побудови функцій поведінки та визначення діапазонів зміни параметрів ОП та ОУ; алгоритми обробки запитів та синтезу відповідей.

Для створення підсистем пояснень та інших видів семантичної інтерпретації у СППР необхідно розшарувати БЗ Bk, що визначає синтаксичну та семантичну основу ПГЗ gp. Виділимо фундаментальну частину, що представляє мовні ресурси, та частину конкретизації картин (сцен), яка представляє комплекси екземплярів об'єктів ПГЗ. Два первинних шари БЗ Bk = (Bkl, Mpg) мають скласти БЗ моделей Bkl образотворчих засобів l-ої мови та мово-незалежні моделі Mpg ПГЗ.

Кожен шар БЗ включає набір кодованих ознак, правила їх застосування та обмежуючі правила. Основу БЗ будь-якого набору довільних образотворчих засобів Bkl (починаючи із символьних та впритул до будь-яких комбінацій засобів Multimedia), визначає у загальному випадку комплекс мов L = (Ls, Lp, LR, LQ, Ll, LM), де Ls - мови формальних математичних специфікацій, Lp - мови програмування, LR - мови представлення правил, LQ - мови запитів, Ll - обмежені або повні природні мови, LM - мови відображень або описів об'єктів Multimedia та гіпертекстових об'єктів. Мови Ll, LM представляють вхідні й внутрішні або кодовані дані зручні для СОД, а мови Ls, Lp, LR, LQ відтворюють формалізовані представлення дій, зв'язків, правил.

Основу узагальненої реалізації мови Ll = (Dsl, Dcl) у межах інформаційно-аналітичного ЯІСППР складають ДСК Dsl = (Vsl(Osl, C(Osl)), Rsl) і ДСВ Dcl = (Vcl(Ocl, C(Ocl)), Rco) елементів мови. ДСК включають множини синтаксичних ознак Osl = iOsli та правил Rsl = jRslj. Основні синтаксичні правила представляють собою у найпростішому випадку булеві функції припустимості Rslj = blj(iOsli), а у більш складних випадках - функції для корегування помилкових конструкцій у формат найближчих подібних коректних конструкцій Rslj = olj(iOsli). ДСВ включають множину відповідностей
Ocl = likk(Ocli), впорядкованих за синтаксичними ознаками Osli та мово-незалежні правила семантичних обмежень Rco.

На відміну від традиційних систем із використанням природної мови звернемо основну увагу на внутрішнє представлення кодів C(O). Найменшою одиницею природної мови Ll, що зберігає СО є морфема Oml, тому за основу синтаксичного Dcl та семантичного Dsl довідників було використано морфологічний словник Vml. Морфологічний (у більш загальному випадку структурний) словник Vml = (Oml, C(Oml)) складається з повного набору морфем Om = iOmli l-ї мови та відповідних їм семантичних кодів C(Omlk) = likk(Omli) і є основою для орфографічного словника Vol, що розширюється до орфографічного довідника Dol. На основі граматичного словника Vgl нетермінальних позначень будується тлумачний Vpl, та перекладний Vtl словники. Від ефективності реалізації морфологічного словника Vml залежить ефективність досягнення цілей G всієї ІС.

Узагальнена формула коду слова CTw, реконструйованого як комбінація морфем морфологічного словника Vml для l-ї мови, що визначає структуру коду та правила кодування, виглядає як ланцюжок кодів:

CTw = Cr(Ori)Cco(Ocoj)Cp(Opk)Cf, (1)

де Cr, Cco, Cp - функції кодування префіксів, коренів і суфіксів; i - використані індекси множини префіксних ознак Orl = iOri (для природної мови - префіксів); j - використані індекси множини семантичної основи Ocol = iOcoi (коренів); k - використані індекси множини постфіксних ознак Opl = iOpi (суфіксів); Сf = fOs (RLl(Tw)) - закінчення слова або флексія, а fOs - функція побудови узгоджуючих флексій за правилом лематизації RLl, що визначається типом слова, суфіксом або коренем за відсутності суфікса в слові Tw. Множина морфем l-ї мови Oml = OrlOcolOpl використовується для визначення алфавіту AlC і правил кодування RgC внутрішнього представлення.

Універсальність формули (1) робить її придатною для внутрішнього кодування та подальшої обробки сполучень слів і кодів незалежно від їх складності та формування імен для семантичних характеристик об'єктів БЗ. Орфографічний довідник DoLl l мови має такий вигляд:

DoLl = (Vol(Oml, C(Oml)), Rcl, Rcm, Rtl, Rtm), (2)

де Vol - орфографічний (лексичний) словник парних відповідностей морфологічних ознак Oml та їх кодів C(Oml), Rcl, Rcm - правила статистичної корекції на основі сполучення окремих літер та морфем відповідно; Rtl, Rtm - табличні правила коректних сполучень і обмежень на сполучення літер та морфем.

Для граматичного довідника Dgl задаються: Vgl - граматичний словник, правила підлеглості та взаємного управління Rpp, правила синтаксичної несуперечності RHus, та правила синтаксичної та статистичної пунктуації RPs, RPt відповідно:

Dgl = (Vgl (Ool, C(Ool)), Rpp, RHus, RPs, RPt). (3)

Тлумачний довідник Dpsl = (Vpl(Opl, C(Opl)), Rpl(VIl(OIl, C(OIl)))) містить у собі тлумачний словник Vpl, слова з якого інваріантні для різних ПГЗ, правила створення пояснень (тлумачень) Rpl на базі групи інформаційних словників VIl для ПГЗ gp, що плануються до обробки в багатомовній ІС.

Ієрархія довідників hD = (Dps(Dg(Do(Dm))), Mpg(dM)) зберігає описи ПГЗ dM = (dMh, dMs, dMc), де dMh, dMs, dMc - описи структурної, синтаксичної та семантичної моделей ПГЗ gp. Маємо взаємо-зворотній опис, оскільки рівні ієрархії довідників hD визначаються рівнем предметно-понятійної абстракції. Модель ПГЗ Mpg = (Kpg, ZTw(Tw)) містить достатній (із точки зору експертів) перелік координат Kpg для того, щоб за їх допомогою описати всі слова Tw в усіх своїх значеннях ZTw, притаманних gp.

БАКПСО Kpg(gpi) формується, як перелік усіх необхідних та достатніх СО для однозначної інтерпретації понять (загальних та вузькоспеціалізованих), в термінах яких можливе семантичне пояснення та математичне відтворення (позиціювання в БАКПСО) елементів (P, Oss) даної gpi.

Докладний опис координат dK = (Vgp(Otp, C(Otp)), RKb(Kpg)) містить спеціалізований словник Vgp опису термінів Otp конкретної ПГЗ gp та правила RKb побудови БАКПСО Kpg. Словник опису ПГЗ Vgpi = (Oc(Tw, gp), C(Oc)) включає координатні терміни у вигляді семантичних ознак Oc, що описуються як множина посилань mw на значення змістовних (семантичних) характеристик слова ZTw за координатами Mpg. Масив значень mw = (ZTw(Tw, Mpg)) розміром n = card(KpgИdK) однозначно описує всі відомі ЯІСППР значення слова ZTw, що належать gp, в БАКПСО ПГЗ.

В БАКПСО Kpg (Kgx(X), Kgy(Y), Kgq(Z), Kgz(Q)) ПГЗ gp виділяємо 4 групи координат: загальна Kgx - характеризує параметри понять загального змісту, що нечутливі або слабокочутливі до контексту використання; уточнююча Kgy - визначає параметри, що вживаються для підвищення якості тлумачення понять у рамках обмеженого кола ПГЗ gp; узгоджуюча Kgq - використовується для узгодження понять у системах різного масштабу; синтетична Kgz - штучні параметри понять, введені виключно для внутрішнього використання в рамках БЗ Bk, або ПГЗ gp.

Пояснити слова й поняття в запропонованій словниковій системі можна кількома способами відповідно до типу поняття або слова.

Представлення об'єкта точковою локалізацією

Локалізуємо поняття-об'єкт P як точку PD, що може бути однозначно відображена в БАКПСО Kpg ПГЗ gp із певними відомими координатами (X, Y, Z, Q):

Pz(P) = Pz(PD(Kpgn, gpm)), n = 1..nmax, m = 1..mmax (5)

Представлення характеристики відрізком

Представляємо поняття P як відрізок PO. Точки початку Db та кінця De відповідно характеризують найменше Zcmin та найбільше Zcmax семантичне значення поняття-характеристики в термінах БАКПСО:

Pz(P) = Pz(PO(Db(Zcmin), De (Zcmax))) (6)

Векторне представлення зв'язку

Визначаємо поняття-зв'язок як вектор Pv, що має точку початку Db, напрямок та довжину. Довжина вектора обмежує можливе коло значень Zc, а напрямок указує спрямування зростання СО Oc:

Pz(P) = Pz(Pv(Db, Zc, Oc) (7)

Представлення дії через просторовий зсув

Нове поняття дії P виражається через відоме поняття дії P', що зсунуте вздовж вектора Pvcs семантичної корекції зміщення змісту:

Pz(P) = sh(Pvcs, Pz(P')) (8)

Проекційне представлення перетворення

Невідоме поняття P описується за допомогою спрямованої просторової проекції відомого поняття P' у межах БАКПСО вздовж вектора PvP семантичної схожості:

Pz(P) = (PvP) * Pz(P) (9)

Представлення угрупування через обмеження векторами-елементами

Зміст нового поняття P формується як об'єм багатогранника, кожною вершиною якого є обмежуючі поняття PNPі, що задано векторами PSRi чи точками PDi.

Pz(P) = Pz(V(PNP1, PNP2,..., PNPn)) (10)

Окремо вділяються способи представлення об'єктів (5), характеристик (6), зв'язків (7), дій (8), перетворень (9), угрупувань (10), тощо. Усього в дисертаційній роботі визначено 34 моделі пояснення та інтерпретації понять, висловлених природною мовою.

У третьому розділі зазначено вимоги до реалізації методів синтаксичного та семантичного ІАД, формалізовано опис узагальненого методу обробки даних в ЯІСППР, розроблено узагальнені методи аналізу, декомпозиції, кодування, фільтрації та реконструкції ЗІ, конкретизовано загальні методи на прикладі обробки текстових даних.

Потік вхідної у систему інформації I1 є дискретним із погляду порційності передачі СОЗ: правдивих або помилкових тверджень Ap = Иi Api. Сукупність СОЗ Ap разом з ознаками їх істинності Otr складає первину БЗ:
Bk1 = (Ap, Otr).

Після наповнення Bk1 проводиться її верифікація на внутрішню несуперечність, залишковість та повноту відносно серії тестових запитів різної складності для відповідної ПГЗ, чи комплексу обраних ПГЗ.

Для оцінки важливості окремих СОЗ визначено їх пряму та зворотну зв'язність у БЗ. Пряма зв'язність ZdTozi визначається як кількість посилань на дану СОЗ із боку решти СОЗ БЗ системи. Зворотна зв'язність ZrTozi - кількість посилань із боку ZdTozi на решту СОЗ БЗ системи. При цьому, як для прямої, так і для зворотної зв'язностей вираховується коефіцієнт спрямленості klTozij, що вираховується як кількість проміжних СОЗ, потрібних, щоб зв'язати між собою ZdTozi та ZdTozj. Для зворотної зв'язності коефіцієнт спрямленості klToz буде від'ємним.

Мова запитів LQ передбачає, що будь-які фрази Tp, або речення Tr вважаються запитом Qu. Запит користувача розглядається як твердження Au, система має вирішувати задачу перевірки: Bk > Au. СОЗ у Bk і запитах користувача Qu можуть бути як завгодно складні, але розбиваються на елементарні вирази Bi, що відповідають шаблону реляційного виразу належності:

Api = B1 B2 B3 B4 B5 B6 B7 B8 B9 B10.

Перевірка запиту Qu на внутрішню несуперечність, повноту проводиться аналогічно до подібних перевірок у БЗ. Довизначення запиту може знадобитися у випадках: а) внутрішня неповнота або суперечність; б) несумісність з БЗ системи; в) неможливість визначити ПГЗ.

Для формалізації представлення СОЗ була розроблена внутрішня універсальна канонічна форма представлення СОЗ Ap, запитів Qu та відповідей a(Qu). Множина канонічних форм mrk = (Ap, Qu, a(Qu)) визначається можливими типами СОЗ Ap з БЗ і запитів користувача Qu = (Q, Qc, Qcl, QL, QN), що підлягають семантичній обробці. При цьому Q - питання загального характеру, Qc - спеціальні питання (про елементи речення), Qcl - питання зі складною логікою (і/або/ні), QL - твердження: описи, факти, правила, QN - заперечення.

Для підвищення зв'язності знань I3 експерти UE формулюють асоціативні зв'язки Sa і первинні правила обробки Rk1 знань:I3 = (I2, Sa, Rk1), формалізують СВМ у n-мірному БАКПСО родових SrMp, категоріальних SkMp, параметричних SpMp і квантитивних зв'язків SqMp, визначаючи діапазони HbZM зміни критичних ZkMp, важливих ZwMp і відмітних ZvMp значень: Mpg = (SrMp, SkMp, SpMp, SqMp, HbZM(ZkMp, ZwMp, ZvMp)).

БЗ Bk аналітичної системи має наступну структуру:

Bk = (RIin, Rga, Rsec, Ld, BkL, Bka), (15)

де RIin - правила вводу інформації, Rga - правила генерації відповідей, Rsec - правила гарантування безпеки доступу до БЗ системи, dL - опис природних мов (тексти на яких система спроможна обробляти), BknL - мово-незалежна БЗ, Bka - аналітична БЗ.

БЗ Bk має певну ієрархію hkgp ПГЗ gp за рівнями програмних об'єктів, причому, рівень ієрархії відповідає рівню деталізації gp:

hgp = {(g0, Sgl13), (g11, Sgh0, Sgin12, Sgin13, Sgl21, Sgl22), (g12, …)}, (16)

де gij - j-а ПГЗ i-го рівня в ієрархії hkgp, Sgh - зв'язок з ПГЗ вищого рівня, Sgin - зв'язок між ПГЗ одного рівня, Sgl - зв'язок з ПГЗ нижнього рівня.

Налагоджування системи під рішення конкретного класу задач виконується шляхом формулювання первинних запитів Q1, метою яких є визначення ОУ Oa = Qg1(I3) і створення СВМ ОУ MOa = (SrMo, SkMo, SqMo, HbZM(ZkMo, ZwMo, ZvMo)). За запитом ЯІСППР реконфігурує, фільтрує знання k і перевіряє правила їхньої обробки Rpk: fG = f (k (I3), Rpk(I3)). Результатом обробки системою запиту QG користувача Uu буде реконструйована інформація a(I), відранжована згідно з правилами релевантності Rr, визначених експертами UE і користувачем Uu: I(G2) = f (I3(RrE, RrU)).

Для підготовки прийняття рішень щодо вирішення проблеми p, виконується синтез файлу результату Fr, що містить логічну послідовність Frc максимум унікальної Iq4, зв'язкової IS4 і несуперечливої IHu4 інформації I4 із сукупності наявних даних I3: Fr (I4(G3 (p))) = Frc (max (Iq4, IS4, IHu4)).

У четвертому розділі описано функціональну, інформаційну та програмну структуру ЯІСППР, особливості практичної реалізації ІС, вказано на проведені експериментальні дослідження ефективності запропонованих СВМ та інтелектуальних методів, зроблено теоретичну оцінку семантичної сумісності та універсальності запропонованих моделей та методів представлення понять, прокоментовано отримані результати.

На відміну від традиційних систем ІАД із використанням природної мови у роботі звернуто основну увагу на виділення та внутрішнє представлення СО Oc у закодованих елементах CE БЗ Bk системи. Кожен довідник D = (V, R) був представлений як сукупність перетворюючого словника V та набору правил його застосування R. Результатом перетворення тексту TT у формат TCOc із кодуванням СО Oc стала послідовність кодів слів CTw, що містять необхідні синтаксичні Os та семантичні Oc ознаки.

...

Подобные документы

  • Живучість в комплексі властивостей складних систем. Моделі для аналізу живучості. Аналіз електромагнітної сумісності. Характер пошкоджень елементної бази інформаційно-обчислювальних систем. Розробка алгоритму, баз даних та модулів програми, її тестування.

    дипломная работа [151,5 K], добавлен 11.03.2012

  • Основні ознаки, що дозволяють здійснювати ідентифікацію складних об’єктів моніторингу на основі нечітких алгоритмів кластерного аналізу. Вибір доцільного алгоритму кластеризації складних об’єктів моніторингу та синтез математичної моделі кластеризації.

    курсовая работа [1,2 M], добавлен 12.01.2016

  • Практичне застосування систем кодування знакової та графічної інформації в електронних обчислювальних машинах. Позиційні системи числення. Представлення цілих і дійсних чисел. Машинні одиниці інформації. Основні системи кодування текстових даних.

    практическая работа [489,5 K], добавлен 21.03.2012

  • Історія створення мови С#. Аналіз алгоритмів кодування даних. Розробка системи в середовищі Visual Studio 2008 Express. Схема шифрування алгоритму DES. Дослідження алгоритму RC2. Приклади хешів RIPEMD-160. Програмна реалізація основних процедур системи.

    дипломная работа [1,7 M], добавлен 25.10.2012

  • Засоби створення електронних карт, тематичних шарів, генералізація просторових об`єктів реального світу, виконання ГІС-аналізу. Технічні та програмні засоби реалізації геоінформаційних систем. Сучасні методи збору просторово розподіленої інформації.

    контрольная работа [1,6 M], добавлен 25.11.2014

  • Проблема інформаційної обробки геологічних даних. Методи побудови розрізу з відомих елементів залягання. Підготовка даних для аналізу. Ієрархія об'єктів, що беруть участь в побудовах. Розрахунок витрат на розробку та впровадження проектного рішення.

    магистерская работа [4,2 M], добавлен 17.12.2014

  • Інформаційні ресурси і технології у науковому дослідженні. Основні базові послуги, що надає Інтернет. Популярні інформаційно-пошукові системи. Пошук, відбір та накопичення наукової інформації. Методи аналізу і обробки первинної статистичної інформації.

    научная работа [467,9 K], добавлен 15.04.2013

  • Засоби візуального моделювання об'єктно-орієнтованих інформаційних систем. Принципи прикладного системного аналізу. Принцип ієрархічної побудови моделей складних систем. Основні вимоги до системи. Розробка моделі програмної системи засобами UML.

    курсовая работа [546,6 K], добавлен 28.02.2012

  • Принцип роботи СТО. Аналіз існуючих теоретико-практичних розробок по створенню інформаційних систем. Модель аналізу виконання робіт з ремонту й обслуговування на СТО. Розробка автоматизованої системи обробки інформації, опис програмного забезпечення.

    дипломная работа [1,3 M], добавлен 11.10.2013

  • Комп’ютерні інформаційні системи СППР (системи підтримки прийняття рішень). Призначення, переваги, компоненти, архітектура. Приклади використовуваних СППР, їх основні види і опис. Нейронні мережі та СППР. Чинники, які сприяють сприйняттю і поширенню СППР.

    курсовая работа [323,7 K], добавлен 28.12.2010

  • Автоматизований банк даних як специфічна база даних, яка проектується і наповнюється, щоб підтримувати створення рішень в організації. Інструментальні засоби кінцевого користувача для аналізу інформації. Компоненти, що забезпечують виділення даних.

    реферат [93,1 K], добавлен 27.07.2009

  • Планування цілеспрямованих дій і прийняття рішень. Характеристика методу повного перебору - універсального методу вирішення оптимізаційних задач, якщо множина допустимих рішень обмежена. Експоненційна складність евристичного пошуку. Складність алгоритмів.

    реферат [62,2 K], добавлен 13.06.2010

  • Розробка та дослідження алгоритмів і програм кодування даних з виявленням помилок на основі циклічних CRC-кодів. Аналіз циклічних кодів. Розробка та тестування програмних модулів. Розрахунок економічних показників. Вирішення питань охорони праці.

    дипломная работа [5,4 M], добавлен 22.06.2010

  • Сучасні методи захисту текстової інформації. Порівняльний аналіз шифру Бекона з іншими відомими шифрами. Практичне використання алгоритмів кодування тексту. Написання програми "Шифр Бекона", використані компоненти для реалізації алгоритму, їх властивості.

    курсовая работа [606,8 K], добавлен 28.03.2016

  • Програмний продукт "Графічний кодер чорно-білих зображень". Аналіз технологій одержання компактних подань відеоінформації способом організації кодування й пошук шляхів підвищення їх ефективності. Кодування зображень на основі зміни градації яскравості.

    дипломная работа [1,8 M], добавлен 29.06.2009

  • Задачі інформаційних систем криптографічного захисту інформації. Принципи шифрування даних на основі використання хеш-функцій. Розробка програмних компонентів інформаційних систем криптографічного захисту інформації. Види криптографічних алгоритмів.

    курсовая работа [2,7 M], добавлен 23.01.2012

  • Характеристика інфологічної та даталогічної моделі бази даних. Поняття та класифікація управлінських інформаційних систем. Інформаційні системи управління технологічними процесами. Інтелектуальні інформаційно-пошукові системи, штучний інтелект.

    контрольная работа [11,9 K], добавлен 29.10.2009

  • Аналіз сучасних методів тестування та практичних особливостей проведення тестового контролю. Основи побудови інформаційно-математичної моделі. Алгоритм запису інформації в таблицю бази даних. Характеристика та шляхи розробки інтерфейсу редактора тестів.

    курсовая работа [1,7 M], добавлен 08.10.2010

  • Дослідження методів криптографічного аналізу. Властивості гарної статистики. Технічні та програмні засоби. Алгоритм програми криптографічного аналізу. Модель статичного кріптоаналізу. Аналіз зашифрованого тексту. Рекомендації щодо використання програми.

    курсовая работа [1,5 M], добавлен 05.12.2012

  • Аналіз існуючих моделей та методів визначення повітряних та наземних рухомих об’єктів, узагальнення, поєднання та вдосконалення методів присвоєння координат на карті аеропорту у реальному часі. Засоби аналізу динамічних сценаріїв поточної обстановки.

    дипломная работа [6,9 M], добавлен 27.01.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.