Система обробки електронних документів на основі нечіткої моделі термінологічного аналізу
Вивчення методики підвищення якості обробки електронних документів, що містять природно-мовні тексти, можливо з помилками. Розробка автоматизованої системи термінологічного та інтерпретаційного аналізу електронних текстових документів, що містять помилки.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | автореферат |
Язык | украинский |
Дата добавления | 29.08.2015 |
Размер файла | 89,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
ДОНЕЦЬКИЙ НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ
УДК 004.912+025.4.03+004.81:159.95
СИСТЕМА ОБРОБКИ ЕЛЕКТРОННИХ ДОКУМЕНТІВ НА ОСНОВІ НЕЧІТКОЇ МОДЕЛІ ТЕРМІНОЛОГІЧНОГО АНАЛІЗУ
05.13.06 - «Інформаційні технології»
Автореферат дисертації на здобуття
наукового ступеня кандидата технічних наук
Ломонос Ярослав Геннадійович
Донецьк-2008
Дисертацією є рукопис.
Роботу виконано в Донецькому національному університеті Міністерства освіти і науки України.
Науковий керівник:доктор технічних наук, професор Каргін Анатолій Олексійович, завідувач кафедри комп'ютерних технологій Донецького національного університету міністерства освіти і науки України, м. Донецьк.
Офіційні опоненти:доктор технічних наук, професор Ходаков Віктор Єгорович, завідувач кафедри інформаційних технологій Херсонського національного технічного університету міністерства освіти і науки України, м. Херсон.
доктор технічних наук, професор Філатов Валентин Олександрович, професор кафедри штучного інтелекту Харківського національного університету радіоелектроніки міністерства освіти і науки України, м. Харків.
Захист відбудеться «12» січня 2009р. о 13.00 на засіданні спеціалізованої вченої ради К 11.051.08 у Донецькому національному університеті за адресою: 83000, м. Донецьк, пр. Театральний, 13, корп. 4, ауд. 416.
З дисертацією можна ознайомитися в бібліотеці Донецького національного університету за адресою: 83000, м. Донецьк, вул. Університетська, 24, головний корпус.
Автореферат розісланий «11» грудня 2008 р.
Вчений секретар спеціалізованої
вченої ради К 11.051.08
кандидат технічних наук, доцент _______________ Д.В. Шевцов
ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ
Актуальність теми. Більша частина інформації в глобальних сховищах даних зберігається у вигляді текстових документів. Таких документів в Інтернет уже зібрано велика кількість, і процес накопичення триває, що веде до збільшення складності керування вмістом мережі. У процесі роботи з текстовими документами за допомогою Інтернет виникають задачі пошуку, категоризації й анотування документів. Ці задачі частково вирішуються різноманітними апаратно-програмними комплексами, що мають узагальнену назву "Системи обробки тексту".
Важливою задачею будь-якої системи обробки тексту є виділення смислових одиниць. Різноманітним аспектам проблеми виділення смислових одиниць тексту присвячені роботи Н.Е.Бузікашвілі, М.Колтхеарта, Дж.Маккелланда, М.Маслова, Дж.Мортона, Г.С.Осіпова, О.В.Пєскової, Д.В.Самойлова, К.Селезньова, І.В.Сєгаловича, Дж.Солтона та інших учених.
Основна увага з метою автоматизації обробки електронних документів у мережі Інтернет звернена на динамічний контент - інформації новинних сайтів, форумів, конференцій. Щодня на кожному інформаційному Інтернет-порталі створюються від 50 до 10000 таких коротких текстових повідомлень, причому кожне десяте містить граматичну або семантичну помилку. Оперативна обробка новинних повідомлень - критична частина аналітичних відділів компаній різноманітних сфер діяльності, систем фундаментального аналізу та ін.
Головна проблема існуючих методів та технологій обробки природно-мовних текстів, що використовуються в сучасних системах морфологічного та семантичного аналізу, є виділення з елементів графічного подання тексту (символ-слово-речення-абзац-текст) його семантичних сутностей (морфема-термін-фраза-думка-текст). Дослідження в галузі побудови систем обробки природно-мовної інформації з використанням цих моделей і механізмів останнім часом набувають популярності, однак усе ще залишаються невирішеними багато проблем, пов'язаних з розробкою моделей, методів і алгоритмів виділення семантичних елементів тексту, оцінки нечіткості елементів тексту та обробки помилок у символьному поданні тексту. Таким чином, актуальними та важливими є дослідження й розробка моделей синтаксичного, морфологічного та термінологічного аналізу природно-мовних текстів.
Зв'язок роботи з науковими програмами, планами, темами. Тема дисертаційної роботи та отримані результати відповідають проблематиці держбюджетних і госпдоговірних тем, які виконуються у Донецькому національному університеті. Дисертаційну роботу виконано згідно з планом держбюджетних науково-дослідних робіт №0101U005380 «Технології ситуаційних динамічних процесів для створення систем штучного інтелекту» та №0104U002161 «Інтелектуальні машини, основані на інтегрованих знаннях». Автор є одним з виконавців робіт за цими темами.
Мета і задачі дослідження. Метою дисертаційної роботи є підвищення якості обробки електронних документів, що містять природно-мовні тексти, можливо з помилками. Для досягнення мети в роботі вирішуються наступні задачі:
-дослідити стан проблеми в частині методів обробки природно-мовних текстів, що використовуються для побудови систем пошуку, категоризації та аналізу електронних документів;
-розробити багаторівневу нечітку модель подання то обробки тексту, що містить помилки, структура якої відображає семантичні шари символ-морфема-термін;
-розробити метод інтерпретації електронних документів;
-експериментально дослідити розроблені модель та метод;
-розробити автоматизовану систему термінологічного аналізу електронних текстових документів, що містять помилки.
Об'єктом дослідження є інформаційно-пошукові системи, системи категоризації документів та системи.
Предметом дослідження є моделі обробки електронних природно-мовних текстів.
Методи дослідження. Для вирішення поставлених задач використані наступні методи: математичної лінгвістики, аналізу і синтезу елементів мови (морфів, термінів), експертних оцінок, теорії нечітких множин, програмування, принципи моделювання.
Наукова новизна результатів дисертаційної роботи. Вирішення поставлених задач дозволило отримати автору такі результати:
1. вперше розроблена модель подання та обробки природно-мовних текстів, що містять помилки, структура якої відображає семантичні шари символ-морфема-термін. Це дозволило однорідно виразити різні семантичні шари тексту та спростити їх фізичне подання.
2.получив подальший розвиток метод обробки електронних документів за рахунок вирішення задач пошуку та ідентифікації термінів на основі інтерпретації неструктурованих природно-мовних текстів, що містять помилки;
3.вдосконалене підхід обробки текстової інформації за рахунок використання моделі семантичного аналізу замість синтаксичного, зокрема семантичних шарів символ-морфема-термін що виділяються.
Практичне значення результатів дисертаційної роботи. Запропоновані моделі обробки природно-мовних текстів з можливістю наявності помилок на базі нечіткої логіки дозволяють зменшити кількість помилок пропуску електронних текстових документів при пошуку або кількість помилок помилкового спрацювання при ідентифікації терміну. Це може бути використано у побудові індексаторів пошукових машин, модуля виділення ключових елементів систем категоризації, систем передобробки складнотермінологічних текстів та систем остаточної обробки списку документів, що повертаються пошуковою машиною для уточнення релевантності документів. Результати дисертаційної роботи використані у побудові системи обробки електронних текстів «Text-to-Term» для виділення та тлумачення комп'ютерних термінів, що впроваджена в інформаційній системі бібліотеки Донецького національного університету, а також упроваджено у навчальний процес Донецького національного університету, що підтверджується відповідними актами.
Особистий внесок здобувача. Всі основні результати, що виносяться на захист, отримані автором самостійно. У роботах, виконаних у співавторстві та опублікованих у спеціалізованих виданнях переліку ВАК України, автору належать: [1] - розробка експерименту для дослідження методу інтерпретації аудіальних даних; [2] - розробка нечіткої моделі подання тексту; [6,11] - розробка модуля «Text-to-Term» у системі «Text-Term-Concept»; [9] - розробка моделі пошукової машини порталу; [10] - розробка моделі синтезу термінів.
Апробація результатів дисертації. Основні положення та результати дисертаційної роботи доповідалися й обговорювалися на:
- 7-й Всеукраїнській (2-й міжнародній) студентській науковій конференції з прикладної математики та інформатики СНКПМІ-2004, (Львів, 2004);
- науковій конференції Донецького національного університету за підсумками науково-дослідницьких робіт серед студентів, (Донецьк, 2004);
- міжнародній науково-практичній конференції «Єдиний інформаційний простір - 2004», (Дніпропетровськ, 2004);
- науковій конференції Донецького національного університету за підсумками науково-дослідницьких робіт, (Донецьк, 2005);
- шостій міжнародній науково-практичній конференції «Сучасні інформаційні та електронні технології», (Одеса, 2005);
- міжнародній науковій конференції «Інтелектуальні системи прийняття рішень та прикладні аспекти інформаційних технологій», ISDMIT - 2006, (Євпаторія, 2006);
- міжнародній науково-практичній конференції «Штучний інтелект. Інтелектуальні та багатопроцесорні системи», (Кацивелі, 2006);
- 7-й міжнародній конференції «Інтелектуальний аналіз інформації ІАІ-2007», (Київ, 2007);
- регіональному семінарі «Актуальні питання комп'ютерних наук», який функціонує при кафедрах комп'ютерних технологій та прикладної математики та теорії систем управління, (Донецьк, 2007).
Публікації. За темою дисертаційної роботи опубліковано 11 науково-технічних публікацій, з них: 6 статей у виданнях, включених у перелік видань ВАК України, у яких можуть публікуватися результати дисертаційних робіт на здобуття наукового ступеня доктора і кандидата технічних наук; 5 публікацій у збірниках праць і тез міжнародних і регіональних науково-технічних конференцій, семінарів, форумів.
Структура та обсяг дисертаційної роботи. Дисертація складається із вступу, чотирьох розділів, висновків, списку використаних літературних джерел з 120 найменувань на 18 сторінках, 6 додатків на 26 сторінках. Робота містить 34 малюнка, 16 таблиць. Загальний обсяг роботи складає 185 сторінок, з них 118 -основного тексту.
ОСНОВНИЙ ЗМІСТ РОБОТИ
документ електронний аналіз автоматизований
У вступі розглянуто стан досліджень у галузі створення систем обробки природно-мовних текстів: пошукових систем, систем категоризації та інтерпретації текстової інформації, сформульовано мету та задачі дисертаційної роботи, зазначено її актуальність, а також охарактеризовано особистий внесок здобувача, практичне значення та наукову новизну отриманих результатів.
У першому розділі подано огляд проблематики обробки текстової інформації в глобальних розподілених сховищах даних взагалі і в мережі Інтернет зокрема, а також огляд існуючих систем.
У процесі розгляду мережі Інтернет як глобального сховища даних, сукупність електронних документів, доступних у мережі, розділені на два класи: статичний і динамічний контенти. Документи поділяються на статичні та динамічні, виходячи з двох взаємодоповнюючих ознак: проміжку часу, в перебігу якого документ є актуальний, і методу доступу до документа (статичне або динамічне посилання). Потік документів динамічного сегменту мережі знаходиться у межах 0-10000 (в середньому 1000) документів на кожен портал, що має на увазі як високу швидкість появи документів, так і високу швидкість знищення або архівації документів. Динамічний сегмент мережі Інтернет складають новинні стрічки, форуми, конференції, блоги і він відіграє визначальну роль у ході проведення аналітичних та маркетингових досліджень.
Обробка текстових документів динамічного контенту має такі складності: оперативність появи документів збільшує зашумленість документа помилками; відсутність прямої Url-адреси призводить до неможливості індексації документа пошуковою машиною та, як наслідок, не можуть бути знайдені через пошукові машини. Найпоширеніший пошук ґрунтується на пошуку набору ключових слів у документі, хоча часто під час пошуку мався на увазі якийсь термін або терміни. Термін - слово або словосполучення, покликане точно позначити поняття і його співвідношення з іншими поняттями в межах спеціальної сфери. У дисертації показано, що при переході від ключових слів до пошуку за термінами збільшується релевантність результатів пошуку, що дозволяє збільшити повноту пошуку, якщо задаються зв'язки між термінами.
Критеріями якості обробки текстової інформації прийняті в роботі частки помилок першого (помилки помилкового спрацювання) та другого родів (помилки пропуску).
Виникнення помилок у тексті обумовлене недосконалістю методів внесення інформації у пам'ять ПК. Усі способи оцифрування документів зводяться до двох: внесення документа оператором ПК й кодування відбитків мови: оцифрованого аудіального образу мови або оцифрованого графічного образу. Щодо якості електронного документа при наборі тексту оператором ПК важливу роль відіграє кваліфікація оператора. Оскільки оплата роботи оператора залежить від обсягу внесеної інформації, це призводить до появи помилок у тексті із-за помилкового натискання або не натискання клавіш клавіатури, або неправильного вибору розкладки клавіатури. На кодування відбитків мови впливають якість оцифрованого сигналу й настроювання системи оператором. Часто після приведення текстової інформації до електронного вигляду проводиться вторинна обробка електронного тексту системами виправлення помилок. Цей процес залежить від внутрішнього словника, що призводить до внесення додаткових помилок в електронний текст.
У дисертаційній роботі на основі аналізу документів динамічного контенту та з урахуванням процесу створення електронних документів наведена класифікація помилок.
У другому розділі описано моделі подання тексту нечіткими характеристиками різних шарів. Подання тексту розбиті на такі рівні конкретизації смислового навантаження: символ, морфема, термін, фраза, речення, абзац, документ. У роботі розглядаються рівні символ-термін. Задача термінологічної розмітки тексту вирішується в три фази: символьний, морфологічний і термінологічний аналізи, вилучаючи аналіз слів. Багаторівнева модель подання електронного тексту містить у собі чотири рівні: первинний текст, нечітка характеристика тексту рівня символів (НХТРС), нечітка характеристика тексту рівня морфем (НХТРМ) і нечітка характеристика тексту рівня термінів (НХТРТ). Кожна нечітка характеристика є наслідком відповідної фази обробки тексту.
У роботі всі нечіткі величини (упевненість про наявність морфеми й терміна в тексті й упевненість про подібність двох символів алфавіту один до одного) визначені як нечітка множина на базовій множині фактора упевненості з функцією приналежності у вигляді гауссової функції розподілу з параметрами a і b:
. (1)
Параметр a є центром гауссової функції приналежності що відображає впевненість у деякому факті. Якщо a=1, то передбачається абсолютна впевненість в істинності факту, якщо a=-1, то передбачається абсолютна впевненість у хибності факту, а якщо a=0, то про факт нічого сказати не можна.
Параметр b - «ширина» гауссової функції приналежності що відображає невизначеність упевненості в деякому факті. Чим менше параметр, тим більше упевненість є чіткою. При b=0 нечітка множина (1) вироджується в чітке речовинне число, що дорівнює a.
Дефазифікація нечітких множин проводиться за формулою , а порівняння за правилами, якщо ; якщо , то , якщо .
У роботі вводиться три базові алфавіти символів: S0 - алфавіт символів природної мови (можливо, усічений до достатньої кількості символів). S1 - алфавіт морфем, що складається із двох множин: множини кореневих морфем природної мови (можливо, усіченої до достатньої кількості коренів) і повної множини допоміжних морфем природної мови (префікси, постфікси, інфікси й, можливо, флексії). S2 - алфавіт термінів досліджуваної предметної сфери.
Нечітка характеристика алфавіту S0 представлена повним зваженим графом , вершинами якого є символи , а вага дуги представлена у вигляді нечіткої множини і є апріорною інформацією про схожість символу на символ .
Кожен елемент словника символів S0 задається у вигляді структури:
, (2)
де - елемент алфавіту символів; - інформація про схожість символу на символ для всіх елементів алфавіту символів; - кількість елементів в алфавіті символів.
Кожен елемент словника морфем S1 задається у вигляді структури:
, (3)
де - елемент алфавіту морфем; - послідовність елемента словника S0, що утворює морфему ; - множина значень, що описує важливість кожного елемента послідовності ; - кількість елементів алфавіту S0 в морфемі (довжина морфеми); - кількість елементів в алфавіті морфем.
Кожен елемент словника термінів S2 задається у вигляді структури
,(4)
де - елемент алфавіту термінів; - послідовність елемента словника S1, що утворює термін ; - множина значень, що описує важливість кожного елемента послідовності ; - елементи словника S1, що є ключовими для терміна (кореневі морфеми); - кількість елементів алфавіту S1 у терміні (довжина терміна); - кількість ключових елементів алфавіту S1 у терміні ; - кількість елементів в алфавіті термінів.
Первинний текст подається у вигляді кінцевої послідовності символів алфавіту S0:
.(5)
Нечіткі характеристики тексту подані у вигляді:
, , .(6)
де - нечітка характеристика тексту символьного, морфемного, термінологічного рівнів;
- нечітка характеристика i-й позиції тексту;
- нечітка множина, що становить упевненість у тому, що символ sj відповідного алфавіту знаходиться в позиції i:
Нечітка характеристика тексту рівня символів для кожної позиції тексту містить упевненості для всіх елементів алфавіту S0. Нечіткі характеристики тексту рівня морфем і термінів для кожної позиції тексту містять упевненості тільки для тих елементів словників S1 і S2, для яких упевненість задовольняє певний критерій, за яким уважається, що елемент словника присутній у цій позиції тексту.
Така модель подання тексту характеристиками дозволяє врахувати можливі помилки в тексті й розглянути всі можливі варіанти присутності в тексті елементів словника. Наприклад, початково припускаючи, що оброблюваний текст «…аналогово-цифровий перетворювач…» містить помилки, НХТРТ буде містити обидва терміни «аналогово-цифровий перетворювач» і «цифро-аналоговий перетворювач», але з різною впевненістю.
У третьому розділі наведено опис символьного, морфологічного та термінологічного аналізів як описів операцій над нечіткими характеристиками тексту.
Уведені операції на факторі впевненості для зміни впевненості в процесі надходження нових даних:
(7)
Операція (7) застосовується для параметра a нечіткої множини вигляду (1) і відображає зміну впевненості. Область визначення й область значень операції (7) - базова множина фактора впевненості CF. Операція (7) симетрична () і транзитивна .
Операція (8) проводиться над параметром b нечіткої множини вигляду (1) і відображає зміну невизначеності:
.(8)
На базі операцій (7) і (8) визначена операція (9) для роботи з нечіткими множинами вигляду (1), яка відображає процес накопичення впевненості в деякій гіпотезі:
, (9)
де - раніш накоплена впевненість у гіпотезі, - впевненість о факті, що надійшов.
Також уведена операція:
(10)
як послідовність операцій (9) та операція маштабування нечіткої множини на величину (0;1] за шкалою CF:
.(11)
У процессі побудови нечіткої характеристики алфавіту методом опитування групи експертів запропоновано узагальнювати знання експерта таким чином:
,(12)
де - нечітка множина, що характеризує оцінку l-того експерта про схожість символів і між собою, а еl - міра довіри експерту.
Етап символьного аналізу проводиться за допомогою зіставлення первинного тексту (5) і нечіткої характеристики алфавіту . Кожна нечітка множина НХТРС є оцінка подібності символу до символу : , що надалі розглядається як упевненість у тому, що в позиції первинного тексту і перебуває символ . Процес символьного аналізу полягає в перетворенні послідовності символів фрагменту тексту (5) у послідовність позицій НХТРС на підставі відомої інформації про елементи алфавіту символів - :
, (13)
де
Процес морфологічного аналізу проводиться у два етапи.
Перший етап полягає у створенні нечітких характеристик и :
, (14)
де - характеристики впевненості повної обробки, тобто впевненості для морфів будувалися починаючи з першого чи другого символу морфа й кінчалися останнім;
- характеристики впевненості часткової обробки, тобто впевненості для морфів будувалися починаючи з третього і далі символу морфа й кінчалися останнім.
Другий етап - створення нечіткої характеристики тексту рівня морфем у вигляді (6) шляхом аналізу множин нечітких характеристик и :
(15)
де
Моделі морфологічного аналізу ураховують можливі помилки в первинному тексті: випадання символу; додавання зайвого символу; зміна двох символів місцями; заміна одного символу іншим.
При розробки моделі термінологічного аналізу враховані особливості подання термінів в тексті: по-перше, однослівні та багатослівні терміни можуть мати різні множину, рід, відмінок; по-друге, відсутність строгого порядку слів багатослівного терміна, й, по-третє, між словами багатослівного терміна можуть стояти інші слова. Походячи із цих особливостей, розроблений механізм, що дозволяє аналізувати всі можливі варіанти комбінацій кореневих морфем терміна й накопичувати інформацію в дискретних позиціях тексту. Цей механізм побудований на модифікованій моделі логогена Мортона. Модифікація моделі полягала у формалізації когнітивної моделі логогена й адаптації її до паралельної обробки фактів, що надходять, заданих у вигляді нечітких множин (1).
Процес термінологічного аналізу полягає в перетворенні НХТУМ у НХТУТ згідно зі структурою термінів:
(16)
де .
Результатом морфологічного аналізу є НХТРМ у вигляді (6), термінологічного аналізу - НХТРТ у вигляді (6). Нечітка характеристика тексту рівня термінів несе в собі інформацію про те, які терміни, у якій позиції й з якою впевненістю присутні в первинному тексті.
Поетапна схема роботи системи термінологічної розмітки тексту подана на рис. 1. На вхід системи може бути поданий будь-який електронний документ, наприклад: файл із символами кодувань ASCII, UNICODE, Cp1231, UTF-8; Html-документ; Rss-документ; документ у форматах MSWORD, RTF та інші формати електронних документів. Процес попередньої підготовки припускає такі дії: визначення формату подаваного документа; виділення текстової частини документа; виділення базового набору символів, визначення алфавіту S0; приведення вхідної послідовності символів до алфавіту S0. Процес остаточної підготовки припускає перетворення НХТРТ до вигляду, обумовленого використанням підсистеми. Система термінологічної розмітки електронного тексту може повертати: НХТРТ; список термінів, найбільш часто використовуваних у первинному тексті; упевненості присутності заданих термінів у первинному тексті; електронний документ у тому ж форматі, як і вихідний документ, але з інформацією про знайдені у тексті терміни.
Рис. 1. Етапи роботи системи термінологічної розмітки електронного тексту
У четвертому розділі показано місце термінологічного аналізу в загальній схемі інтерпретації текстової інформації. Задача термінологічної розмітки текстової інформації, що реалізується в підсистемі Text-to-Term, структурна схема якої наведена на рис. 2.
На рис. 2 подані такі блоки: TT - підсистема "Text-to-Term"; S - база даних алфавітів Sj; НХТ - нечіткі характеристики тексту; A - модуль адміністрування бази даних S; ПР_ТТ - модуль попередньої обробки даних; ПО_ТТ - модуль остаточної обробки даних.
Процес термінологічної обробки тексту поділяється на п'ять підпроцесів відповідно до етапів, поданих на рис. 1. Підпроцеси "символьний аналіз", "морфологічний аналіз" і "термінологічний аналіз" виконуються в рамках модуля ТТ синхронно, паралельно.
Рис. 2. Структурна схема модуля «Text-to-Term»
Наведена на рис. 2 підсистема «Text-to-Term» реалізується в додатку термінологічної розмітки «Text-to-Term», який доповнено наступними компонентами: «Терміни» - Web-додаток, що реалізує інтерфейс користувача; «TtT admin» - Web- додаток, що забезпечує функції адміністрування та редагування системи.
Розроблений додаток надає наступні сервіси: адміністрування наповнення системи: перегляд інформації про наявні в системі алфавіти: елементи алфавітів, нечіткі характеристики алфавітів, структури морфів і термінів; редагування інформації в базі даних; додавання нової інформації в базу даних. Web-сервіс "Text-to-Term" надає функцію термінологічної розмітки тексту, яка доступна програмно. Web-додаток "Терміни" надає можливість самостійного використання сервісу "Text-to-Term" для термінологічної розмітки тексту.
Тестування методу попередньої термінологічної розмітки тексту проводилося з метою дослідження його ефективності. Як критерії ефективності використовувалися кількість помилок першого роду (помилки помилкового спрацьовування - термін був знайдений у позиції тексту, незважаючи на те, що фактично був відсутній) і другого роду (помилки пропуску - термін не був знайдений у позиції тексту, незважаючи на те, що фактично був присутній).
У процесі тестування змінювалися розмір словника термінів і обсяг подаваного на вхід тексту. У ході проведення експериментів використовувалися словники термінів розміром 5, 25, 125 і 625 термінів. Словники морфів при цьому були мінімальні достатні для опису термінів, що втримуються. Обсяг первинного тексту: фраза, що містить один термін; речення, що містить 3 терміни, фрагмент тексту 2-5 абзаців, що містять до 15 термінів. На вхід системи подавали тексти з різним рівнем зашумленості:
1. Без помилок. Наприклад: «для оцифрування фотографій використовується аналогово-цифровий перетворювач для внесення фотографії до електронно-обчислювальної машини».
2. З орфографічними помилками, такими як:
2.1. Заміна символу. Наприклад: «для оцпфрування фоюграфій використовується анапогово-цнфровий перетвфювач для внесення фотографії до електрошо-обчисловальної маніини».
2.2. Випадіння символу. Наприклад: «для оцифування фоторафій використовується аналгово-цифовий переторювач для внесення фотографії до електроно-обчслювальної машини».
2.3. Додавання символу. Наприклад: «для оцифорування фоотографій використовується аналоггово-цирфровий перетворюввач для внесення фотовграфії до елекитронно-обчислдювальної машини».
2.4. Комбінація помилок. Наприклад: «для оціюрувашя фоготрафій використовується аналоюво-циорровий перетвфювач для внесення фотографії до елоктронно-обчиаіювальної машнии».
3. Семантичні зміни, такі як:
3.1. Зміна порядку слів терміна без зміни смислу. Наприклад: «для оцифрування фотографій використовується перетворювач аналогово-цифровий для внесення фотографії до обчислювальної електронної машини».
3.2. Зміна порядку слів терміна зі змінами смислу. Наприклад: «для аналогово оцифрування фотографій використовується машини обчислювальної перетворювач для внесення фотографії до електронно цифровий».
3.3. Додавання слів всередину терміна. Наприклад: «для оцифрування власних фотографій ви можете скористатися аналогово-цифровим електронним перетворювачем (сканером) для внесення фотографії до електронно-обчислювальної (ОЕ) машини (комп'ютер)».
У процесі аналізу правильним результатом вважалася пара (термін, позиція) у випадку, якщо для цієї пари термін дійсно перебуває в цій позиції первинного тексту ±4 символи. Помилковим результатом вважалася пара (термін, позиція), якщо описана вище умова не виконується.
Загальний вигляд залежності помилок від порога впевненості поданий на рис. 3.
Суцільною лінією позначена залежність помилок другого роду, переривчастою - першого. Вісь абсцис - фактор упевненості на відрізку [0;1]; вісь ординат - помилка, виражена у відсотках. Для помилок першого роду - відношення помилково знайдених термінів до всіх знайдених термінів, для помилок другого роду - відношення кількості помилково пропущених термінів до загальної кількості термінів, що є у тексті. На рис. 3 позначені точки: А - мінімальна впевненість правильно знайдених термінів; Б - максимальна впевненість помилково знайдених термінів і В - абсциса перетинів графіків - упевненість, при якій частки правильно й неправильно знайдених термінів однакові.
Рис. 3. Загальний вигляд зміни кількості помилок першого та другого родів від встановленого порога впевненості
Узагальнені результати тестування подано в таблиці 1. У таблиці наведені результати восьми груп тестів з різним рівнем зашумленості тексту. Кожна група тестів містила дванадцять тестів з варіаціями за розміром словника й розміром первинного тексту. У таблиці наведені узагальнені дані для кожної групи у вигляді трьох пар показників:
1.поріг упевненості, при якому частка помилок першого роду не перевищує 0,1% (відношення кількості помилково знайдених термінів до всіх знайдених термінів) і відповідна до цього порога частка помилок другого роду (в районі точки Б);
2.поріг упевненості, при якому частка помилок другого роду не перевищує 0,1% (відношення кількості помилково пропущених термінів до всіх правильно знайдених термінів) і відповідна до цього порога частка помилок першого роду (в районі точки А);
3.поріг упевненості, при якому частки кількості помилок першого й другого роду однакові (в районі точки В).
Як видно з таблиці 1, при мінімумі помилок другого роду, кількість помилок першого роду перебуває в межах 1,5%-10% залежно від рівня зашумленості тексту. Цей показник під час обробки безпомилкових текстів (1,5%) більший, ніж показник існуючих систем в 1,5-2 рази, а під час обробки зашумлених текстів менший у 5-20 разів, ніж в існуючих системах.
Таблиця 1. Результати тестування моделі
Помилки Чистота тексту |
Поріг 1 (мінімум помилок I-го роду) |
Частка помилок II-го роду |
Поріг 2 (мінімум помилок II-го роду) |
Частка помилок I-го роду |
Поріг 3 (рівні частки помилок I-го та II-го роду) |
Частка помилок I-го и II-го роду |
||
Текст без помилок |
0,85 |
5% |
0,8 |
1,5% |
0,81 |
1,3% |
||
Орфографічні помилки |
Заміна символу |
0,85 |
15% |
0,79 |
2,5% |
0,80 |
2,2% |
|
Випадіння символу |
0,82 |
10% |
0,72 |
3% |
0,74 |
2,8% |
||
Додавання символу |
0,85 |
20% |
0,70 |
4,5% |
0,73 |
4% |
||
Комбінація помилок |
0,84 |
25% |
0,68 |
10% |
0,72 |
8% |
||
Семантичні помилки |
Без зміни смислу |
0,85 |
5% |
0,8 |
1,5% |
0,81 |
1,3% |
|
Зі зміною смислу |
0,91 |
5% |
0,8 |
1,5% |
0,82 |
1,3% |
||
Додавання слів |
0,85 |
7% |
0,8 |
1,5% |
0,82 |
1,3% |
Вибір порогу дозволяє зменшити кількість помилок першого або другого роду залежно від поставленої задачи. Установка високого порогу (0,8-0,9) дозволяє мінімізувати кількість помилок помилкового спрацьовування, що корисно при рішенні задачі ідентифікації. Установка низького порогу (0,7-0,8) дозволяє мінімізувати кількість помилок другого роду, що корисно для завдання пошуку.
У висновках сформульовано основні наукові результати й практична значимість виконаної роботи.
У додатках наведено загальну структурну схему системи "Text-Term-Concept", повністю наведено нечітку характеристику алфавіту S0 і докладні результати проведених комп'ютерних експериментів.
ВИСНОВКИ
У дисертації подано нове розв'язання наукової проблеми обробки природно-мовних текстів в автоматизованих системах аналізу текстової інформації. Створені моделі обробки тексту дозволяють підвищити якість виділення значеннєвих елементів у природно-мовних текстах, що містять помилки. Основні результати роботи зводяться до зазначеного нижче.
1. Аналіз документів, що відносяться до динамічного контенту мережі Інтернет показав високий вміст помилок в документах. Це обмежує можливості пошукових і аналітичних систем. На основі класифікації помилок як інформаційного шуму, що зустрічаються в текстових документах - синтаксичних помилок (зміна, вставка або випадіння символу), та семантичних змін (зміни порядку слідування слів, зміни множини/роду/відмінку, вставка слів в середину фрази), запропоновано багаторівневу модель подання тексту. Це дозволяє врахувати можливі помилки на різних рівнях: синтаксичні помилки на символьному та морфемному та семантичні зміни на термінологічному рівні подання тексту.
2. Багаторівнева модель подання тексту, що побудована на основі формалізації нечіткого фактору впевненості, дозволяє однорідно виразити нечіткі характеристики тексту рівнів символів, морфем та термінів у вигляді послідовності множин нечітких множин. Однорідність апарату подання и обробки нечітких характеристик на різних шарах спрощує фізичну реалізацію моделі та подання даних в базі даних.
3. Первинний текст незалежно від рівня зашумленості відображається у формі послідовності множин нечітких множин. Рівень зашумленості й кількість помилок відображається в значенні впевненості семантичних елементів. Під час нечіткого порівняння словарного еталону з первинним текстом досягається роздільність впевненості між різними по смислу термінами та одним терміном написаним з помилками та без.
4. Процес обробки тексту зведено до поетапного вирахування нечітких характеристик на базі первинного тексту та базових свідотств про спосіб створення тексту. Класифікація способів створення тексту задається в формі нечіткої характеристики алфавіту й дозволяють підвищити достовірність обробки синтаксичних помилок в первинному тексті.
5. В основу механізму вирахування нечітких характеристик покладени модель фактора впевненості й ідея логогену Мортона. Формалізовано три путі обробки лінгвістичної інформації: порівняння з еталоном (використовується для створення нечіткої характеристики тексту рівня символів), послідовне накопичення впевненості (використовується при морфологічному аналізі) й паралельне накопичення впевненості (використовується при термінологічному аналізі).
6. Розроблена модель подання тексту нечіткими характеристиками різних семантичних рівнів дозволяє для рівня термінів істотно зменшити розмір інформації що зберігається (до 50 % по об'єму). Це збільшує швидкість подальшої обробки тексту (наприклад, фразеологічного аналізу) за рахунок зменшення інформаційного навантаження тексту, кількості обробляємих елементів тексту й відсутності необхідності перевірки тексту на помилки.
7. Проведений комп'ютерний експеримент для двох варіантів використання методу термінологічної розмітки тексту з різною кількістю орфографічних помилок показав:
7.1. задача пошуку може бути вирішена з мінімумом помилок пропуску (до 0,1%) при долі помилок помилкового спрацювання до 10% (2,5% на текстах з малою кількістю помилок - одна на слово);
7.2. задача ідентифікації може бути вирішена з мінімумом помилок помилкового спрацювання (до 0,1%) при долі помилок пропуску до 20% (10% на текстах з малою кількістю помилок - одна на слово).
8. Опитна експлуатація системи «Text-to-Term» в складі програмного комплексу інформаційної системи АИБС бібліотеки Донецького національного університету підтвердила результати комп'ютерних експериментів по задаче пошуку. Експлуатація системи «Text-to-Term» в складі системи спілкування з клієнтом через короткі мобільні повідомлення сервісу Getitcard.com показала збільшення ефективності в задачі ідентифікації термінів - зменшення помилкових запитів на 15%.
СПИСОК ОПУБЛІКОВАНИХ ПРАЦЬ ЗА ТЕМОЮ ДИСЕРТАЦІЇ
1. Каргин А.А., Ломонос Я.Г. Исследование метода интерпретации аудиальных данных с учетом контекста // Вісник Херсонського державного технічного університету. - 2004. - №1(19). - С. 272-277.
2. Каргин А.А., Ломонос Я.Г., Петренко Т.Г. Модель нечеткого текста в интеллектуальной системе терминологической разметки электронных документов // Вісник Донецького національного університету - 2005. - Серія А, №2. - С. 360-364.
3. Ломонос Я.Г. Нечеткая модель терминологической разметки электронных текстов // Вісник Херсонського державного технічного університету. - 2006. - №1(24). - С. 282-288.
4. Ломонос Я.Г. Терминологическая разметка текста в автоматизированной системе интеллектуальной обработки текстовой информации // Штучний Інтелект. - ІПШІ МОН і НАН України «Наука і освіта», 2006. - №3/2006. - С. 537-547.
5. Ломонос Я.Г. Использование механизма логогена Мортона для терминологического анализа электронных документов // Наукові праці Донецького національного технічного університету. - 2007. - №13(121). - С. 145-152.
6. Каргин А.А., Ломонос Я.Г., Парамонов А.И. Интеллектуальная система категоризации и интерпретации текстовой информации «Text-Term-Concept» // «Моделювання та керування станом еколого-економічних систем регіону», №3, 2006р. - С. 122-131.
7. Ломонос Я.Г. Метод інтерпретації аудіальних даних, що належать до класу стаціонарних процесів // Збірка праць сьомої всеукраїнської (другої міжнародної) студентської наукової конференції з прикладної математики та інформатики СНКПМІ-2004. - Львів: Львівський національний університет імені Івана Франка, 2004. - С. 21-22.
8. Ломонос Я.Г. Исследование метода интерпретации аудиальных данных с учетом контекста // Збірка тез доповідей за матеріалами студентської наукової конференції фізичного факультету. - Донецьк: ДонНУ, 2004. - С. 10-11.
9. Каргин А.А., Ломонос Я.Г., Парамонов А.И. Интеллектуальные поисковые системы в администрировании информационных ресурсов корпоративной сети ДонНУ. // Збірка доповідей міжнародної науково-практичної конференції «Єдиний інформаційний простір». - Дніпропетровськ: УГХТУ, 2004. - С. 9-12.
10. Каргин А.А., Ломонос Я.Г. Модель синтеза терминов в системах интеллектуальной обработки текстовой информации // Збірка праць шостій міжнародної науково-практичної конференції «Сучасні інформаційні та електронні технології» (23-27 травня 2005г.) - Одеса, 2005г. - С. 177.
11. Каргин А.А., Ломонос Я.Г., Парамонов А.І. Интеллектуальная система категоризации и интерпретации текстовой информации «Text-Term-Concept» // Збірка наукових праць сьомої міжнародної наукової конференції «Інтелектуальний аналіз інформації» - Київ, ІАІ-2007. - С. 140-149.
АНОТАЦІЯ
Ломонос Я. Г. Система обробки електронних документів на базі нечіткої моделі термінологічного аналізу. - Рукопис.
Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.13.06 - «Інформаційні технології». - Донецький національний університет, Донецьк, 2008.
В дисертаційній роботі вирішується актуальна наукова задача - підвищення якості виділення смислових одиниць тексту (термінів) під час обробки електронних документів, що містять природно-мовні тексти, можливо з помилками. В процесі вирішення задачі розроблена концептуальна багаторівнева модель обробки тексту на базі розділення семантичних шарів, модель подання тексту через нечіткі характеристики семантичних складових тексту різного ступеня узагальнення смислу та метод узагальнення семантичного навантаження тексту за шарами символ-морфема-термін. Розроблений метод дозволяє вирішувати задачу пошуку терміну в тексті з мінімумом помилок пропуску та задачу ідентифікації терміну з мінімумом помилок помилкового спрацювання. Розробленого методу може бути використано при розробки інформаціонно-пошукових систем, систем категоризації та інших систем, що включають до себе підсистеми морфологічного, термінологічного та семантичного аналізу.
Ключові слова: текст, обробка природно-мовної інформації, символ, морфема, термін, логоген, фактор упевненості, нечітка логіка.
АННОТАЦИЯ
Ломонос Я. Г. Система обработки электронних документов на основе нечеткой модели терминологического анализа. - Рукопись.
Диссертация на соискание ученой степени кандидата технических наук по специальности 05.13.06 - «Информационные технологии». - Донецкий национальный университет, Донецк, 2008.
В диссертационной работе решается актуальная научная задача - повышение качества выделения смысловых единиц текста (терминов) при обработке электронных документов, содержащих естественно-языковые тексты, возможно содержащие ошибки. В процессе решения задачи исследовано состояние проблемы в части методов обработки естественно-языковых текстов, используемых для построения систем поиска, категоризации и анализа электронных документов; разработана многоуровневая нечеткая модель представления и обработки текста, содержащего ошибки, структура которой отражает семантические слои символ-морфема-термин; разработан метод интерпретации электронных документов; экспериментально исследован разработанные модель и метод; разработана автоматизированная система терминологического анализа электронных текстовых документов, содержащих ошибки. Модель представления и обработки естественно-языковых текстов, содержащих ошибки позволила однородно выразить различные семантические слои текста и упростить их физическое представление. Предложенные модели обработки естественно-языковых текстов с возможностью наличия ошибок на основе нечеткой логики позволяют сократить количество ошибок пропуска электронных текстовых документов при поиске или количество ошибок ложного срабатывании при идентификации термина. Это может быть использовано при построении индексаторов поисковых машин, модуля выделения ключевых элементов систем категоризации, систем предобработки сложнотерминологических текстов и систем постобработки списка документов, выдаваемых поисковой машиной для уточнения релевантности документов.
Ключевые слова: текст, обработка естественно-языковой информации, символ, морфема, термин, логоген, фактор уверенности, нечеткая логика.
ABSTRACT
Lomonos G. Iaroslav. E-documents processing system based on fuzzy model of terminological analysis. - Manuscript.
The dissertation on competition of a scientific degree of the candidate of technical science on specialty 05.13.06 - "Information technologies". - Donetsk national university, Donetsk, 2008.
The topical scientific task is solved in the dissertation - Improvement of selection quality of semantic units of text (terms) in processing of electronic documents that contain natural language texts with possible errors. The conceptual multilevel word processing model based on division of semantic layers, model that presents text by means of indistinct descriptions of semantic constituents of the text with different degree of sense generalization and method of generalization of the semantic loading of the text for symbol- morpheme-term layers was developed. The developed method allows to resolve such tasks as search for term in the text with minimum gap errors and term identification with a minimum of misoperation errors. The developed method can be used in development of information retrieval systems, systems of categorizing and other systems, including subsystems of morphological, terminological and semantic analysis.
Keywords: text, nature-language information processing, symbol, morpheme, term, logogen, factor of confidence, fuzzy logic.
Размещено на Allbest.ru
...Подобные документы
Проблема порушення авторських прав в Інтернеті. Системи та сервіси пошуку плагіату. Захист електронних видань від плагіату в Інтернеті. Алгоритми аналізу, подання і порівняння текстової інформації. Вибір методу пошуку текстових документів з запозиченнями.
магистерская работа [1,0 M], добавлен 14.06.2013Розгляд результатів аналізу загальних електронних документів та електронних бібліотечних фондів. Вивчення та характеристика особливостей сучасного документознавства, які полягають, насамперед, у широкому застосуванні комп’ютерних систем оброблення.
статья [31,6 K], добавлен 27.08.2017Принципи побудови захисту електронних банківських документів. Забезпечення автентифікації адресата та відправника міжбанківських електронних розрахункових документів і службових повідомлень. Апаратно-програмні засоби криптографічного захисту інформації.
контрольная работа [54,9 K], добавлен 26.07.2009Робота з текстовим редактором Word для створення документів, що містять текст, маркіровані та нумеровані списки, малюнки, схеми, таблиці, графіки. Використання "художніх" шрифтів, об'єктів WordArt, автофігур. Етапи створення структурованих документів.
лабораторная работа [326,6 K], добавлен 21.12.2011Принцип роботи СТО. Аналіз існуючих теоретико-практичних розробок по створенню інформаційних систем. Модель аналізу виконання робіт з ремонту й обслуговування на СТО. Розробка автоматизованої системи обробки інформації, опис програмного забезпечення.
дипломная работа [1,3 M], добавлен 11.10.2013Порядок розробки автоматизованої системи електронних міжбанківських переказів Національного банку України, її призначення та мета створення, загальний опис вхідної та вихідної інформації, основні функції. Вимоги до апаратної системи та архітектура СЕП-2.
контрольная работа [644,5 K], добавлен 26.07.2009Захист електронних платежів у мережі Іntегnеt. Побудова захисту електронних банківських документів. Криптографічний захист інформації. Захист інформації та вирішення питань безпеки у СЕП. Роботи програмно-технічних комплексів в інформаційній мережі.
контрольная работа [293,9 K], добавлен 26.07.2009Поняття сайту як системи електронних документів (файлів даних, коду) приватної особи або організації в комп'ютерній мережі. Визначення засобів для створення сторінки в Інтернеті, вимоги до зовнішнього вигляду та функцій. Особливості розробки макету сайту.
курсовая работа [2,1 M], добавлен 17.12.2015Робота з рисунками і таблицями в текстовому редакторі. Робота з вікном MS Word "Сохранить как". Обчислення в електронних таблицях. Використання засобу "Поиск решения" в MS Excel. Створення типових документів. Розробка web-сторінки "Оптовий магазин".
контрольная работа [688,6 K], добавлен 17.11.2010Суть, значення і види наукової обробки документів. Обов'язкова державна реєстрація книжкових пам'яток. Інформаційно-пошукові системи, їх види. Опис змісту документа за допомогою дескрипторів. Анотування і реферування як вид інформаційної діяльності.
курсовая работа [44,7 K], добавлен 22.11.2010Загальні відомості про текстовий процесор, інтерфейс програми та інсталяція, елементи керування і налаштування панелі швидкого доступу. Робота з документами, введення тексту та відкриття файлів, створення документів, захист і збереження текстових файлів.
дипломная работа [11,6 M], добавлен 26.05.2012Загальні відомості про електронні таблиці. Призначення електронних таблиць. Завантаження електронних таблиць. Елементи вікна Excel. Робота з книгами. Введення та відображення даних. Редагування даних. Формули і функції.
курсовая работа [59,9 K], добавлен 28.03.2004Комп'ютерні інформаційні системи. Характеристика автоматизованої системи обробки економічної інформації на підприємстві. Технологічний процес обробки інформації конкретної задачі в системі. Впровадження в дію автоматизації бухгалтерського обліку.
контрольная работа [25,1 K], добавлен 26.07.2009Установки протоколів TCP/IP. Налаштування поштової програми MS Outlook Express. Класифікація пошукових систем та принципи їх роботи. Створення електронних документів в WWW для публікації в мережі Інтернет на мові HTML. Основи впровадження JavaScript.
лабораторная работа [259,9 K], добавлен 06.11.2011Класифікація та статистичний аналіз наслідків надзвичайних ситуацій. Розробка архітектури, інформаційного забезпечення, програмних засобів комп'ютерної автоматизованої системи аналізу наслідків природного і техногенного впливу на будинки та споруди.
дипломная работа [2,5 M], добавлен 02.10.2013Сутність поняття "електронний документ". Його загальні та специфічні властивості, основні стадії життя. Аналіз функції сучасного цивільного права в регулюванні електронного документообігу в Україні. Особливості правового регулювання цифрового підпису.
курсовая работа [40,0 K], добавлен 06.05.2015Основні поняття, складові, призначення та правова база електронно-цифрового підпису. Вимоги до нього, переваги використання. Алгоритми побудови ЕЦП. Характеристика моделей атак та їх можливі результати. Підписування електронних документів різних форм.
курсовая работа [42,4 K], добавлен 16.03.2015Розрахунок собівартості інструментальної системи створення електронних підручників. Вибір технології та мови програмування. Загальна характеристика програми і принцип роботи. Вибір мови програмування. Опис тегів, які підтримуються HTML-редактором.
дипломная работа [112,7 K], добавлен 04.06.2010Основні можливості створення та редагування документів в текстовому редакторі Microsoft Word. Вставка спеціальних символів, табуляція, створення списків, колонок та буквиці за допомогою програми. Особливості та правила оформлення текстових документів.
курсовая работа [795,8 K], добавлен 06.07.2011Місце мікропроцесора в структурі мікропроцесорних приладів, його функції. Інтегральні мікросхеми із великою ступінню інтеграції. Розробка структурної схеми мікропроцесорної системи обробки інформації на основі мікроконтролера ATmega128 та інших мікросхем.
курсовая работа [2,1 M], добавлен 18.09.2010