Моделі і методи організації семантичних одиниць при словотворчому синтезі в експертних навчальних системах

Огляд методів покращення експертної системи навчання словотворенню шляхом скорочення кількості похідних слів у результаті словотворчого синтезу за рахунок формалізації особливостей семантики. Розробка словотворчої бази знань та алгоритмів її обробки.

Рубрика Программирование, компьютеры и кибернетика
Вид автореферат
Язык украинский
Дата добавления 25.08.2015
Размер файла 48,8 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

ДЕРЖАВНИЙ УНІВЕРСИТЕТ ІНФОРМАТИКИ І ШТУЧНОГО ІНТЕЛЕКТУ

УДК 004.89, 004.91, 004.85

05.13.23 - СИСТЕМИ ТА ЗАСОБИ ШТУЧНОГО ІНТЕЛЕКТУ

АВТОРЕФЕРАТ

дисертації на здобуття наукового ступеня

кандидата технічних наук

МОДЕЛІ І МЕТОДИ ОРГАНІЗАЦІЇ СЕМАНТИЧНИХ ОДИНИЦЬ ПРИ СЛОВОТВОРЧОМУ СИНТЕЗІ В ЕКСПЕРТНИХ НАВЧАЛЬНИХ СИСТЕМАХ

Єгошина Ганна Анатоліївна

ДОНЕЦЬК - 2009

Дисертацією є рукопис

Робота виконана в Державному університеті інформатики і штучного інтелекту.

Науковий керівник: кандидат технічних наук, доцент Вороной Сергій Михайлович, завідувач кафедри «Системи штучного інтелекту», Державний університет інформатики і штучного інтелекту МОН України, м. Донецьк.

Офіційні опоненти: доктор технічних наук, професор Скобцов Юрій Олександрович, завідувач кафедри «Автоматизовані системи управління» ДВНЗ «Донецький національний технічний університет», м. Донецьк;

доктор технічних наук, професор Четвериков Григорій Григорович, професор кафедри «Програмне забезпечення ЕОМ», Харківський національний університет радіоелектроніки МОН України, м. Харків

Захист відбудеться «5» червня 2009 р. о 10 годині на засіданні спеціалізованої вченої ради К 11.243.01 Державного університету інформатики і штучного інтелекту за адресою: 83050, м. Донецьк, пр. Б. Хмельницького, 84, навч. корпус 1, актовий зал

З дисертацією можна ознайомитися в бібліотеці Державного університету інформатики і штучного інтелекту за адресою:83050, м. Донецьк, вул. Р. Люксембург, 34-а

Автореферат розісланий «23» квітня 2009 р.

Вчений секретар спеціалізованої вченої ради К 11.243.01 С.О. Полівцев

ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ

Актуальність теми. Виявлення формальних структур природної мови, формалізація мови в цілому, побудова конструктивної теорії та комп'ютерної моделі мови є актуальними напрямками комп'ютерної лінгвістики протягом останніх десятиліть. Системи інформаційного пошуку, діалогові системи, інструментальні засоби для машинного перекладу та автореферування, рубрикатори та модулі перевірки правопису так чи інакше проводять аналіз природно-мовних текстів. Досягнення останніх років в галузі сучасної логіки, штучного інтелекту та комп'ютерної лінгвістики створили нові передумови для досліджень природи морфологічних, синтаксичних, семантичних і словотворчих зв'язків у природній мові.

Опис системи словотворення є важливою складовою частиною опису системи мови в цілому. У роботах О.А. Земської, І.С. Улуханова, І.Г. Милославського зазначається, що словотворення як діяльність виконує найважливішу функцію розвитку та поповнення лексики мови. У зв'язку з цим модуль словотворення є невід'ємною частиною сучасних інтелектуальних інформаційно-пошукових і навчальних систем з природно-мовним інтерфейсом.

Актуальність розробки системи навчання словотворенню обумовлена тим, що знання словотворчої системи сприяє формуванню та розвитку у тих, хто вивчає російську мову, навичок правильного вживання похідних слів у структурі синтаксичних одиниць, вміння користуватися синонімічними мовними засобами і т.ін. Особливістю сучасних комп'ютерних технологій навчання є процеси індивідуалізації, інтелектуалізації та web-орієнтації традиційних форм навчання, програм і технологій. У цьому напрямку існує ряд наукових досліджень, серед яких можна виділити роботи Г.В. Рибіної, В.А. Петрушина, Г.О. Атанова, Н.Д. Нікадрова, Е. Гарднера (E. Gardner), Вільямса (Paul L. Williams) та інших. Моделі, методи та засоби експертних систем (ЕС) шляхом інтеграції з навчальними системами дозволяють створити web-ЕС, яка поєднує в собі взаємодіючі логіко-лінгвістичні, математичні та інші види моделей.

Невирішеною залишається задача обробки значного обсягу похідних слів в результаті словотворчого синтезу, що призводить до ускладнення та уповільнення процесу пошуку необхідного слова. Дисертаційна робота присвячена актуальним питанням ефективної структурної та алгоритмічної організації семантичних одиниць словотворення для підвищення якості та прискорення процесу одержання похідного слова користувачем в експертній системі навчання словотворенню російської мови.

Зв'язок роботи з науковими програмами, планами, темами. Дисертаційна робота виконана в рамках держбюджетної теми «Розробка теоретичних засад та алгоритмічного забезпечення інтелектуальних систем з багатопроцесорною підтримкою обчислень» (№ держреєстрації 0104U000122) кафедри систем штучного інтелекту Державного університету інформатики і штучного інтелекту.

Мета і задачі дослідження. Метою роботи є підвищення ефективності експертної системи навчання словотворенню шляхом скорочення кількості похідних слів у результаті словотворчого синтезу за рахунок формалізації особливостей словотворчої семантики.

Для досягнення поставленої мети в роботі вирішуються наступні завдання:

1. Формалізація семантики словотворчих формантів та розробка моделей семантичних одиниць словотворення.

2. Розробка словотворчої бази знань та алгоритмів її обробки.

3. Розробка алгоритму морфологічного аналізу, що використовує для отримання граматичних характеристик словотворчу базу знань.

4. Розробка методу словотворчого синтезу, що враховує особливості семантики словотворчих формантів.

5. Практична реалізація запропонованих моделей і методів у вигляді експертної системи навчання словотворенню російської мови.

6. Дослідження розроблених алгоритмів з метою визначення ефективності їх використання.

Об'єкт дослідження - способи, засоби і моделі словотворення російської мови. словотворення синтез семантика знання

Предмет дослідження - семантичні закономірності в різнотипних процесах утворення слів російської мови.

Методи досліджень. У процесі досліджень використовувався нормальний апарат теорії графів, теорії множин і булевої алгебри. Для формалізації семантики словотворчих формантів та особливостей організації семантичних одиниць словотворення застосовувалися методи математичної логіки та теорії вибору. При розробці алгоритмів словотворення в експертній навчальній системі була використана теорія систем штучного інтелекту - продукційні моделі та механізми логічного виводу.

Наукова новизна отриманих результатів визначається наступними положеннями:

1. Запропоновано нові базисні лексичні функції, які дозволили роз-робити формальну модель семантики похідного слова у вигляді суперпозиції формальних представлень семантики формантів слова, що скорочує обсяг даних, які зберігаються.

2. Вперше запропоновано формальну модель вузла дерева, що містить словотворчі форманти, правила словотворення і чергування, яка дозволяє скоротити обсяг похідних слів при словотворчому синтезі.

3. Отримав подальший розвиток метод морфологічного аналізу І.А. Волкової, завдяки використанню запропонованих дерев морфем, які складають словоформу, що дозволяє використовувати для отримання граматичних характеристик словоформи словотворчу базу знань.

4. Вперше запропоновано міру семантичної близькості слів, використання якої як оціночної функції в розробленому евристичному алгоритмі словотворення дозволяє знизити часові витрати на побудову слова за заданою семантикою.

Практичне значення отриманих результатів:

1. Запропоновані формалізації та алгоритми можуть використовуватися як в експертних системах і навчальних середовищах, так і в інформаційно-пошукових системах, модулях перевірки правопису і системах машинного перекладу.

2. Розроблена експертна система навчання словотворенню сприяє більш швидкому накопиченню словникового запасу учнів і розвиває навички використання різних словотворчих моделей при вивченні російської мови.

3. Розроблений діалоговий компонент і web-орієнтований інтерфейс експертної навчальної системи спрощують завдання семантики похідного слова та дозволяють використовувати систему в дистанційному навчанні.

4. Результати дисертаційних досліджень використані в науково-дослідних роботах відділу комп'ютерно-інформаційних технологій Інституту проблем штучного інтелекту НАН України і в навчальному процесі при виконанні дипломних і магістерських робіт, при підготовці лекційних курсів: «Технології комп'ютерного навчання», «Системи штучного інтелекту», «Експертні системи» - на кафедрі систем штучного інтелекту Державного університету інформатики і штучного інтелекту та на кафедрі електронних обчислювальних машин ДВНЗ ДонНТУ.

Особистий внесок здобувача. Всі основні результати, що виносяться на захист, отримані здобувачем особисто. У роботах, опублікованих у співавторстві, здобувачеві належать: в [3] - модифікований метод контекстного анотування документів; в [5], [9] - алгоритм отримання граматичних характеристик словоформи за допомогою графів морфем, що її складають; в [7] - структура та програмне забезпечення модулів морфологічного аналізатора природно-мовних відповідей тих, хто навчається; в [10] - формальна модель словотворчого синтезу, що враховує задані граматичні та лексичні значення похідного слова.

Апробація роботи. Основні положення і результати роботи доповідалися, обговорювалися і одержали позитивну оцінку на наступних наукових конференціях і семінарах: VI Міжнародна конференція «Інтелектуальний аналіз інформації ІАІ-2006» (Київ, 16 - 19 травня 2006 р.); VII Міжнародна науково-практична конференція «Штучний інтелект. Інтелектуальні і багатопроцесорні системи 2006» (Крим, Кацивелі, 24 - 28 вересня 2006 р.); VII Міжнародна конференція «Інтелектуальний аналіз інформації ІАІ-2007» (Київ, 15 - 18 травня 2007 р.); VIII Міжнародна науково-технічна конференція «Штучний інтелект. Інтелектуальні системи (ШІ - 2007)» (сел. Дивноморське, Геленджицький район, Краснодарський край, Росія (24 - 29 вересня 2007 р.); VIII Міжнародна конференція «Інтелектуальний аналіз інформації ІАІ-2008» (Київ, 14 - 17 травня 2008 р.); ІІ Міжнародна науково-практична конференція молодих вчених, аспірантів, студентів «Сучасна інформаційна Україна: інформатика, економіка, філософія» (Донецьк, 15 - 16 травня 2008 р.).

Публікації. За матеріалами дисертаційної роботи опубліковано 11 наукових праць, з яких 5 статей опубліковані у виданнях, включених до переліку ВАК України, і 6 праць в матеріалах наукових конференцій.

Структура і обсяг роботи. Дисертація складається зі вступу, 5 розділів, висновку, списку використаних джерел зі 109 найменувань, розміщеного на 11 сторінках. Повний обсяг дисертації складає 130 сторінок друкарського тексту, містить 24 рисунки і 18 таблиць.

ОСНОВНИЙ ЗМІСТ РОБОТИ

У першому розділі - «Аналіз сучасного стану проблеми використання природно-мовних засобів в інтелектуальних навчальних системах» - проаналізовано існуючі формальні моделі мови та семантики, розглянуто практичне використання засобів і методів штучного інтелекту (зокрема, експертних систем) при розробці сучасних комп'ютерних технологій навчання. Сформульовано основні завдання дослідження.

Дослідження, що проводяться в рамках програми створення інформаційних систем, які виконують обробку текстів природною мовою, ведуться починаючи з появи ЕОМ і з огляду на важливість і складність залишаються в центрі уваги дослідників. Існуючі засоби обробки природної мови не вирішують проблему скорочення кількості похідних слів в результаті словотворчого синтезу, що призводить до ускладнення та уповільнення процесу пошуку необхідного слова. Одним зі шляхів подолання зазначених недоліків є використання особливостей семантики словотворчих формантів у процесі синтезу. Парадигма експертної системи дозволяє чітко розділити знання та їх обробку, збільшуючи можливість багаторазового проведення такого процесу. Тому сьогодні web-орієнтовані навчальні ЕС, які об'єднали в собі як моделі, методи та засоби ЕС, так і різні освітні технології, займають важливе місце серед актуальних і найбільш затребуваних програм.

Також у першому розділі виконана постановка основних задач дослідження.

У другому розділі - «Моделі і алгоритми морфологічного аналізу російської мови» - автором запропоновано модель словоформи і словників морфем російської мови, на підставі якої розроблено алгоритм морфологічного аналізу (МА), що використовує для отримання граматичних характеристик словотворчу базу знань.

Автоматизація МА, результати якого (граматичні характеристики словоформи) використовуються в процесі словотворчого синтезу, є необхідним етапом для прикладних досліджень, пов'язаних з обробкою природної мови. Використання існуючих МА потребує збільшення обсягу словотворчої бази знань або навіть впровадження окремої бази даних, необхідної для проведення морфологічного аналізу за відомими алгоритмами. Тому одним із завдань дисертаційного дослідження є розробка алгоритму морфологічного аналізу, що використовує для отримання граматичних характеристик словотворчу базу знань.

Автором запропоновано розбиття множини лексем (слів) російської мови на флективні класи:

де F - розбиття; Fki, Fkj - i-тий и j-тий флективні класи; Ls - множина лексем мови, Nf - кількість флективних класів.

Модель словоформи представляється у такий спосіб (2):

де SiFk - елемент множини флективних класів; Sik - елемент (або група елементів) множини коренів; Sis - елемент (або група елементів) множини суфіксів; Sip - елемент (або група елементів) множини префіксів; Sifl - елемент множини закінчень (флексій).

Елемент множини флективних класів SFk представляє собою трійку (3):

де Gi Fk - група, до якої відноситься словоформа i-того флективного класу; PgiFk - підгрупа; Parami - параметри (загальні морфологічні характеристики для словоформ даної підгрупи.

Кореневі морфеми, словотворчі афікси (префікси і суфікси) і словозмінні афікси (закінчення) зібрані у словники.

Формальне представлення i-того кореня у словнику коренів має вигляд (4):

де kodik - код кореня; valik - корінь; lex_valik - лексичне значення кореня.

Формальне представлення суфіксального афіксу у словнику має вигляд (5):

де kodis - код суфікса; valis - суфікс; lex_valis - лексичне значення суфікса; Combi - перелік кодів суфіксів, які можна приєднати справа: Comb = {kodscomb}.

Аналогічні моделі розроблено для елементів множини префіксів і закінчень.

Всі фактично можливі поєднання кореневих морфем зі словотворчими афіксами відображаються в таблицях сумісності.

На основі правил поєднання афіксів з певним типом основ автором розроблено дерево визначення граматичних характеристик словоформи за морфемами, що її складають (6):

Gm=(Vm,Em),

де Vm=(Vm1, Vm2) - множина вершин дерева двох типів: листя Vm1 відповідають граматичним характеристикам словоформи, а внутрішні вершини Vm2 - випадкам омонімії; дуги графу Em навантажені значеннями афіксів:

fa :Em>Ma,

де f a - вагова функція, значення якої визначені на множині афіксів M a.

Побудовані окремі дерева для морфем іменників, прикметників та дієслів. На рис. 1 розглядається побудова такого дерева для словоформ прикметників.

Алгоритм МА для похідних слів полягає в наступному.

1. Проводиться розбивка словоформи на морфеми, з яких вона складається.

2. За допомогою суфікса визначається частина мови, до якої належить словоформа, що аналізується.

3. Здійснюється пошук закінчення у дереві, яке відповідає певній частині мови.

4. Якщо знайдене закінчення не має омонімії, то визначаються граматичні категорії роду, числа і відмінка.

5. Якщо ж виникає омонімія, то проводиться подальший аналіз за допомогою побудованого аналогічним чином дерева суфіксів.

Застосування дерев морфем у МА дозволяє використовувати для отримання граматичних характеристик словотворчу базу знань і демонструє спільність алгоритмічних методів на різних рівнях лінгвістичного аналізу.

У третьому розділі - «Словотворчий синтез» - розроблено модель і метод організації семантичних одиниць словотворення, на основі яких розроблено евристичний алгоритм побудови слова з урахуванням заданої специфіки його граматичних та лексичних значень.

Найменшим у формальному і семантичному відношенні словотворчим засобом є словотворчий формант, яким відрізняється будь-яке слово від інших слів, які перебувають з ним у відносинах мотивації, при якому значення одного з однокореневих слів входить в значення іншого. Формант (8) може включати в себе один або кілька словотворчих засобів:

де - множина суфіксів, які входять до словотворчого форманту R; - множина префіксів, які входять до словотворчого форманту R.

Слова, що перебувають у відносинах послідовної мотивації, утворюють словотворчий ряд:

{k}>{k,s1}>{p1,k,s1}>{p1,k,s1,s2}>{p1,k,s1,s2,s3}.

Словотворче гніздо є сукупністю словотворчих рядів з одним і тим же початковим словом. Автор пропонує представити його у вигляді дерева, як показано на рис. 2.

Gs=(Vs,Es),

де Vs - множина вершин - елементів Ajik словотворчого гнізда; Es - множина навантажених дуг:

ц :Es>Мs,

де ц - вагова функція, значення якої визначені на множині правил чергування и словотворення Ms.

Позначимо елемент словотворчого гнізда Ajik, де i - порядковий номер елементу на j-тому рівні, що утворений від елемента попереднього рівня з порядковим номером k за допомогою функції ц:

Сукупність мотивованих слів, що мають одну й ту ж мотивуючу основу і знаходяться на одному ярусі словотворчого графа (рис. 2), утворюють словотворчу парадигму (СП), яка формально може бути представлена наступним чином:

де р - словотворча парадигма слова

У російській мові існує три основних способи словотворення: 1) лексико-синтаксичний; 2) морфолого-синтаксичний; 3) морфологічний. Найбільш багатим і продуктивним способом словотворення є морфологічний, при якому нові слова утворюються шляхом різних сполучень словотворчих морфем. Морфологічний спосіб розпадається на п'ять підтипів: а) префіксальний, б) суфіксальний, в) префіксально-суфіксальний, г) словоскладання, д) безсуфіксний.

Формалізація особливостей організації семантичних одиниць словотворення дозволяє автоматизувати процес побудови похідних слів з урахуванням заданої специфіки граматичного і лексичного значень. Формально визначимо семантику кожного слова Х мови як функцію f.

f:X>S,

де S - множина рядків, що визначає семантику слова Х.

Так як слово Х представляє собою впорядковану множину морфем (префіксів, коренів і суфіксів), то

X=(X1, X2, X3)>f(X1, X2, X3)=(f(X1), f(X2), f(X3)),

де Х1, X2, X3 - множини префіксів, коренів і суфіксів, що входять до слова Х.

Похідні слова певної частини мови пов'язані між собою різноманітними словотворчими відносинами і семантичне значення афікса залежить також і від частини мови, до якої відноситься похідне слово.

fi : xi x zj >Sі

де fi - функція, яка визначає семантику афікса xi; zj - елемент множини частин мови Z, до якого відноситься слово, що включає в себе афікс xi; Sі - рядок, що описує семантику афікса xi.

Визначимо процес словотворення як трійку наступного виду:

де I - множина вхідних впливів; О - множина мотивованих слів, що утворюють словотворче гніздо; ц - функція переходу (закон словотворення), що задає відображення.

Множина вхідних впливів визначається наступним чином:

де С - множина ключових слів, що визначають семантику похідного (мотивованого) слова; z - частина мови; Х - початкове (мотивуюче) слово.

Переклад у форму мережної бази даних словника Тихонова, влаштованого за семантичним принципом, дозволяє застосувати при аналізі значень слів основні принципи об'єктно-орієнтованого програмування. Словотворчі зв'язки можна трактувати і використовувати як зв'язки множинного успадкування ознак. Словотворча база даних представляє собою ліс словотворчих дерев (9), що побудовані на базі словотворчих гнізд словника Тихонова. Вузлом дерева назвемо структуру виду (18)

Ajik = <U(R), za, Sa(xji)>,

де U(R) - об'єднання елементів множини формантів R, що представляє собою основу; za - частина мови слова, що утворюється у вузлі Ajik;Sa(xji) - функція, що задає спосіб словотворення, за допомогою якого утворюється вузол Ajik, xji - формант.

Коріннями дерев є перші і обов'язкові ступені словотворення, які є непохідними. Порядок розміщення вузлів дерева на кожному ярусі враховує їх семантичну близькість до родового вузла, а також лексико-граматичні і словотворчі відносини. У зв'язку з цим у структуру вузла дерева вводиться бінарний масив К, довжина якого дорівнює максимальному числу категорій частин мови. Найбільшу кількість категорій, що дорівнює дев'яти, має дієслово: К=[k1, k2,….k9].

Елементи масиву категорій розраховуються за формулою (19):

де - кількість нащадків вузла , що мають -ту властивість; - кількість властивостей вузла .

Таким чином, структура (18) буде мати вигляд (20):

Ajlk = <U(R), za, Sa(xji), К>.

Афікси, що зберігаються у словниках, будемо трактувати як факти бази знань (БЗ). А функції Sa(xji), що задають закони словотворення, - як правила БЗ. Однак слід зазначити, що поведінка одного і того ж афіксу в різних мовних ситуаціях різна, тобто одному і тому ж афіксу можуть відповідати різні правила. Спосіб словотворення можна представити наступним виразом:

Sa={si є S| y},

де si - спосіб словотворення об'єкту, який обирається з множини S альтернативних способів, які в свою чергу обираються за деякою умовою у.

Умова у являє собою наступний кортеж:

y = <р,ц>,

де р - сукупність відомостей про об'єкт, а ц - множина правил (словотворення і чергування).

Відомості про об'єкт представляють собою множину інформаційних характеристик, таких, як код афікса, частина мови родового вузла і поточного, фіналь основи похідного слова:

р = <x, c, f>.

Систему словотворення можна представити у вигляді семантичного поля, розділеного на ділянки, що відповідають значенням формантів, причому деякі ділянки можуть частково або повністю перекриватися. Різні ділянки відповідають різним словотворчим типам, формальне подання яких має вигляд:

[(z(Ai1-1k1m) = z(Ai2-1k2n))&(f(x1) ? f(x2))&(Tsf(x1) ? Tsf(x2))] >St(Ai1j1k1) = St(Ai1j1k2),

де Ai1j1k1, Ai1j1k1 - слова, що належать до одного СТ St; z(Ai1-1k1m), z(Ai2-1k2n) - частини мови мотивуючих слів Ai1j1k1, Ai1j1k2 відповідно; f(x1), f(x2) - функції семантики словотворчих афіксів x1, x2; Tsf(xi) - функція, що визначає тип словотворчого форманта (суфікс, префікс).

Семантика похідного слова залежить від ситуації, що визначається рядом формальних, семантичних і граматичних властивостей мотивуючого слова. Подібні ситуації представляються за допомогою трійки:

S = (O, P, V ),

де S - ситуація, що фіксує однозначну семантику (приналежність до конкретного словотворчого підтипу); O - множина об'єктів, що розуміються в цій ситуації; P - множина відносин між об'єктами O; V - множина альтернативних форм вираження семантики в ситуації S.

Автором розроблені базисні лексичні функції (БЛФ), що використовуються як семантичний примітив і описують наступну залежність:

де х, х1, х2 - деякі слова або словосполучення; {Yi}, {Yi1}, {Yi2} - множина слів або виразів, що задають семантику слів х, х1, х2, відповідно, в термінах БЛФ.

У російській лінгвістиці широке поширення набуло поняття «комунікативної» і «семантичної» ролі. В різних семантичних відносинах використовуються різні типи комунікативних ролей. БЛФ включає в себе предикат, а також опис комунікативної та семантичної ролі. Приклади БЛФ наведено в табл. 1.

Таблиця 1 - Приклади базисних лексичних функцій

Позначення БЛФ

Опис БЛФ

Mean(x)

Х є засобом (знаряддям)

Res(x)

Х є результатом

Pres(x)

Наявність Х

Act(X,Y)

X виробляє (виконує) [ДІЮ] Y

Rel(X,Y)

Х має відношення (характеризується відношенням) до Y

На підставі розроблених в розділах 2 і 3 моделей задача словотворчого синтезу розбивається на наступні етапи:

1) визначення граматичних характеристик ключового слова;

2) пошук в словотворчій базі знань дерева (tree_cur), корінь якого відповідає кореню ключового слова, виділеного на попередньому кроці;

3) в знайденому дереві (tree_cur) виконується пошук вузла (node_cur), який відповідає ключовому слову, і виділення його піддерева (subtree_cur);

4) у піддереві subtree_cur проводиться пошук шляху (ланцюжок правил словотворення і чергування) до вузла, семантика якого відповідає заданій F0.

Перший етап був розглянутий у другому розділі. Розглянемо пункти 2 - 4. Так як БЗ містить дерева у порядку зростання кодів їх коренів, то пошук tree_cur виконується методом бінарного пошуку.

Алгоритм пошуку вузла дерева, який відповідає ключовому слову. В основі алгоритму знаходження ключового (вхідного) слова знаходиться модифікований метод пошуку в ширину. При відвідуванні вузла Ajik і дослідженні ребра проводиться перевірка аргументів функції словотворення Sa(Хj) (20). Якщо форманти Хj = {xij} збігаються з афіксами, отриманими в результаті морфологічного аналізу вхідного слова, то цей вузол вважається початковим (Node_subtree) і виділяється піддерево, що складається з його нащадків:

(Хj = Хс)>Node_subtree:=Aji.

Якщо ж множина Хj містить не всі афікси вхідного слова і не містить інших формантів, то висувається гіпотеза про входження афіксів, яких бракує, до основи U(R):

(Хj ? Хс)&(Хj є Хс) > (Хc є U(R)).

Виконується перевірка основи на наявність потрібних афіксів. Модифікація методу пошуку в ширину полягає в процедурі вибору активної вершини. Для поточної вершини аналізуються елементи масиву категорій К, які відповідають частині мови вхідного слова С. Якщо існують елементи, що задовольняють умову {km} = 1, то спочатку як активні розглядаються вузли, що відповідають даним елементам-категоріями. Якщо таких елементів у масиві категорій {km} = 1 немає, то у множині вузлів-нащадків виконується пошук можливого батька С.

Евристичний алгоритм пошуку вузла із заданою семантикою. Пошук вузла із заданою семантикою проводиться в піддереві subtree_cur, яке було виділено на попередньому кроці. Для зменшення обсягу перебору вершини розташовуються в списку ВІДКРИТИЙ не в довільному порядку, а деяким певним чином, який залежить від евристичної інформації. Тоді в першу чергу буде оброблятися та вершина, яка є найкращою. Лексичне значення початкового слова входить в лексичне значення похідного в повному обсязі, всіма своїми семантичними компонентами. Тому як міра оцінки «перспективності» вершини ц(Ajik) використовується міра семантичної близькості вершини-кандидата до заданої семантики

ц(Ajik) = д(Ajik, F0).

Міра семантичної близькості д слів А и В визначається наступним чином:

де

де Lа, Lb - довжина слів А і В.

У четвертому розділі - «Експертна система навчання словотворенню російської мови» - розглядається розробка та реалізація експертної навчальної системи (ЕОС) словотворення російської мови, а також проведення експериментів з метою дослідження ефективності розробленої системи.

В даному розділі автором розроблено базу даних афіксів і виконано програмну реалізацію компонента морфологічного аналізу, проведено адаптацію структури мережної словотворчої бази знань і алгоритму побудови слова із заданою семантикою, розроблених у третьому розділі дисертаційного дослідження, під конкретну СКБД та інші компоненти системи.

Експертна навчальна система взаємодіє з учнем у двох основних режимах: в першому режимі підсистема демонструє і пояснює тому, хто навчається, хід рішення задачі побудови слова за заданою семантикою; другий режим полягає у вирішенні аналогічної задачі учнями під постійним контролем з боку системи, яка аналізує отриману від учнів інформацію на кожному кроці рішення задачі, коректує його дії в разі невдалих кроків і може перейти до першого режиму навчання за проханням того, хто навчається, тобто продовжити рішення задачі за нього. Важливим засобом, за допомогою якого учень набуває практичних навичок у словотворенні російської мови, є можливість інтерактивного словотворення.

Сторінка інтерактивного словотворення складається з машини переходів по словотворчому гнізду (МПСГ), яка завантажується на сервері, і спеціальної програми на клієнті. МПСГ також відповідає за контроль над діями того, хто навчається. Кожна вхідна подія, що виникає внаслідок дій того, хто навчається, порівнюється з допустимою дією. Коли досягнуто останнього стану, результати передаються планувальнику навчання для прийняття рішення, чи досяг учень мети вивчення, пов'язаної зі сторінкою інтерактивного словотворення.

У п'ятому розділі - «Проведення експериментальних досліджень» - проводиться дослідження запропонованих алгоритмів морфологічного аналізу, словотворчого синтезу та ефективності розробленої експертної навчальної системи в цілому. Як критерії оцінки адекватності розробленої експертної системи навчання словотворенню російської мови були використані наступні: ефективність; час відгуку; надійність.

Для оцінки ефективності та надійності результатів роботи алгоритму морфологічного аналізу було проведено серію експериментів із залученням експертів, які визначали такі граматичні характеристики словоформи, як частина мови, рід, число і відмінок. Для цих же словоформ були отримані аналогічні граматичні характеристики за допомогою запропонованого алгоритму. Результати експериментів показали, що у двох з двадцяти проведених експериментів відповіді експерта та системи не збіглися. В обох випадках у дереві словоформ (закінчень) виникала омонімія. Так як аналізовані словоформи не мали суфікса, то подальший аналіз дерева суфіксів, як запропоновано в алгоритмі для усунення омоніміі, був неможливий. Однак найбільш важливою з морфологічних ознак для подальшої коректної роботи алгоритму семантично-орієнтованого словотворчого синтезу є частина мови, яка була правильно ідентифікована у всіх експериментах. На підставі аналізу отриманих результатів можна зробити висновок, що алгоритм є ефективним і надійним.

Ефективність алгоритму пошуку вузла дерева, який відповідає ключовому слову, і алгоритму пошуку вузла із заданою семантикою була оцінена за допомогою функції часової складності T(Km), де Km - кількість морфем у слові. Було проведено 10 експериментів на словотворчих деревах різної складності, результати яких свідчать про те, що модифікований алгоритм перевершує базовий за часом обчислень на простих деревах в 1,2 рази, на складних - в 2 рази, а розроблений евристичний алгоритм в 1,6 і 2,3 рази відповідно.

Одним з важливих критеріїв, які характеризують якість результатів словотворення, є точність (частка правильних результатів у загальному числі отриманих), що була визначена за допомогою виразу (33):

де Rp - кількість похідних слів, утворених системою, які збігаються зі словами, побудованими експертом; А - множина всіх результатів словотворчого синтезу.

Було проведено 100 серій експериментів програмної реалізації узагаліьненого алгоритму словотворчого синтезу. У кожній серії синтезувалися слова різних частин мови і з різною кількістю морфем, з яких складається ключове слово. Кількість морфем у найбільш поширених словах варіюється від одної до п'яти, причому найменше число морфем, з яких складаються прикметники, становить два форманта. На рис. 3 представлена залежність точності словотворчого синтезу (Pr) від кількості морфем, що складають слово (Km). Аналізуючи отримані результати, можна відзначити, що точність словотворчого синтезу в усіх випадках становить не менше 93 %, що перевищує правильність використання словотворчих моделей російськомовною людиною на 10 - 15 %.

Було визначено семантичну близькість між заданою користувачем семантикою похідного слова (у формальному представленні) і семантикою слова, отриманого в результаті словотворчого синтезу. На рис. 4 приведено залежність семантичної близькості від кількості морфем у слові. На підставі отриманих результатів можна зробити наступні висновки: міра близькості між заданою і отриманою словотворчою семантикою похідного слова варіюється від 93,5 % до 100 %; найбільш часто вживані слова російської мови (слова, які складаються з двох або трьох морфем) утворюються відповідно до заданої семантики (міра семантичної близькості не опускається нижче 0,96). З допомогою розробленої експертної системи навчання автором проведена діагностика знань учнів шляхом використання підходу, запропонованого в роботах Г.О. Атанова й І.Н. Пустиннікової. На підставі отриманої статистики планувальник навчання експертної системи перетворює форму вправ відповідно до знаннь та вміннями учнів. На рис. 5 показано, наскільки знання та вміння учнів (симптоми Sj) відповідають поставленим цілям навчання (гіпотеза Нi).

ВИСНОВКИ

У дисертаційній роботі дано вирішення актуальної наукової задачі, важливої для комп'ютерної лінгвістики і технологій інтелектуального навчання, що полягає в розробці алгоритмів морфологічного аналізу та автоматичного словотворення на основі природно-мовних висловлювань, що описують його семантику, для експертних навчальних систем. У процесі досліджень отримані наступні наукові результати:

Запропоновано нові базисні лексичні функції, які дозволили розробити формальну модель семантики похідного слова у вигляді суперпозиції формальних представлень семантики формантів, що його складають. Даний підхід дозволяє скоротит обсяг даних, що зберігаються, за рахунок застосування словників не цілих слів, а окремих формантів.

Вперше запропоновано формальну модель вузла дерева, що містить словотворчі форманти, правила словотворення і чергування. При використанні цієї моделі в словотворчому синтезі однозначно визначається шлях від початкового вузла до вузла, що відповідає слову із заданою семантикою. Це дозволяє скоротити обсяг похідних слів при словотворчому синтезі.

Отримав подальший розвиток метод морфологічного аналізу І.А. Волкової, завдяки використанню запропонованих дерев морфем, що складають словоформу, який дозволяє використовувати для отримання граматичних характеристик словоформи словотворчу базу знань. Побудовано окремі дерева для морфем іменників, прикметників і дієслів.

Розроблено евристичний алгоритм словотворення за заданою семантикою, згідно з яким вершини-кандидати словотворчого дерева упорядковуються за спаданням оціночної функції, у ролі якої вперше запропоновано застосовувати міру семантичної близькості вершини-кандидата до заданої семантики. Використання запропонованої міри семантичної близькості дозволяє знизити часові витрати на побудову слова за рахунок зменьшення кількості вершин, що аналізуються.

Реалізовано експертну навчальну систему словотворення російської мови з web-базованим інтерфейсом, що дозволяє використовувати її в дистанційному навчанні.

Проведено експериментальні дослідження алгоритмів морфологічного аналізу і словотворчого синтезу за заданою семантикою. Показано, що при пошуці вузла словотворчого дерева із заданою семантикою запропонований евристичний алгоритм працює в середньому у 1,6 рази скоріше пошуку у ширину. Міра близькості словотворчої семантики похідного слова до семантики, яка задана користувачем, складає в середньму 96 %.

ОСНОВНІ РЕЗУЛЬТАТИ ДИСЕРТАЦІЙНОЇ РОБОТИ ПРЕДСТАВЛЕНІ В НАСТУПНИХ ПУБЛІКАЦІЯХ

1. Егошина А.А. Языковые и алгоритмические аспекты построения морфологических процессоров для интеллектуального поиска в полнотекстовых базах данных // Сборник трудов VI Международной конференции «Интеллектуальный анализ информации ИАИ-2006». - Киев, 16 - 19 мая 2006 г. - С. 102-111

2. Егошина А.А. Об одном способе построения статического словаря морфологического процессора // Материалы Седьмой Международной научно-технической конференции «Искусственный интеллект. Интеллектуальные и многопроцессорные системы - 2006». - Крым, Кацивелли, 24 - 28 сентября 2006 г. - С. 364-366. - Т. 2.

3. Егошина А.А. Повышение эффективности интеллектуального поиска в полнотекстовых базах данных на основе автоматического аннотирования документов / Вороной С.М., Егошина А.А. // Сборник трудов VII Международной конференции «Интеллектуальный анализ информации ИАИ-2007». - Киев, 15 - 18 мая 2007 г. - С. 31-40.

4. Егошина А.А. Об одном способе построения статического словаря морфологического процессора // Искусственный интеллект. - 2007. - № 2. - С. 87-92

5. Егошина А.А. Определение грамматических характеристик словоформы методом графов / Вороной С.М., Егошина А.А. // Материалы VIII Международной научно-технической конференции «Искусственный интеллект. Интеллектуальные системы - 2007». - пос. Дивноморское, Геленджикский район, Краснодарский край, Россия, 24 - 29 сентября 2007 г. - С. 104-109.

6. Егошина А.А. Алгоритмические методы доступа к словарям морфологического процессора // Збірник наукових праць ДонНТУ. Серія «Інформатика, кібернетика і обчислювальна техніка». Випуск 8 (120) - Донецьк: ДонНТУ, 2007. - С. 107-118.

7. Егошина А.А. Средства анализа естественно-языковых on-line ответов обучаемых для систем Web-обучения / Вороной С.М., Егошина А.А. // Актуальні проблеми економіки. - 2007. - № 12. - С. 150-156.

8. Егошина А.А. Формальная модель словообразовательной семантики // Радиоэлектроника. Информатика. Управление. - 2007. - № 2. - С. 54-57.

9. Егошина А.А. Определение грамматических характеристик словоформы методом графов / Вороной С.М., Егошина А.А. // Искусственный интеллект. - 2008. - № 1. - С. 80-85.

10. Егошина А.А. Формализация словообразовательного синтеза на основе семантических свойств формантов / Вороной С.М., Егошина А.А. // Сборник трудов VIII Международной конференции «Интеллектуальный анализ информации ИАИ-2008». - Киев, 14 - 17 мая 2008 г. - С. 143-149.

11. Егошина А.А. Средства анализа естественно-языковых on-line ответов обучаемых для систем web-обучения // Материалы ІІ Международной научно-практической конференции молодых ученых, аспирантов, студентов «Современная информационная Украина: информатика, экономика, философия». - Донецк, 15 - 16 мая 2008 г. - С. 241-245.

АННОТАЦИЯ

Егошина А.А. Модели и методы организации семантических единиц при словообразовательном синтезе в экспертных обучающих системах. - Рукопись.

Диссертация на соискание ученой степени кандидата технических наук по специальности 05.13.23 - Системы и средства искусственного интеллекта. - ВУЗ «Государственный университет информатики и искусственного интеллекта», Донецк, 2009.

Целью работы является повышение эффективности экспертной системы обучения словообразованию путем сокращения количества производных слов в результате словообразовательного синтеза за счет формализации особенностей словообразовательной семантики.

Проведен анализ и рассмотрено практическое применение методов и средств искусственного интеллекта при разработке современных компьютерных технологий обучения. В результате анализа определено, что нерешенной остается задача обработки значительного объема производных слов, получаемых в результате словообразовательного синтеза, что приводит к затруднению и замедлению процесса поиска необходимого слова. Для решения этой проблемы предложено использовать особенности семантики словообразовательных формантов в процессе синтеза.

Для получения грамматических характеристик словоформ, которые используются в процессе словообразовательного синтеза, предложено развитие алгоритма решения задачи морфологического анализа с целью использования в процессе работы морфоанализатора словообразовательной базы знаний. Точность решения задачи анализа обеспечивается использованием разработанных структур словарей морфем, составляющих словоформы, разбиением лексем языка на флективные классы и использованием разработанных деревьев морфем, составляющих словоформу.

Разработана формальная модель узла словообразовательного дерева, на основе которой предложено преобразование словообразовательного словаря Тихонова в форму базы знаний, которая является лесом словообразовательных деревьев. Разработана формализация способов словообразовательного синтеза с помощью функций выбора. Получена зависимость семантики производного слова от ситуации, которая обусловлена перечнем формальных, семантических и грамматических особенностей мотивирующего слова и предложена формализация семантики словообразовательных формантов с помощью базисных лексических функций. Предложена мера семантической близости слов, которая была использована в качестве оценочной функции в разработанном эвристическом алгоритме словообразования по заданной семантике.

Разработана экспертная обучающая система словообразованию русского языка с диалоговым компонентом, реализующим адаптивный алгоритм задания семантики производного слова. Экспертная система была использована для исследования предложенных алгоритмов морфологического анализа и словообразовательного синтеза. Результаты исследований подтверждают корректность и эффективность предложенных алгоритмов. Точность решения задач словообразования системой превышает правильность использования словообразовательных моделей русскоговорящим человеком в среднем на 10 - 15 %.

Ключевые слова: словообразовательный синтез, формант, морфема, словообразовательная семантика, мотивационное отношение, мера близости, экспертная обучающая система.

АНОТАЦІЯ

Єгошина Г.А. Моделі і методи організації семантичних одиниць при словотворчому синтезі у експертних навчальних системах. - Рукопис.

Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.13.23 - Системи та засоби штучного інтелекту. - ВНЗ «Державний університет інформатики і штучного інтелекту», Донецьк, 2009.

Метою роботи є підвищення ефективності експертної системи навчання словотворенню шляхом скорочення кількості похідних слів в результаті словотворчого синтезу за рахунок формалізації особливостей словотворчої семантики.

В результаті аналізу сучасного стану проблеми використання природно-мовних засобів в інтелектуальних навчальних системах визначено, що невирішеною залишається задача обробки значного обсягу похідних слів в результаті словотворчого синтезу. Для вирішення цієї проблеми запропоновано використовувати особливості семантики словотворчих формантів у процесі синтезу.

Для отримання граматичних характеристик словоформ, які використовуються в процесі словотворення, запропоновано розвиток алгоритму рішення задачі морфологічного аналізу з метою використання в процесі роботи морфоаналізатора словотворчої бази знань. Точність рішення задачі аналізу забезпечується використанням розроблених словників та дерев морфем, що становлять словоформу.

Розроблено модель і метод організації семантичних одиниць словотворення у вигляді лісу словотворчих дерев. Запропоновано міру семантичний близькості слів, яку було використано як оціночну функцію в розробленому евристичному алгоритмі словотворення за заданою семантикою.

Для дослідження запропонованих алгоритмів морфологічного аналізу та словотворчого синтезу розроблено експертну систему навчання словотворенню російської мови. Результати досліджень підтверджують коректність та ефективність запропонованих алгоритмів. Точність рішення задач словотворення системою перевищує правильність використання словотворчих моделей російськомовною людиною в середньому на 10 - 15 %.

Ключові слова: словотворчий синтез, формант, морфема, словотворча семантика, мотиваційне відношення, міра близькості, експертна навчальна система.

ABSTRACT

G. Yegoshina. The models and methods of organization of semantic units in word-formation synthesis in expert learning systems. - Manuscript.

The dissertation on competition of a scientific degree of Candidate of Technical sciences on a speciality 05.13.23 - Systems and tools of artificial intelligence. - High education institution “State University of Informatics and Artificial Intelligence”, Donetsk, 2009.

The purpose of the study is to improve efficiency of the expert system of teaching word building through reducing number of derivatives as a result of word-building synthesis at the expense of formalization of characteristics of word-building semantics.

As the result of analyzing modern state of the problem of using natural languages in intelligence teaching systems it has been determined that the problem of processing an essential amount of derivatives , which are received as a result of word building synthesis, remains unsolved. The idea of using characteristics of word building formants' semantics in the process of synthesis has been put forward.

To obtain grammar characteristics of word forms, which are used in the process of word building, a way of developing algorithm of solving the problem of morphologic analysis, which is done with the purpose of using morphologic analysis of word-building knowledge base, has been suggested. Accuracy of solving the problem of the analysis is provided through using dictionaries and morpheme trees, making word forms.

A model and method of organizing semantic units of word building in the form of a forest of word building trees has been developed. Measure of semantic closeness of words has been suggested. The measure has been used as an evaluating function in the developed heuristic algorithm of word building according to assigned semantic.

An expert system of teaching the Russian language word building has been developed to study the proposed algorithms of morphologic analysis and word-building synthesis. The results of the study confirm correctness and efficiency of the algorithms which have been proposed. Accuracy of solving problems through application of the system exceeds correctness of word-building models used by a person, speaking Russian, 10 - 15 % in average.

Key words: word building synthesis, formant, morpheme, word building semantics, motivating relation, degree of closeness, expert teaching system.

Размещено на Allbest.ru

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.