Методи та моделі функціонально-семантичної обробки текстів природної мови у системах штучного інтелекту

Метод уніфікації суперпозицій семантичних функцій та природно-мовних конструкцій. Якість систем автоматичної обробки текстів під час аналізу багатозначних мовних одиниць. Характеристика атрибутних транслюючих граматик на основі систем штучного інтелекту.

Рубрика Программирование, компьютеры и кибернетика
Вид автореферат
Язык украинский
Дата добавления 29.08.2014
Размер файла 70,8 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://allbest.ru

Харківський національний університет радіоелектроніки

АВТОРЕФЕРАТ

дисертації на здобуття наукового ступеня кандидата технічних наук

05.13.23 - системи та засоби штучного інтелекту

МЕТОДИ ТА МОДЕЛІ ФУНКЦІОНАЛЬНО-СЕМАНТИЧНОЇ ОБРОБКИ ТЕКСТІВ ПРИРОДНОЇ МОВИ У СИСТЕМАХ ШТУЧНОГО ІНТЕЛЕКТУ

Виконала Валенда Наталя Анатоліївна

Харків 2006

АНОТАЦІЯ

Валенда Н.А. Методи та моделі функціонально-семантичної обробки текстів природної мови у системах штучного інтелекту. - Рукопис.

Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.13.23 - системи та засоби штучного інтелекту - Харківський національний університет радіоелектроніки, Харків, 2006.

Дисертація присвячена розробці методів і моделей аналізу текстів природної мови на основі функціонального подання семантики. У дисертації розроблено модель формалізації семантики природно-мовних конструкцій у вигляді суперпозицій семантичних функцій, що дозволяє поліпшити якість систем автоматичної обробки текстів під час аналізу багатозначних мовних одиниць. Розроблено метод перетворення мовних конструкцій у суперпозиції семантичних функцій. Розглянуто метод уніфікації, що дозволяє встановлювати значеннєву еквівалентність мовних конструкцій, які подано семантичними функціями. Набув подальшого розвитку метод аналізу на основі атрибутних транслюючих граматик, завдяки введенню семантичних функцій у вигляді символів дії. Розглянуто застосування розроблених методів і моделей у системах штучного інтелекту, для поліпшення якості аналізу текстів.

штучний інтелект семантичний мовний

1. ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ

Актуальність теми. Обчислювальна техніка надає широкі можливості для збереження й обробки інформації, тому накопичення інформації відбувається в електронному вигляді. Оскільки зростання інформаційних ресурсів має експонентний характер, то для їх опрацювання створюються системи, орієнтовані на обробку і пошук інформації. Нагромадження величезних масивів інформації в текстовому вигляді робить актуальними дослідження у галузі обробки текстової інформації. Діапазон таких систем досить широкий: системи автоматичного перекладу, пошукові системи, природно-мовні інтерфейси, системи автоматичного реферування. Незважаючи на широту діапазону розв'язуваних задач, якість роботи цих систем прямо залежить від рівня формалізації природної мови, що може запропонувати сучасна теорія штучного інтелекту.

Моделювання інтелектуальної діяльності людини з оброблення текстової інформації є надскладною задачею. Її успішна автоматизація призвела б до значного підвищення ефективності самих комп'ютерів, даючи можливість людині спілкуватися з комп'ютером природною мовою.

Моделювання природної мови здійснюється на різних рівнях. Найбільш складними для моделювання є рівні, на яких ведеться робота зі значеннями окремих одиниць і тексту в цілому. Тісний зв'язок структури тексту і його значення не дає можливості побудувати навіть прості моделі обробки текстової інформації без урахування значень елементів, що складають текст.

Велика кількість сучасних робіт в області штучного інтелекту спрямована на розробку моделей семантики, які дозволять зробити якісний стрибок у семантичній інтерпретації текстів і поліпшити результати практичної роботи систем обробки текстової інформації.

Вищевикладені положення обумовлюють актуальність досліджень, пов'язаних з подальшим розвитком та вивченням формалізації семантики природної мови. Дослідження, проведені в даній роботі, спрямовані на створення формальної моделі семантики та її застосування для побудови ядра інформаційної технології семантичного аналізу тексту, яка дозволить покращити якість аналізу текстів природної мови за рахунок детального аналізу багатозначності слів.

Розвиток засобів формального подання текстів природної мови і їх подальше впровадження у системах обробки текстової інформації сприяє розвитку систем штучного інтелекту, удосконаленню систем аналізу текстів з інтелектуальною складовою. Впровадження результатів дисертаційної роботи сприятиме підвищенню рівня інформаційних технологій на Україні.

Мета і задачі дослідження. Метою дисертаційної роботи є підвищення ефективності методів обробки текстів природної мови у системах штучного інтелекту за рахунок використання семантичних функцій для аналізу мовних конструкцій.

Поставлена мета роботи обумовила такі задачі дослідження:

- формалізувати семантику речень природної мови на основі семантичних функцій та розробити метод перетворення конструкцій природної мови у формальне подання;

- розробити метод уніфікації суперпозицій семантичних функцій;

- розробити модель вибору значення лексичних одиниць на основі уніфікації суперпозицій семантичних функцій;

- вдосконалити методи аналізу тексту на основі використання формалізованого подання семантичної інформації;

- розробити склад і структуру словників, що забезпечать роботу всіх етапів аналізу.

Об'єктом дослідження є процес обробки текстів природної мови.

Предметом дослідження є модель обробки текстів природної мови на базі семантичних функцій.

Методи дослідження базуються на ідеях і принципах штучного інтелекту, моделях подання знань в інтелектуальних системах, методах логічного висновку у формальних системах, методах синтаксичного і семантичного аналізу.

Наукова новизна отриманих результатів.

1. Вперше розроблено модель формалізації семантики природно-мовних конструкцій, яка відрізняється від існуючих урахуванням суперпозицій семантичних функцій, що дозволило поліпшити якість автоматичної обробки текстів під час аналізу багатозначних мовних одиниць.

2. Набув подальшого розвитку метод синтаксичного аналізу природної мови на основі атрибутних транслюючих граматик, який на відміну від існуючих використовує символи дії для перевірки встановленого зв'язку за допомогою семантичних функцій, що дозволило спростити подальший аналіз мовних конструкцій.

3. Удосконалено метод семантичного аналізу природної мови, який відрізняється від існуючих використанням логічного виведення на семантичних функціях, що дозволило вибирати єдине значення для багатозначних слів та отримувати єдине формальне подання мовних конструкцій.

4. Набув подальшого розвитку метод виведення на основі логіки предикатів, який відрізняється від існуючих введенням операцій уніфікації для семантичних функцій, що дозволило встановлювати ступінь еквівалентності мовних конструкцій.

Практичне значення отриманих результатів. Розроблені в дисертаційній роботі моделі формалізації семантики текстів природної мови, методи та алгоритми аналізу складають ядро інформаційної технології семантичної обробки тексту. Її використання у системах обробки текстової інформації покращить якісні характеристики аналізу за рахунок удосконалення обробки багатозначних лексичних одиниць. Математичні і програмні результати роботи можуть бути використані в системах автоматичної обробки текстової інформації та перекладу, у діалоговому компоненті експертних систем, для підвищення якості пошукових систем.

Розроблені та досліджені в дисертації методи, алгоритми і програмні компоненти використано в інформаційно-пошуковій системі підприємства "Торгівельна компанія "ЕлектроМир" (акт упровадження від 04.06.2005). Застосування результатів дисертаційної роботи дозволяє поліпшити якість пошуку інформації природною мовою, за рахунок добору інформації, яка релевантна запиту.

Теоретичні результати дисертації використано в навчальному процесі на кафедрі ПЗ ЕОМ ХНУРЕ під час підготовки та проведення занять з навчальних дисциплін “Проектування трансляторів” та “Спецглави теорії алгоритмів” (акт упровадження від 17.11.2005 р.).

Особистий внесок здобувача. Усі результати дисертації отримано автором самостійно. У [1, 13] розглядається аналіз на основі інформації семантичного словника і принципи подання інформації словника у формалізованому вигляді; у [2] розглядається застосування лінгвістичного аналізатора, що працює на основі семантики, для поліпшення якості пошукових систем; у [3, 7, 8, 11] наведено способи організації словників великого обсягу, орієнтованих на збереження семантичної і морфологічної інформації, можливості їх застосування у системах штучного інтелекту; у [4] запропоновано модель формалізації семантики на базі семантичних функцій та метод уніфікації для цього формального подання; у [5] розглянуто методи аналізу конструкцій природної мови на основі семантичних функцій, автору належить розробка методу семантичного аналізу, у [6] запропоновано метод аналізу природної мови на основі атрибутних граматик; у [9] досліджуються можливості застосування методів семантичного аналізу, розроблених для природної мови, до аналізу програм, написаних мовами програмування; у [10] автору належить розробка методів логічного висновку на знаннях; у [12] розроблено метод формального висновку на знаннях і його застосування для семантичного аналізу.

2. ОСНОВНИЙ ЗМІСТ РОБОТИ

У вступі обґрунтовано актуальність дисертаційної роботи, сформульовано основну мету і завдання досліджень, наведено відомості про зв'язки обраного напрямку досліджень із планами організації, де виконана робота. Дано стислу анотацію отриманих у дисертації рішень, зазначено їх практичну значущість, наведено дані про використання результатів проведених досліджень у народному господарстві.

У першому розділі дисертаційної роботи розглянуто етапи аналізу текстів природної мови та основні задачі, які мають вирішуватися на кожному з етапів. Розглянуто питання, як проявляється багатозначність мовних конструкцій на кожному з етапів аналізу.

Проведено порівняння методів морфологічного аналізу, таких як аналіз із словником словоформ і словником основ, та методів синтаксичного аналізу на основі граматик та розширених мереж переходів. Зазначено переваги та недоліки, можливості застосування. Зроблено висновок про неможливість якісного аналізу речень без використання семантичної інформації. Проаналізовано найбільш відомі семантичні теорії, зазначено їх переваги та недоліки, розглянуто можливості застосування у системах аналізу текстів.

Проведено огляд існуючих моделей подання знань, таких як логічна, продукційна, мережна, фреймова, визначено їх переваги та недоліки; розглянуто можливість подання лінгвістичних знань у кожній з моделей.

Обґрунтовано доцільність удосконалення методів обробки тексту за рахунок використання семантичної інформації, що дає можливість підвищити якість аналізу текстів природної мови. На основі проведених досліджень сформульовано мету та задачі дисертаційної роботи.

У другому розділі досліджуються теоретичні основи формалізації семантики речень природної мови на основі семантичних функцій, розроблено метод виведення на основі уніфікації, метод перетворення конструкцій природної мови до формального подання у вигляді суперпозиції семантичних функцій, модель вибору значень багатозначних слів.

Ступінь формалізації мови визначається ступенем формалізації її семантики. Семантика може розглядатися на поверхневому й глибинному рівнях. Для формалізації поверхневої семантики природної мови достатньо мовної моделі світу, що міститься у словниковому складі. Основою для формальної моделі семантики є тлумачний словник, що містить лексичні значення слів. У роботі розроблено модель формалізації семантики природно-мовних конструкцій у вигляді суперпозицій семантичних функцій. Введено два види функцій. Для встановлення зв'язку між словом і його значенням введено функцію значення слова - V(x). Областю визначення для функції V є W(L) - кінцева множина всіх вхідних слів у мові L, областю значень - концепти предметної галузі:

V(x)={1,…, m},

де 1,…, m - значення слова x.

Для відображення необхідно використовувати контекст. Кожному значенню слова зіставляється опис ситуації, у якій воно приймає дане значення. Для опису ситуації необхідно вказати множину об'єктів, що приймають у ній участь, дій, їхні зв'язки. Для цього використовуються семантичні функції, що дозволяють описати відносини між об'єктами, діями, їхніми ознаками. Семантична функція має вигляд:

,

де i - номер семантичного відношення, ; - аргумент функції; - індекс, що зазначає роль даного аргументу у функції, .

Список ролей, які використовуються для аргументів функцій: k1=суб'єкт; k2=дія; k3=контрагент; k4=об'єкт; k5=адресат; k6=пацієнс; k7=результат; k8=інструмент; k9=ознака; k10=значення.

k = k1 k2 k3 k4 k5 k6 k7 k8 k9 k10.

У даній роботі використовуються такі семантичні функції: f1=дія; f2=спосіб; f3=приналежність; f4=ознака; f5=стан; f6=засіб; f7=кількість; f8=призначення; f9=напрямок; f10=ступінь; f11=місце; f12=зміст; f13=причина; f14=час; f15=період; f16=частина. Перелік функцій може бути розширений.

Можливі значення аргументу :

.

Аргументами функції також можуть бути змінні, що позначаються великими латинськими літерами. Множину можливих значень змінної може бути обмежено. Для цього вводяться множини ознак, яким має відповідати можливе значення змінної: M(Pmorf) - множина морфологічних ознак, M(Psem) - множина семантичних ознак.

.

Значення слів - є концептами предметної галузі. Вони об'єднані в семантичну мережу, яка являє собою таксономію. Якщо знань, які зберігаються в такій мережі, виявляється не достатньо для аналізу текстів природної мови, то є можливим розширення знань про предметну галузь за рахунок зіставлення концептуальних графів вузлам мережі.

Введення змінних дозволяє використовувати семантичні функції як рамку для заповнення елементами, що відповідають заданим обмеженням.

Семантичний словник S можна задати у вигляді об'єднання множин Vi(x) для всіх :

.

Запис семантичного словника матиме такий вигляд:

,

де x - заголовне слово; - суперпозиція семантичних функцій, що відповідає значенню слова x; - посилання на ієрархію типів; k - посилання на концептуальний граф або порожня множина; M(u) - множина посилань на словник сталих словосполучень або порожня множина.

У роботі набув подальшого розвитку метод виведення на основі логіки предикатів завдяки введенню операцій уніфікації для семантичних функцій. Уніфікація двох семантичних функцій означає, що вони виражають близькі за змістом поняття. У роботі розглядаються повна й часткова уніфікація семантичних функцій. Повна уніфікація - це збіг семантичних функцій і їх аргументів. Щоб функції збігалися, у них мають збігатися функціональні константи й попарно уніфікуватися аргументи. Пари аргументів вибираються залежно від ролі, яку вони відіграють у функції. Повна уніфікація досягається тільки зі збігом аргументів, які виступають в однакових ролях. Під час уніфікації використовується підстановка , що відображує множину змінних у множину термів. У роботі розглянуто можливі комбінації аргументів:

- уніфікація семантичної функції fi й змінної відбувається, якщо можлива підстановка

;

- уніфікація функції значення Vi(a) й змінної відбувається, якщо можлива підстановка

;

- уніфікація двох семантичних функцій fi(a1,…,ak), fj(b1,…,bm);

- уніфікація двох функцій значення Vi(a), Vj(b).

Приклад повної уніфікації мовних конструкцій: “Рабочие строят многоэтажный дом”, “Строится высотный дом”. Для мовних конструкцій будуть сформовані такі суперпозиції семантичних функцій.

Функціональні константи головних функцій збігаються, тому уніфікуються аргументи. Перша позиція уніфікується як константи: x1=y1. Друга позиція уніфікується як змінна й функція значення:

.

Третя позиція уніфікується як дві семантичні функції, для яких збігається функціональна константа й уніфікуються аргументи. Перша й друга позиції уніфікуються як константи: x3=y2, x4=y3. Для третьої позиції відбувається уніфікація значень на основі ієрархії: .

Часткова уніфікація розширює поняття уніфікації за рахунок допуску розбіжностей в уніфікованих формулах. Розбіжності можуть бути таких видів: розбіжність значень функцій, розбіжність функціональних констант, розбіжність аргументів функцій.

Найбільш важливі з відносин, які задаються семантичними функціями, є дія, суб'єкт і об'єкт. Якщо у двох функцій перераховані пари аргументів є в наявності й уніфікуються, то отримуємо часткову уніфікацію. Уніфікація функції значення Vi(a) і семантичної функції fj(y1,…,yk) може бути тільки частковою.

На основі запропонованого подання семантики розглядається модель вибору єдиного значення лексичних одиниць. Система співвідношень між лексикою вхідної мови А і множиною значень лексичних одиниць В позначається через . У системі допускаються відносини, які не є відображенням внаслідок їхньої неоднозначності. У системі усі відносини є відображенням. У результаті переходу від системи до системи отримуємо модель усунення багатозначності. Вибір єдиного значення для слів базується на аналізі контексту лінгвістичних одиниць. Вибір значення для багатозначного слова здійснюється під час побудови функції словосполучення або заповнення функції предиката. Він ґрунтується на заповненні вільних позицій функції на основі уніфікації.

Метод аналізу конструкцій природної мови на основі заповнення вільних позицій семантичних функцій ґрунтується на запропонованій моделі семантики. Для об'єднання слів у словосполучення використовуються семантичні функції, що відповідають їм у словнику. Основою методу формування простих словосполучень є заповнення порожніх позицій у суперпозиціях семантичних функцій. На основі простих словосполучень формуються складні словосполучення. Основою для формування словосполучень є синтаксичний аналіз, що дозволяє не робити повний перебір всіх можливих сполучень слів. Якщо у реченні є предикативна частина мови, то отримані словосполучення й слова, які не ввійшли у словосполучення, вбудовуються у функцію предиката на етапі семантичного аналізу.

У третьому розділі розглядаються етапи аналізу мовної конструкції на основі семантичного словника. Методи та моделі, запропоновані в цьому розділі, формують лінгвістичний аналізатор, який використовується для обробки текстової інформації.

Лексичний аналіз здійснює ідентифікацію слів та заміну їх набором лексем, які мають вигляд:

,

де X задає клас лексеми; p1 посилання на елемент тексту x; морфологічні ознаки M(Pmorf); pn посилання на статтю семантичного словника Vi(x). Для виділення лексем застосовуються кінцеві автомати, що будуються на основі регулярних виразів, які описують класи елементів тексту. Виділяють такі класи лексем: слова, числа, роздільники, знаки пунктуації. У результаті роботи лексичного аналізу формується послідовність лексем, які на рівні синтаксичного аналізу розглядаються як термінальні символи.

Для синтаксичного аналізу використовується атрибутна транслююча граматика. Розбір мовної конструкції відбувається в процесі виводу у граматиці. У роботі набув подальшого розвитку метод синтаксичного аналізу на основі атрибутних транслюючих граматик завдяки введенню символів дії для перевірки встановленого зв'язку на основі семантичних функцій. Введено два типи правил. Перший тип правил це присвоєння і перевірка морфологічних атрибутів нетермінальних символів на основі морфологічної інформації дочірніх вузлів. Другий тип правил це функції семантичного узгодження, що включають механізм семантичного аналізу для перевірки значеннєвої сполучуваності дочірніх вершин на основі семантичних функцій. У випадку виконання правил обох типів формується новий вузол, що володіє морфологічною інформацією і семантичним значенням. У загальному вигляді отримуємо таке правило граматики за формулами:

,

де , , нетермінальні символи, , , - морфологічні атрибути, - функція семантичного узгодження.

Розуміння мовної конструкції задається існуванням семантичної функції на заданих аргументах. У випадку виконання семантичного узгодження, для даного фрагмента тексту формується семантична функція, що задає його зміст. Далі даний фрагмент розглядається як єдине ціле й успадковує морфологічні атрибути головного слова. Синтаксичний аналіз реалізується як формальний вивід заданої мовної конструкції у граматиці. Розбір ведеться методом згортки.

У даній роботі область застосування синтаксичного аналізу звужується з речення до словосполучення. Оскільки словосполучення мають більш просту структуру, ніж речення, то це спрощує побудову детермінованих алгоритмів аналізу мовних конструкцій.

Далі наведено граматику для словосполучень, де головним словом є іменник. Аналіз проводиться в декілька проходів. Спочатку утворюються нетермінали <Именная группа_1>, потім нетермінали <Именная группа_2>, де нетермінали, сформовані раніше, виступають у ролі термінальних символів.

На рівні синтаксичного аналізу за рахунок проведення семантичного узгодження формуються суперпозиції семантичних функцій, що спрощує подальший аналіз.

Семантичний аналіз складається із двох частин: перевірка семантики на рівні синтаксичного аналізу, формування функції для мовної конструкції на основі предиката.

Перевірка зв'язку, встановленого на рівні синтаксичного аналізу, відбувається під час формування словосполучень. Виклик процедури семантичного аналізу здійснюється функцією Fi(x1, x2). Із семантичного словника беруться функції, відповідні x1 й x2. Залежно від індексу i функції F вибирається головне і залежне слово . На основі функції головного слова формується множина змінних для кожної функції значення V(x). На основі функцій залежного слова формується множина заповнювачів. Серед функцій значення головного слова шукається така, для якої можна отримати підстановку

.

На основі цієї функції формується функція словосполучення.

Метод семантичного аналізу мовних конструкцій ґрунтується на заповненні вільних позицій у функції предиката. В роботі удосконалено метод аналізу на основі фрейму предиката завдяки використанню логічного виводу на семантичних функціях. У даній роботі фрейм предиката задається суперпозицією семантичних функцій, що відповідають предикату у словнику. На вхід семантичного аналізу конструкції мови подаються у вигляді фрагментів, які отримано на етапі синтаксичного аналізу. Кожен фрагмент складається з набору лексем. Лексемами можуть бути як слова, так і словосполучення. Кожен набір лексем має містити один предикат. Інакше, цей фрагмент має бути розібраний як словосполучення ще на етапі синтаксичного аналізу. Словосполучення, утворені в результаті синтаксичного аналізу, пройшли семантичне узгодження і для них створено семантичні функції. Предикату відповідає множина значень . Для кожного Vi(x) формується множина змінних на основі суперпозиції семантичних функцій. У множину заповнювачів включають функції значення головних слів словосполучень, та одинарних слів.

Для Vi(x) формується множина підстановок

на основі уніфікації змінних та елементів з множини заповнювачів. Якщо знайдено предикат, у якого для всіх змінних отримано підстановки і множина заповнювачів порожня, то аналіз припиняється, функція повертається як значення предиката. Інакше, якщо множина заповнювачів порожня, то знаходиться предикат, у якого заповнене максимальне число змінних. На основі цього предиката формується результуюче подання. Інакше розбір неможливо провести. Результуюче подання мовної конструкції формується на основі здійснення підстановок до обраної функції предиката. Головні слова словосполучень у підстановках замінюються на функції словосполучень.

Розроблено методи синтаксичного та семантичного аналізу, які використовують семантичну інформацію, подану у вигляді суперпозицій семантичних функцій, та логічний вивід у вигляді часткової чи повної уніфікації.

У четвертому розділі розглядаються можливі засоби організації словників великого обсягу. Проведено порівняння способів організації словника за швидкістю пошуку елементів та зручністю пошуку слів, введених з помилками. На основі проведеного аналізу вибрано спосіб подання словника навантаженим бінарним деревом.

Швидкість доступу до елемента словника

,

де nmax - максимальна довжина слова у словнику словоформ; M - кількість символів в алфавіті мови, що розпізнається; N кількість вершин у навантаженому дереві.

Для фізичного подання навантаженого бінарного дерева використовуються дві структури даних. Для трьох перших рівнів, які найбільш заповнені, використовуються вектори переходів. Для вершин інших рівнів використовуються списки переходів.

Розроблено алгоритми занесення та вилучення слів у словнику. Також наведено алгоритм пошуку слів з помилками. Пошук ведеться за збігом поточної літери слова і вершини у дереві. Якщо відповідна вершина відсутня, то необхідно зробити переходи по існуючих вершинах та перевірити на збіг з наступною літерою слова. Якщо один зі шляхів призведе до збігу всіх літер слова, що залишилися, із графом, то можна вважати, що помилка знайдена. Жоден з попередніх методів не дозволяв робити такий аналіз.

Проведено аналіз можливих способів організації словника великого обсягу. Доведено, що оптимальним є словник на основі навантаженого дерева, оскільки він підтримує швидкий доступ та дозволяє організувати пошук слів з помилками.

У п'ятому розділі розглянуто структуру та взаємодію блоків лінгвістичного процесора, наведено приклади застосування методу аналізу конструкцій природної мови на основі семантики у системах штучного інтелекту.

Якість пошуку текстової інформації можливо підвищити за рахунок залучення лінгвістичного процесора до аналізу знайдених документів. Пошук пропонується проводити у кілька етапів. На першому працює звичайна пошукова система, що знаходить множину документів, в якій зустрічаються слова пошукового запиту, або йде вибір документів на основі аналізу кількості входжень слів з пошукового запиту. Далі обирається фрагмент тексту, який містить найбільшу кількість входжень слів із запиту. Цей фрагмент вважається анотацією всього тексту.

На другому етапі йде перетворення лінгвістичним процесором пошукового запиту та анотації у суперпозиції семантичних функцій. Отримані суперпозиції функцій уніфікуємо. Якщо досягається повна чи часткова уніфікація, тоді текст, для якого проводився аналіз, вважається релевантним вихідному запиту.

Результати дисертаційної роботи можуть бути застосовані у системах автоматичного перекладу. Розглянуто можливість застосування розробленого лінгвістичного процесора на етапі аналізу. Розроблені у дисертації методи аналізу конструкцій природної мови можуть бути застосовані у системах, орієнтованих на обробку текстової інформації.

ВИСНОВКИ

У дисертаційній роботі наведено результати, які у відповідності з поставленою метою є вирішенням актуальної задачі створення методів обробки текстів природної мови у системах штучного інтелекту на основі використання формалізованої семантичної інформації. Отримані результати мають важливе наукове і практичне значення для створення ефективних систем обробки текстової інформації: аналізаторів природної мови, інтелектуальних пошукових систем. У процесі виконання наукових досліджень отримано такі результати:

1. Проаналізовано сучасні підходи до аналізу текстової інформації, розглянуто найбільш використовувані рішення у цій галузі, обґрунтовано доцільність удосконалення методів обробки тексту за рахунок використання семантичної інформації, що дає можливість підвищити якість аналізу текстів природної мови.

2. Розроблено модель формалізації семантики природно-мовних конструкцій у вигляді суперпозицій семантичних функцій, яка дозволяє будувати методи та алгоритми перетворення мовних конструкцій у формальне подання з урахуванням багатозначності мовних одиниць, що дає можливість отримувати більш якісний аналіз конструкцій природної мови.

3. Розроблено метод аналізу мовних конструкцій на основі заповнення вільних позицій семантичних функцій. Це дозволяє побудувати транслятор, який здійснює автоматичне перетворення мовних конструкцій на суперпозиції семантичних функцій. Проведено порівняння з семантичним аналізом на основі відмінкових фреймів та встановлено, що завдяки зіставленню семантичної інформації усім словам досягається аналіз, який не залежить від чіткого порядку слів, що дає можливість застосовувати його до мов з вільним порядком слів у мовних конструкціях.

4. Розроблено метод виведення на основі логіки предикатів, що відрізняється від існуючих введенням уніфікації для суперпозицій семантичних функцій, яка дозволяє існування розбіжностей в уніфікованих формулах. Метод дозволяє проводити зіставлення формул, які відрізняються за структурою, але передають близькі значення, та може використовуватися для визначення еквівалентності мовних конструкцій, при встановленні значень багатозначних слів, у пошукових системах під час порівняння результатів пошуку з анотацією.

5. Розроблено модель вибору значення лексичних одиниць на основі заповнення вільних позицій та уніфікації суперпозицій семантичних функцій, яка дозволяє покращити якість роботи транслятору природної мови.

6. Набув подальшого розвитку метод аналізу природної мови на основі атрибутних транслюючих граматик, за рахунок використання семантичних функцій у символах дії, що дозволяє визначати значеннєву сумісність елементів допущеної конструкції. Перевірка семантики словосполучень на рівні синтаксичного аналізу веде до спрощення подальшого аналізу. За рахунок звуження області дії синтаксичного аналізу з речення до словосполучення спрощується структура транслятора.

7. Удосконалено метод семантичного аналізу природної мови, який відрізняється від аналізу на основі фрейму предиката за рахунок заповнення вільних позицій фрагментами, що вже пройшли семантичне узгодження, та використанням виводу на семантичних функціях під час вибору значення багатозначних слів. Це дає можливість підвищити якість обробки багатозначних слів та отримувати єдине формальне подання.

8. Розроблено спосіб організації словника на основі навантаженого дерева, який дозволяє зберігати інформацію у вигляді композиції векторів переходів та списків переходів. Це дає можливість зберігати словник частково або повністю в оперативній пам'яті чи на диску. Розроблено алгоритм пошуку помилок у слові, що дає можливість обробки некоректно введених слів.

9. Отримані методи аналізу текстів природної мови впроваджені в інформаційно-пошуковій системі підприємства "Торгівельна компанія "ЕлектроМир". Застосування результатів дисертаційної роботи дозволяє поліпшити якість пошуку інформації природною мовою, за рахунок порівняння суперпозицій семантичних функцій для пошукового запиту та анотацій документів (акт упровадження від 04.06.2005). Теоретичні результати дисертації використано у навчальному процесі на кафедрі Програмного забезпечення ЕОМ (акт упровадження від 17.11.2005).

ПУБЛІКАЦІЇ ЗА ТЕМОЮ ДИСЕРТАЦІЇ

1. Валенда Н.А. Применение семантики для анализа конструкций естественного языка // Проблемы бионики. - 2001. - Вып. 55. - С. 63-66.

2. Валенда Н.А. Применение методов анализа естественного языка для поисковых систем // Вестник Херсонского государственного технического университета. - 2002. - № 1 (14). - С. 236-239.

3. Валенда Н.А. Анализ способов представления словарной информации // Вестник Херсонского государственного технического университета. - 2003. - № 2 (18). - С. 57-61.

4. Валенда Н.А. Модель функционально семантической обработки текстов на основе унификации // Восточно-Европейский журнал передовых технологий. - 2005. -№ 4/2 (16). - С. 95-99.

5. Валенда Н.А., Дюбко Г.Ф. Методы анализа естественного языка на основе функциональной модели семантики // Бионика интеллекта. - 2005. - № 2 (63). - С. 48-52.

6. Валенда Н.А. Обработка и анализ информации на естественном языке // Системний аналіз, управління і інформаційні технології: Вісник Харківського державного політехнічного університету. Зб. наук. пр. - Харків: ХДПУ, 1999. - Вип. 51. - С. 84-88.

7. Валенда Н.А. Способы организации морфологической базы данных // Актуальні проблеми сучасної науки у дослідженнях молодих вчених м. Харкова: Збірник доповідей Першої міської науково-практичної конференції. - Харків: АТ “Бізнес Інформ”, 1997. - С. 111 - 113.

8. Валенда Н.А. Принципы реализации морфологической базы данных // Тез. докл. 1-го Междунар. молодежного форума “Электроника и молодежь в XXI веке”. - Харьков: ХТУРЭ, 1997. - С. 139.

9. Дюбко Г.Ф., Валенда Н.А. Формальное преобразование программ в форму, удобную для их логического анализа // Сб. науч. тр. 4-й Междунар. конф. “Теория и техника передачи, приема и обработки информации”. - Харьков: ХТУРЭ, 1998. - С. 517.

10. Дюбко Г.Ф., Валенда Н.А., Водолажский А.С. Семантический подход к автоматическому анализу программ // Сб. науч. тр. 5-й Междунар. конф. “Теория и техника передачи, приема и обработки информации”. - Харьков: ХТУРЭ, 1999. - С. 360 - 362.

11. Дюбко Г.Ф., Валенда Н.А. Манипулирование информацией и организация доступа к ней в словарях большого объема // Сб. науч. тр. Междунар. конф. “Информационные технологии: наука, техника, технология, образование, здоровье”. - Харьков: ХГПУ, 1999. - Ч. 1. - С. 64- 69.

12. Дюбко Г.Ф., Валенда Н.А. Использование формального вывода для семантического анализа конструкций естественного языка // Сб. науч. тр. 6-й Междунар. конф. “Теория и техника передачи, приема и обработки информации”. - Харьков: ХТУРЭ, 2000. - С. 251-253.

13. Дюбко Г.Ф., Валенда Н.А. Организация работы анализатора естественного языка на основе использования семантической базы знаний // Сб. науч. тр. 1-го Междунар. радиоэлектронного форума “Прикладная радиоэлектроника. Состояние и перспективы развития” МРФ-2002. - Харьков: АН ПРЭ, ХНУРЭ, 2002. - Ч. 2. - С. 99-101.

Размещено на Allbest.ru

...

Подобные документы

  • Поняття штучного інтелекту, його порівняння з природним. Коротка характеристика особливостей використання штучного інтелекту в медицині, військовій справі та комп'ютерних іграх. Проблема взаємодії носіїв універсального штучного інтелекту та суспільства.

    контрольная работа [29,6 K], добавлен 07.01.2014

  • Логічний, структурний, еволюційний та імітаційний підходи до побудови системи штучного інтелекту. Використання формально-логічних структур, що обумовлено їх алгоритмічним характером. Методи реалізації системи штучного інтелекту, інтелектуальні програми.

    реферат [34,5 K], добавлен 14.04.2014

  • Інтуїтивне розуміння поняття "інтелект". Основні проблемні середовища штучного інтелекту. Проблема неточних і неповних знань. Тест Тьюринга і фатичний діалог. Метод комп’ютерної реалізації фатичного діалогу. Принцип віртуальної семантичної сітки.

    курсовая работа [560,0 K], добавлен 27.12.2007

  • Поняття криптографії та криптографічних систем. Загальні відомості про блокові шифри. Особливості стандарту DES. Процедура генерування раундових підключів. Розшифрування зашифрованого тексту. Криптоаналіз блокових шифрів. Система шифрування RSA.

    курсовая работа [712,4 K], добавлен 29.01.2013

  • Застосування нейронних мереж при вирішенні різних технічних проблем. Архітектура штучних нейронних мереж. Дослідження штучного інтелекту. Гіпотеза символьних систем. Представлення за допомогою символів. Синтаксичний та семантичний аналіз розуміння мови.

    курсовая работа [985,8 K], добавлен 14.01.2010

  • Характерна особливість ігрових задач. Основні види ігрових задач: з повною та неповною інформацією. Методи знаходження планів гри і оптимальних стратегій для таких ігор, як шахи, шашки, "хрестики-нулики". Способи побудови систем штучного інтелекту.

    контрольная работа [588,5 K], добавлен 22.01.2015

  • Дослідження медичної інформатики, інформаційних процесів, пов'язаних з методико-біологічними, клінічними і профілактичними проблемами здоров'я. Характеристика прикладного програмного забезпечення: систем обробки текстів, табличних процесорів, баз даних.

    реферат [25,0 K], добавлен 03.06.2011

  • Опис та криптоаналіз шифрів простої заміни, перестановки та багатоалфавітних шифрів. Стандарт DЕS. Мережі Фейстеля. Криптосистеми з відкритим ключем. Структура системи RSA. Означення та принципи організації криптографічних протоколів. Кодування алфавіта.

    дипломная работа [782,5 K], добавлен 29.01.2013

  • Структура та галузі застосування систем цифрової обробки сигналів. Дискретне перетворення Фур’є. Швидкі алгоритми ортогональних тригонометричних перетворень. Особливості структурної організації пам’яті комп’ютерних систем цифрової обробки сигналів.

    лекция [924,7 K], добавлен 20.03.2011

  • Cтвopення веб-дoдатку для визначення pівня інтелекту людини (кoефіцієнта інтелекту) на мові пpoгpамування PHP з викopиcтанням JаvаScrіpt та cиcтеми кеpування базами даних MySQL. Функціoнальні частини програми: клієнтcька чаcтина і заcoби адміністрування.

    дипломная работа [614,8 K], добавлен 08.10.2010

  • Підходи до розуміння проблеми штучного інтелекту. Тест Тьюринга і інтуїтивний підхід, символьний та логічний, агентно-орієнтований і гібридній. Машинний інтелект: загальна характеристика та головні сфери застосування на сьогодні, науковий напрямок.

    курсовая работа [203,1 K], добавлен 09.04.2013

  • Теоретичне дослідження особливостей проектування систем дистанційного навчання. Створення програмного забезпечення процедури статистичної обробки результатів тестування знань і оцінки якості тесту. Економічне обґрунтування доцільності розробки програми.

    дипломная работа [3,6 M], добавлен 22.10.2012

  • Створення програмного продукту на мові Object Pascal в середовищі візуального програмування Delphi 7.0, що дозволяє отримати необхідну інформацію про штучний інтелект та переглянути відео з теми. Пошук інформації, її отримання з ресурсів мережі Інтернет.

    курсовая работа [5,4 M], добавлен 24.09.2013

  • Введення в процедуру зворотного поширення. Навчальний алгоритм: мережеві конфігурації, нейрон, багатошарова мережа. Огляд навчання: прохід вперед, зворотній прохід, налаштування ваги прихованого прошарку, додавання нейронного зміщення та імпульс.

    реферат [124,0 K], добавлен 19.06.2015

  • Розробка математичної моделі, методів обробки, визначення діагностичних ознак та методу імітаційного моделювання кардіоінтервалограми для моніторингу адаптивно-регулятивних можливостей організму людини з захворюваннями серця при фізичних навантаженнях.

    автореферат [74,9 K], добавлен 29.03.2009

  • Розробка програми GameBox, яка включає в себе дві гри, судоку та пятнашки. Опис структури даних та вимоги до них, процедур і функцій користувача, стандартних процедур і функцій, які використовувались в програмі, та файлів. Результати роботи програми.

    курсовая работа [5,3 M], добавлен 12.11.2011

  • Особливості автоматизованого перекладу іноземних мов. Розробка програми для перекладу слів та певних мовних конструкцій молодіжного сленгу на загальновживану мову. Опис структури файлів. Специфікація функцій програми, оцінка достовірності результатів.

    курсовая работа [943,8 K], добавлен 15.03.2014

  • Структура захищених систем і їх характеристики. Моделі елементів захищених систем. Оцінка стійкості криптографічних протоколів на основі імовірнісних моделей. Нормативно-правова база розробки, впровадження захищених систем.

    дипломная работа [332,1 K], добавлен 28.06.2007

  • Проектування і програмування обробки деталей на верстатах з числовим програмним управлінням. Проектування технологічної оперції обробки заготовки: вибір інструменту, ескізи наладок. Керуюча програма обробки деталей "кришка" та "вал". Верифікація програми.

    курсовая работа [1,7 M], добавлен 29.11.2011

  • Аналіз основних операцій спецпроцесора обробки криптографічної інформації, його синтез у модулярній системі числення та дослідження математичної моделі надійності. Виведення аналітичних співвідношень для оцінки ефективності принципу кільцевого зсуву.

    дипломная работа [1,8 M], добавлен 15.10.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.