Розроблення алгоритмів та програмно-апаратних засобів систем розпізнавання мовних образів
Синтез алгоритмів інтелектуальної системи розпізнавання мовлення в керуванні мобільним роботом. Множинно-семантичні моделі представлення мовлення у вигляді характеристик нормованих просторів. Комп’ютерне перетворення мовлення в чисельні характеристики.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | автореферат |
Язык | украинский |
Дата добавления | 06.07.2014 |
Размер файла | 154,7 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Національна академія наук України
Міністерство освіти і науки України
Інститут проблем штучного інтелекту
УДК 004.896
Розроблення алгоритмів та програмно-апаратних засобів систем розпізнавання мовних образів
Спеціальність 05.13.23 - системи та засоби штучного інтелекту
Автореферат
дисертації на здобуття наукового ступеня кандидата технічних наук
Федоров Євген Євгенович
Донецьк 2003
Дисертацією є рукопис.
Робота виконана в Донецькому державному інституті штучного інтелекту МОН України.
Науковий керівник
доктор фізико-математичних наук, професор ШЕЛЕПОВ Владислав Юрійович керівник відділу фундаментальних проблем розпізнавання мовних образів Інституту проблем штучного інтелекту МОН і НАН України
Офіційні опоненти:
доктор технічних наук, професор КОВАЛЬ Валерій Миколайович, відділ теорії цифрових математичних машин і систем Інституту кібернетики ім. В.М. Глушкова НАН України
кандидат технічних наук ЖИЛІН Олександр Вікторович, кафедра програмного забезпечення інтелектуальних систем Донецького державного інституту штучного інтелекту МОН України
Провідна установа - Інститут проблем математичних машин і систем НАН України, відділ нейротехнологій, м. Київ.
Захист дисертації відбудеться “19” вересня 2003 р. о 14 годині на засіданні спеціалізованої вченої ради К11.243.01 Інституту проблем штучного інтелекту за адресою: 83050, м. Донецьк, пр. Богдана Хмельницького, 84, довідки за тел. (0622) 304-62-86.
З дисертацією можна ознайомитися в бібліотеці Донецького державного інституту штучного інтелекту за адресою: 83050, м. Донецьк, вул. Р. Люксембург, 34-а.
Автореферат розісланий “18” серпня 2003 року.
Вчений секретар спеціалізованої вченої ради, кандидат технічних наук Полівцев С.О.
мовлення розпізнавання комп'ютерний робот
ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ
Актуальність теми. У сучасній вітчизняній і світовій практиці більше 20 років інтенсивно розвиваються теоретичні й прикладні дослідження широкого класу інтелектуальних систем. В Україні подібні дослідження проводяться в Інституті кібернетики ім. В.М. Глушкова, Інституті проблем математичних машин та систем, Київському національному університеті імені Тараса Шевченка, Інституті проблем штучного інтелекту. Постійно діючі міжнародні семінари й конференції та відповідні наукові школи створили ряд визначень штучного інтелекту, позначивши ознаки систем штучного інтелекту, теоретичний апарат, методологію створення. Значні результати в галузі створення систем штучного інтелекту отримані В.І. Васильєвим, Т.К. Винцюком, М.З. Згуровським, В.М. Ковалем, Ю.В. Краком, Д.О. Поспєловим, О.М. Резніком, Ю.П. Шабановим-Кушнаренком, А.І. Шевченком, В.Ю. Шелеповим й іншими. Паралельно в ці ж роки спостерігається інтенсивне зростання досліджень, присвячених теоретичній і прикладній проблемам створення гнучких виробничих систем і робототехнічних комплексів. Слід зазначити, що сучасні вимоги обумовлюють зрощування двох перспективних наукових напрямків. Один з них пов'язаний із задачами інтелектуального керування роботами й робототехнічними комплексами, інший визначається взаємодією інтелектуальних систем керування у виконавчій частині з робототехнічними комплексами. Перераховані вище особливості визначили актуальність теми дисертаційного дослідження.
Крім того, відповідно до концепцій створення ЕОМ 5-го покоління й образного комп'ютера, їх перспективні архітектури повинні спиратися на мовні інтерфейси людино-машинного спілкування. У свою чергу інтелектуальні системи керування й робототехнічні комплекси базуються на сучасній обчислювальній техніці. Підлегла цим концепціям розробка апаратно-програмних засобів спілкування “людина-комп'ютер” невід'ємно пов'язана із синтезом інтелектуальних систем керування й робототехнічних комплексів.
Зв'язок роботи з науковими програмами, планами, темами. Дисертаційна робота виконана у відділі фундаментальних проблем розпізнавання мовних образів Інституту проблем штучного інтелекту, відповідно до плану науково-дослідної роботи, у межах держбюджетних тем “Пошук i дослідження способів подання, обробки й розпізнавання багатомовної (різномовної) інформації для використання при створенні природномовних інтерфейсів машинокомп'ютерiв та ЕОМ нової генерації”, шифр 103-96, № 0100U002225, “Створення автономного робота з інтелектуальнім керуванням”, шифр 702-98, № 0100U002229, “Розробка комп'ютерної системи голосового набору математичних текстів на підставі пофонемного розпізнавання мовних образів”, шифр PM-2002, № 0100U002241. Автор брав участь у виконанні робіт з теми як виконавець за розділами “Формалізація семантики мови”, “Розробка алгоритмів і моделей перетворення мовлення”, “Розробка алгоритмів і програм системи розпізнавання мовлення”.
Мета й задачі дослідження. Метою роботи є синтез алгоритмів інтелектуальної системи розпізнавання мовлення та їх застосування в керуванні мобільним роботом.
Для досягнення цієї мети були поставлені задачі дисертаційної роботи:
провести аналіз сучасних методів формалізації й розпізнавання мовлення;
розробити множинно-семантичні моделі представлення мовлення у вигляді характеристик нормованих просторів;
створити математичні моделі й алгоритми комп'ютерного перетворення мовлення в чисельні характеристики;
синтезувати алгоритми системи розпізнавання, що функціонують на принципах відображення характеристик перетвореного мовлення, на відповідні конструкції еталонів мовлення;
здійснити ідентифікацію параметрів комп'ютерного перетворення мовлення, апробувати режими навчання й розпізнавання команд, переутворених через інтелектуальний комп'ютерний інтерфейс керування мобільним роботом;
здійснити перевірку функціонування моделей та алгоритмів створених підсистем розпізнавання мовлення через незалежну статистичну вибірку з метою оцінювання їх адекватності.
Об'єкт дослідження: комп'ютерні інтерфейси систем розпізнавання мовних образів.
Предмет дослідження: математичні моделі мовлення, алгоритми перетворення й розпізнавання мовлення.
Методи дослідження. Теорія множин при формуванні множинно-семантичних моделей мовлення, функціональний аналіз при нормуванні їх характеристик, методи системного аналізу при синтезі алгоритмів інтелектуальної системи керування, методи ідентифікації при розрахунку параметрів мовлення, методи теорії ймовірностей та математичної статистики при оцінюванні параметрів і рівнів навчання й розпізнавання.
Наукова новизна отриманих результатів дисертаційного дослідження полягає в наступному:
1.Вперше створено правила методології розробки множинно-семантичних моделей представлення мовлення та їх нормованого відображення в оцінки відповідних просторів. Це дозволяє розміщати їх характеристики в базі даних на логіко-формальному рівні, з кількісними характеристиками, що дає можливість відповідно до введеного ступеня визначати збіг мовлення.
2.Одержали подальший розвиток методи моделювання, за допомогою яких здійснюється перетворення мовлення. Це дає можливість конструювати комп'ютерні інтерфейси мовного спілкування з формальним представленням їхніх характеристик у вигляді моделей як параметричних структур, вихідними змінними яких є кількісні оцінки складових частин мовлення.
3.Удосконалена методологія синтезу інтелектуальних робототехнічних систем, що передбачає навчання системи спеціалізованому словнику команд -- це дає можливість розпізнавати мовні команди мобільного робота з малою помилкою й високою швидкістю.
4.Дістали подальшого розвитку засоби ідентифікації математичних моделей комп'ютерного перетворення мовлення, що покладені в основу систем розпізнавання мовних образів. Це дозволяє застосовувати їх при синтезі інтелектуальних систем керування різноманітного призначення.
Практичне значення отриманих результатів дисертаційного дослідження полягає в наступному:
1.Здійснено синтез структури апаратно-програмної частини підсистеми перетворення мовлення, для якої сформовані уніфіковані алгоритми параметричної ідентифікації мовлення, що дозволить конструювати аналогічні підсистеми як вхідну частину будь-якої інтелектуальної системи.
2.Виділено сукупність енергетичних ознак мовлення, що фіксуються підсистемою перетворення, яка дає можливість здійснювати навчання (настроювання) мовних комп'ютерних інтерфейсів на голосові особливості будь-якої людини-оператора.
3.Розроблено алгоритми інтелектуальних систем розпізнавання мовлення, що призначені для керування мобільним роботом. Це дозволило скоротити на 20% час реакції робота на подану команду щодо інтерактивної команди, що підтверджено актом упровадження.
4.Використання створених методологічних положень формалізації мовлення для будь-якої спеціалізованої задачі інтелектуального керування дозволяє синтезувати математичні моделі чисельної оцінки якісного розпізнавання звуків, слів, команд. Використання подібного роду моделей в інтерфейсах мовного спілкування з комп'ютером спрощує рішення задач програмування й керування.
5.Основні методологічні положення дослідження, розроблені на їхній основі математичні моделі й алгоритми системи розпізнавання мовлення використані в навчальному процесі при підготовці та проведенні занять з дисциплін “Інтелектуальні системи” й “Математичне моделювання” на кафедрі програмного забезпечення інтелектуальних систем Донецького державного інституту штучного інтелекту.
Особистий внесок здобувача. Усі результати дисертації отримані автором самостійно. Роботи [1-13] виконані персонально дисертантом. У спільних роботах дисертанту належить: [14] - опис системи розпізнавання мовлення; [15] - опис східчастого розпізнавання великих словників; [16] - опис методів сегментації мовлення; [17] - опис алгоритмів визначення початку та кінця мовлення; [18] - опис алгоритму виділення шуму з мовлення й захисту від стороннього мовлення; [19] - опис методики розпізнавання звуків мовлення й алгоритму розпізнавання ізольованих слів.
Апробація роботи. Основні результати дисертаційної роботи були повідомлені на:
XVIII Міжнародній конференції “Информационные технологии в науке, образовании, телекоммуникации, бизнесе”, Гурзуф, 2001;
Міжнародній науково-практичної конференції “Знание - Диалог - Решение”, Санкт-Петербург, 2001;
Міжнародній науковій конференції “Интеллектуальные и многопроцессорные системы - 2001”, Геленджик, 2001;
науковій молодіжній школі “Интеллектуальные робототехнические системы - 2001”, Геленджик, 2001;
ІІІ Всеукраїнської конференції молодих учених “Інформаційні технології в науці, освіті і техніці”, Черкаси, 2002;
Міжнародній науковій конференції “Интеллектуализация обработки информации”, Сімферополь, 2002;
Міжнародній науково-практичній конференції “Автоматизація виробничих процесів”, Хмельницький, 2002;
ІІІ Міжнародній науково-практичній конференції “Інтернет - Освіта -- Наука”, Вінниця, 2002;
Міжнародній дистанційній науково-практичній конференції “Автоматизированное Рабочее Место Врача 2002”, Дніпропетровськ, 2002;
конференції “Искусственный интеллект”, Кацивелі, 2002.
Публікації. Основні положення дисертації викладені в 19 друкованих працях, з них - 12 статей у фахових виданнях.
Структура й обсяг дисертаційної роботи. Дисертаційна робота складається зі вступу, чотирьох розділів, висновків, списку використаних джерел, доповнень. Повний обсяг роботи - 166 сторінок. Дисертація містить 9 рисунків й 2 таблиці на 8 сторінках, 2 доповнення на 25 сторінках, список використаних джерел з 120 найменувань на 12 сторінках.
ОСНОВНИЙ ЗМІСТ РОБОТИ
У вступі обґрунтована актуальність дисертаційної роботи, сформульована основна мета й задачі дослідження, приведені зведення про зв'язки обраного напрямку досліджень із планами організації, у якій виконана робота. Дано коротку анотацію отриманих у дисертації рішень, відзначена їхня практична цінність, відбиті перспективи використання результатів досліджень у народному господарстві.
У першому розділі проведено аналіз вітчизняної та зарубіжної літератури з питань, пов'язаних з темою дисертації. Розглянуті основні методи й принципи побудови існуючих систем розпізнавання мови як складових частин інтелектуальних систем, прикладом яких є інтелектуальний мобільний робот. Існуючі загальнометодологічні аспекти синтезу цих систем засновані на логіко-формальному апараті опису, алгебрі предикатів мовлення при високому рівні класифікації й групування граматик, але мають недостатній рівень конструктивізму. Алгоритми комп'ютерних інтерфейсів мовного розпізнавання спираються на приватні характеристики пристроїв і можливості сучасних комп'ютерів. Ці два аспекти визначили постановку задачі дослідження.
На основі проведеного аналізу сформульовані задачі й визначена структура дисертаційної роботи, що методологічно складається з трьох частин: формалізація мовлення на основі теорії множин і функціональному аналізі; розробка алгоритмів і математичних моделей перетворення мовлення, що базується на положеннях електроніки, радіотехніці та теорії керування; синтез алгоритмів системи розпізнавання мовлення, заснований на методах ідентифікації й теорії керування.
В другому розділі розроблено методологічні положення формального представлення мовлення. Вони містять у собі правила:
множинного представлення характеристик мовлення;
просторового представлення мовлення;
При множинному представленні характеристик мовлення формалізовані звуки, слова, частини речень і самі речення, із закріпленням елементів у логічному взаємозв'язку алгеброю предикатів.
Слова мовлення представлені як послідовність звуків (1) множиною (2)
, (1)
, , (2)
, де X=(x1,…,xn),,
де - максимальна довжина звукової транскрипції слова.
Частини речення можливо представити послідовністю слів (3)
,(3)
, де X=(x1,…,xn), ,
де - синтаксема без прийменника, - синтаксема з прийменником, - предикатив, - максимальна довжина частини речення. Речення можливо представити послідовністю частин (4)
, (4)
, де X=(x1,…,xn),,
де - максимальна довжина речення.
Щоб представити множинні характеристик мовлення у вигляді чисел, на підставі методології функціонального аналізу здійснюється їх метризация й нормування, через що вони представлені елементами відповідних просторів.
Звуки мовлення представляються у вигляді множини векторів ознак (5) з метрикою та нормою (6)
,(5)
де - максимальна довжина вектора ознак.
, . (6)
Слова мовлення через послідовність числових ідентифікаторів звуків мають вигляд множини (7) з метрикою та нормою (8)
, (7)
, . (8)
Частини речень через послідовність числових ідентифікаторів слів мають вигляд множини (9) з метрикою та нормою (10)
,, (9)
,
.(10)
Речення мовлення представлені множинами числових ідентифікаторів частин речень (11) для яких визначена метрика й норма (12)
, (11)
,
. (12)
Розроблені правила дозволяють формалізувати мовлення, тобто складають основу функціональної частини мовного інтерфейсу. Апаратно-програмний комплекс, призначений для перетворення мовного сигналу в сукупність його характеристик, розглядається в наступному розділі.
У третьому розділі розроблені математичні моделі комп'ютерного перетворення мовного сигналу технічними складовими системами розпізнавання мовлення. Мовний інтерфейс, призначений для спілкування людини з комп'ютером, технічно базується на пристроях перетворення аналогових сигналів електромагнітних коливань мікрофона в оцифрований сигнал, що повинен розпізнаватися комп'ютером. Схема, що представляє технічну складову апаратно-програмного комплексу перетворення мовлення, представлена на рис.1.
Відповідно до функціональних особливостей перетворення мовлення, в даному розділі розроблені математичні моделі аналогових перетворень мовлення, виділення особливостей оцифрованого сигналу, характеристик технічних пристроїв. При розробці математичної моделі перетворення аналогових сигналів враховано особливості посилення сигналу (13) й фільтрації (14), що здійснюються у відповідних блоках мікрофона.
, (13)
, (14)
де - коефіцієнт підсилення, - передатна функція фільтра.
Створення математичних моделей виділення особливостей оцифрованого сигналу відбиває специфіку звукової карти (рис.1). Методологічно правила функціонування складових звукової карти припускають виділення границь сигналу, визначення періоду основного тону, частотних і енергетичних складових сигналу. Основні перетворення спираються на класифікацію укрупнених груп звуків мовлення - це шумні шиплячі приголосні, шумні нешиплячі приголосні (чи паузи), тональні приголосні й голосні.
Структура виділення особливостей мовлення представлена блоком, вхідними змінними якого є звуковий сигнал x(n), що має довжину N і межі частотного діапазону ?1 і ?2, а як вихідні змінні - вектор ознак y цього сигналу, що містить довжину періоду основного тону , нормовану енергію низькочастотних складових сигналу AН, нормовану енергію високочастотних складових сигналу AВ, енергетичний спектр сигналу WНВ(k). У межах вищенаведеної класифікації розроблені математичні моделі, які призначені для виділення двох основних ознак: визначення основного тону; зіставлення енергетичних характеристик первинного та перетвореного сигналів.
Рис.1 Схема перетворення мовного сигналу
Розрахунки довжини періоду основного тону підкорюються функціональному виразу (15)
, (15)
, ,
де -- мінімальна довжина періоду основного тону,
-- максимальна довжина періоду основного тону.
Для коректного рішення задачі (15) перевіряється необхідне (16) і достатнє (17) умови існування екстремуму.
За допомогою градієнтного методу першого порядку в ітеративних процедурах алгоритму системи зважується задача (15), при цьому визначається мінімальне значення і значення , що доставляє мінімум цієї функції.
Модель розрахунку довжини періоду основного тону дозволяє виділити один аспект характеристик звуків. Другий аспект -- це співвідношення нормованих енергій для низькочастотних EН і високочастотних EВ складових (18) - (24).
, , (18)
XН(k) = X(k),; XВ(k) = X(k),; (19)
, ; (20)
XНВ(k) = X(k), при ;(21)
, (22)
, , ;(23)
, , (24)
де - мінімальна частота мовлення,
- максимальна частота мовлення, - частота зрізу.
На підставі емпіричних даних, що одержані під час настроювання (навчання), виділено граничні значення , , у співвідношенні нормованих енергій. Тоді розрахунки за цими типами моделей дозволяють здійснювати ідентифікацію чотирьох типів звуків, відповідно до сформованих правил:
якщо , то звук є шумним шиплячим;
якщо , то звук є шумним нешиплячим (паузою);
якщо , то звук є тональним приголосним;
якщо , то звук є голосним.
Створені математичні моделі перетворення мовного сигналу дають можливість обчислювати значення показників мовлення, що в сукупності з чисельним представленням особливостей мови дозволяє ставити й вирішувати задачі взаємного відображення мови та мовлення.
У четвертому розділі запропонована розробка алгоритмів і програм системи розпізнавання мовлення. Вона містить у собі синтез узагальненої структури розпізнавання, розробку методологічних положень і правил формування еталонів мовлення, ідентифікацію параметрів мовлення і аналіз функціонування підсистем, а також особливості програмної реалізації інтелектуальної системи розпізнавання команд мобільного робота. Відповідно до методології теорії систем керування створена узагальнена структура системи розпізнавання, що складається з трьох підсистем (рис.2).
Рис.2 Функціональна схема системи розпізнавання
У підсистемі ідентифікації параметрів мовлення здійснюється оцінювання звуків мовлення.
Функціональна підготовка здійснюється підсистемою формування еталонів мовлення. Ця підсистема призначена для персоніфікації програмного забезпечення системи щодо особливостей мови диктора й передбачає кратні режими формування еталонів (навчання) з видачею повідомлення про завершення процесу навчання.
Реалізація сукупності перших двох підсистем дозволяє функціонувати підсистемі розпізнавання мовлення, тобто визначає ступінь функціональної готовності технічних пристроїв і бази даних (БД) для розв'язку задач розпізнавання. У цій підсистемі задані ймовірності розпізнавання, при невиконанні яких система припиняє з режиму розпізнавання мовлення й вимагає адаптації -- додаткового навчання, тобто переключається до режиму функціонування підсистеми формування еталонів мовлення. Підсистема ідентифікації вмикається, припинаючи роботу двох інших підсистем, у тих випадках, коли адаптації підсистеми формування еталонів не дає задовільних результатів або здійснюється заміна комплексу технічних засобів і стандартного програмного забезпечення.
Відповідно до введеної в розділі 3 класифікації груп звуків мовлення в блоці 1 здійснюється виділення меж. Алгоритм виділення лівої межі представлений на рис.3, де AVG -- поточне середнє значення мовного сигналу, SM -- кількість строгих мінімумів мовного сигналу, 1, 2, 1, 2 - параметри мовлення, розрахунок яких здійснюється підсистемою ідентифікації.
Режим формування еталонів передбачає навчання системи й ідентифікацію звуків шляхом голосового введення тестових слів, що містять характерні звуки, які відповідають класифікації чотирьох типів.
Рис.3 Структура виділення лівої межі слів
У розділі наведені оцінки параметрів мови диктора, довжини періоду основного тону й помилки, що виникають при формуванні еталонів, методичні правила створення еталонів звуків і їхніх класів, слів, речень і їхніх частин з нормованим представленням щодо обмеженого набору команд робота. Крім того, виділено семантичний зміст множин слів команд робота й можливих речень. При ідентифікації мовлення розраховані значення параметрів звуків мовлення. Здійснено процедури настроювання цих параметрів на голосові особливості різних дикторів.
Функції підсистеми розпізнавання мовлення містять дві каскадні процедури: аналізу і розпізнавання. Процедури аналізу містять визначення чисельних характеристик звуків, слів, частин речень і команд. Процедури розпізнавання містять у собі зіставлення чисельних характеристик вимовлених команд із відповідними характеристиками еталонів, що сформовані в розділах БД під час навчання. Таким чином, при аналізі вимовленої команди йде конструювання команди знизу нагору. У свою чергу, каскади розпізнавання функціонують зверху вниз, тобто за звуковими конструкціями, які створені в результаті функціонування процедур аналізу, із заданим ступенем близькості визначається відповідність отриманих конструкцій еталонам, що розміщені в розділах БД. Обидві процедури складаються з чотирьох етапів.
Під час аналізу мови перший етап цього каскаду підлеглий виділенню лівої та правої межі нормованого слова команди. Потім здійснюється розбиття ізольованого слова на інтервали, що характеризують звуки. На кожнім інтервалі визначається чисельне значення відповідної ознаки звуку. На другому етапі з обчислених ознак звуків формуються ознаки слів. На третьому етапі з ознак слів формуються ознаки частин команди. На четвертому етапі з ознак частин речень конструюються речення (команди).
При розпізнаванні мовлення на першому етапі виробляється зіставлення чисельних характеристик ознак речень, що сконструйовані в результаті аналізу, з еталонами речень БД. Аналогічно на другому етапі здійснюється порівняння чисельних характеристик ознак частин речень з еталонами частин речень БД. На третьому етапі здійснюється зіставлення чисельних характеристик ознак слів з еталонами слів БД. На четвертому етапі здійснюється порівняння чисельних характеристик ознак звуків з еталонами звуків. Чисельні характеристики вимовлених команд наведені в табл.1.
Таблиця 1
Оцінки чисельних характеристик складових частин вимовлених команд
Межі слів |
Інтервали |
Ознака звуків |
Ознака слів (10-1) |
Ознака частин речень (10-2) |
Ознака речень (10-3) |
|
1 |
2 |
3 |
4 |
5 |
6 |
|
11500-18000 |
11500-13000 |
0.275 |
0.213 |
0.477 |
0.875 |
|
13000-16300 |
0.465 |
|||||
16300-18000 |
0.607 |
|||||
31000-40000 |
31000-34000 |
0.684 |
0.267 |
|||
34000-38000 |
0.368 |
|||||
38000-40000 |
0.459 |
|||||
117500-125700 |
117500-121500 |
0.465 |
0.302 |
0.517 |
||
121500-124000 |
0.345 |
|||||
124000-125700 |
0.445 |
|||||
139000-144500 |
139000-140000 |
0.368 |
0.285 |
|||
140000-142500 |
0.465 |
|||||
142500-144500 |
0.302 |
Експерименти щодо каскадних процедур аналізу й розпізнавання були проведені для 90 дикторів (по 15 дикторів кожної категорії) з фіксованою кратністю навчання та розпізнавання. Для цих експериментів здійснено аналіз розпізнавання команд, що подаються з відповідною кратністю й класифіковані щодо голосових характеристик дикторів.
Основні методологічні положення роботи реалізовано у вигляді апаратно-програмного комплексу, що апробований у мовному інтерфейсі інтелектуальної системи керування мобільним роботом. Практичним результатом є те, що керування голосом дозволило на 20% скоротити час реакції робота щодо інтерактивної команди.
ВИСНОВКИ
У дисертаційній роботі наведено теоретичне обґрунтування та нове вирішення наукової задачі, що полягає в створенні алгоритмів та програмно-апаратних засобів розпізнавання мовлення, які орієнтовані на застосування в різноманітних системах штучного інтелекту. Аналіз отриманих результатів дає підставу зробити такі висновки:
1. Проведений аналіз сучасних методів формалізації і розпізнавання мовлення визначив актуальність створення комп'ютерних інтерфейсів спілкування “людина - комп'ютер”, дозволив виділити особливості мовлення, визначити необхідність створення теоретичних засад опису цих особливостей, здійснити постановку задачі дослідження.
2.Вперше створено правила методології формування множинно-семантичних моделей представлення мовлення, що полягає в одержанні оцінок чисельного значення їх характеристик шляхом нормування. Це дозволяє здійснювати опис особливостей будь-якого мовлення для використання в інтелектуальних системах різноманітного призначення та дає можливість їх чисельного зіставлення.
3. Створено математичні моделі та алгоритми комп'ютерного перетворення мовлення у вигляді параметричних структур, для яких передбачається існування адаптивних алгоритмів ідентифікації, що дозволяє використовувати ці алгоритми в будь-яких системах спілкування “людина - комп'ютер” вголос.
4.Дістала подальшого розвитку методологія синтезу алгоритмів систем розпізнавання мовлення як параметричних структур для використання в апаратно-програмних комплексах інтелектуальних систем різноманітного призначення, які розглядаються як системи з ідентифікатором в контурі керування. Це дає можливість здійснювати гнучке конструювання апаратно-програмних комплексів спілкування “людина-комп'ютер” з адаптацією параметрів під конкретні задачі та конкретного оператора системи, що здійснює діалог.
5.Дістали подальшого розвитку теоретичні засади ідентифікації мовлення, що базуються на еталонах характеристик спеціалізованої мови команд, які сформовані за сукупностями енергетичних ознак мовлення, що фіксовані системою перетворення. Здійснено апробацію процедур ідентифікації завдяки представницької вибірки, що містить 90 дикторів, які мають різні особливості голосового тембру.
6.Адекватність створених моделей та алгоритмів перевірено через незалежну статистичну вибірку
7. Створені за теоретичними висновками роботи алгоритми мовного спілкування людини с мобільним роботом дозволили на 20% скоротити час реакції робота на подану команду щодо інтерактивної команди.
СПИСОК ОПУБЛІКОВАНИХ АВТОРОМ ПРАЦЬ ЗА ТЕМОЮ ДИСЕРТАЦІЇ
1.Федоров Е.Е. Разработка каскадной процедуры распознавания речи // Искусственный интеллект. - 2003. - №1. - С. 289-294.
2.Федоров Е.Е. Построение дерева синтаксического подчинения и базы знаний для корректировки результатов распознавания речи // Праці ІІІ Всеукраїнської конф. молодих науковців “Інформаційні технології в науці, освіті і техніці”. - Черкаси. - 2002. - С. 265-267.
3.Федоров Е.Е. Построение интеллектуальной системы распозна-вания с семантическим анализатором // Искусственный интеллект. - 2001. - №2. - С. 74-79.
4.Федоров Е.Е. Разработка причастных и деепричастных оборотов для алгоритма синтаксического анализа предложения // Искусственный интеллект. - 2002. - №4. - С. 289-294.
5.Федоров Е.Е. Алгоритм построения дерева синтаксического подчинения // Праці ІІІ Міжнар. науково-практичної конф. “Інтернет - Освіта - Наука”. - Вінниця. - 2002. - С. 250-260.
6.Федоров Е. Е. Построение транслятора для поставленного голосом задания // Искусственный интеллект. - 2001. - №4. - С. 54-60.
7.Федоров Е.Е. Диалоговая система речевого управления мобиль-ным роботом с семантическим анализатором // Искусственный интеллект. - 2001. - №3. - С.501-509.
8.Федоров Е.Е. Создание базы маршрутов движения мобильного робота и ее анализатора // Вісник Технологічного університету Поділля. - 2002. - № 3. - С.116-118.
9.Федоров Е.Е. Создание математической модели транслятора для системы управления роботом // Искусственный интеллект. - 2002. - №2. - С. 329-333.
10.Федоров Е. Е. Применение семантического анализа к речевому управлению мобильным роботом // Труды Междунар. научно-практической конф. “Знание - Диалог - Решение” (KDS-2001). - Т. 2. - Санкт-Петербург. - 2001. - С. 603-607.
11.Федоров Е.Е. Создание бесконфликтной системы управления устройством ввода-вывода звука // АСУ и приборы автоматики. - 2002. - №119. - С. 89-93.
12.Федоров Е.Е. Распределение ресурсов и обмен данными для системы речевого управления мобильным роботом // Искусственный интеллект. - 2002. - №1. - С. 250-255.
13.Федоров Е. Е. Система голосового управления // Труды конференции “Информационные технологии в науке, образовании, телекоммуникации, бизнесе”. - Запорожье. - 2001. - С. 104-106.
14.Грабовая В.А., Федоров Е.Е., Шелепов В.Ю. О системе компьютерного распознавания русской речи c автоматическим построением эталонов // Искусственный интеллект. - 2000. - №1. - С. 76-81.
15.Дорохин О.А., Федоров Е.Е., Шелепов В.Ю. Некоторые подходы к пофонемному распознаванию русской речи и распознаванию больших словарей // Искусственный интеллект. - 1999. - №2. - С. 329-333.
16.Дорохин О.А., Старушко Д.Г., Федоров Е.Е., Шелепов В.Ю. Сегментация речевого сигнала // Искусственный интеллект. - 2000. - №3. - С. 450-458.
17.Федоров Е.Е., Шелепов В.Ю. Автоматическое определение начала и конца записи речи // Искусственный интеллект. - 2002. - №4. - С. 295-298.
18.Федоров Е.Е., Шелепов В.Ю. Защита речевых распознавателей от шума и посторонней речи // Искусственный интеллект. - 2001. - №3. - С. 584-587.
19.Шевченко А.И., Федоров Е.Е. Разработка естественно-языкового интерфейса интеллектуальной медицинской системы // Труды Междунар. дистанционной научно-практической конф. “Автоматизированное Рабочее Место Врача 2002”. - Днепропетровск, 2002. - С. 327-330.
АНОТАЦІЇ
Федоров Е.Е. Розроблення алгоритмів та програмно-апаратних засобів систем розпізнавання мовних образів. Рукопис. Дисертація на здобуття наукового ступеня кандидата технічних наук за фахом 05.13.23 - системи та засоби штучного інтелекту. - Донецький інститут проблем штучного інтелекту, Донецьк, 2003.
Дисертаційна робота присвячена методологічним аспектам і практичній реалізації апаратно-програмних комплексів розпізнавання мовлення - інтерфейсу спілкування “людина-комп'ютер”, що є однією з найактуальніших задач, які характеризують сучасні тенденції створення інтелектуальних систем керування й алгоритмів робототехнічних комплексів та вхідних блоків комп'ютерів п'ятого покоління. У дисертаційній роботі виконано: перетворення множин якісних ознак особливостей мовлення в нормовані й метричні простори для одержання кількісних характеристик; розробка математичних моделей комп'ютерного перетворення мовлення; здійснено синтез структури системи розпізнавання мовлення, представленої трьома складовими - ідентифікації параметрів мовлення, формування еталонів, розпізнавання команд. Методологічні прийоми та правила, наведені в роботі, можуть бути використані при створенні апаратно-програмних комплексів мовних інтерфейсів інтелектуальних систем різноманітного призначення.
Ключові слова: моделі, алгоритми, ідентифікація, характеристики, інтелектуальні системи, інтерфейси, оцінки, розпізнавання мовлення.
Федоров Е.Е. Разработка алгоритмов и программно-аппаратных средств систем распознавания речевых образов. Рукопись. Диссертация на соискание ученой степени кандидата технических наук по специальности 05.13.23 - “Системы и средства искусственного интеллекта”. - Донецкий институт проблем искусственного интеллекта, г. Донецк, 2003.
Диссертационная работа посвящена методологическим аспектам и практической реализации аппаратно-программных комплексов распознавания речи - интерфейса общения “человек-компьютер”, что актуально для задач, характеризующих современные тенденции создания интеллектуальных систем управления, алгоритмов робототехнических комплексов, входных блоков современных компьютеров. По результатам анализа выделены особенности, характеризующие технические и программные средства преобразования речи. Определены их достоинства и недостатки, основные показатели, определившие постановку задачи исследования.
Согласно современным тенденциям, выделены фонетические и фонологические особенности речи, из которых сформированы соответствующие множества и классы признаков. Основываясь на методах функционального анализа, эти множества преобразованы в нормированные и метрические евклидовы пространства, что позволило получить численные характеристики особенностей речи от звукового строя до предложений включительно. Осуществлено формальное представление технических устройств аппаратной части, преобразующей речевые сигналы, в виде математических моделей. Созданы математические модели устройств преобразования аналоговых и цифровых сигналов, позволяющие выделять особенности речи с помощью частотных и энергетических показателей. Эти модели представлены параметрическими структурами, которые могут быть использованы в любой интеллектуальной системе. Выходные переменные представляют собой инструментально ощутимые характеристики слов, звуков, предложений, таких как уровень ослабления энергии, характерный для каждого типа классифицированных звуков, длина периода основного тона, частотные интервалы слов и звуков. Синтезирована структура системы распознавания речи, представленная тремя подсистемами - идентификации параметров речи, формирования эталонов, распознавания речи. Приведен численный расчет параметров речи первой подсистемы, рассчитаны характеристики составных частей речи - звуков, слов, частей предложений и предложений, усредненные при кратных режимах обучения и формирования эталонов. Проведен анализ разброса этих характеристик для представительной выборки дикторов (мужчин и женщин) с различными голосовыми диапазонами. Осуществлено оценивание вероятности ошибки при распознавании различного рода команд, которое в наихудшем варианте не превышает 5%. При общности методических положений, обуславливающих правила систем распознавания, алгоритм системы предусматривает специализированный режим обучения, ориентированный на конкретного оператора и соответствующую предметную область. Алгоритм программно реализован, режимы обучения и распознавания апробированы для представительной выборки дикторов-операторов на специализированной системе команд управления мобильным роботом. Результаты апробирования показали, что время реакции в среднем сократилось на 20% относительно команд, вводимых интерактивно. Методологические приемы и правила, созданные в работе, могут быть использованы при создании аппаратно-программных комплексов речевых интерфейсов интеллектуальных систем различного назначения.
Ключевые слова: модели, алгоритмы, идентификация, характеристики, интеллектуальные системы, интерфейсы, оценки, распознавание речи.
Fedorov U.U. Development of algorithms and hardware-software means of systems of speech images recognition. Manuscript. Thesis for a candidate's degree of technical sciences on speciality 05.13.23 - the Artificial Intelligence Systems and Means. - Donetsk Institute Problem of Artificial Intelligence, Donetsk, 2003.
The dissertation is devoted to methodological aspects and practical realization of hardware-software complexes of speech recognition - interface of dialogue “person - computer”, which is one from most urgent problems describing modern line of creation of intellectual control systems, algorithms of robotic complexes, entry blocks of computers. The developed dissertation presents: transformation of sets of qualitative indications of singularities of the speech in the normalized and metric spaces for obtaining the quantitative characteristics; development of mathematical models of computer transformation speech signals; synthesis of a structure of systems of speech recognition shown by three subsystems - to identification of speech parameters, formation of the measurement standards, speech recognition. The methodological methods and rules can be used at creation of hardware-software complexes of speech interfaces of intellectual systems of various assigning.
Keywords: models, algorithms, identification, characteristics, intellectual systems, interfaces, evaluations, speech recognition.
Размещено на Allbest.ru
...Подобные документы
Ознайомлення із загальною структурою системи автоматичного розпізнавання мовлення. Визначення особливостей нейронних мереж. Дослідження та характеристика процесу побудови системи розпізнавання мовлення. Вивчення специфіки прихованої моделі Маркова.
дипломная работа [1,1 M], добавлен 25.07.2022Алгоритм оптичного розпізнавання образів. Універсальність таких алгоритмів. Технологічність, зручність у процесі використання програми. Два класи алгоритмів розпізнавання друкованих символів: шрифтовий та безшрифтовий. технологія підготовки бази даних.
реферат [24,5 K], добавлен 19.11.2008Комп’ютерне моделювання системи сегментації та розпізнавання облич на зображеннях. Підвищення швидкодії моделювання за кольором шкіри та покращення якості розпізнавання при застосуванні робастних boosting-методів. Розробка алгоритмів функціонування.
дипломная работа [1,6 M], добавлен 02.07.2014Історія досліджень, пов’язаних з розпізнаванням образів, його практичне використання. Методи розпізнавання образів: метод перебору, глибокий аналіз характеристик образу, використання штучних нейронних мереж. Характерні риси й типи завдань розпізнавання.
реферат [61,7 K], добавлен 23.12.2013Розробка, дослідження та реалізація методів вирішення завдань аналізу, розпізнавання і оцінювання зображень як один із провідних напрямків інформатики. Класифікація та аналіз існуючих методів розпізнавання образів, переваги та недоліки їх застосування.
статья [525,8 K], добавлен 19.09.2017Огляд інтелектуальних принципів організації процесу розпізнавання символів. Розробка системи безклавіатурного введення документів у комп’ютер. Опис і обґрунтування проектних рішень; розрахунки і експериментальні дані; впровадження системи в експлуатацію.
дипломная работа [182,5 K], добавлен 07.05.2012Огляд методів розпізнавання образів. Основні ідеї інформаційно-екстремального методу розпізнавання рукописних символів. Критерій оптимізації параметрів функціонування даної системи. Інформаційне та програмне забезпечення обробки рукописних символів.
дипломная работа [291,0 K], добавлен 14.10.2010Розробка методів вирішення завдань аналізу, розпізнавання, оцінювання зображень як одних з провідних напрямків інформатики. Описання методу пошуку співпадіння об’єкту-цілі з міткою-прицілом на заданому відеоряді. Виявлення об’єкта на цифровому зображенні.
статья [138,7 K], добавлен 21.09.2017Спосіб завдання алгоритмів функціонування автоматів циклічної дії у вигляді циклограм. Розробка абстрактної моделі паралельного логічного контролера, структурної схеми. HDL-модель і комп’ютерне моделювання паралельного логічного контролера циклічної дії.
курсовая работа [190,0 K], добавлен 24.06.2011Актуальність сучасної системи оптичного розпізнавання символів. Призначення даних систем для автоматичного введення друкованих документів в комп'ютер. Послідовність стадій процесу введення документу в комп'ютер. Нові можливості програми FineReader 5.0.
курсовая работа [4,5 M], добавлен 29.09.2010Специфіка застосування нейронних мереж. Огляд програмних засобів, що використовують нейронні мережі. Побудова загальної моделі згорткової нейронної мережі. Реалізація нейромережного модулю розпізнавання символів на прикладі номерних знаків автомобілів.
дипломная работа [3,4 M], добавлен 15.03.2022Сегментація і нормалізація зображень. Основні функціональні можливості та режими роботи комплексу розпізнавання письмового тексту. Розробка комплексу оптичного розпізнавання символів. Шрифтові та безшрифтові алгоритми розпізнавання друкованого тексту.
курсовая работа [1,7 M], добавлен 19.05.2014Елементи прихованої марківської моделі. Матриця ймовірностей переходів (або матриця переходів). Розподіл ймовірностей початкового стану. Розпізнавання мовлення із великих словників для ізольовано вимовлених слів. Попередня обробка мовного сигналу.
курсовая работа [175,1 K], добавлен 13.04.2009Побудова блок-схем алгоритмів програм. Створення блок схем алгоритмів за допомогою FCEditor. Експорт блок-схеми в графічний файл. Огляд програмних та апаратних засобів. Мови програмування високого рівня. Цикли та умовний оператор IF з лічильником.
дипломная работа [1,4 M], добавлен 15.12.2013Системи розпізнавання обличчя. Призначення та область застосування програми "Пошук обличчя люди у відеопотоках стандарту MPEG-4". Штучна нейронна мережа, локалізація та розпізнавання обличчя. Методи, засновані на геометричних характеристиках обличчя.
курсовая работа [1,8 M], добавлен 27.03.2010Структура сучасних систем виявлення вторгнень (СВВ), аналіз її методів і моделей. Характеристика основних напрямків розпізнавання порушень безпеки захищених систем в сучасних СВВ. Перелік недоліків існуючих СВВ та обґрунтування напрямків їх вдосконалення.
реферат [467,9 K], добавлен 12.03.2010Ортогонaлізування функцій. Порівняння дискретного та хвильового перетворення. Інтерполяційні поліноми Лагранжа і Ньютона. Метод найменших квадратів. Побудова кривої для заданих результатів вимірювань. Розв’язання задачі по Лапласу операційним методом.
курсовая работа [2,2 M], добавлен 10.04.2012Принципи побудови та функціонування алгоритмів розпізнавання та виправлення помилок в кодових послідовностях. Переклад символів імені у послідовність цифр 16-річної системи числення. Заміна на протилежне значення біту і можливість його виправлення.
курсовая работа [660,0 K], добавлен 02.10.2010Класифікація програмного забезпечення, системне та прикладне забезпечення, інструментальні системи. Програмна складова комп'ютерної системи, опис алгоритмів розв'язання певної задачі. Класифікація операційних систем, основні групи прикладних програм.
презентация [945,0 K], добавлен 01.04.2013Загальні відомості про обчислювальний кластер. Розробка імітаційної схеми кластера, моделі обчислювальної системи, керуючої системи, обчислювального завантаження потоком задач. Схема роботи алгоритмів планування. Результати експериментального дослідження.
курсовая работа [2,0 M], добавлен 06.09.2011