Методи і алгоритми опрацювання і компресії мовних сигналів та їх реалізація в комп'ютерних системах
Порівняльна характеристика відомих методів компресії та розпізнаванн мовних сигналів. Створення нових методів розпізнавання мовних сигналів на основі пакетних вейвлет алгоритмів. Алгоритм нелінійної часової нормалізації, що враховує коартикулації мови.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | автореферат |
Язык | украинский |
Дата добавления | 25.08.2014 |
Размер файла | 59,2 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Національний університет "Львівська політехніка"
УДК 621.391. 004.934
Методи і алгоритми опрацювання і компресії мовних сигналів та їх реалізація в комп'ютерних системах
05.13.13 - Обчислювальні машини, системи та мережі
Автореферат
дисертації на здобуття наукового ступеня кандидата технічних наук
Фаді Талал Ахмед Аль-Келані
Львів 2006
Дисертацією є рукопис.
Робота виконана у Національному університеті "Львівська політехніка" Міністерства освіти і науки України
Науковий керівник - доктор технічних наук, професор Лобур Михайло Васильович, Національний університет "Львівська політехніка", завідувач кафедри “Системи автоматизованого проектування”
Офіційні опоненти - доктор технічних наук, професор Черкаський Микола В'ячеславович, Національний університет "Львівська політехніка", професор кафедри електронних обчислювальних машин
кандидат технічних наук, доцент Яцків Василь Васильович, Тернопільський державний економічний університет, доцент кафедри спеціалізованих комп'ютерних систем
Провідна установа - Харківський національний університет радіоелектроніки, кафедра автоматизованого проектування обчислювальної техніки, м. Харків.
Захист відбудеться 10 березня 2006 р. о 14 год. на засіданні спеціалізованої вченої ради Д 35.052.05 у Національному університеті "Львівська політехніка" (79013, м. Львів-13, вул. С. Бандери,12).
З дисертацією можна ознайомитися у бібліотеці Національного університету "Львівська політехніка" (79013, Львів, вул. Професорська,1)
Автореферат розісланий 09 лютого 2006 р.
Вчений секретар спеціалізованої вченої ради, д.т.н., проф. Бунь Р. А.
компресія розпізнавання мовний вейвлет
ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ
Актуальність роботи. Останнім часом спостерігається підвищений інтерес до розвитку обчислювальної техніки, комп'ютерних та телекомунікаційних мереж. Це в свою чергу привело до створення великих інформаційних ресурсів, які зберігаються, оброблюються та передаються. Тому при розгляді цих питань особливого значення набули задачі захисту інформації. Ці задачі вирішуються за допомогою криптографічних перетворень інформації, а на деякому етапі розвитку наукових досліджень - на основі знань про біометричні особливості голосу людини, її підпису, райдужної оболонки ока, або інших біометричних параметрів.
На сьогодні розроблено велику кількість методів і систем, які використовують біометричні особливості для надійного захисту швидкозмінних інформаційних потоків. Сюди входить розробка ефективних методів компресії та розпізнавання мовних сигналів.
Більшість відомих алгоритмів визначення особливостей біометричних параметрів базуються на використанні методів, які не досить точно дозволяють описати характерні зміни сигналу (перепади, піки), тим самим отримані дані містять лише загальну інформацію про сигнал, якої як правило буває недостатньо для проведення ефективного розпізнавання. Крім того вони погано адаптуються до аналізу мовних сигналів внаслідок їх широкої різноманітності.
Тому виникає необхідність в розробці нових методів надійного розпізнавання на основі використання пакетного вейвлет аналізу та методів компресії мовних сигналів з використанням перетворення Карунена-Лоєва для створення біометричних систем захисту інформаційних потоків в реальному масштабі часу.
Зв'язок роботи з науковими програмами, планами та темами. Дисертаційна робота виконана відповідно до плану науково-дослідних робіт кафедри “Системи автоматизованого проектування” Національного університету “Львівська політехніка” в рамках Міжнародного Європейського проекту REASON REsearch and Training Action for System On Chip DesigN (#IST-2000-30193), виконавцями якого є науковий колектив кафедри.
Мета і задачі досліджень. Метою роботи є розробка та дослідження алгоритмів формування ознак розпізнавання мовних сигналів на основі використання пакетних вейвлет алгоритмів, дослідження та оптимізація алгоритмів компресії мовних сигналів.
У відповідності з поставленою метою дисертаційна робота включає розв'язання таких задач:
аналіз та порівняльна характеристика відомих методів компресії мовних сигналів;
аналіз та порівняльна характеристика відомих методів розпізнавання мовних сигналів;
розробка ефективних методів і алгоритмів визначення ознак розпізнавання мовних сигналів;
розробка обґрунтованих рекомендацій по використанню алгоритмів компресії мовних сигналів;
проведення експериментальних досліджень та порівняння запропонованих методів визначення ознак розпізнавання мовних сигналів.
Об'єкт дослідження: мовні сигнали.
Предмет дослідження: алгоритми розпізнавання та компресії мовних сигналів.
Методи дослідження. Рішення поставлених задач здійснено на основі положень і методів теорії ймовірності і математичної статистики, чисельного аналізу і комп'ютерного моделювання.
Наукова новизна одержаних результатів. На основі теоретичних та експериментальних досліджень, проведених у дисертаційній роботі:
Запропоновано та опрацьовано новий, структурно адаптивний алгоритм визначення ознак розпізнавання мовних сигналів, який базується на використанні пакетного вейвлет-аналізу, основною перевагою якого, на відміну від відомих методів, є можливість адаптування до характерних особливостей мовних сигналів, що призводить до покращення інформативності отриманих ознак і підвищення ефективності розпізнавання всієї системи.
Розроблено алгоритм нелінійної часової нормалізації, який на відміну від відомих алгоритмів враховує явище коартикуляції. Запропоновано спосіб рангування.
Оцінено алгоритми компресії мовних сигналів, які базуються на використанні ортогональних перетворень. Показано, що найбільш ефективним є використання перетворення Карунена-Лоєва.
Дослідженні питання реалізації розроблених алгоритмів в обчислювальних системах.
Практичне значення одержаних результатів.
Запропонований метод визначення ознак розпізнавання мовних сигналів збільшує ймовірність правильного розпізнавання в біометричних системах ідентифікації.
Сформульовані рекомендації практичного використання розроблених методів формування інформативних ознак дали можливість реалізації ефективних систем розпізнавання і компресії мовних сигналів.
Запропоновано і обґрунтовано рекомендації по оптимальному вибору алгоритмів компресії мовних сигналів, які зменшують об'єм інформації, необхідної для зберігання даних про класи розпізнавання.
Особистий внесок здобувача. Основні результати та положення, які становлять суть дисертації, отримані автором самостійно. У публікаціях, здобувачеві належать: в [1,2] - досліджено особливості компресії мовних сигналів з використанням ортогональних перетворень, визначено завадостійкість ортогональних перетворень для різних коефіцієнтів стиску мовних сигналів; [3] - обґрунтовано критерії оцінок якості компресії; [4] - новий метод визначення ознак розпізнавання на основі використання пакетного вейвлет-перетворення.
Апробація результатів дисертації. Основні результати дисертаційної роботи доповідалися і обговорювалися на наступних міжнародних конференціях і симпозіумах: Міжнародній конференції “Сучасні проблемі радіоелектроніки, телекомунікацій, комп'ютерної інженерії” (м. Львів-Славсько, 2004); 8-ій Міжнародній науково-технічній конференції “Досвід розробки і застосування приладо-технологічних САПР в мікроелектроніці” (м. Львів-Поляна, 2005); 1-ій Міжнародній конференції молодих вчених “Перспективні технології і методи проектування МЕМС” (м. Львів-Поляна, 2005).
Публікації. Основні результати дисертаційної роботи опубліковано в 7 наукових працях, серед яких 4 статті в наукових фахових виданнях, і 3 публікації в матеріалах конференцій.
Структура та обсяг роботи. Дисертаційна робота складається з вступу, чотирьох розділів, висновків та додатку. Загальний обсяг роботи складає 163 сторінки друкованого тексту, з них 121 сторінка основного тексту, 58 рисунків, 3 таблиці та список використаної літератури з 100 найменувань.
ОСНОВНИЙ ЗМІСТ РОБОТИ
У вступі наведено загальну характеристику роботи, обґрунтовано її актуальність, сформульовано мету та основні задачі досліджень, наукову новизну роботи і практичну цінність отриманих результатів. Наведено дані про впровадження результатів роботи, особистий внесок автора та публікації.
У першому розділі зроблений огляд та порівняльний аналіз методів компресії та розпізнавання мовних сигналів. Визначено основні проблеми, які виникають при реалізації таких методів. Зроблений аналіз дозволив визначити для відомих методів розпізнавання та компресії мовних сигналів ступінь їх адекватності фізичним процесам. Встановлено, що точність системи розпізнавання в основному визначається інформативністю ознак, за допомогою яких проводиться розпізнавання.
Результат здійсненого аналізу існуючих методів розпізнавання свідчить, що всі вони базуються на використанні “жорстких” алгоритмів, які погано адаптуються до характерних особливостей мовних сигналів, тим самим погіршуючи ефективність роботи всієї системи розпізнавання.
Обґрунтовано необхідність створення алгоритмів визначення ознак розпізнавання з використанням пакетного вейвлет-аналізу, як один з перспективних напрямків створення ефективних методів та принципів побудови систем розпізнавання мовних сигналів.
У другому розділі проведено аналіз методів компресії мовних сигналів з використанням ортогональних перетворень при повному виключенні мінімальних коефіцієнтів розкладу, визначено максимально можливий степінь компресії.
Заслуговують уваги методи компресії, де проводиться ортогональне перетворення сегмента сигналу з подальшим виключенням сукупності найменших за модулем коефіцієнтів розкладу, незалежно від того, в якому порядку вони розташовані. Через це додатково потрібна передача інформації про розташування коефіцієнтів. В найпростішому випадку передача цієї інформації відбувається бітовою послідовністю і для кожного коефіцієнта розкладу виділяється лише один біт. Тому загальна кількість біт додаткової інформації рівна розміру вікна перетворення, а коефіцієнт компресії К обчислюється за формулою:
де В - кількість біт, виділених на кожен коефіцієнт; N - кількість вибірок в сегменті обробки; U - кількість переданих коефіцієнтів розкладу.
В результаті утворюються два інформаційних потоки: перший відповідає потоку інформації про коефіцієнти розкладу, а другий - передає інформацію про розміщення цих коефіцієнтів.
Результати математичного моделювання системи компресії і декомпресії мовного сигналу за допомогою програми в середовищі Matlab дозволили представити графіки залежності відношення сигнал/спотворення (с/сп.) від коефіцієнта компресії для сегментів перетворення 64, 128, 256 вибірок.
Порівнявши наведені результати, можна зробити висновок, що при двократному збільшенні розміру сегмента перетворення, наприклад з 64 до 128 вибірок, вдається досягти лише незначного збільшення якості компресії (в найкращому випадку 4 дБ), а в деяких випадках і погіршення якості.
Форма графіків для усіх досліджених перетворень є подібною. Досить позитивною властивістю є зменшення крутизни спаду с/сп при збільшенні величини коефіцієнта компресії. Тому навіть незначне покращення базису ортогональних функцій приведе до підняття всієї залежності і як наслідок - до відчутного збільшення можливого коефіцієнта компресії.
Порівняємо допустимий коефіцієнт компресії для ортогональних перетворень, зафіксувавши відношення с/сп на рівні 30 дБ. Якщо при обчисленні неможливо точно виставити 30 дБ, то усуненням коефіцієнтів розкладу визначення коефіцієнта компресії проведемо за допомогою лінійної інтерполяції між двома сусідніми значеннями. Результати обчислень для різних вибірок представлено в таблиці.
Таблиця Допустимі коефіцієнти компресії для досліджених ортогональних перетворень при вікні перетворення (64, 128, 256) вибірки
Вибірка |
Тип перетворення |
||||||||||
Кар.-Лоєва г=0.1 |
Кар.-Лоєва г=0.4 |
Кар.-Лоєва г=0.9 |
Фур'е |
Синусне |
Адамара |
Непарне симетричне косинусне |
Нахилене |
Парне симетричне косинусне |
Кар.-Лоєва для мовного сигналу |
||
64 |
3,227 |
3,232 |
3,252 |
2,788 |
3,439 |
2,353 |
3,469 |
2,752 |
3,217 |
3,332 |
|
128 |
3,43 |
3,445 |
3,432 |
2,937 |
3,439 |
2,377 |
3,469 |
2,773 |
3,429 |
3,501 |
|
256 |
3,523 |
3,492 |
3,485 |
3,057 |
3,612 |
3,106 |
3,52 |
2,671 |
3,571 |
3,553 |
При суб'єктивному порівнянні якості передачі мовного сигналу (на слух) спотворення, при використанні перетворень Адамара і нахиленого, мають вигляд широкосмугового шуму, що пояснюється їх специфічною структурою (Адамара - дворівневі цифрові функції, нахилене - функції трикутноподібної форми). При використанні більш гармонічних перетворень - синусного, косинусних і Карунена-Лоєва, сигнал стає неприродно "металічним" і при сильному збільшенні коефіцієнта компресії неприродність посилюється та доходить до повної втрати чіткості сприйняття деяких фрагментів звуків фрази. При збільшені розміру вікна перетворення спотворення стають більш протяжними і захоплюють декілька звуків, але їх рівень не зменшується і чіткість мови в загальному не покращується.
Досліджено, що сприйняття людиною цих спотворень залежить від кінцевої ланки системи, а саме - від перетворювача сигнал-звук, оскільки при якісному перетворювачі разом з якісним звуком чітко прослуховуються спотворення. Для телефонії використовуються в основному прості мембранні перетворювачі, через що є низька якість відтворення мови і на фоні цього суб'єктивний рівень спотворень суттєво зменшується.
В третьому розділі запропоновано і обґрунтовано метод визначення ознак розпізнавання мовних сигналів та алгоритм нелінійної часової нормалізації. Виходячи з високої ефективності апарату пакетного вейвлет аналізу, зроблено висновок про можливість його ефективного застосування для визначення ознак розпізнавання мовних сигналів. В пакетному алгоритмі швидкісне вейвлет-перетворення (ШВП), як операція послідовного частотного розщеплення, застосовується як для низькочастотних, так і для високочастотних (деталізуючих) коефіцієнтів. При такому розкладі вейвлети кожного наступного рівня утворюються з вейвлетa попереднього рівня розділенням на два нових вейвлети:
;
де ,- відповідні вагові коефіцієнти; t - час.
Нові вейвлети також локалізовані, але на двічі ширшому інтервалі. Відповідно, повний набір вейвлетних функцій розкладу називають вейвлет-пакетом.
Пакетне вейвлет-перетворення є адаптивним, тобто дозволяє більш точно пристосовуватися до особливостей сигналів шляхом вибору відповідного дерева оптимальної форми розкладу, що забезпечує мінімальну кількість вейвлет-коефіцієнтів при заданій точності реконструкції сигналу, тим самим виключаючи інформаційно надлишкові та непотрібні деталі сигналів.
Оцінка інформативності сукупності вейвлет-коефіцієнтів здійснюється по ентропії, під якою як правило розуміють величину:
,
де - відповідно, розклади сигналу в вузлі n і попередньому.
Будь-яке усереднення коефіцієнтів збільшує ентропію. При аналізі дерева обчислюється ентропія вузлів і його розділених частин. Якщо при розділенні вузла ентропія не зменшується, то подальший розклад цього вузла не має змісту (такий вузол називається термінальним).
Пошук оптимальних термінальних вузлів для формування класу розпізнавання можна розділити на наступні кроки. Перший крок полягає у визначенні переліку всіх термінальних вузлів, що містяться в оптимізованих вейвлет-деревах кожного з образів відповідного класу розпізнавання. Другий крок - порівняння термінальних вузлів однакових номерів для різних образів заданого класу. В ролі критерію порівняння використано швидкість зміни кількості переходів через нуль. Слід відмітити випадок, коли номери термінальних вузлів для різних образів одного класу не співпадають. В такому випадку проводиться порівняння термінального вузла з вузлами, які не є термінальними і містяться в інших образах того ж класу, але номери яких дорівнюють номерам термінальних вузлів.
Третій крок - визначення номеру вузла з заданого переліку (може бути як термінальним, так і не термінальним), який представляє заданий образ в класі. Критерієм вибору є максимальне співпадання значення функції зміни швидкості переходів через нуль з такими ж функціями, отриманими для інших образів.
Далі над отриманою функцією здійснюється операція стиску динамічного діапазону, в ролі якої може бути використана нелінійна операція логарифмування.
Для отримання коефіцієнтів розпізнавання використовується операція кепстрального аналізу
,
де m - кількість коефіцієнтів розкладу, S(n) - амплітудний спектр сигналу, N - вибірка.
Для проведення тимчасової нормалізації знаходиться деформуюча функція, використання якої мінімізує розбіжність між еталонною і новою реалізаціями слів. Точніше знаходяться дві функції:
,
такі, що
,
, ,
, ,
і, крім того, мінімальна. Тут
,
де - значення сегментуючої функції з відповідних контурів.
Сегментуюча функція повинна характеризувати сумарну зміну параметрів мовного сигналу, що використовуються нею, і залежить вона від двох кадрів: поточного і попереднього. В ролі параметрів мовного сигналу використано розподіл енергії сигналу по частотних групах.
Процедура знаходження деформуючих функцій тареалізується методом динамічного програмування і дає можливість провести внутрішнє нелінійне вирівнювання реалізацій слів за часом.
Знаючи деформуючі функції можемо для будь-якої ділянки еталонної реалізації слова знайти відповідну йому ділянку нової реалізації. Застосуємо це для розділення нової реалізації слова на звукові діади. Звукова діада - це перехідний процес від фонеми до фонеми, що відображає перебудову апарату артикуляції. На відміну від реалізацій фонеми, реалізації звукової діади значно менше схильні до впливу контексту і відображають взаємозв'язок сусідніх фонем мовного потоку. Межами діад є центри квазістаціонарних ділянок фонем. Таким чином, діада складається з другої половини першої фонеми і першої половини другої фонеми.
Еталонна реалізація слова ділиться на звукові діади вручну: наголошуються номери кадрів, що є центрами квазістаціонарних ділянок фонем. Потім вибираються точки , такі, що . Тепер за допомогою функції можна визначити номери кадрів, що є центрами квазістаціонарних ділянок фонем в новій реалізації слова: .
Приведена процедура дозволяє перейти від порівняння реалізацій слів до порівняння реалізацій звукових діад.
Четвертий розділ присвячено визначенню допустимих коефіцієнтів компресії на основі використання ортогональних перетворень при неповному усуненні сукупності мінімальних коефіцієнтів розкладу, створенню блок-схеми алгоритму реалізації методу формування ознак розпізнавання, практичному тестуванню програмно реалізованих методів.
Для забезпечення однакової якості передачі, як гучних, так і слабких сигналів, використовується адаптивне квантування коефіцієнтів розкладу, яке відбувається за рахунок зміни коефіцієнта підсилення ланки, що передує компресору, тому разом з коефіцієнтами розкладу потрібно передавати також коефіцієнт підсилення . Кількість бітів на коефіцієнт розкладу визначається за формулою:
де W(n) - середньостатистичний рівень коефіцієнтів розкладу, - максимальна кількість бітів на коефіцієнт,
ceil( ) - операція заокруглення до більшого цілого (при від'ємному значенні дає нуль), - врахування біта знаку.
Максимально можливе значення модуля коефіцієнта розкладу визначається за формулою:
Кількість біт, потрібних для передачі повної сукупності коефіцієнтів розкладу, не може зменшитись більше ніж у два рази. Для того, щоб підвищити коефіцієнт компресії використано адаптивне рівномірне квантування, в якому адаптація проводиться для всіх коефіцієнтів розкладу (сегмента коефіцієнтів). Використовуючи менше восьми біт на коефіцієнт можемо реально добитися хороших результатів компресії.
Коефіцієнт компресії при використанні цього методу визначається за формулою:
де - кількість бітів виділених для передачі коефіцієнта підсилення,
В - кількість бітів на коефіцієнт на вході компресора,
- кількість занулених коефіцієнтів, для яких не потрібно знакових бітів.
Для порівняння ортогональних перетворень можна використати комплексний показник якості, але наочно він не дає представлення про такі параметри як коефіцієнт компресії чи співвідношення с/сп, які більше підходять для порівняння компресії з використанням того чи іншого ортогонального перетворення.
Програмне тестування методів розпізнавання здійснюється шляхом визначення ймовірності помилки класифікації за допомогою відстані Махаланобіса (Гонсалес). Зв'язок між відстанню Махаланобіса і помилкою ідентифікації представлено за допомогою формули (Гонсалес):
де - ймовірність помилки, - відстань Махаланобіса.
В процесі тестування використано 6 класів образів, один з яких правильний. Отже, відстані Махаланобіса обчислені між правильним класом і п'ятьма неправильними класами. Оцінка помилки для найгіршого класу складає порядку 30%, а для найкращого - близько 5%. Оцінка середньої помилки виявлення для всіх класів складає порядку 20%.
Як видно, вибірка в нашому випадку є невеликою в статистичному значенні. В загальному випадку діапазон невеликої вибірки за результатами багатьох досліджень числових послідовностей складає від 10-15 до 200. При таких обставинах сподіватися на регулярність статистичних характеристик середнього значення і дисперсії ймовірності правильного (неправильного) розпізнавання немає сенсу. Якщо використовувати вирішуюче правило, яке базується на принципі найближчого сусіда, то в цьому випадку вірогідність правильного (неправильного) розпізнавання дорівнює 1(0). Точно відомо, що ймовірність правильного розпізнавання є величиною меншою 1 для вибірок довільного розміру. Проте класичні статистичні підходи не мають достатньої чутливості для того, щоб в умовах малих вибірок надійно уникати одиничної (нульової) події щодо ймовірності правильного (неправильного) розпізнавання. Довільна класична статистична оцінка в умовах малих вибірок характеризується великими значеннями дисперсій, які надзвичайно сильно погіршують достовірність самої статистичної оцінки.
Для уникнення проблем оцінювання за допомогою статистичних підходів застосовано методи диференціального оцінювання вірогідності правильного (неправильного) розпізнавання. Також доведено, що усереднена за базою даних диференціальна вірогідність правильного (неправильного) розпізнавання дорівнює ймовірності правильного (неправильного) розпізнавання алгоритму в цілому. При цьому дисперсія побудованої таким чином оцінки вірогідності правильного (неправильного) розпізнавання може у декілька разів бути меншою, ніж у випадку класичних статистичних оцінок. На завершення потрібно відзначити, що оцінка середньої вірогідності неправильного розпізнавання на рівні 20 % відповідає класу такого роду біометричних систем.
ОСНОВНІ РЕЗУЛЬТАТИ РОБОТИ
У дисертаційній роботі розроблено новий метод визначення ознак розпізнавання нових сигналів з використанням пакетних вейвлет-алгоритмів та проведено аналіз ефективності методів компресії мовних сигналів. Отримано такі наукові та практичні результати:
Проведено порівняльний аналіз і класифікацію відомих алгоритмів розпізнавання та компресії мовних сигналів. Встановлено, що існуючі методи визначення ознак розпізнавання базуються на використанні “жорстких” алгоритмів, які погано адаптуються до характерних особливостей мовних сигналів, тим самим погіршуючи ефективність роботи всієї системи розпізнавання.
Розроблено новий алгоритм нелінійної часової нормалізації, який, на відміну від відомих, враховує явище коартикуляції.
Розроблено метод та алгоритм визначення ознак розпізнавання мовних сигналів, який базується на використанні пакетного вейвлет-аналізу, основною перевагою якого в порівнянні з іншими відомими методами є адаптивність до характерних особливостей мовних сигналів, що призводить до покращення інформативності отриманих ознак і підвищення ефективності розпізнавання всієї системи.
Сформовано рекомендації практичного застосування розроблених систем формування інформативних ознак і методів їх порівняння, що дало змогу побудувати блок-схеми систем розпізнавання та компресії мовних сигналів та покращити ефективність їх роботи.
Отримано залежність похибки розпізнавання від відстані Махаланобіса, яка вказує на те, що показники ймовірності правильного розпізнавання запропонованої біометричної системи є кращі від існуючих і складають Р=0.95.
Програмно реалізовано алгоритми компресії мовних сигналів з використанням пакетних вейвлет-алгоритмів, визначено характеристики сигналів і досліджено залежність коефіцієнта компресії від для різних типів ортогональних перетворень. Показано доцільність використання перетворення Карунена-Лоєва.
СПИСОК ОПУБЛІКОВАНИХ ПРАЦЬ ЗА ТЕМОЮ ДИСЕРТАЦІЇ
1. Фаді Аль-Келані. Особливість компресії мовних сигналів на основі використання ортогональних перетворень // Відбір і обробка інформації.- 2004.- Вип. 20(96).- С. 137-142.
2. Лобур М.В., Фаді Аль-Келані. Аналіз методів компресії мовних сигналів // Вісник Національного Університету “Львівська Політехніка”: Радіоелектроніка та телекомунікації.- 2004.-№508.- С. 42-45.
3. Фаді Аль-Келані. Дослідження характеристик мовного сигналу в задачах розпізнавання // Вісник Національного Університету “Львівська Політехніка”: Комп'ютерні системи та мережі.- 2004.- № 523.- C. 140-144.
4. Лобур М.В., Фаді Талал Ахмед Аль-Келані, Лисак Ю.В. Використання пакетних вейвлетів для визначення ознак розпізнавання мовних сигналів // Моделювання та інформаційні технології.- Київ,2005.- Вип. 31.- C. 41-46.
5. Lobur M., Fadi Al-Kalani, Mamoun Al Rababaa. The сriteria of сompression quality evaluation / Proc. of the International Conference TCSET 2004.-Lviv-Slavsko.- P. 221-222.
6. Lobur M., Fadi Al-Kalani. Illumination of the вasic рroblems which arise at recognition and substantial interpretation of a language signal / Proc. of the International Conference CADSM 2005.-Lviv-Polyana.- P. 551-552.
7. Lau G., Lobur M., Fadi Talal Ahmed Al-Kalani. Increasing of information degree defense with using of multimodal biometry / Proc. of the International Conference of Young Scientists MEMSTECH 2005.- Lviv-Polyana.- P. 38-39.
АНОТАЦІЇ
Фаді Талал Ахмед Аль-Келані. Методи і алгоритми опрацювання і компресії мовних сигналів та їх реалізація в комп'ютерних системах.- Рукопис. Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.13.13 - Обчислювальні машини, системи та мережі.-Національний університет “Львівська політехніка”, Львів, 2006.
Дисертацію присвячено створенню нових методів розпізнавання мовних сигналів на основі пакетних вейвлет алгоритмів. Приділено увагу оптимальному вибору методів компресії мовних сигналів для задач розпізнавання.
Для досягнення поставленої мети розроблено алгоритм нелінійної часової нормалізації, що враховує явище коартикулації мови, використано пакетний вейвлет-аналіз для реалізації нового методу визначення ознак розпізнавання, який вирізняється своєю адаптивністю до визначення характерних особливостей мовних сигналів. Досліджено алгоритми компресії стосовно можливості оптимального вибору і використання їх в задачах розпізнавання мови. Результати тестування розроблених та реалізованих методів та алгоритмів показали їх ефективність використання в задачах розпізнавання.
Ключові слова: комп'ютерна система розпізнавання мовних сигналів, компресія, ознаки розпізнавання, алгоритм.
Фади Талал Ахмед Аль-Келани. Методы и алгоритмы обработки и компрессии речевых сигналов и их реализация в компьютерных системах.- Рукопись. Диссертация на соискание ученой степени кандидата технических наук по специальности 05.13.13 - “вычислительные машины, системы и сети”. -Национальный университет “Львовская политехника”, Львов, 2006.
Диссертация посвящена созданию новых методов распознавания речевых сигналов с использованием пакетных вейвлет алгоритмов. Уделено внимание оптимальному выбору методов компрессии речевых сигналов для задач распознавания.
Для достижения поставленной цели разработан алгоритм нелинейной часовой нормализации, что учитывает явление коартикулации языка, использован пакетный вейвлет-анализ для реализации нового метода определения признаков распознавания, который отличается адаптивностью к определению характерных особенностей речевых сигналов. Проведено исследование алгоритмов компрессии относительно возможности оптимального выбора и использования их в задачах распознавания речи. Результаты тестирования разработанных и реализованных методов и алгоритмов показали их эффективность использования в задачах распознавания.
Ключевые слова: компьютерная система распознавание речевых сигналов, компрессия, признаки распознавания, алгоритм.
Fadi Talal Ahmed Al-Kalani. Methods and algorithms of processing and compression of linguistic signals and their realization in the computer systems.- Manuscript.
The thesis for the Candidate's Degree in Technical Sciences on the specialty 05.13.13 - Computing machines, systems and networks.- Lviv Polytechnic National University, Lviv, 2006.
The present thesis is dedicated to the new methods of speech signals recognition.
In the first chapter the review and comparative analysis of the methods of compression and recognition of speech signals is carried out. The result of the carried out analysis of the existing recognition methods indicates, that all of them are based on the use of “inflexible” algorithms, which are badly adapted to the characteristic features of speech signals, thus degrading the efficiency of the operation of the whole recognition system. The necessity of the use of algorithms for determination of recognition features along with the use of the wavelet packet analysis as one of the advanced directions of the creation of the effective methods and principles of the development of the speech signals recognition systems is substantiated.
In the second chapter the analysis of the compression methods with the use of the orthogonal transformations at the complete exception of minimal decomposition coefficients is conducted, a maximal possible compression degree is defined. In this compression method the orthogonal transformation of the signal segment with the subsequent exception of the set of the smallest modulo decomposition coefficients, irrespective of the order of their distribution, is conducted. Therefore the additional transfer of the information on the coefficients distribution is required.
As a result, two information streams appear, the first one corresponds to the information stream on the decomposition coefficients, and the second stream transfers information on the distribution of these coefficients.
In the third chapter the method of the determination of the speech signals recognition features and the algorithm for nonlinear time normalization is proposed and proved.
Wavelet packet transformation is adaptive, i.e. it allows adapting to the signal features more accurately by means of the choice of the proper tree of the optimal decomposition form, which provides the minimal number of wavelet coefficients at the prescribed accuracy of signal reconstruction, thus eliminating the information-surplus and unnecessary details of the signals.
Estimation of the informativeness of the set of wavelet coefficients is accomplished by the entropy. In order to obtain the recognition coefficients, the cepstral analysis operation is used. In order to carry out the temporary normalization, the deforming function is found, the use of which minimizes the discrepancy between the standard and new words realization.
The fourth chapter is dedicated to the determination of admissible compression coefficients on the basis of the orthogonal transformations use at the incomplete elimination of the set of minimal decomposition coefficients, to the creation of the block diagram of the method of the recognition features formation, to the practical testing of the software- methods. In order to elevate the compression coefficient, the adaptive uniform quantization is used, where the adaptation is conducted for all the decomposition coefficients. The program testing of the recognition methods is carried out by means of determination of the classification error probability using Mahalanobis (Gonsales) distance.
Keywords: recognition of speech signals, compression, recognition features.
Размещено на Allbest.ru
...Подобные документы
Використання методів обробки сигналів, які базуються на використанні малохвильової теорії. Вимоги до алгоритмів компресії та критерії порівняння алгоритмів. Застосування вейвлет-перетворень. Критерії оцінювання оптимальності вибору малохвильових функцій.
реферат [1,1 M], добавлен 26.05.2019Сучасні системи ЦОС будуються на основі процесорів цифрових сигналів (ПЦС). Сигнальними мікропроцесорами (СМП) або процесорами цифрових сигналів є спеціалізовані процесори, призначені для виконання алгоритмів цифрової обробки сигналів у реальному часі.
лекция [80,1 K], добавлен 13.04.2008Структура та галузі застосування систем цифрової обробки сигналів. Дискретне перетворення Фур’є. Швидкі алгоритми ортогональних тригонометричних перетворень. Особливості структурної організації пам’яті комп’ютерних систем цифрової обробки сигналів.
лекция [924,7 K], добавлен 20.03.2011Розробка, дослідження та реалізація методів вирішення завдань аналізу, розпізнавання і оцінювання зображень як один із провідних напрямків інформатики. Класифікація та аналіз існуючих методів розпізнавання образів, переваги та недоліки їх застосування.
статья [525,8 K], добавлен 19.09.2017Введення аналогових сигналів в комп'ютер, перетворення вимірювальної інформації. Дискретизація сигналів, синхронізація за допомогою задаючого таймеру, визначення інтервалу дискретизації. Цифро-аналогові перетворювачі, основні параметри і характеристики.
курсовая работа [424,8 K], добавлен 19.06.2010Комп’ютерне моделювання системи сегментації та розпізнавання облич на зображеннях. Підвищення швидкодії моделювання за кольором шкіри та покращення якості розпізнавання при застосуванні робастних boosting-методів. Розробка алгоритмів функціонування.
дипломная работа [1,6 M], добавлен 02.07.2014Розробка комп'ютерних схем різного призначення: шифратори, дешифратори, мультиплексори, лічильники та регістри. Загальні характеристики електронних цифрових схем по булевих виразах. Розрахунок лічильника та регістрів. Значення логічних сигналів.
курсовая работа [616,7 K], добавлен 12.05.2014Аналіз концепцій сучасної інформатики і нових інформаційних технологій. Дисципліна і структурованість мовних засобів комунікації. Різні підходи до викладання мов програмування. Основні методики, застосовувані при складанні алгоритмів і написанні програм.
реферат [35,5 K], добавлен 11.08.2011Ознайомлення із загальною структурою системи автоматичного розпізнавання мовлення. Визначення особливостей нейронних мереж. Дослідження та характеристика процесу побудови системи розпізнавання мовлення. Вивчення специфіки прихованої моделі Маркова.
дипломная работа [1,1 M], добавлен 25.07.2022Алгоритм оптичного розпізнавання образів. Універсальність таких алгоритмів. Технологічність, зручність у процесі використання програми. Два класи алгоритмів розпізнавання друкованих символів: шрифтовий та безшрифтовий. технологія підготовки бази даних.
реферат [24,5 K], добавлен 19.11.2008Розвиток виробництва і широке використання промислових роботів. Алгоритми методів, блок-схеми алгоритмів розв'язку даного диференційного рівняння. Аналіз результатів моделювання, прямий метод Ейлера, розв’язок диференціального рівняння в Mathcad.
контрольная работа [59,1 K], добавлен 30.11.2009Дослідження криптографічних методів захисту даних від небажаного доступу. Основи безпеки даних в комп'ютерних системах. Класифікаційні складові загроз безпеки інформації. Характеристика алгоритмів симетричного та асиметричного шифрування інформації.
курсовая работа [245,8 K], добавлен 01.06.2014Розробка фільтру для обробки цифрових сигналів. Блок обробки реалізується на цифрових мікросхемах середньої ступені інтеграції. Аналіз вхідного сигналу, ідеального сигналу та шуму. Обґрунтування вибору фільтрів та алгоритму обробки вхідного сигналу.
курсовая работа [504,4 K], добавлен 18.09.2010Історія створення комп’ютерних комунікацій та принципи їх побудови. Характеристика устаткування для створення комп’ютерних мереж. Поняття адресації, види протоколів, їх розвиток, комбінування та особливості використання. Стандарти бездротових мереж.
курс лекций [1,3 M], добавлен 04.06.2011Методи інтерполяції: ітераційний та метод розподілених різниць. Інтерполяційна формула Лагранжа. Алгоритмізація та реалізація методів на ЕОМ в середовищі мови програмування Turbo Pascal 7.0. Аналіз результатів моделювання, інструкція користувачеві.
курсовая работа [680,9 K], добавлен 11.02.2010Структура сучасних систем виявлення вторгнень (СВВ), аналіз її методів і моделей. Характеристика основних напрямків розпізнавання порушень безпеки захищених систем в сучасних СВВ. Перелік недоліків існуючих СВВ та обґрунтування напрямків їх вдосконалення.
реферат [467,9 K], добавлен 12.03.2010Огляд та аналіз методів розв’язання системи диференціальних рівнянь та вибір методів рішення. Алгоритми методів Ейлера. Вибір методу рішення задачі Коші. Рішення диференціальних рівнянь. Отримання практичних навиків програмування на мові Паскаль.
курсовая работа [174,3 K], добавлен 06.03.2010Огляд та класифікація комп'ютерних ігор. Алгоритм розташування кораблів на ігровому полі. Виконання алгоритму гри комп'ютера з використанням методу випадкових чисел. Стратегія гри комп'ютера. Обґрунтування вибору середовища програмної реалізації.
курсовая работа [616,5 K], добавлен 26.01.2023Застосування циклічних алгоритмів для створення циклів за допомогою умовного або безумовного переходів. Цикли з параметром та умовою (приклади). Використання операторів мови програмування Паскаль для організації повторюваних послідовностей дій (циклів).
контрольная работа [435,9 K], добавлен 02.06.2012Методи алгоритмiчного описаня задач, програмування на основi стандартних мовних засобiв. Переклад з однієї системи числення в іншу при програмуванні. Системи числення. Двійкові системи числення. Числа з фіксованою і плаваючою комою. Програмна реалізація.
курсовая работа [164,1 K], добавлен 07.12.2008