LSF-вокодер на основі векторного квантування
У статті досліджено модель LSF-вокодера з векторним квантуванням параметрів. Порівняно різні способи розбиття вектора LSF на підвектори, для чого використано міри спектрального спотворення кодованого сигналу. Розглянуто методику розробки кодових книг.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | украинский |
Дата добавления | 29.01.2019 |
Размер файла | 72,3 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
УДК 621.39
LSF-вокодер на основі векторного квантування
О.М. Ткаченко, Н.О. Біліченко,
О. Д. Феферман, С. В. Хрущак
Вінницький національний технічний університет
вул. Хмельницьке шосе, 95, 21021 Вінниця, Україна
Досліджено модель LSF-вокодера з векторним квантуванням параметрів. Порівняно різні способи розбиття вектора LSF на підвектори, для чого використано міри спектрального спотворення кодованого сигналу.
Ключові слова: кодування мови, вокодер, LSF, LPC, векторне квантування, спектральне спотворення, зважена Евклідова відстань.
При низькошвидкісному та середньошвидкісному кодуванні мови для представлення короткочасної спектральної інформації про сигнал широко використовуються параметри, що отримали назву коефіцієнтів лінійного прогнозування (LPC -- linear predictive coefficients). При практичному застосуванні LPC, як правило, перетворюються на лінійні спектральні частоти (LSF -- linear spectral frequencies), які, завдяки певним властивостям [1], є менш чутливими до канальних завад і більш зручними для використання в кодових книгах.
У [2] розглянуто методику розробки кодових книг з урахуванням специфіки української мови на основі скалярного квантування. Але в [3] показано, що векторне квантування дозволяє отримати менше спотворення мовного сигналу порівнянно зі скалярним квантуванням за умов однакової ємності інформаційних параметрів. Тому було вирішено на базі наявного фонетичного матеріалу за методом K-середніх побудувати векторну кодову книгу та розробити модель вокодера на основі векторного квантування LSF-параметрів. вокодер векторний квантування спектральний
Метою даної статті є зменшення обсягу даних, необхідного для передавання мовних сигналів за умови збереження придатної якості їхнього звучання при відновленні. Для досягнення поставленої мети досліджено вокодер, побудований на основі векторного квантування. За основу було взято вокодер лінійного прогнозування, розглянутий у [4].
Постановка задачі
При використанні LPC кожні 20 мс цифрового мовного сигналу кодуються десятьма коефіцієнтами лінійного прогнозування та двома додатковими параметрами: періодом основного тону та коефіцієнтом підсилення. Таким чином, загальна швидкість, яка необхідна для передачі кодованого сигналу каналом зв'язку, складає 4800 біт/с. У сучасних системах зв'язку звичайно замість LPC використовують лінійні спектральні частоти LSF, які є більш стійкими до канальних завад, а також легше піддаються перетворенню, ніж коефіцієнти лінійного прогнозування. При цьому, для зменшення швидкості до каналу зв'язку передаються не самі значення LSF, а їхні індекси в таблиці -- кодовій книзі, тобто відбувається скалярне квантування параметрів. Після квантування з десяти 8-бітних коефіцієнтів отримуються набори біт розмірністю 3, 4, 4, 4, 4, 3, 3, 3, 3, 3 біта відповідно.
Скалярне квантування, хоча і дозволяє зменшити обсяг даних, що передається, але не є самим ефективним способом представлення інформації про сигнал. Векторне квантування LSF є набагато ефективнішим і дозволяє досягти кращої якості мовного сигналу при незмінних інших параметрах. Для розробки векторної кодової книги необхідно дослідити такі питання:
1) які міри повинні використовуватись для оцінювання спотворень сигналу що вносяться за рахунок кодової книги;
2) як порівнювати вектори між собою, з огляду на різну вагу елементів;
3) на скільки векторів повинен розбиватись набір коефіцієнтів LSF, яка розмірність векторів, скільки елементів має бути в кодовій книзі для кожного з векторів.
Вимірювання спектрального спотворення
Вибір правильного способу вимірювання похибки, що вноситься в кодований сигнал за рахунок кодової книги, є одним із найважливіших питань при проектуванні векторного квантизатора. Базуючись на значенні похибки, можна визначити мінімальну кількість векторів, необхідну для отримання придатної якості відновленого звукового сигналу.
Важливою властивістю LSF є локалізована спектральна чутливість, яка полягає в тому, що зміна одного LSF-параметра спотворює спектр вихідного сигналу тільки у вузькому діапазоні частот навколо зміненого параметра. Дана властивість робить ці параметри придатнішими за інші для використання в кодових книгах. Вектор LSF може квантуватись окремими частинами, при цьому похибка буде привноситись тільки в певну область спектра. На рис. 1 зображено зміну спектра сигналу при внесенні похибки в сьомий елемент вектора LSF. Зміна помітна тільки в області 2800 Гц і ніяк не впливає на інші області спектра.
У роботі [2] для оцінювання якості створених кодових книг використовувалася нормована енергія квадрату похибки:
, (1)
де та -- відліки сигналів, синтезованих відповідно з LPC і LSF; -- кількість відліків.
Рис. 1. Зміна спектральної потужності при зміні одного коефіцієнта LSF
Але в [3] було доведено, що для вимірювання спотворення вхідного звукового сигналу доцільно використовувати сумарне спектральне спотворення (SD -- Spectral Distortion) на всьому діапазоні частот. Спектральне спотворення для і-го фрейму у децибелах, визначається за формулою:
, (2)
де Fв -- частота дискретизації в герцах, а та -- спектральні потужності для і-го фрейму, що визначаються, виходячи зі співвідношень:
, (3)
, (4)
де і -- неквантизований та квантизований LSF-поліноми, що відповідають і-му фрейму.
Спектральне спотворення обчислюється на частотах від 0 до 4 кГц для всіх фреймів тестових даних, та знаходиться його середнє значення. Графік розподілу спектрального спотворення представлено на рис. 2.
Рис. 2. Розподіл спектрального спотворення для квантизатора з розбиттям 5Ч5 підвекторів
У системах низькошвидкісного ущільнення звукового сигналу середнє значення спектрального спотворення не повинно перевищувати 1 дБ. Окремо виділяють фрейми, що мають спотворення більше 2 дБ; їх розподіляють на два типи: ті, що мають спектральне спотворення в діапазоні 2-4 дБ, і ті, що мають спектральне спотворення більше, ніж 4 дБ. Тобто, при побудові кодової книги необхідно дотримуватись таких умов:
середнє спектральне викривлення повинно бути близько 1 дБ;
фреймів, що мають спектральне спотворення в діапазоні 2-4 дБ, повинно бути менше ніж 2 %;
відсутні фрейми, у яких спектральне спотворення більше 4 дБ.
Зважене вимірювання відстані LSF
Для побудови векторної кодової книги та вибірки з неї необхідно обрати міру для оцінювання відстані між двома векторами LSF. Складність вимірювання полягає в тому, що кожен коефіцієнт має різну вагу. Коефіцієнт, який би врівноважував значення елементів вектора LSF, має вигляд:
, (5)
де fі -- значення і-го коефіцієнта LSF у герцах; Р(fі) -- спектральна потужність LSF, представлена як функція частоти fі; r -- емпірична константа, яка контролює відносні ваги, що надаються різним LSF, вона визначається експериментально та має значення r = 0,15.
Тоді вираз для Евклідової відстані між двома векторами fі та буде мати вигляд:
. (6)
Аталом та Палівалом у [3] було запропоновано ввести додатковий коефіцієнт зваження -- сі, який базується на тому, що людське вухо більш чутливе до різниці між низькими частотами, ніж між високими. Експериментально значення сі було встановлено таким:
(7)
Враховуючи коефіцієнт зваження, Евклідова відстань між двома векторами буде мати вигляд:
. (8)
Було проведене дослідження, на скільки покращується якість ущільнення при використанні зваженої Евклідової відстані (8). За критерій оцінки було взято середнє спектральне відхилення. Результати дослідження наведено в табл. 1. Можна побачити, що зважене вимірювання відстані дає певне покращення якості сигналу відносно звичайної Евклідової міри. Це відбувається за рахунок того, що векторний квантизатор із використанням зваженої Евклідової метрики при виборі вектора з кодової книги надає перевагу елементам LSF з меншими значеннями частоти. Надалі буде розглядатися квантизатор тільки з використанням зваженої Евклідової метрики (8).
Таблиця 1 - Дослідження векторних кодових книг з використанням зваженої міри та без неї
Тип розбиття |
Кількість векторів |
Середнє спектральне спотворення, дБ |
2-4 дБ, % |
> 4 дБ, % |
||
Зважена міра |
3Ч3Ч4 |
256Ч256Ч512 |
0,834041 |
1,78045 |
0,003879 |
|
Звичайна міра |
3Ч3Ч4 |
256Ч256Ч512 |
0,942977 |
1,958883 |
0,007758 |
|
Зважена міра |
5Ч5 |
4096Ч4096 |
0,746784 |
1,357642 |
0,003879 |
|
Звичайна міра |
5Ч5 |
4096Ч4096 |
0,882325 |
1,214119 |
0,003879 |
Розбиття вектора LSF
Для того, щоб визначити число компонентів, на які необхідно розбивати вектор LSF, було досліджено декілька видів розбиття. При цьому використовувалась різна кількість підвекторів, які зберігаються в кодовій книзі, що дає змогу визначити оптимальне співвідношення якості сигналу до необхідної швидкості передачі даних для квантизатора. Результати дослідження наведено в табл. 2.
Усі квантизатори тестувались на записах, надиктованих десятьма дикторами. Запис тестового матеріалу відбувався в студійних умовах. Надиктовані тексти кодувався з частотою дискретизації 8 кГц, по 16 біт на відлік. Загальна кількість проаналізованих фреймів становила 25780 (майже 9 хвилин). Слід зазначити, що під час попередньої обробки зі звукових файлів було видалено паузи, що покращило отримані результати.
Вектори в кодовій книзі будувались з урахуванням особливостей української мови. Для порівняння також надаються результати кодування з використанням стандартних кодових книг.
Таблиця 2 - Результати дослідження різних видів розбиття вектора LSF
Тип розбиття |
Кількість векторів |
Середнє спектральне спотворення, дБ |
2-4 дБ, % |
> 4 дБ, % |
||
стандартна |
3Ч3Ч4 |
256Ч256Ч512 |
0,978686 |
3,553142 |
0,003879 |
|
досліджувана |
3Ч3Ч4 |
256Ч256Ч512 |
0,834041 |
1,78045 |
0,003879 |
|
стандартна |
5Ч5 |
4096Ч4096 |
0,871322 |
2,199379 |
0,007758 |
|
досліджувана |
5Ч5 |
4096Ч4096 |
0,746784 |
1,214119 |
0,003879 |
|
досліджувана |
5Ч5 |
512Ч512 |
1,087711 |
5,919317 |
0,015516 |
|
досліджувана |
5Ч5 |
1024Ч1024 |
0,953129 |
3,630721 |
0,003879 |
|
досліджувана |
4Ч6 |
4096Ч4096 |
1,021776 |
6,45299 |
0,256102 |
|
досліджувана |
4Ч6 |
2048Ч8192 |
1,782519 |
3,92519 |
0,744995 |
|
досліджувана |
6Ч4 |
8192Ч2048 |
0,840095 |
1,993794 |
0 |
Висновки
Найкращі результати за критерієм мінімального середнього спотворення були досягнуті при використанні розбиття на два підвектори по 5 елементів у кожному, кодова книга містила по 4096 значень для кожного з підвекторів. При цьому для опису одного фрейму використовувалося 24 біти. Цілком придатними виявилися також результати розбиття на два підвектори розмірністю 6 і чотири елементи відповідно. У цьому варіанті фрейми із спотворенням більше 4 дБ взагалі відсутні. Варіант розбиття на три підвектори є також достатньо цікавим з огляду на те, що в цьому випадку вимоги до пам'яті мінімальні (3584 комірки замість 40960 і 57344 комірок у двох попередніх випадках відповідно). Використання зваженої Евклідової відстані (8) в усіх варіантах дозволяло зменшити середнє спектральне спотворення, а також кількість фреймів із спотворенням вище 2 дБ і 4 дБ. Використання вокодера на основі векторного квантування дозволило зменшити обсяг даних, що передається до каналу зв'язку, для одного фрейму з 30-ти до 24-х біт, порівняно зі скалярним квантуванням.
Отримані результати можуть застосовуватися при побудові низькошвидкісних вокодерів для систем службового зв'язку зі збереженням необхідного рівня якості мовного сигналу та мінімальними вимогами до пам'яті.
Література
1. Иванов В.Н. Вычисление линейных спектральных частот // Электросвязь. -- 1997. -- № 6. -- С. 25-27.
2. Ткаченко О.М., Феферман О.Д., Хрущак С.В. Розробка кодових книг для вокодера на основі LSP // Оптико-електронні інформаційно-енергетичні технології. -- 2005. -- № 2. -- С. 219-223.
3. Palival K., Atal S. Efficient Vector Quantization of LPC Parameters at 24 Bits/Frame // IEEE Transactions on Speech and Audio Processing. -- 1993. -- Vol. 1, N 2. -- Р. 3-14.
4. Ткаченко О.М., Феферман О.Д., Хрущак С.В. Вокодер LSF зі швидкістю 1600 біт/с // Вісник ВПІ. -- 2006. -- № 1. -- С. 78-86.
5. Lahouti F., Khandani A.K. Quantization of LSF parameters using trellis modeling // IEEE Transactions on Speech and Audio Processing. -- 2003. -- vol. 11, N 5. -- Р. 400-412.
6. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов / Пер. с англ. -- М.: Радио и связь, 1981. -- 496 с.
7. Lahouti F., Fazel A.R., Safavi-Naeini A.H. Single and Double Frame Coding of Speech LPC Parameters Using a Lattice-based Quantization Scheme. -- Department of Electrical and Computer Engineering, Technical report, 2004. -- 22 p.
Надійшла до редакції 11.01.2007
Размещено на Allbest.ru
...Подобные документы
Процесс создания канального вокодера. Программа на языке Matlab, модель, созданная с помощью системы Matlab Simulink. Осуществление сжатия и восстановления речевого сигнала в реальном времени до уровня не более 4800 бит/с с удовлетворительным качеством.
курсовая работа [393,7 K], добавлен 12.03.2009Аналіз роботи алгоритму порозрядного зважування, визначення часу і похибок перетворення по відомим крокам квантування та рівню вхідного сигналу. Оцінка роботи кодера на прикладі генерації циклічного корегуючого коду при заданому рівнянні полінома.
контрольная работа [937,5 K], добавлен 07.12.2010Общая характеристика закона Хипса и Ципфа. Особенности ранжированного поиска. Рассмотрение примеров косинусной близости. Анализ основных способов сокращения индекса. Знакомство с основными моделями векторного пространства. Проблемы отсечения кластеров.
презентация [565,1 K], добавлен 06.01.2014Процесори ІA-32 дозволяють реалізувати різні моделі пам'яті. Найпростішу організацією має плоска модель пам'яті: уся пам'ять представляється єдиною лінійною послідовністю байт. Найскладнішою є сегментована захищена модель - основна модель пам'яті.
лекция [39,6 K], добавлен 13.04.2008Дослідження базових елементів булевої логіки, для чого використовують логічні елементи потенціального типу на біполярних транзисторах (мікросхема К155ЛАЗ). Рівні відліків цифрового сигналу, відносно шасе. Допустима границя статичної завадостійкості.
реферат [243,5 K], добавлен 05.03.2011Визначення параметрів цифрового сигналу на виході АЦП. Розробка структури цифрового лінійного тракту, розрахунок його завадостійкості. Аналіз роботи демодулятора. Ймовірність помилкового прийому комбінації коду Хемінга та безнадлишкового коду МТК-2.
курсовая работа [1,1 M], добавлен 06.08.2013Алгоритм реализации векторного пространства, метод фильтрации шумов на изображении. Формально-логическая модель разработки программного обеспечения, выбор инструментальных средств его реализации. Анализ точности совпадения распознанного изображения.
дипломная работа [2,7 M], добавлен 13.02.2013Програмна робота з графами: операції їх зчитування, збереження та обробки у вигляді перевірки на симетричність та орієнтованість. Основи пошуку в графі в різних напрямках. Розбиття множини вершин на класи еквівалентності за відношенням зв'язності графу.
лабораторная работа [8,3 K], добавлен 11.05.2011Відновлення вхідного сигналу, який заданий графо-аналітично за способом розкладання на гармоніки методом Фур'є. Збереження даних спектрального аналізу у типізованих дискових файлах. Побудова таблиці символьних імен та лістинг програми мовою Turbo Pascal.
курсовая работа [910,1 K], добавлен 31.10.2013Класичні технології розробки настільних тестових програм. Структурна модель предметної області. Підхід до побудови настільних додатків на основі веб-технологій. Диаграма класів тестової програми каріотипування людини. Вимоги до програмного забезпечення.
дипломная работа [1,4 M], добавлен 16.09.2016Розробка фільтру для обробки цифрових сигналів. Блок обробки реалізується на цифрових мікросхемах середньої ступені інтеграції. Аналіз вхідного сигналу, ідеального сигналу та шуму. Обґрунтування вибору фільтрів та алгоритму обробки вхідного сигналу.
курсовая работа [504,4 K], добавлен 18.09.2010Опис та схема процедури ініціалізації вимірювальної системи. Коефіцієнти апроксимуючого поліному. Опис та схема процедур перетворення статичного сигналу. Екранна форма програми. Опис процедури перетворення змінного сигналу. Блок-схема процедури Read_T.
курсовая работа [187,3 K], добавлен 09.06.2010История появления электронных книг, их виды, характеристика. Использование электронных книг в библиотеках, их достоинства и недостатки. Формирование электронных библиотек и коллекций. Критерии предоставления электронных книг пользователям, хранение фонда.
курсовая работа [66,9 K], добавлен 05.02.2017История развития и популярные модели электронных книг. Характеристика электронных книг c LCD-, ChLCD-дисплеем, E-Ink дисплеем. Преимущества и недостатки электронных книг по сравнению с бумажными, перспективы их развития и популярность у потребителей.
реферат [2,9 M], добавлен 09.04.2014Модель в об’єктно-орієнтованих мовах програмування. Програмна модель створена на мові програмування С++, в середовищі програмування Borland С++ Builder 6.0. Вибір засобів реалізації програми. Види інструментів для об'єктно-орієнтованої розробки.
курсовая работа [116,9 K], добавлен 06.06.2010У статті проведено розрахунок ефективності роботи системи електронного документообіг по результатам функціонування за 12місяців. На основі проведеного розрахунку надано рекомендації щодо оцінки поточної роботи виконавців.
статья [165,5 K], добавлен 15.07.2006Структурна і функціональна схема комутації мікросхеми. Синтез T-тригера та D-тригера на основі універсального JК-тригера. Завантаження в тригер сигналу. Робота в статичному режимі. Контроль станів тригера до виходів. Сигнали з тумблерних регістрів.
лабораторная работа [835,2 K], добавлен 19.03.2011Запуск Microsoft Excel, вікно процесора Excel, вікно діалогу, вікна книг. Робота з аркушами книг. Створення, відкриття і збереження файлів книг, введення і редагування даних. Робота з діапазоном. Виділення діапазону. Редагуванняя виділеного фрагменту.
реферат [87,0 K], добавлен 25.06.2003Разработка с помощью пакета MATLAB ряда функций, осуществляющих сжатие речи по алгоритму векторного квантования, обеспечивающих сжатие речи до уровня 2400 бит/с и ниже, несколько ступеней сжатия. Дикторо-зависимый и дикторо-независимый режимы системы.
курсовая работа [1,1 M], добавлен 12.03.2009Обчислення оптимальних показників на основі математичних розрахунків. Спрощена математична модель. Перебір варіантів булевих змінних і вибір оптимального за цільовою функцією. Теоретичні положення методу гілок та меж. Кінцева множина допустимих рішень.
курсовая работа [1,8 M], добавлен 19.09.2012