LSF-вокодер на основі векторного квантування

У статті досліджено модель LSF-вокодера з векторним квантуванням параметрів. Порівняно різні способи розбиття вектора LSF на підвектори, для чого використано міри спектрального спотворення кодованого сигналу. Розглянуто методику розробки кодових книг.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык украинский
Дата добавления 29.01.2019
Размер файла 72,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

УДК 621.39

LSF-вокодер на основі векторного квантування

О.М. Ткаченко, Н.О. Біліченко,

О. Д. Феферман, С. В. Хрущак

Вінницький національний технічний університет

вул. Хмельницьке шосе, 95, 21021 Вінниця, Україна

Досліджено модель LSF-вокодера з векторним квантуванням параметрів. Порівняно різні способи розбиття вектора LSF на підвектори, для чого використано міри спектрального спотворення кодованого сигналу.

Ключові слова: кодування мови, вокодер, LSF, LPC, векторне квантування, спектральне спотворення, зважена Евклідова відстань.

При низькошвидкісному та середньошвидкісному кодуванні мови для представлення короткочасної спектральної інформації про сигнал широко використовуються параметри, що отримали назву коефіцієнтів лінійного прогнозування (LPC -- linear predictive coefficients). При практичному застосуванні LPC, як правило, перетворюються на лінійні спектральні частоти (LSF -- linear spectral frequencies), які, завдяки певним властивостям [1], є менш чутливими до канальних завад і більш зручними для використання в кодових книгах.

У [2] розглянуто методику розробки кодових книг з урахуванням специфіки української мови на основі скалярного квантування. Але в [3] показано, що векторне квантування дозволяє отримати менше спотворення мовного сигналу порівнянно зі скалярним квантуванням за умов однакової ємності інформаційних параметрів. Тому було вирішено на базі наявного фонетичного матеріалу за методом K-середніх побудувати векторну кодову книгу та розробити модель вокодера на основі векторного квантування LSF-параметрів. вокодер векторний квантування спектральний

Метою даної статті є зменшення обсягу даних, необхідного для передавання мовних сигналів за умови збереження придатної якості їхнього звучання при відновленні. Для досягнення поставленої мети досліджено вокодер, побудований на основі векторного квантування. За основу було взято вокодер лінійного прогнозування, розглянутий у [4].

Постановка задачі

При використанні LPC кожні 20 мс цифрового мовного сигналу кодуються десятьма коефіцієнтами лінійного прогнозування та двома додатковими параметрами: періодом основного тону та коефіцієнтом підсилення. Таким чином, загальна швидкість, яка необхідна для передачі кодованого сигналу каналом зв'язку, складає 4800 біт/с. У сучасних системах зв'язку звичайно замість LPC використовують лінійні спектральні частоти LSF, які є більш стійкими до канальних завад, а також легше піддаються перетворенню, ніж коефіцієнти лінійного прогнозування. При цьому, для зменшення швидкості до каналу зв'язку передаються не самі значення LSF, а їхні індекси в таблиці -- кодовій книзі, тобто відбувається скалярне квантування параметрів. Після квантування з десяти 8-бітних коефіцієнтів отримуються набори біт розмірністю 3, 4, 4, 4, 4, 3, 3, 3, 3, 3 біта відповідно.

Скалярне квантування, хоча і дозволяє зменшити обсяг даних, що передається, але не є самим ефективним способом представлення інформації про сигнал. Векторне квантування LSF є набагато ефективнішим і дозволяє досягти кращої якості мовного сигналу при незмінних інших параметрах. Для розробки векторної кодової книги необхідно дослідити такі питання:

1) які міри повинні використовуватись для оцінювання спотворень сигналу що вносяться за рахунок кодової книги;

2) як порівнювати вектори між собою, з огляду на різну вагу елементів;

3) на скільки векторів повинен розбиватись набір коефіцієнтів LSF, яка розмірність векторів, скільки елементів має бути в кодовій книзі для кожного з векторів.

Вимірювання спектрального спотворення

Вибір правильного способу вимірювання похибки, що вноситься в кодований сигнал за рахунок кодової книги, є одним із найважливіших питань при проектуванні векторного квантизатора. Базуючись на значенні похибки, можна визначити мінімальну кількість векторів, необхідну для отримання придатної якості відновленого звукового сигналу.

Важливою властивістю LSF є локалізована спектральна чутливість, яка полягає в тому, що зміна одного LSF-параметра спотворює спектр вихідного сигналу тільки у вузькому діапазоні частот навколо зміненого параметра. Дана властивість робить ці параметри придатнішими за інші для використання в кодових книгах. Вектор LSF може квантуватись окремими частинами, при цьому похибка буде привноситись тільки в певну область спектра. На рис. 1 зображено зміну спектра сигналу при внесенні похибки в сьомий елемент вектора LSF. Зміна помітна тільки в області 2800 Гц і ніяк не впливає на інші області спектра.

У роботі [2] для оцінювання якості створених кодових книг використовувалася нормована енергія квадрату похибки:

, (1)

де та -- відліки сигналів, синтезованих відповідно з LPC і LSF; -- кількість відліків.

Рис. 1. Зміна спектральної потужності при зміні одного коефіцієнта LSF

Але в [3] було доведено, що для вимірювання спотворення вхідного звукового сигналу доцільно використовувати сумарне спектральне спотворення (SD -- Spectral Distortion) на всьому діапазоні частот. Спектральне спотворення для і-го фрейму у децибелах, визначається за формулою:

, (2)

де Fв -- частота дискретизації в герцах, а та -- спектральні потужності для і-го фрейму, що визначаються, виходячи зі співвідношень:

, (3)

, (4)

де і -- неквантизований та квантизований LSF-поліноми, що відповідають і-му фрейму.

Спектральне спотворення обчислюється на частотах від 0 до 4 кГц для всіх фреймів тестових даних, та знаходиться його середнє значення. Графік розподілу спектрального спотворення представлено на рис. 2.

Рис. 2. Розподіл спектрального спотворення для квантизатора з розбиттям 5Ч5 підвекторів

У системах низькошвидкісного ущільнення звукового сигналу середнє значення спектрального спотворення не повинно перевищувати 1 дБ. Окремо виділяють фрейми, що мають спотворення більше 2 дБ; їх розподіляють на два типи: ті, що мають спектральне спотворення в діапазоні 2-4 дБ, і ті, що мають спектральне спотворення більше, ніж 4 дБ. Тобто, при побудові кодової книги необхідно дотримуватись таких умов:

середнє спектральне викривлення повинно бути близько 1 дБ;

фреймів, що мають спектральне спотворення в діапазоні 2-4 дБ, повинно бути менше ніж 2 %;

відсутні фрейми, у яких спектральне спотворення більше 4 дБ.

Зважене вимірювання відстані LSF

Для побудови векторної кодової книги та вибірки з неї необхідно обрати міру для оцінювання відстані між двома векторами LSF. Складність вимірювання полягає в тому, що кожен коефіцієнт має різну вагу. Коефіцієнт, який би врівноважував значення елементів вектора LSF, має вигляд:

, (5)

де fі -- значення і-го коефіцієнта LSF у герцах; Р(fі) -- спектральна потужність LSF, представлена як функція частоти fі; r -- емпірична константа, яка контролює відносні ваги, що надаються різним LSF, вона визначається експериментально та має значення r = 0,15.

Тоді вираз для Евклідової відстані між двома векторами fі та буде мати вигляд:

. (6)

Аталом та Палівалом у [3] було запропоновано ввести додатковий коефіцієнт зваження -- сі, який базується на тому, що людське вухо більш чутливе до різниці між низькими частотами, ніж між високими. Експериментально значення сі було встановлено таким:

(7)

Враховуючи коефіцієнт зваження, Евклідова відстань між двома векторами буде мати вигляд:

. (8)

Було проведене дослідження, на скільки покращується якість ущільнення при використанні зваженої Евклідової відстані (8). За критерій оцінки було взято середнє спектральне відхилення. Результати дослідження наведено в табл. 1. Можна побачити, що зважене вимірювання відстані дає певне покращення якості сигналу відносно звичайної Евклідової міри. Це відбувається за рахунок того, що векторний квантизатор із використанням зваженої Евклідової метрики при виборі вектора з кодової книги надає перевагу елементам LSF з меншими значеннями частоти. Надалі буде розглядатися квантизатор тільки з використанням зваженої Евклідової метрики (8).

Таблиця 1 - Дослідження векторних кодових книг з використанням зваженої міри та без неї

Тип

розбиття

Кількість

векторів

Середнє спектральне спотворення, дБ

2-4 дБ, %

> 4 дБ, %

Зважена міра

3Ч3Ч4

256Ч256Ч512

0,834041

1,78045

0,003879

Звичайна міра

3Ч3Ч4

256Ч256Ч512

0,942977

1,958883

0,007758

Зважена міра

5Ч5

4096Ч4096

0,746784

1,357642

0,003879

Звичайна міра

5Ч5

4096Ч4096

0,882325

1,214119

0,003879

Розбиття вектора LSF

Для того, щоб визначити число компонентів, на які необхідно розбивати вектор LSF, було досліджено декілька видів розбиття. При цьому використовувалась різна кількість підвекторів, які зберігаються в кодовій книзі, що дає змогу визначити оптимальне співвідношення якості сигналу до необхідної швидкості передачі даних для квантизатора. Результати дослідження наведено в табл. 2.

Усі квантизатори тестувались на записах, надиктованих десятьма дикторами. Запис тестового матеріалу відбувався в студійних умовах. Надиктовані тексти кодувався з частотою дискретизації 8 кГц, по 16 біт на відлік. Загальна кількість проаналізованих фреймів становила 25780 (майже 9 хвилин). Слід зазначити, що під час попередньої обробки зі звукових файлів було видалено паузи, що покращило отримані результати.

Вектори в кодовій книзі будувались з урахуванням особливостей української мови. Для порівняння також надаються результати кодування з використанням стандартних кодових книг.

Таблиця 2 - Результати дослідження різних видів розбиття вектора LSF

Тип

розбиття

Кількість

векторів

Середнє спектральне спотворення, дБ

2-4 дБ, %

> 4 дБ, %

стандартна

3Ч3Ч4

256Ч256Ч512

0,978686

3,553142

0,003879

досліджувана

3Ч3Ч4

256Ч256Ч512

0,834041

1,78045

0,003879

стандартна

5Ч5

4096Ч4096

0,871322

2,199379

0,007758

досліджувана

5Ч5

4096Ч4096

0,746784

1,214119

0,003879

досліджувана

5Ч5

512Ч512

1,087711

5,919317

0,015516

досліджувана

5Ч5

1024Ч1024

0,953129

3,630721

0,003879

досліджувана

4Ч6

4096Ч4096

1,021776

6,45299

0,256102

досліджувана

4Ч6

2048Ч8192

1,782519

3,92519

0,744995

досліджувана

6Ч4

8192Ч2048

0,840095

1,993794

0

Висновки

Найкращі результати за критерієм мінімального середнього спотворення були досягнуті при використанні розбиття на два підвектори по 5 елементів у кожному, кодова книга містила по 4096 значень для кожного з підвекторів. При цьому для опису одного фрейму використовувалося 24 біти. Цілком придатними виявилися також результати розбиття на два підвектори розмірністю 6 і чотири елементи відповідно. У цьому варіанті фрейми із спотворенням більше 4 дБ взагалі відсутні. Варіант розбиття на три підвектори є також достатньо цікавим з огляду на те, що в цьому випадку вимоги до пам'яті мінімальні (3584 комірки замість 40960 і 57344 комірок у двох попередніх випадках відповідно). Використання зваженої Евклідової відстані (8) в усіх варіантах дозволяло зменшити середнє спектральне спотворення, а також кількість фреймів із спотворенням вище 2 дБ і 4 дБ. Використання вокодера на основі векторного квантування дозволило зменшити обсяг даних, що передається до каналу зв'язку, для одного фрейму з 30-ти до 24-х біт, порівняно зі скалярним квантуванням.

Отримані результати можуть застосовуватися при побудові низькошвидкісних вокодерів для систем службового зв'язку зі збереженням необхідного рівня якості мовного сигналу та мінімальними вимогами до пам'яті.

Література

1. Иванов В.Н. Вычисление линейных спектральных частот // Электросвязь. -- 1997. -- № 6. -- С. 25-27.

2. Ткаченко О.М., Феферман О.Д., Хрущак С.В. Розробка кодових книг для вокодера на основі LSP // Оптико-електронні інформаційно-енергетичні технології. -- 2005. -- № 2. -- С. 219-223.

3. Palival K., Atal S. Efficient Vector Quantization of LPC Parameters at 24 Bits/Frame // IEEE Transactions on Speech and Audio Processing. -- 1993. -- Vol. 1, N 2. -- Р. 3-14.

4. Ткаченко О.М., Феферман О.Д., Хрущак С.В. Вокодер LSF зі швидкістю 1600 біт/с // Вісник ВПІ. -- 2006. -- № 1. -- С. 78-86.

5. Lahouti F., Khandani A.K. Quantization of LSF parameters using trellis modeling // IEEE Transactions on Speech and Audio Processing. -- 2003. -- vol. 11, N 5. -- Р. 400-412.

6. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов / Пер. с англ. -- М.: Радио и связь, 1981. -- 496 с.

7. Lahouti F., Fazel A.R., Safavi-Naeini A.H. Single and Double Frame Coding of Speech LPC Parameters Using a Lattice-based Quantization Scheme. -- Department of Electrical and Computer Engineering, Technical report, 2004. -- 22 p.

Надійшла до редакції 11.01.2007

Размещено на Allbest.ru

...

Подобные документы

  • Процесс создания канального вокодера. Программа на языке Matlab, модель, созданная с помощью системы Matlab Simulink. Осуществление сжатия и восстановления речевого сигнала в реальном времени до уровня не более 4800 бит/с с удовлетворительным качеством.

    курсовая работа [393,7 K], добавлен 12.03.2009

  • Аналіз роботи алгоритму порозрядного зважування, визначення часу і похибок перетворення по відомим крокам квантування та рівню вхідного сигналу. Оцінка роботи кодера на прикладі генерації циклічного корегуючого коду при заданому рівнянні полінома.

    контрольная работа [937,5 K], добавлен 07.12.2010

  • Общая характеристика закона Хипса и Ципфа. Особенности ранжированного поиска. Рассмотрение примеров косинусной близости. Анализ основных способов сокращения индекса. Знакомство с основными моделями векторного пространства. Проблемы отсечения кластеров.

    презентация [565,1 K], добавлен 06.01.2014

  • Процесори ІA-32 дозволяють реалізувати різні моделі пам'яті. Найпростішу організацією має плоска модель пам'яті: уся пам'ять представляється єдиною лінійною послідовністю байт. Найскладнішою є сегментована захищена модель - основна модель пам'яті.

    лекция [39,6 K], добавлен 13.04.2008

  • Дослідження базових елементів булевої логіки, для чого використовують логічні елементи потенціального типу на біполярних транзисторах (мікросхема К155ЛАЗ). Рівні відліків цифрового сигналу, відносно шасе. Допустима границя статичної завадостійкості.

    реферат [243,5 K], добавлен 05.03.2011

  • Визначення параметрів цифрового сигналу на виході АЦП. Розробка структури цифрового лінійного тракту, розрахунок його завадостійкості. Аналіз роботи демодулятора. Ймовірність помилкового прийому комбінації коду Хемінга та безнадлишкового коду МТК-2.

    курсовая работа [1,1 M], добавлен 06.08.2013

  • Алгоритм реализации векторного пространства, метод фильтрации шумов на изображении. Формально-логическая модель разработки программного обеспечения, выбор инструментальных средств его реализации. Анализ точности совпадения распознанного изображения.

    дипломная работа [2,7 M], добавлен 13.02.2013

  • Програмна робота з графами: операції їх зчитування, збереження та обробки у вигляді перевірки на симетричність та орієнтованість. Основи пошуку в графі в різних напрямках. Розбиття множини вершин на класи еквівалентності за відношенням зв'язності графу.

    лабораторная работа [8,3 K], добавлен 11.05.2011

  • Відновлення вхідного сигналу, який заданий графо-аналітично за способом розкладання на гармоніки методом Фур'є. Збереження даних спектрального аналізу у типізованих дискових файлах. Побудова таблиці символьних імен та лістинг програми мовою Turbo Pascal.

    курсовая работа [910,1 K], добавлен 31.10.2013

  • Класичні технології розробки настільних тестових програм. Структурна модель предметної області. Підхід до побудови настільних додатків на основі веб-технологій. Диаграма класів тестової програми каріотипування людини. Вимоги до програмного забезпечення.

    дипломная работа [1,4 M], добавлен 16.09.2016

  • Розробка фільтру для обробки цифрових сигналів. Блок обробки реалізується на цифрових мікросхемах середньої ступені інтеграції. Аналіз вхідного сигналу, ідеального сигналу та шуму. Обґрунтування вибору фільтрів та алгоритму обробки вхідного сигналу.

    курсовая работа [504,4 K], добавлен 18.09.2010

  • Опис та схема процедури ініціалізації вимірювальної системи. Коефіцієнти апроксимуючого поліному. Опис та схема процедур перетворення статичного сигналу. Екранна форма програми. Опис процедури перетворення змінного сигналу. Блок-схема процедури Read_T.

    курсовая работа [187,3 K], добавлен 09.06.2010

  • История появления электронных книг, их виды, характеристика. Использование электронных книг в библиотеках, их достоинства и недостатки. Формирование электронных библиотек и коллекций. Критерии предоставления электронных книг пользователям, хранение фонда.

    курсовая работа [66,9 K], добавлен 05.02.2017

  • История развития и популярные модели электронных книг. Характеристика электронных книг c LCD-, ChLCD-дисплеем, E-Ink дисплеем. Преимущества и недостатки электронных книг по сравнению с бумажными, перспективы их развития и популярность у потребителей.

    реферат [2,9 M], добавлен 09.04.2014

  • Модель в об’єктно-орієнтованих мовах програмування. Програмна модель створена на мові програмування С++, в середовищі програмування Borland С++ Builder 6.0. Вибір засобів реалізації програми. Види інструментів для об'єктно-орієнтованої розробки.

    курсовая работа [116,9 K], добавлен 06.06.2010

  • У статті проведено розрахунок ефективності роботи системи електронного документообіг по результатам функціонування за 12місяців. На основі проведеного розрахунку надано рекомендації щодо оцінки поточної роботи виконавців.

    статья [165,5 K], добавлен 15.07.2006

  • Структурна і функціональна схема комутації мікросхеми. Синтез T-тригера та D-тригера на основі універсального JК-тригера. Завантаження в тригер сигналу. Робота в статичному режимі. Контроль станів тригера до виходів. Сигнали з тумблерних регістрів.

    лабораторная работа [835,2 K], добавлен 19.03.2011

  • Запуск Microsoft Excel, вікно процесора Excel, вікно діалогу, вікна книг. Робота з аркушами книг. Створення, відкриття і збереження файлів книг, введення і редагування даних. Робота з діапазоном. Виділення діапазону. Редагуванняя виділеного фрагменту.

    реферат [87,0 K], добавлен 25.06.2003

  • Разработка с помощью пакета MATLAB ряда функций, осуществляющих сжатие речи по алгоритму векторного квантования, обеспечивающих сжатие речи до уровня 2400 бит/с и ниже, несколько ступеней сжатия. Дикторо-зависимый и дикторо-независимый режимы системы.

    курсовая работа [1,1 M], добавлен 12.03.2009

  • Обчислення оптимальних показників на основі математичних розрахунків. Спрощена математична модель. Перебір варіантів булевих змінних і вибір оптимального за цільовою функцією. Теоретичні положення методу гілок та меж. Кінцева множина допустимих рішень.

    курсовая работа [1,8 M], добавлен 19.09.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.