Кодеры речи
Кодирование речи методом RPE/LPC/LTP. Сравнительные испытания всех кодеров. Значения импульсной характеристики. Пример децимации и селекции импульсов. Анализ речевых сигналов кодером речи. Исследование статистических характеристик фонем различных классов.
Рубрика | Коммуникации, связь, цифровые приборы и радиоэлектроника |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 19.11.2017 |
Размер файла | 653,4 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
1. Кодеры речи
кодер речь импульс фонема
1.1 Кодирование речи методом RPE/LPC/LTP
1.1.1 RPE -LTP -кодер на 16 кбит/с
В 1990 г. предполагалось ввести в эксплуатацию Европейскую цифровую подвижную систему радиосвязи, в которой будет использоваться кодирование речевого сигнала со скоростью 16 кбит/с. Разработка кодера производилась в 7 Европейских странах, а также в США и Канаде. Были разработаны следующие системы: адаптивное дифференцирование ИКМ -ADPCM; адаптивное кодирование преобразованием - APC; кодирование с линейным предсказанием с возбуждением от остатка - RELP-LPC; кодирование с линейным предсказанием с возбуждением от регулярных импульсов - RPE-LPC; кодирование с линейным предсказанием с многоимпульсным возбуждением - MPE-LPC, субполюсное кодирование -SBC -APCM.
В конце разработки были проведены сравнительные испытания всех кодеров. Испытания проводились на 7 языках. В результате испытаний были отобраны два кодера: RPE (Regular-Pulse Excitation) - линейное предсказание с возбуждением от регулярных импульсов с долговременным предиктором LTP (Long Term Predictor) и MPE-LTP -линейное предсказание с многоимпульсным возбуждением с долговременным предиктором LTP.
RPE - алгоритм предполагает, что сигнал остатка в линейном предсказании представляется последовательностью прореженных регулярных импульсов, но с большим числом импульсов в кадре, чем в многоимпульсном возбуждении MPE. RPE кодеры менее сложные, однако качество речи при их использовании недостаточно хорошее из-за наличия в сигнале тонального шума, который получается в речевом сигнале в процессе высокочастотной регенерации. В противоположность RPE-кодеру, кодер с многоимпульсным возбуждением MPE создает отличное качество речи, но является достаточно сложным. Компромиссом между этими двумя вариантами является RPE-LTP кодер, т. е. линейное предсказание с возбуждением от регулярных импульсов и с долговременным предиктором - LTP. В передающей части кодера производится кратковременный LPC анализ, долговременный LTP анализ и кодирование регулярных импульсов RPE -кодером (рис. 1).
Коэффициенты отражения кратковременного предсказания получают по методу Берга для РФ 8-го порядка. В кратковременном LPC анализе производится выделение коэффициентов отражения , преобразование их в коэффициенты логарифма площади (log-area-ratios), кодирование и передача их на прием. Коэффициенты квантуют следующим образом: при i равном 1 и 2; 3 и 4; 5 и 6; 7 и 8 число бит на коэффициент соответственно равно 6; 5; 4; 2. Итого, на 8 коэффициентов отводится 36 бит в кадре длительностью 20 мс.
Рисунок 1. Структурная схема кодера на 13 кбит/с
В приемнике коэффициенты вновь преобразуются в коэффициенты отражения , которые затем используются для формирования инверсного решетчатого фильтра. На выходе кратковременного LPC -анализатора появляется сигнал остатка, который поступает на долговременный LTP -анализатор.
Долговременный предиктор LTP размещается после кратковременного. Делается это для устранения периодичности, которая еще сохраняется в сигнале остатка кратковременного предиктора. Такое размещение предикторов является наиболее приемлемым с точки зрения получения лучшего качества речи. Долговременный предиктор характеризуется выражением
.
Коэффициенты отражения долговременного предсказания определяются также методом Берга для РФ 3-го порядка. На передачу каждого коэффициента отводится 3 бита в кадре. Коэффициенты предсказания предиктора определяются путем минимизации энергии остатка предсказания.
Взвешивающий фильтр с передаточной функцией используется для корректировки формантных областей в спектре остатка предсказания относительно уровня шума квантования. Осуществляется это путем выбора . Оптимальное значение определено путем прослушивания. Оно оказалось равным 0,7 … 0,9. При этом воспринимаемое значение шума квантования становится минимальным. Длительность импульсной характеристики составляет 11 выборок, при частоте дискретизации 8 кГц. Значения импульсной характеристики для соответствующих выборок с индексом представлены в таблице 1.
Таблица 1. Значения импульсной характеристики
6 |
5(=7) |
4(=8) |
||
1,000000 |
0,700790 |
0,250793 |
||
2(=9) |
2(=10) |
1(=11) |
||
0,000000 |
-0,045649 |
-0,016356 |
Выход взвешивающего фильтра для каждого субкадра, длительностью 5 мс является , где номер выборки сигнала в субкадре с частотой дискретизации 8 кГц.
В соответствии с RPE алгоритмом, для уменьшения количества передаваемых дискретных отсчетов процесса, он подвергается предварительной обработке. Дискретизированные с частотой 8 кГц отсчеты речи разбиваются на кадры, длительностью 20 мс, и 4 субкадра по 5 мс. Субкадры процесса на выходе НЧ фильтра, длительностью 5 мс и состоящие из 39 отсчетов, подвергается децимации (прореживанию) в соотношении 1:3. В результате получаются три выборки по 13 импульсов в каждой. Фазы этих последовательностей сдвинуты друг относительно друга на одну выборку (0,125 мс) (рис. 2).
Далее производится выбор номера одной из этих трех последовательностей, обладающей с максимальной энергией, т. е. . В выбранной последовательности определяется импульс с максимальной амплитудой (масштабный) импульс . В каждом 5 мс субкадре на передачу номера последовательности с максимальной энергией затрачивается 2 бита, а на передачу - 6 бит. кодируется по логарифмическому закону.
Кроме того, передаются амплитуды всех 13 импульсов выбранной последовательности с максимальной энергией. При этом на передачу каждого импульса затрачивается 3 бита. На всю последовательность затрачивается бит в субкадре или бит в кадре.
На рис.3.2 приводится распределение битов по параметрам в 20 мс кадре: 8 коэффициентов ; 4 коэффициента ; 4 коэффициента ; 4 коэффициента ; 4 значения ; 4 значения всех 13 импульсов . Итого 260 бит/кадр.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Рисунок 2. Пример децимации и селекции импульсов
При частоте кадров 50 Гц общая информационная скорость составляет кбит/с. Для синхронизации и защиты от ошибок в канале связи отводится 3 кбит/с.
Кодер RPE-LTP-LPC обеспечивает высокое качество речи, которое незначительно снижается при 5% ошибок в канале связи и при отношениях сигнал/помеха 26 и 18 дБ. Кодер может быть реализован на одном цифровом процессоре типа TMS320C25 с внешней памятью.
2. Анализ речевых сигналов кодером речи
В работе целью исследования было показать различные изменения статистических характеристик фонем речи в процессе кодирования речи методом RPE/LPC/LTP. Для этого анализировались сигналы, относящиеся к различным классам фонем (гласные «У», полугласные «Р», согласные носовые «М», согласные взрывные невокализированные «П», фрикативные вокализированные «Ж»). Физические процессы, лежащие в основе формирования этих фонем, существенно отличаются. Математически они описываются различными системами линейных и нелинейных уравнений. Поэтому статистические характеристики различных классов фонем существенно отличаются. Сформированные сигналы можно отнести к квазипериодическим (гласные и полугласные), сигналам со смешанным спектром (вокализированные), квазишумовым (невокализированные) и другие.
Различия в формировании анализируемых фонем существенным образом влияют на характеристики сигналов в процессе их кодирования. Параметры обеляющих РФ определяются величиной корреляции сигналов, которые зависят от формы и ширины полосы спектров анализируемых сигналов. При этом следует учитывать, что количество звеньев РФ кратковременного и долговременного предсказания фиксировано. Поэтому синтезируемые модели линейного предсказания кодируемых процессов не имеют оптимального порядка. Особенно на характеристики модели влияет ограниченность длины выборки (160 отсчетов). Следует также отметить, что в большинстве случаев при кодировании речи определяются статистические характеристики не только «чистых» фонем, а переходные участки от одной фонемы к другой, не установившиеся начальные и конечные участки фонем. На статистические характеристики речи оказывает влияние интонация, звуковые помехи окружающей среды и другие факторы.
2.1 Исследование статистических характеристик фонем различных классов в процессе кодирования речи
2.1.1 Исследование гласной фонемы «У»
Для исследования использовался алгоритмический макет, выполненный с помощью разработанной программы в среде MATLAB. На рис. 3 представлен сигнал фонемы «У», поступающий на вход блока LPC. Как видно из графика, сигнал гласной является стационарным процессом. В нем присутствует колебания с несколькими различными частотами, что проявится в форме корреляционной функции и СПМ.
Рисунок 3. Мгновенные значения фонемы «У»
Свойства сигнала наглядно видны по изменению корреляционной функции, представленной на рис. 4. Как видно из графика период основного тона составляет 130 отсчетов. В корреляционной функции также присутствуют колебания с различной частотой. Это приводит к росту порядка модели АР и многомодовости параметрической СПМ. Большой интервал затухания корреляционной функции свидетельствует об узкополосности сигнала фонемы «У». Квазипериодичность корреляционной функции свидетельствует о квазидетерминированности гласных фонем.
Рисунок 4. Корреляционная функция фонемы «У»
На рис. 5 представлена СПМ, полученная преобразованием Фурье от корреляционной функции фонемы (рис. 4). Из графика видно наличие нескольких низкочастотных мод (150-400 Гц). Дисперсия оценки значительна, т.к. не использовалось сглаживающее окно.
Рисунок 5. СПМ фонемы «У», полученная преобразованием Фурье корреляционной функции
Параметрическая оценка спектра на основе модели авторегрессии 16 порядка представлена на рис. 6. Как видно из графика параметрический спектр АР(16) фонемы имеет две основные моды на частотах (примерно 200 Гц и 2400 Гц). Сравнение графиков спектра на рис. 5 и 6 показывает достоинство параметрической оценки спектра, имеющей меньшую дисперсию. Однако для 16 порядка отсутствует разрешение пика в районе 200 Гц. Для повышения разрешающей способности на рис. 7 приведен график СПМ, полученный по АР(50). Анализ графика показывает наличие двух мод на низкой частоте (рис. 5). Однако при высоких порядках проявляется недостаток параметрических спектров, заключающийся в появлении ложных пиков небольшой высоты. Поэтому для сложных сигналов с многомодовым спектром и близко расположенными пиками необходимо тщательно подбирать порядок модели.
Рисунок 6. Параметрическая СПМ фонемы «У» найдена по модели авторегрессии при р=16
Рисунок 7. Параметрическая СПМ фонемы «У» найдена по модели авторегрессии при р=50
В процессе кодирования фонемы сигнал подвергается обелению. Восьмизвенный решетчатый фильтр краткосрочного предсказания существенно преобразовывает входной коррелированный процесс в квазишумовой сигнал. Т.к. в кодере речи стандарта GSM порядок фильтра не адаптируется к кодируемому процессу, то на выходе LPC сигнал не является истинным белым шумом. Таким образом, на выходе фильтра получается не ошибка предсказания, а частично коррелированный остаток предсказания. Мгновенные значения остатка предсказания на выходе блока LPC представлены на рис. 8. Как видно из графика, процесс является существенно обеленным.
Рисунок 8. Сигнал фонемы «У» на выходе блока LPC
Частичная коррелированность остатка предсказания фонемы «У» видна на графике корреляционной функции, представленной на рис. 9. На близость анализируемого процесса к белому шуму указывает быстрое спадание к нулю корреляционной функции при малых сдвигах. В то же время наличие значительных колебаний корреляционной функции вокруг нулевой линии свидетельствует о наличии слабой корреляции. Значительные пики для сдвигов 130, 260 отсчетов указывают на наличие периода основного тона в корреляционной функции остатка предсказания. Это связано с тем, что восьмизвенным фильтром невозможно обелить процесс, имеющих колебания с большим периодом (для фонемы «У» 130 отсчетов).
Рисунок 9. Корреляционная функция фонемы «У» на выходе блока LPC
Спектр Фурье фонемы «У» на выходе блока LPC представлен на рис. 10. Как видно из графика, он несколько отличается от равномерного спектра белого шума. Аналогичный вид (рис. 10) имеет СПМ, полученная по модели АР(50).
Рисунок 10. Спектр Фурье фонемы «У» на выходе блока LPC
Рисунок 11. Параметрическая СПМ фонемы «У» найдена по модели авторегрессии при р=50
При прохождении остатка предсказания фонемы «У» через трехзвенный решетчатый фильтр долговременного предсказания происходит его дальнейшее обеление. Это наглядно видно из графика корреляционной функции остатка предсказания на выходе блока LTP, показанного на рис. 12. Анализ графика показывает уменьшение дисперсии корреляционной функции. Однако пики с периодом основного тона остаются значительными.
Рисунок 12. Корреляционная функция фонемы «У» на выходе блока LTP
Параметрическая оценка спектра остатка предсказания на выходе блока LTP показана на рис. 13. Из графика видно наличие слабых пиков, особенно на низких частотах. Отличие остатка предсказания от белого шума требует его передачи после прореживания на приемник мобильной станции абонента.
Рисунок 14. Параметрическая СПМ фонемы «У» на выходе блока LTP
2.1.2 Исследование полугласной фонемы «Р»
На рис. 15 представлен сигнал фонемы «Р» на входе блока LPC. Как видно из графика, сигнал полугласной является квазистационарным процессом. В нем присутствует колебания с несколькими различными частотами, что проявится в форме корреляционной функции и СПМ.
Рисунок 15. Мгновенные значения фонемы «Р»
Свойства сигнала наглядно видны по изменению корреляционной функции, представленной на рис. 16. Как видно из графика период основного тона определить для этой фонемы сложно. В корреляционной функции присутствуют неоднородные низкочастотные колебания. Большой интервал затухания корреляционной функции свидетельствует об узкополосности сигнала фонемы «Р». Квазипериодичность корреляционной функции свидетельствует о квазидетерминированности полугласной фонемы.
Рисунок 16. Корреляционная функция фонемы «Р»
На рис. 17 представлена СПМ, полученная преобразованием Фурье от корреляционной функции фонемы (рис. 16). Из графика видно наличие нескольких низкочастотных мод (150-250 Гц). Дисперсия оценки значительна, т.к. не использовалось сглаживающее окно.
Рисунок 17. СПМ фонемы «Р», полученная преобразованием Фурье корреляционной функции
Параметрическая оценка спектра на основе модели авторегрессии 10 порядка представлена на рис. 18. Как видно из графика параметрический спектр АР(10) фонемы имеет основную моду на частоте примерно 200 Гц. Сравнение графиков спектра на рис. 17 и 18 показывает достоинство параметрической оценки спектра, имеющей меньшую дисперсию. Для повышения разрешающей способности, получен спектр по модели АР(16) (рис. 19). Однако и для 16 порядка отсутствует разрешение пика в районе 200 Гц. Однако при высоких порядках проявляется недостаток параметрических спектров, заключающийся в появлении ложных пиков небольшой высоты. Поэтому для сложных сигналов с многомодовым спектром и близко расположенными пиками необходимо тщательно подбирать порядок модели.
Рисунок 18. Параметрическая СПМ фонемы «Р» по модели авторегрессии при р=10
Рисунок 19. Параметрическая СПМ фонемы «Р» по модели авторегрессии при р=16
Восьмизвенный решетчатый фильтр краткосрочного предсказания преобразовывает входной коррелированный процесс в квазишумовой сигнал. Т.к. в кодере речи стандарта GSM порядок фильтра не адаптируется к кодируемому процессу, то на выходе LPC сигнал не является истинным белым шумом. Таким образом, на выходе фильтра получается не ошибка предсказания, а частично коррелированный остаток предсказания. Мгновенные значения остатка предсказания на выходе блока LPC представлены на рис. 20. Как видно из графика, процесс является существенно обеленным.
Рисунок 20. Мгновенные значения фонемы «Р» на выходе блока LPC
Частичная коррелированность остатка предсказания фонемы «Р» видна на графике корреляционной функции, представленной на рис. 21. На близость анализируемого процесса к белому шуму указывает быстрое спадание к нулю корреляционной функции при малых сдвигах. В то же время наличие значительных колебаний корреляционной функции вокруг нулевой линии свидетельствует о наличии слабой корреляции.
Рисунок 21. Корреляционная функция фонемы «Р» на выходе блока LPC
Спектр Фурье фонемы «Р» на выходе блока LPC представлен на рис. 22. Как видно из графика, он несколько отличается от равномерного спектра белого шума. Аналогичный вид (рис. 23) имеет СПМ, полученная по модели АР(16).
Рисунок 22. СПМ фонемы «Р» на выходе блока LPC
Рисунок 23. Параметрическая СПМ фонемы «Р» по модели авторегрессии при р=16
При прохождении остатка предсказания фонемы «Р» через трехзвенный решетчатый фильтр долговременного предсказания происходит его дальнейшее обеление. Это наглядно видно из графика корреляционной функции остатка предсказания на выходе блока LTP, показанного на рис. 24. Анализ графика показывает уменьшение дисперсии корреляционной функции.
Рисунок 24. Корреляционная функция фонемы «Р» на выходе блока LTP
Параметрическая оценка спектра остатка предсказания на выходе блока LTP показана на рис. 25. Из графика видно наличие слабых пиков, особенно на низких частотах. Отличие остатка предсказания от белого шума требует его передачи после прореживания на приемник мобильной станции абонента.
Рисунок 25. Параметрическая СПМ фонемы «Р» по модели авторегрессии при р=16 на выходе блока LTP
2.1.3 Исследование согласной носовой фонемы «М»
На рис. 26 представлен сигнал фонемы «М» на входе блока LPC. Как видно из графика, сигнал согласной носовой является стационарным процессом. В нем присутствует колебания с несколькими различными частотами, что проявится в форме корреляционной функции и СПМ.
Рисунок 26. Мгновенные значения фонемы «М»
Свойства сигнала наглядно видны по изменению корреляционной функции, представленной на рис. 27. Как видно из графика период основного тона составляет 125 отсчетов. В корреляционной функции присутствуют неоднородные низкочастотные колебания. Большой интервал затухания корреляционной функции свидетельствует об узкополосности сигнала фонемы «М». Квазипериодичность корреляционной функции свидетельствует о квазидетерминированности согласной носовой фонемы.
Рисунок 27. Корреляционная функция фонемы «М»
На рис. 22 представлена СПМ, полученная преобразованием Фурье от корреляционной функции фонемы (рис. 27). Из графика видно наличие ярко выраженной низкочастотной моды на частоте 150 Гц. Дисперсия оценки спектра весьма значительна, т.к. не использовалось сглаживающее окно.
Рисунок 28. СПМ фонемы «М», полученная преобразованием Фурье корреляционной функции
Параметрическая оценка спектра на основе модели авторегрессии 10 порядка представлена на рис. 29. Как видно из графика параметрический спектр АР(10) фонемы имеет основную моду на частоте примерно 150 Гц. Сравнение графиков спектра на рис. 28 и 29 показывает достоинство параметрической оценки спектра, имеющей меньшую дисперсию.
Рисунок 29. Параметрическая СПМ фонемы «М» найдена по модели авторегрессии при р=10
Восьмизвенный решетчатый фильтр краткосрочного предсказания преобразовывает входной коррелированный процесс в квазишумовой сигнал. Т.к. в кодере речи стандарта GSM порядок фильтра не адаптируется к кодируемому процессу, то на выходе LPC сигнал не является истинным белым шумом. Таким образом, на выходе фильтра получается не ошибка предсказания, а частично коррелированный остаток предсказания. Мгновенные значения остатка предсказания на выходе блока LPC представлены на рис. 30. Как видно из графика, процесс является существенно обеленным.
Рисунок 30. Сигнал фонемы «М» на выходе блока LPC
Частичная коррелированность остатка предсказания фонемы «М» видна на графике корреляционной функции, представленной на рис. 31. На близость анализируемого процесса к белому шуму указывает быстрое спадание к нулю корреляционной функции при малых сдвигах. В то же время наличие значительных колебаний корреляционной функции вокруг нулевой линии свидетельствует о наличии слабой корреляции.
Рисунок 31. Корреляционная функция фонемы «М» на выходе блока LPC
Спектр Фурье фонемы «М» на выходе блока LPC представлен на рис. 32. Как видно из графика, он несколько отличается от равномерного спектра белого шума. Аналогичный вид (рис. 4.30) имеет СПМ, полученная по модели АР(10).
Рисунок 32. СПМ фонемы «М» на выходе блока LPC
Рисунок 33. Параметрическая СПМ фонемы «М» найдена по модели авторегрессии при р=10
При прохождении остатка предсказания фонемы «М» через трехзвенный решетчатый фильтр долговременного предсказания происходит его дальнейшее обеление. Это наглядно видно из графика корреляционной функции остатка предсказания на выходе блока LTP, показанного на рис. 34. Анализ графика показывает уменьшение дисперсии корреляционной функции.
Рисунок 34. Корреляционная функция фонемы «М» на выходе блока LTP
Параметрическая оценка спектра остатка предсказания на выходе блока LTP показана на рис. 35. Из графика видно наличие слабых пиков, особенно на низких частотах. Отличие остатка предсказания от белого шума требует его передачи после прореживания на приемник мобильной станции абонента.
Рисунок 35. Параметрическая СПМ фонемы «М» на выходе блока LTP
В табл. 1 представлены параметры, при которых проводились исследования преобразования фонем в кодере речи, а также результаты расчета коэффициентов отражения фильтров кратковременного и долговременного предсказания. Указаны также порядки модели АР, используемые при построении параметрических спектров. Из таблицы видно, что, несмотря на близость параметрических спектров для многих фонем, коэффициенты отражения имеют заметные отличия. Эти отличия формируют разные фонемы в процессе декодирования речевого сигнала.
2.2 Структура декодера речи в стандарте GSM
Структурная схема декодера речи в стандарте GSM представлена на рис. 36. В декодере речевой сигнал восстанавливается по откликам последовательности регулярного импульсного возбуждения двухступенчатым синтезирующим фильтром.
Рисунок 36. Структурная схема декодера речи стандарта GSM
Рассмотрим кратко структуру и работу декодера - синтезатора речи показанного на рис. 36. Из канала связи данные с помощью демультиплексора распределяются по различным блокам декодера. На блок RPE декодера поступают номер последовательности , максимальное значение импульса выборки , представляющей собой прореженный остаток предсказания. Здесь отсчеты выборки масштабируются и дополняются нулями в точках децимации. Восстановленная таким образом выборка подается на LTP - синтезатор. Его функции выполняет генератор с передаточной функцией . На него подаются с демультиплексора коэффициенты отражения долговременного предсказания и период основного тона . Синтезированный сигнал с восстановленной долговременной составляющей, подается на блок LPC синтезатора, представляющий собой генератор кратковременного предсказания на РФ восьмого порядка с передаточной функцией . Коэффициенты отражения на этот РФ поступают с демультиплексора через преобразователь коэффициента логарифма площади в по формуле
.
Сигнал с выхода LPC-синтезатора для уменьшения шумов квантования поступает на постфильтр, на выходе которого получают декодированный речевой сигнал .
Кодеры с линейным предсказанием создают речь хорошего и отличного качества при скоростях передачи 9,6 кбит/с и выше. При скоростях ниже 9,6 кбит/с качество речи становится хуже из-за увеличения шумов квантования. Для уменьшения их влияния осуществляется так называемая постфильтрация, с помощью которой изменяется спектр речевого сигнала так, что субъективно уменьшает восприятие шума квантования.
Постфильтр получается с помощью LPC - анализатора, в котором содержится инверсный фильтр
.
Рассмотрим взвешенный инверсный фильтр
.
Коэффициент взвешивания не изменяет положение формантных частот, а изменяет только ширину формантных областей. Взвешенный инверсный фильтр определяет полюса фильтра. Нули постфильтра определяет взвешенный инверсный фильтр вида
При этих обозначениях передаточная характеристика постфильтрапримет вид
,
где и - коэффициенты взвешивания; и - порядок взвешивающих фильтров.
Эти параметры постфильтра обеспечивают необходимый вид спектральной характеристики постфильтра и формирование формантных областей. При одних значениях области формант обостряются, при других - расширяются. При значениях постфильтр имеет провалы в местах расположения формант, т. е. происходит искажение формантной структуры. Поэтому должно соблюдаться условие .
Постфильтр распределяет шумы квантования таким образом, что их величина становится больше в формантных областях и меньше междуформантными областями в спектральных впадинах. Таким путем уменьшается субъективное восприятие шума. В местах расположения формант шумы квантования маскируются речевым сигналом.
Но одновременно постфильтр искажает речевой сигнал. Параметры постфильтра выбираются так, чтобы не допустить больших искажений речи и по возможности уменьшить шумы квантования. Параметры постфильтра и были определены экспериментально прослушиванием речи на выходе кодера. Они оказались равными =0.95, =0.5…0.7. При этих значениях и получено повышение сегментального отношения сигнал/шум на 7…8 дБ и повышение разборчивости речи. Таким образом, постфильтрация позволяет не только улучшить качество звучания, но и повысить разборчивость речевого сигнала на выходе кодера.
Теоретически время задержки речевого сигнала в кодеке равно длительности сегмента и составляет 20 мс. Реальное время задержки, с учетом операций канального кодирования и перемежения, а также физического выполнения рассматриваемых операций, составляет 70 - 80 мс.
2.3 Решетчатый фильтр модели СВСП
На рис. 37 показана схема трехзвенного РФ долговременного предсказания.
Рисунок 37. РФ долговременного предсказания
Для нахождения коэффициентов отражения РФ долговременного анализа используется формула:
где - длина выборки, - порядок фильтра, - длина подвектора, - ошибка прямого преобразования, - ошибка обратного преобразования.
Работа РФ с использованием модели СВСП характеризуется графиками на рис. 38 и рис. 39 корреляционных функций сигналов на выходе блоков LTP для фонемы “O”. Сравнение графиков показывает, что корреляционная функция сигала на выходе обеляющего РФ с использованием представления СВСП заметно снижает дисперсию корреляционной функции, уменьшает уровень пика при сдвиге, равном периоду ОТ.
Рисунок 38. Корреляционная функция сигнала на выходе блока LTP
Рисунок 39. Корреляционная функция сигнала на выходе блока LTP в представлении СВСП
2.4 Генерация случайных процессов с использованием решетчатых фильтров
Обеляющий и формирующий решетчатые фильтры обратимы. Если на вход обеляющего РФ подается коррелированный случайный процесс, т. е. , то на выходе получаем ошибку предсказания типа белого шума . В случае же когда на выход обеляющего РФ подается случайный процесс типа белого шума, то есть , то на его входе формируется коррелированный случайный процесс, т. е. . Свойство обратимости РФ, например, эффективно применяется для анализа и синтеза речевого сигнала в кодеках речи.
Для генерации коррелированного случайного процесса можно использовать формирующий фильтр на базе РФ с обратной связью. Структура такого генератора приведена на рис. 40. Работа генератора на РФ описывается системой двух уравнений
(3.7)
(3.8)
Применение для генерации РФ гарантирует стабильность работы генератора, т.к., что является необходимым условием, чтобы передаточная функция была минимально фазовой функцией и ее полюсы находились внутри единичного круга на комплексной плоскости.
Рисунок 40. Генератор коррелированного случайного процесса на решетчатом фильтре с обратной связью
Генерирование случайного процесса возможно, когда известны коэффициенты отражения. Оценки коэффициентов отражения реальных сигналов получают по приведенным выше формулам. В качестве порождающего процесса используют гауссов или негауссов БШ.
2.5 Кодек речи с использованием метода представления сигнала в виде СВСП
На рис. 41 представлена структурная схема кодека речевого сигнала, где для учета долговременных изменений речи применен метод представления сигнала в виде СВСП. Отличие данного кодека, от используемого на практике, это отсутствие блока вычисления периода основного тона. Такой метод кодирования-декодирования речи должен сократить количество вычислений процессора обработки сигнала, при этом сохранив качество речи, существующей на данный момент системы мобильной связи GSM 06.10.
Рисунок 41. Структурная схема кодека речи
X(t) - аналоговый сигнал; fd - частота дискретизации; АЦП - аналого-цифровой преобразователь; LPC - (eng. Linear Predictive Coding) фільтр кратко временного предсказания; LTP - (eng. Long Term Prediction) фільтр долговременного предсказания; RPE - (eng. Regular Pulse Excition) регулярное импульсное возбуждение; РФ - решетчатый фильтр; X1(t) - оцифрованный сигнал; X2(t), X3(t) - остатки предсказания РФ кратковременного и долговременного анализа; X5(t), X6(t) - восстановленные остатки предсказания фильтров LPC и LTP соответственно; X7(t) - Восстановленная речь в цифровом виде.
3. Результаты исследований кодека речевого сигнала
В данном разделе представлено исследование работы кодека речи на разных этапах прохождения сигнала через функциональные блоки обработки информации. Структурная схема кодека была показана на рис. 41. Для моделирования использовалась программа, разработанная в среде MATLAB.
3.1 Исследования работы кодека для фонемы «О»
На рис. 42 представлен график мгновенных значений оцифрованной фонемы с частотой дискретизации 8 кГц. Из графика видно, что сигнал является стационарным процессом, в котором присутствуют колебания с несколькими частотами.
Рисунок 42. Мгновенное значение фонемы «О»
На рис. 43 показан график АКФ выборки фонемы «О». Пик, приходящийся на 151 отсчет, характеризует наличие в сигнале периода основного тона.
Рисунок 43. АКФ фонемы«О»
ПСПМ, полученная по модели АР(8), показана на рис. 44.
Рисунок 44. ПСПМ фонемы«О»
При сжатии речи, оцифрованный сигнал поступает на блок кратковременного предсказания, где получают выборочные оценки восьми коэффициентов отражения РФ, представленных на рис. 45. С ростом индекса коэффициентов отражения РФ их величина убывает, т.к. сигнал существенно обеляется.
Рисунок 45. Коэффициенты отражения фильтра LPC для фонемы «О»
АКФ остатка предсказания LPC для фонемы «О» показана на рис. 46. На рис. 46 видно, что период основного тона находится на 151 отсчете КФ и его уровень равный 0.2835. Восьмизвенный РФ не может скомпенсировать полностью колебания с периодом основного тона из-за большого периода колебаний.
Рисунок 46. АКФ остатка предсказания LPC для фонемы «О»
Остаток кратковременного предсказания поступает на РФ долговременного предсказания. В качестве фильтра применяется РФ третьего порядок. Длина подвектора для сигнала, являющегося ошибкой долговременного предсказания, представленного в виде СВСП, равна 68 отсчетов. Такая длина позволяет учесть в коэффициентах РФ третьего порядка, долговременные изменения в речи с периодом основного тона более сотни отсчетов. На рис. 47 представлены три коэффициента отражения РФ.
Рисунок 47. Коэффициенты отражения фильтра LTP с использованием СВСП представления
АКФ остатка предсказания показана на рис. 48. Несмотря на то, что уровень пика корреляционной функции со сдвигом, равном периоду основного тона снизился незначительно, громоздкие операции по определению периода основного тона не использовались. Это существенно экономит вычислительные затраты процессора при анализе речевых сигналов. Математическое ожидание модулей коэффициентов предсказания равно 0.075102. Из рисунка 48 видно, что РФ обелил частично сигнал, но сохранил информацию об основном тоне в коэффициентах отражения. Поэтому необходимо использовать в качестве порождающего процесса остаток долговременного предсказания, обработанный блоком RPE.
Рисунок 48. АКФ остатка предсказания LTP
Остаток долговременного предсказания поступает на RPE блок, где происходит прореживание ошибки предсказания по схеме: первые 10 значений остаются неизменными, т.к. при воспроизведении, такое количество показало наилучшее качество. Процедура децимации производится в соотношении один к трем.
На рис. 49 показан график АКФ сигнала, дополненного нулями, на выходе блока RPE.
Рисунок 49. АКФ на выходе блока RPE
ПСПМ сигнала поступающего в мультиплексор показана на рис. 50. Нижний уровень на графике соответствует нижнему уровню рис. 44. Как видно из рис. 50 в мультиплексор подается практически белый шум.
Рисунок 50. ПСПМ сигнала поступающего в мультиплексор
На приемной стороне принятый сигнал демультиплексируется. На вход генератора долговременного предсказания поступает сигнал, который был на выходе блока RPE и коэффициенты отражения блока LTP. На рис. 51 показана АКФ сигнала на выходе генератора долговременного предсказания.
Рисунок 51. АКФ на выходе генератора LTP
Затем сгенерированный сигнал с восстановленными долговременными изменениями поступает на генератор кратковременного предсказания. На рис. 52 изображен график АКФ восстановленной фонемы, а её ПСПМ показана на рис. 53.
Рисунок 52. АКФ восстановленной фонемы
Рисунок 53. ПСПМ восстановленной фонемы
Синтезированный сигнал соответствует кодируемому. Некоторые отличия связаны с некоторой потерей информации.
4. Результаты исследований кодека речевого сигнала
В данном разделе представлено исследование работы кодека речи на разных этапах прохождения сигнала через функциональные блоки обработки информации. Для моделирования использовалась программа, разработанная в среде MATLAB.
4.1 Исследования работы кодека для фонемы «О»
На рис. 54 представлен график мгновенных значений оцифрованной фонемы с частотой дискретизации 8 кГц. Из графика видно, что сигнал является стационарным процессом, в котором присутствуют колебания с несколькими частотами.
Рисунок 54. Мгновенное значение фонемы «О»
На рис. 55 показан график АКФ выборки фонемы «О». Пик, приходящийся на 151 отсчет, характеризует наличие в сигнале периода основного тона.
Рисунок 55. АКФ фонемы «О»
ПСПМ, полученная по модели АР(8), показана на рис. 56.
Рисунок 56. ПСПМ фонемы «О»
При сжатии речи, оцифрованный сигнал поступает на блок кратковременного предсказания, где получают выборочные оценки восьми коэффициентов отражения РФ, представленных на рис. 57. С ростом индекса коэффициентов отражения РФ их величина убывает, т.к. сигнал существенно обеляется.
Рисунок 57. Коэффициенты отражения фильтра LPC для фонемы «О»
АКФ остатка предсказания LPC для фонемы «О» показана на рис. 58. На рис. 58 видно, что период основного тона находится на 151 отсчете КФ и его уровень равный 0.2835. Восьмизвенный РФ не может скомпенсировать полностью колебания с периодом основного тона из-за большого периода колебаний.
Рисунок 58. АКФ остатка предсказания LPC для фонемы «О»
Остаток кратковременного предсказания поступает на РФ долговременного предсказания. В качестве фильтра применяется РФ третьего порядок. Длина подвектора для сигнала, являющегося ошибкой долговременного предсказания, представленного в виде СВСП, равна 68 отсчетов. Такая длина позволяет учесть в коэффициентах РФ третьего порядка, долговременные изменения в речи с периодом основного тона более сотни отсчетов. На рис. 59 представлены три коэффициента отражения РФ.
Рисунок 59. Коэффициенты отражения фильтра LTP с использованием СВСП представления
АКФ остатка предсказания показана на рис. 60. Несмотря на то, что уровень пика корреляционной функции со сдвигом, равном периоду основного тона снизился незначительно, громоздкие операции по определению периода основного тона не использовались. Это существенно экономит вычислительные затраты процессора при анализе речевых сигналов. Математическое ожидание модулей коэффициентов предсказания равно 0.075102. Из рисунка 60 видно, что РФ обелил частично сигнал, но сохранил информацию об основном тоне в коэффициентах отражения. Поэтому необходимо использовать в качестве порождающего процесса остаток долговременного предсказания, обработанный блоком RPE.
Рисунок 60. АКФ остатка предсказания LTP
Остаток долговременного предсказания поступает на RPE блок, где происходит прореживание ошибки предсказания по схеме: первые 10 значений остаются неизменными, т.к. при воспроизведении, такое количество показало наилучшее качество. Процедура децимации производится в соотношении один к трем.
На рис. 61 показан график АКФ сигнала, дополненного нулями, на выходе блока RPE.
Рисунок 61. АКФ на выходе блока RPE
ПСПМ сигнала поступающего в мультиплексор показана на рис. 62. Нижний уровень на графике соответствует нижнему уровню. Как видно из рис. 4.9 в мультиплексор подается практически белый шум.
Рисунок 62. ПСПМ сигнала поступающего в мультиплексор
На приемной стороне принятый сигнал демультиплексируется. На вход генератора долговременного предсказания поступает сигнал, который был на выходе блока RPE и коэффициенты отражения блока LTP. На рис. 63 показана АКФ сигнала на выходе генератора долговременного предсказания.
Рисунок 63. АКФ на выходе генератора LTP
Затем сгенерированный сигнал с восстановленными долговременными изменениями поступает на генератор кратковременного предсказания. На рис. 64 изображен график АКФ восстановленной фонемы, а её ПСПМ показана на рис. 65.
Рисунок 64. АКФ восстановленной фонемы
Рисунок 65. ПСПМ восстановленной фонемы
Синтезированный сигнал соответствует кодируемому. Некоторые отличия связаны с некоторой потерей информации.
4.3 Экспериментальные исследования работы РФ
Методом статистического моделирования был проведен анализ работы РФ кратковременного и долговременного предсказания. Для этого на вход фильтра подавался сигнал фонемы А, мгновенное значение которого показано на рис. 66. Из рисунка видно, что фонема представляет собой квазипериодический случайный процесс с колебаниями с различным периодом. Это подтверждается формой корреляционной функции фонемы А, показанной на рис. 67. Большой интервал затухания корреляционной функции указывает на узкополосность анализируемого сигнала.
Рисунок 66. Мгновенные значения сигнала фонемы А на входе решетчатого фильтра
Рисунок 67. Корреляционная функция входного сигнала фонемы А
Многомодовый параметрический спектр фонемы А показан на рис. 68. Он был получен по модели АР(16).
Рисунок 68. Спектр СПМ фонемы входного сигнала
Сигнал фонемы А обрабатывался восьмизвенным РФ, коэффициенты РФ рассчитывались методом Берга и представлены на рис. 69. Как видно из графика, наиболее информативными являются первый и второй коэффициенты, имеющие максимальное значение.
Рисунок 69. Зависимость коэффициента отражения от номера звена РФ
После обеления сигнала фонемы восьмизвенным РФ, выходной сигнал является квазибелым шумом (рис. 70). Выходной сигнал содержит скачки сигнала следующие с периодом ОТ. Их наличие является следствием не полной компенсации РФ пиков присутствующих во входном сигнале. Нескомпенсированные пики используются для определения периода ОТ.
Рисунок 70. Мгновенное значение ошибки предсказания фонемы А
Корреляционная функция сигнала на входе восьмизвенного РФ показана на рис. 71. Вид корреляционной функции по форме близок к дельта корреляционной функции белого шума. Спектр остатка предсказания фонемы А на выходе РФ показан на рис. 72. По сравнению с графиком, показанным на рис. 68, он больше похож на СПМ белого шума.
Рисунок 71. Корреляционная функция остатка предсказания на выходе РФ
Рисунок 72. Спектр остатка предсказания фонемы А на выходе РФ
4.4 Генерация случайных процессов на основе фильтра с решетчатой структурой
Дальнейшее развитие теории в области предсказания временных рядов на основе модели АР привело к созданию так называемых фильтров на решетчатых структурах. Реализация решетчатых структур в виде решетчатых фильтров (РФ) предсказания по методу наименьших квадратов выявила целый ряд достоинств РФ. Особенно это касается адаптивных методов обработки случайных процессов. В стандарте GSM осуществляется адаптивная блочная обработка речи на основе фильтров предсказания с решетчатой структурой. Блочная адаптивная обработка процессов отличается от пошаговой тем, что параметры фильтра пересчитываются не с получением каждого нового отсчета данных, а по последовательным блокам данных[5]. Параметры речи, а также процесс на выходе адаптивного РФ сформированные кодером на передающем сотовом телефоне, покадрово передаются через базовую станцию на приемник сотового телефона корреспондента. Декодер сотового телефона по принятым данным восстанавливает речевой сигнал. Для генерации речи применяется формирователь на базе РФ с обратной связью. Структура такого генератора приведена на рис. 73.
Рисунок 73. Генератор коррелированного случайного процесса на решетчатом фильтре с обратной связью
РФ с прямым прохождением сигнала и РФ с обратной связью, имеющие одинаковые коэффициенты отражения, выполняют инверсные операции над входным сигналом. Если на вход РФ с прямым прохождением сигнала подается коррелированный случайный процесс, т. е. , то на выходе получаем ошибку предсказания типа белого шума . В случае же когда на вход РФ с обратной связью подается случайный процесс типа белого шума, т. е. , то на выходе формируется коррелированный случайный процесс, т. е. .
Работа генератора с кратковременным предсказанием на РФ описывается системой двух уравнений
, (2.28а)
, (2.28б)
где - коэффициенты отражения РФ; - число звеньев РФ; и - ошибки прямого и обратного предсказания в -м звене РФ в момент времени .
Применение для кодирования речи коэффициентов отражения РФ, которые являются также коэффициентами частичной корреляции случайного процесса, являются более предпочтительными, по сравнению с коэффициентами АР по следующим причинам:
гарантируется стабильность работы генератора на РФ, т. к. , а это является необходимым условием, чтобы передаточная функция была минимально фазовой функцией и ее полюсы находились внутри единичного круга на комплексной плоскости;
коэффициенты нечувствительны к ошибкам квантования;
при переходе от -звенного к -звенному фильтру, значения не пересчитываются, в то время как коэффициенты АР нужно пересчитывать заново;
коэффициенты отражения анализирующего и синтезирующего фильтров совпадают, что, впрочем, характерно и для коэффициентов АР.
В стандарте GSM в качестве порождающего процесса , который подается на вход синтезатора речи, используют ошибки предсказания анализирующего РФ, пропущенные через НЧ фильтр, с частотой среза 3-4 кГц. Хотя такой способ возбуждения требует существенного увеличения скорости передачи до 9.4 кбит/с, качество восстановленного в декодере сигнала речи соответствует качеству передаваемой речи в цифровых каналах связи ISDN и превосходит качество речи в аналоговых радиотелефонных системах [10].
Высокое качество передачи речи в стандарте GSM достигается не только учетом корреляции между соседними дискретизированного речевого сигнала, но и учетом тонкой структуры речевого сигнала - корреляции между отсчетами в соседних периодах основного тона. С этой целью используются предикторы с кратковременным и долговременным предсказанием соответственно. Синтезатор речи с кратковременным предсказанием описывается системой уравнений и показан на рис. 73.
Выражение для долговременного предсказания в стандарте GSM определяется следующим образом
, (2.29)
где - число отсчетов в периоде основного тона.
Тогда передаточная функция анализирующего фильтра может быть представлена в виде
. (2.30)
Передаточная функция синтезирующего фильтра описывается выражением, аналогичным
. (2.31)
Систему уравнений описывающую синтезирующий РФ с долговременным предсказанием можно получить из
, (2.32)
. (2.33)
4.5 Анализ изменения статистических характеристик фонемы Е в процессе кодирования
В данном разделе представлены результаты изменения статистических характеристик фонемы Е в процессе кодирования. Для этого использовалась программа, разработанная в среде MATLAB.
На рис. 74 изображен сигнал фонемы Е, поступающий на блок LPC. Из графика видно, что сигнал является стационарным процессом, в котором присутствуют колебания с несколькими частотами.
Рисунок 74. Мгновенное значение фонемы Е
На рис. 75 представлена корреляционная функция входного сигнала, на котором можно наблюдать её изменения. Исходя из длинны корреляционной функции, можно сказать, что спектр фонемы Ы является узкополосным. Наличие разных периодов колебаний корреляционной функции свидетельствуют о многомодовости СПМ фонемы.
Рисунок 75. Корреляционная функция фонемы Е
На рис. 76 представлена параметрическая СПМ модели АР(16), на котором видно, что спектр фонемы Е, как и предполагалось ранее, является узкополосным. На спектре присутствуют несколько пиков: более мощных на частотах 230 Гц и 750Гц слабого на 2000 Гц.
Рисунок 76. Параметрическая СПМ фонемы Е найдена по модели АР(16)
На рис. 77 представлен график коэффициентов отражения блока LPC. Как видно из графика наибольшие по абсолютной величине значения имеют первые два коэффициента отражения, что соответствует теории кодирования речи.
Рисунок 77. График коэффициента отражения LPC блока
На рис. 78 представлены мгновенные значения остатка предсказания на выходе блока LPC. Судя по графику можно сказать, что характеристики ошибки предсказания близки к белому шуму.
Рисунок 78. Мгновенное значение остатка предсказания
На рис. 79 и рис. 80 наглядно представлена близость статистических характеристик (корреляционной функции и параметрической СПМ) остатка предсказания к характеристикам белого шума.
Рисунок 79. Корреляционная функция фонемы Е на выходе блока LPC
Рисунок 80. Спектр сигнала на выходе РФ
По графику корреляционной функции сигнала на выходе блока LPC, представленному на рис. 81 определяется период ОТ, он равен расстоянию в отсчетах от нулевого сдвига до сдвига на котором наблюдается первый пик.
Рисунок 81 График корреляционной функции для определения периода основного тона
На рис. 82 представлен график изменения коэффициентов отражения блока LTP. Приведены значения коэффициентов отражения этого фильтра. Так как долговременная корреляция остатка предсказания незначительна, коэффициенты отражения имеют малые значения. Однако они играют важную роль для придания декодируемой речи естественного звучания. Основную информацию о кодируемом фильтре несут коэффициенты решетчатого фильтра блока LPC, представленные в табл. 1.
Рисунок 82. Значение коэффициентов для фильтра LTP
4.6 Анализ изменения статистических характеристик фонемы Ы в процессе кодирования
В данном разделе представлены результаты изменения статистических характеристик фонемы Ы в процессе кодирования. Для этого использовалась программа, разработанная в среде MATLAB.
На рис. 83 изображен сигнал фонемы Ы, поступающий на блок LPC. Из графика видно, что сигнал является стационарным процессом, в котором присутствуют колебания с несколькими частотами.
Рисунок 83. Мгновенное значение фонемы Ы
Свойства сигнала наглядно видны по изменению корреляционной функции, представленной на рис. 84. Длина корреляционной функции довольно значительная, что свидетельствует об узкополосности гласных в частности фонемы Ы.
Рисунок 84. Корреляционная функция фонемы Ы
На рис. 85 представлена параметрическая СПМ модели АР(16), на котором видно, что спектр фонемы Ы, как и предполагалось ранее, является узкополосным. На спектре присутствует основной пик на частоте приблизительно 100 Гц.
Рисунок 85. Параметрическая СПМ фонемы Ы найдена по модели АР(16)
На рис. 86 представлен график коэффициентов отражения блока LPC. Как видно из графика наибольшие по абсолютной величине значения имеют первые два коэффициента отражения, что соответствует теории кодирования речи.
Рисунок 86. График коэффициента отражения LPC блока
На рис. 87 представлены мгновенные значения остатка предсказания на выходе блока LPC. Судя по графику можно сказать, что характеристики ошибки предсказания близки к белому шуму.
Рисунок 87. Мгновенное значение остатка предсказания
На рис. 88 и рис. 89 наглядно представлена близость статистических характеристик (корреляционной функции и параметрической СПМ) остатка предсказания к характеристикам белого шума.
Рисунок 88. Корреляционная функция фонемы Ы на выходе блока LPC
Рисунок 89. Спектр сигнала на выходе РФ
По графику корреляционной функции сигнала на выходе блока LPC, представленному на рис. 90 определяется период ОТ, он равен расстоянию в отсчетах от нулевого сдвига до сдвига на котором наблюдается первый пик.
Рисунок 90. График корреляционной функции для определения периода основного тона
На рис. 91 представлен график изменения коэффициентов отражения блока LTP. Приведены значения коэффициентов отражения этого фильтра. Так как долговременная корреляция остатка предсказания незначительна, коэффициенты отражения имеют малые значения. Однако они играют важную роль для придания декодируемой речи естественного звучания. Основную информацию о кодируемом фильтре несут коэффициенты решетчатого фильтра блока LPC, представленные в табл. 1.
Рисунок 91. Значение коэффициентов для фильтра LTP
4.7 Моделирование элементов низкоскоростного кодека
Моделировалась система кодирования речи с пониженной скоростью передачи речевого сигнала. Для кодирования применялся метод VSELP. С этой целью создавалась библиотека стандартных векторов коэффициентов отражения РФ. В кодере использовался РФ 10 порядка.
После записи большого количества слов была произведена «нарезка» этих слов по 160 отсчетов. Каждая из выборок пропускалась через описанный выше фильтр 10 порядка и определялись коэффициенты отражения. Всего библиотека составила 512 векторов коэффициентов отражения. Следует отметить, что выборки включали в себя не только чистые фонемы, но и переходы между фонемами, а также начальные и конечные участки фонем. Поэтому можно сказать, что векторы коэффициента отражения отличались от идеальных случаев. Анализ библиотеки показал, что вектора имеют существенные различия между собой.
Как показали дальнейшие исследования с произвольными выборками речевых сигналов, найденные для них вектора коэффициента отражения в достаточной мере схожи с одним или несколькими коэффициентами отражения взятыми из библиотеки. Мерой сходства векторов являлось декартово расстояние между ними .
Алгоритм выбора наиболее подходящих коэффициентов отражения был следующим:
Вырезалась выборка в 160 отсчетов кодируемого речевого сигнала.
Расчитывались коэффициенты отражения методом Берга.
Методом перебора определялись наиболее подходящие векторы коэффициента отражения из библиотеки.
Через синтезирующий РФ 10 порядка с выбранными коэффициентами отражения пропускалась выборка белого шума длиной 160 отсчетов.
...Подобные документы
Задачи при передаче речи и данных. Цифровая передача речи. Категории методов цифрового кодирования речи. Кодеры формы сигнала. Вид амплитудной характеристики компрессора. Дискретная модель речеобразования. Особенности метода кратковременного анализа.
контрольная работа [56,6 K], добавлен 18.12.2010Кодирование речи RPE – LTP – кодер на 16 кбит/с. Структура декодера речи в стандарте GSM. Коэффициенты отражения кратковременного предсказания по методу Берга для РФ 8-го порядка. Спектральная характеристика постфильтра. Формирование формантных областей.
реферат [300,5 K], добавлен 15.11.2010Преимущества радиоканальных охранных систем. Основные направления кодирования речи: кодирование формы (Waveform coding) и источника сигнала (Source coding). Структурная схема процесса обработки речи в стандарте GSM. Оценка качества кодирования речи.
реферат [46,8 K], добавлен 20.10.2011Обоснование подходов к разработке математических моделей речевых сигналов. Детерминированный подход к построению математической модели (сигнала, содержащего вокализованные участки речи), основанной на теории модуляции. Коэффициенты разработанной модели.
курсовая работа [836,0 K], добавлен 26.12.2014Структурные схемы гомоморфной обработки и анализа речевых сигналов. Комплексный кепстр речи. Компонент речевого сигнала. Период основного тона и частоты формант. Модуль передаточной функции речевого тракта. Оценивание основного тона на основе кепстра.
реферат [297,1 K], добавлен 19.11.2008Цифровая обработка сигналов и ее использование в системах распознавания речи, дискретные сигналы и методы их преобразования, основы цифровой фильтрации. Реализация систем распознавания речи, гомоморфная обработка речи, интерфейс записи и воспроизведения.
дипломная работа [1,1 M], добавлен 10.06.2010Сущность и значение радиосвязи, ее применение. Проблемы организaции трaнкинговых систем. Конвенционaльные рaдиосистемы: непaрaметрическое кодирование речи. Специфика общего алгоритма скремблирования. Пример простых алгоритмов скремблирования данных.
курсовая работа [509,5 K], добавлен 25.06.2011Цифровые фильтры с конечной импульсной характеристикой (КИХ-фильтры) и с бесконечной импульсной характеристикой (БИХ-фильтры). Основные характеристики процессора DSP5631. Расчет фильтра методом частотной выборки. Моделирование КИХ-фильтров в MathCAD.
курсовая работа [968,9 K], добавлен 17.11.2012Методы обработки и передачи речевых сигналов. Сокращение избыточности речевого сигнала как одна из проблем ресурсосберегающего развития телефонных сетей. Кодирование речевых сигналов на основе линейного предсказания. Разработка алгоритма программы.
дипломная работа [324,7 K], добавлен 26.10.2011Нахождение аналитических выражений для импульсной и переходной характеристик цепи. Исследование прохождения видео- и радиосигнала через цепь на основе ее импульсной характеристики. Построение графического изображения сигнала на входе и выходе цепи.
курсовая работа [2,3 M], добавлен 28.10.2011Расчет КИХ-фильтра четвертого порядка методом наименьших квадратов. Структурная схема фильтра с конечной импульсной характеристикой с одной или несколькими гармониками. Исследование КИХ-фильтра с одиночным или последовательностью прямоугольных импульсов.
лабораторная работа [760,0 K], добавлен 23.11.2014Вероятностное описание символов, аналого-цифровое преобразование непрерывных сигналов. Информационные характеристики источника и канала, блоковое кодирование источника. Кодирование и декодирование кодом Лемпела-Зива. Регенерация цифрового сигнала.
курсовая работа [1,2 M], добавлен 22.09.2014Вероятностные характеристики случайных сигналов. Измерение среднего значения средней мощности и дисперсии. Анализ распределения вероятностей. Корреляционные функции. Метод дискретных выборок. Анализ распределения вероятностей методом дискретных выборок.
реферат [74,7 K], добавлен 23.01.2009Структурная схема цифровых систем передачи и оборудования ввода-вывода сигнала. Методы кодирования речи. Характеристика методов аналого-цифрового и цифро-аналогового преобразования. Способы передачи низкоскоростных цифровых сигналов по цифровым каналам.
презентация [692,5 K], добавлен 18.11.2013Разработка структурной схемы системы связи, предназначенной для передачи данных для заданного вида модуляции. Расчет вероятности ошибки на выходе приемника. Пропускная способность двоичного канала связи. Помехоустойчивое и статистическое кодирование.
курсовая работа [142,2 K], добавлен 26.11.2009Обзор особенностей речевых сигналов, спектрального анализа и способов его применения при обработке цифровых речевых сигналов. Рассмотрение встроенных функций и расширений Matlab по спектральному анализу. Реализация спектрального анализа в среде Matlab.
курсовая работа [2,2 M], добавлен 25.05.2015Временные функции сигналов, частотные характеристики. Граничные частоты спектров сигналов, определение кодовой последовательности. Характеристики модулированного сигнала. Расчет информационных характеристик канала, вероятности ошибки демодулятора.
курсовая работа [594,5 K], добавлен 28.01.2013Изучение схемотехники и функционирования биквадратурного генератора прямоугольных импульсов. Вычисление значения частот на выходах микросхемы. Определение назначения резисторов. Применение генератора при создании синхронных фильтров частотных сигналов.
лабораторная работа [310,0 K], добавлен 18.06.2015Схема накачки редкоземельных элементов Tm3+, находящегося в диэлектрическом кристалле, сравнительные характеристики матриц. Характеристики кристалла. Спектры пропускания и люминесценции. Экспериментальное исследование генерационных характеристик лазера.
контрольная работа [750,7 K], добавлен 13.06.2012Изучение свойств спектрального анализа периодических сигналов в системе компьютерного моделирования. Проведение научных исследований и использование измерительных приборов. Изучение последовательности импульсов при прохождении через интегрирующую RC-цепь.
лабораторная работа [2,8 M], добавлен 31.01.2015