Марковские модели в задачах параметризации речевых сигналов
Анализ применения методов параметризации речевых сигналов простыми и сложными цепями Маркова в системах автоматического распознавания команд. Компромисс между эффективностью распознавания речевых команд, вычислительной сложностью алгоритма параметризации.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 06.11.2018 |
Размер файла | 631,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Марковские модели в задачах параметризации речевых сигналов
Введение
К настоящему времени разработано большое количество моделей и методов параметризации речевых сигналов, обеспечивающих высокое качество работы систем автоматического распознавания речевых команд (АРК), среди которых наиболее распространены методы, основанные на расчете кепстральных коэффициентов и коэффициентов линейного предсказания речи [1-3].
Однако нельзя сказать, что задача параметризации полностью решена. Производительность систем АРК еще далека от «производительности» человеческой слуховой системы. Например, в задаче распознавания цифр, когда словарь мал и существенная часть ресурсов тратится на акустическое моделирование, производительность систем АРК на порядок ниже производительности человека [4]. Отчасти это связано с большим количеством скрытых и явных переменных состояния современных систем АРК. Таким образом, задача разработки моделей и методов параметризации речевых сигналов, позволяющих найти компромисс между производительностью, требованиям к ресурсам и качеством работы систем АРК остается актуальной.
Первые работы, посвященные марковским моделям речевых сигналов появились еще 1970-х годах. Так, в монографии [5] проведен подробный анализ марковских моделей дельта-модулированных речевых сигналов. Тем не менее, малое количество публикаций, посвященных исследованию методов марковской параметризации речевых сигналов и такие достоинства марковских моделей как относительно небольшое количество параметров и линейная вычислительная сложность алгоритмов расчета параметров, продолжают вызывать интерес к указанным методам.
В данной статье рассмотрены марковские модели в задачах параметризации речевых сигналов.
1. Постановка задачи
Пусть фрагмент речевого сигнала представлен массивом дискретных отсчетов
, (1)
где - k-я двоичная выборка вида
, , , (2)
L - длина фрагмента.
Фрагмент (1) можно рассматривать как суперпозицию битовых последовательностей
, (3)
где - операция скалярного умножения, - бинарная последовательность, образованная b-м битом двоичных выборок фрагмента речевого сигнала.
Ряд экспериментов [5,6] показывает, что для речевых сигналов справедливо допущение о практически монотонном уменьшении корреляционных связей между выборками и речевого сигнала с увеличением интервала между выборками. Следовательно, можно указать интервал , за пределами которого корреляционные связи практически не распространяются. С учетом этого допущения, для описания и анализа коротких фрагментов речевых сигналов можно использовать математический аппарат простых или сложных цепей Маркова.
Требуется разработать модель и метод параметризации фрагмента речевого сигнала (1).
2. Многосвязная цепь Маркова
Рассмотрим многосвязную (связности m) однородную цепь Маркова с состояниями и вероятностями перехода вида
, (4)
где , .
Перейдем от многосвязной цепи Маркова к простой, формируя вектор длины m [7].
Тогда
, (5)
где .
Число состояний полученной таким образом простой цепи Маркова равно .
При известных условных вероятностях (4) можно определить вероятности перехода
, (6)
где .
Например, при и переходные вероятности (6) принимают вид
, (7)
где .
Переходные вероятности (7) образуют матрицу вида (8) для четырех комбинаций состояний , , , :
, (8)
где , .
Нулевые элементы матрицы (8) соответствуют вероятностям невозможным событий.
Подобным образом можно получить матрицы переходных вероятностей для общего случая (, ). Для элементов матриц вида (8) должны соблюдаться модифицированные условия нормировки
, (9)
и согласованности
, , (10)
где - безусловная вероятность комбинации из m состояний .
В работе [7] показано, что для введенной таким образом простой цепи Маркова соблюдаются разностные уравнения
, (11)
где - вектор безусловных вероятностей всех возможных комбинаций из m состояний на -м шаге. Например, для
. (12)
Рассмотрим метод марковской параметризации фрагментов речевых сигналов, использующий описанную модель.
3. Метод параметризации цепью Маркова
Метод параметризации фрагмента речевого сигнала цепью Маркова связности m содержит следующую последовательность шагов.
1. Битовые последовательности () объединяются в непересекающиеся массивы размера .
Обозначим
, . (13)
Будем полагать, что последовательность
(14)
является многосвязной цепью Маркова связности m с количеством состояний равным . Преобразуем многосвязную цепь (14) в простую цепь Маркова, с количеством состояний равным формируя векторы (5)
(15)
и векторные последовательности
. (16)
2. Последовательности разделяется на пересекающихся сегментов с коэффициентом перекрытия h.
3. Для каждого q-го сегмента последовательности производится оценка элементов матрицы вероятностей переходов
, (17)
где , , , ; - относительная частота комбинаций в q-м сегменте последовательности ; - относительная частота комбинации состояний в q-м сегменте последовательности .
Полученные матрицы вероятностей переходов объединяются в матрицу параметров сигнала
. (18)
Поскольку матрица (18) является разреженной, в качестве параметров фрагмента речевого сигнала достаточно использовать только ее значащие элементы.
Пример 1. ,, .
1. Из фрагмента речевого сигнала выделяются бинарные битовые последовательности , (рис.1).
Рис.1. Эпюры переходов в многосвязной цепи Маркова при и .
Полагая, что последовательности являются цепями Маркова связности с количеством состояний равным двум, преобразуем их в простые цепи Маркова, с количеством состояний равным четырем, формируя векторы
, (19)
где и векторные последовательности (16).
Диаграмма возможных переходов между метасостояниями в таких последовательностях представлена на рис.2.
Рис. 2. Диаграмма переходов в последовательностях при .
2. Последовательности разделяются на p пересекающихся сегментов с коэффициентом перекрытия h: .
3. Для каждого q-го сегмента последовательности производится оценка элементов матриц вероятностей переходов
, (20)
где , , , .
. (21)
Нулевые элементы матрицы (21) соответствуют вероятностям невозможных переходов. Из примера нетрудно заметить, что невозможны переходы: , , , , , , , , , где , , , .
Поскольку элементы матрицы вероятностей переходов (21) удовлетворяют условию нормировки
, , (22)
в качестве параметров сегмента достаточно использовать только значения элементов .
В результате каждый сегмент характеризуется матрицей параметров
. (23)
4. Матрицы bM (23) объединяются в итоговую матрицу параметров фрагмента речевого сигнала
. (24)
Пример 2. ,, .
1. Бинарные битовые последовательности объединяются в последовательности (рис.3), такие что
, (25)
.
Количество метасостояний таких последовательностей равно .
Рис.3. Эпюры переходов в многосвязной цепи Маркова при и .
Полагая, что последовательности являются многосвязными цепями Маркова связности и количеством состояний равным четырем
, , , , (26)
преобразуем их в простые цепи Маркова, с количеством состояний равным формируя векторы
(27)
и векторные последовательности (16).
2. Последовательности разделяются на p пересекающихся сегментов с коэффициентом перекрытия h: и .
3. Для каждого q-го сегмента последовательности производится оценка элементов матриц вероятностей переходов
, (28)
где , , , .
4. Ненулевые элементы матриц вероятностей переходов объединяются в матрицу параметров сигнала .
4. Эксперимент
Рассмотренные в статье модели речевых сигналов использованы для оценки эффективности методов марковской параметризации при решении задачи дикторозависимого распознавания речевых команд. В качестве альтернативного метода параметризации речевых сигналов применен метод параметризации мел-кепстральными коэффициентами (MFCC).
Для эксперимента сформирована авторская коллекция из 150 речевых команд с частотой дискретизации 8 кГц.
Эксперимент заключался в выполнении следующих шагов:
1) оценке среднего времени параметризации одного фрагмента речевого сигнала;
2) оценке вероятности правильного распознавания команд в результате выполнения 1000 опытов для каждой модели (табл.1).
Результаты эксперимента представлены в табл.1. Для обозначения модели используемой при параметризации введены следующие сокращения: общее название модели dtmc(Discrete Time Markov Chain), следующие две цифры обозначают порядок цепи Маркова - и количество группируемых битовых последовательностей - . В скобках указаны номера старших бит, используемых при параметризации.
Таблица 1 - Вероятность распознавания и время параметризации
Метод параметризации |
Среднее время параметризации одного фрагмента, мкс. |
Относительное время параметризации одного фрагмента |
Вероятность распознавания, % |
||
Простая цепь |
dtmc11(0) |
37,7 |
0,052 |
76,3 |
|
dtmc11(0,1) |
40,4 |
0,055 |
83,5 |
||
dtmc11(0,1,2) |
42,5 |
0,058 |
84,2 |
||
dtmc11(0,1,2,3) |
45,0 |
0,062 |
84,7 |
||
dtmc12(0,1) |
37,4 |
0,051 |
85,3 |
||
dtmc12(0,1,2,3) |
40,3 |
0,055 |
89,7 |
||
Сложная цепь |
dtmc21(0) |
37,9 |
0,052 |
83,4 |
|
dtmc21(0,1) |
40,4 |
0,055 |
92,4 |
||
dtmc21(0,1,2) |
42,7 |
0,059 |
94,8 |
||
dtmc21(0,1,2,3) |
44,9 |
0,062 |
95,8 |
||
dtmc22(0,1) |
37,9 |
0,052 |
85,6 |
||
dtmc21(0,1,2,3) |
40,4 |
0,055 |
93,9 |
||
MFCC |
728,1 |
1 |
99,7 |
Эксперимент показал (табл.1), что компромисс между эффективностью распознавания речевых команд и вычислительной сложностью алгоритма параметризации достигается при использовании (для оценки параметров аппроксимирующей цепи Маркова) от одного до четырех старших бит равномерно квантованного речевого сигнала.
Полученные результаты (табл. 1) свидетельствуют о значительном (в 16-19 раз) снижении временных затрат на параметризацию фрагментов речевых сигналов при сопутствующем уменьшении вероятности распознавания команд на 5-8% относительно классического метода параметризации мел-кепстральными коэффициентами.
Выводы
В работе обобщены варианты представления фрагментов речевых сигналов простыми и сложными (многосвязными) цепями Маркова. Представлены частные случаи реализации данных моделей при параметризации речевых сигналов многосвязными цепями Маркова связностью и .
Показано, что при использовании методов марковской параметризации в задачах автоматического дикторозависимого распознавания речевых команд (АРК) целесообразно применение моделей многосвязных цепей Маркова. Рассмотренные модели речевых сигналов позволяют значительно снизить требования к вычислительным ресурсам систем АРК.
Литература
речевой сигнал марков распознавание
1. Рабинер, Л.Р. Цифровая обработка речевых сигналов / Рабинер Л.Р., Шафер Р.В. // Пер. с англ. Под ред. Прохорова Ю.Н., Назарова М.В. - М.: Радио и связь, 1981. - 496 c.
2. Huang, X. Spoken Language Processing: A guide to theory, algorithm, and system development / X. Huang, A.Acero, H.Hon. // Prentice Hall. - 2001.
3. Zheng. Comparison Of Different Implementations Of MFCC / F. Zheng, G. Zhang, Z. Song // Computer Science & Technology, 16(6): 2001. - pp. 582-589.
4. Picone, J.W. Signal modeling techniques in speech recognition / proceedings of the IEEE, September 1993, pp. 1215-1247.
5. Венедиктов М.Д. Дельта-модуляция. Теория и применение / Венедиктов М.Д., Женевский Ю.П., Марков В.В. - М.: Связь, 1976. C. 104-114.
6. Плетнев К.В. Анализ метода марковской параметризации речевых сигналов / Плетнев К.В., Прозоров Д.Е. // Информационные системы и технологии, 2014. - №1(81). - С. 24-29.
7. Яншин В.В. Многосвязные цепи Маркова и их свойства // Радиотехника и электроника, Наука. 1993. - Том 38. - № 6 - С. 1081-1091.
Размещено на Allbest.ru
...Подобные документы
Распознавание слов в слитной речи, изолированных слов. Проблема автоматического распознавания речи. Структурная схема устройства выделения признаков речевых сигналов. Моделирование работы блока выделения начала и окончания слова количества звуков на ЭВМ.
дипломная работа [649,5 K], добавлен 13.11.2008Словесный, графический, табличный, программный способы представления алгоритма. Основные конструкции в любом алгоритмическом языке. Теория обнаружения, различения и оценивания сигналов. Радиолокационные системы обнаружения. Система распознавания образов.
презентация [4,8 M], добавлен 09.06.2015Методы предобработки изображений текстовых символов. Статистические распределения точек. Интегральные преобразования и структурный анализ. Реализация алгоритма распознавания букв. Анализ алгоритмов оптического распознавания символов. Сравнение с эталоном.
курсовая работа [2,1 M], добавлен 20.09.2014Необходимость в системах распознавания символов. Виды сканеров и их характеристики. Оптимальное разрешение при сканировании. Программы распознавания текста. Получение электронного документа. FineReader - система оптического распознавания текстов.
презентация [469,2 K], добавлен 15.03.2015Разработка программной базы для исследований в области распознавания речи и поиска ключевых слов в ней. Расчет mel-фильтров. Скрытые марковские модели. Применение в алгоритме сверточного декодирования Витерби. Методы визуализации и обработки аудиоданных.
курсовая работа [1,1 M], добавлен 01.06.2015Появление технических систем автоматического распознавания. Человек как элемент или звено сложных автоматических систем. Возможности автоматических распознающих устройств. Этапы создания системы распознавания образов. Процессы измерения и кодирования.
презентация [523,7 K], добавлен 14.08.2013Сущность принципов информационной достаточности, осуществимости, множественности моделей, параметризации и агрегирования. Построение концептуальной модели. Сравнение размеров программного кода. Особенности технологии компьютерного моделирования.
презентация [49,3 K], добавлен 16.10.2013Понятие системы распознавания образов. Классификация систем распознавания. Разработка системы распознавания формы микрообъектов. Алгоритм для создания системы распознавания микрообъектов на кристаллограмме, особенности его реализации в программной среде.
курсовая работа [16,2 M], добавлен 21.06.2014Теоретические основы распознавания образов. Функциональная схема системы распознавания. Применение байесовских методов при решении задачи распознавания образов. Байесовская сегментация изображений. Модель TAN при решении задачи классификации образов.
дипломная работа [1019,9 K], добавлен 13.10.2017Типы команд, синтаксис ассемблера и код операции, по которому транслируется команда. Команды вычисления и непосредственной пересылки данных между регистрами. Поле для определения операции вычисления. Управление последовательностью выполнения программы.
реферат [29,1 K], добавлен 13.11.2009Сравнительный обзор САПР систем. Разработка модели обшивки изделия, ее геометрического образа, системы параметризации. Отображение конструкторской спецификации и техпроцесса обработки детали в PrTech 5. Анализ затрат на ее производство в MS Project.
дипломная работа [6,2 M], добавлен 28.10.2014Основные понятия теории распознавания образов и ее значение. Сущность математической теории распознавания образов. Основные задачи, возникающие при разработке систем распознавания образов. Классификация систем распознавания образов реального времени.
курсовая работа [462,2 K], добавлен 15.01.2014Постановка задачи конвенкции-диффузии примеси, этапы и принципы параметризации. Модельные примеры для одномерного и двумерного уравнения. Описание программной реализации решения двумерной задачи: выбор среды, описание программы, анализ результатов.
дипломная работа [232,4 K], добавлен 17.02.2015Основные цели и задачи построения систем распознавания. Построение математической модели системы распознавания образов на примере алгоритма идентификации объектов военной техники в автоматизированных телекоммуникационных комплексах систем управления.
дипломная работа [332,2 K], добавлен 30.11.2012Методы распознавания образов (классификаторы): байесовский, линейный, метод потенциальных функций. Разработка программы распознавания человека по его фотографиям. Примеры работы классификаторов, экспериментальные результаты о точности работы методов.
курсовая работа [2,7 M], добавлен 15.08.2011Вебсайт как виртуальная проекция и компонент организационной культуры. Адаптация метода параметризации Г. Хофстеде для анализа вебсайтов. Сопоставительный параметрический анализ организационной культуры и вебсайтов общеобразовательных учреждений.
дипломная работа [3,0 M], добавлен 05.01.2016Синтез структуры простого магистрального процессора с одним АЛУ, выполняющего 8 заданных команд. Разработка формата и кодировки команд, структурной схемы процессора, функциональные схемы всех его блоков в целом с указанием шин и управляющих сигналов.
реферат [123,9 K], добавлен 18.05.2009Моделирование процесса обработки 500 сигналов, поступающих с датчиков. Определение среднего времени задержки сигналов в канале и линии-ЭВМ и вероятности переполнения входных накопителей. Разработка и описание алгоритма функционирования программной модели.
курсовая работа [140,7 K], добавлен 09.04.2013Первое систематическое изучение искусственных нейронных сетей. Описание элементарного перцептрона. Программная реализация модели распознавания графических образов на основе перцептрона. Интерфейс программы, основные окна. Составление алгоритма приложения.
реферат [100,5 K], добавлен 18.01.2014Проектирование системы голосового управления в автоматизированных жилых комплексах. Распознавание и порождение (синтез) речи компьютером. Синтез устной речи. Технология поиска ключевых слов. Нейросетевое сравнение на основе простых персептронов.
дипломная работа [4,3 M], добавлен 19.06.2011