Марковские модели в задачах параметризации речевых сигналов

Анализ применения методов параметризации речевых сигналов простыми и сложными цепями Маркова в системах автоматического распознавания команд. Компромисс между эффективностью распознавания речевых команд, вычислительной сложностью алгоритма параметризации.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 06.11.2018
Размер файла 631,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Марковские модели в задачах параметризации речевых сигналов

Введение

К настоящему времени разработано большое количество моделей и методов параметризации речевых сигналов, обеспечивающих высокое качество работы систем автоматического распознавания речевых команд (АРК), среди которых наиболее распространены методы, основанные на расчете кепстральных коэффициентов и коэффициентов линейного предсказания речи [1-3].

Однако нельзя сказать, что задача параметризации полностью решена. Производительность систем АРК еще далека от «производительности» человеческой слуховой системы. Например, в задаче распознавания цифр, когда словарь мал и существенная часть ресурсов тратится на акустическое моделирование, производительность систем АРК на порядок ниже производительности человека [4]. Отчасти это связано с большим количеством скрытых и явных переменных состояния современных систем АРК. Таким образом, задача разработки моделей и методов параметризации речевых сигналов, позволяющих найти компромисс между производительностью, требованиям к ресурсам и качеством работы систем АРК остается актуальной.

Первые работы, посвященные марковским моделям речевых сигналов появились еще 1970-х годах. Так, в монографии [5] проведен подробный анализ марковских моделей дельта-модулированных речевых сигналов. Тем не менее, малое количество публикаций, посвященных исследованию методов марковской параметризации речевых сигналов и такие достоинства марковских моделей как относительно небольшое количество параметров и линейная вычислительная сложность алгоритмов расчета параметров, продолжают вызывать интерес к указанным методам.

В данной статье рассмотрены марковские модели в задачах параметризации речевых сигналов.

1. Постановка задачи

Пусть фрагмент речевого сигнала представлен массивом дискретных отсчетов

, (1)

где - k-я двоичная выборка вида

, , , (2)

L - длина фрагмента.

Фрагмент (1) можно рассматривать как суперпозицию битовых последовательностей

, (3)

где - операция скалярного умножения, - бинарная последовательность, образованная b-м битом двоичных выборок фрагмента речевого сигнала.

Ряд экспериментов [5,6] показывает, что для речевых сигналов справедливо допущение о практически монотонном уменьшении корреляционных связей между выборками и речевого сигнала с увеличением интервала между выборками. Следовательно, можно указать интервал , за пределами которого корреляционные связи практически не распространяются. С учетом этого допущения, для описания и анализа коротких фрагментов речевых сигналов можно использовать математический аппарат простых или сложных цепей Маркова.

Требуется разработать модель и метод параметризации фрагмента речевого сигнала (1).

2. Многосвязная цепь Маркова

Рассмотрим многосвязную (связности m) однородную цепь Маркова с состояниями и вероятностями перехода вида

, (4)

где , .

Перейдем от многосвязной цепи Маркова к простой, формируя вектор длины m [7].

Тогда

, (5)

где .

Число состояний полученной таким образом простой цепи Маркова равно .

При известных условных вероятностях (4) можно определить вероятности перехода

, (6)

где .

Например, при и переходные вероятности (6) принимают вид

, (7)

где .

Переходные вероятности (7) образуют матрицу вида (8) для четырех комбинаций состояний , , , :

, (8)

где , .

Нулевые элементы матрицы (8) соответствуют вероятностям невозможным событий.

Подобным образом можно получить матрицы переходных вероятностей для общего случая (, ). Для элементов матриц вида (8) должны соблюдаться модифицированные условия нормировки

, (9)

и согласованности

, , (10)

где - безусловная вероятность комбинации из m состояний .

В работе [7] показано, что для введенной таким образом простой цепи Маркова соблюдаются разностные уравнения

, (11)

где - вектор безусловных вероятностей всех возможных комбинаций из m состояний на -м шаге. Например, для

. (12)

Рассмотрим метод марковской параметризации фрагментов речевых сигналов, использующий описанную модель.

3. Метод параметризации цепью Маркова

Метод параметризации фрагмента речевого сигнала цепью Маркова связности m содержит следующую последовательность шагов.

1. Битовые последовательности () объединяются в непересекающиеся массивы размера .

Обозначим

, . (13)

Будем полагать, что последовательность

(14)

является многосвязной цепью Маркова связности m с количеством состояний равным . Преобразуем многосвязную цепь (14) в простую цепь Маркова, с количеством состояний равным формируя векторы (5)

(15)

и векторные последовательности

. (16)

2. Последовательности разделяется на пересекающихся сегментов с коэффициентом перекрытия h.

3. Для каждого q-го сегмента последовательности производится оценка элементов матрицы вероятностей переходов

, (17)

где , , , ; - относительная частота комбинаций в q-м сегменте последовательности ; - относительная частота комбинации состояний в q-м сегменте последовательности .

Полученные матрицы вероятностей переходов объединяются в матрицу параметров сигнала

. (18)

Поскольку матрица (18) является разреженной, в качестве параметров фрагмента речевого сигнала достаточно использовать только ее значащие элементы.

Пример 1. ,, .

1. Из фрагмента речевого сигнала выделяются бинарные битовые последовательности , (рис.1).

Рис.1. Эпюры переходов в многосвязной цепи Маркова при и .

Полагая, что последовательности являются цепями Маркова связности с количеством состояний равным двум, преобразуем их в простые цепи Маркова, с количеством состояний равным четырем, формируя векторы

, (19)

где и векторные последовательности (16).

Диаграмма возможных переходов между метасостояниями в таких последовательностях представлена на рис.2.

Рис. 2. Диаграмма переходов в последовательностях при .

2. Последовательности разделяются на p пересекающихся сегментов с коэффициентом перекрытия h: .

3. Для каждого q-го сегмента последовательности производится оценка элементов матриц вероятностей переходов

, (20)

где , , , .

. (21)

Нулевые элементы матрицы (21) соответствуют вероятностям невозможных переходов. Из примера нетрудно заметить, что невозможны переходы: , , , , , , , , , где , , , .

Поскольку элементы матрицы вероятностей переходов (21) удовлетворяют условию нормировки

, , (22)

в качестве параметров сегмента достаточно использовать только значения элементов .

В результате каждый сегмент характеризуется матрицей параметров

. (23)

4. Матрицы bM (23) объединяются в итоговую матрицу параметров фрагмента речевого сигнала

. (24)

Пример 2. ,, .

1. Бинарные битовые последовательности объединяются в последовательности (рис.3), такие что

, (25)

.

Количество метасостояний таких последовательностей равно .

Рис.3. Эпюры переходов в многосвязной цепи Маркова при и .

Полагая, что последовательности являются многосвязными цепями Маркова связности и количеством состояний равным четырем

, , , , (26)

преобразуем их в простые цепи Маркова, с количеством состояний равным формируя векторы

(27)

и векторные последовательности (16).

2. Последовательности разделяются на p пересекающихся сегментов с коэффициентом перекрытия h: и .

3. Для каждого q-го сегмента последовательности производится оценка элементов матриц вероятностей переходов

, (28)

где , , , .

4. Ненулевые элементы матриц вероятностей переходов объединяются в матрицу параметров сигнала .

4. Эксперимент

Рассмотренные в статье модели речевых сигналов использованы для оценки эффективности методов марковской параметризации при решении задачи дикторозависимого распознавания речевых команд. В качестве альтернативного метода параметризации речевых сигналов применен метод параметризации мел-кепстральными коэффициентами (MFCC).

Для эксперимента сформирована авторская коллекция из 150 речевых команд с частотой дискретизации 8 кГц.

Эксперимент заключался в выполнении следующих шагов:

1) оценке среднего времени параметризации одного фрагмента речевого сигнала;

2) оценке вероятности правильного распознавания команд в результате выполнения 1000 опытов для каждой модели (табл.1).

Результаты эксперимента представлены в табл.1. Для обозначения модели используемой при параметризации введены следующие сокращения: общее название модели dtmc(Discrete Time Markov Chain), следующие две цифры обозначают порядок цепи Маркова - и количество группируемых битовых последовательностей - . В скобках указаны номера старших бит, используемых при параметризации.

Таблица 1 - Вероятность распознавания и время параметризации

Метод параметризации

Среднее время параметризации одного фрагмента, мкс.

Относительное время параметризации одного фрагмента

Вероятность распознавания, %

Простая цепь

dtmc11(0)

37,7

0,052

76,3

dtmc11(0,1)

40,4

0,055

83,5

dtmc11(0,1,2)

42,5

0,058

84,2

dtmc11(0,1,2,3)

45,0

0,062

84,7

dtmc12(0,1)

37,4

0,051

85,3

dtmc12(0,1,2,3)

40,3

0,055

89,7

Сложная цепь

dtmc21(0)

37,9

0,052

83,4

dtmc21(0,1)

40,4

0,055

92,4

dtmc21(0,1,2)

42,7

0,059

94,8

dtmc21(0,1,2,3)

44,9

0,062

95,8

dtmc22(0,1)

37,9

0,052

85,6

dtmc21(0,1,2,3)

40,4

0,055

93,9

MFCC

728,1

1

99,7

Эксперимент показал (табл.1), что компромисс между эффективностью распознавания речевых команд и вычислительной сложностью алгоритма параметризации достигается при использовании (для оценки параметров аппроксимирующей цепи Маркова) от одного до четырех старших бит равномерно квантованного речевого сигнала.

Полученные результаты (табл. 1) свидетельствуют о значительном (в 16-19 раз) снижении временных затрат на параметризацию фрагментов речевых сигналов при сопутствующем уменьшении вероятности распознавания команд на 5-8% относительно классического метода параметризации мел-кепстральными коэффициентами.

Выводы

В работе обобщены варианты представления фрагментов речевых сигналов простыми и сложными (многосвязными) цепями Маркова. Представлены частные случаи реализации данных моделей при параметризации речевых сигналов многосвязными цепями Маркова связностью и .

Показано, что при использовании методов марковской параметризации в задачах автоматического дикторозависимого распознавания речевых команд (АРК) целесообразно применение моделей многосвязных цепей Маркова. Рассмотренные модели речевых сигналов позволяют значительно снизить требования к вычислительным ресурсам систем АРК.

Литература

речевой сигнал марков распознавание

1. Рабинер, Л.Р. Цифровая обработка речевых сигналов / Рабинер Л.Р., Шафер Р.В. // Пер. с англ. Под ред. Прохорова Ю.Н., Назарова М.В. - М.: Радио и связь, 1981. - 496 c.

2. Huang, X. Spoken Language Processing: A guide to theory, algorithm, and system development / X. Huang, A.Acero, H.Hon. // Prentice Hall. - 2001.

3. Zheng. Comparison Of Different Implementations Of MFCC / F. Zheng, G. Zhang, Z. Song // Computer Science & Technology, 16(6): 2001. - pp. 582-589.

4. Picone, J.W. Signal modeling techniques in speech recognition / proceedings of the IEEE, September 1993, pp. 1215-1247.

5. Венедиктов М.Д. Дельта-модуляция. Теория и применение / Венедиктов М.Д., Женевский Ю.П., Марков В.В. - М.: Связь, 1976. C. 104-114.

6. Плетнев К.В. Анализ метода марковской параметризации речевых сигналов / Плетнев К.В., Прозоров Д.Е. // Информационные системы и технологии, 2014. - №1(81). - С. 24-29.

7. Яншин В.В. Многосвязные цепи Маркова и их свойства // Радиотехника и электроника, Наука. 1993. - Том 38. - № 6 - С. 1081-1091.

Размещено на Allbest.ru

...

Подобные документы

  • Распознавание слов в слитной речи, изолированных слов. Проблема автоматического распознавания речи. Структурная схема устройства выделения признаков речевых сигналов. Моделирование работы блока выделения начала и окончания слова количества звуков на ЭВМ.

    дипломная работа [649,5 K], добавлен 13.11.2008

  • Словесный, графический, табличный, программный способы представления алгоритма. Основные конструкции в любом алгоритмическом языке. Теория обнаружения, различения и оценивания сигналов. Радиолокационные системы обнаружения. Система распознавания образов.

    презентация [4,8 M], добавлен 09.06.2015

  • Методы предобработки изображений текстовых символов. Статистические распределения точек. Интегральные преобразования и структурный анализ. Реализация алгоритма распознавания букв. Анализ алгоритмов оптического распознавания символов. Сравнение с эталоном.

    курсовая работа [2,1 M], добавлен 20.09.2014

  • Необходимость в системах распознавания символов. Виды сканеров и их характеристики. Оптимальное разрешение при сканировании. Программы распознавания текста. Получение электронного документа. FineReader - система оптического распознавания текстов.

    презентация [469,2 K], добавлен 15.03.2015

  • Разработка программной базы для исследований в области распознавания речи и поиска ключевых слов в ней. Расчет mel-фильтров. Скрытые марковские модели. Применение в алгоритме сверточного декодирования Витерби. Методы визуализации и обработки аудиоданных.

    курсовая работа [1,1 M], добавлен 01.06.2015

  • Появление технических систем автоматического распознавания. Человек как элемент или звено сложных автоматических систем. Возможности автоматических распознающих устройств. Этапы создания системы распознавания образов. Процессы измерения и кодирования.

    презентация [523,7 K], добавлен 14.08.2013

  • Сущность принципов информационной достаточности, осуществимости, множественности моделей, параметризации и агрегирования. Построение концептуальной модели. Сравнение размеров программного кода. Особенности технологии компьютерного моделирования.

    презентация [49,3 K], добавлен 16.10.2013

  • Понятие системы распознавания образов. Классификация систем распознавания. Разработка системы распознавания формы микрообъектов. Алгоритм для создания системы распознавания микрообъектов на кристаллограмме, особенности его реализации в программной среде.

    курсовая работа [16,2 M], добавлен 21.06.2014

  • Теоретические основы распознавания образов. Функциональная схема системы распознавания. Применение байесовских методов при решении задачи распознавания образов. Байесовская сегментация изображений. Модель TAN при решении задачи классификации образов.

    дипломная работа [1019,9 K], добавлен 13.10.2017

  • Типы команд, синтаксис ассемблера и код операции, по которому транслируется команда. Команды вычисления и непосредственной пересылки данных между регистрами. Поле для определения операции вычисления. Управление последовательностью выполнения программы.

    реферат [29,1 K], добавлен 13.11.2009

  • Сравнительный обзор САПР систем. Разработка модели обшивки изделия, ее геометрического образа, системы параметризации. Отображение конструкторской спецификации и техпроцесса обработки детали в PrTech 5. Анализ затрат на ее производство в MS Project.

    дипломная работа [6,2 M], добавлен 28.10.2014

  • Основные понятия теории распознавания образов и ее значение. Сущность математической теории распознавания образов. Основные задачи, возникающие при разработке систем распознавания образов. Классификация систем распознавания образов реального времени.

    курсовая работа [462,2 K], добавлен 15.01.2014

  • Постановка задачи конвенкции-диффузии примеси, этапы и принципы параметризации. Модельные примеры для одномерного и двумерного уравнения. Описание программной реализации решения двумерной задачи: выбор среды, описание программы, анализ результатов.

    дипломная работа [232,4 K], добавлен 17.02.2015

  • Основные цели и задачи построения систем распознавания. Построение математической модели системы распознавания образов на примере алгоритма идентификации объектов военной техники в автоматизированных телекоммуникационных комплексах систем управления.

    дипломная работа [332,2 K], добавлен 30.11.2012

  • Методы распознавания образов (классификаторы): байесовский, линейный, метод потенциальных функций. Разработка программы распознавания человека по его фотографиям. Примеры работы классификаторов, экспериментальные результаты о точности работы методов.

    курсовая работа [2,7 M], добавлен 15.08.2011

  • Вебсайт как виртуальная проекция и компонент организационной культуры. Адаптация метода параметризации Г. Хофстеде для анализа вебсайтов. Сопоставительный параметрический анализ организационной культуры и вебсайтов общеобразовательных учреждений.

    дипломная работа [3,0 M], добавлен 05.01.2016

  • Синтез структуры простого магистрального процессора с одним АЛУ, выполняющего 8 заданных команд. Разработка формата и кодировки команд, структурной схемы процессора, функциональные схемы всех его блоков в целом с указанием шин и управляющих сигналов.

    реферат [123,9 K], добавлен 18.05.2009

  • Моделирование процесса обработки 500 сигналов, поступающих с датчиков. Определение среднего времени задержки сигналов в канале и линии-ЭВМ и вероятности переполнения входных накопителей. Разработка и описание алгоритма функционирования программной модели.

    курсовая работа [140,7 K], добавлен 09.04.2013

  • Первое систематическое изучение искусственных нейронных сетей. Описание элементарного перцептрона. Программная реализация модели распознавания графических образов на основе перцептрона. Интерфейс программы, основные окна. Составление алгоритма приложения.

    реферат [100,5 K], добавлен 18.01.2014

  • Проектирование системы голосового управления в автоматизированных жилых комплексах. Распознавание и порождение (синтез) речи компьютером. Синтез устной речи. Технология поиска ключевых слов. Нейросетевое сравнение на основе простых персептронов.

    дипломная работа [4,3 M], добавлен 19.06.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.