Главная Коллекция "Revolution" Математика Разработка математических моделей и алгоритмов поиска ключевых слов в аудио-сообщениях

Разработка математических моделей и алгоритмов поиска ключевых слов в аудио-сообщениях

Разработка метода аппроксимации длинноконтекстных акустических моделей фонем, оптимального с точки зрения показателя влияния контекста на параметры моделей и его программная реализация. Алгоритм расчета перекрестной энтропии скрытой Марковской модели.

Рубрика	Математика
Вид	автореферат
Язык	русский
Дата добавления	01.05.2018
Размер файла	147,1 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru

Введение

Актуальность темы. Развитие компьютерной техники, компьютерных технологий и Интернета, приводит к росту объема информации, с которым приходится сталкиваться современному человеку. В связи с этим актуальной является проблема автоматической обработки информации, включая сортировку, хранение и быстрый поиск.

В этом смысле, не остается в стороне и задача автоматической обработки речевых данных, целью которой является выявление содержания речевых сообщений для сокращения их объема. Для решения этой задачи используются технологии распознавания речи, которые бурно развиваются последние четыре десятилетия, и к настоящему времени в этой области достигнуты значительные успехи. Так, преобразование речи, записанной из программ радиовещания, в текст выполняется с точностью распознавания слов 83-87%, спонтанной речи, записанной из стандартного телефонного канала - с точностью 71-75%.

Технологии распознавания речи в настоящее время используются в целом ряде практических приложений таких как:

· Поиск и классификация речевых сообщений в больших массивах речевых данных по их содержанию;

· Диалоговые системы «Человек - компьютер», «Человек - автоматическая справочная система» и т.д.;

· Управление промышленными, бытовыми и другими устройствами с использованием естественного языка;

· Автоматические системы перевода.

Однако не всегда требуется полное преобразование речи в текст, в некоторых приложениях может оказаться достаточной возможность определить наличие в сообщении лишь некоторых слов, или фраз. Эту задачу решают системы поиска ключевых слов в аудио-сообщениях. В настоящее время наиболее перспективными из них считаются системы поиска ключевых слов, основанные на полном распознавании речи, от которых они отличаются размером словаря - размер словаря системы поиска ключевых слов намного меньше (порядка 1000 слов), чем размер словаря системы распознавания речи (десятки тысяч слов и более).

Несмотря на достигнутые успехи, существует ряд практических задач, для которых точность поиска ключевых слов остается все еще не достаточной для практического использования. К таким задачам относится поиск ключевых слов в речевых сообщениях, записанных с сотовых телефонов или в условиях низкого отношения сигнал/шум (менее 10дБ). Точность поиска ключевых слов для таких систем может не превышать 40-50% в зависимости от уровня шума.

В связи с этим актуальной является задача разработки новых моделей и методов поиска ключевых слов, которые позволили бы повысить точность поиска ключевых слов.

Цель и задачи работы. Цель данной работы является разработка математических моделей и алгоритмов, позволяющих повысить точность поиска ключевых слов в аудио-сообщениях за счет: создания более точных акустических моделей ключевых слов и оптимизации словаря заполнения.

В соответствии с этими целями сформулирован и решен ряд задач:

· Введено понятие длинноконтекстных акустических моделей фонем, предназначенных для создания акустических моделей ключевых слов;

· Введено понятие показателя влияния контекста на параметры акустических моделей фонем, основанное на близости акустических моделей фонем, разработан метод и алгоритм его расчета;

· Разработан метод аппроксимации длинноконтекстных акустических моделей фонем, оптимальный с точки зрения показателя влияния контекста на параметры моделей;

· Поставлена задача формирования словаря заполнения как задача разбиения слов языка на непересекающиеся подмножества, для которой в качестве критерия взят критерий минимума средней ошибки распознавания и записана соответствующая целевая функция;

· Доказана лемма, на основании которой целевая функция процедуры разбиения слов языка на непересекающиеся подмножества может быть заменена функцией языковых вероятностей и перекрестной энтропии СММ;

· Разработан метод и алгоритм расчета перекрестной энтропии СММ;

· Предложен алгоритм кластеризации, который может быть использован для разбиения слов языка на непересекающиеся подмножества с использованием полученной целевой функции;

· Разработана программная реализация и выполнены экспериментальные исследования системы поиска ключевых слов, использующей разработанный метод формирования словаря заполнения.

· Создана программная реализация системы, предназначенной для оценки параметров длинноконтекстных акустических моделей фонем, а также проведены экспериментальные исследования предлагаемого метода аппроксимации длинноконтекстных акустических моделей фонем;

Методы исследования. В работе использованы методы распознавания естественной речи, основанные на скрытых Марковских моделях, в том числе теория цифровой обработки сигналов, теория распознавания образов и элементы теории вероятностей и математической статистики.

Научная новизна. Предложен новый подход к созданию акустических моделей ключевых слов с использованием длинноконтекстных акустических моделей фонем, отличающихся от известных контекстнозависимых моделей переменной длиной учитываемого контекста. Впервые поставлена и решена задача формирования словаря заполнения, оптимального с точки зрения средней ошибки распознавания. Выполнен ряд экспериментов, подтверждающих эффективность предлагаемых методов.

Достоверность. Представленные в диссертации леммы и теоремы имеют строгое математическое обоснование, предложенные методы исследованы теоретически и проверены экспериментально.

Практическая значимость. Предложен метод и алгоритм создания акустических моделей ключевых слов с использованием длинноконтекстных моделей фонем. Предложен метод и алгоритм формирования словаря заполнения, оптимального с точки зрения минимума средней ошибки распознавания, который позволяет повысить точность поиска ключевых слов.

Результаты диссертации были применены при выполнении следующих работ:

· НИР "Ключ", НИР "Живец-1 СВА", ОКР "Творение-2А", заказчик - ФГУП "18 ЦНИИ" МО РФ;

· НИР "Беседа", НИР "Хоровод", НИР "Хор-Р", заказчик - ФГУП "НИИ "КВАНТ";

· НИР "Речь-О", заказчик - ФГНУ НИИ "Спецвузавтоматика".

Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на седьмой международной научно-практической конференции "Интеллектуальные и многопроцессорные системы-2006" (Кацивели, Украина, 2006), на XVI сессии Российского акустического общества (Москва, 2005), на международной конференции Speech and Computer "Specom-2004" (Санкт-Петербург, 2004), на международной научной конференции Speech and Computer "Specom-2005" (Patras, Greece, 2005), на шестой международной научно-практической конференции "Интеллектуальные и многопроцессорные системы-2005" (поселок Дивноморское, Геленджикский район, г. Новороссийск, 2005).

Публикации. По теме диссертации опубликовано 25 печатных работ. Из них 10 статей в научных журналах, 13 тезисов докладов и два свидетельства об официальной регистрации программ для ЭВМ.

1. Существующие методы и алгоритмы поиска ключевых слов в аудио-сообщениях, основанные на скрытых Марковских моделях

В первом разделе первой главы описывается статистический подход к решению задачи распознавания речи, основанный на Байесовской теории принятия решений. Особенности этого подхода состоят в следующем:

1. Речевое сообщение, представленное в виде звукового файла, преобразуется в последовательность векторов признаков .

2. Решение о содержании речевого сообщения принимается на основании Байесовского критерия минимума средних потерь, который в случае матрицы потерь , где - символ Кронекера, преобразуется в критерий максимума апостериорной вероятности:

, (1)

где - вероятность того, что последовательность слов может быть представлена последовательностью векторов признаков ; - вероятность последовательности слов .

3. Для расчета вероятности используется акустическая модель.

4. Для расчета вероятности используется модель языка.

Во втором разделе первой главы описывается этап преобразования речевого сигнала в последовательность векторов признаков. Выдвигаются требования, которым должна удовлетворять результирующая последовательность , чтобы обеспечить наиболее качественный и в то же время эффективный процесс распознавания. Эти требования связаны с предположениями, выдвигаемыми акустической моделью по отношению к процессу речеобразования.

Далее во втором разделе описывается -преобразование речевого сигнала, которое в настоящий момент дает наилучшее качество распознавания речи для систем, основанных на скрытых Марковских моделях, при этом указывается, что при выборе преобразования руководствуются результатами психоакустических экспериментальных исследований.

В третьем разделе первой главы описываются скрытые Марковские модели (СММ), которые в настоящее время широко используются для моделирования акустического сигнала при распознавании речи.

Определение 1 Скрытая Марковская модель - это система с конечным числом состояний, которая каждый момент времени переходит из состояния в состояние в соответствии с вероятностью перехода и генерирует вектор признаков в соответствии с выходной вероятностью , характерной для текущего состояния.

Параметры , обладают свойствами, которые являются следствием их вероятностной природы:

, ,

где - количество состояний СММ-модели.

Рисунок 1 - Пример СММ-модели

В третьем разделе первой главы описываются СММ-модели, которые используются в системах распознавания речи для моделирования акустического сигнала. Это так называемые СММ-модели типа «слева-направо» (см. рисунок 1). Множество состояний этих моделей является упорядоченным, и при этом переход из некоторого состояния возможен либо в это состояние, либо в следующее. Для удобства вводятся начальное и конечное состояния, в которых система находится перед началом и после завершения процесса генерации. Эти состояния не соответствуют реальным векторам признаков из последовательности векторов признаков .

Также в диссертации конкретизируется вид : в качестве используется смесь нормальных распределений

, (2)

где

- количество элементов смеси;

, , - соответственно вес, среднее вектор и корреляционная матрица -й компоненты состояния ;

- знак транспонирования.

Параметры смеси обладают следующими свойствами:

, , ,

, ,

, , .

Таким образом, акустическая модель гипотезы характеризуется множеством параметров

где - количество состояний модели .

По аналогии для обозначения множества параметров всех СММ-моделей системы распознавания речи в диссертации используется символ :

Далее в третьем разделе описывается способ построения СММ-модели последовательности слов .Существуют два разных подхода к моделированию акустического сигнала при распознавании речи:

1) Минимальными структурными элементами языка являются слова. В этом случае модель последовательности слов строится конкатенацией моделей слов, из которых она состоит.

2) Минимальными структурными элементами языка являются составные элементы слов (слоги, фонемы и т.д.), в этом случае модель слова строится конкатенацией моделей структурных элементов, из которых оно состоит, а модель последовательности слов строится конкатенацией моделей слов, из которых эта последовательность состоит.

Первый подход используется при распознавании речи с ограниченным словарем. Второй подход является более предпочтительным для больших словарей. В настоящей диссертационной работе используется второй подход, в котором в качестве структурных элементов выступают фонемы, при этом фонема моделируется тремя состояниями, из которых первое моделирует часть фонемы, подверженную влиянию предшествующей фонемы, последнее - часть фонемы подверженную влиянию последующей фонемы, а центральное состояние моделирует «чистую» часть фонемы. На рисунке 1 показана СММ фонемы, а также сгенерированная моделью последовательность векторов признаков . Также на рисунке показаны начальное и конечное состояния модели, в которых система находится перед началом и после завершения процесса.

В третьем разделе первой главы описывается способ вычисления вероятности при помощи СММ:

(3)

где - СММ последовательности слов , суммирование ведется по всем последовательностям состояний модели .

Вероятность рассчитывается по формуле:

где

где - длина последовательности , - количество состояний модели . В четвертом разделе первой главы описываются основные подходы к оценке параметров СММ-моделей. Процедура обучения в общем случае сводится к нахождению таких параметров СММ-моделей , которые бы максимизировали некоторую целевую функцию :

(4)

Наиболее распространенным для обучения СММ является метод максимального правдоподобия, в котором в качестве целевой функции выступает величина правдоподобия:

, (5)

где рассчитывается по формуле (3), - обучающая последовательность векторов признаков, а - последовательность слов, соответствующая этой последовательности.

Однако непосредственное использование выражения (5) для нахождения параметров СММ является весьма трудной задачей, поэтому для нахождения оптимальных параметров используется вспомогательная функция , которая зависит от двух наборов параметров СММ-моделей и , и связана с функцией следующими соотношениями:

Из этих выражений следует, что возрастает одновременно с , а с другой стороны они одновременно достигают экстремума.

Непосредственная оптимизация вспомогательной функции по параметрам приводит к итерационным формулам для расчета параметров СММ-моделей.

В пятом разделе первой главы описывается -граммная модель языка, которая используется для моделирования языка. Название объясняется тем, что основным рассматриваемым в данной методике объектом являются грамматики (-граммы) - последовательности слов длиной . Модель языка предназначена для расчета вероятности :

где для оценки вероятностей используется формула:

где

, .

где - количество встреч грамматики обучающем тексте.

Основной особенностью этой модели является так называемый метод отхода, позволяющий рассчитывать вероятности последовательностей слов, которые не встречались в обучающем тексте.

В шестом разделе первой главы описывается декодер, выполняющий поиск оптимальной гипотезы в соответствии с (1). В диссертации описывается Витерби_декодер, который в настоящее время используется в системах распознавания речи, основанных на СММ-моделях. В качестве практической реализации Витерби_декодера описывается алгоритм перемещающегося маркера, который может быть использован для решения различных задач распознавания речи.

В заключение первой главы рассматриваются недостатки существующих методов, основным из которых является низкая точность поиска ключевых слов в каналах с повышенным уровнем шума, и предлагаются направления их разрешения, а также выполняется постановка задачи исследования.

аппроксимация длинноконтекстный акустический энтропия

2. Метод обучения длинноконтекстных акустических моделях фонем, которые используются для создания более точных СММ-моделей ключевых слов

Пусть - некоторое ключевое слово и - его фонетическая транскрипция, где , , - -я фонема транскрипции. Акустическая модель ключевого слова строится конкатенацией акустических моделей фонем. В диссертации для создания акустических моделей ключевых слов предлагаются так называемые длинноконтекстные модели фонем:

Определение 2 длинноконтекстной моделью (ДК-моделью) фонемы называется модель, зависящая от всей последовательности фонем , предшествующих данной фонеме в фонетической транскрипции слова, и всей последовательности фонем , следующих за данной фонемой в фонетической транскрипции слова. и называются соответственно левым и правым контекстом данной длинноконтекстной модели. Тройка элементов называется описателем данной длинноконтекстной модели (ДК-описателем).

Определение 3 Между двумя описателями и существует отношение включенности , если описатель полностью содержится в описателе , когда совмещаются их центральные фонемы.

Во второй главе предлагается следующий метод обучения ДК-моделей. Когда количество речевых участков, соответствующих ДК-модели меньше некоторого минимального значения ДК-модель аппроксимируется моделью :

, (6)

которая имеет достаточное количество обучения

, (7)

и при этом описатели моделей находятся в отношении включенности .

Поскольку существует множество описателей , которые могут находиться в отношении включенности с описателем , стоит проблема выбора наиболее подходящего в некотором смысле описателя . В диссертации предлагается выбирать описатель , который получается из описателя отбрасыванием контекста , и при контекст минимальным образом влияет на параметры модели .

Для оценки величины влияния контекста на параметры модели во второй главе вводится понятие показателя влияния контекста на параметры модели:

Определение 4 Пусть заданы две акустические модели - и . Их критерием близости называется величина

где означает математическое ожидание по плотности распределения вероятностей , интеграл берется по многомерной величине .

Определение 5 Пусть имеются две ДК-модели с описателями, находящимися в отношении включенности . Контекст отличает модель от модели . Показателем влияния контекста на параметры модели называется величина

Таким образом, для аппроксимации модели в соответствии с (6) выбирается модель с описателем

, (8)

и при этом для описателя выполняется условие (7), - множество описателей, находящихся в отношении включенности с описателем .

Таким образом, для аппроксимации ДК-модели с описателем предлагается использовать модель, удовлетворяющую условию (8).

Однако для расчета величины требуется модель , параметры которой неизвестны. В связи с этим в диссертации величину в выражении (8) предлагается заменить величиной

, (9)

которая называется средним показателем влияния контекста на параметры модели . Множество - множество всех описателей, находящихся в отношении включенности с описателем .

В заключение второй главы приводится описание программной реализации системы поиска ключевых слов, использующей ДК-модели. Программная реализация создана для проверки возможностей предлагаемых ДК-моделей и методов их обучения. Она состоит из двух экспериментальных стендов:

- стенд обучения ДК-моделей;

- стенд тестирования с использованием ДК-моделей.

Стенды представляют собой консольные приложения, являющиеся набором Perl_скриптов, которые управляют последовательностью вызовов утилит для работы с СММ-моделями, словарями, и др., написанные на языке С.

В таблице 1 представлены результаты экспериментальных исследований системы поиска ключевых слов, использующей ДК-модели фонем. В таблице указаны две величины: вероятность правильного распознавания в процентах и количество ложных вызовов.

Таблица 1 - Результаты экспериментов для системы поиска ключевых слов, использующей ДК-модели

Встречаемость длина уч. контекста	50	100
2	82.07 254	82.70 396
3	76.37 186	81.43 361
4	73.42 162	80.38 353

Сравнение полученных результатов с результатами экспериментов со стандартной системой поиска ключевых слов показывает, что использование ДК-моделей дает увеличение вероятности правильного распознавания на 3.8 % при максимальной длине учитываемого контекста, равной 2 и (стандартная система дает вероятность распознавания %, количество ложных вызовов 244). При увеличении максимальной длины учитываемого контекста происходит падение вероятности правильного распознавания, особенно для случая . Причиной этого является так называемый эффект переобучения, который состоит в том, что при оценке параметров СММ-моделей они становятся слишком настроены под данные, на которых они обучались и в меньшей степени начинают моделировать данные, которые не присутствовали в обучающей выборке. Фактически, переобучение проявляется в заниженных значениях дисперсий компонент смесей, моделирующих состояния СММ-моделей.

3. Метод формирования словаря заполнения системы распознавания ключевых слов, оптимальный с точки зрения минимума средней ошибки распознавания, а также разрабатывается алгоритм для его реализации

Для постановки задачи формирования словаря заполнения вводится понятие модели распознавания: Определение 6 Пусть множество возможных последовательностей слов языка и - множество возможных последовательностей элементов словаря . Моделью распознавания называется отображение множества на множество :

. (10)

В диссертации используется частный случай модели распознавания (10), которая задает способ распознавания отдельных слов языка:

где - множество слов языка, - словарь заполнения.

Поскольку слов языка гораздо больше, чем слов в словаре заполнения, одному слову словаря заполнения в модели распознавания будет соответствовать целое множество слов языка:

, (11)

при этом предполагается, что , то есть множества являются попарно непересекающимися.

Таким образом, модель распознавания (11) разбивает множество слов языка на попарно непересекающиеся подмножества и задача нахождения словаря заполнения сводится и нахождению этого разбиения и соответствующих каждому множеству элементов словаря заполнения , такому, что оптимизируется некоторая целевая функция :

, (12)

В диссертации в качестве целевой функции используется статистика, которая используется в решающем правиле (1):

. (13)

Вид целевой функции предполагает, что для ее расчета требуется обучающая выборка речевых сообщений , - их количество с соответствующими словесными транскрипциями . Обучающая выборка представлена в виде множества последовательностей наблюдений . - транскрипция, получаемая преобразованием каждого слова эталонной транскрипции . Необходимо отметить, что второе слагаемое в (13) не влияет на решение задачи (12), потому что не зависит от . Поэтому вместо целевой функции (13) можно рассматривать целевую функцию

. (14)

Выбор целевой функции (13) определяется тем, что в этом случае решение задачи нахождения модели распознавания (12) становится Байесовским. Использование Байесовского критерия в данном случае имеет два преимущества:

- Байесовский критерий принятия решений минимизирует средние потери, что в случае систем распознавания речи означает минимизацию средней ошибки распознавания;

- При распознавании (решающее правило (1)), используется та же статистика, это означает, что модель распознавания является оптимальной в том смысле, что при распознавании вероятность реализации этой модели максимальна.

В третье главе доказывается лемма, которая позволяет рассчитать значение целевой функции (14) без использования реальных данных. При этом источником акустической и языковой информации являются СММ-модели и модель языка:

Лемма 1: Целевая функция (14)

является состоятельной оценкой величины

, (15)

где - количество слов в обучающей выборке, - языковой множитель, - множество различных последовательностей слов длиной , где - размер грамматик используемой модели языка, - последовательность слов, которая получается преобразованием над последовательностью слов , - среднее значение величины по плотности распределения вероятностей :

- последовательность наблюдений, соответствующих реализации слова , а - ее плотность распределения вероятностей.

В третьей главе предлагается метод и алгоритм расчета величины , , в случае, когда для аппроксимации плотности распределения вероятностей используется акустическая вероятность СММ-модели слова :

В этом случае становится перекрестной энтропией для скрытых Марковских моделей.

Основным результатом доказанной в третьей главе леммы является факт, что целевая функция (14)

является состоятельной оценкой функции (15)

(16).

Это означает, что при неограниченном возрастании размера обучающей выборки целевая функция стремится к функции в вероятностном смысле:

, .

Откуда следует, что при неограниченном возрастании размера обучающей выборки можно заменить целевую функцию функцией , поскольку для расчета функции не требуется реальная речевая база, и размер вымышленной базы может быть каким угодно, в том числе неограниченно большим.

Далее в третьей главе показывается, что если в языковых вероятностях в (16) пренебречь зависимостью от предшествующей последовательности слов , то функция примет вид

где

(17)

характерный для целевой функции метода кластеризации К-средних. Однако метод К-средних не может быть использован непосредственно, поскольку он разработан для евклидового пространства, а в задаче разбиения слов это не так, как это видно из выражения (17).

В связи с этим в третьей главе предлагается модифицированный алгоритм К-средних, в котором изменен шаг, связанный с нахождением центров кластеров, поскольку на этом шаге алгоритма используется евклидовость данных. Для нахождения центров кластеров в третьей главе предлагается использовать перебор всех возможных претендентов:

, для всех .

В третьей главе описывается программная реализация системы распознавания ключевых слов, использующей оптимальный словарь заполнения, которая состоит из двух стендов:

- стенд формирования оптимального словаря заполнения;

- стенд тестирования.

Программная реализация представляет собой консольные приложения, реализованные в виде набора Perl_скриптов, которые осуществляют вызов утилит, выполняющих основные расчеты. Утилиты представляют собой консольные приложения и написаны на языке С.

Таблица 2 - Результаты поиска ключевых слов с использованием оптимального словаря

lf	1	5	10	15	17.5	20	22.5	25	30
	76.37	75.74	79.11	79.11	78.06	80.17	77.64	78.69	78.06
	309	292	311	278	267	297	264	269	261

В заключение третьей главы описываются результаты экспериментальных исследований, выполненных при помощи созданной программной реализации. В результате исследований был проведен ряд экспериментов, в ходе которых менялся языковой множитель . Зависимости вероятности правильного распознавания и количества ложных вызовов от языкового множителя приведены в таблице 2.

Сравнение полученных результатов с результатами тестирования стандартной системы показывает, что использование процедуры оптимизации словаря заполнения приводит к повышению точности системы выделения ключевых слов в случае, когда , , на 0.21% и в случае, когда, на 1.27%.

К защите представлены следующие результаты:

· Разработан метод и алгоритм обучения длинноконтекстных моделей фонем.

· Разработан метод формирования словаря заполнения, основанный на разбиении слов языка на непересекающиеся подмножества, оптимальные с точки зрения критерия минимума средней ошибки распознавания.

· Доказана лемма о целевой функции процедуры разбиения слов языка на непересекающиеся подмножества.

· Создана программная реализация и проведены экспериментальные исследования системы поиска ключевых слов, использующей длинноконтекстные модели фонем.

· Создана программная реализация и проведены экспериментальные исследования системы поиска слов, использующей оптимальный словарь заполнения.

Литература

1. Аграновский А.В., Леднов Д.А., Репалов С.А., Зулкарнеев М.Ю. Двухслойная модель распознавания слитной речи // Интеллектуальные и многопроцессорные системы-2001, Материалы второй международной научно-практической конференции, Таганрог: Изд. ТРТУ, 2001, с. 36-39.

2. Аграновский А.В., Леднов Д.А., Репалов С.А., Зулкарнеев М.Ю. Организация иерархической модели распознавания слитной речи // Научно-теоретический международный журнал "Искусственный интеллект", № 3, 2001, Донецк: Изд. НАН Украины, с. 17-22.

3. Аграновский А.В., Леднов Д.А., Зулкарнеев М.Ю. Двухслойная модель формирования состояний для скрытых цепей Маркова // Сборник трудов XI сессии РАО, 19-23 ноября 2001, Т3, Акустика речи. Медицинская и биологическая акустика, Москва: Изд. ГЕОС, 2001, с.38-41.

4. Аграновский А.В., Леднов Д.А., Зулкарнеев М.Ю. Поэлементный метод распознавания слов // Материалы второй всероссийской конференции ''Теория и практика речевых исследований'' (АРСО-2001), Москва, 2001, с. 39-41.

5. Аграновский А.В., Леднов Д.А., Сулима П.М, Зулкарнеев М.Ю. Формантное представление речевого сигнала для решения задач обработки речи // Известия ТРТУ, Тематический выпуск: Материалы всероссийской научно-технической конференции с международным участием "компьютерные технологии в инженерной и управленческой деятельности", № 2 (25), Таганрог: ТРТУ, 2002, с. 92-95.

6. Аграновский А.В., Леднов Д.А., Зулкарнеев М.Ю. Применение скрытых Марковских моделей в распознавании отдельных слов // Акустика речи и прикладная лингвистика, Ежегодник Российского акустического общества, Выпуск 3, Москва, 2002, с. 31-34.

7. Аграновский А.В., Можаев О.Г., Леднов Д.А., Зулкарнеев М.Ю. Автоматическая идентификация языка // Научно-теоретический журнал "Искусственный интеллект", № 4, 2002, Донецк: Изд. НАН Украины, с. 142-150.

8. Аграновский А.В., Можаев О.Г., Леднов Д.А., Зулкарнеев М.Ю. Метод идентификации языка, основанный на фонетическом содержании сообщения // Интеллектуальные и многопроцессорные системы-2002, Материалы третьей международной научно-практической конференции, Таганрог: Изд. ТРТУ, 2002, с. 29-31.

9. Agranovsky A.V., Lednov D.A., Zulkarneyev M.Y. Statistical Approach to Creating Phonetic Transcription // Proc of Int. Workshop "Speech&Computer", "Specom-2002", St.Petersburg, Russia, 2-5 september 2002, pp.99-101.

10. Аграновский А.В., Леднов Д.А., Зулкарнеев М.Ю. Двухслойная модель формирования состояний для скрытых цепей Маркова // Акустический журнал, т.48, 4, с.560-562.

11. Аграновский А.В., Леднов Д.А., Телеснин Б.А., Зулкарнеев М.Ю. Экспериментальный стенд для тестирования системы поиска ключевых слов в непрерывном потоке русской речи// Свидетельство об официальной регистрации программы для ЭВМ №2003611308.

12. Аграновский А.В., Леднов Д.А., Телеснин Б.А., Зулкарнеев М.Ю. Классификатор аудио-файлов по языкам // Свидетельство об официальной регистрации программы для ЭВМ №2003611311.

13. Аграновский А.В., Леднов Д.А., Зулкарнеев М.Ю. Моделирование вариативности произношения для распознавания русской речи // Научно-теоретический международный журнал «Искусственный интеллект», №3, 2003, Донецк: дон ГИИИ, с. 388-393.

14. Аграновский А.В., Свирепо О.А., Леднов Д.А., Зулкарнеев М.Ю. Эксперименты по моделированию вариативности произношения // Интеллектуальные многопроцессорные системы-2003, Материалы четвертой международной научно-практической конференции, Таганрог: Изд. ТРТУ, 2003, с. 170-172.

15. Свирепо О.А., Зулкарнеев М.Ю. Исследование возможности применения классификации фонетических ошибок в моделировании вариативности произношения (на материале русского языка) // Интеллектуальные и многопроцессорные системы-2003, Материалы четвертой международной научно-практической конференции, Таганрог: Изд. ТРТУ, 2003, с. 173-175.

16. Леднов Д. А., Куликов Л. С., Зулкарнеев М.Ю. Обзор патентов в области поиска ключевых слов, часть 1. Схемы, не использующие верификацию результатов распознавания // Телекоммуникации, № 4, 2004 г., с. 8-13.

17. Леднов Д. А., Куликов Л. С., Зулкарнеев М.Ю. Обзор патентов в области поиска ключевых слов, часть 2. Схемы, использующие верификацию результатов распознавания // Телекоммуникации, № 5, 2004 г., с. 16-23.

18. Зулкарнеев М.Ю. Учет корреляции в последовательности векторов признаков, характеризующей высказывание // Интеллектуальные и многопроцессорные системы-2005, Материалы шестой международной научно-практической конференции, т.3, Таганрог: Изд. ТРТУ, с. 291-294.

19. Леднов Д.А., Репалов С.А., Зулкарнеев М.Ю. Влияние глубины учета динамики на точность идентификации дикторов // Сборник трудов XIV международной научной конференции "Информатизация и информационная безопасность правоохранительных органов". Москва: Академия управления МВД России, 2005. с. 359-361.

20. Зулкарнеев М.Ю. Использование автоматической фонетической разметки речевой базы для обучения системы распознавания непрерывной речи // Сборник трудов XVI сессии РАО, Т.III, Москва: ГЕОС, 2005, с. 40-44.

21. Ivanov V.D., Potapova R.K., Zulkarneyev M.Y. A heuristic method of grapheme-to-phoneme conversion // Proceedings of 10th International Conference on SPEECH and COMPUTER "Specom2005", v. I, pp.263-264.

22. Зулкарнеев М.Ю. Представление СММ с линейными предсказателями в виде базовых СММ для задач распознавания речи // Обозрение прикладной и промышленной математики том 12, выпуск 4, с. 972-973.

23. Zulkarneyev M.Y. An approach to compensation for language modeling errors in the key-spotting systems // Proceedings of 9th International Conference of SPEECH and COMPUTER "Specom2004", pp. 348-350.

24. Иванов В.Д., Зулкарнеев М.Ю. Оптимальный метод формирования словаря заполнения для задачи распознавания ключевых слов в аудио-сообщениях // Научно-теоретический международный журнал "Искусственный интеллект", №3, 2006, Донецк: дон ГИИИ, 2006, с. 510-520.

25. Сатуновский П.С., Зулкарнеев М.Ю. Метод построения фонетической транскрипции слов // Интеллектуальные и многопроцессорные системы-2006, Материалы седьмой международной научно-практической конференции, Т.2. Таганрог: Изд. ТРТУ, 2006, с.390-393.

Размещено на Allbest.ru

...

автореферат "Разработка математических моделей и алгоритмов поиска ключевых слов в аудио-сообщениях" скачать

Подобные документы

Построение математических моделей
Приемы построения математических моделей вычислительных систем, отображающих структуру и процессы их функционирования. Число обращений к файлам в процессе решения средней задачи. Определение возможности размещения файлов в накопителях внешней памяти.

лабораторная работа [32,1 K], добавлен 21.06.2013
Математическое определение системы и моделей. Теория и методология моделирования
Процесс выбора или построения модели для исследования определенных свойств оригинала в определенных условиях. Стадии процесса моделирования. Математические модели и их виды. Адекватность математических моделей. Рассогласование между оригиналом и моделью.

контрольная работа [69,9 K], добавлен 09.10.2016
Проверка истинности моделей множественной регрессии
Построение модели множественной регрессии теоретических значений динамики ВВП, определение средней ошибки аппроксимации. Выбор фактора, оказывающего большее влияние. Построение парных моделей регрессии. Определение лучшей модели. Проверка предпосылок МНК.

курсовая работа [352,9 K], добавлен 26.01.2010
Построение динамических моделей некоторых четырехугольников
Признаки некоторых четырехугольников. Реализация моделей геометрических ситуаций в средах динамической геометрии. Особенности динамической среды "Живая геометрия", особенности построения в ней моделей параллелограмма, ромба, прямоугольника и квадрата.

курсовая работа [862,0 K], добавлен 28.05.2013
Математическое моделирование
Особенности математических моделей и моделирования технического объекта. Применение численных математических методов в моделировании. Методика их применения в системе MathCAD. Описание решения задачи в Mathcad и Scilab, реализация базовой модели.

курсовая работа [378,5 K], добавлен 13.01.2016
Сопряженные задачи для уравнений переноса и диффузии
Рассмотрение основных подходов к построению математических моделей процесса. Сопряженное уравнение для простейшего уравнения диффузии и структура алгоритмов для решения задач. Использование принципа двойственности для представления линейного функционала.

курсовая работа [711,0 K], добавлен 03.08.2012
История возникновения и развития методов реконструкции математических моделей динамических систем по порождаемому временному ряду
Возникновение и развитие теории динамических систем. Развитие методов реконструкции математических моделей динамических систем. Математическое моделирование - один из основных методов научного исследования.

реферат [35,0 K], добавлен 15.05.2007
Математическое моделирование пространственных геологических закономерностей
Основные свойства геологических объектов как пространственных переменных. Виды математических моделей геологических объектов. Вариограмма и ее аппроксимации. Вероятностные модели геологических полей. Влияние на вариограмму геометрической базы измерений.

презентация [345,8 K], добавлен 17.07.2014
Методы формирования моделей систем и средств управления
Суть метода пространственной дискретизации. Основные способы замены производной первого порядка. Алгоритм метода конечных разностей. Разбиение математической модели конструкции на непересекающиеся элементы простой геометрии. Матрица контуров и сечений.

презентация [114,2 K], добавлен 27.10.2013
Управление движением транспортной тележки в боковой плоскости
Разработка проекта системы автоматического управления тележкой, движущейся в боковой плоскости. Описание и анализ непрерывной системы, создание ее математических моделей в пространстве состояний и модели "вход-выход". Построение графиков реакций объекта.

курсовая работа [1,7 M], добавлен 25.12.2010
Параметризация геометрических моделей
Сокращение трудоемкости разработки трехмерных геометрических моделей, требования к квалификации дизайнерской разработки. Внешние переменные модели в эскизах и создание путем присвоения размерам имен переменных. Фиксированный размер и управление моделью.

презентация [92,9 K], добавлен 12.03.2012
Сортировка данных и реализация быстрого поиска в уже отсортированном массиве
Законы алгебры Буля и их применение для преобразования логических выражений. Расчет информационной емкости документов предметной области. Построение инфологической, реляционной и даталогической моделей. Применение методов поиска и сортировки данных.

курсовая работа [261,7 K], добавлен 05.01.2013
Разработка и исследование ускоренного алгоритма калибровки моделей больших сетей по коэффициенту кластеризации
Теория случайных графов, модели сетей (графы Барабаши-Альберт, Эрдеша-Реньи, Уотса-Строгатса и др.) Разработка ускоренного алгоритма калибровки больших сетей по коэффициенту кластеризации на языке Java в среде Eclipse. Анализ экспериментальных данных.

дипломная работа [2,0 M], добавлен 19.11.2013
Свойства и особенности ортогонального проецирования, используемые при разработке графических моделей
Условия отображения формы и размеров геометрического объекта при его моделировании. Виды проецирования, используемые при разработке графических моделей. Свойства ортогонального проецирования, отображение на комплексном чертеже точки, прямой и плоскости.

реферат [1,2 M], добавлен 01.04.2011
Нахождение приближающих математических моделей в виде элементарных функций
Определение коэффициентов элементарных функций: линейной, показательной, степенной, гиперболической, дробно-линейной, дробно-рациональной. Использование метода наименьших квадратов. Приближённые математические модели в виде приближённых функций.

лабораторная работа [253,6 K], добавлен 05.01.2015
Математическое моделирование трансмиссии
Сущность моделирования, его главные цели задачи. Конструктивная схема и общее описание исследуемой трансмиссии. Алгоритм реализации задачи и ее программная реализация. Результаты расчета и их анализ. Исследование характеристик полученной модели.

курсовая работа [1,1 M], добавлен 01.01.2014
Математика - язык познания мира
Определение понятия модели, необходимость их применения в науке и повседневной жизни. Характеристика методов материального и идеального моделирования. Классификация математических моделей (детерминированные, стохастические), этапы процесса их построения.

реферат [28,1 K], добавлен 20.08.2015
Динамические модели
Динамическая модель как теоретическая конструкция, описывающая изменение состояний объекта. Характеристика основных подходов к построению: оптимизационный, описательный. Рассмотрение способов построения математических моделей дискретных объектов.

контрольная работа [769,7 K], добавлен 31.01.2013
Математические модели задач линейного программирования
Знакомство с особенностями построения математических моделей задач линейного программирования. Характеристика проблем составления математической модели двойственной задачи, обзор дополнительных переменных. Рассмотрение основанных функций новых переменных.

задача [656,1 K], добавлен 01.06.2016
Построение математических моделей
Составление математической модели для предприятия, характеризующей выручку предприятия "АВС" в зависимости от капиталовложений (млн. руб.) за последние 10 лет. Расчет поля корреляции, параметров линейной регрессии. Сводная таблица расчетов и вычислений.

курсовая работа [862,4 K], добавлен 06.05.2009

Другие документы, подобные "Разработка математических моделей и алгоритмов поиска ключевых слов в аудио-сообщениях"

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.