Разработка математических моделей и алгоритмов поиска ключевых слов в аудио-сообщениях
Разработка метода аппроксимации длинноконтекстных акустических моделей фонем, оптимального с точки зрения показателя влияния контекста на параметры моделей и его программная реализация. Алгоритм расчета перекрестной энтропии скрытой Марковской модели.
Рубрика | Математика |
Вид | автореферат |
Язык | русский |
Дата добавления | 01.05.2018 |
Размер файла | 147,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru
Размещено на http://www.allbest.ru
Введение
Актуальность темы. Развитие компьютерной техники, компьютерных технологий и Интернета, приводит к росту объема информации, с которым приходится сталкиваться современному человеку. В связи с этим актуальной является проблема автоматической обработки информации, включая сортировку, хранение и быстрый поиск.
В этом смысле, не остается в стороне и задача автоматической обработки речевых данных, целью которой является выявление содержания речевых сообщений для сокращения их объема. Для решения этой задачи используются технологии распознавания речи, которые бурно развиваются последние четыре десятилетия, и к настоящему времени в этой области достигнуты значительные успехи. Так, преобразование речи, записанной из программ радиовещания, в текст выполняется с точностью распознавания слов 83-87%, спонтанной речи, записанной из стандартного телефонного канала - с точностью 71-75%.
Технологии распознавания речи в настоящее время используются в целом ряде практических приложений таких как:
· Поиск и классификация речевых сообщений в больших массивах речевых данных по их содержанию;
· Диалоговые системы «Человек - компьютер», «Человек - автоматическая справочная система» и т.д.;
· Управление промышленными, бытовыми и другими устройствами с использованием естественного языка;
· Автоматические системы перевода.
Однако не всегда требуется полное преобразование речи в текст, в некоторых приложениях может оказаться достаточной возможность определить наличие в сообщении лишь некоторых слов, или фраз. Эту задачу решают системы поиска ключевых слов в аудио-сообщениях. В настоящее время наиболее перспективными из них считаются системы поиска ключевых слов, основанные на полном распознавании речи, от которых они отличаются размером словаря - размер словаря системы поиска ключевых слов намного меньше (порядка 1000 слов), чем размер словаря системы распознавания речи (десятки тысяч слов и более).
Несмотря на достигнутые успехи, существует ряд практических задач, для которых точность поиска ключевых слов остается все еще не достаточной для практического использования. К таким задачам относится поиск ключевых слов в речевых сообщениях, записанных с сотовых телефонов или в условиях низкого отношения сигнал/шум (менее 10дБ). Точность поиска ключевых слов для таких систем может не превышать 40-50% в зависимости от уровня шума.
В связи с этим актуальной является задача разработки новых моделей и методов поиска ключевых слов, которые позволили бы повысить точность поиска ключевых слов.
Цель и задачи работы. Цель данной работы является разработка математических моделей и алгоритмов, позволяющих повысить точность поиска ключевых слов в аудио-сообщениях за счет: создания более точных акустических моделей ключевых слов и оптимизации словаря заполнения.
В соответствии с этими целями сформулирован и решен ряд задач:
· Введено понятие длинноконтекстных акустических моделей фонем, предназначенных для создания акустических моделей ключевых слов;
· Введено понятие показателя влияния контекста на параметры акустических моделей фонем, основанное на близости акустических моделей фонем, разработан метод и алгоритм его расчета;
· Разработан метод аппроксимации длинноконтекстных акустических моделей фонем, оптимальный с точки зрения показателя влияния контекста на параметры моделей;
· Поставлена задача формирования словаря заполнения как задача разбиения слов языка на непересекающиеся подмножества, для которой в качестве критерия взят критерий минимума средней ошибки распознавания и записана соответствующая целевая функция;
· Доказана лемма, на основании которой целевая функция процедуры разбиения слов языка на непересекающиеся подмножества может быть заменена функцией языковых вероятностей и перекрестной энтропии СММ;
· Разработан метод и алгоритм расчета перекрестной энтропии СММ;
· Предложен алгоритм кластеризации, который может быть использован для разбиения слов языка на непересекающиеся подмножества с использованием полученной целевой функции;
· Разработана программная реализация и выполнены экспериментальные исследования системы поиска ключевых слов, использующей разработанный метод формирования словаря заполнения.
· Создана программная реализация системы, предназначенной для оценки параметров длинноконтекстных акустических моделей фонем, а также проведены экспериментальные исследования предлагаемого метода аппроксимации длинноконтекстных акустических моделей фонем;
Методы исследования. В работе использованы методы распознавания естественной речи, основанные на скрытых Марковских моделях, в том числе теория цифровой обработки сигналов, теория распознавания образов и элементы теории вероятностей и математической статистики.
Научная новизна. Предложен новый подход к созданию акустических моделей ключевых слов с использованием длинноконтекстных акустических моделей фонем, отличающихся от известных контекстнозависимых моделей переменной длиной учитываемого контекста. Впервые поставлена и решена задача формирования словаря заполнения, оптимального с точки зрения средней ошибки распознавания. Выполнен ряд экспериментов, подтверждающих эффективность предлагаемых методов.
Достоверность. Представленные в диссертации леммы и теоремы имеют строгое математическое обоснование, предложенные методы исследованы теоретически и проверены экспериментально.
Практическая значимость. Предложен метод и алгоритм создания акустических моделей ключевых слов с использованием длинноконтекстных моделей фонем. Предложен метод и алгоритм формирования словаря заполнения, оптимального с точки зрения минимума средней ошибки распознавания, который позволяет повысить точность поиска ключевых слов.
Результаты диссертации были применены при выполнении следующих работ:
· НИР "Ключ", НИР "Живец-1 СВА", ОКР "Творение-2А", заказчик - ФГУП "18 ЦНИИ" МО РФ;
· НИР "Беседа", НИР "Хоровод", НИР "Хор-Р", заказчик - ФГУП "НИИ "КВАНТ";
· НИР "Речь-О", заказчик - ФГНУ НИИ "Спецвузавтоматика".
Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на седьмой международной научно-практической конференции "Интеллектуальные и многопроцессорные системы-2006" (Кацивели, Украина, 2006), на XVI сессии Российского акустического общества (Москва, 2005), на международной конференции Speech and Computer "Specom-2004" (Санкт-Петербург, 2004), на международной научной конференции Speech and Computer "Specom-2005" (Patras, Greece, 2005), на шестой международной научно-практической конференции "Интеллектуальные и многопроцессорные системы-2005" (поселок Дивноморское, Геленджикский район, г. Новороссийск, 2005).
Публикации. По теме диссертации опубликовано 25 печатных работ. Из них 10 статей в научных журналах, 13 тезисов докладов и два свидетельства об официальной регистрации программ для ЭВМ.
1. Существующие методы и алгоритмы поиска ключевых слов в аудио-сообщениях, основанные на скрытых Марковских моделях
В первом разделе первой главы описывается статистический подход к решению задачи распознавания речи, основанный на Байесовской теории принятия решений. Особенности этого подхода состоят в следующем:
1. Речевое сообщение, представленное в виде звукового файла, преобразуется в последовательность векторов признаков .
2. Решение о содержании речевого сообщения принимается на основании Байесовского критерия минимума средних потерь, который в случае матрицы потерь , где - символ Кронекера, преобразуется в критерий максимума апостериорной вероятности:
, (1)
где - вероятность того, что последовательность слов может быть представлена последовательностью векторов признаков ; - вероятность последовательности слов .
3. Для расчета вероятности используется акустическая модель.
4. Для расчета вероятности используется модель языка.
Во втором разделе первой главы описывается этап преобразования речевого сигнала в последовательность векторов признаков. Выдвигаются требования, которым должна удовлетворять результирующая последовательность , чтобы обеспечить наиболее качественный и в то же время эффективный процесс распознавания. Эти требования связаны с предположениями, выдвигаемыми акустической моделью по отношению к процессу речеобразования.
Далее во втором разделе описывается -преобразование речевого сигнала, которое в настоящий момент дает наилучшее качество распознавания речи для систем, основанных на скрытых Марковских моделях, при этом указывается, что при выборе преобразования руководствуются результатами психоакустических экспериментальных исследований.
В третьем разделе первой главы описываются скрытые Марковские модели (СММ), которые в настоящее время широко используются для моделирования акустического сигнала при распознавании речи.
Определение 1 Скрытая Марковская модель - это система с конечным числом состояний, которая каждый момент времени переходит из состояния в состояние в соответствии с вероятностью перехода и генерирует вектор признаков в соответствии с выходной вероятностью , характерной для текущего состояния.
Параметры , обладают свойствами, которые являются следствием их вероятностной природы:
, ,
, ,
, ,
где - количество состояний СММ-модели.
Рисунок 1 - Пример СММ-модели
В третьем разделе первой главы описываются СММ-модели, которые используются в системах распознавания речи для моделирования акустического сигнала. Это так называемые СММ-модели типа «слева-направо» (см. рисунок 1). Множество состояний этих моделей является упорядоченным, и при этом переход из некоторого состояния возможен либо в это состояние, либо в следующее. Для удобства вводятся начальное и конечное состояния, в которых система находится перед началом и после завершения процесса генерации. Эти состояния не соответствуют реальным векторам признаков из последовательности векторов признаков .
Также в диссертации конкретизируется вид : в качестве используется смесь нормальных распределений
, (2)
где
- количество элементов смеси;
, , - соответственно вес, среднее вектор и корреляционная матрица -й компоненты состояния ;
- знак транспонирования.
Параметры смеси обладают следующими свойствами:
, , ,
, ,
, , .
Таким образом, акустическая модель гипотезы характеризуется множеством параметров
,
где - количество состояний модели .
По аналогии для обозначения множества параметров всех СММ-моделей системы распознавания речи в диссертации используется символ :
.
Далее в третьем разделе описывается способ построения СММ-модели последовательности слов .Существуют два разных подхода к моделированию акустического сигнала при распознавании речи:
1) Минимальными структурными элементами языка являются слова. В этом случае модель последовательности слов строится конкатенацией моделей слов, из которых она состоит.
2) Минимальными структурными элементами языка являются составные элементы слов (слоги, фонемы и т.д.), в этом случае модель слова строится конкатенацией моделей структурных элементов, из которых оно состоит, а модель последовательности слов строится конкатенацией моделей слов, из которых эта последовательность состоит.
Первый подход используется при распознавании речи с ограниченным словарем. Второй подход является более предпочтительным для больших словарей. В настоящей диссертационной работе используется второй подход, в котором в качестве структурных элементов выступают фонемы, при этом фонема моделируется тремя состояниями, из которых первое моделирует часть фонемы, подверженную влиянию предшествующей фонемы, последнее - часть фонемы подверженную влиянию последующей фонемы, а центральное состояние моделирует «чистую» часть фонемы. На рисунке 1 показана СММ фонемы, а также сгенерированная моделью последовательность векторов признаков . Также на рисунке показаны начальное и конечное состояния модели, в которых система находится перед началом и после завершения процесса.
В третьем разделе первой главы описывается способ вычисления вероятности при помощи СММ:
(3)
где - СММ последовательности слов , суммирование ведется по всем последовательностям состояний модели .
Вероятность рассчитывается по формуле:
,
где
,
,
где - длина последовательности , - количество состояний модели . В четвертом разделе первой главы описываются основные подходы к оценке параметров СММ-моделей. Процедура обучения в общем случае сводится к нахождению таких параметров СММ-моделей , которые бы максимизировали некоторую целевую функцию :
(4)
Наиболее распространенным для обучения СММ является метод максимального правдоподобия, в котором в качестве целевой функции выступает величина правдоподобия:
, (5)
где рассчитывается по формуле (3), - обучающая последовательность векторов признаков, а - последовательность слов, соответствующая этой последовательности.
Однако непосредственное использование выражения (5) для нахождения параметров СММ является весьма трудной задачей, поэтому для нахождения оптимальных параметров используется вспомогательная функция , которая зависит от двух наборов параметров СММ-моделей и , и связана с функцией следующими соотношениями:
.
Из этих выражений следует, что возрастает одновременно с , а с другой стороны они одновременно достигают экстремума.
Непосредственная оптимизация вспомогательной функции по параметрам приводит к итерационным формулам для расчета параметров СММ-моделей.
В пятом разделе первой главы описывается -граммная модель языка, которая используется для моделирования языка. Название объясняется тем, что основным рассматриваемым в данной методике объектом являются грамматики (-граммы) - последовательности слов длиной . Модель языка предназначена для расчета вероятности :
,
где для оценки вероятностей используется формула:
,
где
,
,
, .
где - количество встреч грамматики обучающем тексте.
Основной особенностью этой модели является так называемый метод отхода, позволяющий рассчитывать вероятности последовательностей слов, которые не встречались в обучающем тексте.
В шестом разделе первой главы описывается декодер, выполняющий поиск оптимальной гипотезы в соответствии с (1). В диссертации описывается Витерби_декодер, который в настоящее время используется в системах распознавания речи, основанных на СММ-моделях. В качестве практической реализации Витерби_декодера описывается алгоритм перемещающегося маркера, который может быть использован для решения различных задач распознавания речи.
В заключение первой главы рассматриваются недостатки существующих методов, основным из которых является низкая точность поиска ключевых слов в каналах с повышенным уровнем шума, и предлагаются направления их разрешения, а также выполняется постановка задачи исследования.
аппроксимация длинноконтекстный акустический энтропия
2. Метод обучения длинноконтекстных акустических моделях фонем, которые используются для создания более точных СММ-моделей ключевых слов
Пусть - некоторое ключевое слово и - его фонетическая транскрипция, где , , - -я фонема транскрипции. Акустическая модель ключевого слова строится конкатенацией акустических моделей фонем. В диссертации для создания акустических моделей ключевых слов предлагаются так называемые длинноконтекстные модели фонем:
Определение 2 длинноконтекстной моделью (ДК-моделью) фонемы называется модель, зависящая от всей последовательности фонем , предшествующих данной фонеме в фонетической транскрипции слова, и всей последовательности фонем , следующих за данной фонемой в фонетической транскрипции слова. и называются соответственно левым и правым контекстом данной длинноконтекстной модели. Тройка элементов называется описателем данной длинноконтекстной модели (ДК-описателем).
Определение 3 Между двумя описателями и существует отношение включенности , если описатель полностью содержится в описателе , когда совмещаются их центральные фонемы.
Во второй главе предлагается следующий метод обучения ДК-моделей. Когда количество речевых участков, соответствующих ДК-модели меньше некоторого минимального значения ДК-модель аппроксимируется моделью :
, (6)
которая имеет достаточное количество обучения
, (7)
и при этом описатели моделей находятся в отношении включенности .
Поскольку существует множество описателей , которые могут находиться в отношении включенности с описателем , стоит проблема выбора наиболее подходящего в некотором смысле описателя . В диссертации предлагается выбирать описатель , который получается из описателя отбрасыванием контекста , и при контекст минимальным образом влияет на параметры модели .
Для оценки величины влияния контекста на параметры модели во второй главе вводится понятие показателя влияния контекста на параметры модели:
Определение 4 Пусть заданы две акустические модели - и . Их критерием близости называется величина
,
,
где означает математическое ожидание по плотности распределения вероятностей , интеграл берется по многомерной величине .
Определение 5 Пусть имеются две ДК-модели с описателями, находящимися в отношении включенности . Контекст отличает модель от модели . Показателем влияния контекста на параметры модели называется величина
.
Таким образом, для аппроксимации модели в соответствии с (6) выбирается модель с описателем
, (8)
и при этом для описателя выполняется условие (7), - множество описателей, находящихся в отношении включенности с описателем .
Таким образом, для аппроксимации ДК-модели с описателем предлагается использовать модель, удовлетворяющую условию (8).
Однако для расчета величины требуется модель , параметры которой неизвестны. В связи с этим в диссертации величину в выражении (8) предлагается заменить величиной
, (9)
которая называется средним показателем влияния контекста на параметры модели . Множество - множество всех описателей, находящихся в отношении включенности с описателем .
В заключение второй главы приводится описание программной реализации системы поиска ключевых слов, использующей ДК-модели. Программная реализация создана для проверки возможностей предлагаемых ДК-моделей и методов их обучения. Она состоит из двух экспериментальных стендов:
- стенд обучения ДК-моделей;
- стенд тестирования с использованием ДК-моделей.
Стенды представляют собой консольные приложения, являющиеся набором Perl_скриптов, которые управляют последовательностью вызовов утилит для работы с СММ-моделями, словарями, и др., написанные на языке С.
В таблице 1 представлены результаты экспериментальных исследований системы поиска ключевых слов, использующей ДК-модели фонем. В таблице указаны две величины: вероятность правильного распознавания в процентах и количество ложных вызовов.
Таблица 1 - Результаты экспериментов для системы поиска ключевых слов, использующей ДК-модели
Встречаемость длина уч. контекста |
50 |
100 |
|
2 |
82.07 254 |
82.70 396 |
|
3 |
76.37 186 |
81.43 361 |
|
4 |
73.42 162 |
80.38 353 |
Сравнение полученных результатов с результатами экспериментов со стандартной системой поиска ключевых слов показывает, что использование ДК-моделей дает увеличение вероятности правильного распознавания на 3.8 % при максимальной длине учитываемого контекста, равной 2 и (стандартная система дает вероятность распознавания %, количество ложных вызовов 244). При увеличении максимальной длины учитываемого контекста происходит падение вероятности правильного распознавания, особенно для случая . Причиной этого является так называемый эффект переобучения, который состоит в том, что при оценке параметров СММ-моделей они становятся слишком настроены под данные, на которых они обучались и в меньшей степени начинают моделировать данные, которые не присутствовали в обучающей выборке. Фактически, переобучение проявляется в заниженных значениях дисперсий компонент смесей, моделирующих состояния СММ-моделей.
3. Метод формирования словаря заполнения системы распознавания ключевых слов, оптимальный с точки зрения минимума средней ошибки распознавания, а также разрабатывается алгоритм для его реализации
Для постановки задачи формирования словаря заполнения вводится понятие модели распознавания: Определение 6 Пусть множество возможных последовательностей слов языка и - множество возможных последовательностей элементов словаря . Моделью распознавания называется отображение множества на множество :
. (10)
В диссертации используется частный случай модели распознавания (10), которая задает способ распознавания отдельных слов языка:
,
где - множество слов языка, - словарь заполнения.
Поскольку слов языка гораздо больше, чем слов в словаре заполнения, одному слову словаря заполнения в модели распознавания будет соответствовать целое множество слов языка:
, (11)
при этом предполагается, что , то есть множества являются попарно непересекающимися.
Таким образом, модель распознавания (11) разбивает множество слов языка на попарно непересекающиеся подмножества и задача нахождения словаря заполнения сводится и нахождению этого разбиения и соответствующих каждому множеству элементов словаря заполнения , такому, что оптимизируется некоторая целевая функция :
, (12)
В диссертации в качестве целевой функции используется статистика, которая используется в решающем правиле (1):
. (13)
Вид целевой функции предполагает, что для ее расчета требуется обучающая выборка речевых сообщений , - их количество с соответствующими словесными транскрипциями . Обучающая выборка представлена в виде множества последовательностей наблюдений . - транскрипция, получаемая преобразованием каждого слова эталонной транскрипции . Необходимо отметить, что второе слагаемое в (13) не влияет на решение задачи (12), потому что не зависит от . Поэтому вместо целевой функции (13) можно рассматривать целевую функцию
. (14)
Выбор целевой функции (13) определяется тем, что в этом случае решение задачи нахождения модели распознавания (12) становится Байесовским. Использование Байесовского критерия в данном случае имеет два преимущества:
- Байесовский критерий принятия решений минимизирует средние потери, что в случае систем распознавания речи означает минимизацию средней ошибки распознавания;
- При распознавании (решающее правило (1)), используется та же статистика, это означает, что модель распознавания является оптимальной в том смысле, что при распознавании вероятность реализации этой модели максимальна.
В третье главе доказывается лемма, которая позволяет рассчитать значение целевой функции (14) без использования реальных данных. При этом источником акустической и языковой информации являются СММ-модели и модель языка:
Лемма 1: Целевая функция (14)
является состоятельной оценкой величины
, (15)
где - количество слов в обучающей выборке, - языковой множитель, - множество различных последовательностей слов длиной , где - размер грамматик используемой модели языка, - последовательность слов, которая получается преобразованием над последовательностью слов , - среднее значение величины по плотности распределения вероятностей :
,
- последовательность наблюдений, соответствующих реализации слова , а - ее плотность распределения вероятностей.
В третьей главе предлагается метод и алгоритм расчета величины , , в случае, когда для аппроксимации плотности распределения вероятностей используется акустическая вероятность СММ-модели слова :
.
В этом случае становится перекрестной энтропией для скрытых Марковских моделей.
Основным результатом доказанной в третьей главе леммы является факт, что целевая функция (14)
является состоятельной оценкой функции (15)
(16).
Это означает, что при неограниченном возрастании размера обучающей выборки целевая функция стремится к функции в вероятностном смысле:
, .
Откуда следует, что при неограниченном возрастании размера обучающей выборки можно заменить целевую функцию функцией , поскольку для расчета функции не требуется реальная речевая база, и размер вымышленной базы может быть каким угодно, в том числе неограниченно большим.
Далее в третьей главе показывается, что если в языковых вероятностях в (16) пренебречь зависимостью от предшествующей последовательности слов , то функция примет вид
,
где
(17)
характерный для целевой функции метода кластеризации К-средних. Однако метод К-средних не может быть использован непосредственно, поскольку он разработан для евклидового пространства, а в задаче разбиения слов это не так, как это видно из выражения (17).
В связи с этим в третьей главе предлагается модифицированный алгоритм К-средних, в котором изменен шаг, связанный с нахождением центров кластеров, поскольку на этом шаге алгоритма используется евклидовость данных. Для нахождения центров кластеров в третьей главе предлагается использовать перебор всех возможных претендентов:
, для всех .
В третьей главе описывается программная реализация системы распознавания ключевых слов, использующей оптимальный словарь заполнения, которая состоит из двух стендов:
- стенд формирования оптимального словаря заполнения;
- стенд тестирования.
Программная реализация представляет собой консольные приложения, реализованные в виде набора Perl_скриптов, которые осуществляют вызов утилит, выполняющих основные расчеты. Утилиты представляют собой консольные приложения и написаны на языке С.
Таблица 2 - Результаты поиска ключевых слов с использованием оптимального словаря
lf |
1 |
5 |
10 |
15 |
17.5 |
20 |
22.5 |
25 |
30 |
|
76.37 |
75.74 |
79.11 |
79.11 |
78.06 |
80.17 |
77.64 |
78.69 |
78.06 |
||
309 |
292 |
311 |
278 |
267 |
297 |
264 |
269 |
261 |
В заключение третьей главы описываются результаты экспериментальных исследований, выполненных при помощи созданной программной реализации. В результате исследований был проведен ряд экспериментов, в ходе которых менялся языковой множитель . Зависимости вероятности правильного распознавания и количества ложных вызовов от языкового множителя приведены в таблице 2.
Сравнение полученных результатов с результатами тестирования стандартной системы показывает, что использование процедуры оптимизации словаря заполнения приводит к повышению точности системы выделения ключевых слов в случае, когда , , на 0.21% и в случае, когда, на 1.27%.
К защите представлены следующие результаты:
· Разработан метод и алгоритм обучения длинноконтекстных моделей фонем.
· Разработан метод формирования словаря заполнения, основанный на разбиении слов языка на непересекающиеся подмножества, оптимальные с точки зрения критерия минимума средней ошибки распознавания.
· Доказана лемма о целевой функции процедуры разбиения слов языка на непересекающиеся подмножества.
· Создана программная реализация и проведены экспериментальные исследования системы поиска ключевых слов, использующей длинноконтекстные модели фонем.
· Создана программная реализация и проведены экспериментальные исследования системы поиска слов, использующей оптимальный словарь заполнения.
Литература
1. Аграновский А.В., Леднов Д.А., Репалов С.А., Зулкарнеев М.Ю. Двухслойная модель распознавания слитной речи // Интеллектуальные и многопроцессорные системы-2001, Материалы второй международной научно-практической конференции, Таганрог: Изд. ТРТУ, 2001, с. 36-39.
2. Аграновский А.В., Леднов Д.А., Репалов С.А., Зулкарнеев М.Ю. Организация иерархической модели распознавания слитной речи // Научно-теоретический международный журнал "Искусственный интеллект", № 3, 2001, Донецк: Изд. НАН Украины, с. 17-22.
3. Аграновский А.В., Леднов Д.А., Зулкарнеев М.Ю. Двухслойная модель формирования состояний для скрытых цепей Маркова // Сборник трудов XI сессии РАО, 19-23 ноября 2001, Т3, Акустика речи. Медицинская и биологическая акустика, Москва: Изд. ГЕОС, 2001, с.38-41.
4. Аграновский А.В., Леднов Д.А., Зулкарнеев М.Ю. Поэлементный метод распознавания слов // Материалы второй всероссийской конференции ''Теория и практика речевых исследований'' (АРСО-2001), Москва, 2001, с. 39-41.
5. Аграновский А.В., Леднов Д.А., Сулима П.М, Зулкарнеев М.Ю. Формантное представление речевого сигнала для решения задач обработки речи // Известия ТРТУ, Тематический выпуск: Материалы всероссийской научно-технической конференции с международным участием "компьютерные технологии в инженерной и управленческой деятельности", № 2 (25), Таганрог: ТРТУ, 2002, с. 92-95.
6. Аграновский А.В., Леднов Д.А., Зулкарнеев М.Ю. Применение скрытых Марковских моделей в распознавании отдельных слов // Акустика речи и прикладная лингвистика, Ежегодник Российского акустического общества, Выпуск 3, Москва, 2002, с. 31-34.
7. Аграновский А.В., Можаев О.Г., Леднов Д.А., Зулкарнеев М.Ю. Автоматическая идентификация языка // Научно-теоретический журнал "Искусственный интеллект", № 4, 2002, Донецк: Изд. НАН Украины, с. 142-150.
8. Аграновский А.В., Можаев О.Г., Леднов Д.А., Зулкарнеев М.Ю. Метод идентификации языка, основанный на фонетическом содержании сообщения // Интеллектуальные и многопроцессорные системы-2002, Материалы третьей международной научно-практической конференции, Таганрог: Изд. ТРТУ, 2002, с. 29-31.
9. Agranovsky A.V., Lednov D.A., Zulkarneyev M.Y. Statistical Approach to Creating Phonetic Transcription // Proc of Int. Workshop "Speech&Computer", "Specom-2002", St.Petersburg, Russia, 2-5 september 2002, pp.99-101.
10. Аграновский А.В., Леднов Д.А., Зулкарнеев М.Ю. Двухслойная модель формирования состояний для скрытых цепей Маркова // Акустический журнал, т.48, 4, с.560-562.
11. Аграновский А.В., Леднов Д.А., Телеснин Б.А., Зулкарнеев М.Ю. Экспериментальный стенд для тестирования системы поиска ключевых слов в непрерывном потоке русской речи// Свидетельство об официальной регистрации программы для ЭВМ №2003611308.
12. Аграновский А.В., Леднов Д.А., Телеснин Б.А., Зулкарнеев М.Ю. Классификатор аудио-файлов по языкам // Свидетельство об официальной регистрации программы для ЭВМ №2003611311.
13. Аграновский А.В., Леднов Д.А., Зулкарнеев М.Ю. Моделирование вариативности произношения для распознавания русской речи // Научно-теоретический международный журнал «Искусственный интеллект», №3, 2003, Донецк: дон ГИИИ, с. 388-393.
14. Аграновский А.В., Свирепо О.А., Леднов Д.А., Зулкарнеев М.Ю. Эксперименты по моделированию вариативности произношения // Интеллектуальные многопроцессорные системы-2003, Материалы четвертой международной научно-практической конференции, Таганрог: Изд. ТРТУ, 2003, с. 170-172.
15. Свирепо О.А., Зулкарнеев М.Ю. Исследование возможности применения классификации фонетических ошибок в моделировании вариативности произношения (на материале русского языка) // Интеллектуальные и многопроцессорные системы-2003, Материалы четвертой международной научно-практической конференции, Таганрог: Изд. ТРТУ, 2003, с. 173-175.
16. Леднов Д. А., Куликов Л. С., Зулкарнеев М.Ю. Обзор патентов в области поиска ключевых слов, часть 1. Схемы, не использующие верификацию результатов распознавания // Телекоммуникации, № 4, 2004 г., с. 8-13.
17. Леднов Д. А., Куликов Л. С., Зулкарнеев М.Ю. Обзор патентов в области поиска ключевых слов, часть 2. Схемы, использующие верификацию результатов распознавания // Телекоммуникации, № 5, 2004 г., с. 16-23.
18. Зулкарнеев М.Ю. Учет корреляции в последовательности векторов признаков, характеризующей высказывание // Интеллектуальные и многопроцессорные системы-2005, Материалы шестой международной научно-практической конференции, т.3, Таганрог: Изд. ТРТУ, с. 291-294.
19. Леднов Д.А., Репалов С.А., Зулкарнеев М.Ю. Влияние глубины учета динамики на точность идентификации дикторов // Сборник трудов XIV международной научной конференции "Информатизация и информационная безопасность правоохранительных органов". Москва: Академия управления МВД России, 2005. с. 359-361.
20. Зулкарнеев М.Ю. Использование автоматической фонетической разметки речевой базы для обучения системы распознавания непрерывной речи // Сборник трудов XVI сессии РАО, Т.III, Москва: ГЕОС, 2005, с. 40-44.
21. Ivanov V.D., Potapova R.K., Zulkarneyev M.Y. A heuristic method of grapheme-to-phoneme conversion // Proceedings of 10th International Conference on SPEECH and COMPUTER "Specom2005", v. I, pp.263-264.
22. Зулкарнеев М.Ю. Представление СММ с линейными предсказателями в виде базовых СММ для задач распознавания речи // Обозрение прикладной и промышленной математики том 12, выпуск 4, с. 972-973.
23. Zulkarneyev M.Y. An approach to compensation for language modeling errors in the key-spotting systems // Proceedings of 9th International Conference of SPEECH and COMPUTER "Specom2004", pp. 348-350.
24. Иванов В.Д., Зулкарнеев М.Ю. Оптимальный метод формирования словаря заполнения для задачи распознавания ключевых слов в аудио-сообщениях // Научно-теоретический международный журнал "Искусственный интеллект", №3, 2006, Донецк: дон ГИИИ, 2006, с. 510-520.
25. Сатуновский П.С., Зулкарнеев М.Ю. Метод построения фонетической транскрипции слов // Интеллектуальные и многопроцессорные системы-2006, Материалы седьмой международной научно-практической конференции, Т.2. Таганрог: Изд. ТРТУ, 2006, с.390-393.
Размещено на Allbest.ru
...Подобные документы
Приемы построения математических моделей вычислительных систем, отображающих структуру и процессы их функционирования. Число обращений к файлам в процессе решения средней задачи. Определение возможности размещения файлов в накопителях внешней памяти.
лабораторная работа [32,1 K], добавлен 21.06.2013Процесс выбора или построения модели для исследования определенных свойств оригинала в определенных условиях. Стадии процесса моделирования. Математические модели и их виды. Адекватность математических моделей. Рассогласование между оригиналом и моделью.
контрольная работа [69,9 K], добавлен 09.10.2016Построение модели множественной регрессии теоретических значений динамики ВВП, определение средней ошибки аппроксимации. Выбор фактора, оказывающего большее влияние. Построение парных моделей регрессии. Определение лучшей модели. Проверка предпосылок МНК.
курсовая работа [352,9 K], добавлен 26.01.2010Признаки некоторых четырехугольников. Реализация моделей геометрических ситуаций в средах динамической геометрии. Особенности динамической среды "Живая геометрия", особенности построения в ней моделей параллелограмма, ромба, прямоугольника и квадрата.
курсовая работа [862,0 K], добавлен 28.05.2013Особенности математических моделей и моделирования технического объекта. Применение численных математических методов в моделировании. Методика их применения в системе MathCAD. Описание решения задачи в Mathcad и Scilab, реализация базовой модели.
курсовая работа [378,5 K], добавлен 13.01.2016Рассмотрение основных подходов к построению математических моделей процесса. Сопряженное уравнение для простейшего уравнения диффузии и структура алгоритмов для решения задач. Использование принципа двойственности для представления линейного функционала.
курсовая работа [711,0 K], добавлен 03.08.2012Возникновение и развитие теории динамических систем. Развитие методов реконструкции математических моделей динамических систем. Математическое моделирование - один из основных методов научного исследования.
реферат [35,0 K], добавлен 15.05.2007Основные свойства геологических объектов как пространственных переменных. Виды математических моделей геологических объектов. Вариограмма и ее аппроксимации. Вероятностные модели геологических полей. Влияние на вариограмму геометрической базы измерений.
презентация [345,8 K], добавлен 17.07.2014Суть метода пространственной дискретизации. Основные способы замены производной первого порядка. Алгоритм метода конечных разностей. Разбиение математической модели конструкции на непересекающиеся элементы простой геометрии. Матрица контуров и сечений.
презентация [114,2 K], добавлен 27.10.2013Разработка проекта системы автоматического управления тележкой, движущейся в боковой плоскости. Описание и анализ непрерывной системы, создание ее математических моделей в пространстве состояний и модели "вход-выход". Построение графиков реакций объекта.
курсовая работа [1,7 M], добавлен 25.12.2010Сокращение трудоемкости разработки трехмерных геометрических моделей, требования к квалификации дизайнерской разработки. Внешние переменные модели в эскизах и создание путем присвоения размерам имен переменных. Фиксированный размер и управление моделью.
презентация [92,9 K], добавлен 12.03.2012Законы алгебры Буля и их применение для преобразования логических выражений. Расчет информационной емкости документов предметной области. Построение инфологической, реляционной и даталогической моделей. Применение методов поиска и сортировки данных.
курсовая работа [261,7 K], добавлен 05.01.2013Теория случайных графов, модели сетей (графы Барабаши-Альберт, Эрдеша-Реньи, Уотса-Строгатса и др.) Разработка ускоренного алгоритма калибровки больших сетей по коэффициенту кластеризации на языке Java в среде Eclipse. Анализ экспериментальных данных.
дипломная работа [2,0 M], добавлен 19.11.2013- Свойства и особенности ортогонального проецирования, используемые при разработке графических моделей
Условия отображения формы и размеров геометрического объекта при его моделировании. Виды проецирования, используемые при разработке графических моделей. Свойства ортогонального проецирования, отображение на комплексном чертеже точки, прямой и плоскости.
реферат [1,2 M], добавлен 01.04.2011 Определение коэффициентов элементарных функций: линейной, показательной, степенной, гиперболической, дробно-линейной, дробно-рациональной. Использование метода наименьших квадратов. Приближённые математические модели в виде приближённых функций.
лабораторная работа [253,6 K], добавлен 05.01.2015Сущность моделирования, его главные цели задачи. Конструктивная схема и общее описание исследуемой трансмиссии. Алгоритм реализации задачи и ее программная реализация. Результаты расчета и их анализ. Исследование характеристик полученной модели.
курсовая работа [1,1 M], добавлен 01.01.2014Определение понятия модели, необходимость их применения в науке и повседневной жизни. Характеристика методов материального и идеального моделирования. Классификация математических моделей (детерминированные, стохастические), этапы процесса их построения.
реферат [28,1 K], добавлен 20.08.2015Динамическая модель как теоретическая конструкция, описывающая изменение состояний объекта. Характеристика основных подходов к построению: оптимизационный, описательный. Рассмотрение способов построения математических моделей дискретных объектов.
контрольная работа [769,7 K], добавлен 31.01.2013Знакомство с особенностями построения математических моделей задач линейного программирования. Характеристика проблем составления математической модели двойственной задачи, обзор дополнительных переменных. Рассмотрение основанных функций новых переменных.
задача [656,1 K], добавлен 01.06.2016Составление математической модели для предприятия, характеризующей выручку предприятия "АВС" в зависимости от капиталовложений (млн. руб.) за последние 10 лет. Расчет поля корреляции, параметров линейной регрессии. Сводная таблица расчетов и вычислений.
курсовая работа [862,4 K], добавлен 06.05.2009