Использование преобразования Гильберта-Хуанга для формирования моделей фонем русского языка в задаче распознавания речи
Возможности использования преобразования Гильберта-Хуанга для создания моделей фонем русского языка в системе преобразования речи в текст. Описание нейронной сети, обученной на речевых признаках, рассчитанной с применением вейвлет-преобразования.
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | русский |
Дата добавления | 08.05.2018 |
Размер файла | 449,9 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Сибирский Федеральный Университет
Институт Космических и Информационных Технологий
Использование преобразования Гильберта-Хуанга для формирования моделей фонем русского языка в задаче распознавания речи
студент 4 курса Музычук Д.С.
кандидат технических наук, доцент Медведев М.С.
Аннотация
В статье исследуются возможности использования преобразования Гильберта-Хуанга для создания моделей фонем русского языка в системе преобразования речи в текст. Также производится сравнение предложенного метода с преобразованием Фурье и вейвлет-преобразованием. При проведении вычислительных экспериментов было обнаружено, что наибольшая производительность работы системы преобразования речи в текст достигается при выборе алгоритмов вейвлет-преобразования и Фурье-преобразования. При этом из этих двух алгоритмов наибольшей универсальностью в применении обладает вейвлет-преобразование. Расчеты показали, что метод Гильберта-Хуанга, несмотря на невосприимчивость к шумам и возможность выявления нелинейных изменений в сигнале, в первоначальном виде малопригоден для формирования признаков речевого сигнала (по крайней мере, в рамках нейросетевого подхода), качественно характеризующих его особенности при распознавании речи; для повышения качества его применения проводился смешанный анализ. Наилучшие результаты при распознавании фонем дали нейронные сети, обученные на речевых признаках, рассчитанных с применением вейвлет-преобразования и комбинированного варианта преобразования Гильберта-Хуанга и вейвлет-преобразования.
Ключевые слова: нейросеть, внутренние моды, распознавание фонем, вейвлет-преобразование
Abstract
In this article the using of Hilbert Huang transform for the russian phoneme model is considered. The proposed method is compared with the Fourier transform and wavelet transform. The results of phoneme recognition using HHT method has allowed low quality despite it's noise insensitivity. For the extraction of the phoneme descriptive features rather use the hybrid method which combines HHT and wavelet transform
Keywords: neural network, internal modes, phonem recognition, wavelet transform.
Конечной целью создания систем распознавания речи является способность машины распознавать слова в акустическом сигнале с эффективностью, не меньшей по сравнению с аналогичной способностью человека. В ходе истории разработок наблюдался значительный прогресс: размер словаря вырос до нескольких миллионов слов, а сами системы эволюционировали от дикторозависимых к дикторонезависимым. Тем не менее, главные проблемы на сегодняшний день не решены. Это связано с вариабельностью речи из-за искажения речевого сигнала фоновым шумом, явлением коартикуляции, а также зависимости речевых характеристик от голоса и интонации.
Традиционные методы анализа данных предназначены, как правило, для линейных и стационарных сигналов и систем, и только в последние десятилетия начали активно развиваться методы анализа нелинейных, но стационарных и детерминированных систем, и линейных, но нестационарных данных (вейвлетный анализ, распределение Вигнера-Вилля и др.). Между тем, большинство естественных материальных процессов, реальных физических систем и соответствующих им данных в той или иной мере являются нелинейными и нестационарными. При анализе используются определенные упрощения, особенно в отношении априорно устанавливаемого базиса преобразования данных в новые, удобные для обработки и анализа метрические пространства. В связи с этим актуальность разработки новых устойчивых и универсальных методов формирования речевых признаков очевидна.
При создании системы преобразования речи в текст одна из самых важных задач - выбор единицы распознавания. Рассмотрим основные подходы, используемые в системах распознавания речи для формирования речевых признаков - моделей фонем. Наиболее распространенные методы анализа - это преобразование Фурье и вейвлет-анализ.
Оконное преобразование Фурье. Классическое преобразование Фурье имеет дело со спектром сигнала, взятым во всем диапазоне существования переменной. Нередко интерес представляет только локальное распределение частот, в то время как требуется сохранить изначальную переменную (обычно время).
С позиций точного представления произвольных сигналов и функций, преобразование Фурье имеет ряд недостатков, которые привели к появлению оконного преобразования Фурье и стимулировали развитие вейвлет-преобразования. Отметим основные из них [1]:
- ограниченная информативность анализа нестационарных сигналов и практически полное отсутствие возможностей анализа их особенностей (сингулярностей), т.к. в частотной области происходит «размазывание» особенностей сигналов (разрывов, ступенек, пиков и т.п.) по всему частотному диапазону спектра.
- появление эффекта Гиббса на скачках функций, при усечениях сигналов и при вырезке отрезков сигналов для локального детального анализа;
- гармонический характер базисных функций, определенных в интервале от до .
Неспособность преобразования Фурье осуществлять временную локализацию сингулярностей сигналов может быть частично устранена введением в преобразование так называемой движущейся оконной функции, имеющей компактный носитель. Использование оконной функции позволяет представлять результат преобразования в виде функции двух переменных - частоты и временного положения окна.
Оконное преобразование Фурье имеет следующий вид [1]:
(1)
Вейвлет-преобразование и его применение в практике обработки сигналов. Вейвлет-преобразование стремительно завоевывает популярность в столь разных областях, как телекоммуникации, компьютерная графика, биология, астрофизика и медицина. Благодаря хорошей приспособленности к анализу нестационарных сигналов оно стало мощной альтернативой преобразованию Фурье в ряде медицинских приложений.
Главным элементом в вейвлет анализе является функция-вейвлет. Вообще говоря, вейвлетом является любая функция, отвечающая двум условиям:
1. Среднее значение (интеграл по всей прямой) равен 0.
2. Функция быстро убывает при .
Обычно, функция-вейвлет обозначается буквой .
В общем случае вейвлет преобразование функции выглядит так [2,3]:
(2)
где t - ось времени, a - момент времени, b - параметр, обратный частоте, a (*) - означает комплексно-сопряженное.
Коэффициенты вейвлет-преобразования содержат комбинированную информацию об анализирующем вейвлете и анализируемом сигнале (как и коэффициенты преобразования Фурье, которые содержат информацию о сигнале и о синусоидальной волне). Выбор анализирующего вейвлета, как правило, определяется тем, какую информацию необходимо извлечь из сигнала. Каждый вейвлет имеет характерные особенности во временном и в частотном пространстве, поэтому иногда с помощью разных вейвлетов можно полнее выявить и подчеркнуть те или иные свойства анализируемого сигнала.
Многомасштабный вейвлет-анализ основывается на разложении сигнала по функциям, образующим ортонормированный базис [4,5]. Любую функцию можно разложить на некотором заданном уровне разрешения (масштабе) в ряд вида:
, (3)
где и - масштабированные и смещенные версии скейлинг-функции (масштабной функции) и «материнского вейвлета» ;
- коэффициенты аппроксимации;
- детализирующие коэффициенты.
Масштабирование и смещение функций и находится следующим образом:
(4)
(5)
В свою очередь сами функции и определяются так:
(6)
(7)
где
(8)
ДВП не только раскладывает сигнал на некоторое подобие частотных полос (путем анализа его в различных масштабах), но и представляет временную область, т.е. моменты возникновения тех или иных частот в сигнале. Вместе, эти свойства характеризуют быстрое вейвлет-преобразование - альтернативу обычному быстрому преобразованию Фурье.
Таким образом, вейвлет-преобразование, в отличие от оконного преобразования Фурье, которое имеет постоянный масштаб в любой момент времени для всех частот, имеет лучшее представление времени и худшее представление частоты на низких частотах сигнала, на высоких частотах сигнала - лучшее представление частоты с худшим представлением времени. Введение вейвлет-преобразования дает возможность уменьшить влияние принципа неопределенности Гейзенберга на полученном частотно-временном представлении сигнала. С его помощью низкие частоты имеют более детальное представление относительно времени, а высокие -- относительно частоты.
Преобразование Гильберта-Хуанга. Под преобразованием Гильберта-Хуанга (Hilbert-Huang transform - HHT) понимается метод эмпирической модовой декомпозиции (EMD) нелинейных и нестационарных процессов и Гильбертов спектральный анализ (HSA) [6]. Этот метод потенциально жизнеспособен для нелинейного и нестационарного анализа данных, специально для частотно-энергетических временных представлений.
EMD-HSA был предложен Норденом Хуангом в 1995 в США (NASA) для изучения поверхностных волн тайфунов, с обобщением на анализ произвольных временных рядов коллективом соавторов в 1998 г. [6,7]. В последующие годы, по мере расширения применения алгоритма для других отраслей науки и техники, вместо термина EMD-HSA был принят более короткий термин преобразования HHT.
EMD (Empirical Mode Decomposition) - метод разложения сигналов на функции, которые получили название внутренних или «эмпирических мод». Метод представляет собой адаптивную итерационную вычислительную процедуру разложения исходных данных (непрерывных или дискретных сигналов) на эмпирические моды или внутренние колебания.
Огибающие сигналов. У каждого сигнала имеются локальные экстремумы: чередующиеся локальные максимумы и локальные минимумы с произвольным расположением по координатам (независимым переменным) сигналов. По этим экстремумам с использованием методов аппроксимации можно построить две огибающие сигналов: нижнюю - построенную по точкам локальных минимумов, и верхнюю - построенную по точкам локальных максимумов, а также функцию «среднего значения огибающих», которой отвечает срединная линия, расположенная в точности между нижней и верхней огибающими. фонема русский речевой
Функции внутренних мод сигналов. Модовая декомпозиция сигналов основана на предположении, что любые данные состоят из различных внутренних колебаний (intrinsic mode functions, IMF). В любой момент времени данные могут иметь множество сосуществующих внутренних колебаний - IMFs. Каждое колебание, линейное или нелинейное, представляет собой модовую функцию, которая имеет экстремумы и нулевые пересечения. Кроме того, колебания в определенной степени «симметричны» относительно локального среднего значения. Конечные сложные данные образуются суммой модовых функций, наложенных на региональный тренд сигнала.
Эмпирическая мода - это такая функция, которая обладает следующими свойствами:
1. Количество экстремумов функции (максимумов и минимумов) и количество пересечений нуля не должны отличаться более чем на единицу.
2. В любой точке функции среднее значение огибающих, определенных локальными максимумами и локальными минимумами, должно быть нулевым.
IMF представляет собой колебательный режим, но вместо постоянной амплитуды и частоты, как в простой гармонике, у IMF могут быть переменная амплитуда и частота, как функции независимой переменной (времени, координаты, и пр.). Первое свойство гарантирует, что локальные максимумы функции всегда положительны, локальные минимумы соответственно отрицательны, а между ними всегда имеют место пересечения нулевой линии. Второе свойство гарантирует, что мгновенные частоты функции не будут иметь нежелательных флуктуаций, являющихся результатом асимметричной формы волны.
Любую функцию и любой произвольный сигнал, изначально содержащие произвольную последовательность локальных экстремумов (минимум 2), можно разделить на семейство функций IMFs и остаточный тренд. Если данные лишены экстремумов, но содержат точки перегиба («скрытые» экстремумы наложения модовых функций и крутых трендов), то для открытия экстремумов может использоваться дифференцирование сигнала.
Схема преобразования Гильберта-Хуанга может быть разделена на две части. В первом шаге, экспериментальные данные разлагаются в ряд внутренних модовых функций (IMFs). Эта декомпозиция рассматривается как расширение данных в терминах внутренних модовых функций. Другими словами, эти внутренние модовые функции представлены как базис преобразования, которое может быть линейным или нелинейным, как диктуется по условиям. Так как IMFs имеют хорошие Гильбертовы преобразования, то могут быть вычислены соответствующие мгновенные частоты. Таким образом, в следующем шаге мы можем локализовать любое явление как во времени, так и на частотной оси. Локальная энергия и мгновенная частота, выведенная из IMFs, дают нам дистрибутивные “энергетические время-частотные” данные, и такое представление, определяемое как Гильбертов спектр.
Допустим, что имеется произвольный сигнал . Сущность метода EMD заключается в последовательном вычислении функций эмпирических мод и остатков , где при . Результатом разложения будет представление сигнала в виде суммы модовых функций и конечного остатка:
(9)
где -- количество эмпирических мод, которое устанавливается в ходе вычислений.
Алгоритм эмпирической декомпозиции сигнала складывается из следующих операций его преобразования:
1. Находим в сигнале положение всех локальных экстремумов, максимумов и минимумов процесса (номера точек экстремумов), и значения в этих точках (рис. 1). Между этими экстремумами сосредоточена вся информация сигнала. Группируем раздельно для максимумов и для минимумов массивы координат и соответствующих им амплитудных значений . Число строк в массивах максимумов и минимумов не должно отличаться более чем на 1.
Рис. 1. Локализация экстремумов в сигнале
2. Применяя сплайны (или каким либо другим методом) вычисляем верхнюю и нижнюю огибающие процесса соответственно, по максимумам и минимумам, как это показано на рис. 2. Определяем функцию средних значений между огибающими (рис. 2).
Рис. 2. Интерполяция экстремумов и построение огибающих
Определяем функцию средних значений между огибающими.
(10)
Разность между сигналом и функцией дает нам первую компоненту отсеивания - функцию , которая является первым приближением к первой функции IMF:
(11)
3. Повторяем операции 1 и 2, принимая вместо функцию , и находим второе приближение к первой функции IMF - функцию .
(12)
Последующие итерации выполняются аналогичным образом:
(13)
По мере увеличения количества итераций функция стремится к нулевому значению, а функция - к неизменяемой форме.
Последнее значение итераций принимается за наиболее высокочастотную функцию семейства IMF, которая непосредственно входит в состав исходного сигнала . Это позволяет вычесть из состава сигнала и оставить в нем более низкочастотные составляющие
(14)
На рис. 3 показано графическое представление вычитание из сигнала высокочастотной составляющей, сформированной по алгоритму, заданному (10)-(14).
Рис. 3. Выявление низкочастотных составляющих в сигнале
Следующую внутреннюю модовую функцию найдем, повторив операции 1-3 декомпозиции, описанные выше, с той разницей, что входным сигналом является остаток .
Шаги 1-3 могут быть повторены для всех последовательных , и результат будет представлять последовательность вычислений:
(15)
Метод EMD закончен, когда остаток, в идеале, не содержит экстремумов. Это означает, что остаток - или константа или монотонная функция [8]. Извлеченные IMFs симметричны, имеют уникальные локальные частоты, различные IMFs не показывают ту же самую частоту в то же самое время. Другими словами, остановка декомпозиции сигнала должна происходить при максимальном «выпрямлении» остатка, т.е. превращения его в тренд сигнала по интервалу задания с числом экстремумов не более 2-3.
Из недостатков преобразования Гильберта-Хуанга отметим, что эмпирический процесс разложения сигнала в силу своей адаптивности не управляем, по крайней мере, в настоящей форме. Даже монотональные составляющие многокомпонентного сигнала при определенном влиянии дестабилизирующих факторов (шумов, импульсных помех и т.п.) и близких по частоте соседних компонент могут при декомпозиции «перетекать» на отдельных временных интервалах в модовые функции соседних IMF.
Обоснование выбора речевых признаков для обучения нейронной сети. Для успешного обучения нейронной сети необходимо корректным образом задавать параметры элементов обучающей выборки. В таком случае можно обеспечить высокое качество распознавания предъявляемых исходных данных.
В условиях фонемно-ориентированного подхода исходными данными для обучения сети и распознавания сигнала будут являться фонемы. Рассматривая фонему как сигнал во временной области, пользуясь тем или иным алгоритмом интегрального преобразования, можно получить необходимую информацию о его ключевых признаках требуемых для обучения.
Рассмотрим вопрос извлечения информационных признаков фонемы при применении преобразования Фурье. Как отмечается в [9,10], одним из основных подходов к получению признаков, идентифицирующих особенности речи, является ее спектральное представление. Оконное преобразование Фурье позволяет анализировать поведение спектрального состава сигнала во времени. Оно хорошо подходит для анализа гласных фонем, т.к. базисные функции - тригонометрические периодические функции, а гласные звуки представляют собой почти-периодичные сигналы [11]. В исследовании производилось разбиение на сегменты шириной 50-200 Гц. Такой диапазон был выбран экспериментальным путем. Каждый из сегментов отвечал преобразованию Фурье во временной области, взятому с прямоугольным окном. В качестве признаков для нейронной сети выбирался вектор энергий сегментов преобразования Фурье.
При использовании вейвлет-преобразования в качестве признаков, описывающих речевой сигнал, необходимо определить число уровней детализации, соответствующее размеру анализируемого частотного диапазона. Например, вейвлет Добеши 8 имеет центральную частоту Гц. При частоте дискретизации 22050 отсчетов в секунду, получаем центральную частоту вейвлета, используемого для первого уровня разложения [12].
(16)
С каждым следующим уровнем разложения частота вейвлета будет уменьшаться в два раза. Центральная частота вейвлета на десятом уровне разложения будет равна 28,7 Гц. Таким образом, вейвлет коэффициенты для десяти уровней разложения отражают характеристики сигнала в указанном частотном диапазоне речи. Коэффициенты вейвлет-разложения речевого сигнала (фонема «А») на семь уровней показаны на рис. 4.
Рис. 4. Коэффициенты вейвлет-разложения речевого сигнала на семь уровней детализации.
Оценим длину фиксированного интервала во временной области, на котором будут рассчитываться признаки речевого сигнала. Данный интервал должен быть меньше времени звучания фонемы. В русском языке длительности фонем изменяются в пределах 50-250 мс [11]. Значение длины сегмента должно позволять вычислять признаки речевого сигнала. Нижняя граница анализируемого частотного диапазона равна 28,7 Гц, в выделенный сегмент должен укладываться по крайней мере один период данной частотной составляющей, который равен 36 мс. Это значит, что длина сегмента, удовлетворяющая изложенным требованиям, будет равна 36 мс.
Таким образом, число уровней вейвлет-разложения сигнала фонемы зависит от частоты его дискретизации и типа вейвлета. В качестве признаков для обучения нейронной сети также была выбрана энергия вейвлет-разложения на каждом из уровней декомпозиции.
Преобразование Гильберта-Хуанга характерно тем, что в его результате образуется множество эмпирических мод, отражающих нелинейные изменения, происходящие в сигнале (рис. 5). При этом каждая из мод, в свою очередь, является временной функцией. Численные исследования, проведенные в работе показали, что параметры эмпирических мод и их количество претерпевают существенные изменения даже в рамках какой-либо одной фонемы (в пределах выборки). В силу этого обстоятельства в качестве признаков для обучения нейросети выбирались энергии каждой из полученных эмпирических мод. Число входов нейронной сети, осуществляющей работу по распознаванию фонем с применением преобразования Гильберта-Хуанга, бралось равным числу эмпирических мод. При смешанном анализе к эмпирическим модам применялось вейвлет-преобразование.
Для каждой из фонем число эмпирических мод, предъявляемых в качестве элементов обучающей выборки, подсчитывалось на этапе построения нейросети. В качестве мощности множества входов формируемой нейронной сети бралось максимальное количество эмпирических мод, полученных для всех фонем из словаря обучения. Число выходов нейросети принималось равным количеству распознаваемых речевых единиц.
Рис. 5. Семейство первых шести эмпирических мод речевого сигнала.
Архитектура разработанного модуля. Для оценки эффективности описанных методов был разработан программный модуль преобразования русской речи в текст на основе фонемно-ориентированного и нейросетевого подхода. В модуле реализован синтез нейронных сетей (типа многослойный персептрон), обученных на основе различных признаков речевого сигнала, описанных выше. Это дает модулю высокую гибкость при работе с речевыми данными, а конечному пользователю предоставляет широкий выбор удобных для него настроек. Пользовательский интерфейс приложения для распознавания речи представлен на рис. 6.
Рис. 6. Пользовательский интерфейс приложения
Реализованы следующие функции:
1. Открытие, запись, воспроизведение и сохранение сигналов в wav-формате;
2. Выбор и настройка алгоритмов анализа данных. При этом допустимы следующие алгоритмы предварительной обработки звуковых сигналов:
2.1. Вейвлет-преобразование сигнала.
2.2. Оконное преобразование Фурье;
2.3. Преобразование Гильберта-Хуанга.
В приложении также допускается смешанный анализ: так, преобразование Гильберта-Хуанга возможно использовать совместно с вейвлет-преобразованием.
3. Создание, импорт, экспорт словаря фонем, формирование обучающей выборки.
Число входов нейросети определяется алгоритмом обработки сигнала, а число выходов определяется объемом словаря фонем.
Словарь нейронной сети представляет собой массив, состоящий из структур, каждая из которых состоит из имени фонемы, имени сигнала и массива данных, отвечающего фонеме. Данные в словаре нейронной сети представлены в виде таблицы, состоящей из названия сигнала, задаваемого вручную или автоматически, а также названия фонемы, которой данный сигнал отвечает.
4. Создание, импорт нейронной сети, а также обучение и сохранение значений ее весов. Допускаются следующие алгоритмы обучения:
4.1. Алгоритм обратного распространения ошибки;
4.2. Генетический алгоритм.
Приложение поддерживает выбор типа активационной функции нейронов сети на этапе ее создания и обеспечивает задание числа нейронов скрытых слоев. При выборе доступны активационные функции следующего вида: сигмоидальная, функция Хевисайда, кусочно-линейная функция, функция Гаусса.
Для минимизации граничных эффектов при разбиении речи на фонемы допускается перекрытие фреймов. По умолчанию степень перекрытия составляет 25%. Длительность звучания фонемы в составе речи составляет 15-50 мс [11]. По умолчанию в приложении длительность составляет 20 мс.
5. Выполнение автоматической очистки от шума и сегментации звуковых файлов с целью устранения пауз перед их распознаванием. Для больших возможностей анализа речи в приложении была предусмотрена возможность работы с фонемным словарем, на его основе формируется список фонем, который в дальнейшем используется при распознавании речи.
6. Осуществление фонетического анализа распознанного слова. Для фонетического анализа доступны алгоритмы Левенштейна и Дамерау-Левенштейна.
Как видно из описания, полученное решение наряду с обработкой мультимедийной информации, обеспечивает поддержку достаточно широкого спектра математических алгоритмов.
Для реализации пользовательского интерфейса был выбран язык C# и его библиотека Windows Forms. Windows Forms представляет собой технологию, используемую в Visual C# для создания интеллектуальных клиентских приложений на основе Windows, выполняемых в среде .NET Framework. Технология Windows Forms специально создана для быстрой разработки приложений, в которых необходимо наличие интуитивно понятного пользовательского интерфейса с гибкими возможностями.
Для языка программирования C# используется библиотека базовых типов среды .NET. Для организации типов (классов, структур, интерфейсов, встроенных типов данных и т.п.) в этой библиотеке используется концепция пространства имен. Вне зависимости от языка программирования, доступ к определенным классам обеспечивается за счет их группировки в рамках общих пространств имен [13]. Общий вид структуры среды .NET приведен на рис. 7.
В качестве инструмента для реализации математических расчетов использовался пакет MATLAB. Выбор был обусловлен тем, что среда MATLAB включает язык программирования высокого уровня, подсистему для визуализации графики, а также пакеты расширений для решения различных задач, в том числе и для обработки сигналов. Она также поддерживает разработку приложений как при использовании собственных средств компиляции и оптимизации кода, так и с применением современных сред разработки, таких, как RAD Studio и Visual Studio.
Рис. 7. Схема выполнения .NET-приложения
Компилятор MATLAB был применен для преобразования программ в приложения и библиотеки, которые могут работать независимо от самой системы MATLAB, а также поддерживает все ее особенности, включая объекты, частные функции и методы.
Для интеграции MATLAB и библиотеки .NET использовался пакет .NET Builder, который позволяет из набора m-функций создавать компоненты для .NET, используемых для разработки приложений на CLS_совместимых языках программирования. .NET Builder преобразовывает исходные функции в .NET методы, которые инкапсулируют код MATLAB.
В основу реализации нейронной сети был положен функционал библиотеки Neural Network Library 0.1, распространяемой свободно и обладающей открытым исходным кодом. Для обработки звука наряду с возможностями MATLAB дополнительно использовалась библиотека NAudio.
Результаты исследования. Для моделирования распознавания слов и фонем средствами приложения была создана нейронная сеть, имеющая следующие параметры:
1. Сеть обладала двумя скрытыми слоями, каждый слой содержал по 25 нейронов;
2. Для нейронов в сети в качестве функции активации была выбрана сигмоидальная зависимость, как наиболее гладкая.
В качестве обучающей выборки использовалось множество {«В», «О», «А», «И», «С», «Ш»}. Каждой фонеме сопоставлялось 5-6 примеров звуковых фрагментов, озвученных различными дикторами.
Нейронная сеть обучалась с помощью алгоритма обратного распространения ошибки и генетического алгоритма.
Объяснение наличия достаточно большой погрешности, делающей нейросеть неприменимой для распознавания, может состоять в том, что в ряде случаев для некоторых фонем признаки в виде энергетических показателей сигнала могут оказаться недостаточно информативными. Качество обучения и распознавания в очень сильной зависимости от качества речевых единиц выборки. Для выполнения более детального анализа бралась уменьшенная выборка {«А», «В», «И», «О»}.
При применении генетических алгоритмов ошибка сети менялась более плавно. Стоит отметить, что вместе с тем особенности генетических алгоритмов не гарантируют того, что уровень ошибки может быть существенно ниже, чем в случае метода обратного распространения ошибки. Оптимальный подбор параметров генетического алгоритма с учетом параметров архитектуры нейронной сети требует отдельного исследования.
Наилучшие результаты при обучении на исходной выборке показали вейвлеты и комбинация преобразования Гильберта-Хуанга с вейвлетами. Время обучения сети с применением преобразования Гильберта-Хуанга существенно выше. Остальные алгоритмы на данной выборке не обеспечили удовлетворительного уровня ошибки обучения сети. С другой стороны, на уменьшенной выборке практически все алгоритмы обеспечили приемлемый результат. Это обусловлено тем, что гласные фонемы имеют почти-периодическое временное представление, как отмечалось ранее.
Звуковые фрагменты перед распознаванием проходили шумоочистку и сегментацию согласно алгоритму, предложенному в [14]. Временной интервал фреймов, на которые разбивался сегментируемый сигнал, составлял 20-40 мс. При распознавании фонем и слов результатом выступал нетранскрибированный вариант, а также конечная форма, получаемая после фонетического анализа.
В табл. 1-2 приведены результаты распознавания некоторых гласных фонем с применением вейвлетов (базис Добеши 8) и преобразования Гильберта-Хуанга и вейвлетов (базис Добеши 8).
Таблица 1. Результаты распознавания гласных фонем сетью, обученной на основной выборке с применением вейвлетов
Фонема «А» |
|||
№ п/п |
Нетранскрибированный вариант |
Проверка по сочетаниям фонем |
|
1 |
АААААААААААА |
А |
|
2 |
ААААААААААААА |
А |
|
3 |
АСАААААААААААА |
А |
|
4 |
ААОААААААААААА |
А |
|
5 |
АААААААААААААА |
А |
|
6 |
АААОААОААААААОААВА |
А |
|
7 |
ААВААААВАВААОААААА |
А |
|
Фонема «О» |
|||
1 |
ООООООООООООООООО |
О |
|
2 |
ООАООООООООААООООО |
О |
|
3 |
АОООАООООООАООООО |
О |
|
4 |
ОООАСООООООООООООО |
О |
|
5 |
ОООООАААООООООО |
О |
|
6 |
АОООООАААООООООО |
О |
|
7 |
ОААААААААОАААААААА |
А |
|
Фонема «И» |
|||
1 |
ИВВИИИИИИИИИИИВИИИИИИИИ |
И |
|
2 |
ИИВАИИВАИВИИИИИИИИИИИ |
И |
|
3 |
ИВИВВИИВИИИИИВИИИИИИИ |
И |
|
4 |
СИСИИИИИИИВИИОИИИИИИ |
И |
|
5 |
ИИИИИИИВВИВВИВИИИИИИИ |
И |
|
6 |
ИСИИИСВИИИИИИИИИИИИИ |
И |
|
7 |
ИСИИИИИИИИИИИИИИИИИИ |
И |
Таблица 2. Результаты распознавания гласных фонем сетью, обученной на основной выборке с применением преобразования Гильберта-Хуанга и вейвлетов
Фонема «А» |
|||
№ п/п |
Нетранскрибированный вариант |
Проверка по сочетаниям фонем |
|
1 |
АВААВААВАААВАОАААААА |
А |
|
2 |
АВВААААААААААААААААА |
А |
|
3 |
ААААААВАААААААААААА |
А |
|
4 |
ААОАААААААААААОАААА |
А |
|
5 |
ААААВОААВАААВВОААААА |
А |
|
6 |
АААОААОААААААОААВА |
А |
|
7 |
ВОААВАВАОААОААААААА |
А |
|
Фонема «О» |
|||
1 |
ИАОАИААОООООООООО |
О |
|
2 |
АОВОАОААОООООООООО |
О |
|
3 |
ОООООООООООООООООО |
О |
|
4 |
ОООСООООООООООООО |
О |
|
5 |
ОООООАААООООООО |
О |
|
6 |
ОАОООООАООАОАООООО |
О |
|
7 |
ОООАВОООАОООАОООООО |
О |
|
Фонема «И» |
|||
1 |
ИИВИИИИИИВИВИИВИИИИИ |
И |
|
2 |
ИИВАИИВАИВИИИИИИИИИИИ |
И |
|
3 |
ИВИВВИИВИИИИИВИИИИИИИ |
И |
|
4 |
АОИОВИИИИИВИВИИИИИИИИИ |
И |
|
5 |
ИИИИИИИВВИВВИВИИИИИИИ |
И |
|
6 |
ИИИВИВВИИИИВИВИИВИИИИ |
И |
|
7 |
ИИИИИИИССИИИИИИИИИИИ |
И |
Таблица 3. Сводные результаты распознавания фонем сетью, обученной на основной выборке с применением вейвлетов, %
є |
А |
О |
И |
В |
С |
Ш |
|
1 |
100 |
95 |
98 |
100 |
86 |
90 |
|
2 |
92 |
95 |
100 |
100 |
100 |
100 |
|
3 |
95 |
89 |
90 |
98 |
99 |
97 |
|
Средний коэффициент распознавания |
95 |
93 |
96 |
99,3 |
95 |
95,7 |
|
95,7 |
Таблица 4. Сводные результаты распознавания фонем сетью, обученной на основной выборке с применением преобразования Гильберта-Хуанга и вейвлетов, %
є |
А |
О |
И |
В |
С |
Ш |
|
1 |
100 |
95 |
100 |
99 |
100 |
85 |
|
2 |
90 |
88 |
90 |
99 |
100 |
100 |
|
3 |
92 |
90 |
95 |
100 |
92 |
89 |
|
Средний коэффициент распознавания |
94 |
91 |
95 |
99,3 |
97,3 |
91,3 |
|
94,7 |
Таблица 5. Сводные результаты распознавания фонем сетью, обученной на уменьшенной выборке с применением оконного преобразования Фурье, %
є |
А |
О |
И |
В |
|
1 |
90 |
87 |
100 |
90 |
|
2 |
93 |
88 |
100 |
86 |
|
3 |
100 |
91 |
96 |
95 |
|
Средний коэффициент распознавания |
94,3 |
88,7 |
98,7 |
90,3 |
|
93 |
Таблица 6. Сводные результаты распознавания фонем сетью, обученной на уменьшенной выборке с применением преобразования Гильберта-Хуанга и вейвлетов, %
є |
А |
О |
И |
В |
|
1 |
100 |
83 |
81 |
80 |
|
2 |
95 |
85 |
76 |
72 |
|
3 |
96 |
85 |
75 |
75 |
|
Средний коэффициент распознавания |
97 |
84,3 |
77,3 |
75,7 |
|
83,6 |
Из таблиц 1-2, 3-4 видно, что качество распознавания фонем у нейронных сетей, использующих признаки, вычисляемые по алгоритмам вейвлет-преобразования и преобразования Гильберта-Хуанга в сочетании с вейвлет-коэффициентами примерно одинаково (средние коэффициенты распознавания отличаются всего на 1%). Скорость распознавания фонем у нейронных сетей не отличалась, но следует отметить, что время обучения сети, использующей вейвлет-коэффициенты, примерно в 2-3 раза меньше по сравнению с сетью, использующей преобразование Гильберта-Хуанга в сочетании с вейвлет-коэффициентами. Причина такой разницы в большой ресурсоемкости методов смешанного анализа.
Наряду с фонемами разработанный модуль тестировался в целях распознавания слов. Распознавание слов происходило с применением нейросетей, успешно обученных на исходной и уменьшенной выборках. Наилучшие результаты при распознавании показала сеть, обученная на основе признаков, полученных путем комбинированной обработки фонем с совместным применением преобразования Гильберта-Хуанга и вейвлетов (средний коэффициент распознавания слов - 90%). Вместе с тем на уменьшенной выборке, данная сеть работала не стабильно по причине возможной избыточности информации, содержащейся в речевых признаках (таблица 6), а также в силу особенностей алгоритма эмпирического разложения, отмеченных ранее. Лучшие результаты на второй выборке дала сеть, обученная на основе преобразования Фурье (средний коэффициент распознавания слов составил 91,6%, в таблице 5 приведены результаты распознавания фонем).
Заключение
В исследовании рассматривалась реализация модуля преобразования русской речи в текст на основе нейросети, предназначенного для автоматизации ввода текстовой информации в ЭВМ.
Был описан нейросетевой подход к решению поставленной задачи. Произведен анализ способов получения признаков речевого сигнала с помощью вейвлет-преобразования, преобразования Фурье и преобразования Гильберта-Хуанга. Разработан метод формирования грамматической формы слова на основе его фонетического представления с использованием алгоритмов Левенштейна и Дамерау-Левенштейна. Построена база данных признаков эталонов фонем.
На основе представленных алгоритмов в среде Visual Studio на языке C# с выполнением интеграции с пакетом MATLAB был разработан модуль преобразования речи в текст. Приведено подробное описание компонентов и возможностей созданного программного обеспечения. Эксперименты по определению качества работы модуля показали, что одними из наиболее эффективных способов получения признаков на ограниченном множестве являются вейвлет-преобразование и преобразование Гильберта-Хуанга, дополненное вейвлет-преобразованием эмпирических мод. Требуются дополнительные исследования, связанные с поиском и введением новых методов получения речевых признаков, более полно характеризующих фонемы в различных частях слов, что позволит повысить качество распознавания модуля.
На основе полученных результатов можно сделать выводы о высокой эффективности применения нейросетевого подхода и фонемно-ориентированного подхода в задаче разработки данного модуля. Эксперименты показали достаточно высокий коэффициент распознавания речи.
Литература
1. Давыдов А.В. Цифровая обработка сигналов: Тематические лекции. - Екатеринбург: УГГУ, ИГиГ, ГИН, Фонд электронных документов, 2005.
2. Дьяконов В.П. Вейвлеты. От теории к практике. - 2-е изд. - М.: СОЛОН-Пресс, 2004. - 400 с.
3. Дьяконов В.П., Абраменкова И. В. MATLAB. Обработка сигналов и изображений. Специальный справочник. - СПб.: «Питер», 2002. - С. 608.
4. Дремин И.М., Иванов О.В., Нечитайло В.А. Вейвлеты и их использование. //Успехи физических наук. - 2001 - т. 171, №5. - с. 465-500.
5. Астафьева Н.М. Вейвлет-анализ: основы теории и примеры применения. //Успехи физических наук. - 1996 - т. 166, №11 - с. 1145-1170.
6. The Hilbert-Huang transform and its applications / editors, Norden E. Huang, Samuel S.P. Shen. - World Scientific Publishing Co. Pte. Ltd. 5 Toh Tuck. Link, Singapore 596224
7. Huang N. E. Shen Z., Long S. R., Wu M. C., Shih H. H., Zheng Q., Yen N.-C., Tung С. C., and Liu H. H. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis. //Proceedings of R. Soc. London, Ser. A, 454. 1998 - P. 903-995.
8. S.R. Qin, Y.M. Zhong A new envelope algorithm of Hilbert-Huang Transform // Mechanical Systems and Signal Processing 20. 2006 - P. 1941-1952
9. Медведев М.С. Использование вейвлет-преобразования для построения моделей фонем руcского языка //Вестник КрасГУ. Серия физ.-мат. науки. - 2006. Вып. 9. - С. 193-201
10. Фролов А.В. Синтез и распознавание речи. Современные решения / А.В. Фролов, Г.В. Фролов [Электронный ресурс]. -- Режим доступа: http://www.frolov-lib.ru/books/hi/ch06.html
11. Михайлов В.Г., Златоустова Л.В. Измерение параметров речи. - М.: Радио и связь, 1987. - 168 с.
12. Хармут X.Ф. Передача информации ортогональными функциями. - М.:Связь, 1975. - 272 с.
13. Смоленцев Н.К. Создание Windows-приложений с использованием математических процедур MATLAB. - М.: ДМК Пресс, 2008. - 456 с.
14. T. Giannakopoulos, “Study and application of acoustic information for the detection of harmful content, and fusion with visual information,” Ph.D. dissertation, Dpt of Informatics and Telecommunications, University of Athens, Greece, 2009.
Размещено на Allbest.ru
...Подобные документы
Фонология как раздел языкознания, изучающий звуковую сторону языка. Фонема как единица языка, ее функции. Понятие о дифференциальных признаках фонемы, оппозиции фонем, условия ее реализации в речи. Дистрибуция фонем. Понятие дополнительной дистрибуции.
лекция [15,6 K], добавлен 21.02.2012Знакомство с процессом развития речи младших школьников. Характеристика основных лингвистических словарей русского языка. Нормированность речи как ее соответствие литературно-языковому идеалу. Анализ типов норм современного русского литературного языка.
дипломная работа [130,1 K], добавлен 11.02.2014Рассмотрение согласных фонем немецкого языка в разрезе артикуляционного аспекта. Звуки в потоке речи. Сопоставильный анализ систем немецких и русских согласных. Артикуляция щелевых, смычновзрывных, смычнощелевых и смычнопроходных согласных фонем.
курсовая работа [493,5 K], добавлен 21.04.2011Стилистическое многообразие русского языка. Жанры функциональных стилей речи современного русского языка. Основные типы лексики: книжная, разговорная и просторечная. Общая характеристика функциональных стилей речи. Закрепленность лексики за стилями речи.
контрольная работа [31,6 K], добавлен 17.02.2013Научно-методологические основы работы со словарями как процесс развития речи на уроках русского языка. Методика работы по обогащению словарного запаса учеников пятых классов. Принципы развития речи школьников. Словари современного русского языка.
курсовая работа [44,6 K], добавлен 02.04.2015Коммуникативная функциональность единицы языка (речи). Лингводидактический аспект работы по развитию речи иностранных учащихся, изучающих русский язык. Микроязык учебника русского языка как иностранного и дидактическая (обучающая и учебная) речь.
контрольная работа [33,3 K], добавлен 03.05.2015Нормы современного русского литературного языка. Анализ различных граней лингвистической проблематики, связанной с языковой нормированностью. Нормы языка, орфоэпии, акцентологии, морфологии, синтаксиса. Исследование отечественной теории культуры речи.
реферат [31,8 K], добавлен 27.12.2016Основные аспекты культуры речи и средства ее выразительности, использование фразеологизмов и крылатых выражений. Необходимость выбора языковых средств и особенности функциональных разновидностей слова, формирование речевого этикета русского языка.
реферат [28,4 K], добавлен 28.12.2010Современное состояние русского языка в России. Засорение терминами и словесными оборотами иностранного происхождения. Нормы литературного языка. Широкое использование в русской речи слов и оборотов жаргонного характера. Языковая культура россиян.
реферат [14,5 K], добавлен 08.12.2014Состав гласных фонем немецкого и белорусского языков. Классификация, основные характеристики гласных фонем в немецком и белорусском языках. Общее определение гласных и фонемы. Состав гласных фонем белорусского языка. Чередование немецких гласных фонем.
курсовая работа [54,0 K], добавлен 31.08.2008Предмет и задачи культуры речи. Языковая норма, её роль в становлении и функционировании литературного языка. Нормы современного русского литературного языка, речевые ошибки. Функциональные стили современного русского литературного языка. Основы риторики.
курс лекций [150,1 K], добавлен 21.12.2009Место русского языка в современном многонациональном мире и отношение к нему со стороны народов других стран. Актуальные проблемы культуры речи, ее нормативные, коммуникативные и этические аспекты. Определение и функции русского языка как национального.
реферат [24,5 K], добавлен 17.11.2014Рассмотрение соотношения литературных слов, диалектов и жаргона в системе русского языка. Исследование роли современных иноязычных заимствований в речи россиян. Изучение бранной и ненормативной лексики как фактора снижения статуса русского языка.
курсовая работа [52,9 K], добавлен 26.02.2015Рассмотрение особенностей лексикографического описания значения слов в "Толковом словаре современного русского языка". Характер языкового изменения века - использование как традиционных, так и ранее находящихся на периферии моделей образования слов.
реферат [32,5 K], добавлен 20.03.2011Слово как знак языковой системы: внутренняя структура, функция, категориальное значение. Изменение значений слов (в сравнении русского и французского языков), метафора и метонимия. Основные типы семантических преобразований в лексике французского языка.
курсовая работа [709,0 K], добавлен 28.08.2011Становление норм современного русского литературного языка от А.С. Пушкина. Кодифицированные нормы литературного языка. Коммуникативный аспект культуры речи, выработанный в литературе и народной жизни. Стили речи, культура речи, этика и владение языком.
презентация [221,3 K], добавлен 16.05.2010Морфонология как область фонологии слова, связанная со звуковым строением морфемы и ее преобразованиями в сочетаниях. Чередования фонем, их фонетические (позиционные и комбинаторные) и нефонетические (исторические) виды. Связь чередований со стилем речи.
реферат [26,7 K], добавлен 01.04.2012Исследование системы норм литературного русского языка. Обзор морфологических, синтаксических и стилистических признаков официально-деловой речи. Анализ особенностей дипломатического, законодательного и административно-канцелярского стилей деловой речи.
реферат [34,6 K], добавлен 22.06.2012Теоретические основы стилистики как учения о функциональных стилях и основы учения о культуре речи как системе ее коммуникативных качеств. Системное представление о нормах современного русского литературного языка. Приемы устранения речевых ошибок.
учебное пособие [291,9 K], добавлен 07.05.2009Социодиалект как культурная универсалия. Различие территориальных и социальных диалектов. Разновидности социодиалектов русского языка. Арго. Формы образования функциональных единиц социодиалекта. Арготизмы в литературном языке.
курсовая работа [36,8 K], добавлен 31.07.2007