Решение задач проектирования систем обработки речи

Базовая архитектура диалоговой системы. Технологии шумоочистки речевых сигналов. Идентификация пользователя по голосу. Задачи распознавания слитной речи и методы их решения. Разработка системы распознавания, учитывающей особенности языка и произношения.

Рубрика Программирование, компьютеры и кибернетика
Вид отчет по практике
Язык русский
Дата добавления 20.05.2020
Размер файла 36,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

4

МИНОБРНАУКИ РОССИИ

Федеральное государственное бюджетное

образовательное учреждение высшего уровня

«Тульский государственный университет »

ОТЧЕТ

Реферат

Обработка речи, речевой диалог, распознание слитной речи, голосовые метки, нестационарность образцов речевого сигнала, скрытые марковские модели, нейронные сети, фонема, морфема, транскриптор

Отчёт обобщает и систематизирует данные, полученные в результате исследований по теме: «Решение задач проектирования систем обработки речи».

Объект исследования - системы обработки речи, и с её помощью решение задач.

Целью научно-исследовательской работы является нахождение эффективного метода решения задач проектирования систем обработки речи.

В работе были использованы следующие методы исследования:

-теоретические (обобщение, анализ)

-эмпирические

В результате выполнения научно-исследовательской работы были изучены проблемы, возникающие при работе с системами речевых технологий:

-невозможность полностью подавить внешний шум;

-повышение точности распознания слитной речи;

-чувствительность систем к речевым оборотам диктора ;

-проблема идентификации пользователя по голосу.

Самая главная проблема -- обучение системы.

Нейронные сети имеют гибкий аппарат обучения, позволяющий настроить сеть наилучшим образом для решения требуемой задачи.

Термины и определения

В настоящем отчете о НИР применяют следующие сокращения и обозначения

Аллофон - реализация фонемы, её вариант, обусловленный конкретным

фонетическим окружением

Аппроксимамция или приближемние -- научный метод, состоящий в замене одних объектов другими, в каком-то смысле близкими к исходным, но более простыми.

Декодер - некоторое звено, которое преобразует информацию из одного внешнего вида в другой вид, применяемый в каком-нибудь устройстве

Кластеризация - задача группировки множества объектов на подмножества (кластеры) таким образом, чтобы объекты из одного кластера были более похожи друг на друга, чем на объекты из других кластеров по какому-либо критерию

Коартикуляция - наложение артикуляции, характерной для последующего звука, на весь предшествующий звук

Коррелятор - специализированное устройство для автоматического вычисления корреляционных функций и взаимных корреляционных функций стационарных случайных процессов

Морфема - наименьшая единица языка, имеющая некоторый смысл

Нейрон - электрически возбудимая клетка, которая предназначена для приема извне, обработки, хранения, передачи и вывода вовне информации с помощью электрических и химических сигналов

Спектрограммма - изображение, показывающее зависимость спектральной плотности мощности сигнала от времени

Фонема - это единица звукового строя языка, которая служит для опознавания и различия значимых единиц - морфем, внутри которых они выступают в качестве минимального сегментного компонента

Перечень сокращений и обозначений

В настоящем отчете о НИР применяют следующие сокращения и обозначения

ИМС - иерархическая многоярусная сеть

ИНС - искусственные нейронные сети

ИТС - исходная транскрипция слова

СММ -скрытая Марковская модель

Введение

Развитие средств автоматизации передачи и обмена информацией привело к их стремительному внедрению в нашу повседневную жизнь. Потом встал вопрос повышения качества взаимодействия и уровня комфортности. Как наиболее распространенное средство человеческого взаимодействия в интеллектуальных системах стала использоваться речь. Параллельно развивались и другие технологии (распознавание жестов, мимики, движений губ и другие). Потом стали появляться системы человеко-машинного взаимодействия, использующие различные модальности.

В настоящее время речевые технологии прочно вошли в жизнь современного человека. Они сделали ее намного проще и удобнее. Мы пользуемся ими чтобы озвучивать книги, sms-сообщения, документы и целые веб-сайты, строить запросы в поисковых системах без помощи клавиатуры, изучать языки, получать информацию с личного счета без использования паролей и даже давать указания персональному автомобилю.

Современная диалоговая система должна быть эффективной, быстрой и комфортной, поэтому в ее основе лежит теория человеческого общения. В данной работе рассматриваются основные принципы проектирования систем обработки речи и проблемы распознания слитной речи.

Основными проблемами, связанными с разработкой систем речевых технологий являются:

-невозможность полностью подавить внешний шум;

-повышение точности распознания слитной речи;

- чувствительность систем к речевым оборотам диктора ;

-проблема идентификации пользователя по голосу.

Они рассматриваются в 1 и 2 разделах.

В 3 ,4 и 5 разделах обсуждаются задачи распознавания слитной речи и возможных подходах к разработке системы распознавания слитной речи.

В заключении делаются основные выводы по исследуемой теме.

Перечислены основные проблемы проектирования систем обработки речи и распознавания слитной речи. А также рассмотрен один из возможных подходов к разработке системы распознавания слитной речи, учитывающей особенности языка и произношения. И найден эффективный метод для решения требуемой задачи.

1. Базовая архитектура диалоговой системы

Проектирование системы речевого диалога включает комплекс задач, которые необходимо решать на соответствующих уровнях обработки входной информации. Потоки информации от пользователя к системе могут быть различной природы и относиться к различным видам модальностей (жесты, речь, ввод с клавиатуры, движение мышью и др.). Входная информация обрабатывается и затем передается в подсистему управления диалога, которая управляет диалогом и решает, что делать дальше. В соответствии с этим решением генерируется соответствующая ответная информация, которая передается пользователю. Поскольку человек получает информацию из внешнего мира при помощи своих ощущений, входные сигналы должны быть, в первую очередь, собраны и трансформированы соответствующими сенсорными системами. Датчики сенсоров могут быть разных видов, например, видеокамеры, массивы микрофонов, сенсорные клавиатуры, джойстики, клавиатуры, сенсорные перчатки и другие.

Эти устройства обычно конвертируют аналоговые сигналы в цифровые, а затем передают их на обработку компьютерам или специализированным вычислительным устройствам.

Обработка речи начинается с определения уровня помех и искажений, полученного речевого сигнала. Далее в сигнале выделяются участки, которые содержат речь, и происходит оценка информации о формах слов. Этот этап называется сегментацией. Далее параметры речи поступают в декодер, где сопоставляются входные речевые потоки информации с потоками, хранящимися в акустических и языковых моделях устройства. Там же определяется некоторая наиболее вероятная последовательность слов, которая в итоге будет являться результатом. Это этап распознавания речи.

Последнее -- отклик на требуемую задачу. На этом этапе процессор, встроенный в используемое устройство, обрабатывает полученную команду. И если она совпадает с той, что хранится в его встроенной базе данных, то устройство выполняет требуемую задачу, если же команда отсутствует, то используемое оборудование оповестит о невозможности ее выполнения.

Основные проблемы, которые возникли перед разработчиками систем речевых технологий:

- невозможность полностью подавить внешний шум. Системы очень чувствительны к шуму окружающей среды. И любые внешние помехи препятствуют правильному распознанию речи.

-повышение точности распознания слитной речи. Поскольку сама система распознавания речи -- это сложный процесс согласования данных, то любая, даже незначительная ошибка, может привести к получению неверного результата.

-чувствительность систем к речевым оборотам диктора. От дикции человека зависит очень многое, но так как система направлена на широкое использование, то функционал программы, отвечающий за распознавание речи, должен быть очень гибким.

-проблема идентификации пользователя по голосу. На данный момент системы распознания речи слишком неточны. В итоге, чем выше скорость отклика программы, тем выше шанс, что человек получит несанкционированный доступ к информации.

слитный речь шумоочистка идентификация

2. Основные проблемы

Рассмотрим некоторые проблемы более подробно, чтобы выбрать более актуальную из них.

2.1 Шумоочистка

Звуковой сигнал на фонограммах или в каналах передачи и записи звука отличается от исходного. Это объясняется, во-первых, тем, что в прослушиваемом сигнале в той или иной степени присутствуют шумы и искажения, оказывающие негативное влияние на качество и разборчивость речи, а во-вторых, особенностями нашего слуха. В связи с этим достаточно часто возникает потребность в проведении специальной обработки, или шумоочистки, звукового сигнала.

Современные технологии позволяют проводить шумоочистку в реальном и отложенном времени, применять различные фильтры. В основу большинства алгоритмов обработки речевых сигналов положена идея адаптации, суть которой заключается в использовании текущей информации о сигнале для автоматической подстройки режима его обработки к типу помехи.

К характеристикам передающей среды обычно относятся уровень и тип шума окружающей среды (офисные шумы, шумы улицы, фоновая музыка, голоса других людей и т. д.), уровень реверберации (степень наложения на речевой сигнал его отражений от различных поверхностей), шумы и искажения в канале передачи (микрофоны, усилители, АЦП, кодеки и т. д.).

Знание характеристик передающей среды помогает решать задачи шумоочистки и улучшения качества речевых сигналов, а также оценивать их пригодность для последующего использования в системах автоматического распознавания речи и голоса.

В ряде случаев низкое качество полученной звукозаписи создает определенные трудности для расшифровки необходимой информации. Причины этого обычно кроются как в неудачном или неумелом выборе и использовании средств передачи и записи акустической информации, так и в объективной трудности и даже невозможности получения высококачественной, «чистой» записи звука в некоторых конкретных обстоятельствах.

При обработке звукозаписи перед техническим специалистом встают следующие задачи:

-провести максимально возможную очистку речи с удалением помех и искажений;

-провести экспертизу звукозаписей.

Для любой работы с записями звука низкого качества необходим технически грамотный, подготовленный специалист и различные технические средства. В свою очередь для решения любой экспертной задачи требуется квалифицированный специалист, владеющий специальными методиками, в распоряжении которого должна быть необходимая дополнительная аппаратура. При проведении экспертизы обычно требуется установить наличие следов умышленного монтажа или копирования звукозаписи; определить тип или идентифицировать конкретный экземпляр звукозаписывающего устройства; констатировать обстоятельства звукозаписи, метод, окружающую обстановку, размещение средств записи звука, тип источника слышимых шумов и т.п.; установить тождество или отличие голоса на данной (спорной) звукозаписи с голосом, образец которого представлен на другой (сравнительной) фонограмме.

Главной целью шумоочистки является доведение качества и разборчивости речевого сигнала до уровня, приемлемого для его комфортного прослушивания и понимания.

Технологии шумоочистки речевых сигналов классифицируются по типу искажения:

- BABBLE NOISE - технология подавления шума толпы

- MUSIC NOISE - технология подавления шума музыки

-NONSTATIONARY NOISE- технология подавления нестационарных шумов

- PULSE NOISE - технология подавления импульсных шумов

-TONAL NOISE - технология подавления тональные помех

-WIDEBAND NOISE - технология подавления широкополосных шумов

-GSM HINDRANCE - технология подавления наводки мобильных телефонов

- CLIPPING - клиппирование сигнала

- REVERBERATION&NOISE - реверберация

2.2 Распознания слитной речи

Довольно трудно выбрать удобный показатель качества работы системы распознавания речи. Наиболее просто такой показатель качества вводится для командных систем. При тестировании в случайном порядке произносятся все возможные команды достаточно большое число раз. Подсчитывается количество правильно распознанных команд и делится на общее количество произнесенных команд. В результате получается оценка вероятности правильного распознавания команды в заданной при эксперименте акустической обстановке. Для систем диктовки похожий показатель качества может вычисляться при диктовке некоторого тестового текста. Очевидно, что это не всегда удобный показатель качества. В действительности мы сталкиваемся с самыми различными акустическими обстановками. Но как быть со сменой дикторов и сопутствующей ей тренировкой системы?

В качестве примера разрешите взять на рассмотрение вариант простейшей командной системы распознавания речи. Функционирование системы основано на гипотезе о том, что спектрально-временные характеристики команд-слов для отдельно взятого диктора изменяются слабо. Акустическая модель такой системы представляет собой преобразователь из речевого сигналов спектрально-временную матрицу и может служить типичным примером изобретательского подхода. В самом простом случае команда локализуется во времени по паузам в речевом сигнале. Лингвистический блок способен обнаружить ограниченное число команд плюс еще одну, которая означает все остальные неизвестные системе слова.

Как правило, лингвистическая модель строится как алгоритм поиска максимума функционала от входного образца и образцов всего «словарного запаса» системы. Часто это обычный двумерный коррелятор. Хотя выбор размерности пространства описания и его метрики может широко варьироваться разработчиком. Уже исходя из «конструкции» описанной системы понятно, что она представляет собой скорее игрушку, нежели полезный инструмент.

В настоящее время на рынке представлено множество коммерческих систем распознавания речи с гораздо большими возможностями: Voice Type Dictation , Voice Pilot , ViaVoice от IBM ; Voice Assist Creative от Techonology ; Listen for Windows от Verbex и многие другие. Некоторые из них (например, ViaVoice) способны, как заявляют разработчики, вводить слитную речь. Лингвистические блоки современных систем реализуют сложную модель естественного языка. Иногда она основана на математическом аппарате скрытых цепей Маркова, иногда использует последние достижения технологии нейронных сетей либо других ноу-хау. Устройство же акустических блоков подобных систем держится в строгом секрете. По некоторым признакам можно догадаться, что акустический блок некоторых систем пытается моделировать естественный слуховой аппарат.

2.3 Идентификация пользователя по голосу

Одна из задач в области речевых технологий состоит в том, чтобы определить, какому человеку соответствует тот или иной речевой сигнал. Системы, решающие эту задачу, делятся на два больших класса - системы верификации и идентификации. Верификация - это процедура подтверждения личности говорящего, а идентификация - определение личности из заданного, ограниченного списка людей. В настоящее время системы идентификации и верификации голоса пользуются все большей популярностью во всем мире.

Голос человека обладает индивидуальными особенностями, уникален. Поэтому в последнее время компании-разработчики биометрических систем используют голос для определения личности говорящего. Все чаще встречаются системы, где голос выполняет функцию защиты. По голосу проверяют права доступа к компьютерным сетям, помещениям, банковским системам, камерам хранения, личной информации и др. Практика показала, что парольная защита является недостаточно надежной. Текстовые пароли и ключи уступают свое место верификации личности по голосу. Именно голос, является тем универсальным ключом, который нельзя подделать, сломать или украсть.

Верификация личности по голосу предполагает соответствие заранее установленного речевого образца вновь предъявляемому. Пользователь предварительно устанавливает какую-нибудь фразу в качестве пароля. Затем, пользователь произносит свой пароль. Система, проверяет, соответствует ли произнесенный голос заранее установленному эталону. Если соответствие подтверждается, то доступ к системе открывается. Таким образом, верификация по голосу обеспечивает большую степень надежности по сравнению с верификацией по паролю, вводимому с клавиатуры. Чужой голос подделать невозможно, в то время как подделка чужого пароля вполне доступна.

Идентификация личности по голосу представляет собой процесс установления, кому из ограниченного списка людей принадлежит голос. «Изучив» фонотеку, система укажет голос, наиболее близкий к исследуемому. Из рассмотренных проблем главная - повышение точности распознания слитной речи. Эта задача очень сложна и решена лишь отчасти и на ней мы остановимся более подробно.

3. Обзор задач распознания слитной речи

Одной из кардинальных задач распознавания речи является обеспечение устойчивости и стабильности распознавания фонов в условиях их огромной акустической вариативности. При этом слитная спонтанная речь труднее поддается автоматическому распознаванию по сравнению со слитной диктовочной речью из-за большей лингвистической («свободный» стиль речи, редукции, жаргонизмы, оговорки, неканонические транскрипции, неправильная структура фраз), канальной (искажения и шумы в акустике помещений и каналах связи) и дикторской (индивидуальные особенности голосов дикторов, различный акцент, диалект, возраст и психофизическое состояние дикторов и др.) Суть проблемы состоит в том, что среди существующих речевых технологий нет методов распознавания слитной речи, устойчивых по отношению к различного рода отклонениям.

Практически все известные подходы к распознаванию слитной речи основаны на семантико-синтаксических или стохастических ограничениях в моделях генерации гипотетических фраз (как составных эталонов или моделей) . Такие модели могут распознавать только идеально построенные и четко произнесенные в полной тишине фразы. Иными словами фразы с частичными неточностями отвергаются уже на уровне распознавания цепочек слов. Снять эти ограничения в рамках существующих подходов (например, путем полного перебора) невозможно, поскольку это привело бы к катастрофическому усложнению модели распознавания.

При больших размерах словаря число фраз построенных методом перебора достигало бы огромного объема, что привело бы к масштабным вычислительным операциям, и такая система просто стала бы практически не применимой. На сегодняшний день существует множество систем распознавания речи. Большинство из них направлены на распознавание изолированных слов. Надежность распознавания речи для систем, которые работают с однословными командами, достигает 99.5, командами, которые состоят из двух слов, - 97.5, из трех слов - 92.5, из четырех слов - 91.9. Но при проектировании системы распознавания слитной речи перед разработчиками появляется проблема распознавания не только языкового сигнала, но и лингвистического содержания.

Рассмотрим некоторые аспекты, препятствующие глобальному решению проблемы качественного распознавания речи.

-темп речи пользователей варьируется в широких пределах, часто в несколько раз. При этом различные звуки речи растягиваются или сжимаются не пропорционально. Например, гласные изменяются значительно сильнее, чем полугласные и особенно смычные согласные. Для так называемых щелевых звуков есть свои закономерности. (Полугласные -- это звуки, при генерации которых необходимо участие голосовых связок, как и для гласных звуков, но сами они в обиходе считаются согласными). Образование щелевых звуков связано с шипением и прочими эффектами турбулентности в органах артикуляции. Это свойство называется временной нестационарностью образцов речевого сигнала.

-произнося одно и то же слово или фразу в разное время, под влиянием различных факторов (настроения, состояния здоровья и др.), мы генерируем заметно не совпадающие спектрально-временные распределения энергии. Это справедливо даже для дважды подряд произнесенного слова. Намного сильнее этот эффект проявляется при сравнении спектрограмм одной и той же фразы, произнесенной разными людьми. Обычно этот эффект называют спектральной нестационарностью образцов речевого сигнала.

-изменение темпа речи и четкости произношения является причиной коартикуляционной нестационарности, означающей изменение взаимовлияния соседних звуков от образца к образцу.

- проблема кластеризации слитной речи: в непрерывном речевом потоке трудно распознать речевые единицы из-за неточного определения границ.

Системы распознавания речи можно классифицировать по таким признакам

-тип речи (слитная или изолированная);

-тип элементов словаря (фонемы, слоги, слова, и др.);

-зависимость от диктора;

-степень детализации;

-размер словаря.

Каждая такая система характеризуется своими методами и алгоритмами.

Как правило, работа системы распознавания речи делится на два вида:

-распознавание голосовых меток;

-распознавание лексических элементов.

Первый подход допускает распознавание фрагментов языка по заранее записанному образцу. Этот подход широко используется в относительно простых системах, предназначенных для выполнения заранее записанных команд, например, системы голосового управления транспортом.

Второй подход сложнее. При его реализации из потока речи выделяются отдельные лексические элементы - фонемы и аллофоны, которые потом объединяются в составы и морфемы. Именно этот подход и используется в системах распознавания речи. При создании системы распознавания слитной речи важно не просто разработать механизм, позволяющий математически описать звуковой сигнал. Разработка подобной системы включает лингвистический аппарат, позволяющий анализировать распознанные данные и формировать выводы на основе языковых правил.

Этапы процесса распознавания слитной речи.

Для речевого сигнала, который будет использоваться в процессе обучения распознающей системы, составляется детальная сегментная транскрипция. Сегменты - аллофоны фонем - описываются посредством двух основных классов стандартных фонетических признаков - автономных и иерархических. Автономные признаки определяют характер представления акустико-фонетического пространства, они могут использоваться для описания фонетических единиц любого уровня иерархии. Иерархический признак характеризуется обязательной соотнесенностью с другими классификационными признаками. Все аллофоны, затранскрибированные с помощью описанного выше набора признаков, далее используются в процессе обучения системы распознавания речи.

Составляется словарь системы распознавания речи, при этом каждое слово получает транскрипционное представление. За основу принимается стандартное произнесение, определяемое как исходная транскрипция слова (ИТС).

Осуществляется генерация всех теоретически возможных вариантов реализации данного слова. При генерации используются фонетические правила модификации, которые позволяют для любой фонемы в любом контексте спрогнозировать все возможные модификационные сценарии. Модификационные правила дополняются факторами влияния, наличие или отсутствие которых в конкретной речевой реализации определяет относительные вероятности типов и степеней модификационных изменений фонетической единицы, предписанной в ИТС.

Иерархизация пространства произносительной вариативности слова за счет введения определенного количества обобщающих уровней описания. Обобщение осуществляется лингвистами (экспертами-фонетистами) на основе наблюдений за звучащей речью. При использовании достаточно больших баз речевых данных возможно применение автоматической процедуры обобщения аллофонных транскрипций. В результате объединения детализованных, промежуточных и обобщенных транскрипционных представлений для каждого слова генерируется иерархическая многоярусная сеть (ИМС), которая обеспечивает полноценный учет и эффективную организацию всех допустимых произносительных вариантов слова в различной степени подробности.

Обучения системы, т.е. для каждой единицы и мета-единицы, включенной в ИМС, создается шаблон. Шаблоны для мета-единиц имеют иерархическую структуру и составляются из шаблонов простых единиц, входящих в состав данной мета-единицы.

Сравнение входных данных и имеющихся ИТС. С учетом значений иерархической весовой функции устанавливается мера сходства между найденной текущей реализацией распознаваемого слова и ИМС, построенной по ИТС. Чем выше значение меры близости сравниваемых транскрипций , тем более вероятным является распознанный вариант слитной речи.

Для успешного распознавания речи следует решить следующие задачи:

-обработку словаря (фонемный состав);

-обработку синтаксиса;

-сокращение речи (включая возможное использование жестких сценариев);

-выбор диктора (включая возраст, пол, родной язык и диалект);

-тренировку дикторов;

-выбор особенного вида микрофона (принимая во внимание направленность и местоположение микрофона);

-условия работы системы и получения результата с указанием ошибок.

Рассмотрим несколько методов проектирования системы распознавания слитной речи.

4. Методы решения задач распознания слитной речи

Сегодня системы распознания речи строятся на основе принципов признания форм распознания.

Методы и алгоритмы, которые использовались до сих пор могут быть разделены на следующие большие классы:

-динамическое программирование - временные динамические алгоритмы(Dynamic Time Warping)

-скрытые Марковские модели (Hidden Markov Model);

-нейронные сети (Neural networks)

4.1 Метод скрытых Марковских моделей

Скрытой Марковской моделью (СММ) называется модель состоящая из N состояний, в каждом из которых некоторая система может принимать одно из M значений какого-либо параметра. Вероятности переходов между состояниями задается матрицей вероятностей A={aij}, где aij - вероятность перехода из i-го в j-е состояние. Вероятности выпадения каждого из M значений параметра в каждом из N состояний задается вектором B={bj(k)}, где bj(k) - вероятность выпадения k-го значения параметра в j-м состоянии. Вероятность наступления начального состояния задается вектором р={рi}, где рi - вероятность того, что в начальный момент система окажется в i-м состоянии.

Таким образом, скрытой Марковской моделью называется тройка л={A,B,р}. Использование скрытых Марковских моделей для распознавания речи основано на двух приближениях:

-речь может быть разбита на фрагменты, соответствующие состояниям в СММ, параметры речи в пределах каждого фрагмента считаются постоянными.

-вероятность каждого фрагмента зависит только от текущего состояния системы и не зависит от предыдущих состояний.

Модель называется «скрытой», так как нас, как правило, не интересует конкретная последовательность состояний, в которой пребывает система. Мы либо подаем на вход системы последовательности типа O={o1,o2,…oi} - где каждое oi - значение параметра (одно из M), принимаемое в i-й момент времени, а на выходе ожидаем модель л={A,B,р}с максимальной вероятностью генерирующую такую последовательность, - либо наоборот подаем на вход параметры модели и генерируем порождаемую ей последовательность. И в том и другом случае система выступает как “черный ящик”, в котором скрыты действительные состояния системы, а связанная с ней модель заслуживает названия скрытой.

Для осуществления распознавания на основе скрытых моделей Маркова необходимо построить кодовую книгу, содержащую множество эталонных наборов для характерных признаков речи (например, коэффициентов линейного предсказания, распределения энергии по частотам и т.д.). Для этого записываются эталонные речевые фрагменты, разбиваются на элементарные составляющие (отрезки речи, в течении которых можно считать параметры речевого сигнала постоянными) и для каждого из них вычисляются значения характерных признаков. Одной элементарной составляющей будет соответствовать один набор признаков из множества наборов признаков словаря.

Фрагмент речи разбивается на отрезки, в течении которых параметры речи можно считать постоянными. Для каждого отрезка вычисляются характерные признаки и подбирается запись кодовой книги с наиболее подходящими характеристиками. Номера этих записей и образуют последовательность наблюдений O={o1,o2,…oi} для модели Маркова. Каждому слову словаря соответствует одна такая последовательность. Далее A - матрица вероятностей переходов из одного минимального отрезка речи (номера записи кодовой книги) в другой минимальный отрезок речи (номер записи кодовой книги). В - вероятности выпадения в каждом состоянии конкретного номера кодовой книги.

На этапе настройки моделей Маркова мы применяем алгоритм Баума- Уэлча для имеющегося словаря и сопоставления каждому из его слов матрицы A и B.

При распознавании мы разбиваем речь на отрезки, для каждого вычисляем набор номеров кодовой страницы и применяем алгоритм прямого или обратного хода для вычисления вероятности соответствия данного звукового фрагмента определенному слову словаря. Если вероятность превышает некоторое пороговое значение - слово считается распознанным.

4.2 Метод динамического программирования

Определение слова может осуществляться путем сравнения числовых форм сигналов или путем сравнения спектрограммы сигналов. Процесс сравнения в обоих случаях должен компенсировать различные длины последовательности и нелинейный характер звука. DWT алгоритму удается разобрать эти проблемы путем нахождения деформации, соответствующей оптимальному расстоянию между двумя рядами различной длины.

Существуют 2 особенности применения алгоритма:

-прямое сравнение числовых форм сигналов.

В этом случае, для каждой числовой последовательности создается новая последовательность, размеры которой значительно меньше. Числовая последовательность может иметь несколько тысяч числовых значений,

в то время как подпоследовательность может иметь несколько сотен значений. Уменьшение количества числовых значений может быть выполнено путем их удаления между угловыми точками. Этот процесс сокращения длины числовой последовательности не должен изменять своего представления. Несомненно, процесс приводит к уменьшению точности распознавания. Однако, принимая во внимание увеличение скорости, точность,по сути, повышается за счет увеличения слов в словаре.

-представление сигналов спектрограмм и применение алгоритма DTW для сравнения двух спектрограмм.

Метод заключается в разделении цифрового сигнала на некоторое количество интервалов, которые будут перекрываться. Для каждого импульса, интервалы действительных чисел (звуковых частот), будет рассчитывать Быстрым преобразование Фурье, и будет храниться в матрице звуковой спектрограммы. Параметры будут одинаковыми для всех вычислительных операций: длин импульса, длины преобразования Фурье, длины перекрытия для двух последовательных импульсов.

Преобразование Фурье является симметрично связанным с центром, а комплексные число с одной стороны связаны с числами с другой стороны.

В связи с этим, только значения из первой части симметрии можно сохранить, таким образом, спектрограмма будет представлять матрицу комплексных чисел, количество линий в такой матрице является равной половине длины преобразования Фурье, а количество столбцов будет определяться в зависимости от длины звука. DTW будет применяться на матрице вещественных чисел в результате сопряжения спектрограммы значений, такая матрица называется матрицей энергии.

4.3 Применение нейронных сетей для распознавания речи

Искусственная нейронная сеть -- это математическая модель, а также устройства параллельных вычислений, представляющие собой систему

соединённых и взаимодействующих между собой простых процессоров (искусственных нейронов). Как математическая модель искусственная нейронная сеть представляет собой частный случай методов распознавания образов или дискриминантного анализа.

Каждый процессор подобной сети имеет дело только с сигналами, которые он периодически получает, и сигналами, которые он периодически посылает другим процессорам. И тем не менее, будучи соединёнными в достаточно большую сеть с управляемым взаимодействием, такие локально простые процессоры вместе способны выполнять довольно сложные задачи.

Понятие возникло при изучении процессов, протекающих в мозге при мышлении, и при попытке смоделировать эти процессы. Полученные модели называются искусственными нейронными сетями (ИНС). Нейронные сети не программируются в привычном смысле этого слова, они обучаются. Возможность обучения -- одно из главных преимуществ нейронных сетей перед традиционными алгоритмами. Технически обучение заключается в нахождении коэффициентов связей между нейронами. В процессе обучения нейронная сеть способна выявлять сложные зависимости между входными данными и выходными, а также выполнять обобщение. Это значит, что, в случае успешного обучения, сеть сможет вернуть верный результат на основании данных, которые отсутствовали в обучающей выборке.

Решение задачи распознавания с помощью нейронных сетей обладает значительным преимуществом перед алгоритмами, основанными на вычислении метрик - вычислительные затраты не зависят от количества слов в словаре. При увеличении длины словаря увеличивается лишь размер обучающей выборки, то есть нейронной сети требуется затратить больше времени на процесс обучения, но трудоемкость процесса распознавания не изменяется. Такая особенность позволяет оперировать с достаточно большим количеством слов в словарях. Недостатком нейросетевого подхода является отсутствие возможности добавления новых слов в словарь после окончания процесса обучения. Для разрешения этой проблемы может быть применена теория адаптивного резонанса. Нейронные сети, построенные в рамках теории адаптивного резонанса сохраняют пластичность при запоминании новых образов, и, в то же время, предотвращают модификацию старой памяти.

5. Разработка системы распознавания слитной речи

На начальных уровнях анализа перед нами стоит задача разбиения высказывания на элементы первичного анализа. В качестве элемента первичного анализа будем брать фонемы. Как фонетического алфавита будем использовать набор из 48 фонем: 12 - для гласных звуков (учитывая, что каждая гласная может быть ударной и безударной) и 36 - для согласных (учитывая, что каждая согласная может быть твердой и мягкой).

Таким образом, получаем алфавит фонем:

Гласные: а а! е е! о! и и! у у! ы ы! э!.

Согласные: б, б' в в' г г' д д' ж з з' й к к' л л' м м' н н' п п' р р' с с' т т' ф ф' x x' ц ч ш щ.

Одним из важнейших узлов системы является транскриптор.

Фонетическая транскрипция - это особенный вид записи речи, который используется для фиксации на листе особенностей ее звучания. Она предназначена для описания произношения слов. Текст на естественном языке представляет собой упорядоченный поток символов. Символы обрабатываются последовательно, друг за другом, в порядке их расположения в тексте. Обратный транскриптор - это механизм, позволяющий преобразовывать произносимое слово в его запись.

При создании фонетического транскриптора необходимо принимать во внимание логику транскрипции. Проблема заключается в том, что невозможно поставить в соответствие каждой букве ее конкретный звук. Так, например, транскрипция слова "еж" - []ош],а слова "кожа" - [кожа].

Звук буквы меняет свое значение в зависимости от расположения в слове, ударению, порядку следования, свойств букв. Таким образом, транскриптор строится на основе правил, определенных конкретным языком.

Так как перед нами стоит задача анализа слитной речи, а не просто анализа отдельных слов, возникает очередная проблема. Зачастую, при быстром произнесении фразы, некоторые фонемы на границах слов «теряются». Таким образом, кроме правил транскрипции изолированных слов необходимо учитывать и правила, описывающие транскрибирование на границах слов.

Писать программный продукт, который будет проводить десятки однотипных проверок для каждой буквы при транскрибировании, не является целесообразным. Поэтому проанализировав современные методы решения подобных проблем можно прийти к заключению, что целесообразно строить такую систему как систему искусственного интеллекта, анализирующую набор правил на основе некоторых заранее заданных методов.

Цель проектирования экспертных систем заключается в разработке программных продуктов, которые могут решать задачи, которые являются тяжелыми для решения экспертами в связи с необходимостью обработки большого количества данных, или применения большого количества правил. С помощью экспертных систем мы получаем результаты, которые не уступают по качеству и эффективности решениям, до которых могут дойти эксперты.

В большинстве случаев экспертные системы решают задачи, которые трудно формализовать, или задачи, которые не имеют алгоритмического решения.

При разработке транскриптора целесообразно использовать статичную экспертную систему с четко заданными правилами и загодя известными элементами.

Для того чтобы решить какие именно правила нужно использовать для транскрибирования нужно:

-выделить элементы системы - звуки.

-выделить правила транскрипции.

-расставить приоритет для каждого из правил.

-записать правила в формализованном виде.

Первоочередной задачей при синтезе слов являете объединение фонем в последовательность морфем. Будем рассматривать следующие типы морфем: приставка, корень, интерфикс, суффикс, окончание, целое слово.

После распознавания фонем и подбора наиболее вероятных цепочек морфем получившийся набор гипотез далее используется для формирования цепочек слов. На основе каждой поступившей гипотезы фразы, представленной в виде последовательности морфем, формируется еще несколько гипотез, представленных уже последовательностью гипотез слов.

Одной из основных проблем распознавания слитной речи является особенность интерференции звуков на стыках слов. Таким образом, при разработке алгоритмов распознавания слитной речи необходимо учитывать не только правилам транскрибирования слов, но и уделить особенное внимание ряду правил, описывающих межсловные фонетические явления.

Эти правила можно классифицировать следующим образом :

Если в начале слова стоит сочетание фонем /йи/, причем гласная безударная, оно переходит в фонему /ы/ в случае, если первое слово заканчивается на твердую согласную.(город в Якутии /го!рат в йику!т'ии/ ^ /го!рат в ыку!т'ии/).

Первая в слове гласная /и/ после всех твердых согласных переходит в фонему /ы/ (лист ивы /л'и!ст ы!вы/).

Безударные гласные редуцируются до полного исчезновения, если они находятся:

а) между одинаковыми согласными (мясо сырое /м'а!са сыро!йе/ ^ /м'а!с сыро!йе/)

б) после одной из парных по глухости-звонкости согласных и перед соответствующей парной согласной (степи большие /с'т'е!пи бал'шы!йе/ ^ /с'т'е!п' бал'шы!йе/).

Фонемы /т'/ и /д'/, стоящие после /с'/ и /з'/ соответственно, редуцируются до полного исчезновения (есть порох /йэ!с'т' по!рах/ ^ /йэ!с' по!рах/).

Фонемы /т/ и /д/, стоящие после /с/ и /з/ соответственно, редуцируются до пол­ного исчезновения (хвост коровы /хво!ст каро!вы/ ^ /хво!с каро!вы/).

Согласная /й/ в конце слова редуцируется до полного исчезновения, если ей предшествует безударная гласная, а следующее слово начинается с любой фонемы, кроме ударной гласной (красный шар /кра!сный ша!р/ ^ /кра!сны ша!р/).

На стыке двух знаменательных слов глухие согласные /п/, /п'/, /т/, /т'/, /к/, /к'/,/ф/, /ф'/, /с/, /с'/, /ш/, /ш/, /ц/, /ч/ озвончаются перед фонемами /б/, /д/, /г/, /з/ или /ж/. На стыке служеб­ного и знаменательного слова внутрисловные правила ассимиляции по глухости-звонкости сохраняются, т.е. в положении перед глухими шумными согласными звонкие шумные со­гласные оглушаются, и на их месте выступают глухие шумные, в положении перед звонкими шумными согласными, кроме /в/, /в'/, глухие шумные озвончаются, и на их месте выступают звонкие шумные (с дороги /здаро!г'и/, в лесу /вл'эсу!/).

Сочетание фонем /с'т'/ в конце слова переходит в фонему /щ/, если следующее слово начинается с /ч/ (есть чему /йэ!с'т' чэму!/ ^ /йэ!щ чэму!/).

Если на стыке двух слов находятся одинаковые согласные, то согласная первого слова редуцируется (лес сосновый /л'э!с сасно!вый/ ^ /л'э! сасно!вый/).

Следует обратить внимание на тот факт, что фонема связана со словом. Она вычисляется в словоформе не в морфеме, а в словоформе. Поэтому определение стыков слов является важнейшим фактором, обусловливающим сегментацию речевого потока на фонемы.

Интересно проследить эволюцию русского алфавита, из которого в конечном итоге были удалены некоторые неиспользуемые буквы. Например буквы ? (кси), ? (пси) обозначали по два звука, кс и пс.

Изучение старославянского алфавита с его сочетаниями звуков (например, пси и кси) подтолкнуло к созданию дополнительного уровня обработки фонем - добавление правил, соответствующих некоторым исключенным из алфавита букв.

Последним этапом обработки является синтез фразы.

В ходе построения подобной системы на этапе генерации фразы мы можем встретить несколько типов ошибок, наиболее распространенные из которых:

-правильно определена граница слова, но возникает неоднозначность в его трактовке при переводе транскрипции морфем на естественный язык.

-границы слова определены неверно.

Таким образом построение лингвистического аппарата системы распознавания речи сводится к построению фреймов, представляющих собой последовательность уровней обработки сигнала. Каждый из них характеризуется исключительно своими правилами, и законами из разных отраслей наук - акустика, лингвистика, физики, математика и других. При построении системы распознавания речи как фреймовой модели, каждый из этих уровней будет представлять собой отдельный фрейм, решающий свои задачи независимо от других.

Кроме того, система распознавания слитной речи требует большого словаря и текстовой базы для обучения. Поэтому одним из важных уровней работы системы является ее обучение.

Нейросетейвое распознавание строится на основе пофонемного анализа. Был предложен метод выработки меры сходства фрагмента речевого сигнала той или иной фонеме. Для этого в системе реализовано N нейросетевых аппроксиматоров, которые соответствуют фонемам естественного языка. Т.е. параллельно выделенные сегменты подавались на вход каждому нейросетевому аппроксиматору и каждый аппроксиматор прогнозировал следующее значение которое сравнивалось с реальным значением и на следующем уровне формировалась погрешность отклонения После прохождения звукового сигнала по каналам распознавания, принимается заключение о правильности распознавания.

Заключение

На сегодняшний день в области речевых технологий на первый план выходят приложения для новых прикладных областей, таких как сотовая связь, Интернет и других, а также специфические приложения, предназначенные для людей с ограниченными возможностями и больных.

В ходе практики была проведена исследовательская работа в области обработки речи.

Были рассмотрены проблемы:

-проблема идентификации пользователя по голосу;

- невозможность полностью подавить внешний шум;

-повышение точности распознания слитной речи;

-чувствительность систем к речевым оборотам диктора.

Система распознавания слитной речи является многоуровневой сложной системой. Ее построение требует тщательного анализа правил и методов, которые используются на каждом из ее уровней. Каждый из уровней использует свои методы, алгоритмы, входные данные. Сложность системы, большое количество данных, которые необходимо обработать, и необходимость принятия экспертного решения обуславливает выбор метода ее построения как экспертной системы, каждый узел которой является фреймом, который характеризуется своими правилами, методами, алгоритмами и данными.

DTW алгоритмы являются очень полезными для распознавания отдельных слов в ограниченном словаре. Для распознавания беглой речи используются скрытые модели Маркова. Использование динамического программирования обеспечивает полиминальную сложность алгоритма: О (n2v), где n - длина последовательности, а v количество слов в словаре. DWT имеют несколько слабых сторон. Во-первых, O (n2v) сложность не удовлетворяет большим словарям, которые увеличивают успешность процесса распознавания. Во-вторых, трудно вычислить два элемента в двух разных последовательностях, если принять во внимание, что существует множество каналов с различными характеристиками. Тем не менее, DTW остается простым в реализации алгоритмом, открытым для улучшений и подходящим для приложений, которым требуется простое распознавание слов: телефоны, автомобильные компьютеры, системы безопасности и т.д.

Был рассмотрен один из возможных подходов к разработке системы распознавания слитной речи, учитывающей особенности языка и произношения.

Нейронные сети являются одним из наиболее перспективных методов распознавания речи. Данный метод позволяет подобрать топологию нейронной сети под решение конкретной задачи и позволяет оперировать с большим количеством слов в словаре без повышения трудоемкости процесса распознавания. Нейронные сети имеют гибкий аппарат обучения, позволяющий настроить сеть наилучшим образом для решения требуемой задачи.

Список использованных источников

Основная литература

1 Ли И.В., Ронжин А.Л. Проектирование систем речевого диалога // Труды СПИИРАН. Вып. 3, т. 1 -- СПб.: Наука, 2006.

2. Мазуркевич А.М. РНР: Настольная книга программиста / А.М. Мазуркевич, Е.С. Еловой .-- 2-е изд., испр. -- М.: Новое знание, 2006 .-- 495с. : ил.

3. ГОСТ 7.32-2017 СИБИД. Отчет о научно-исследовательской работе. Структура и правила оформления (с Поправкой).

4. Russell E. Henning, Chaitali Chakrabarti. High-Level Design Synthesis of a Low Power, VLIW Processor for the IS-54 VSELP Speech Encoder. Proceedings of the 1997 International Conference on Computer Design (ICCD '97).

5. Y. Yatsuzuka, S. Lizuka, T. Yamazaki. A Variable Rate Coding by APC with Maximum Likelihood Quantization from 4.8 kbit/s to 16 kbit/s. Proc. IEEE ICASSP, 1986, pp. 3071-3074.

6. P. Jacobs, W. Gardner. "QCELP": A Variable Rate Speech Coder for CDMA Digital Cellular Systems. // Speech and Audio Coding for Wireless and Network Applications, edited by B.S. Atal, V. Cuperman and A. Gersho, Kluwer Academic Publishers, 1993.

7. J.H. James, Bing Chen, Laurie Garrison. Implementing VoIP: A Voice Transmission Performance Progress Report // IEEE VOICE OVER IP AND QUALITY OF SERVICE, Vol.42, № 7, July 2004, pp. 36-41.

Периодические издания

1. Пугач Анастасия Сергеевна,” Информационные технологии” журнал “Молодой учёный”№26(130)декабрь2016г.

2. Петрушенко А.А., Петрушенко Р.В. Речевые технологии -- следующий уровень сервиса [Текст] // Технические науки в России и за рубежом: материалы V Междунар. науч. конф. (г. Москва, январь 2016 г.). -- М.: Буки-Веди, 2016. -- С. 6-8.

3. Казачкин А.Е. Методы распознавания речи, современные речевые технологии // Молодой ученый. -- 2019. -- №39. -- С. 6-8.

Интернет-ресурсы

1. Control Engineering

2. Форум ЦИТ. Базы данных

3. Олифер, В.Г. Основы сетей передачи данных

4. Семенов, Ю.А. Телекоммуникационные технологии

5. Studyport

6. Jason Woodard. Introduction to speech coding plus information on a series of speech coding standards.

Размещено на Allbest.ru

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.