Распознавание и обработка речи
Процесс, в котором происходит сравнение звуков с помощью процесса distance measurement. Получение неутверждённого вывода. Введение голоса в систему распознавания звуковых сигналов h/w и s/w. Отпечатки системы защиты, образования, контроля и диагностики.
Рубрика | Коммуникации, связь, цифровые приборы и радиоэлектроника |
Вид | статья |
Язык | русский |
Дата добавления | 09.04.2016 |
Размер файла | 219,2 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Распознавание и обработка речи
Марей Раад Али Салех
студент 3 курса, институт инженерных
технологий и естественных наук,
НИУ БелГУ, РФ, г. Белгород
Двадцать лет назад, появились первые системы распознавания речи. В те время, мечтой всех программистов и разработчиков была найти любой способ для того чтобы разговаривать с компьютером. Этот способ стал не только методом для помощи тех, которых сталкиваются с проблемами в использовании клавиатуры или компьютерных мышей, но и способ для благополучия людей и в пользу человечества.
Обработка речи одна из отраслей компьютерной науки, и для того чтобы компьютер обрабатывал речи, он должен в начале распознать её (speech recognition). звук распознавание защита сравнение
Система распознавания речи (speech recognition system) выполнить три процессы со времени подачи речи на компьютер до обработки его до получения выгод этой речи: Pre-processing, Recognition и Communication.
Pre-processing - это процессы которые превосходят обработки речи, эти процессы преобразует входящую речь в форму, знакомую для recognizer.
Recognizer представляется в двух формах: s/w & h/w. s/w - это программы предназначены для работы с звуковыми сигналами и их распознавания. h/w - это сам компьютер. Поэтому для обработки звуковых сигналов, компьютер выполнить процесс pre-processing, этот процесс предназначен для преобразования звуков в двоичную форму.[1]
Когда человек введет речь через микрофон, то эти звуки представляются в виде аналоговый или непрерывный (рис. 1). В аналоговом сигнале есть значение для каждого момента времени доже если человек молчит и ничего не говорит (шум).
Компьютер преобразует аналоговый сигнал в дискретный, затем в двоичный сигнал, потому двоичная форма - это единственная форма с которым работает компьютер. После этого начинает процесс quantization.
Quantization - это процесс взятия значения, расположенные между каждыми двумя уровнями, этот процесс называется threshod. Эти значения в десятичной форме, после этого эти значения переводят в 0 и 1. [3]
Размещено на http://www.allbest.ru/
Рисунок 1. Процесс квантования
Recognition разделяется на identification и verification.
1. Identification - это процесс, в котором происходит сравнения звуков используя процесс distance measurement, в результате которого получим не утверждённый вывод.
Например, есть группа студентов между ними студентка уже записали её голос или взяли отпечатку её голоса раньше, и он у нас в двоичном форме, и хотим знать есть ли она в этой группе, то мы сравним её сохраненный голос с голосом каждого студента этой группы, и если нашли совпадение с голосом одного из этих студентов, то можем сказать, что это она. Но в этом случае мы не уверены сто процентов что она, поэтому используется процесс verification.
2. verification - это процесс проверки, возьмём отдельно отпечатку голоса, в котором не уверены, что он именно голос той студентки, и поверим ещё раз он или нет. Этими заканчивается процесс recognition.[3]
Communication - это процесс введения введенного распознаваемого голоса из систем распознавания в системы h/w и s/w. Можно использовать эти отпечатки в системы защиты, образования, контроля и диагностики.
При распознавании речи существуют шум, и этот шум ухудшает работы систем распознавания речи, и невозможно его отфильтровать, потому что он распространяется по всему сигналу (white noise). [4]
Размещено на http://www.allbest.ru/
Рисунок 2 - Сигнал с шумом.
После распознавания речи идёт процесс его обработки, процесс обработки речи заключается в следующим:
1. Собирание данных и их приобретение (data collection & acquisition)
Это процесс, в котором записываются звуки в памяти программы, в виде с которым компьютер может работать.
2. Обнаружение слышные и неслышные звуки (voiced & unvoiced detection)
В речи есть слышные с большей амплитудой и неслышные звуки с маленькой амплитудой, их амплитуда близко к амплитуде шума (noise) и с zero crossing много пересекаются, и для того чтобы различать voiced и unvoiced sounds есть понятие zero crossing. Zero crossing - это количество пересечений аналоговой формы буквы с горизонтальной осью. [5]
3. определить начало и конец предложений (end-point detection)
Как и сказал раньше, что при разговоре есть моменты молчание между словами и предложениями и в этих моментах есть слабые сигналы (шум) и для того чтобы упростить обработки и процесс вычисления данных избавим от этих шумов используя фильтр.
4. Time wrapping
Например, если три студентки, произносили слова "Raad" то время и длина произносимое слова отличается. Поэтому используются специальные алгоритмы для их выравнивания и для того чтобы достичь нужный смысл слова.
Размещено на http://www.allbest.ru/
Рисунок 3 - Time wrapping.
5. framming
Во время произнесения буквы, все органы произношения станут в положении покоя, это явление не заметное и происходит в течении 20 milliseconds. Поэтому в речи происходит покой каждый 20 milliseconds и это незначительное время, поэтому разделим речь на frames, где каждый frame равно 20 milliseconds. После этого с каждого frame возьмём sample, для определения свойства это frame (это лучше, чем взять весь frame, потому, что это уменьшить количество операций и время обработки). [2]
Размещено на http://www.allbest.ru/
Рисунок 4 - framing.
6. windwing
В этом процессе уменьшаем ошибки, которые возникают из-за разделения речи на frames путём поставить на каждом frame окно "window", где каждый window пресекается с предыдущим на 50% и со следующим на 50%.[5]
Размещено на http://www.allbest.ru/
Рисунок 4 - windwing.
7. modeling:
Проблема речевого сигнала, это в том, что компьютер не может работать с аналоговым сигналом, поэтому опишем его всеми устойчивыми чертами (features) это называется modeling.
8. feature extraction:
Способы распознавания речи:
1. Isolated word recognition (IWR):
Это самый простой метод распознавания, потому что мы не сталкиваемся с проблемой co-articulation (co-articulation - это процесс встречи конец слова с началом следующего слова), где он распознаёт разделённые изолированные слова друг от друга.
2. Connected word recognition (CWR):
Распознаёт речи, но с паузой (stop) после каждого слова речи.
3. Continuous speech recognition (CSR):
Это самый сложный способ, и в нем ещё много проблем до сих пор.
4. Speech understanding (SU):
Это процесс распознавания речи, используя специальных приводчиков.
5. Speech identification (SI) & speech verification (SV).
6. Word stopping (WS):
Это способ ищет ключевые слова в предложении, для того, чтобы понять смысл предложения.[2]
Стоит отметить, что процессы распознавания и обработки речи происходят в очень короткое время, и это зависит от свойств систем. Распознавания и обработка речи ещё современная наука, и она сталкивается с проблемами шума, скорости обработки, недостатков систем распознавания и обработки, поэтому, разработчики ищут способы предотвращения этих проблем, путём улучшения алгоритмов распознавания и обработки речи и ищут способы для развивать программ и систем обработки речи.
Список литературы
1. Галунов В.И. Современные проблемы в области распознавания речи / [электронный ресурс] - режим доступа: - URL: http://auditech.ru/page/darkness.html (дата обращения: 12.03.2016).
2. Speech processing / / [электронный ресурс] - режим доступа: - URL: http://www.boosla.com/showArticle.php?Sec=Misc&id=57 / (дата обращения: 29.02.2016).
3. Speech processing Technology / / [электронный ресурс] - режим доступа: - URL:http://www.ye1.org/forum/threads/386110/ (дата обращения: 29.02.2016).
4. Speech recognition / / [электронный ресурс] - режим доступа: - URL:http://www.ye1.org/forum/threads/386110/ (дата обращения: 29.02.2016).
5. Speech recognition system / / [электронный ресурс] - режим доступа: - URL:http://www.ye1.org/forum/threads/386110/ (дата обращения: 29.02.2016).
Размещено на Allbest.ru
...Подобные документы
Цифровая обработка сигналов и ее использование в системах распознавания речи, дискретные сигналы и методы их преобразования, основы цифровой фильтрации. Реализация систем распознавания речи, гомоморфная обработка речи, интерфейс записи и воспроизведения.
дипломная работа [1,1 M], добавлен 10.06.2010Распознавание объектов наблюдения необходимо для определения значимости или опасности с целью принятия адекватных мер воздействия. Основы решения задач распознавания. Радиолокационные системы отличия. Ансамбли распознаваемых портретов. Картинный портрет.
реферат [1,6 M], добавлен 28.01.2009Ансамбли различаемых сигналов - группы M однородных сигналов. Условие различимости сигналов - их взаимная ортогональность. Правило задачи распознавания-различения по аналогии с задачей обнаружения. Задачи обнаружения по критерию минимума среднего риска.
реферат [1,0 M], добавлен 28.01.2009Состояние проблемы автоматического распознавания речи. Обзор устройств чтения аудио сигналов. Архитектура системы управления периферийными устройствами. Схема управления электрическими устройствами. Принципиальная схема включения электрических устройств.
дипломная работа [1,1 M], добавлен 18.10.2011Рассмотрение основных этапов в решении задачи оптимизации приема сигнала. Изучение методов фильтрации и оптимизации решений. Вероятностный подход к оценке приёма сигнала; определение вероятности ошибок распознавания. Статические критерии распознавания.
презентация [3,0 M], добавлен 28.01.2015Согласование различных сценариев IP-телефонии. Осуществление передачи голоса и видеоизображения с помощью IP-телефонии. Способы осуществления просмотра изображения, которое передается собеседнику. Размер звуковых буферов и задержка вызова абонента.
контрольная работа [1,7 M], добавлен 20.02.2011Канал передачи дискретных сообщений. Межсигнальная интерференция сигналов в канале. Решение с помощью системы Mathcad. Решение системы уравнений по формуле Крамера. Максимальный модуль разности между ожидаемым и полученным сигналом.
контрольная работа [67,4 K], добавлен 26.01.2007Основные внешние показатели качества: достоверность распознавания музыкального звука, быстродействие (время отклика) и ресурсоемкость. Внутренние параметры устройства. Свойства вычислительного ядра процессора. Формирование базы знаний, анализ результатов.
курсовая работа [88,9 K], добавлен 07.01.2011Построение структурной схемы датчиков и разработка микроконтроллерной системы обеспечения безопасности. Описание интерфейса системы, считывание и обработка данных с помощью сканирования отпечатков пальцев. Использование клавиатуры для ввода пароля.
дипломная работа [3,8 M], добавлен 04.02.2016Моделирование алгоритма выделения огибающей сложных периодических сигналов и получение первичных признаков различных звуков, их использование в системах идентификации и верификации. Анализ безопасности разработки при её эксплуатации; определение затрат.
дипломная работа [3,7 M], добавлен 23.09.2011Общее понятие и классификация сигналов. Цифровая обработка сигналов и виды цифровых фильтров. Сравнение аналогового и цифрового фильтров. Передача сигнала по каналу связи. Процесс преобразования аналогового сигнала в цифровой для передачи по каналу.
контрольная работа [24,6 K], добавлен 19.04.2016Понятие и определение биометрических признаков, примеры самых эффективных методов идентификации по сетчатке глаза и отпечаткам пальцев. Функции, характеристика и преимущества биометрических систем защиты. Выбор программ распознавания и Face-контроля.
презентация [478,6 K], добавлен 13.02.2012Структурные схемы гомоморфной обработки и анализа речевых сигналов. Комплексный кепстр речи. Компонент речевого сигнала. Период основного тона и частоты формант. Модуль передаточной функции речевого тракта. Оценивание основного тона на основе кепстра.
реферат [297,1 K], добавлен 19.11.2008Процесс дискретизации сигнала, заданного аналитически. Преобразование сигнала в цифровую форму с помощью аналого-цифровых преобразователей. Дискретизация непрерывных сигналов, их квантование по уровню. Расчет коэффициентов для низкочастотного фильтра.
курсовая работа [755,5 K], добавлен 11.02.2016Анализ аппаратуры, которая используется в спектрофотометрии. Кривые флуоресценции сыворотки крови и жирорастворимых витаминов. Изучение инициированной хемилюминесценции. Сравнение методов спектрофотометрии. Исследование физики фотобиологических явлений.
дипломная работа [9,1 M], добавлен 08.07.2016Разработка методов преобразования (шифрования) информации для защиты от незаконных пользователей. Классические шифры, математические модели и критерии распознавания открытого текста. Частотный анализ английских текстов. Шифр столбцовой перестановки.
учебное пособие [1,3 M], добавлен 19.09.2009Определение и виды искусственных нейронных сетей. Функция активации. Биологический нейрон. Персептрон как инструмент для классификации образов. Классификация объектов с помощью нейронной сети. Нормализация входных сигналов. Алгоритм работы в MatlabR2009b.
курсовая работа [349,7 K], добавлен 17.03.2016Речевая информация – информация, распространение которой осуществляется посредством звуковых (аккустических), вибрационных, электромагнитных сигналов. Условия для образования утечек в среде. Утечка информации по аккустическим и виброаккустическим канала.
реферат [202,7 K], добавлен 18.12.2008Использование спектра в представлении звуков, радио и телевещании, в физике света, в обработке любых сигналов независимо от физической природы их возникновения. Спектральный анализ, основанный на классических рядах Фурье. Примеры периодических сигналов.
курсовая работа [385,8 K], добавлен 10.01.2017Сигналы и их характеристики. Линейная дискретная обработка, ее сущность. Построение графиков для периодических сигналов. Расчет энергии и средней мощности сигналов. Определение корреляционных функций сигналов и построение соответствующих диаграмм.
курсовая работа [731,0 K], добавлен 16.01.2015