Обзор систем распознавания голоса

История систем распознавания голоса, их классификация, архитектура и этапы распознавания. Рассмотрение популярных в настоящее время систем распознавания голоса: Yandex SpeechKit, Google Speech API, Siri. Приводятся недостатки и достоинства таких систем.

Рубрика Коммуникации, связь, цифровые приборы и радиоэлектроника
Вид статья
Язык русский
Дата добавления 18.08.2018
Размер файла 18,6 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Электронный научно-практический журнал «МОЛОДЕЖНЫЙ НАУЧНЫЙ ВЕСТНИК» ИЮЛЬ 2016

ТЕХНИЧЕСКИЕ НАУКИ

Размещено на http://www.allbest.ru/

Электронный научно-практический журнал «МОЛОДЕЖНЫЙ НАУЧНЫЙ ВЕСТНИК» ИЮЛЬ 2016

ТЕХНИЧЕСКИЕ НАУКИ

ОБЗОР СИСТЕМ РАСПОЗНАВАНИЯ ГОЛОСА

Галимов Р.З.

МГТУ им. Н. Э. Баумана, кафедра «Системы обработки информации и управления» E-mail: delfin1995@rambler.ru

В работе приводится история систем распознавания голоса, их классификация, архитектура и этапы распознавания. Также в работе рассматриваются популярные в настоящее время системы распознавания голоса. Приводятся недостатки и достоинства таких систем.

Ключевые слова: распознавание голоса, информационные технологии, автоматизация

The work presents the history of systems of voice recognition, their classification, architecture and stages of recognition. The work also discusses popular in present system voice recognition. There are the advantages and disadvantages of such systems.

Keywords: voice recognition, information technology, automatization

Введение. Сейчас довольно сложно представить нашу жизнь без интернета. Интернет является для многих компаний средой, которая позволяет расти и развиваться бизнесу практически всех сфер жизни общества. Голос, наряду с классическим веб-интерфейсом, может выступать в роли платежного средства. В век информационных технологий очень ценится умение автоматизировать любые процессы жизнедеятельности человека, в том числе любые монотонные операции на сайте.

В данной статье приведена история создания и обзор систем распознавания голоса. Также было сосредоточено внимания на наиболее используемых таких системах.

История систем распознавания голоса. В 1952 году появилось первое устройство для распознавания речи. Это устройство могло распознавать цифры, произнесенные человеком.

В начале 90-х годов начали появляться коммерческие программы по распознаванию речи. Обычно они использовались людьми, которые не могли набирать большое количество текста из-за травмы руки. Такие программы как Dragon NaturallySpeaking, VoiceNavigator переводили речь в текст. Руки пользователя при этом не работали. Эти программы обладали невысокой надежностью перевода, но со временем она постепенно улучшалась.

Вскоре была увеличена вычислительная мощность мобильных устройств. Это позволило начать создавать для таких устройств программы с функцией распознавания речи. Необходимо особо отметить приложение Microsoft Voice Command. Это приложение с помощью голоса позволяет работать с большим числом других приложений: включает воспроизведение музыки на плеере или создает новый документ.

Распознавание речи становится популярным в бизнесе, в медицине, в быту. Врач может вносить диагнозы в электронную карточку с помощью голоса, а дома можно голосом выключать свет или открывать окно. В телефонах распознавание и синтез речи также часто используется: тоновый набор отходит на второй план, так как имеют место быть голосовые команды. Голосовые команды при этом распознаются независимо от диктора: воспринимают голос любого человека. [2]

Классификация систем распознавания голоса

Системы распознавания речи классифицируются:

- по размеру словаря (ограниченный набор слов, словарь большого размера);

- в зависимости от диктора (дикторозависимые и дикторонезависимые системы);

- по типу речи (слитная или раздельная речь);

- по назначению (системы диктовки, командные системы);

- по используемому алгоритму (нейронные сети, скрытые Марковские модели, динамическое программирование);

- по типу структурной единицы (фразы, слова, фонемы, дифоны, аллофоны);

- по принципу выделения структурных единиц (распознавание по шаблону, выделение лексических элементов).

Описание работы систем распознавания голоса

Для систем распознавания речи, помехозащищённость обеспечивается посредством использования двух механизмов:

- Используются несколько параллельно работающих способов выделения одинаковых элементов речевого сигнала на базе анализа акустического сигнала;

- Независимое параллельное использование сегментного и целостного восприятия слов в потоке речи. [3, 4]

Наиболее часто встречающаяся архитектура статистических систем автоматической обработки речи выглядит следующим образом:

1. Модуль шумоочистки и отделение полезного сигнала.

2. Акустическая модель, которая позволяет оценить распознавание сегмента речи с точки зрения схожести на уровне звука. Для каждого звука вначале строится непростая статистическая модель, которая описывает произношение этого звука в речи. [3, 4]

3. Языковая модель, которая позволяют определить наиболее вероятностные последовательности слов. Сложность построения языковой модели в большинстве случаев зависит от конкретного языка. Например, для английского языка, будет достаточно использовать статистические модели (так называемые N-граммы). Для языков, в которых существует много форм одного и того же слова (к ним относится и русский язык), языковые модели, построенные с использованием только статистики, уже не дают должного эффекта -- требуется слишком много данных для того, чтобы достоверно оценить статистические связи между словами. Поэтому применяются гибридные языковые модели, использующие правила русского языка, информацию о частях речи и формах слова и классическую статистическую модель. [5]

4. Декодер -- это программный компонент системы распознавания. Этот компонент совмещает данные, получаемые в ходе распознавания языковых и акустических моделей, и на основании их объединения, определяет наиболее вероятностную последовательность слов, которая является итоговым результатом распознавания слитной речи.

Этапы распознавания

Ниже представлены этапы распознавания систем:

1. Вначале оценивается качество речевого сигнала, определяется уровень помех и искажений.

2. Результат оценки в п.1 поступает в модуль акустической адаптации. Этот модуль управляет модулем расчета параметров речи, которые необходимы для распознавания.

3. В сигнале выделяются участки, в которых присутствует речь. Потом происходит оценивание параметров речи. Далее выделяются фонетические и просодические вероятностные характеристики для синтаксического, семантического и прагматического анализа. (Это является оценкой информации о части речи, форме слова и статистике связей между словами.)

4. Затем параметры речи переходят в декодер. Декодер определяет наиболее вероятную последовательность слов, которая и будет итоговым результатом распознавания. [2]

Yandex SpeechKit

Yandex SpeechKit - это комплекс речевых технологий Яндекса, который включает распознавание и синтез речи, голосовую активацию и выделение смысловых объектов в произносимом тексте. [1]

Преимущества:

- Голосовая активация (экономия трафика)

- Распознавание (94% правильно распознанных слов) Недостатки:

- Задержка более секунды

- Стоимость: 400 р./ 1000 запросов

- Закрытый исходный код

- Необходимость встраивания в сайт «с нуля», в том числе контроль всех входных/выходных данных

- Зависимость от интернет-канала до серверов Yandex.

Google Speech API

Данный продукт является разработкой Google.

Преимущества:

- Возможности Google позволили им построить распознавание на основе машинного обучения при выборке в миллиарды реальных слов. Что гарантирует качество.

Недостатки:

- Согласно договору использования, Google не несет никакой ответственности, в случае неправильного распознавания

- Зависимость от интернет-канала до серверов Google.

- Договорные отношения. Официально нельзя заключить договор об оказании услуг. В любой момент они могут отказаться от предоставления услуг.

- Безопасность. Согласно современному законодательству РФ - Вы не можете обрабатывать персональные данные пользователя на серверах третьих стран мира. [1]

Siri

Данный продукт является разработкой Apple. Работает на смартфонах с операционной системой IOS.

Преимущества:

- Высокое качество распознавания

- Позволяет использовать на мобильных устройствах голосовое распознавание - Недостатки:

- Согласно договору использования, Apple не несет никакой ответственности, в случае неправильного распознавания

- Зависимость от интернет-канала до серверов Apple.

- Договорные отношения. Официально нельзя заключить договор об оказании услуг. В любой момент они могут отказаться от предоставления услуг.

- Безопасность. Согласно современному законодательству РФ - Вы не можете обрабатывать персональные данные пользователя на серверах третьих стран мира. [1]

Заключение. Была описана история и работа систем распознавания голоса. Был приведен обзор популярных в настоящее время систем распознавания речи. Данный обзор должен помочь в совершенствовании существующих систем и при разработке новых.

Список литературы

система распознавание голос

1. Жожикашвили В.А., Билик Р.В., Вертлиб В.А. Открытые системы массового обслуживания с распознаванием речи // Проблемы управления. Сенсидат-Плюс. Электрон. журн. 2003. №4. Режим доступа: http://elibrary.ru/item.asp?id=9170066 (дата обращения 20.05.2016)

2. Кутуков Г.П., Матюнин С.Н. Состояние исследований в академических и учебных институтах страны в области автоматического распознавания и синтеза речи // Наука и Образование. МГТУ им. Н.Э.Баумана Электрон. журн. 2005. №5. Режим доступа: http://technomag.bmstu.ru/doc/50858.html (дата обращения 20.05.2016)

3. Рабинер Л. Р., Гоулд Б. Теория и применение цифровой обработки сигналов: Пер. с англ./Под ред. Александрова Ю. Н. - М.: Мир, 1978. -848 с.

4. Рабинер Л. Р., Шафер Р. В. Цифровая обработка речевых сигналов: Пер. с англ./Под ред. М. В. Назарова и Ю. Н. Прохорова. - М.: Радио и связь, 1981.-496 с.

5. Саакян А.А. Исследование свойств показателей качества систем распознавания речи. // Проблемы управления. Сенсидат-Плюс. Электрон. журн. 2009. №4. Режим доступа: http://elibrary.ru/item.asp?id=12860831 (дата обращения 21.05.2016)

Размещено на Allbest.ru

...

Подобные документы

  • Цифровая обработка сигналов и ее использование в системах распознавания речи, дискретные сигналы и методы их преобразования, основы цифровой фильтрации. Реализация систем распознавания речи, гомоморфная обработка речи, интерфейс записи и воспроизведения.

    дипломная работа [1,1 M], добавлен 10.06.2010

  • Рассмотрение основных этапов в решении задачи оптимизации приема сигнала. Изучение методов фильтрации и оптимизации решений. Вероятностный подход к оценке приёма сигнала; определение вероятности ошибок распознавания. Статические критерии распознавания.

    презентация [3,0 M], добавлен 28.01.2015

  • Распознавание объектов наблюдения необходимо для определения значимости или опасности с целью принятия адекватных мер воздействия. Основы решения задач распознавания. Радиолокационные системы отличия. Ансамбли распознаваемых портретов. Картинный портрет.

    реферат [1,6 M], добавлен 28.01.2009

  • Ансамбли различаемых сигналов - группы M однородных сигналов. Условие различимости сигналов - их взаимная ортогональность. Правило задачи распознавания-различения по аналогии с задачей обнаружения. Задачи обнаружения по критерию минимума среднего риска.

    реферат [1,0 M], добавлен 28.01.2009

  • Понятие и определение биометрических признаков, примеры самых эффективных методов идентификации по сетчатке глаза и отпечаткам пальцев. Функции, характеристика и преимущества биометрических систем защиты. Выбор программ распознавания и Face-контроля.

    презентация [478,6 K], добавлен 13.02.2012

  • Применение систем IP-телефонии. Интеграция телефонии с сервисами Интернета. Передача голоса по сети с помощью персонального компьютера. Совместимость мобильных номеров. Минимальная стоимость звонка. Номера экстренных вызовов. Регистрация IP-устройства.

    творческая работа [1,3 M], добавлен 05.06.2012

  • Согласование различных сценариев IP-телефонии. Осуществление передачи голоса и видеоизображения с помощью IP-телефонии. Способы осуществления просмотра изображения, которое передается собеседнику. Размер звуковых буферов и задержка вызова абонента.

    контрольная работа [1,7 M], добавлен 20.02.2011

  • Конструкция и характеристика устройства изменения голоса. Расчет габаритов печатной платы, показателей надежности и качества, ударопрочности печатной платы электронного узла, потребляемой мощности устройства. Технико-экономическое обоснование проекта.

    дипломная работа [1,4 M], добавлен 12.10.2015

  • Состояние проблемы автоматического распознавания речи. Обзор устройств чтения аудио сигналов. Архитектура системы управления периферийными устройствами. Схема управления электрическими устройствами. Принципиальная схема включения электрических устройств.

    дипломная работа [1,1 M], добавлен 18.10.2011

  • Классификация адаптивных систем. Достоинства и недостатки типов и классов адаптивных, самонастраивающихся систем. Разработка оригинальной схемы адаптивной системы. Системы со стабилизацией основного контура, идентификатором или уточняемой моделью объекта.

    статья [327,2 K], добавлен 24.07.2013

  • Сложность проведения мероприятий по противодействию террористическим угрозам. Программы развития системы радиосвязи органов внутренних дел. Характеристика систем радиосвязи ОВД. Радиотелефонная система общего пользования, сотовая и радиорелейная связь.

    реферат [31,0 K], добавлен 27.03.2009

  • Преимущества биометрических систем аутентификации. Обоснование актуальности и техническая характеристика технологии VoiceKey. Состояние рынка систем идентификации в настоящее время. Оценка стоимости разработки проекта, анализ рынков сбыта и реализации.

    курсовая работа [1,9 M], добавлен 31.03.2013

  • Основные внешние показатели качества: достоверность распознавания музыкального звука, быстродействие (время отклика) и ресурсоемкость. Внутренние параметры устройства. Свойства вычислительного ядра процессора. Формирование базы знаний, анализ результатов.

    курсовая работа [88,9 K], добавлен 07.01.2011

  • История появления и классификация систем видеоконференцсвязи. Аппаратные, программные, специализированные, стационарные телекоммуникационные технологии интерактивного взаимодействия. Сравнение основных систем начального уровня: Sony, Polycom, Tandberg.

    отчет по практике [22,7 K], добавлен 07.04.2013

  • Системы цифровой радиосвязи: базовые методы и характеристики. Классификация систем массового обслуживания. Модели систем массового обслуживания. Математическое введение в теорию цепей Маркова. Системы и сети передачи информации. Стационарный режим.

    реферат [176,8 K], добавлен 22.11.2008

  • Режимы работы, типы технических средств телевизионных систем видеонаблюдения, этапы и алгоритм проектирования. Параметры выбора монитора и наиболее популярных устройств регистрации. Классификация камер, особенности внутреннего и внешнего монтажа.

    реферат [1,1 M], добавлен 25.01.2009

  • Рассмотрение принципов организации Deep Packet Inspection в телекоммуникации. Проведение исследований нейронных сетей. Выбор оптимальной модели для решения задач классификации мультимедийного трафика. Изучение вопросов безопасности жизнедеятельности.

    дипломная работа [1,0 M], добавлен 22.06.2015

  • Общая классификация систем и сетей радиодоступа. Классификация систем радиодоступа по параметрам и характеристикам радиоинтерфейса. Системы с аналоговой и цифровой передачей. Услуги цифровой передачи речи. Классификация по решаемым прикладным задачам.

    реферат [49,3 K], добавлен 06.10.2010

  • Классификация систем управления (СУ) машиностроительным оборудованием. Архитектура СУ на базе микропроцессорных комплектов фирм DEC и Motorola. Программное обеспечение СУ и программируемых контроллеров. Графический язык программирования Ladder Diagram.

    курс лекций [374,5 K], добавлен 22.11.2013

  • Классификация систем синхронизации, расчет параметров с добавлением и вычитанием импульсов. Построение кодера и декодера циклического кода, диаграммы систем с обратной связью и ожиданием для неидеального обратного канала, вычисление вероятности ошибок.

    курсовая работа [611,4 K], добавлен 13.04.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.