К вопросу о распознавании букв в слитной русской речи

Использование речевых технологий в качестве альтернативного средства взаимодействия между человеком и различными электронными устройствами. Особенности применения акустических и языковых моделей в распознавании фраз и отдельных участков русской речи.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 25.11.2016
Размер файла 90,0 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Стерлитамакский филиал Башкирского государственного университета

К ВОПРОСУ О РАСПОЗНАВАНИИ БУКВ В СЛИТНОЙ РУССКОЙ РЕЧИ

Антипин Андрей Федорович

кандидат технических наук,

доцент кафедры прикладной информатики

и программирования

Статья посвящена вопросам компьютерного распознавания букв в слитной русской речи и способам их решения.

Ключевые слова: звук, многомерный интервально-логический регулятор, программное обеспечение, распознавание речи

В современном обществе использование речевых технологий в качестве альтернативного средства взаимодействия между человеком и различными электронными устройствами уже не является чем-то необычным. Речевые средства взаимодействия дают возможность разрабатывать более дружественные пользовательские интерфейсы, а также максимально миниатюризировать современные средства связи и управления.

С момента появления первых компьютеров ученые работают над решением проблемы автоматического распознавания речи. За эти годы были разработаны различные методы распознавания, созданы работоспособные системы для английского, китайского и целого ряда европейских языков, дающие достаточно высокий процент распознавания. Однако в настоящее время не существует коммерчески успешных систем для распознавания слитной русской речи.

С целью стимулирования исследований в области речевых технологий в России и СНГ международной компанией «Центр речевых технологий» и Санкт-Петербургским национальным исследовательским университетом информационных технологий, механики и оптики в 2013 г. был объявлен конкурс «Родная речь - 2013» с главным призом в сто тысяч рублей. Задача конкурсантов заключалась в разработке прототипа системы распознавания слитной русской речи за один месяц. Подобные конкурсы еще больше подчеркивают важность исследований в этом направлении.

Большинство известных методов распознавания слитной русской речи основаны на применении акустических и языковых моделей в распознавании фраз и отдельных участков речи, в то время как цифровая (битовая) составляющая сигнала остается без внимания. Звук в цифровом виде представляет собой некоторую последовательность нулей и единиц, или битов, проанализировав которую можно составить аналитические выражения и математическую модель для его распознавания. Так в любом звуковом файле T можно выделить: минимальный Tmin и максимальный Tmax элементы, наиболее часто встречающийся элемент Tч, среднее значение Tср элементов последовательности и т. д. речь распознавание фраза акустический

При цифровом анализе записей отдельных букв также возникает ряд проблем. Во-первых, необходимо согласовать распределение битов со скоростью произнесения той или иной буквы, т. е. перед проведением анализа файлов необходимо нормировать их по скорости, либо выявлять закономерности в очередности следования битов, независящие от скорости произнесения звуков. Второй проблемой является влияние эмоциональной окраски на цифровой состав файла. Очевидно, что записи одних и тех же звуков, произнесенных под влиянием разных эмоций, будут иметь различный битовый состав. Таким образом, предстоит вычленить отдельные биты или последовательности битов, которые не зависят от эмоциональной окраски речи. Кроме того, нужно учитывать наличие индивидуальных особенностей речи каждого диктора [1, 2].

В связи с вышесказанным, предлагается следующий способ распознавания гласных букв в слитной русской речи, который основан на использовании возможностей многомерного нечеткого интервально-логического регулятора, разработанного автором, принцип работы которого приведен в статьях [3, 4].

Схема системы распознавания речи приведена на рис. 1.

Рисунок 1 Схема системы распознавания речи

Для подготовки файлов, содержащих гласные звуки, предлагается проведение следующего эксперимента.

В помещении с допустимым уровнем шума и стандартной акустикой производится запись гласных звуков русского языка, произносимых несколькими дикторами. Каждый гласный звук произносится диктором несколько раз, при этом варьируется скорость произнесения, громкость и эмоциональная окраска. Таким образом, создается банк записей, которые предстоит проанализировать с помощью разрабатываемой программы. По результатам анализа полученные последовательности битов сравниваются между собой и выводится некий усредненный цифровой код каждого гласного звука.

Порядок анализа файла, содержащего звуковой фрагмент, имеет вид:

1. Производим интервализацию файла, то есть делим файл на n равных частей, отсекая оставшиеся байты с начала и конца файла, в предположении, что данные байты содержат шум.

Алгоритм интервализации файлов следующий:

а) получаем количество интервалов разбивки n;

б) разбиваем файл на n равных частей. В случае, если размер файла в байтах не делится нацело на n, находим число байт, которые требуется отсечь, это остаток от деления на n. Например, если размер файла - 75 байт, а число интервалов - 7, то остаток от деления равен 5. Далее делим полученный остаток на 2, частное будет равным 2, остаток 1. Тогда

Начало файла = частное + остаток + 1,

Конец файла = размер файла - частное.

Затем разбиваем усеченный файл на n частей.

2. Производим различные методы анализа [5, 6]. Так автором предлагается следующий метод интерпретации файлов, содержащих звуки, в виде последовательности байтов:

- внутри каждого интервала разбивки находим наиболее часто встречающийся байт;

- представляем звук в виде последовательности этих байтов;

- на основании ряда экспериментов находим в каких диапазонах лежат байты внутри каждого интервала для каждого звука, представляющего определенную букву русского алфавита.

Схема интервализации звукового файла представлена на рис. 2, где m - размер звукового файла в байтах; T (1), T (2), …, T (n) - n интервалов разбивки; Tч(1), Tч(2), …, Tч(n) - наиболее часто встречающиеся байты внутри интервалов разбивки T (1), T (2), …, T (n); Tч и Tч` - наиболее часто встречающиеся байты в звуковом файле и в последовательности Tч(1), Tч(2), …, Tч(n) соответственно.

Рисунок 2 Схема интервализации звукового файла в многомерном интервально-логическом регуляторе

На рисунке 3 представлено окно программного обеспечения для анализа звуковых файлов, разработанного автором.

Рисунок 3 Скриншот системы для анализа звуковых файлов

На данном этапе разработки анализатор гласных букв позволяет варьировать количество интервалов разбивки, выявлять часто встречающиеся байты как в целом файле, так и в каждом отдельном интервале, и получать цифровой код звука в виде последовательности байтов, согласно установленному числу интервалов. На следующем этапе предполагается реализовать механизм сравнения цифровых кодов одного и того же гласного звука, полученных в результате анализа записей разных дикторов.

В результате эксперимента гласный звук “а”, записанный одним диктором 10 раз, но c разной скоростью произнесения и эмоциональной окраской, и разбитый на 10 интервалов имеет коды, приведенные в табл. 1.

Таблица 1

Цифровые коды гласного звука “а”

Наиболее часто встречающиеся байты внутри интервалов разбивки (код звука)

1

2

3

4

5

6

7

8

9

10

1

255

249

248

251

251

250

254

253

255

32

2

0

251

251

250

252

251

255

0

255

32

3

82

0

251

250

252

252

251

251

255

255

4

0

252

249

252

252

0

255

255

255

32

5

0

252

253

251

251

251

0

255

255

32

6

255

254

253

253

254

254

254

254

255

32

7

82

255

253

252

248

249

251

255

1

255

8

82

0

250

5

243

248

248

250

0

255

9

255

251

251

250

251

251

251

0

255

32

10

255

251

255

248

251

249

1

0

255

32

Из таблицы 1 видно, что байты гласного звука “а” внутри десятого интервала разбивки принимают всего два значения - 32 и 255; внутри третьего и пятого интервалов лежат в диапазоне значений [248; 255] и [243; 254] соответственно. Значения внутри остальных интервалов колеблются в диапазоне значений целого байта.

Это говорит о том, что необходим более детальный анализ цифровой структуры файлов с увеличением числа интервалов разбивки, как в целом файле, так и внутри отдельных интервалов. Так для описанного выше эксперимента необходима разбивка третьего и пятого интервалов с целью выявления более точных диапазонов значений байтов или для их подтверждения.

Таблицы, полученные в ходе экспериментов, в перспективе позволят получить цифровые коды гласных звуков для русского языка в виде последовательности байтов (или битов).

Библиографический список

1. Антипин А.Ф., Шишкина А.Ф. Об одном пути решения проблемы автоматического распознавания речи // Информационные технологии. Радиоэлектроника. Телекоммуникации. 2012. № 2. Т. 1. С. 48-53.

2. Шишкина А.Ф., Антипин А.Ф. Способ цифрового анализа гласных звуков русского языка // Информационные технологии. Радиоэлектроника. Телекоммуникации. 2013. № 3. С. 369-372.

3. Антипин А.Ф. Особенности программной реализации многомерных логических регуляторов с переменными в виде совокупности аргументов двузначной логики // Автоматизация и современные технологии. 2014. № 2. С. 30-36.

4. Антипин А.Ф. О повышении быстродействия систем интеллектуального управления на базе нечеткой логики // Автоматизация, телемеханизация и связь в нефтяной промышленности. 2013. № 5. С. 22-26.

5. Антипин А.Ф. Способ фаззификации значений непрерывных величин с предсказанием термов в многомерном четком логическом регуляторе // Автоматизация в промышленности. 2013. № 9. С. 65-68.

6. Степашина Е.В., Мустафина Е.А. Численный алгоритм уточнения механизма химической реакции DRGEP-методом // Журнал Средневолжского математического общества. 2011. Т. 12. № 3. С. 122.

Размещено на Allbest.ru

...

Подобные документы

  • Современные тенденции изучения речевых жанров, описание и принципы классификации. Методика описания естественной письменной русской речи по коммуникативно-семиотической модели. Жанровые маркеры естественной письменной русской речи. Образ автора жанров.

    реферат [47,6 K], добавлен 14.08.2010

  • Культура речи. Стили речи. Богатство русской речи. Вкус эпохи и мода. Слово, являясь это первоэлементом языка, играет многогранную роль в речи. Оно характеризует человека как личность, передает опыт поколений и меняется вместе с ними.

    реферат [15,7 K], добавлен 12.10.2003

  • История изучения канцелярита и канцеляризмов. Особенности применения речевых штампов и избитых выражений. Обстоятельства использования официального стиля речи, сфера его применения. Практический анализ употребления канцеляризмов в публичной речи.

    курсовая работа [29,3 K], добавлен 06.12.2015

  • Выразительность, красота и богатство русской речи. Понятия изобразительности и выразительности речи. Выразительные средства фонетики, лексики и фразеологии, морфологии, словообразования и синтаксиса. Паралингвистические средства выразительности.

    реферат [50,3 K], добавлен 27.11.2011

  • Правила речевого поведения, регулируемые речевым этикетом. Основные особенности структуры выразительной речи. Характеристика языковых и речевых средств выразительности: тропы и риторические фигуры. Употребление синекдохи, метонимии, аллегории, сравнения.

    реферат [47,1 K], добавлен 25.01.2012

  • Педагогические вопросы двуязычия и интерференции. Характеристика активного билингвизма. Организационные условия преподавания русского языка в классах с полиэтническим составом. Особенности преодоления явлений интерференции в русской речи учащихся-башкир.

    дипломная работа [55,0 K], добавлен 24.03.2010

  • Особенности русской фонетической системы, морфологии, лексики. Категория рода, падежа, одушевленности имен существительных. Система личных местоимений. Особенности русской синтаксической системы. Использование одного слова в функции разных частей речи.

    реферат [23,2 K], добавлен 03.05.2015

  • Диалог и монолог в устной и письменной формах речи. Разновидности речи. Употребление устойчивых словосочетаний. Стандартизованный характер письменной речи. Случаи употребления языковых средств с точки зрения их принадлежности к устной или письменной речи.

    контрольная работа [20,6 K], добавлен 15.07.2012

  • Аспекты культуры речи. Коммуникативный аспект культуры речи. Коммуникативные качества речи. Правильность речи как коммуникативное качество. Устранение речевых ошибок в приведенных предложениях. Лексическое значение и стилистическая окраска фразеологизмов.

    контрольная работа [25,0 K], добавлен 18.06.2010

  • Культура речи - реализация диалектического взаимодействия личностного и социального, индивидуального и общего в выборе языковых средств; коммуникативные функции; лексические и морфологические нормы. Этический аспект культуры речи и ораторское искусство.

    реферат [28,5 K], добавлен 19.10.2012

  • Русское литературное произношение, нормы ударения. Употребление слова без учёта его семантики. Ошибки в употреблении многозначных слов и омонимов. Морфологические нормы. Порядок слов в предложении, нанизывание падежей. Оформление деепричастного оборота.

    учебное пособие [140,3 K], добавлен 03.03.2011

  • Состояние культуры речи у представителей СМИ. Классификация речевых, стилистических и орфоэпических ошибок, звучащих в эфире. Анализ речевых фрагментов устной речи теле- и радиоведущих, её соответствие современным орфоэпическим и акцентологическим нормам.

    курсовая работа [74,5 K], добавлен 01.07.2014

  • Основные аспекты культуры речи и средства ее выразительности, использование фразеологизмов и крылатых выражений. Необходимость выбора языковых средств и особенности функциональных разновидностей слова, формирование речевого этикета русского языка.

    реферат [28,4 K], добавлен 28.12.2010

  • Исследование границ применения и специфики литературно-художественного стиля речи. Средства языкового выражения в художественном тексте. Лексический состав и функционирование слов в художественном стиле речи. Использование речевой многозначности слова.

    реферат [34,7 K], добавлен 15.06.2015

  • Исключение языковых элементов, чуждых литературному языку и отвергаемых нормами нравственности. Ударения в словах, замена неверно употребленных в предложении слов. Использование синонимов, определение рода существительных, согласование в предложениях.

    контрольная работа [20,1 K], добавлен 02.12.2010

  • Функционирование старославянизмов в русской художественной речи XIX – XX веков. Функционирование старославянизмов в современной устной и письменной речи. Особенности использования старославянизмов в телеэфире, современной прессе и разговорной речи.

    реферат [20,6 K], добавлен 04.08.2010

  • Обеспечение высокого уровня речевой культуры в сфере СМИ должно быть предметом постоянной заботы как теоретиков русской речи, так и практиков–профессионалов, формирующих речевой массив СМИ, который оказывает безграничное влияние на культуру речи масс.

    научная работа [66,5 K], добавлен 22.10.2008

  • Разговорная речь как устная форма существования языка. Ее эмоционально-экспрессивные оценки. Основные черты обиходно-разговорного стиля. Учение о коммуникативных качествах хорошей речи, разработанное Б.Н. Головиным. Соотношения речи с другими понятиями.

    реферат [16,5 K], добавлен 23.05.2010

  • Формирование языка русской науки в первой трети XVIII в. Сфера применения научного стиля. Логичность, последовательность, ясность и точность научной речи. Насыщенность терминами и использование абстрактной лексики. Языковые средства научного стиля.

    контрольная работа [28,7 K], добавлен 12.10.2009

  • Основные разделы орфографии. Фонематический принцип русской орфографии. История русской пунктуации. Пунктуация древних памятников XI-XIV веков. Русская пунктуация XV-XVII веков. Знаки препинания как средства грамматического членения речи по Смотрицкому.

    реферат [23,5 K], добавлен 23.01.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.