Извлечение вопроса из звукового корпуса
Создание модели по определению вопросительной интонации в разговорной речи как примере шумных данных. Признаки, используемые при распознавании. Программные инструменты обработки аудиофайлов. Рекуррентные нейронные сети долгосрочно–краткосрочной памяти.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 23.09.2018 |
Размер файла | 92,6 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Федеральное государственное автономное образовательное учреждение высшего образования
Национальный исследовательский университет
Высшая школа экономики
Выпускная квалификационная работа
Извлечение вопроса из звукового корпуса
Шершнева Дарья Михайловна
Москва 2018
Введение
Интонация является обязательным компонентом устной речи и имеет несколько функций, основная из них -- смыслоразличительная. Распознавание интонации -- одна из задач распознавания речи. Главной целью распознавания интонации является определение различных типов речевых актов в звучащей речи. Распознавание вопросительной интонации позволяет изучать различные характеристики, которыми обладает устная речь. Кроме того оно необходимо для создания искусственных систем, которые могут взаимодействовать с естественным языком. Такие системы получают все большее распространение в связи с развитием технологий и используются в различных продуктах и задачах, например, в социальных сетях, диалоговых системах, бытовой технике, идентификации личности и для многого другого.
Качество распознавания речи зависит от качества входного сигнала. Чем он лучше, и чем меньше в нем содержится шума, тем проще его анализировать. С практической точки зрения необходима разработка моделей, способных распознавать шумную речь с помехами, поскольку у пользователей не всегда есть ресурсы и возможность записывать аудио хорошего качества.
Системы, взаимодействующие с естественным языком используются и в научных, и в коммерческих целях, а спрос на них постоянно растет, что объясняет актуальность настоящей работы.
Цель работы -- создание модели по определению вопросительной интонации в разговорной речи.
Материалом для исследования послужил корпус Один речевой день Звукового корпуса русского языка. В работе использовались аудиозаписи спонтанных диалогов и их транскрипция. Этот материал представляет собой пример шумных данных, поскольку все диалоги записывались в разных условиях и имеют разное качество.
В работе использовались различные инструменты и методы. Для обработки аудиофайлов использовались программы Sox, Kaldi и OpenSmile для нормализации выделения признаков из звуков. В качестве основного инструмента при построении модели использовались рекуррентные нейронные сети, а именно сети долгосрочно-краткосрочной памяти LSTM. Разработка велась на языке программирования Python 3.6, в качестве библиотеки машинного обучения был выбран модуль tensorflow версии 1.2.
Работа состоит из пяти разделов: введения, обзора литературы, описания данных, описания эксперимента и результатов, а также заключения. В конце представлен список литературы.
вопросительный программный рекуррентный нейронный
1. Обзор литературы
1.1 Распознавание речи
В основе человеческой речи лежит коммуникативная функция. Основная цель речевого акта -- передача информации. Речь можно представить в виде высказывания, которое состоит из слов. Слова в свою очередь состоят из фонем, фонемы из звуков. Слова и фонемы являются лингвистическими знаками, то есть имеют план выражения и потенциально могут быть связаны со значением.
Кроме непосредственно слов и их значений, в речи содержится много другой информации. Например интонация, которая оказывает сильное значение на смысл высказывания (одно и то же высказывание может иметь разный смысл в зависимости от интонации), может передавать намерения и настроение говорящего. По речи человека, как правило, можно также понять его пол, возраст и акцент (Rashmi 2014). Также по речи можно определять личность человека (Kinnunen, Li 2009).
Речь является естественной формой коммуникации между людьми. Однако, она не является естественной для общения между человеком и компьютером. Поэтому одной из задач распознавания речи является упрощение взаимодействия между человеком и машиной (Huang et al. 2001).
Качество автоматического распознавания во многом зависит от качества звука, который анализирует модель распознавания. Чем меньше шумов и качественнее звуковой сигнал, тем лучше результат (Ramirez et al. 2007). Лучше всего распознаются четкие записи, спонтанная разговорная речь (например, телефонные разговоры (Stolcke, Droppo 2017)) из-за возможных шумов, нечеткого произношения, запинок, оговорок и т.д. распознается хуже. Еще не так давно результаты сравнения распознавания машинных систем и результаты распознавания человеком показывали, что компьютер расшифровывает голосовой поток хуже людей (Lippmann 1997). Однако последние исследования показывают, что компьютерные модели приближаются к человеческим результатам в том числе и в распознавании спонтанной речи (Xiong et al. 2016; Stolcke, Droppo, 2017).
Признаки, используемые при распознавании
Системы распознавания речи принимают на вход звуковую дорожку в определенном формате (например, .wav или .mp3). Звуковой сигнал содержит в себе много информации. Для анализа речи выделяют отдельные признаки из звуковой дорожки, которые затем используют для распознавания или синтеза речи. Анализ звукового сигнала кроме извлечения признаков, также включает в себя их обработку. Качество параметрического представления акустического сигнала важно для при построении систем распознавания.
Вычленение признаков состоит из трех этапов (Bhupinder et al. 2012):
1. Анализ звуковой дорожки
Спектрально-временная обработка звукового сигнала. На этом этапе отбрасываются все ненужные параметры. При спектральном анализе звуковой сигнал членится на маленькие отрезки, обычно по 20-30 миллисекунд. Считается, что на таком отрезке звук стабилен и подходит для извлечения векторов (Kinnunen, Li 2010).
2. Обработка параметров
Преобразование в вектора, статистическая и динамическая обработка.
3. Статистическое моделирование
Преобразование в более компактные вектора, подходящие для распознавания.
Основные методы, применяемые для извлечения признаков:
? LPC (Linear prediction coding)
Метод, как правило, применяемый при низкой скорости передачи данных. LPC представляет каждый текущий речевой отрезок в виде линейной комбинации предыдущих речевых отрезков (Aida-Zade et al. 2006).
? MFCC (Mel frequency Cepstral Coefficient)
Часто используемый метод для извлечения признаков речи. Представляет собой набор коэффициентов, которые в совокупности являются представлением кратковременного спектра мощности звука. Используется во многих приложениях по обработке речи, например, Kaldi и OpenSmile. MFCC считает коэффициенты для каждого фрейма + его энергию (Fawaz, 2017). Особенностью MFCC является то, что он основывается на диапазоне частот, который способно воспринимать человеческое ухо (Bala et al. 2010).
? LPCC (Linear prediction cepstral coefficient)
Представляет собой кепстральный Кепстр -- результат обратного преобразования Фурье логарифма величины спектра сигнала (Bogert et al. 1963). анализ LPC (Bhattacharjee 2013). Кепстральные коэффициенты рассчитываются из LPC при помощи рекурсивных процедур.
? DWT (Discrete Wavelet Transform)
Этот метод пропускает сигнал через два фильтра: высоко- и низкочастотный. Поскольку низкие частоты содержат больше информации о сигнале (Hibare, Vibhute 2014), DWT продолжает фильтровать низкие частоты, пока не получит необходимые признаки.
? WPD (Wavelet Packet Decomposition)
Является расширением DWT, считается более гибким и подробным методом, поскольку предоставляет хорошие временные и частотные разрешения входного сигнала (Hibare, Vibhute 2014). Так же как и в DWT, сигнал на всех уровнях раскладывается на компоненты с низкой частотой и на компоненты с высокой частотой. Однако вейвлет-преобразование применяется как на высоких, так и на низких частотах, в то время как DWT применяет его только на низких.
? PLP (Perceptual Linear Prediction)
Метод идентичный LPC, за исключением того, что спектральные характеристики преобразуются в соответствии со слуховой системой человека (Dave 2013).
Извлеченные из звуковой дорожки признаки затем используются для создания модели распознавания речи.
Существует несколько методов, наиболее часто используемых при построении систем распознавания.
? HMM (Скрытые Марковские модели)
Марковские модели являются одним из наиболее популярных методов для создания современных систем распознавания (Huang et al. 2001). Представляет собой вероятностную статистическую модель, которая предсказывает неизвестные параметры на основе наблюдений. Состоит из набора состояний, матрицы вероятностей переходов между этими состояниями, последовательности наблюдений и последовательности их вероятности. Вероятность каждого состояния внутри Марковской модели зависит только от предыдущего состояния. В зависимости от задач используются три разных алгоритма, связанных со скрытыми Марковскими моделями. Для задач определения вероятности -- алгоритм прямого-обратного хода (англ. The Forward algorithm). Алгоритм Витерби для задач декодирования. Под декодированием в данном случае понимается определение последовательности переменных, которая является источником некоторой последовательности состояний. И алгоритм Баума-Велша (англ. The Forward-Backward algorithm) для определения скрытых параметров СММ.
? Нейросети
Нейросети используются в разных типах задач компьютерной лингвистики. Одним из наиболее часто используемых типов нейронных сетей являются рекуррентные нейронные сети (Graves et al. 2013). Преимущество рекуррентной нейронной сети заключается в том, что она способна сохранять информацию о предыдущих частях входной последовательности. На вход нейронам подается элемент входной последовательности, который в преобразованном виде возвращается этим же нейронам вместе со следующим элементом. Однако обычные рекуррентные сети не могут держать в памяти длинные последовательности. Для обучения долгосрочных зависимостей используются LSTM сети (сети долго-краткосрочной памяти) (Hochreiter 1997).
? SVM (Метод опорных векторов)
Алгоритм обучения с учителем, который используется в задачах классификации, в том числе при определении и классификации интонации (Surendran, Levow 2006). Представляет собой бинарный классификатор. Однако автоматическая классификация речевых актов, в которую входит классификация типов интонации, не является задачей бинарной классификации, поскольку предполагает наличие более двух классов. Для преобразования бинарного классификатора в мультиклассификатор может использоваться несколько решений. Например, выделение только одного класса среди множества или добавление кодов, исправляющих ошибки, которые разбивают задачу мультиклассификации на несколько бинарных классификаторов (Liu 2006). Исследования показывают, что метод опорных векторов может обучаться на разных типах данных, в том числе и на акустических. Результаты обучения SVM могут сильно отличаться в зависимости от способа классификации. Работа (Fernandez R., Rosalind 2002) показывает, что при попытке классификации исследуемого корпуса на 8 типов речевых актов, результаты получаются невысокими (48.1%), однако при попытке выделения одного класса из всего корпуса и противопоставления его всем остальным классам результаты оказываются значительно выше. Например, при выделении класса утверждений точность SVM достигает 76%.
1.2 Распознавание интонации
В научной литературе интонация определяется как “звуковое средство языка, с помощью которого говорящий и слушающий выделяют в потоке речи высказывание и его смысловые части, противопоставляют высказывания по их цели (повествование, волеизъявление, вопрос) и передают субъективное отношение к высказываемому” (Шведова 1980: 96). Интонация и образование звуков воспроизводятся человеком одновременно в процессе речи и имеют одинаковые акустические компоненты (основной тон, тембр, интенсивность звучания и его длительность). Основные функции интонации -- смыслоразличительная и эмоциональная. Акустические компоненты интонации могут по-разному соотноситься в высказывании. Разные типы соотношения основного тона, тембра, интенсивности и длительности звучания, противопоставляющие по смыслу одинаковые по фонемному составу высказывания, называются интонационными конструкциями.
Традиционно в русском языке выделяют семь интонационных конструкций. Их выделяют на основании изменения тона в центре интонационной конструкции. Основной тон может быть ровным, нисходящим, восходящим, нисходяще-восходящим и восходяще-нисходящим. Под центром интонационной конструкции понимается слог, в котором начинаются изменения компонентов интонации. Значимыми типами предложений с точки зрения интонации считаются вопрос, утверждение, волеизъявление, завершенность/незавершенность высказывания (Брызгунова 1968).
Всего в русском языке выделяется семь типов интонационных конструкций (Шведова 1980: 97-98):
? ИК-1: на гласном центра тон понижается;
? ИК-2: на гласном центра движение тона ровное или нисходящее, усилено словесное ударение;
? ИК-3: на гласном центра тон резко повышается, например, при повторении вопроса в ответе;
? ИК-4: на гласном центра тон понижается, затем повышается; высокий уровень тона держится до конца конструкции;
? ИК-5: конструкция имеет два центра. На первом тон повышается, а на втором понижается;
? ИК-6: на гласном центра тон повышается, высокий уровень тона держится до конца конструкции;
? ИК-7: на гласном центра тон резко повышается, гласный заканчивается смычкой голосовых связок.
Несмотря на то, что способы выражения интонации и ее вариации чрезвычайно разнообразны, все разнообразие интонационных вариантов русской речи сводится к этим семи типам.
Вопросительные интонации описываются четырьмя интонационными конструкциями. Это ИК-2, 3, 4 и 6. Вторая ИК, как правило, реализуется в вопросах с вопросительными словами, которые требуют развернутого ответа (какую книгу вы читаете?). ИК-3 обычно появляется в предложениях с повторением вопроса в ответе (какую книгу я читаю?) и в да-нет вопросах (вы читаете книги?). ИК-4 реализуется в сопоставительных вопросах (я читаю книги. А вы?). ИК-6 свойственно экспрессивным выражениям. Сюда входят выражения недоумения и оценки. Это могут быть восклицательные предложение или близкие к ним риторические вопросы.
Интонационные конструкции могут реализовываться на речевых отрезках разной длины. Эти отрезки могут соответствовать простому или сложному предложению или их части. Нечленимые интонационные отрезки называются синтагмами, а членение речевого потока на интонационные отрезки -- синтагматическим членением предложения. В пределах одного высказывания могут присутствовать синтагмы с разными типами интонационных конструкций.
Такие характеристики устной речи как высота тона, длительность, громкость, тембр и другие обычно называются просодическими (Розенталь, Теленкова 1976: 225). Просодия по-разному понимается лингвистами. Некоторые работы разграничивают интонацию и просодию, понимая интонацию как языковое явление, имеющее смыслоразличительную функцию и использующее для ее осуществления просодические характеристики речи (Николаева 1977). Другие считают, что комбинация этих характеристик и является интонацией (Ярцева 1998). Несмотря на разную трактовку этих терминов, просодические характеристики важны при построении автоматических систем распознавания интонации.
Просодия русского языка участвует в двух отдельных системах: системе ударения и системе интонации (Hirst, Cristo 1998). Обе системы используют одни и те же признаки -- интенсивность, длительность, высоту. Однако интонация устроена гораздо сложнее акцентуации. Ударение в русском языке свободное, не привязанное к морфемам и имеет смысло- и форморазличительную функцию. Мелодический контур ударения в русском языке может быть разным. Ударный слог может иметь высокий или низкий тон. По сравнению с безударными, ударные гласные имеют большую длительность и интенсивность.
Как и язык, интонация имеет несколько уровней (Demenko 2012). На фонетическом уровне она представляет из себя набор физических признаков, таких как частота, длительность, энергия, высота. Лингвистический уровень имеет несколько подуровней. С точки зрения просодии речь членится на небольшие юниты, которые используются при распознавании интонации. Другие подуровни -- дискурсивный, социолингвистический и психолингвистический -- содержат информацию о намерениях говорящего, его эмоциях, акцентных различиях и пр. Психологический уровень описывает психологические особенности людей. Эти уровни обычно анализируются в задачах определения личности говорящего и определения эмоций в речи. Для задач распознавания и синтеза речи используются фонетика и просодия.
Интонация не универсальна для разных языков. Каждый язык имеет свои интонационные конструкции. Правильное употребление интонации может служить признаком уровня владения иностранным языком. Одна из областей автоматического распознавания интонации -- определение правильности использования интонационных конструкций языка. Для этой задачи звуковой сигнал сегментируется на просодические юниты (Zhao et al. 2010). Сегментированные элементы затем сравниваются с соответствующими элементами в эталонной записи (например, носителя языка). На основании разницы между интонационными контурами у обучающегося и учителя делается вывод об уровне владения интонационными конструкциями языка. Такие системы называются CALL (computer-assisted language learning) (Davies 2005).
Согласно одному из методов, любая фраза состоит из акцентуальных групп, которые состоят из одного или нескольких фонетических слов. Каждая акцентная группа состоит из трех элементов. Ядерным элементом внутри акцентной группы называется ударный слог, а все фонемы, которые ему предшествуют или следуют за ним называются соответственно предъядернымии и постядерными. Такое разделение фразы на группы используется в моделях универсальных просодических портретов (universal prosodic portraits) (Ogden et al. 2000). Эта модель предполагает, что тип интонации не зависит от количества или качества фонем в любой из частей акцентной группы, а также на нее не влияет частотный диапазон говорящего. Все паттерны внутри этой модели нормализуются по частоте и длительности (Lobanov 2016).
Интонация важна как при распознавании, так и при синтезе речи. Один из важных признаков естественной синтезированной интонации является правильный ритм (Local, Ogden 1997). Поскольку разные слоги в речевом потоке имеют разную длительность в зависимости от различных контекстных ограничений, синтез речи не сводится только к правильному выбору фонем. Поэтому подбор правильных длительностей для ударных и безударных слогов очень сильно влияет на качество синтезируемой интонации. До 40% синтезируемых текстов могут быть сгенерированы неправильно именно из-за неправильного предсказания просодических характеристик высказывания (Chen et al. 2010).
Помимо длительности звуков как при распознавании, так и при синтезе речи важна акустическая модель. Одним из методов синтеза речи является статистический параметрический синтез речи (statistical parametric speech synthesis) (Zen et al. 2007). Он использует два компонента -- акустическую модель и модель длительности. Сначала вторая модель рассчитывает длительности во фреймах, а затем эти длительности используются в акустической модели для расчета признаков в каждом фрейме. В конце посчитанные признаки используются для генерации звуковой дорожки. Модели длительности используются как в Марковских моделях, так и в нейросетях (Chen et al. 2017).
1.3 Автоматическое распознавание вопросительной интонации
Задача автоматического определения вопроса по интонации является частью большой задачи по распознаванию разных типов интонации. Распознавание интонации также можно описать как определение иллокутивного намерения говорящего. Кроме вопроса это может быть утверждение, предположение, ответ, побуждение, обращение и т.д. Подробнее о классификации речевых актов (Austin 1975).
Распознавание типов интонации может использоваться для расстановки пунктуации в тексте (Batista, Mamede 2011), определения реплик в диалогах, определении запросов в поисковых сервисах, вопросно-ответных системах (Wang, Chua 2010). Наличие вопроса в устной речи предполагает диалоговую форму общения и может передавать большое количество информации об участниках диалога и их ролях.
Неуниверсальность интонации для разных языков может также выражаться и в различии функций некоторых параметров в разных группах языков. Исследования интонации говорят о том, что в нетоновых языках можно понять тип предложения (вопросительное или невопросительное) по тому, повышается ли интонация в конце предложения (Quang et al. 2006) (для некоторых типов вопросов). При этом выделение вопросительной интонации и определение интонации в более широком смысле сложнее для тональных языков (Quang et al. 2007). Причиной является особая мелодическая система таких языков. В них тон является не просодическим, а лексическим параметром. То есть изменение тона влияет на лексическое значение слов.
Кроме интонации, вопросы в речи могут быть маркированы лексическими и синтаксическими средствами. Некоторые классы слов называются вопросительными, потому что участвуют в образовании вопроса. Например, wh-слова в английском языке, вопросительные местоимения и некоторые частицы и наречия в русском и т.д. Тем не менее, в русском языке из-за омонимичности вопросительных и относительных местоимений наличие определенных слов в лексическом составе предложения не всегда является признаком вопроса. Также вопрос может передаваться синтаксической структурой предложения: к примеру, в английском языке в вопросительных предложениях глагол ставится на первое место в предложении (Do you speak English? / Вы говорите по-английски?). Вопросительные слова и синтаксис также могут быть использованы для опознавания вопроса как в звучащей речи, так и в тексте (Wang, Chua 2010).
В русском языке существует несколько типов вопросов. 1) Во-первых, это да/нет вопросы, или частные вопросы, которые требуют односложного ответа (он читал эту книгу?). 2) Во-вторых, вопросы, задаваемые при помощи вопросительных слов (сколько книг ты прочитал за последний год?), или общие вопросы. Такие вопросы требуют развернутого ответа и на них нельзя ответить да или нет. При этом с точки зрения синтаксиса высказывания первого типа могут быть как вопросительными, так и утвердительными (он читал эту книгу). Разница между вопросительным и невопросительным предложением будет только в интонаци. Это подтверждают результаты лингвистического эксперимента (Safarova, Swerts 2004), в котором носителям английского языка предлагалось определить тип предложения (вопросительное / невопросительное), читая текст предложений без пунктуации или прослушивая аудиозапись предложения, но без транскрипции. В итоге оказалось, что на слух тип предложения определяется гораздо лучше, чем при чтении. Исключениями были только предложения с местоимениями второго лица , поскольку утвердительные предложения (вы читали эту книгу) с местоимениями второго лица встречаются гораздо реже вопросительных (вы читали эту книгу?). 3) Альтернативные вопросы -- вопросы, предлагающие два или несколько вариантов ответа. В своей структуре имеют противительные союзы (ты любишь кино или книги?).
Для определения типа интонации, как правило, используются следующие просодические характеристики: частота основного тона -- частота вибрации голоса; длительность -- может учитываться длительность всего высказывания или длительность слов, слогов; энергия голоса -- энергия колебаний частиц, создаваемая в процессе речи. Длительность высказывания может варьироваться в зависимости от типа вопроса. Так, в шведском языке альтернативные вопросы гораздо длиннее, чем да/нет вопросы (Strцmbergsson et al. 2012). Определение тона может быть отдельной задачей распознавания речи в тоновых языках, поскольку в них тон имеет смыслоразличительную лексическую функцию и находится в других отношениях с интонацией, чем в нетоновых языках (Wang et al. 2011).
Определение типа высказывания по сути является задачей классификации. Потенциал классификаторов разного типа, в частности деревьев решений, обучаемых на просодических характеристиках, подробно описан в (Shriberg et al. 1998). Частота основного тона, длительность и энергия могут быть дополнены другими признаками. Например, (Bao et al. 2014) в качестве дополнительного параметра использовали коэффициент MFCC, состоящий из 13 векторов. В качестве классификатора использовался метод опорных векторов (SVM). В результате SVM, обученный только на просодических характеристиках показал сильно худший результат (~60%), чем обученный с добавлением MFCC (~80%). Более ранние работы (Surendran, Levow, 2006) предлагают комбинирование SVM с марковскими моделями и алгоритмом Витерби. Однако результаты показывают, что использование только акустических признаков дает значительно худшие результаты, чем акустические признаки + лексические. Работа (Tang et al. 2016) отмечает, что для задачи определения вопроса может быть важна контекстуальная информация, однако SVM не учитывает ее при анализе. В качестве метода, который учитывал бы и контекст, авторы статьи предлагают использовать рекуррентную нейронную сеть (RNN) с управляемыми рекуррентными блоками (англ. GRU -- gated recurrent units). Преимущество GRU заключается в том, что он позволяет анализировать зависимости в разных временных отрезках, в то время как сама по себе RNN обладает относительно краткосрочной памятью. Результаты эксперимента показали, что RNN с GRU, натренированные на акустических признаках показывают сопоставимый результат с LSTM.
Также возможно создание моделей, которые обучаются не на просодии, а на текстах. Такие модели могут строиться на разных алгоритмах и могут использовать лексические характеристики слов или лексические маркеры, которые обычно используются в конкретном типе высказывания (Jurafsky et al. 1998). Однако исследования показывают, что сами по себе такие системы показывают не очень высокие результаты и могут быть улучшены добавлением просодических моделей (Margolis, Ostendorf 2011), (Shriberg et al. 1998).
Для определенных задач, например, для определения вопросов в диалогах (англ. meetings) могут использоваться данные о смене реплик между собеседниками. Основной гипотезой для этого является предположение, что в разговоре двух людей за вопросительным высказыванием с большей вероятностью следует утвердительное. Также может учитываться длина предложения. Однако результаты экспериментов, в которых учитываются только эти параметры, показывают невысокое качество (Boakye, 2009).
Использование одновременно как просодических, так и лексических метрик в обучении моделей является частым подходом для определения вопросительной интонации. Как показывают эксперименты (Moniz et al. 2010), результаты использования тех или иных метрик сильно разнятся для разных типов вопросов. Если для определения “wh-questions” (вопросов с вопросительными словами) использование только лексических параметров дает хорошие результаты распознавания, то для всех остальных типов вопросов высокие результаты (точность ~ 84%) получаются только с использованием просодических характеристик. Разные модели по-разному используют комбинации лексических и просодических данных. В работе (Vu et al. 2007) сравниваются два подхода к комбинированию данных на примере деревьев решений. В первом -- и лексические, и просодические данные были объединены в один вектор во время обучения. Во втором -- отдельно обучались два разных дерева на разных типах данных. Окончательное решение принималось на основе линейной комбинации просодических и лексических результатов. По сравнению с первым, второй способ показал лучшие результаты (82% и 88% соответственно). Кроме того возможно добавление n-грамм и вероятностей (Shriberg et al. 1998). В этих работах в основном использовались для обучения аннотированные данные, в которых заранее было указано, к какому типу относится то или иное высказывание. Однако разметка данных, особенно в больших количествах требует больших ресурсов и времени. Тут стоит упомянуть об одном из способов обучения без учителя, при котором разметку имеет лишь небольшая часть данных, которая потом проецируется на оставшиеся неразмеченные объемы. (Venkataraman et al. 2003) -- пример обучения марковских моделей на неразмеченных данных с использованием акустических признаков и контекстной информации.
В целом гибридные модели, использующие и лексические, и просодические характеристики, показывают более высокий результат, чем модели какого-то одного типа.
2. Данные
В качестве исследовательского материала для эксперимента послужил корпус Один речевой день (ОРД), который разрабатывается в Санкт-Петербургском государственном университете Автор работы выражает благодарность за предоставленный материал кафедре русского языка СПбГУ и лично Н. В. Богдановой-Бегларян.. Этот корпус -- часть большего по объему Звукового корпуса русского языка (Звуковой корпус 2014). Он представляет собой записи диалогов жителей Петербурга. Его особенностью является способ записи аудиоматериала: всем информантам, участвовавшим в записи диктофон предоставлялся на сутки, а запись велась на протяжении всего дня и фиксировала все высказывания информантов и их собеседников. Такой способ сбора материала позволяет говорящему по возможности не обращать внимания на сам факт записи, поэтому собранные разговоры обладают максимальной степенью спонтанности. Все аудиозаписи в дальнейшем расшифровывались и аннотировались вручную в программе для редактирования и разметки аудиозаписей ELAN (ELAN tool). Расшифровка велась в орфографическом виде. Аннотация корпуса представляет собой разделенные на отдельные высказывания записи. Каждая запись примерно соответствует отдельному разговору и имеет длительность от нескольких минут до получаса, иногда дольше. Для каждого высказывания указан номер информанта и пол его собеседника. Отдельно указываются тема разговора для всей записи, ненормативные или нестандартные употребления каких-то слов с их временными метками и эмоции говорящих (например, смех, раздражение или удивление). Смены реплик, перебивы, паузы хезитации имеют специальную маркировку. Все аудиозаписи имеют формат wav.
Объем всего корпуса ОРД составляет порядка одного миллиона словоупотреблений. В записи участвовали 130 информантов и несколько сотен их случайных собеседников.
Для исследования были взяты 83 диалога из корпуса с речью 54 информантов. Общая длительность диалогов до обработки -- 21 час. Информация об информантах, о их поле, возрасте, роде деятельности в исследовании никак не учитывались. Исследовательский корпус специально не отбирался, однако было проверено, что больше половины аудиозаписей имеет более или менее хорошее качество звуковой дорожки.
2.1 Обработка данных
Поскольку исходные записи представляют собой непрерывные диалоги с разной длительностью, первой задачей по обработке данных было разделение всего звучащего текста на отдельные фразы. Для этого использовались текстовые расшифровки файлов с указанными временными метками для каждого высказывания. Временные метки в корпусе устроены таким образом, что в указанных временных интервалах могут быть записи высказываний сразу нескольких говорящих (например, если два человека какое-то время говорят одновременно). Поэтому для корректного вычленения акустических признаков из аудио нужно было разбить слившиеся фразы на отдельные записи.
Другой особенностью разметки являлось наличие в пределах одного интервала нескольких предложений с разной иллокуцией. Например, два утверждения или утверждение и вопрос. Некоторые предложения могут быть разбиты на разные фразы из-за особенностей произношения или употребления пауз. Некоторые фразы имеют обрывы на конце, и, соответственно, незавершенные интонационные контуры.
Сначала длинные записи диалогов были разбиты по временным меткам, указанным разметчиками при расшифровке. Временные метки были скачаны из файлов разметки из программы ELAN, в которой производилась разметка корпуса. Для разбивки длинных записей на предложения использовалась python библиотека pydub (pydub), которая позволяет обрабатывать аудиофайлы разных форматов. После первичной нарезки для всех файлов были посчитаны mfcc метрики при помощи модуля Kaldi (Povey et al. 2011). Эти метрики использовались для выравнивания по словам. То есть для каждого слова в предложении определялись временные метки. Пословное выравнивание позволило сопоставить временные метрики слов с транскрипциями нарезанных предложений, чтобы исключить те записи, в которых присутствовало наложение речи нескольких говорящих. После этого уже нарезанные файлы были разбиты еще раз так, чтобы в каждом файле была речь только одного человека. Каждое высказывание получило свой индивидуальный индекс, все вопросительные высказывания были помечены тегом “question”, а утвердительные -- тегом “declarative”, высказывание было разбито на слова, для каждого из которых были указаны временные метки.
При выравнивании предложений по словам и в дальнейшем при обучении модели никак не учитывалось наличие пауз между словами. В разговорной речи паузы могут быть нескольких типов, которые могут обладать различными функциями. Кроме естественных пауз между словами, которые образуются в процессе речи, говорящие часто используют так называемые паузы хезитации, которые имеют множество прагматических функций и могут быть выражены вербально (например, мычание), а также длинные паузы при обрывах фраз или перебивах. В текущем исследовании все дискурсивные элементы были удалены в процессе выравнивания. Тем не менее их наличие в речи может существенно влиять на значение высказываний и их прагматику. В целом подобные речевые явления также могут использоваться при распознавании интонации и при множественной классификации речевых актов.
Так как корпус собирался в “полевых условиях”, качество материала сильно варьируется от записи к записи. Поэтому необходимо было нормализовать записи относительно набора параметров. Нормализация происходила в несколько этапов и производилась при помощи кроссплатформенного аудиоредактора SoX (SoX tool).
На первом этапе происходила нормализация файлов по громкости звука. Для этого использовалась команда sox --norm. Она используется для предотвращения обрезания файла. Под обрезанием (англ. clipping) подразумевается искажение звука в виде ограничения амплитуды сигнала. Оно может быть представлено как обрезание верхушек синусоидального сигнала. Значение цифрового звукового сигнала измеряется в децибелах относительно полной шкалы аналого-цифрового преобразователя (dBFs). При нормализации этой метрики в SoX можно указать ее величину. Максимально возможным значением является 0 dBFs. При нормализации была использована величина -1.
На следующем этапе аудиофайлы были преобразованы в формат 16 кГц. Это преобразование необходимо для того, чтобы сделать частоту дискретизации одинаковой для всех файлов. Частота дискретизации (или частота семплирования) означает частоту обработки сигнала. Чем выше частота дискредитации, тем выше качество обработки сигнала. Частота дискретизации измеряется в килогерцах (кГц), количество килогерц указывает на количество отсчетов в секунду. Все записи были записаны в 16-битном формате. 16-битный формат указывает на количество единиц информации, в которых может быть представлено значение каждого отсчета.
Далее для каждого слова в высказываниях были отдельно посчитаны акустические признаки (частота основного тона и энергия) при помощи модуля Kaldi , которые в дальнейшем были объединены. Эти признаки представлены в виде набора векторов для каждого слова, которые затем были обработаны в программе OpenSmile (Eyben et al. 2010). Далее для каждого высказывания вектора, соответствующие словам из него, были объединены в матрицу, где строки являются признаками слов.
Стоит отметить, что во многих случаях качество звука в нарезанных файлах было не самым высоким. Многие аудиозаписи имели очень тихий звук или сильные помехи на фоне. Границы фраз тоже не всегда идеальны, поскольку многие предложения были обрезаны, чтобы избежать наложения речи нескольких человек. Частично эта проблема была решена при помощи нормализации нарезанных аудиофайлов на этапе подсчета акустических признаков. С другой стороны, корпус размечался вручную асессорами, поэтому для всех фраз, даже с очень плохим качеством звука имелась текстовая расшифровка. Текстовые данные также использовались для обучения модели. Для этого были посчитаны эмбеддинги (векторные представления) для всех слов.
Количество предложений менялось в процессе обработки и нормализации данных. Всего было обработано 83 диалога с записями более десятка информантов. Записи специально не отбирались. После разделения диалогов на более короткие записи в соответствии с оригинальной разметкой получилось 11 тысяч фрагментов разговоров, для которых считались mfcc коэффициенты и по которым производилось пословное выравнивание. После пословного выравнивания были отброшены реплики с наложением речи говорящих. Если во фрагментах диалогов реплики информантов не наслаивались друг на друга, реплики разделялись на отдельные аудиофайлы. После отсеивания примеров с наслоением речи в исследуемом корпусе осталось 10 тысяч примеров, среди которых около двух тысяч были вопросительными, а остальные утвердительными.
3. Эксперимент
Экспериментальная модель представляет собой рекуррентную нейронную сеть с одним слоем. В нашей модели использовалась LSTM сеть из библиотеки для машинного обучения tensorflow (Abadi et al. 2016). Разработка Ознакомиться с кодом можно в репозитории https://github.com/Dashershneva/Question-detection Автор благодарит за помощь в разработке и настройке модели Ивана Карпухина, Яндекс. велась на языке программирования Python 3.6, использовалась версия библиотеки tensorflow 1.2. За основу был взят алгоритм компании Яндекс по определению интонации (SpeechKit).
На вход модели подавались предложения и их акустические признаки. Данные о предложениях (id, временные метки для каждого слова предложения, путь к wav файлу и тип высказывания записаны в формате json). Акустические признаки, полученные при помощи модулей Kaldi и OpenSmile, записаны в формате ark.
Предложения, загружаемые в модель получали метку класса, к которому они относятся. 0 -- для утвердительных предложений, 1 -- для вопросительных. Каждому предложению соответствует набор акустических признаков, представленный в виде матрицы размером , где n -- это количество слов в предложении, а 349 -- количество числовых признаков для каждого слова.
Информация о каждом предложении и его акустические признаки преобразуются в именованный кортеж данных, в котором содержится номер предложения, акустические признаки в формате матрицы, класс, к которому относится предложение, текст предложения. Данные уже в виде кортежей подавались на обучение нейронной сети.
Перед началом обучения загруженные данные проверялись на размерность матриц пословных признаков. Кроме того из данных были исключены предложения длиннее 30 слов, что позволило сократить время обучения модели.
Модель является гибридной, поскольку обучается и на акустических, и на лексических данных. Как уже было отмечено в предыдущей главе, гибридные модели показывают, как правило, более высокие результаты, чем модели, обучаемые только на одном типе признаков. Особенно это касается систем, обучающихся на лексических признаках, так как частные вопросы по своей лексической структуре могут быть идентичны утвердительным предложениям. Результаты гибридной модели были сопоставлены с результатами обучения на лексических и акустических данных по отдельности. Лексические признаки были представленны в виде эмбеддингов для каждого слова. Эмбеддинги считались при помощи алгоритма Витерби и системы распознавания речи Яндекс SpeechKit (SpeechKit).
Всего на вход модели было подано 8646 предложений, которые были разбиты на три части. Самая большая -- 6920 предложений -- использовалась как тренировочный корпус (train set). Оставшаяся часть была поделена пополам (по 865 предложения) и использовались как тестовый корпус (test set) и корпус валидации (validation set).
При обучении модели использовался модуль tf. Graph() библиотеки tensorflow. Эта библиотека использует модель dataflow graph, которая применяется для параллельных вычислений. В этой модели узлы графа являются единицами вычисления, а связи между узлами -- данными, полученными или обработанными при вычислении. tf.Graph() содержит два типа релевантной информации. Во-первых, графовую структуру, которая при помощи узлов и связей описывает взаимодействие отдельных операций при вычислении. Во-вторых, собрание (коллекцию) метаданных. Она позволяет ассоциировать объекты с ключами.
Нейронная сеть состояла из одного слоя LSTM с 64 элементами. Перед отправкой нейронной сети входные признаки проецировались в линейное пространство размерности 32. Выходная последовательность LSTM пропускалась через один слой полносвязной сети, состоявшей из 16 элементов. Полносвязной нейронной сетью называется такая сеть, в которой каждый нейрон связан со всеми остальными и передает им свой входной сигнал. После полносвязной сети последовательность линейно проецировалась на вектор из двух элементов. Для нормализации этих векторов использовалась функция обобщения логистической функции для многомерного случая softmax. В результате модель выдает значения вероятности для каждого из двух классов.
Обучение нейронной сети происходило за 20 эпох (полных проходов по выборке). При каждом проходе измерялась кросс-энтропия (количественная оценка разницы между двумя распределениями вероятности), коэффициент скорости обучения, доля правильных ответов, потери при обучении, площадь под ROC кривой.
Из-за того, что в обработанном корпусе было довольно много ошибок при выравнивании по словам и вторичной нарезки предложений, после удаления всех наложений речи, шум в данных мог повлиять на качество определения интонации. Для того, чтобы проверить как сильно качество звука влияет на результат, был отобран небольшой подкорпус из аудиозаписей хорошего качества. Всего таких записей было выбрано 500, в них вопросов и утвердительных предложений было представлено поровну. На этих данных также была обучена модель, а результаты сравнивались с результатами, полученными после обучения всего исследуемого корпуса.
3.1 Результаты
Изначальной гипотезой исследования было предположение, что на качество распознавания вопросов может повлиять качество записей, так как многие записи содержат шум, помехи или тихие голоса говорящих.
Для оценки качества модели использовалось несколько метрик. Доля правильных ответов (accuracy) для гибридной модели составила 0,86%. Однако поскольку данные не сбалансированы относительно размеров классов, метрика точности не отражает реальное качество классификации. Поэтому для более точной оценки результатов использовались метрики точности, полноты, F-меры и ROC-AUC кривой. При вычислении этих метрик используется подсчет решений, когда система приняла верное или неверное решение: tp (true positive) -- истинно-положительное решение; tn (true negative) -- ложно-отрицательное; fp (false positive) -- ложно-положительное; fn (false negative) -- ложно-отрицательное.
Точность (precision) = tp/(tp+fp); определяет долю объектов действительно относящихся к определенному классу относительно всех объектов этого класса, которые модель определила принадлежащими классу.
Полнота (recall) = tp/(tp+fn); определяет долю объектов, принадлежащих классу, относительно всех объектов этого класса в тестовой выборке.
F-мера = 2(precision*recall/(precision+recall)); взвешенное гармоническое среднее точности и полноты.
ROC AUC кривая -- позволяет оценивать качество бинарной классификации. Представляет собой график, где качество модели представлено в виде кривой от (0,0) до (1,1) в координатах true positive и false positive. Чем больше площадь под кривой (AUC -- Area Under Curve), тем выше качество предсказания класса.
Модель обучалась на разных данных: на лексических, акустических и комбинации лексических и акустических.
Результаты только для акустических и только для лексических признаков оказались ожидаемо меньше, чем у гибридной модели. Использование лексических признаков в дополнение к акустическим дает существенный прирост качеству модели. Это может быть связано с тем, что лексические данные помогают распознавать тип предложения в тех случаях, когда звук зашумлен или имеются ошибки в выравнивании слов.
Результаты обучения модели на полном корпусе представлены в таблице 1. В качестве метрики указана площадь под ROC-кривой. В таблице сравниваются результаты обучения акустической, лексической и гибридной модели.
Таблица 1 Метрики площади под ROC-кривой для всех примеров из корпуса
features |
AUC |
|
Acoustic feats |
0.64 |
|
Text feats |
0.81 |
|
Audio + text feats |
0.85 |
Как видно из приведенных результатов, добавление лексических признаков дает существенный прирост к качеству обучаемой модели.
Рисунок 1. ROC-AUC кривая для тестового набора гибридной модели при обучении на всем корпусе
Для сравнения можно привести результаты обучения на “хорошем” подкорпусе из 500 отобранных примеров. При обучении на акустических признаках модель показала прирост в 7% по сравнению с “шумными” данными. Стоит также отметить, что положительно на качество классификации повлияла нормализация аудиозаписей по уровню шума. На начальном этапе тестирования модели на вход подавались акустические признаки, посчитанные на ненормализованных данных. После того, как аудиозаписи были дополнительно обработаны, качество распознавания, как акустической, так и гибридной модели выросло на 2% (0.69/0.94 и 0.71/0.96 соответственно).
Таблица 2 Метрики площади под ROC-кривой для корпуса из 500 примеров
features |
AUC |
|
Acoustic feats |
0.71 |
|
Text feats |
0.79 |
|
Audio + text feats |
0.96 |
Несмотря на то, что прирост при обучении на акустических признаках оказался не очень значительным, результаты подтверждают, что качество записей влияет на качество определения типа высказывания. При этом использование гибридной модели при обучении менее шумных данных также повышает качество классификации.
Рисунок 2. ROC-AUC кривая для тестового набора акустической модели при обучении на маленьком корпусе
После обучения модели были выборочно прослушаны аудиозаписи из тестовой выборки. Для того, чтобы определить, у каких предложений тип интонации определяется лучше, был дополнительно размечен подкорпус из 500 предложений с хорошим качеством звука. Для каждой записи указывались характеристики двух типов: характеристики аудиозаписи и лингвистические характеристики предложения. Аудиозаписи в корпусе очень разные, поэтому для каждой записи был указан уровень громкости (высокий, средний, низкий), наличие шума (стационарный, нестационарный), обрезана запись в конце или нет. Лингвистические характеристики касались непосредственно иллокуции предложений. Сюда вошли метки вопрос-невопрос и тип интонационной конструкции. Для вопросительных предложений был дополнительно указан тип вопроса (общий, частный). Корпус был размечен вручную.
Эта разметка была необходима для определения параметров, которые влияют на качество распознавания. Тестовый набор предложений проверялся на наличие общих признаков среди интерпретированных предложений. Отдельно проверялось влияние шума на распознавание класса. Шум типа шипения в микрофоне помечался как стационарный, то есть не изменяющийся на протяжении всей записи. Аудиозаписи, в которых на слух не было слышно никаких шумов, также получали эту метку, поскольку не все шумы слышны человеческому уху. Изначальной гипотезой было то, что стационарный шум мало влияет на распознавание, в частности, потому что аудиозаписи проходили нормализацию перед обучением. А нестационарный шум, как стук посуды, телефонные звонки, звуки шагов, напротив, будет негативно влиять на определение класса. Похожая гипотеза была относительно обрезанных на конце предложений. Под обрезанными окончаниями, как правило, подразумевается обрезанный последний слог или его часть. Наличие таких примеров обусловлено вторичной нарезкой предложений, когда удалялись примеры с наложением речи. Поскольку изменение интонационного контура в вопросах часто бывает именно на конце предложения, обрезанные слоги могут влиять на качество распознавания интонации.
Для того, чтобы определить, как лексические признаки помогают в классификации предложений, отдельно просматривались примеры, классифицированные акустической и гибридной моделью.
Акустическая модель
Наибольший интерес представляли записи, интерпретированные моделью как вопросительные. Оказалось, что среди вопросительных предложений, определенных как истинно-положительные, в основном были предложения, в которых реализовывается вторая интонационная конструкция. Она характеризуется нисходящим тоном на гласном центра. При этом интонационный центр может быть на любом слове предложения. Другой особенностью ИК-2 является то, что она может присутствовать как в вопросительных предложениях (как правило, это предложения с вопросительными словами), так и в повествовательных и восклицательных. В примерах 1-2 представлены предложения из корпуса, которые были правильно классифицированы как вопросительные. Полужирным шрифтом выделен интонационный центр этих предложений.
(1) И что ты думаешь ?
(2) Ты сделала математику?
Предложения 3-4 с тем же интонационным контуром, которые были ложно интерпретированы как вопросительные:
(3) Я говорю у меня в эту сессию философия будет.
(4) Ну в понедельник в смысле, да.
В последнем примере слово понедельник логически выделено, что выражается повышением тона с усилением словесного ударения.
Вопросительные предложения, которые были определены как утвердительные, в своем большинстве имели третью интонационную конструкцию, которая типична для вопросов без вопросительных слов. Гласный центра этой конструкции сдвинут на конец предложения. Как показал анализ аудиозаписей, ложно интерпретированных как утвердительные, конечные слоги в записях могут быть обрезаны при разметке, что может быть причиной неправильной классификации.
Что касается утвердительных предложений, то абсолютное большинство из них имеет первую интонационную конструкцию. Она характеризуется нисходящим тоном на гласном центра и соответствует завершенному повествовательному предложению. У вопросительных предложений, которые были ошибочно классифицированы как повествовательные и у которых был обрезан конечный слог, интонационный контур был похож на контур утвердительных предложений.
...Подобные документы
Характеристика моделей обучения. Общие сведения о нейроне. Искусственные нейронные сети, персептрон. Проблема XOR и пути ее решения. Нейронные сети обратного распространения. Подготовка входных и выходных данных. Нейронные сети Хопфилда и Хэмминга.
контрольная работа [1,4 M], добавлен 28.01.2011Искусственные нейронные сети, строящиеся по принципам организации и функционирования их биологических аналогов. Элементарный преобразователь в сетях. Экспериментальный автопилотируемый гиперзвуковой самолет-разведчик LoFLYTE, использующий нейронные сети.
презентация [1,3 M], добавлен 23.09.2015Основные понятия и определение базы данных, этапы создания и проектирования, используемые модели. Создание базы данных "Страхование населения" для обработки данных о видах страховок, их стоимости, совершенных сделках, клиентах, сроках действия страховки.
реферат [860,5 K], добавлен 01.03.2011База данных в Microstation. Подключение растрового изображения проекта третьего корпуса СГГА в MicroStation. Создание 3D модели. Горизонтальное сечение этажа. Проекции трехмерной модели. Определение и изменение площади. Поиск объекта по базе данных.
курсовая работа [2,4 M], добавлен 26.02.2015Возможности Matlab, выполнении математических и логических операций, интерактивные инструменты построения графиков. Конструкции для обработки и анализа больших наборов данных, программные и отладочные инструменты, оптимизация данных, операций и функций.
статья [170,5 K], добавлен 01.05.2010Аппаратные и программные средства, на базе которых возможно построение локальной сети. Локальные и глобальные сети. Одноранговые и многоранговые сети. Топологии объединения группы компьютеров в локальную сеть. Используемые технологии локальных сетей.
курсовая работа [587,7 K], добавлен 12.05.2008Преимущества нейронных сетей. Модели нейронов, представляющих собой единицу обработки информации в нейронной сети. Ее представление с помощью направленных графов. Понятие обратной связи (feedback). Основная задача и значение искусственного интеллекта.
реферат [1,2 M], добавлен 24.05.2015Создание оболочки для воспроизведения аудиофайлов. Аналитический обзор языков программирования, их сравнительные характеристики, описание предметной области и формата mp3. Алгоритм разработки инсталляционного пакета. Диаграмма деятельности объектов.
курсовая работа [581,3 K], добавлен 30.01.2014Базовые архитектуры компьютеров: последовательная обработка символов по заданной программе и параллельное распознавание образов по обучающим примерам. Искусственные нейронные сети. Прототип для создания нейрона. Поведение искусственной нейронной сети.
контрольная работа [229,5 K], добавлен 28.05.2010Описание структурной схемы искусственного нейрона. Характеристика искусственной нейронной сети как математической модели и устройств параллельных вычислений на основе микропроцессоров. Применение нейронной сети для распознавания образов и сжатия данных.
презентация [387,5 K], добавлен 11.12.2015Характеристика модернизируемого компьютера. Выбор материнской платы, процессора, памяти, видео- и звукового адаптера, блока питания, жесткого диска. Сравнение цен комплектующих старого и нового компьютеров. Инструменты, используемые для модернизации.
курсовая работа [1,2 M], добавлен 29.04.2014Этапы создания и разработки базы данных. Построение модели предметной области. Разработка даталогической и физической моделей данных, способы обработки данных о сотрудниках организации. Проектирование приложений пользователя. Создание кнопочной формы.
курсовая работа [2,1 M], добавлен 14.02.2011Представление данных в памяти компьютера. Обобщенные структуры и модели данных. Методы доступа к информации. Физическая организация системы управления базами данных, структура сервера. Архитектура "клиент-сервер". Создание базы данных с помощью "Денвер".
курсовая работа [770,3 K], добавлен 17.11.2014Система управления базами данных (СУБД). Программные средства, предназначенные для создания, наполнения, обновления и удаления базы данных. Структура, модели и классификация баз данных. Создание каталогов, псевдонимов, таблиц, шаблонов и форм СУБД.
презентация [1,1 M], добавлен 09.01.2014Принципы организации и функционирования биологических нейронных сетей. Система соединенных и взаимодействующих между собой простых процессоров. Нейронные сети Маккалока и Питтса. Оценка качества кластеризации. Обучение многослойного персептрона.
курсовая работа [1,1 M], добавлен 06.12.2010Математическая модель нейронной сети. Однослойный и многослойный персептрон, рекуррентные сети. Обучение нейронных сетей с учителем и без него. Алгоритм обратного распространения ошибки. Подготовка данных, схема системы сети с динамическим объектом.
дипломная работа [2,6 M], добавлен 23.09.2013Принципы и система распознавание образов. Программное средство и пользовательский интерфейс. Теория нейронных сетей. Тривиальный алгоритм распознавания. Нейронные сети высокого порядка. Подготовка и нормализация данных. Самоорганизующиеся сети Кохонена.
курсовая работа [2,6 M], добавлен 29.04.2009Нормализация как пошаговый, циклический процесс приведения базы данных к итоговой модели. Создание таблиц и форм для их заполнения. Создание запросов, отчётов, макросов и кнопочной формы. Аппаратные, программные средства для работы программного продукта.
курсовая работа [56,9 K], добавлен 23.01.2011Используемые в компьютерах устройства памяти для хранения данных. Внутренние (оперативная и кэш-память) и внешние устройства памяти. Уровни иерархии во внутренней памяти. Подключения дисководов и управления их работой с помощью дискового контроллера.
презентация [47,7 K], добавлен 26.11.2009Модели информационного процесса обработки данных. Классификация баз данных. Сеть архитектуры и технология клиент-сервер. Создание запросов к реляционным базам данных на SQL. Работа с электронными таблицами MS Excel: форматирование данных, вычисления.
контрольная работа [17,8 K], добавлен 17.01.2010