Извлечение вопроса из звукового корпуса

Создание модели по определению вопросительной интонации в разговорной речи как примере шумных данных. Признаки, используемые при распознавании. Программные инструменты обработки аудиофайлов. Рекуррентные нейронные сети долгосрочно–краткосрочной памяти.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 23.09.2018
Размер файла 92,6 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Анализ примеров показал, что примеры с низким уровнем громкости и большим количеством нестационарных шумов распознаются хуже и могут классифицироваться неправильно, что подтверждает первоначальную гипотезу. Порядка 90% от нераспознанных вопросительных предложений, которые были прослушаны, имели невысокое качество и обрезанные окончания.

Гибридная модель

После добавления к акустических признакам лексических качество классификации существенно улучшилось. Большинство примеров, определенные моделью неправильно, получили верные метки класса. Однако стоит отметить ошибки, которые остались в гибридной модели. Неправильно классифицированы были предложения, которые формально не относятся ни к классу вопросительных, ни к классу повествовательных предложений. Это восклицательные высказывания и близкие к ним риторические вопросы.

(5) Позанимайся!

(6) Так а спросить у меня можно было ?! позвонить и спросить ?!

В целом гибридная модель показывает хорошие результаты при классификации и вопросительных, и утвердительных предложений. Стоит отметить, что несмотря на очень высокие результаты, полученные на отобранных вручную примерах с высоким качеством, в реальных задачах распознавания речи и интонации качество записи может быть далеко не идеального качества, с большим количеством помех и оговорок. Поэтому наиболее репрезентативными результатами являются числа в таблице 1.

Заключение

Настоящая работа описывает модель по определению вопросительной интонации на материале звукового корпуса русской спонтанной речи. В качестве эксперимента были использованы записи спонтанных диалогов на русском языке. Данные были нормализованы и обработаны для дальнейшего обучения при помощи нейронных сетей долго-краткосрочной памяти (LSTM).

Результаты показывают преимущество использования гибридных моделей (AUC 85%) в задачах распознавания интонации перед акустическими (AUC 64%) и лексическими моделями (AUC 81%).

В ходе исследования было выяснено, что изучаемая модель, обученная на предложенных данных, лучше определяет вопросительные предложения, содержащие второй интонационный контур. Наибольшее число ошибок встретилось в предложениях с третьим интонационным контуром, что может быть обусловлено неточностями в первичной сегментации звуковых файлов. Часть ошибок классификации по акустическим признакам успешно решается добавлением лексических данных в формате векторных представлений слов.

Результаты также показали, что качество аудиозаписей тоже влияет на результат обучения. Немаловажную роль играет предварительная обработка звукового сигнала, качество сегментации длинных звуковых дорожек на более короткие и их нормализация относительно шума и способа кодирования информации.

Полученные результаты могут быть использованы в различных системах распознавания и синтеза разговорной речи.

Перспективы исследования заключаются в построении классификатора для определения большего количества типов речевых актов. В работе рассматривалась задача бинарного классификатора, однако она может быть развернута до выделения множества классов или их подклассов. Для этой задачи также может быть использован исследованный корпус.

Список литературы

1. Брызгунова 1968 -- Е. А. Брызгунова. Звуки и интонация русской речи. М: “Русский язык”, 1968.

2. Шведова 1980 -- Русская грамматика. Т. 1 / Н. Ю. Шведова (гл. ред.). М: “Наука”, 1980.

3. Звуковой корпус 2014 -- Звуковой корпус как материал для анализа русской речи. Коллективная монография. Часть 2. Теоретические и практические аспекты анализа. Том 1. О некоторых особенностях устной спонтанной речи разного типа. Звуковой корпус как материал для преподавания русского языка в иностранной аудитории. / Отв. ред. Н. В. Богданова-Бегларян. Санкт-Петербург: Филологический факультет СПбГУ, 396 с.

4. Розенталь, Теленкова 1976 -- Словарь-справочник лингвистических терминов. / Д. Э. Розенталь, М. А. Теленкова(ред.). Изд. 2-е. М.: “Просвещение”,1976.

5. Николаева, 1977 -- Т. М. Николаева. Фразовая интонация славянских языков. М.: "Наука", 1977.

6. Ярцева 1998 -- Языкознание. Большой энциклопедический словарь. В. Н. Ярцева (гл. ред.).M., 1998.

7. Abadi et al. 2016 -- M. Abadi, A. Agarwal, P. Barham, E. Brevdo, Z. Chen, C. Citro, G. Corrado, A. Davis, J. Dean, M. Devin. Tensorflow: Large-scale machine learning on heterogeneous distributed systems, 2016. (URL: http://download.tensorflow.org/paper/whitepaper2015.pdf)

8. Aida-Zade et al. 2006 -- К. R. Aida-Zade, C. Ardil and S.S. Rustamov. Investigation of Combined use of MFCC and LPC Features in Speech Recognition Systems // Proceedings of world academy of science, engineering and technology. Volume 12. May 2006.

9. Austin 1975 -- J. L. Austin. How to do things with words. Oxford university press, 1975.

10. Bala et al. 2010 -- A. Bala, A. Kumar , N. Birla. Voice Command Recognition System Based on MFCC and DTW // International Journal of Engineering Science and Technology, Vol. 2 (12), 2010.

11. Bao et al. 2014 -- W. Bao, Y Li., M. Gu, J. Tao, L. Chao, S. Liu. Combining prosodic and spectral features for Mandarin intonation recognition // Proc. International Symposium on Chinese Spoken Language Processing (ISCSLP), pp. 497-500, 2014.

12. Batista, Mamede 2011 -- F. Batista, N. Mamede. Recovering Capitalization and Punctuation Marks on Speech Transcriptions. 2011. (URL: http://www.inesc-id.pt/publications/8292/pdf)

13. Bhattacharjee 2013 -- U. Bhattacharjee. A Comparative Study Of LPCC And MFCC Features For The Recognition Of Assamese Phonemes // International Journal of Engineering Research & Technology (IJERT), Vol. 2 Issue 1, January- 2013.

14. Bhupinder et al. 2012 -- S. Bhupinder, K. Rupinder, D. Nidhi, K. Ramandeep. The process of Feature Extraction in Automatic Speech Recognition System for Computer Machine Interaction with Humans: A Review // IJARCSSE, Volume 2, Issue 2, February 2012.

15. Boakye 2009 -- K. Boakye, B. Favre, D. Hakkani-Tur. Any Questions? Automatic Question Detection in Meetings. Conference: Automatic Speech Recognition & Understanding // ASRU 2009. IEEE Workshop

16. Bogert et al. 1963 -- B. P. Bogert, M. J. R. Healy, and J. W. Tukey. The quefrency analysis of times series for echos: Cepstrum, pseudo-autocovariance, cross-cepstrum, and saphe cracking // Proceedings of the Symposium on Time Series Analysis, (M. Rosenblatt, ed.), New York: John Wiley and Sons, Inc., 1963.

17. Chen et al. 2017 -- B. Chen, T. Bian, K. Yu. Discrete Duration Model For Speech Synthesis. // Interspeech 2017. August 20-24, 2017, Stockholm, Sweden.

18. Chen et al. 2010 -- Z. Chen, G. Hu, W. Jiang. Improving Prosodic Phrase Prediction by Unsupervised Adaptation and Syntactic Features Extraction. // Interspeech, 2010.

19. Dave 2013 -- N. Dave. Feature Extraction Methods LPC, PLP and MFCC In Speech Recognition. International Journal. of Advance Research in Engineering and Technology, Volume 1, Issue VI, July 2013.

20. Davies 2005 -- Computer Assisted Language Learning: Where are we now and where are we going? // Keynote speech at the University of Ulster Centre for Research in Applied Languages UCALL conference: “Developing a pedagogy for CALL”, 13-15 June 2005

21. Demenko 2012 -- Demenko G. Intonation processing for speech technology, 2012. (URL: http://www.ptfon.pl/files/2012_01-04.pdf)

22. Eyben et al. 2010 -- F. Eyben, M. Wцllmer, B. Schuller. openSMILE - The Munich Versatile and Fast Open-Source Audio Feature Extractor // MM '10 Proceedings of the 18th ACM international conference on Multimedia, 2010.

23. Fawaz 2017 -- F. S. Al-Anzi, D. AbuZeina. The Capacity of Mel Frequency Cepstral Coefficients for Speech Recognition // World Academy of Science, Engineering and Technology International Journal of Computer and Information Engineering, 2017.

24. Fernandez, Rosalind 2002 -- R. Fernandez, W. Rosalind. Dialog act classification from prosodic features using support vector machines // In SP-2002. P. 291-294.

25. Graves et al. 2013 -- A. Graves, A. Mohamed and G. Hinton. Speech recognition with deep recurrent neural networks // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2013.

26. Hirst, Cristo 1998 -- D. Hirst and A. di Cristo (eds.) Intonation Systems: A survey of 20 languages. Cambridge: Cambridge University Press, 1998.

27. Hochreiter 1997 -- S. Hochreiter and J. Schmidhuber. Long short-term memory // Neural computation 9.8, 1997. P. 1735-1780.

28. Huang et al. 2001 -- X. D. Huang, A. Acero and H. Hon. Spoken Language Processing -- A Guide to Theory, algorithms, and System Development, Prentice Hall, Upper Saddle River, NJ, 2001.

29. Jurafsky et al. 1998 -- D. Jurafsky, E. E. Shriberg, B. Fox and T. Curl. Lexical prosodic, and syntactic cues for dialog acts // Proceedings of ACL/COLING98 Workshop on Discourse Relations and Discourse Markers, pp. 114-120. Association for Computational. Linguistics, 1998.

30. Wang, Chua 2010 -- K. Wang, T. Chua. Exploiting Salient Patterns for Question Detection and Question Retrieval in Community-based Question Answering // COLING '10 Proceedings of the 23rd International Conference on Computational Linguistics, 2010. P. 1155-1163.

31. Kinnunen, Li 2010 -- T. Kinnunen, H. Li. An overview of text-independent speaker recognition: From features to supervectors // Speech Comm. 52 (1), 2010. P. 12- 40.

32. Liu 2006 -- Y. Liu. Using SVM and error-correcting codes for multiclass dialog act classification in meeting corpus // Interspeech-2006.

33. Lobanov 2016 -- B. M. Lobanov. Comparison of Melodic Portraits of English and Russian Dialogic Phrase // Компьютерная лингвистика и интеллектуальные технологии: По мате-риалам ежегодной международной конференции «Диалог» (Москва, 1-4 июля 2016 г.). Вып. 15 (22). -- М.: Изд-во РГГУ, 2016. С. 382-392.

34. Local, Ogden 1997 -- J. K. Local and R. Ogden. A model of timing for nonsegmental phonological structure. // Jan P.H. van Santen, R W. Sproat, J. P. Olive & J. Hirschberg (eds.) Progress in Speech Synthesis. Springer, New York. 109-122, 1997.

35. Lippmann 1997 -- R. P. Lippmann. Speech recognition by machines and humans // Speech communication, vol. 22, no. 1, pp. 1-15, 1997

36. Margolis, Ostendorf 2011 -- A. Margolis, M. Ostendorf. Question Detection in Spoken Conversations Using Textual Conversations // HLT '11 Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies: short papers -- Volume 2, 2011. P. 118-124.

37. Moniz et al. 2010 -- H. Moniz, F. Batista, I. Trancoso, A. I. Mata. Analysis of Interrogatives in Different Domains // Esposito A., Esposito A.M., Martone R., Mьller V.C., Scarpetta G. (eds) Toward Autonomous, Adaptive, and Context-Aware Multimodal Interfaces. Theoretical and Practical Issues. Lecture Notes in Computer Science, vol 6456. Springer, Berlin, Heidelberg, 2010.

38. Ogden et al. 2000 -- R. Ogden, S. Hawkins, J. House, M. Huckvale, J. Local P. Carter, J. Dankovicova, and S. Heid. “Prosynth: an integrated prosodic approach to device-independent, natural.-sounding speech synthesis,” Computer Language and Science, 2000. P. 177-210.

39. Povey et al. 2011 -- The Kaldi Speech Recognition Toolkit, 2011 (URL: https://infoscience.epfl.ch/record/192584/files/Povey_ASRU2011_2011.pdf)

40. Ramirez et al. 2007 -- J. Ramirez, J. M. Girriz, and J. C. Segura. Voice activity detection. fundamentals and speech recognition system robustness // Robust Speech Recognition and Understanding, M. Grimm and K. Kroschel (eds.), Vienna, Austria, June 2007, p. 460.

41. Rashmi 2014 -- C. R. Rashmi.Review of algorithms and Applications in Speech Recognition System // (IJCSIT) International Journal of Computer Science and Information Technologies, Vol. 5 (4) , 2014.

42. Safarova, Swerts 2004 -- M. Safarova, M. Swerts. On recognition of declarative questions in English // Proc. of Speech and Prosody. Nara, Japan, 2004. P. 313-316.

43. Shriberg et al. 1998 -- E. Shriberg, R. Bates, A. Stolcke, P. Taylor, D. Jurafsky, K. Ries, N. Coccaro, R. Martin, M. Meteer, and C. V. Ess-Dykema. Can prosody aid the automatic classification of dialog acts in conversational speech? // Language and Speech, vol. 41, 1998. P. 439-487

44. Stolcke, Droppo 2017 -- A. Stolcke, J. Droppo. Comparing Human and Machine Errors in Conversational Speech Transcription. Interspeech-2017. August 20-24, 2017.

45. Strцmbergsson et al. 2012 -- S. Strцmbergsson, J. Edlund, D. House. Question types and some prosodic correlates in 600 questions in the Spontal database of Swedish dialogues // Proc. of Speech Prosody 2012. Shanghai, China. 2012.

46. Surendran, Levow 2006 -- D. Surendran and . Levow. Dialog act tagging with support vector machines and hidden Markov models // Proc. Interspeech, 2006. P. 1950- 1953.

47. Tang et al. 2016 -- Y. Tang, Y. Huang, Z. Wu, H. Meng, M. Xu, L. Cai1. Question detection from acoustic features using recurrent neural network with gated recurrent unit // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2016.

48. Zen et al. 2007 -- H. Zen, A.W. Black and K. Tokuda. Statistical parametric speech synthesis // Proc. ICASSP, 2007. P. 1229-1232.

49. Hibare, Vibhute 2014 -- R. Hibare, A. Vibhute. Feature Extraction Techniques in Speech Processing: A Survey // International Journal of Computer Applications (0975 - 8887) Volume 107 - No 5, December 2014.

50. Quang et al. 2006 -- V.-M. Quang, Tran D.D. & Castelli E. Prosody of interrogative and affirmative sentences in vietnamese language: Analysis and perceptive results // Interspeech 2006, Pitsburg, Pennsylvania, US, 2006.

51. Quang et al. 2007 -- V.-M. Quang, L. Besacier and E. Castelli. Automatic question detection: prosodic-lexical features and crosslingual experiments // Proc. Interspeech ICSLP, Antwerp, Belgium, Aug. 27-31 2007. P. 2257-2260.

52. Xiong et al. 2016 -- W. Xiong, J. Droppo, X. Huang, F. Seide, M. Seltzer, A. Stolcke, D. Yu, and G. Zweig, “Achieving human parity in conversational speech recognition”, Technical Report MSR-TR-2016-71, Microsoft Research, Oct. 2016.

53. Venkataraman et al. 2003 -- A. Venkataraman, L. Ferrer, A. Stolcke and E. Shriberg. Training a prosody-based dialog act tagger from unlabeled data. // Proc. Int. Conference on Acoustics, Speech, and Signal Processing, volume 1, April, 2003. P. 272-275.

54. Wang et al. 2011 -- Y. Wang, J. Jia, L. Cai. Analysis of Chinese interrogative intonation and its synthesis in HMM-Based synthesis system // Proc. International Conference on Internet Computing and Information Services (ICICIS), 2011. P. 343-346.

55. Zhao et al. 2010 -- S. Zhao,K. K. Luke, S. Koh, Y. Zhang, Computer aided evaluation of intonation for language learning based on prosodic unit segmentation // Proc. APSIPA ASC, 2010. P. 788-793.

56. SoX tool, свободный кроссплатформенный аудиоредактор (URL: http://sox.sourceforge.net)

57. ELAN tool, приложение для обработки и разметки аудио- и видеофайлов: (URL: https://tla.mpi.nl/tools/tla-tools/elan/elan-description/)

58. Pydub, python-библиотека для обработки аудио: (URL: https://github.com/jiaaro/pydub)

59. SpeechKit: (URL: https://tech.yandex.ru/speechkit/)

Размещено на Allbest.ru

...

Подобные документы

  • Характеристика моделей обучения. Общие сведения о нейроне. Искусственные нейронные сети, персептрон. Проблема XOR и пути ее решения. Нейронные сети обратного распространения. Подготовка входных и выходных данных. Нейронные сети Хопфилда и Хэмминга.

    контрольная работа [1,4 M], добавлен 28.01.2011

  • Искусственные нейронные сети, строящиеся по принципам организации и функционирования их биологических аналогов. Элементарный преобразователь в сетях. Экспериментальный автопилотируемый гиперзвуковой самолет-разведчик LoFLYTE, использующий нейронные сети.

    презентация [1,3 M], добавлен 23.09.2015

  • Основные понятия и определение базы данных, этапы создания и проектирования, используемые модели. Создание базы данных "Страхование населения" для обработки данных о видах страховок, их стоимости, совершенных сделках, клиентах, сроках действия страховки.

    реферат [860,5 K], добавлен 01.03.2011

  • База данных в Microstation. Подключение растрового изображения проекта третьего корпуса СГГА в MicroStation. Создание 3D модели. Горизонтальное сечение этажа. Проекции трехмерной модели. Определение и изменение площади. Поиск объекта по базе данных.

    курсовая работа [2,4 M], добавлен 26.02.2015

  • Возможности Matlab, выполнении математических и логических операций, интерактивные инструменты построения графиков. Конструкции для обработки и анализа больших наборов данных, программные и отладочные инструменты, оптимизация данных, операций и функций.

    статья [170,5 K], добавлен 01.05.2010

  • Аппаратные и программные средства, на базе которых возможно построение локальной сети. Локальные и глобальные сети. Одноранговые и многоранговые сети. Топологии объединения группы компьютеров в локальную сеть. Используемые технологии локальных сетей.

    курсовая работа [587,7 K], добавлен 12.05.2008

  • Преимущества нейронных сетей. Модели нейронов, представляющих собой единицу обработки информации в нейронной сети. Ее представление с помощью направленных графов. Понятие обратной связи (feedback). Основная задача и значение искусственного интеллекта.

    реферат [1,2 M], добавлен 24.05.2015

  • Создание оболочки для воспроизведения аудиофайлов. Аналитический обзор языков программирования, их сравнительные характеристики, описание предметной области и формата mp3. Алгоритм разработки инсталляционного пакета. Диаграмма деятельности объектов.

    курсовая работа [581,3 K], добавлен 30.01.2014

  • Базовые архитектуры компьютеров: последовательная обработка символов по заданной программе и параллельное распознавание образов по обучающим примерам. Искусственные нейронные сети. Прототип для создания нейрона. Поведение искусственной нейронной сети.

    контрольная работа [229,5 K], добавлен 28.05.2010

  • Описание структурной схемы искусственного нейрона. Характеристика искусственной нейронной сети как математической модели и устройств параллельных вычислений на основе микропроцессоров. Применение нейронной сети для распознавания образов и сжатия данных.

    презентация [387,5 K], добавлен 11.12.2015

  • Характеристика модернизируемого компьютера. Выбор материнской платы, процессора, памяти, видео- и звукового адаптера, блока питания, жесткого диска. Сравнение цен комплектующих старого и нового компьютеров. Инструменты, используемые для модернизации.

    курсовая работа [1,2 M], добавлен 29.04.2014

  • Этапы создания и разработки базы данных. Построение модели предметной области. Разработка даталогической и физической моделей данных, способы обработки данных о сотрудниках организации. Проектирование приложений пользователя. Создание кнопочной формы.

    курсовая работа [2,1 M], добавлен 14.02.2011

  • Представление данных в памяти компьютера. Обобщенные структуры и модели данных. Методы доступа к информации. Физическая организация системы управления базами данных, структура сервера. Архитектура "клиент-сервер". Создание базы данных с помощью "Денвер".

    курсовая работа [770,3 K], добавлен 17.11.2014

  • Система управления базами данных (СУБД). Программные средства, предназначенные для создания, наполнения, обновления и удаления базы данных. Структура, модели и классификация баз данных. Создание каталогов, псевдонимов, таблиц, шаблонов и форм СУБД.

    презентация [1,1 M], добавлен 09.01.2014

  • Принципы организации и функционирования биологических нейронных сетей. Система соединенных и взаимодействующих между собой простых процессоров. Нейронные сети Маккалока и Питтса. Оценка качества кластеризации. Обучение многослойного персептрона.

    курсовая работа [1,1 M], добавлен 06.12.2010

  • Математическая модель нейронной сети. Однослойный и многослойный персептрон, рекуррентные сети. Обучение нейронных сетей с учителем и без него. Алгоритм обратного распространения ошибки. Подготовка данных, схема системы сети с динамическим объектом.

    дипломная работа [2,6 M], добавлен 23.09.2013

  • Принципы и система распознавание образов. Программное средство и пользовательский интерфейс. Теория нейронных сетей. Тривиальный алгоритм распознавания. Нейронные сети высокого порядка. Подготовка и нормализация данных. Самоорганизующиеся сети Кохонена.

    курсовая работа [2,6 M], добавлен 29.04.2009

  • Нормализация как пошаговый, циклический процесс приведения базы данных к итоговой модели. Создание таблиц и форм для их заполнения. Создание запросов, отчётов, макросов и кнопочной формы. Аппаратные, программные средства для работы программного продукта.

    курсовая работа [56,9 K], добавлен 23.01.2011

  • Используемые в компьютерах устройства памяти для хранения данных. Внутренние (оперативная и кэш-память) и внешние устройства памяти. Уровни иерархии во внутренней памяти. Подключения дисководов и управления их работой с помощью дискового контроллера.

    презентация [47,7 K], добавлен 26.11.2009

  • Модели информационного процесса обработки данных. Классификация баз данных. Сеть архитектуры и технология клиент-сервер. Создание запросов к реляционным базам данных на SQL. Работа с электронными таблицами MS Excel: форматирование данных, вычисления.

    контрольная работа [17,8 K], добавлен 17.01.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.