Сравнительный анализ систем распознавания речи с открытым кодом
Изучение наиболее распространенных систем автоматического распознавания речи с открытым исходным кодом. Сравнение структуры систем и языков программирования при реализации. Разработка рекомендаций по применению систем автоматического распознавания речи.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 30.04.2018 |
Размер файла | 29,7 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Сравнительный анализ систем распознавания речи с открытым кодом
Беленко М.В. студент, Университет ИТМО
Балакшин П.В. кандидат технических наук, ассистент, Университет ИТМО
Аннотация
В статье проведен сравнительный анализ наиболее распространенных систем автоматического распознавания речи с открытым исходным кодом. При сравнении использовалось множество критериев, включая структуры систем, языки программирования при реализации, наличие подробной документации, поддерживаемые языки распознавания, ограничения накладываемые лицензией. Также были проведены эксперименты на нескольких речевых корпусах для определения скорости и точности распознавания. В результате для каждой из рассмотренных систем были выработаны рекомендации по применению с дополнительным указанием сферы деятельности.
Ключевые слова: распознавание речи, метрика, Word Recognition Rate (WRR), Word Error Rate (WER), Speed Factor (SF), открытый код
The paper provides the comparison of the most common automatic speech recognition systems with open source code. Many criteria were used at comparison, including system structures, programming languages of implementation, detailed documentation, supported recognition languages, and restrictions imposed by the license. Also, there were conducted the experiments on the several speech bases for determination of speed and accuracy of the recognition. As a result, the recommendations were given for application with additional indication of the scope of activity for each of the systems examined.
Keywords: speech recognition, metric, Word Recognition Rate (WRR), Word Error Rate (WER), Speed Factor (SF), open source code
Системы распознавания речи (англ. Automatic Speech Recognition Systems) в основном используются для моделирования привычного для человека общения с машиной, например, для голосового управления программами. В настоящее время распознавание речевых сигналов применяется в широком спектре систем - от приложений на смартфонах до систем “Умный дом” [16]. Дополнительным подтверждением актуальности данной области является множество научно-исследовательских центров и центров разработки по всему миру. Однако подавляющее большинство работающих систем являются проприетарными продуктами, т.е. пользователь или потенциальный разработчик не имеет доступа к их исходному коду. Это негативно сказывается на возможности интеграции систем распознавания речи в проекты с открытым кодом. Также не существует какого либо централизованного источника данных, описывающего положительные и отрицательные стороны систем распознавания речи с открытым кодом. В результате возникает проблема выбора оптимальной системы распознавания речи для решения поставленной задачи.
Целью исследования является выработка рекомендаций по применению систем распознавания речи с открытым исходным кодом для уменьшения затрат при выборе системы для коммерческой или научно-исследовательской деятельности.
В рамках работы были рассмотрены шесть систем с открытым исходным кодом: CMU Sphinx, HTK, iAtros, Julius, Kaldi и RWTH ASR. Выбор основан на частоте упоминания в современных научно-исследовательских журналах, существующими разработками последних лет и популярности у индивидуальных разработчиков программного обеспечения [2], [3], [6-8], [10], [11], [13], [14]. Выбранные системы сравнивались по таким показателям, как точность и скорость распознавания, удобство использования и внутренняя структура. По точности системы сравнивались по наиболее распространенным метрикам [17]: Word Recognition Rate (WRR), Word Error Rate (WER), которые вычисляются по следующим формулам:
где S - число операций замены слов, I - число операций вставки слов, D - число операций удаления слов из распознанной фразы для получения исходной фразы, а Т - число слов в исходной фразе и измеряется в процентах. По скорости распознавания сравнение было проведено с использованием Real Time Factor - показателя отношения времени распознавания к длительности распознаваемого сигнала, также известного как Speed Factor (SF). Данный показатель можно рассчитать используя формулу:
где Трасп - время распознавания сигнала, Т - его длительность и измеряется в долях от реального времени.
Все системы были обучены с применением речевого корпуса WSJ1 (Wall Street Journal 1), содержащего около 160 часов тренировочных данных и 10 часов тестовых данных, представляющих собой отрывки из газеты Wall Street Journal. Данный речевой корпус включает в себя записи дикторов обоих полов на английском языке.
После проведения эксперимента и обработки результатов была получена следующая таблица (табл. 1).
Таблица 1 - Результаты сравнения по точности и скорости
Система |
WER, % |
WRR, % |
SF |
|
HTK |
19,8 |
80,2 |
1.4 |
|
CMU Sphinx (pocketsphinx/sphinx4) |
21.4/22.7 |
78.6/77.3 |
0.5/1 |
|
Kaldi |
6.5 |
93.5 |
0.6 |
|
Julius |
23.1 |
76.9 |
1.3 |
|
iAtros |
16.1 |
83.9 |
2.1 |
|
RWTH ASR |
15.5 |
84.5 |
3.8 |
Точность и корректность исследования подтверждается тем, что полученные результаты схожи с результатами, полученными при тестировании данных систем на других речевых корпусах, таких как Verbmobil 1, Quaero, EPPS [2], [4], [9].
В качестве критериев сравнения структур были выбраны язык реализации системы, алгоритмы, используемые при распознавании, форматы входных и выходных данных и непосредственно внутренняя структура программной реализации системы.
Процесс распознавания речи в общем виде можно представить в виде следующих этапов [15]:
1. Извлечение акустических признаков из входного сигнала.
2. Акустическое моделирование.
3. Языковое моделирование.
4. Декодирование.
Подходы, алгоритмы и структуры данных, используемые рассматриваемыми системами распознавания речи на каждом из перечисленных этапов представлены в таблицах (табл. 2, 3).
Таблица 2 - Результаты сравнения алгоритмов
Система |
Извлечение признаков |
Акустическое моделирование |
Языковое моделирование |
Распознавание |
|
HTK |
MFCC |
HMM |
N-gramm |
Алгоритм Витерби |
|
CMU Sphinx (pocketsphinx/ sphinx4) |
MFCC, PLP |
HMM |
N-gramm, FST |
Алгоритм Витерби, алгоритм bushderby |
|
Kaldi |
MFCC, PLP |
HMM,GMM, SGMM, DNN |
FST, есть конвертер N-gramm->FST |
Двухпроходной алгоритм прямого-обратного хода |
|
Julius |
MFCC, PLP |
HMM |
N-gramm, Rule-based |
Алгоритм Витерби |
|
iAtros |
MFCC |
HMM, GMM |
N-gramm, FST |
Алгоритм Витерби |
|
RWTH ASR |
MFCC, PLP, voicedness |
HMM, GMM |
N-gramm, WFST |
Алгоритм Витерби |
Таблица 3 - Языки реализации систем и их структура
Система |
Язык |
Структура |
|
HTK |
С |
Модульная, в виде утилит |
|
CMU Sphinx (pocketsphinx/sphinx4) |
C/Java |
Модульная |
|
Kaldi |
C++ |
Модульная |
|
Julius |
C |
Модульная |
|
iAtros |
C |
Модульная |
|
RWTH ASR |
C++ |
Модульная |
С точки зрения удобства использования рассматривались такие показатели как подробность документации, поддержка различных программных и аппаратных сред выполнения, лицензионные ограничения, поддержка множества естественных языков распознавания, характеристики интерфейса. Результаты представлены в следующих таблицах (табл. 4, 5, 6, 7, 8).
Таблица 4 - Наличие документации
Система |
Документация |
|
HTK |
HTK Book - исчерпывающая информация |
|
CMU Sphinx (pocketsphinx/sphinx4) |
Подробная онлайн документация |
|
Kaldi |
Подробная онлайн документация |
|
Julius |
Julius Book - аналогично HTK Book |
|
iAtros |
Отсутствие документации |
|
RWTH ASR |
Неподробная документация |
Таблица 5 - Поддержка различных операционных систем
Система |
Поддерживаемые ОС |
|
HTK |
Linux, Solaris, HPUX, IRIX, Mac OS, FreeBSD, Windows |
|
CMU Sphinx (pocketsphinx/sphinx4) |
Linux, Mac OS, Windows, Android |
|
Kaldi |
Linux, Windows, FreeBSD |
|
Julius |
Linux, Windows, FreeBSD, Mac OS |
|
iAtros |
Linux |
|
RWTH ASR |
Linux, Mac OS |
автоматический распознавание речь программный
Таблица 6 - Интерфейсы систем
Система |
Интерфейс |
|
HTK |
Консольный, API |
|
CMU Sphinx (pocketsphinx/sphinx4) |
Консольный, API |
|
Kaldi |
Консольный |
|
Julius |
Консольный, API |
|
iAtros |
Консольный |
|
RWTH ASR |
Консольный |
Таблица 7 - Поддерживаемые языки распознавания
Система |
Языки |
|
HTK |
Английский |
|
CMU Sphinx (pocketsphinx/sphinx4) |
Множество языков, в том числе экзотические |
|
Kaldi |
Английский |
|
Julius |
Японский, Английский |
|
iAtros |
Английский, Испанский |
|
RWTH ASR |
Английский |
Таблица 8 - Лицензии
Система |
Лицензия |
|
HTK |
HTK |
|
CMU Sphinx (pocketsphinx/sphinx4) |
BSD |
|
Kaldi |
Apache |
|
Julius |
BSD подобная |
|
iAtros |
GPLv3 |
|
RWTH ASR |
RWTH ASR |
Проанализировав полученные выше результаты, можно составить характеристику каждой из рассматриваемых систем и выработать рекомендации по их применению.
Kaldi. Данная система показывает лучшую точность распознавания из всех рассматриваемых систем (WER=6.5%) и вторую скорость распознавания (SF=0.6). С точки зрения предоставляемых алгоритмов и структур данных, применяемых для распознавания речи, данная система тоже лидирует, так как предоставляет наибольшее количество современных подходов, применяющихся в сфере распознавания речи, таких как использование нейронных сетей и моделей гауссовых смесей на этапе акустического моделирования и использование конечных автоматов на этапе языкового моделирования. Также она позволяет использовать множество алгоритмов для уменьшения размера акустических признаков сигнала, и, соответственно, увеличивать производительность системы. Kaldi написана на языке программирования С++, что положительно сказывается на скорости работы системы, и имеет модульную структуру, что предоставляет возможность легко производить рефакторинг системы, добавление нового функционала, а также исправлять существующие ошибки. С точки зрения удобства использования Kaldi, также является одной из первых систем. Она предоставляет подробную документацию, но ориентированную на опытных в сфере распознавания речи читателей. Это может негативно сказаться на использовании данной системы новичками в этой области. Она кроссплатформенна, то есть запускается на большинстве современных операционных систем. Kaldi предоставляет только консольный интерфейс, что делает ее интеграцию в сторонние приложения затруднительной. По умолчанию данная система поддерживает только английский язык, распространяется под полностью свободной лицензией Apache, то есть может быть интегрирована в коммерческий продукт без раскрытия его кода. Данная система может с успехом применяться для научно-исследовательской деятельности, так как обеспечивает хорошую точность распознавания, приемлемую скорость распознавания, реализует множество современных методов распознавания речи, имеет множество готовых рецептов, что делает ее простой в использовании и обладает исчерпывающей документацией.
CMU Sphinx. Эта система распознавания речи показывает посредственную точность распознавания (WER~22%) и лучшую скорость распознавания из всех рассмотренных (SF=0.5). Нужно заметить, что наибольшая скорость распознавания достигается при использовании декодера pocketsphinx, написанного на С, декодер sphinx4 показывает вполне среднюю скорость работы (SF=1). Структурно данная система также использует множество современных подходов к распознаванию речи, включая модифицированный алгоритм Витерби, однако используемых подходов меньше, чем у Kaldi. В частности, на этапе акустического моделирования данная система работает только со скрытыми марковскими моделями. CMU Sphinx включает в себя два декодера - pocketsphinx, реализованный на С, и sphinx4, реализованный на Java. Это позволяет применять данную систему на множестве платформ, в том числе под управлением операционной системы Android, а также облегчает интеграцию в проекты, написанные на Java. Данная система имеет модульную структуру, что положительно сказывается на возможности быстрого внесения изменений и исправления ошибок. С токи зрения удобства использования CMU Sphinx опережает Kaldi, так как кроме консольного интерфейса предоставляет API, что существенно упрощает процесс встраивания системы в стороннее приложение. Также она обладает подробной документацией, ориентированной, в отличие от Kaldi, на начинающего разработчика, что сильно упрощает процесс знакомства с системой. Также сильной стороной данной системы является поддержка множества языков по умолчанию, то есть наличие языковых и акустических моделей этих языков в свободном доступе. Среди поддерживаемых языков кроме стандартного английского встречаются также русский, казахский и ряд других. СMU Sphinx распространяется под лицензией BSD, что разрешает ее встраивание в коммерческие проекты. Данная система может применяться в коммерческих проектах, так как обладает большинством достоинств Kaldi, хотя и обеспечивает несколько худшую точность распознавания, а также предоставляет API, которое можно использовать для построения сторонних приложений на базе данной системы.
HTK. С точки зрения точности и скорости работы данная система показывает средние результаты из рассмотренных систем (WER=19.8%, SF=1.4). HTK предоставляет только классические в сфере распознавания речи алгоритмы и структуры данных. Это связано с тем, что с тем, что выпуск предыдущей версии системы был произведен в 2009 году. В конце декабря 2015 года была выпущена новая версия HTK, однако она не была рассмотрена в данном исследовании. Реализована данная система на языке С, что хорошо отражается на скорости работы, так как C является низкоуровневым языком программирования. По структуре данная система представляет собой набор утилит, вызываемых из командной строки, а также предоставляет API, известное под названием ATK. С точки зрения удобства использования HTK, наравне с Julius, является лидирующей системой из рассмотренных. В качестве документации она предоставляет HTK Book - книгу, описывающую не только аспекты работы HTK, но и общие принципы работы систем распознавания речи. По умолчанию данная система поддерживает только английский язык. Распространяется под лицензией HTK, которая разрешает распространение исходного кода системы. Данную систему можно порекомендовать для использования в образовательной деятельности в сфере распознавания речи. Она реализует большинство классических подходов к решению проблемы распознавания речи, обладает очень подробной документацией, которая также описывает основные принципы распознавания речи в целом, и имеет множество обучающих статей и рецептов.
Julius. Данная система показывает худший показатель точности (WER=23.1) и средний показатель скорости распознавания (SF=1.3). Этапы акустического и языкового моделирования осуществляются с помощью утилит, входящих в состав HTK, однако декодирование происходит с помощью своего декодера. Он, как и большинство рассмотренных систем, использует алгоритм Витерби. Реализована данная система на языке С, структура реализации является модульной. Система предоставляет консольный интерфейс и API для интеграции в сторонние приложения. Документация, как и в HTK, реализована в форме книги Julius book. По умолчанию Julius поддерживает английский и японский языки. Распространяется под BSD подобной лицензией. Систему Julius можно также порекомендовать для образовательной деятельности, так как она обладает всеми плюсами HTK, и также предоставляет возможность распознавать такой экзотический язык как японский.
Iatros. Данная система показывает хороший результат по точности распознавания (WER=16.1%) и посредственный результат по скорости (SF=2.1). Она весьма ограничена в возможностях касательно алгоритмов и структур данных, применяющихся при распознавании речи, однако предоставляет возможность использовать модели гауссовых смесей в качестве состояний скрытой марковской модели на этапе акустического моделирования. Реализована данная система на языке С. Имеет модульную структуру. Кроме функционала распознавания речи содержит в себе также модуль распознавания текста. Это не имеет большого значения для данного исследования, однако является отличительно особенностью данной системы, про которую нельзя не упомянуть. С точки зрения удобства использования iAtros проигрывает всем рассмотренным в ходе исследования системам. Данная система не обладает документацией, не предоставляет API для встраивания в сторонние приложения, из поддерживаемых по умолчанию языков представлены английский и испанский. Является совершенно не кроссплатформенной, так как запускается только под управлением операционных систем семейства Linux. Распространяется под лицензией GPLv3, которая не позволяет встраивать данную систему в коммерческие проекты без раскрытия их исходного кода, что делает ее непригодной для использования в коммерческой деятельности. Система iAtros с успехом может использоваться там, где кроме распознавания речи необходимо еще применение распознавания образов, так как данная система предоставляет такую возможность.
RWTH ASR. По точности распознавания RWTH ASR показывает неплохой результат (WER=15.5%), однако по скорости распознавания является худшей системой из рассмотренных (SF=3.8). Данная система так же как и iAtros может использовать модели гауссовых смесей на этапе акустического моделирования. Отличительной чертой является возможность использования характеристики звонкости при извлечении акустических характеристик входного сигнала. Также данная система может использовать взвешенный конечный автомат в качестве языковой модели на этапе языкового моделирования. Данная система реализована на языке С++ и имеет модульную архитектуру. По удобству использования является второй с конца, имеет документацию, описывающую только процесс установки, чего явно недостаточно для начала работы с системой. Предоставляет только консольный интерфейс, по умолчанию поддерживает только английский язык. Система недостаточно кроссплатформенна, так как не может работать под управлением операционной системы Windows, которая сильно распространена в настоящее время. Распространяется под лицензией RWTH ASR, по которой код системы предоставляется только для некоммерческого использования, что делает данную систему непригодной для интеграции в коммерческие проекты. Данная система может применяться для решения задач, где важна точность распознавания, но не важно время. Также стоит заметить, что она совершенно непригодна для какой-либо коммерческой деятельности из-за ограничений, накладываемых лицензией.
Список литературы
1. CMU Sphinx Wiki [Электронный ресурс]. - URL: http://cmusphinx.sourceforge.net/wiki/ (дата обращения: 09.01.2017)
2. Gaida C. Comparing open-source speech recognition toolkits [Электронный ресурс]. / C. Gaida et al. // Technical Report of the Project OASIS. - URL: http://suendermann.com/su/pdf/oasis2014.pdf (дата обращения: 12.02.2017)
3. El Moubtahij H. Using features of local densities, statistics and HMM toolkit (HTK) for offline Arabic handwriting text recognition / H. El Moubtahij, A. Halli, K. Satori // Journal of Electrical Systems and Information Technology - 2016. - V. 3. №3. - P. 99-110.
4. Jha M. Improved unsupervised speech recognition system using MLLR speaker adaptation and confidence measurement / M. Jha et al. // V Jornadas en Tecnologэas del Habla (VJTH'2008) - 2008. - P. 255-258.
5. Kaldi [Электронный ресурс]. - URL: http://kaldi-asr.org/doc
6. Lujбn-Mares M. iATROS: A SPEECH AND HANDWRITING RECOGNITION SYSTEM / M. Lujбn-Mares, V. Tamarit, V. Alabau et al. // V Journadas en Technologia del Habla - 2008. - P. 75-58.
7. El Amrania M.Y. Building CMU Sphinx language model for the Holy Quran using simplified Arabic phonemes / M.Y. El Amrania, M.M. Hafizur Rahmanb, M.R. Wahiddinb, A. Shahb // Egyptian Informatics Journal - 2016. - V. 17. №3. - P. 305-314.
8. Ogata K. Analysis of articulatory timing based on a superposition model for VCV sequences / K. Ogata, K. Nakashima // Proceedings of IEEE International Conference on Systems, Man and Cybernetics - 2014. - January ed. - P. 3720-3725.
9. Sundermeyer The rwth 2010 quaero asr evaluation system for english, french, and german / M. Sundermeyer et al. // Proceedings of International Conference on Acoustics, Speech and Signal Processing (ICASSP) - 2011. - P. 2212-2215.
10. Алимурадов А.К. АДАПТИВНЫЙ МЕТОД ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ ГОЛОСОВОГО УПРАВЛЕНИЯ / А.К. Алимурадов, П.П. Чураков // Труды Международной научно-технической конференции «Перспективные информационные технологии» - 2016. - С. 196-200.
11. Бакаленко В.С. Интеллектуализация ввода-вывода кода программы с помощью речевых технологий: дис. … магистра техники и технологии. - ДонНТУ, Донецк, 2016.
12. Балакшин П.В. Алгоритмические и программные средства распознавания речи на основе скрытых марковских моделей для телефонных служб поддержки клиентов: дис. … канд. техн. наук : 05.13.11 : защищена 10.12.2015 : утв. 08.06.2016 / Балакшин Павел Валерьевич. - СПб.: Университет ИТМО, 2014. - 127 с.
13. Балакшин П.В. ФУНКЦИЯ ПЛОТНОСТИ ДЛИТЕЛЬНОСТИ СОСТОЯНИЙ СММ. ПРЕИМУЩЕСТВА И НЕДОСТАТКИ 2011. - № 1. - С. 36-39. URL: http://www.science-education.ru/ru/article/view?id=4574.
14. Беленко М.В. СРАВНИТЕЛЬНЫЙ АНАЛИЗ СИСТЕМ РАСПОЗНАВАНИЯ РЕЧИ С ОТКРЫТЫМ КОДОМ / М.В. Беленко // Сборник трудов V Всероссийского конгресса молодых ученых. Т. 2. - СПб.: Университет ИТМО, 2016. - С. 45-49.
15. Гусев М.Н. Система распознавания речи: основные модели и алгоритмы / М.Н. Гусев, В.М. Дегтярев. - СПб.: Знак, 2013. - 128 с.
16. Карпов А.А. Многомодальные ассистивные системы для интеллектуального жилого пространства / А.А. Карпов, Л. Акарун, А.Л. Ронжин // Труды СПИИРАН. - 2011. - Т. 19. - №. 0. - С. 48-64.
17. Карпов А.А. Методология оценивания работы систем автоматического распознавания речи / А.А. Карпов, И.С. Кипяткова // Известия высших учебных заведений. Приборостроение. - 2012. - Т. 55. - №. 11. - С. 38-43.
Размещено на Allbest.ru
...Подобные документы
Появление технических систем автоматического распознавания. Человек как элемент или звено сложных автоматических систем. Возможности автоматических распознающих устройств. Этапы создания системы распознавания образов. Процессы измерения и кодирования.
презентация [523,7 K], добавлен 14.08.2013Разработка программной базы для исследований в области распознавания речи и поиска ключевых слов в ней. Расчет mel-фильтров. Скрытые марковские модели. Применение в алгоритме сверточного декодирования Витерби. Методы визуализации и обработки аудиоданных.
курсовая работа [1,1 M], добавлен 01.06.2015Основные понятия теории распознавания образов и ее значение. Сущность математической теории распознавания образов. Основные задачи, возникающие при разработке систем распознавания образов. Классификация систем распознавания образов реального времени.
курсовая работа [462,2 K], добавлен 15.01.2014Понятие системы распознавания образов. Классификация систем распознавания. Разработка системы распознавания формы микрообъектов. Алгоритм для создания системы распознавания микрообъектов на кристаллограмме, особенности его реализации в программной среде.
курсовая работа [16,2 M], добавлен 21.06.2014Строение артикуляционного аппарата человека с точки зрения возможности распознавания речи по артикуляции. Комплекс параметров артикуляции на основе контура внутренней области губ. Реализация модуля распознавания фонем русской речи по изображениям губ.
дипломная работа [3,1 M], добавлен 19.08.2012Принцип работы нейросетей и модели синтеза. Ключевые моменты проблемы распознавания речи. Система распознавания речи как самообучающаяся система. Описание системы: ввод звука, наложение первичных признаков на вход нейросети, модель и обучение нейросети.
курсовая работа [215,2 K], добавлен 19.10.2010Оптико-электронная система идентификации объектов подвижного состава железнодорожного транспорта. Автоматический комплекс распознавания автомобильных номеров. Принципы и этапы работы систем оптического распознавания. Особенности реализации алгоритмов.
дипломная работа [887,3 K], добавлен 26.11.2013Основные цели и задачи построения систем распознавания. Построение математической модели системы распознавания образов на примере алгоритма идентификации объектов военной техники в автоматизированных телекоммуникационных комплексах систем управления.
дипломная работа [332,2 K], добавлен 30.11.2012Методы предобработки изображений текстовых символов. Статистические распределения точек. Интегральные преобразования и структурный анализ. Реализация алгоритма распознавания букв. Анализ алгоритмов оптического распознавания символов. Сравнение с эталоном.
курсовая работа [2,1 M], добавлен 20.09.2014Распознавание слов в слитной речи, изолированных слов. Проблема автоматического распознавания речи. Структурная схема устройства выделения признаков речевых сигналов. Моделирование работы блока выделения начала и окончания слова количества звуков на ЭВМ.
дипломная работа [649,5 K], добавлен 13.11.2008Анализ систем распознавания поведения лабораторных мышей. Классификация движений на основе построенных дескрипторов. Существующие методы обнаружения движения, разработка соответствующего программного обеспечения и оценка его эффективности, функции.
дипломная работа [1,1 M], добавлен 16.09.2017Теория автоматического управления как наука, предмет и методика ее изучения. Классификация систем автоматического управления по различным признакам, их математические модели. Дифференциальные уравнения систем автоматического управления, их решения.
контрольная работа [104,1 K], добавлен 06.08.2009Необходимость в системах распознавания символов. Виды сканеров и их характеристики. Оптимальное разрешение при сканировании. Программы распознавания текста. Получение электронного документа. FineReader - система оптического распознавания текстов.
презентация [469,2 K], добавлен 15.03.2015Распознавание образов - задача идентификации объекта или определения его свойств по его изображению или аудиозаписи. История теоретических и технических изменений в данной области. Методы и принципы, применяемые в вычислительной технике для распознавания.
реферат [413,6 K], добавлен 10.04.2010Обзор задач, возникающих при разработке систем распознавания образов. Обучаемые классификаторы образов. Алгоритм персептрона и его модификации. Создание программы, предназначенной для классификации образов методом наименьшей среднеквадратической ошибки.
курсовая работа [645,2 K], добавлен 05.04.2015Функции текстового редактора как программы для работы с текстом. Использование редактора MS Word в научной деятельности исследователя-ономаста. Технология распознавания текста и организация работы с программой FineReader. Системы распознавания речи.
реферат [979,3 K], добавлен 16.10.2013Выбор типа и структуры нейронной сети. Подбор метода распознавания, структурная схема сети Хопфилда. Обучение системы распознавания образов. Особенности работы с программой, ее достоинства и недостатки. Описание интерфейса пользователя и экранных форм.
курсовая работа [3,0 M], добавлен 14.11.2013Методы распознавания образов (классификаторы): байесовский, линейный, метод потенциальных функций. Разработка программы распознавания человека по его фотографиям. Примеры работы классификаторов, экспериментальные результаты о точности работы методов.
курсовая работа [2,7 M], добавлен 15.08.2011Анализ биометрических систем идентификации личности по отпечаткам пальцев, форме кисти руки, оболочке глаза. Лицо как биометрический идентификатор. Анализ рынка систем распознавания личности. Оценка эффективности систем идентификации по геометрии лица.
курсовая работа [1,8 M], добавлен 30.05.2013Бесплатная среда разработки программного обеспечения с открытым исходным кодом для компилятора Free Pascal. Почему Lazarus такой популярный. Корректность введенных данных. Использование основных методов визуализации в среде программирования Lazarus.
курсовая работа [695,5 K], добавлен 19.04.2013