Розробка методів і алгоритмів звуковисотного і темпоритмічного розпізнавання послідовності музичних звуків
Розробка алгоритмів, які забезпечують звуковисотне і темпоритмічне розпізнавання записаних послідовностей музичних звуків. Створення інформаційної технології, яка здійснює перетворення амплітудно-часового подання даних послідовностей у нотний текст.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | автореферат |
Язык | украинский |
Дата добавления | 26.09.2015 |
Размер файла | 103,8 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
ДЕРЖАВНИЙ УНІВЕРСИТЕТ ІНФОРМАТИКИ І ШТУЧНОГО ІНТЕЛЕКТУ
АВТОРЕФЕРАТ
дисертації на здобуття наукового ступеня
кандидата технічних наук
05.13.23 - СИСТЕМИ ТА ЗАСОБИ ШТУЧНОГО ІНТЕЛЕКТУ
РОЗРОБКА МЕТОДІВ І АЛГОРИТМІВ ЗВУКОВИСОТНОГО І ТЕМПОРИТМІЧНОГО РОЗПІЗНАВАННЯ ПОСЛІДОВНОСТІ МУЗИЧНИХ ЗВУКІВ
Жук Олександр Вікторович
Донецьк - 2009
ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ
Актуальність. Методи і алгоритми розпізнавання музики є складовою частиною систем і засобів штучного інтелекту (ШІ). Одним із напрямків ШІ, що активно розвиваються на сучасному етапі, є створення апаратно-програмних комплексів, що імітують процеси сприйняття та розпізнавання музики та музичних творів. Результатом розпізнавання музики є нотація виконаної музики, тобто музичний звуковий сигнал на вході системи перетворюється у символьне подання (нотний текст) на виході системи.
Пошуком розв'язання проблем, подібних до тих, що постають у процесі розпізнавання музики, займаються різні дисципліни: психоакустика, розпізнавання мовлення, музикознавство.
Початок дослідженням в галузі імітації аудитивного сприйняття музики людиною було покладено на початку 70-х років у роботах Сандберга, Тьєрнланда, Аскенфельта, Ештона, Ноултона і Мюрера. Подальший розвиток тематика знайшла в роботах Піщальськи, Галлера, Боссемеєра, Хатаміана, Люфта, Шафе, Мон-Рейно, Раша, Фостера, Шлосса, Рокмора, Голдштейна, Ніїхари та Інокучі. Питання, пов'язані зі звуковисотним розпізнаванням музичних звуків, розглядалися у більш пізніх роботах Шлосса, Шафе, Джаффе, Кашими, Мон-Рейно і Сміта. Розпізнаванням ритмічних характеристик послідовності музичних звуків займалися Лонже-Хіґґінс, Лі, Повел, Ессенс, Десаї, Бамбергер, Розенталь, Хьонінг, де Рійк і Кларк. Методики управління темпом відтворення акомпанементу в реальному масштабі часу розроблялися Мон-Рейно, Данненбергом, Алленом і Букштайном.
У вітчизняній науці роботи із «штучного сприйняття музики» проводилися Тангяном. Теоретичні роботи в галузі формалізації поняття контрапункту і сильної долі належать Іглицькому і Бороді, відповідно. В Україні роботи в суміжній галузі - цифровій обробці звукових сигналів - проводилися колективами під керівництвом Вінцюка, Крака, Карпова, Шелєпова. Роботи, пов'язані із синтезом музичних творів з використанням апарату зростаючих нейронних мереж, належать Ященко.
Не зважаючи на досить довгу історію розвитку питання, задача розпізнавання фонограм музичних творів не є вирішеною остаточно на сьогоднішній день. В роботі показано, що існуючі методи та методики звуковисотного та темпоритмічного розпізнавання послідовності музичних звуків мають ряд недоліків. Це визначає актуальність удосконалення і розробки цих методів та методик, а також алгоритмів на їх основі. Також актуальною є розробка інформаційної технології на цих засадах для отримання результатів розпізнавання (нотного тексту) у звичному для людини представленні.
Зв'язок роботи з науковими програмами, планами, темами. Дисертаційна робота виконана у відділі розпізнавання мовних образів Інституту проблем штучного інтелекту МОН і НАН України відповідно до плану науково-дослідної роботи в рамках держбюджетної теми: «Розроблення комп'ютерної системи введення і відтворення нотного тексту з інтелектуальними функціями», шифр НТІФ-2007, № 0106U012655, «Розробка автоматичної комп'ютерної системи розпізнавання фонограм музичних творів», шифр РФМТ-2009, № 0109U002905. Автор брав участь у виконанні робіт за названими темами як відповідальний виконавець по розділах «Розробка системи введення і відтворення нотного тексту» і «Розробка системи автоматичного акомпанування».
Мета і завдання дослідження. Метою дисертаційної роботи є розробка методів і алгоритмів, що забезпечують звуковисотне і темпоритмічне розпізнавання записаних послідовностей музичних звуків, і створення на їх базі інформаційної технології, що дозволяє здійснювати перетворення амплітудно-часового подання даних послідовностей у нотний текст. Для досягнення поставленої мети необхідно вирішити наступні завдання:
- проаналізувати існуючі методи автоматичного звуковисотного і темпоритмічного розпізнавання послідовності музичних звуків;
- розробити методики і алгоритми визначення частотного складу музичного звукового сигналу з подальшою фільтрацією отриманих значень для підвищення точності результатів, розробити на базі отриманих методик алгоритм визначення моменту зміни частотного складу звукового сигналу в реальному масштабі часу за умови наявності апріорної інформації відносно очікуваної послідовності змін;
- формалізувати з позицій теорії розпізнавання образів задачу розпізнавання тривалостей як ритмічних одиниць, розробити методики і алгоритми грубого розпізнавання тривалостей і корекції результатів грубого розпізнавання з урахуванням інформації відносно загальних ритмічних характеристик послідовності музичних звуків, а також методики і алгоритми визначення загальних ритмічних характеристик послідовності тривалостей;
- розробити методику і алгоритм корекції темпу відтворення акомпанементу на основі інформації про відповідні зміни темпу в партії соліста;
- на основі створених методик і алгоритмів розробити інформаційну технологію обробки і аналізу послідовності музичних звуків, здійснити перевірку функціонування розроблених методик і алгоритмів для визначення їх ефективності.
Об'єкт дослідження - музичний твір як послідовність змін частотного складу звукового сигналу з перебігом часу.
Предмет дослідження - методи визначення частотного складу звукового сигналу, методики розпізнавання ритмічних одиниць і загальних ритмічних характеристик послідовності музичних звуків.
Методи дослідження. У дисертаційній роботі використовуються: методи аналізу звукового сигналу в амплітудно-часовій і амплітудно-частотній областях для визначення квазіперіоду основного тону і частотного складу звукового сигналу; методи зростаючих областей для фільтрації результатів визначення частотного складу звукового сигналу; методи теорії розпізнавання образів для побудови ознакової моделі і класифікаторів тривалостей як ритмічних одиниць музичного твору.
Наукова новизна отриманих результатів. У ході виконання дисертаційних досліджень було отримано наступні основні результати, що відображають наукову новизну роботи:
1. Запропоновано метод визначення основних частотних компонент музичного звуку на основі аналізу як амплітудно-часового, так і амплітудно-частотного подання сигналу, що підвищило точність аналізу у порівнянні з методами, що використовують лише амплітудно-частотне подання сигналу.
2. Отримали подальший розвиток методики розпізнавання ритмічних одиниць за рахунок використання дворівневого класифікатора, що дозволяє на першому етапі виконувати грубе розпізнавання на основі попередньої кластеризації і розпізнавання без навчання, а на другому - корегування результатів за допомогою аналізу з використанням знань про загальні ритмічні характеристики послідовності ритмічних одиниць і мінімізацією кількості синкоп. Використання такого підходу дозволяє зменшити кількість параметрів, що задаються апріорно, при збереженні точності розпізнавання.
3. Вдосконалено методики апостеріорного визначення загальних ритмічних характеристик послідовності ритмічних одиниць за рахунок пошуку ритмічно однорідних фрагментів і мінімізації кількості синкоп, що дозволяє отримати більш високі показники точності визначення розміру і затакту.
4. На базі розроблених методів, методик і алгоритмів створено нову інформаційну технологію обробки і аналізу послідовності музичних звуків, що дозволяє за оцифрованим звуковим сигналом отримати відповідний нотний текст.
Практична значимість роботи:
1. Розроблені методики і алгоритми визначення квазіперіоду основного тону звукового сигналу може бути застосовано в системах розпізнавання мовлення при побудові підсистем автоматичного запису для визначення наявності мовлення в сигналі.
2. Розроблений метод визначення основних частотних компонент музичного звуку може бути застосовано для детектування формант при аналізі звукових сигналів, що містять мовлення, в системах розпізнавання мовлення й ідентифікації диктора. Окрім того, цей метод може бути застосовано для визначення кількості джерел періодичних звукових сигналів і частотних складових кожного з джерел.
3. Розроблені методики і алгоритми корегування результатів розпізнавання тривалостей може бути застосовано при побудові систем оптичного розпізнавання зображень, що містять нотний текст.
4. Розроблені методики і алгоритми аналізу і розпізнавання послідовності музичних звуків може бути застосовано для більш ефективного вирішення завдань ідентифікації і пошуку музичної інформації в мережі Інтернет.
5. Створену інформаційну технологію може бути використано при навчанні студентів-музикантів для набуття навиків точного звуковисотного і темпоритмічного сприйняття і виконання.
Отримані в роботі теоретичні результати використовуються при навчанні студентів у курсах «Цифрова обробка сигналів і розпізнавання мовлення», «Обробка природної мови», «Основи побудови систем розпізнавання образів», «Обробка апріорної інформації в системах розпізнавання образів». Елементи створеної інформаційної технології використовуються в навчальному процесі Донецької державної музичної академії та 4 продуктах ТОВ “Media Art Publisher”, що підтверджено відповідними актами про впровадження.
Особистий внесок здобувача. Усі основні положення, теоретичні і практичні результати дисертаційної роботи, які виносяться на захист, отримані автором самостійно. У публікаціях, написаних у співавторстві, авторові належить: [4,8] - ієрархічна модель нотного тексту; [7] - ознакова модель завдання розпізнавання тривалостей як ритмічних одиниць музичного твору; [11] - модифікована методика ВПФ та методика визначення моменту зміни квазіперіода основного тону музичного звуку за умови наявності інформації про очікувану послідовність змін; [12] - підхід до синхронізації акомпанементу та партії солісту за допомогою контрольних та направляючих точок.
Апробація роботи. Основні результати дисертаційної роботи доповідалися на:
VI Міжнародній науково-практичній конференції «Інтелектуальні і багатопроцесорні системи - 2005, Штучний інтелект - 2005» (с-ще Дивноморське, Геленджикський район, Краснодарський край, Росія, 2005 рік);
VII Міжнародній науково-практичній конференції «Інтелектуальні і багатопроцесорні системи - 2006, Штучний інтелект - 2006» (Кацивелі, Україна, 2006 рік);
VIII Міжнародній науково-практичній конференції «Інтелектуальні і багатопроцесорні системи - 2007, Штучний інтелект - 2007» (с-ще Дивноморське, Геленджикський район, Краснодарський край, Росія, 2007 рік);
Міжнародній конференції “50 років інституту кібернетіки імені В.М. Глушкова НАН Україні” (Київ, Україна, 2008 рік);
IX Міжнародній науково-практичній конференції «Інтелектуальні і багатопроцесорні системи - 2008, Штучний інтелект - 2008» (Кацивелі, Україна, 2008 рік).
Публікації. Матеріали дисертації опубліковані в 11 наукових публікаціях. Серед них 6 - в спеціалізованих професійних журналах, затверджених ВАК України, 4 публікації є тезами в збірниках праць міжнародних конференцій. За матеріалами дисертації також отримано патент на спосіб керування темпом відтворення музичного твору.
Структура і обсяг дисертації. Дисертаційна робота складається із вступу, чотирьох розділів, висновків, списку використаних джерел, додатків. Містить 33 рисунки і 6 таблиць на 115 сторінках, список використаних джерел з 116 найменувань на 10 сторінках. Повний обсяг роботи - 134 сторінки машинописного тексту.
ОСНОВНИЙ ЗМІСТ РОБОТИ
музичний звук алгоритм амплітудний
У вступі обґрунтовано актуальність теми дисертаційної роботи, сформульовано мету, завдання і методи дослідження, вказано зв'язок вибраного напрямку досліджень з планами організації, в якій виконано роботу, наводяться основні наукові результати, отримані в роботі, її практична значимість.
У першому розділі проведено аналіз вітчизняної і зарубіжної літератури, пов'язаної з темою дисертаційної роботи. Розглянуто особливості розподілу музичних звуків за частотами в рамках темперованої музичної шкали. Проаналізовано методи визначення частотного складу звукового сигналу в амлітудно-часовій і в амплітудно-частотній областях. Виділено особливість методів аналізу в амплітудно-часовій області, що полягає в орієнтованості на пошук повторюваних фрагментів сигналу максимальної довжини. До недоліків методів даної групи можна віднести порівняно високу обчислювальну складність і високий відсоток помилкових результатів. Як особливість методів аналізу в амплітудно-частотній області виділено орієнтованість на пошук кожної частотної компоненти, що міститься в сигналі. Існуючі методи аналізу частотного складу враховують можливу кореляцію між піками на різних частотах, проте не враховують додаткову інформацію, яку можна отримати в результаті аналізу в амплітудно-часовій області. Проаналізовано також методи розпізнавання тривалостей і загальних ритмічних характеристик музичного твору. Основним недоліком існуючих методів розпізнавання тривалостей є велика кількість параметрів, що задаються апріорно, і відсутність інваріантності відносно темпу відтворення послідовності тривалостей. Здійснений аналіз дозволив сформулювати завдання, вибрати методи визначення частотного складу сигналу, розпізнавання тривалостей і загальних ритмічних характеристик музичного твору, що розглядаються далі в роботі.
У другому розділі дисертації розроблено новий метод визначення основних частотних компонент музичного звуку і вдосконалено методику визначення квазіперіоду основного тону музичного звукового сигналу, що дозволяють зменшити кількість отримуваних помилок. За рахунок змін у функціоналі мети, було покращено методику визначення квазіперіоду сигналу, яка ґрунтується на математичному визначенні періоду функції (ВПФ). Крім того, було запропоновано метод виділення основних частотних компонент із музичного звукового сигналу на основі аналізу як в амплітудно-частотній, так і в амплітудно-часовій областях. З метою зменшення кількості помилок, отримуваних при аналізі, було запропоновано методику фільтрації результатів визначення частотного складу музичного звукового сигналу, яка ґрунтується на методах зростаючих областей. Було також запропоновано методику визначення моменту зміни квазіперіоду основного тону музичного звукового сигналу в реальному масштабі часу за умови апріорно відомої послідовності змін періодів.
При аналізі методики ВПФ було помічено, що покажчик (сума змінних різниць)
(1)
де - номер відліку сигналу, починаючи з якого виконуються розрахунки;
- значення -го відліку сигналу;
- ймовірне значення періоду, ;
не лише досягає глобального мінімуму при значенні , що збігається з квазіперіодом сигналу, але також сягає локальних мінімумів в усіх . Для більшої виразності даної властивості (1) було введено усереднену суму змінних різниць:
(2)
Тоді, вводячи на базі (2) покажчик
,(3)
пошук значення квазіперіоду сигналу можна звести до пошуку перевищення поточним значенням покажчика (3) попереднього більш ніж в 3 рази і фіксацією значення як рішення.
На основі виявлених в першому розділі особливостей методів аналізу в амплітудно-часовій і амплітудно-частотній областях можна сформулювати наступну умову для визначення квазіперіоду сигналу, що містить одну частотну компоненту. Починаючи з -го відліку сигналу сформуємо множини максимумів покажчиків амплітудно-часового та амплітудно-частотного аналізу:
(4)
(5)
де;
- функція, що повертає нормоване значення покажчика (3);
- функція, що повертає нормоване значення амплітуди спектру звукового сигналу для гармоніки з періодом .
За множинами і необхідно сформувати множину :
.(6)
Множина - множина можливих значень квазіперіодів. Остаточно шукане значення квазіперіоду сигналу вибирається за формулою:
.(7)
У разі наявності в сигналі декількох частотних компонент, квазіперіод сигналу дорівнює найменшому спільному кратному (НСК) їх періодів. У разі роботи з музичними звуками НСК можна замінити на округлене найменше спільне кратне (ОНОК):
,(8)
де - функція, що обчислює квазіперіод ноти з номером у відповідності до темперованої музичної шкали;
- функція, що обчислює номер ноти для квазіперіода у відповідності до темперованої музичної шкали.
Множину за аналогією з (6) у даному випадку необхідно формувати так:
.(9)
Відповідно, зміниться і функціонал (7) вибору правильного рішення
.(10)
При необхідності пошуку найбільших частотних компонент формули (8), (9), (10) набудуть вигляду:
,(11)
(12)
.(13)
Для корекції результатів визначення квазіперіодів частотних компонент сигналу було запропоновано методику, засновану на методах зростаючих областей. Найбільш поширеним методом боротьби з імпульсними шумами є різні модифікації медіанних (рангових) фільтрів. Слід зазначити, що використання рангових фільтрів породжує декілька проблем:
1) зсув точки зміни періоду основного тону сигналу;
2) неповне усунення помилкових входжень у разі, коли довжина їх скупчень перевищує половину вікна фільтрації.
Усунути пропуск помилкових входжень може багатократне застосування фільтру, проте це призведе до ще більшого зсуву точки зміни періоду основного тону сигналу.
У той же час, виявляється можливим застосувати замість фільтрації методи сегментації, схожі з методами центроїдного зв'язування і вододілу. Суть пропонованої методики полягає в наступному. У якості похідних даних виступає періодограма, побудована за допомогою одного з методів визначення частотного складу звукового сигналу. Відбувається поступове збільшення розмірів знайдених сегментів (безперервних областей точок на періодограмі) і створення нових, якщо аналізована у даний момент точка не може бути включена в жоден сегмент. Точку можна включати до сегменту лише в тому випадку, коли значення періоду в ній співпадає зі значенням періоду в сегменті. При цьому вказаний процес протікає в рамках одного рівня значень періоду і переходить на наступний лише після повного аналізу поточного рівня. Оскільки в більшості випадків помилкові значення періодів більше дійсних, рівні необхідно аналізувати у порядку убування значень періодів. У якийсь момент сегмент, що збільшується в розмірах, може виявитися таким, що граничить із вже обробленим сегментом з іншим значенням періоду основного тону. В цьому випадку можливими є 2 шляхи розвитку подій:
1) обидва сегменти визнаються рівноцінними відносно мінімальної припустимої довжини і збільшення сегменту в цьому напрямі припиняється;
2) в протилежному випадку другий сегмент поглинається першим, і збільшення першого сегменту продовжується.
Такий підхід зберігає всі переваги використання рангових фільтрів, але, в той же час, не призводить до зсуву точки зміни періоду основного тону сигналу, що дозволяє при необхідності багатократно фільтрувати послідовність значень, не зміщуючи границі між звуками із різними значеннями періодів основного тону.
При розробці методики визначення моменту зміни періоду основного тону сигналу за умови апріорно відомої послідовності очікуваних змін, що описуються послідовністю , за основу було взято спостереження про властивості сум змінних різниць (1).
На рис.1 наведено графік сум змінних різниць, обчислених з фіксованим для усього звукового сигналу. Як видно з рис. 1, зміна значень може служити індикатором початку або кінця звуку, за умови, що період основного тону цього звуку відомий заздалегідь.
пауза |
звук з періодом |
звук з періодом, відмінним від |
пауза |
Рис. 1. Поведінка сум змінних різниць, обчислених для періоду основного тону
Через те, що послідовність зміни періодів основного тону сигналу задана апріорно, обчислення значень сум змінних різниць лише для поточного періоду основного тону (а не для всіх можливих значень) знімає проблему виконання обчислень у реальному масштабі часу.
Період основного тону в сигналі вважається таким, що змінився, якщо виконується наступна умова:
.(14)
Розроблені в другому розділі методи і методики визначення квазіперіоду і частотного складу звукового сигналу дозволяють виконати сегментацію цього сигналу на області, однорідні за частотним складом. Кожен сегмент є двійкою виду , де - множина знайдених у сигналі частотних компонент, - часова тривалість сегменту. Множина других компонент даних про сегмент являє собою похідні дані для завдання розпізнавання основних ритмічних характеристик і ритмічних одиниць (тривалостей) музичного твору.
У третьому розділі розроблено та обгрунтовано з позицій теорії розпізнавання образів ознакову модель тривалостей як ритмічних одиниць. Показано, що джерелом помилок є наявність єдиної ознаки розпізнавання і сильне перекриття класів. Для подолання цих складнощів пропонується використовувати дворівневий класифікатор, перший рівень якого призначений для визначення центрів класів для оброблюваної послідовності тривалостей і розпізнавання на основі цієї інформації. Результатом роботи першого рівня такого класифікатора буде послідовність грубо розпізнаних тривалостей, подальша обробка і корекція якої здійснюється на другому рівні класифікатора за рахунок мінімізації кількості синкоп. Дана обробка передбачає наявність інформації про загальні ритмічні характеристики послідовності тривалостей, що розпізнається: ритмічний розмір і величину затакту. Також у розділі запропонована методика визначення загальних ритмічних характеристик послідовності тривалостей на основі пошуку ритмічно однакових фрагментів і мінімізації кількості синкоп. На основі викладених у розділі методик запропоновано структурну схему системи розпізнавання тривалостей і ритмічних характеристик послідовності музичних звуків.
Нехай - послідовність часових довжин музичних звуків, тривалості яких необхідно визначити. Ознака розпізнавання для даного завдання є лише одна - це величина , причому це ймовірнісна ознака розпізнавання. Загальна кількість класів тривалостей, що найбільш часто зустрічаються, становить близько 60, області цих класів сильно перекриваються. Для підвищення надійності розпізнавання необхідно обмежити набір класів таким чином, щоб перекриття їх областей було найменшим. Множину таких класів складають основні тривалості і тривалості з крапкою. Для кожної оброблюваної послідовності тривалостей положення центрів класів у просторі ознак буде відрізнятися, тому для визначення положення центрів кожного з класів у просторі ознаки як перший крок грубого розпізнавання запропоновано використовувати кластеризацію.
При відомому положенні центрів класів у просторі ознаки розпізнавання для власне розпізнавання без навчання необхідним є знання закону розподілу ознаки усередині кожного з класів. Оскільки в даному випадку йдеться про грубе розпізнавання, то для розпізнавання можна скористатися критерієм максимуму правдоподібності, тобто:
,(15)
де - значення ознаки розпізнавання об'єкту;
- -й клас;
- функція розподілу ознаки розпізнавання усередині -го класу.
Якщо прийняти закон розподілу усередині класів тривалостей рівномірним, то (15) можна буде переписати у вигляді:
,(16)
де - значення ознаки розпізнавання, що відповідає центру -го класу;
- вірогідність помилки віднесення до -го класу при відхиленні від центру, що дорівнює .
Враховуючи, що закон розподілу рівномірний, можна (16) спростити до
.(17)
Тобто розпізнавання відповідно до запропонованого закону розподілу образів усередині класу здійснюється шляхом визначення найбільш близького до даного образу центру класу. Результат розпізнавання найдоцільніше виразити двійкою виду
,(18)
де - номер розпізнаного класу тривалостей;
- міра помилки розпізнавання, .
Побудований у такий спосіб грубий класифікатор тривалостей може помилятися лише в межах сусідніх класів, що дозволяє увести альтернативне рішення таким чином:
,(19)
При корекції результатів грубого розпізнавання було запропоновано використовувати принцип мінімізації кількості синкоп у оброблюваній послідовності тривалостей. У музиці під синкопою розуміють відносно невеликий локальний зсув тривалості щодо її «нормальної» ритмічної позиції. Для більшості відомих музичних розмірів перевірити, чи породжує дана тривалість синкопу, можна, скориставшись формулою:
,(20)
де - позиція тривалості усередині такту;
- довжина тривалості;
- операція отримання цілої частини числа.
У випадку, якщо набуває ненульового значення, синкопа присутня. В той же час, у музиці існують такі значення розмірів такту, для яких дана формула не працює. Тому більш загальним способом опису синкоп буде використання таблиць виду 1 для кожного з розмірів такту, що розглядаються при аналізі. У таких таблицях ненульові значення елементів відповідають позиціям у такті (стовпець), на яких може знаходитися тривалість (строка) і не породжувати при цьому синкопу. В табл. 1 наводяться дані для розміру такту . Причому найменшою тривалістю, відносно якої і здійснюється визначення позиції усередині такту, прийнято шістнадцяту.
Таблиця 1. Типова таблиця завдання можливих положень тривалостей для розміру
Ціла |
|||||||||
Половинна |
1 |
||||||||
Четвертна |
1 |
1 |
|||||||
Восьма |
1 |
1 |
1 |
1 |
|||||
Шістнадцята |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
Запропонована методика корекції результатів грубого розпізнавання тривалостей, що задається послідовністю , передбачає знання про загальні ритмічні характеристики оброблюваної послідовності і заснована на припущенні, що корекція результатів грубого розпізнавання полягає у виборі між (18) і (19).
Вважається, що корекція необхідна лише в тому випадку, якщо аналізована тривалість породжує синкопу. В цьому випадку необхідно або скорегувати саму тривалість, якщо це дозволяє усунути синкопу, або сформувати множину кандидатів на корекцію :
(21)
Корегувати необхідно тривалість із найбільшою мірою помилки розпізнавання:
.(22)
Оскільки є можливими декілька варіантів корекцій, то весь процес пошуку є сенс проводити усередині дерева прийняття рішень, що дозволить зменшити загальну обчислювальну складність даної методики.
У найбільш загальному вигляді запропоновану методику визначення загальних ритмічних характеристик послідовності музичних звуків можна подати так:
1. У вхідній послідовності тривалостей необхідно знайти найбільш довгі підпослідовності, що не перетинаються, максимально схожі між собою;
2. Дані підпослідовності необхідно проаналізувати стосовно відомих величин розміру на предмет початку з однаковою ритмічної долі усередині тактів, що містять початки підпослідовностей;
3. За результатами аналізу необхідно виділити лише ті величини розміру і конфігурації затакту, можливі в рамках вихідної послідовності тривалостей, які задовольняють пред'явленим до них вимогам (п. 2). Ці набори і складуть множину кандидатів на розпізнавання.
4. Для елементів отриманої в п. 3 множини кандидатів на розпізнавання необхідно обчислити кількість синкоп стосовно аналізованої послідовності тривалостей.
У четвертому розділі описано створену інформаційну технологію аналізу послідовності музичних звуків і проведено чисельне дослідження ефективності алгоритмів, розроблених на базі приведених у другому і третьому розділах методів і методик.
Розроблена програма-нотний редактор надає набір засобів для вводу, редагування і відтворення нотного тексту, об'єднуючи усі інші модулі в єдине ціле. У модулі розпізнавання послідовності музичних звуків реалізовано алгоритм визначення квазіперіоду основного тону музичного звукового сигналу, алгоритм визначення основних частотних компонент музичного звуку, алгоритм фільтрації результатів визначення частотного складу, а також алгоритми розпізнавання тривалостей і визначення загальних ритмічних характеристик послідовності тривалостей. У модулі автоматичного акомпанування реалізовано алгоритми визначення моменту зміни квазіперіоду основного тону сигналу в реальному масштабі часу за умови апріорно відомої послідовності очікуваних змін і алгоритм корекції темпу відтворення акомпанементу на основі змін темпу, що спостерігаються в партії соліста.
- квазіперіод основного тону.
Результати порівняння обчислювальної складності і якості отримуваних результатів алгоритмів визначення квазіперіоду основного тону звукового сигналу наведено в табл. 2. При цьому використано наступні позначення: - максимальна кількість задіяних відліків, - квазіперіод основного тону.
Таблиця 2. Обчислювальна складність і точність отримуваних результатів алгоритмів визначення квазіперіоду основного тону звукового сигналу
Аналіз спектру Фур'є (1) |
Стандартний ВПФ (2) |
Модифікований ВПФ (3) |
Обробка в реальному часі (4) |
||
Обчислювальна складність |
|||||
Типові значення параметрів |
|||||
Точність результатів |
10% |
8% |
5% |
3% |
За критерій оцінки точності отримуваних результатів було взято середню відносну кількість помилок:
,(23)
де - кількість виконаних оцінок квазіперіоду основного тону;
- послідовність дійсних значень квазиперіоду основного тону музичного звукового сигналу;
- послідовність визначених значень квазиперіоду основного тону музичного звукового сигналу;
- функція перевірки помилки,
.(24)
Результати порівняння обчислювальної складності і якості отримуваних результатів алгоритмів визначення основних частотних компонент музичного звуку наведено в табл. 3. Формула (24) для даного випадку має бути модифікована так:
.(25)
У табл. 4 наведено результати застосування апостеріорного фільтру значень квазіперіодів до розглянутих раніше алгоритмів.
Таблиця 3. Обчислювальна складність і точність отримуваних результатів алгоритмів визначення основних частотних компонент музичного звуку
Пошук максимальних піків (5) |
Аналіз кратних частот (6) |
Комбінований алгоритм (7) |
||
Обчислювальна складність |
||||
Типові значення параметрів |
||||
Точність результатів |
15% |
10% |
5% |
Таблиця 4. Результати застосування апостеріорного фільтру значень до виходу алгоритмів визначення квазіперіоду основного тону і основних частотних компонент музичного звуку
(1) |
(2) |
(3) |
(4) |
(5) |
(6) |
(7) |
||
Без фільтру |
10% |
8% |
5% |
3% |
15% |
10% |
5% |
|
З фільтром |
3% |
2% |
0,5% |
0,5% |
10% |
8% |
1% |
Розроблений алгоритм розпізнавання тривалостей порівнювався з алгоритмами, реалізованими в таких системах, як Sibelius, Cakewalk, Cubase SX, Logic Pro Audio. Кількість помилок розпізнавання в даному випадку залежить не лише від використовуваного методу, але і від суб'єктивного чинника - користувача, що відтворює послідовність музичних звуків. Навчитися ефективно використовувати кожен з даних засобів можна. Проте розроблений алгоритм вимагає менше апріорної інформації. Дані порівняння наведено в табл. 5.
Таблиця 5. Набір апріорних даних, необхідних алгоритмам розпізнавання тривалостей
Sibelius |
Cakewalk |
Cubase SX |
Logic Pro Audio |
Розроблений алгоритм |
||
Мінімальна тривалість, що розпізнається |
+ |
+ |
+ |
+ |
+ |
|
Загальні ритмічні характеристики |
+ |
+ |
+ |
+ |
+/- |
|
Темп |
+ |
+ |
+ |
+ |
- |
|
Наявність нестандартних тривалостей |
- |
+ |
+ |
+ |
+/- |
|
Перша тривалість у послідовності |
- |
- |
- |
- |
+ |
Таким чином, у четвертому розділі було описано інформаційну технологію аналізу послідовності музичних звуків і проведено чисельне дослідження ефективності розроблених алгоритмів.
ВИСНОВКИ
1. У ході виконання роботи було здійснено аналіз існуючих методів автоматичного розпізнавання фонограм музичних творів, що дозволило визначити актуальність розробок в даній області і виконати постановку завдання дослідження.
2. Модифіковано методику ВПФ визначення квазіперіоду основного тону сигналу в амплітудно-часовій області через врахування властивостей сум змінних різниць. Це дозволило підвищити точність визначення квазіперіоду основного тону для музичних звуків на 3-5% і, в той же час, знизити обчислювальну складність у порівнянні з оригінальною методикою.
3. Розроблено метод і алгоритм визначення основних частотних компонент музичного звуку на основі інтеграції методів амплітудно-часового і амплітудно-частотного аналізу, що дозволяють підвищити точність визначення основних частотних компонент у порівнянні з методами, що використовують лише аналіз в амплітудно-частотній області. Застосування такого підходу дозволило збільшити точність отримуваних результатів на 5-10%.
4. Розроблено методику і алгоритм фільтрації значень квазіперіодів, що дозволяє в значній мірі підвищити точність результатів визначення частотного складу звукового сигналу: після фільтрації результатів визначення квазіперіоду основного тону або основних частотних компонент музичного звуку точність отримуваних результатів збільшується на 3-7%.
5. На базі модифікованої методики ВПФ розроблено методику і алгоритм визначення моменту зміни квазіперіоду основного тону в сигналі в реальному масштабі часу за умови наявності апріорної інформації про очікувані зміни. При збереженні точності отримуваних результатів на рівні модифікованого алгоритму ВПФ, необхідну кількість операцій було зменшено на порядок.
6. Формалізовано з позицій теорії розпізнавання образів задачу розпізнавання тривалостей як ритмічних одиниць, що дозволило застосувати методи розпізнавання образів для побудови дворівневого розпізнавача тривалостей. Розроблено методику і алгоритм грубого розпізнавання тривалостей, а також методику і алгоритм корегування результатів грубого розпізнавання тривалостей із врахуванням знань про загальні ритмічні характеристики аналізованої послідовності музичних звуків.
7. Вдосконалено методику і розроблено алгоритм апостеріорного визначення загальних ритмічних характеристик послідовності музичних звуків за рахунок роботи з ритмічно однорідними фрагментами аналізованої послідовності і мінімізації кількості синкоп, що дозволило зменшити кількість необхідної апріорної інформації.
8. Розроблено методику і алгоритм корекції темпу відтворення акомпанементу із врахуванням змін темпу, що відбуваються в партії соліста.
9. На основі отриманих методів, методик і алгоритмів створено інформаційну технологію аналізу і обробки послідовності музичних звуків.
ПЕРЕЛІК ОПУБЛІКОВАНИХ РОБІТ ЗА ТЕМОЮ ДИСЕРТАЦІЇ
1. Жук А.В. Компьютерная система ввода и воспроизведения нотного текста «SOLO» / Жук А.В. // Искусственный интеллект. - 2005. - № 4. - С. 602-612.
2. Жук А.В. Распознавание последовательности звуков одноголосной мелодии по высоте / Жук А.В. // Искусственный интеллект. - 2006. - № 2. - С. 305-312.
3. Жук А.В. Алгоритмы динамического управления темпом электронного аккомпанемента со стороны солиста / Жук А.В. // Искусственный интеллект. - 2006. - № 4. - С. 749-757.
4. Азаренко Д.С. Способ структурного анализа изображения нотного текста для дальнейшего распознавания / Азаренко Д.С., Жук А.В. // Искусственный интеллект. - 2007. - № 1. - С. 110-116
5. Жук А.В. Алгоритмы оценки частоты основного тона сигнала / Жук А.В. // Известия ТРТУ. Тематический выпуск «Интеллектуальные и многопроцессорные системы». - 2006. - № 16 (71). - С. 97-101.
6. Жук А.В. Алгоритм беспорогового определения частотного состава звукового сигнала / Жук А.В. // Искусственный интеллект. - 2007. - №4. - С. 364-372.
7. Шелепов В.Ю. Задача распознавания длительностей как ритмических единиц музыкального произведения / Шелепов В.Ю., Жук А.В. // Искусственный интеллект. - 2008. - №4. - С. 803-809.
8. Азаренко Д.С. Способ структурного анализа изображения страницы нотного текста для дальнейшего распознавания / Азаренко Д.С., Жук А.В.// Материалы Седьмой Международной научно-теоретической конференции «Искусственный интеллект. Интеллектуальные и многопроцессорные системы». Т. 3. - Таганрог: Изд-во ТРТУ, - 2006. - С. 153-157.
9. Жук А.В. Алгоритмы динамического управления темпом электронного аккомпанемента со стороны солиста / Жук А.В. // Седьмой Международной научно- теоретической конференции «Искусственный интеллект. Интеллектуальные и многопроцессорные системы». Т. 1. - Таганрог: Изд-во ТРТУ, - 2006. - C. 97-101.
10. Жук А.В. Алгоритм беспорогового определения частотного состава звукового сигнала / Жук А.В. // Материалы Международной научно-технической конференции «Искусственный интеллект. Интеллектуальные системы - 2007». - Донецк: ИПИИ «Наука і освіта», - 2007. - С. 113-119.
11. Шевченко А.I. Алгоритми оцінювання частоти основного тону сигналу в задачі розпізнавання музичних творів / Шевченко А.I., Жук О.В. // Праці міжнародної конференції. 50 років інституту кібернетики імені В.М. Глушкова НАН України. - Київ, 2008. - С. 280-284.
12. Патент України № 85847 “Спосіб автоматичного керування темпом відтворення музичного твору”. Власник: Інститут проблем штучного інтелекту МОН України і НАН України, винахідники Шелєпов В.Ю., Жук О.В. // Промислова власність. Бюл. №5, 10.03.2009.
Размещено на Allbest.ru
...Подобные документы
Комп’ютерне моделювання системи сегментації та розпізнавання облич на зображеннях. Підвищення швидкодії моделювання за кольором шкіри та покращення якості розпізнавання при застосуванні робастних boosting-методів. Розробка алгоритмів функціонування.
дипломная работа [1,6 M], добавлен 02.07.2014Розробка, дослідження та реалізація методів вирішення завдань аналізу, розпізнавання і оцінювання зображень як один із провідних напрямків інформатики. Класифікація та аналіз існуючих методів розпізнавання образів, переваги та недоліки їх застосування.
статья [525,8 K], добавлен 19.09.2017Алгоритм оптичного розпізнавання образів. Універсальність таких алгоритмів. Технологічність, зручність у процесі використання програми. Два класи алгоритмів розпізнавання друкованих символів: шрифтовий та безшрифтовий. технологія підготовки бази даних.
реферат [24,5 K], добавлен 19.11.2008Сегментація і нормалізація зображень. Основні функціональні можливості та режими роботи комплексу розпізнавання письмового тексту. Розробка комплексу оптичного розпізнавання символів. Шрифтові та безшрифтові алгоритми розпізнавання друкованого тексту.
курсовая работа [1,7 M], добавлен 19.05.2014Розробка методів вирішення завдань аналізу, розпізнавання, оцінювання зображень як одних з провідних напрямків інформатики. Описання методу пошуку співпадіння об’єкту-цілі з міткою-прицілом на заданому відеоряді. Виявлення об’єкта на цифровому зображенні.
статья [138,7 K], добавлен 21.09.2017Вирішення задач сортування в програмуванні та розробка ефективних алгоритмів сортування. Знайомство з теоретичним положенням, що стосуються методів сортування файлів, реалізації їх на мові програмування Turbo Pascal. Методи злиття впорядкованих серій.
курсовая работа [46,9 K], добавлен 16.09.2010Розробка інформаційної системи зберігання, обробки та моделювання алгоритмів обчислення статистичних даних для змагань з плавання і з інших видів спорту. Зміст бази даних, реалізація БД засобами MySQL, створення клієнтського додатка в середовищі PHP.
дипломная работа [4,5 M], добавлен 17.09.2011Створення інформаційної системи для магазинів, які займаються реалізацією музичної продукції. Проектування моделі "сутність-зв'язок" (ER-модель) та на її основі розробка реляційної моделі бази даних. Інструкція для користувача програмним продуктом.
курсовая работа [2,4 M], добавлен 08.09.2012Розробка інформаційної системи зберігання, обробки і моделювання алгоритмів обчислення статистичних даних для спортивний змагань. Характеристика предметної області, архітектури бази даних, установки і запуску системи, основних етапів роботи користувача.
курсовая работа [2,0 M], добавлен 26.12.2011Огляд методів розпізнавання образів. Основні ідеї інформаційно-екстремального методу розпізнавання рукописних символів. Критерій оптимізації параметрів функціонування даної системи. Інформаційне та програмне забезпечення обробки рукописних символів.
дипломная работа [291,0 K], добавлен 14.10.2010Огляд інтелектуальних принципів організації процесу розпізнавання символів. Розробка системи безклавіатурного введення документів у комп’ютер. Опис і обґрунтування проектних рішень; розрахунки і експериментальні дані; впровадження системи в експлуатацію.
дипломная работа [182,5 K], добавлен 07.05.2012Історія створення мови С#. Аналіз алгоритмів кодування даних. Розробка системи в середовищі Visual Studio 2008 Express. Схема шифрування алгоритму DES. Дослідження алгоритму RC2. Приклади хешів RIPEMD-160. Програмна реалізація основних процедур системи.
дипломная работа [1,7 M], добавлен 25.10.2012Коректне використання операторів та конструкцій, побудова ефективних алгоритмів для розв'язку типових задач. Розробка алгоритмів та програми для створення бази даних телефонних номерів. Використання засобів розробки програмного забезпечення мовою Java.
курсовая работа [1,0 M], добавлен 25.01.2016Історія досліджень, пов’язаних з розпізнаванням образів, його практичне використання. Методи розпізнавання образів: метод перебору, глибокий аналіз характеристик образу, використання штучних нейронних мереж. Характерні риси й типи завдань розпізнавання.
реферат [61,7 K], добавлен 23.12.2013Застосування циклічних алгоритмів для створення циклів за допомогою умовного або безумовного переходів. Цикли з параметром та умовою (приклади). Використання операторів мови програмування Паскаль для організації повторюваних послідовностей дій (циклів).
контрольная работа [435,9 K], добавлен 02.06.2012Аналіз вимог до програмного забезпечення. Розробка структури бази даних, що дозволить реалізувати різноманітні операції для створення платіжного доручення. Розробка об’єктної моделі, алгоритмів та структури бази даних. Вибір засобу автоматизації.
курсовая работа [3,2 M], добавлен 30.01.2014Створення гнучкої клієнт-серверної системи інформаційної підтримки підвищення кваліфікації персоналу ДП № 9 з застосуванням мови програмування PHP, системи керування базами даних MySQL. Розробка алгоритмів, програмна реалізація основних процедур системи.
дипломная работа [1,8 M], добавлен 26.10.2012Обстеження і аналіз репозиторія програмного забезпечення. Аналіз репозиторія ПЗ. Розробка функціональної моделі. Розробка проекту Бази Даних "Репозиторій ПЗ". Розробка алгоритмів і графічних інтерфейсів програмних модулів.
курсовая работа [3,4 M], добавлен 05.09.2007Порівняння характеристик топології мережі передачі даних, таких як: діаметр, зв’язність, ширина бінарного поділу та вартість. Загальний опис механізмів передачі даних – алгоритмів маршрутизації, а також методів передачі даних між процесорами мережі.
курсовая работа [167,3 K], добавлен 20.06.2015Спосіб створення програми для анімації музичних творів на мові асемблер за допомогою об’єкта ActiveX - Microsoft Agent. Ідея технології системного програмування ActiveX. Символічні назви методів, на яких вона побудована, їх адреси, кількість параметрів.
курсовая работа [425,4 K], добавлен 07.06.2010