Моделювання мовного апарату людини в задачах комп’ютерного синтезу

Комп’ютерне відтворення звуків, що утворює людина. Методика розв’язання проблеми синтезу розмовної інформації. Автоматизація штучного утворення звуків голосу людини, на основі спільного використання фізичних моделей голосового джерела та мовного тракту.

Рубрика Программирование, компьютеры и кибернетика
Вид автореферат
Язык украинский
Дата добавления 20.07.2015
Размер файла 105,6 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Київський національний університет імені Тараса Шевченка

Автореферат

дисертації на здобуття наукового ступеня

кандидата технічних наук

01.05.02 - Математичне моделювання та обчислювальні методи

Моделювання мовного апарату людини в задачах комп'ютерного синтезу

Стеля Ігор Олегович

Київ 2010

Дисертацією є рукопис.

Робота виконана на кафедрі моделювання складних систем Київського національного університету імені Тараса Шевченка.

Науковий керівник: доктор фізико-математичних наук, професор Крак Юрій Васильович, Київський національний університет імені Тараса Шевченка,професор кафедри моделювання складних систем.

Офіційні опоненти: доктор технічних наук, професор Карпов Олег Миколайович, Дніпропетровський національний університет імені Олеся Гончара, професор кафедри математичного забезпечення ЕОМ,

кандидат фізико-математичних наук, доцент Черній Дмитро Іванович, Київський національний університет імені Тараса Шевченка, доцент кафедри обчислювальної математики.

Захист відбудеться «8» квітня 2010 р. о 15 годині 30 хвилин на засіданні спеціалізованої вченої ради Д 26.001.35 при Київському національному університеті імені Тараса Шевченка за адресою:

03680, МСП, Київ, проспект Академіка Глушкова, 2, корпус 6, ауд. 24.

З дисертацією можна ознайомитися в науковій бібліотеці Київського національного університету імені Тараса Шевченка за адресою:

01033, Київ, вул. Володимирська, 58.

Автореферат розісланий «3» березня 2010 р.

Учений секретар спеціалізованої вченої ради П.М. ЗІНЬКО

1. Загальна характеристика роботи

автоматизація звук голос мовний

Актуальність теми. На сьогоднішній день мовні технології стрімко розвиваються і набувають все більшого прикладного застосування. До таких технологій належать, насамперед, системи синтезу мови, системи розпізнавання мови, системи визначення особи розмовляючого та його емоційного стану, системи компресії мовного сигналу, системи очищення від шумів, підвищення розбірливості та багато інших напрямів.

Найбільш затребуваними застосуваннями мовних технологій є:

- для серверних систем - створення програмних засобів мовного інтерфейсу масового обслуговування (довідкових та сервісних служб, баз знань та даних);

- для персональних комп'ютерів - створення інтуїтивно зрозумілого мовного інтерфейсу для керування комп'ютером, систем читання книг, електронної пошти та будь-якої іншої текстової інформації, систем озвучування в комп'ютерних іграх. За прогнозами Б. Гейтса, в найближчий час будуть стрімко розвиватися «Природні інтерфейси користувача» - інтерфейси, що використовують нові методи взаємодії між людиною та комп'ютером, такі як мовлення, рухи та дотик;

- для мобільних пристроїв, систем навігації, побутової техніки - створення мобільних перекладачів, здатних працювати в реальному часі, систем оповіщення, інформування та попередження.

Мовні технології і, зокрема, системи синтезу мови є вкрай важливими для людей з вадами зору або мовного апарату. Впровадження цих систем дозволить полегшити спілкування людям с обмеженою дієздатністю та забезпечить більш комфортне та ефективне користування різноманітними пристроями.

У дисертаційній роботі увага зосереджена на невід'ємній частині мовних технологій - системах синтезу мови. Дослідження у цій сфері мають досить довгу історію і перші спроби штучно відтворити мову людини датуються XVIII століттям. Бурхливий розвиток систем синтезу, що почався в середині минулого століття, пов'язаний у першу чергу з розвитком комп'ютерної техніки. Великий внесок у розробку теорії та практичну реалізацію систем комп'ютерного синтезу зробили вчені H. Dudley, L.R. Rabiner, L.L. Landgraf, G. Fant, D. Klatt, K.N. Stevens, P.E. Rubin, Б.М. Лобанов, В.Н. Cорокін, О.Ф. Кривнова та ін. Розробці нових методів дослідженням мовних сигналів присвячені роботи українських вчених - Т.К. Вінцюка, В.Ю. Шелепова, О.М. Карпова, М.Ф. Бондаренка, Я.В. Федорина, Ю.М. Рашкевича, Ю.В. Крака та багатьох інших.

Подальший розвиток комп'ютерних мовних синтезаторів призвів до розробки декількох підходів до їх побудови, а саме:

- синтез на основі конкатенації відрізків записаних мовленнєвих сигналів, що зберігаються у мовленнєвих базах даних;

- формантний синтез, що не використовує зразки людської мови для синтезу. Замість цього, синтезована мова створюється з використанням акустичних моделей. Параметри, такі як набір значень частот основних формант та рівні шуму, змінюються в часі та створюють сигнал штучної мови;

- артикуляторний синтез, що створює штучну мову шляхом безпосереднього моделювання людського мовного апарату. Цей метод являє собою синтез мови на базі обчислювальних методів, заснованих на моделях людського мовного апарату і артикуляційних процесах, що відбуваються у ньому. Моделі мовного апарату, як правило, включають модель мовного тракту і модель голосових зв'язок. Питанню побудови артикуляторного синтезатора приділялося багато уваги у роботах C.C. Lochbaum, J.L. Flanagan, J.L. Kelly, K.I. Ishizaka, P. Mermelstein, S. Maeda та інших. Цей підхід обраний об'єктом дисертаційного дослідження.

Обраний підхід до синтезу мови має ще одне застосування - вивчення мовного апарату людини та побудова його математичних моделей може мати на меті не тільки створення синтезатора мови, а і медичні дослідження. Так, наприклад, в Інституті гідромеханіки НАН України у відділі гідродинамічної акустики під керівництвом В.Т. Грінченка проводяться дослідження, присвячені вивченню мовного апарату людини, його фізичним та геометричним характеристикам. Метою таких досліджень є моделювання процесу генерації і розповсюдження звуків дихання, що можуть бути використані для аускультативної діагностики у медицині.

Для побудови та дослідження математичних моделей голосового джерела, що моделюють коливні процеси та моделей мовного тракту, що моделюють розповсюдження акустичних хвиль, використовуються різноманітні чисельні методи. У їх розвиток великий внесок зробили вчені С.К. Годунов, Е. Оран, О.А. Самарський, Дж. Ортега, В. Рейнболдт, П. Роуч, Ю.П. Попов, Дж. Борис, В.С. Рябенький, А.Н. Тихонов та ін. Для задачі відновлення параметрів мовного тракту за вимірюваним сигналом на виході використовується математичний апарат розв'язання обернених задач, який був обґрунтований та розроблений М.Г. Крейном, І.М. Гельфандом, Б.М. Левітаном, М.М. Лаврентьєвим, Ф.П. Васільєвим та ін. Проблемі розв'язання мовних обернених задач присвячені, зокрема, роботи А.С. Леонова, І.С. Макарова, В.Н. Сорокіна, А.І. Ципліхіна та ін.

Таким чином, надзвичайно актуальною є проблема розробки, розвитку та дослідження чисельних алгоритмів та програмного забезпечення для розв'язання математичних задач, що описують голосове джерело та мовний тракт людини і постають при побудові артикуляторного синтезатора національної мови.

Зв'язок роботи з науковими програмами, планами, темами. Дисертаційну роботу виконано в рамках планів наукових досліджень кафедри моделювання складних систем Київського національного університету імені Тараса Шевченка згідно з планом наукових досліджень в рамках бюджетної науково-дослідної теми № 06БФ015-03 "Розвиток теорії та розробка технологій для моделювання, аналізу, оцінки та оптимізації складних систем" (№ держреєстрації 0106U005858) в рамках КНП «Інформатизація суспільства».

Мета і завдання дослідження. Метою дослідження є комп'ютерне відтворення звуків, що утворює людина на основі спільного використання фізичних моделей голосового джерела та мовного тракту.

Для досягнення поставленої мети в роботі розв'язувалися наступні задачі:

- проведення аналізу стану проблеми артикуляторного синтезу мовної інформації, визначення принципів та методів, що використовуються для розв'язання прямих та обернених мовних задач;

- розробка чисельних алгоритмів та побудова комп'ютерної моделі голосових зв'язок людини на основі двомасової моделі Ішізаки - Фланагана;

- розробка чисельних алгоритмів та побудова комп'ютерних моделей мовного тракту людини на основі рівнянь акустики та рівняння Вебстера;

- розробка чисельних алгоритмів для розв'язання задачі відновлення параметрів мовного тракту на базі акустичного рівняння Клейна - Гордона за вимірюваним сигналом на виході;

- створення програмно-алгоритмічного комплексу з інтерфейсом користувача для моделювання звуків, що утворює людина за допомогою голосових зв'язок та мовного тракту, та для дослідження впливу різноманітних факторів та параметрів моделей у системі «голосове джерело - мовний тракт» на мовотворення;

- здійснення перевірки функціонування розроблених алгоритмів шляхом проведення серії чисельних досліджень голосового джерела та мовного тракту людини.

Об'єкт дослідження - математичні моделі голосового джерела та мовного тракту людини.

Предмет дослідження - розвиток чисельних алгоритмів та програмного забезпечення для розв'язання математичних задач, що описують голосове джерело та мовний тракт людини, а також розробка чисельних алгоритмів для розв'язання оберненої задачі для мовного тракту.

Методи дослідження. Для досягнення поставленої мети у дисертаційній роботі застосовувалися методологічні основи математичного моделювання явищ та об'єктів, та ефективно використовувалася низка методів обчислювальної математики, зокрема, для розв'язання систем звичайних диференціальних рівнянь, крайових задач для рівнянь в частинних похідних, систем лінійних та нелінійних рівнянь, обернених задач тощо.

Наукова новизна отриманих результатів. Основні результати роботи, що відображають наукову новизну та виносяться на захист, такі:

- отримала подальший розвиток методика розв'язання проблеми синтезу мовної інформації, що дозволило розв'язати задачу штучного утворення звуків голосу людини, ґрунтуючись на спільному використанні фізичних моделей голосового джерела та мовного тракту;

- розроблено удосконалений чисельний алгоритм для реалізації двомасової моделі голосових зв'язок Ішізаки - Фланагана, в основу якого покладена комбінація методу розв'язання системи рівнянь коливання двох мас і методу розв'язання нелінійної системи для змін тиску;

- вперше розв'язана задача відновлення параметрів мовного тракту за вимірюваним сигналом на виході для акустичного рівняння Клейна - Гордона.

Практична цінність і впровадження результатів роботи. Головне практичне значення роботи полягає у розробці чисельних алгоритмів для спільного моделювання голосових зв'язок та мовного тракту, що можуть бути використані для побудови комп'ютерного артикуляторного синтезатора національної мови. Розроблені чисельні алгоритми для розв'язання оберненої задачі для акустичного рівняння Клейна - Гордона дозволяють відновлювати параметри мовного тракту за виміряним сигналом на виході. Створений програмно-алгоритмічний комплекс з інтерфейсом користувача може бути використаний у навчальному процесі для дослідження впливу різних факторів та параметрів моделей у системі «голосове джерело - мовний тракт» на мовотворення.

Результати дисертаційного дослідження використані при розробці інтелектуального комп'ютерного інтерфейсу в рамках теми «Розробка інформаційної технології озвучення текстової та розпізнавання голосової мовної інформації» Інституту кібернетики ім. В.М. Глушкова НАН України.

Окремі результати використовуються у навчальному процесі факультету кібернетики Київського національного університету імені Тараса Шевченка при викладанні спеціальних дисциплін «Проблеми робототехніки», «Інформаційні віртуальні середовища», та при виконанні дипломних та курсових робіт студентами кафедри моделювання складних систем.

Особистий внесок здобувача. Всі основні положення, теоретичні та практичні наукові результати дисертаційної роботи, що виносяться до захисту, отримані автором самостійно. Використані в дисертаційній роботі ідеї, положення чи гіпотези інших авторів мають відповідні посилання і використані лише для підкріплення ідей здобувача. Особистий внесок здобувача до робіт, опублікованих у співавторстві слід визначати таким чином: у роботі [1] здобувачем розв'язана задача відновлення параметрів мовного тракту на базі акустичного рівняння Клейна - Гордона за вимірюваним сигналом на виході. При розв'язуванні оберненої задачі мінімум функціоналу був знайдений градієнтним методом, де градієнт функціоналу визначається через розв'язок спряженої задачі. Розв'язок прямої та спряженої задач знайдений за допомогою розроблених та програмно реалізованих автором алгоритмів на основі методу скінченних різниць; у роботі [2] здобувачем побудований покращений чисельний алгоритм, за яким проведена серія розрахунків сигналу на виході з голосової щілини при різних значеннях тиску на вході, для двомасової моделі голосових зв'язок людини; у роботі [3] здобувачу належить розробка математичного та програмного забезпечення для моделювання та аналізу голосових зв'язок та мовного тракту людини, що разом складають підґрунтя для систем синтезу мови на основі математичних моделей; у роботі [4] здобувачу належать алгоритми та програмне забезпечення для спільного моделювання голосових зв'язок та мовного тракту людини, порівняльний аналіз результатів моделювання з аналітичними моделями та серія чисельних експериментів.

Апробація результатів дисертації. Основні результати досліджень доповідалися та обговорювалися на конференціях: ХІ-ій Міжнародній науковій конференції імені академіка М. Кравчука (Київ, 2006); Міжнародній науково-практичній конференції “Математичне та програмне забезпечення інтелектуальних систем (MPZIS-2007)” (Дніпропетровськ, 2007); Міжнародній конференції “Dynamical Systems Modeling and Stability Investigation (DSMSI-2007)” (Київ, 2007); Міжнародній конференції ”Питання оптимізації обчислень (ПОО-ХХХІІІ)” присвяченій пам'яті академіка В.С. Михалевича (Київ, 2007); ХІІ-ій Міжнародній науковій конференції імені академіка М. Кравчука (Київ, 2008); Міжнародній конференції ”Інтелектуальні системи прийняття рішень і проблеми обчислювального інтелекту (ISDMCI-2008)” (Євпаторія, 2008); Міжнародній науково-практичній конференції “Математичне та програмне забезпечення інтелектуальних систем (MPZIS-2008)” (Дніпропетровськ, 2008); ІХ-ій Всеукраїнській міжнародній конференції з оброблення сигналів і зображень та розпізнавання образів УкрОбраз'2008 (Київ, 2008); Міжнародній науково-технічній конференції ”Штучний інтелект. Інтелектуальні системи (ШІ-2008)” (Кацивелі, 2008); Міжнародній конференції ”Інтелектуальні системи прийняття рішень і проблеми обчислювального інтелекту (ISDMCI-2009)” (Євпаторія, 2009); Міжнародній конференції “Dynamical Systems Modeling and Stability Investigation (DSMSI-2009)” (Київ, 2009); Конференції молодих учених із сучасних проблем механіки і математики імені академіка Я.С. Підстригача (Львів, 2009).

Публікації. Основні результати дисертаційної роботи опубліковані в 17 наукових працях, з них 4 статті - у фахових наукових виданнях, відповідно до переліку ВАК України (обсягом 2.2 д. а., з них 2 д. а. - авторські), та 13 публікацій є тезами в збірниках міжнародних та всеукраїнських конференцій.

Структура та обсяг дисертації. Дисертаційна робота складається із вступу, чотирьох розділів, висновків, трьох додатків (на 17 сторінках) та списку використаних джерел (141 найменувань на 15 сторінках). Загальний обсяг роботи - 123 сторінки, в тому числі - 106 сторінок основного тексту, 5 таблиць, 31 рисунок.

2. Основний зміст роботи

У вступі обґрунтовано актуальність теми дисертації, сформульовано мету та основні завдання дослідження, наведено короткий огляд розвитку, сучасного стану методик і методів синтезу мовної інформації та отриманих результатів. Висвітлено основні невирішені проблеми застосування цих методик, досліджено та продемонстровано особливості підходів до розв'язання проблеми синтезу мовної інформації. Також у вступі окреслено результати, що виносяться до захисту, розкрито наукову новизну, теоретичне та практичне наукове значення отриманих результатів, особистий внесок здобувача, коротко описано зміст роботи, подано її загальну характеристику та структуру.

У першому розділі подано та проаналізовано основні принципи, припущення та моделі, що використовуються в артикуляторному підході до розв'язання задачі синтезу мовної інформації. Цей підхід характеризується синтезом мови на базі обчислювальних методів, заснованих на моделях людського мовного апарату і артикуляційних процесах, що відбуваються в ньому. Моделі мовного апарату, як правило, включають модель мовного тракту і модель голосових зв'язок.

Серед найбільш поширених одно- та двомасових моделей голосових зв'язок для подальшого дослідження обрана модель Ішізаки - Фланагана, що виявилася найбільш прийнятною у силу достатньо повного опису фізичних процесів, прийнятній кількості фізичних параметрів і задовільній обчислювальній складності. Одномасові моделі не відображають структуру голосових зв'язок, що складаються з двох шарів: тіла і слизової оболонки, і звужуються до гортані. Використання тримасових та більш складних моделей призводить до збільшення кількості вихідних параметрів з випливаючою звідси складністю їх отримання.

Для дослідження розповсюдження акустичних хвиль у мовному тракті обрані моделі акустичних труб, що дозволяють продукувати якісний мовний сигнал. Мовний тракт моделюється у вигляді декількох пов'язаних між собою труб різних діаметрів. Моделі акустичних труб розглядаються у припущенні, що: мовний тракт може бути випрямлений і апроксимований як труба змінної площі, лінійне хвильове рівняння справджується.

Аналіз приведених підходів, методик та окремих математичних моделей визначив актуальність та ефективність обраного підходу і дозволив сформулювати мету і завдання подальшого дослідження.

Другий розділ присвячений розробці комп'ютерної моделі голосових зв'язок людини на основі двомасової моделі Ішізаки - Фланагана.

У моделі Ішізаки і Фланагана кожна з голосових зв'язок описується двома масами, що зв'язані пружинами як із стінками, так і між собою. Більш того, припускається, що зв'язки є двосторонньо симетричними, так що необхідно моделювати лише одну зв'язку. Маси, що моделюють зв'язки, здійснюють коливання у поперечному до руху повітря напрямку. Система рівнянь для двох мас, що коливаються, записується у вигляді:

Розподіл тиску в голосовій щілині апроксимується послідовними дискретними кроками на кожному -у кінці кожної -ї маси. Перше падіння тиску виводиться з рівняння Бернуллі для ідеальної рідини у стаціонарному режимі. Вздовж кожної з мас падіння тиску та визначається в'язкими втратами і пропорційні зсувовій в'язкості повітря. Падіння тиску на стику мас еквівалентне зміні кінетичної енергії в одиниці об'єму газу. І остаточно різке розширення на верхньому кінці голосової щілини призводить до відновлення тиску до атмосферного тиску .

Для визначення значень тиску використовуються співвідношення

Шуканим розв'язком системи (1)-(3) є функція , яка визначає потік повітря на виході з голосової щілини.

Для побудови чисельного алгоритму розв'язання систем (1) та (2) використаємо позначення для зміщень та похідних

До цієї системи додаються початкові умови

Для розв'язання системи (4) будемо використовувати метод Кутта -Мерсона. Для використання чисельного методу здійснюється дискретизація відрізка інтегрування системи (1). Будемо використовувати рівномірне розбиття відрізка :.

Для побудови чисельного алгоритму розв'язання нелінійної системи (3) запишемо її у вигляді

Систему (5) будемо розглядати як операторне рівняння в деякому просторі. Для розв'язання системи (6) будемо використовувати метод Ньютона. Для цього запишемо розвинення для в ряд Тейлора. Тоді, згідно з методом Ньютона, наступне наближення до розв'язку нелінійної системи (6) знаходиться як розв'язок лінійної системи

Для розв'язання лінійної системи (7) на кожному кроці методу Ньютона будемо використовувати ітераційний метод послідовної верхньої релаксації (ПВР), ітераційна схема якого має вигляд:

де матриця подана у вигляді суми діагональної, нижньої трикутної та верхньої трикутної матриці , - релаксаційний параметр.

Алгоритм розв'язання системи (1)-(3) будується таким чином: нехай відомий розв'язок у момент часу , знаходження розв'язку системи (4) на ()-у кроці явного методу Кутта - Мерсона об'єднується в єдину ітераційну процедуру з розв'язанням системи (3) методом послідовної верхньої релаксації згідно з яким перехід на ()-у ітерацію здійснюється за формулами позначено процедуру методу Кутта - Мерсона, а тиски знаходяться методом ПВР наступним чином

Ітераційна процедура вважається закінченою за виконання умови: , де - мала величина. Після цього здійснюється перехід на наступний крок методу Кутта - Мерсона. Кількість кроків методу Кутта - Мерсона залежить від часу моделювання та необхідної точності розрахунків.

Наведені результати порівняння потоку повітря, розрахованого за двомасовою моделлю та потоку повітря, виміряного за допомогою зворотної фільтрації.

З метою дослідження здатності моделі відтворювати різні типи фонації проведені розрахунки для нейтрального та придихального типу фонації, при якій змикання голосової щілини є неповним і повітря продовжує проходити між голосовими зв'язками під час усього циклу коливань, результати яких наведені

Проведена серія чисельних експериментів, за результатами яких здійснений аналіз впливу параметрів та інерційних членів моделі на форму вихідного сигналу, від якого великою міру залежить частота та тембр голосу. Зокрема, залежність потоку повітря від тиску на вході у голосову щілину зображена. Вплив інерційних членів моделі зображений

Здійснене порівняння потоку повітря, обчисленого за двомасовою моделлю, та потоку повітря, отриманого за аналітичною R-моделлю

Для вивчення голосового джерела, окрім функції потоку повітря, використовується її похідна. Звичайний набір параметрів для кількісного опису коливань виводиться із залежності похідної потоку від часу і включає: амплітуду від'ємного піка, тривалість відкриття, тривалість закритої фази, проміжок часу між додатним і від'ємним піками, час повернення в початкове положення.

Проведений порівняльний аналіз отриманої чисельної похідної потоку повітря за двомасовою моделлю та похідної потоку повітря, отриманою за аналітичною LF моделлю

Третій розділ присвячений розробці математичного та програмного забезпечення для моделювання мовного тракту людини та розв'язанню оберненої задачі для мовного тракту.

Для моделювання розповсюдження акустичних хвиль у мовному тракті як у неоднорідній акустичній трубі, що починається між голосовими зв'язками та закінчується губами, використовується система рівнянь акустики в частинних похідних, яка записується у вигляді:

Оскільки тракт має неоднорідний поперечний переріз, він розбивається на циліндричні секції однакової довжини з постійною площею перерізу

В якості крайової умови на вході в тракт вибирається потік , знайдений з (1)-(3). Виходячи з цього, маємо крайову умову:. На протилежному кінці тракту задаємо умову.

Різницева задача для апроксимації системи рівнянь (3) будується на рознесеній сітці. Для розв'язання використовується явний метод «чехарда». Цей алгоритм має високу обчислювальну ефективність і може використовуватися для моделювання у реальному часі. Результати роботи алгоритму наведені

Для моделювання розповсюдження акустичних хвиль також може використовуватися рівняння Вебстера:

де - просторова координата уздовж середньої лінії тракту в середньо-сагітальній площині; - момент часу; - шуканий тиск у тракті; - профіль площ поперечного перерізу вздовж тракту; - швидкість звуку в тракті.

В якості крайової умови на вході в тракт вибирається похідна від потоку повітря. Для розв'язання задачі (9) використовується скінченнорізницевий метод. Для розв'язання системи різницевих рівнянь використовується ітераційний метод послідовної верхньої релаксації.

Далі в дисертаційній роботі запропонований підхід до розв'язування задачі відновлення форми мовного тракту за виміряними акустичними параметрами сигналу на базі акустичного рівняння Клейна - Гордона. Для цього вводиться нова змінна , яка визначається виразом:

Це дає можливість сформулювати акустичне рівняння у формі Клейна -Гордона:

Рівняння (11) має форму хвильового, де функція визначена в термінах площі поперечного перерізу мовного тракту

Мовна обернена задача визначається як задача знаходження функції S(x) за виміряними параметрами мовного сигналу на виході з тракту. Математично ця задача розв'язується як задача пошуку мінімуму деякого функціоналу за різного роду обмежень.

Нехай на виході з тракту вимірюється тиск , зв'язаний з розв'язком рівняння Клейна - Гордона співвідношенням (10). Позначимо функцію, яка вимірюється на виході з тракту.

Задача зводиться до мінімізації функціоналу

Для мінімізації функціоналу (13) використовується градієнтний метод.

Градієнт функціоналу визначається через розв'язок спряженої задачі за формулою

У тестових розрахунках була використана наступна стратегія перевірки працездатності побудованого алгоритму та створеного програмного забезпечення. Розв'язувалась пряма задача та визначався сигнал на виході. Далі для розв'язування оптимізаційної задачі цей сигнал використовувався як виміряний. Для початкового наближення функції використовувалась довільна функція, представлена графіком.

Точність розв'язку оцінюється за процедурою ресинтезу: синтезований за знайденим розв'язком сигнал має мало відрізнятися від вихідного сигналу, за параметрами якого вирішувалася обернена задача. Результати розрахунків наведені

У четвертому розділі подано опис програмно-алгоритмічного комплексу з інтерфейсом користувача для дослідження впливу різних факторів та параметрів моделей у системі «голосове джерело - мовний тракт» на мовотворення.

Складність фізичного явища, що вивчається, призводить до необхідності урахування великої кількості параметрів. В свою чергу, математична модель є в значній мірі чутливою до збурень цих параметрів. Для зручного введення та редагування вихідних параметрів моделі та відображення результатів моделювання був розроблений програмно-алгоритмічний комплекс. Екранна форма для введення параметрів моделі голосових зв'язок наведена.

Необхідні для вивчення джерела параметри і результати моделювання відображаються у цифровому та графічному вигляді за допомогою екранних форм користувача.

Для вивчення голосового джерела, окрім функції потоку, використовується його похідна. Приклад відображення результатів моделювання потоку та його похідної наведений

Для введення і редагування вихідних даних моделі мовного тракту, зокрема, завдання геометричної форми тракту та відображення результатів моделювання вихідного мовного сигналу у цифровому та графічному вигляді був розроблений графічний інтерфейс користувача, екранна форма якого наведена. За його допомогою користувач моделі може задавати бажану форму мовного тракту та вивчати її вплив на вихідний мовний сигнал

Висновки

У дисертаційній роботі створена єдина система, яка дозволяє комп'ютерне відтворення звуків, що утворює людина на основі спільного використання фізичних моделей голосового джерела та мовного тракту.

Основні результати дисертаційної роботи.

1. Розроблено удосконалений чисельний алгоритм для реалізації двомасової моделі голосових зв'язок Ішізаки - Фланагана, в основу якого покладено комбінацію методу розв'язання системи рівнянь коливання двох мас і методу розв'язання нелінійної системи для змін тиску.

2. За розробленим алгоритмом отримано та досліджено чисельні розв'язки моделі голосового джерела.

3. Розроблено чисельні алгоритми та побудовано комп'ютерні моделі мовного тракту людини на основі рівнянь акустики та рівняння Вебстера.

4. Розв'язано задачу штучного синтезу мовної інформації ґрунтуючись на спільному використанні фізичних моделей голосового джерела та мовного тракту.

5. Розв'язано задачу відновлення параметрів мовного тракту за вимірюваним сигналом на виході для акустичного рівняння Клейна - Гордона.

6. Створено програмно-алгоритмічний комплекс з інтерфейсом користувача для моделювання звуків, що утворює людина за допомогою голосових зв'язок та мовного тракту, та для дослідження впливу різноманітних факторів та параметрів моделей у системі «голосове джерело - мовний тракт» на мовотворення.

Список опублікованих праць за темою дисертації

Статті у наукових фахових виданнях

Крак Ю.В. Відновлення параметрів мовного тракту з акустичного рівняння Клейна - Гордона / Ю.В. Крак, І.О. Стеля // Искусственный интеллект. - 2007. - № 3. - С. 421-427.

Крак Ю.В. Чисельне моделювання голосових зв'язок за двомасовою моделлю / Ю.В. Крак, І.О. Стеля // Журнал обчислювальної та прикладної математики. - 2007. - № 94. - С. 55-60.

Крак Ю.В. Комп'ютерна модель голосових зв'язок та мовного тракту людини / Ю.В. Крак, І.О. Стеля // Искусственный интеллект. - 2008. - № 4. - С. 758-762.

Крак Ю.В. Синтез звуків голосу людини на основі фізичних моделей голосових зв'язок та мовного тракту / Ю.В. Крак, І.О. Стеля // Там же. - 2009. - № 4. - С. 74-79.

Тези наукових доповідей

Крак Ю.В. Відтворення параметрів мовного тракту по виміряному на виході сигналу / Ю.В. Крак, І.О. Стеля // ХІ Міжнародна наукова конференція ім. академіка М. Кравчука: міжнар. конф. 18-20 травня 2006: матеріали / К.: НТУ України “КПІ”. - 2006. - С. 156.

Крак Ю.В. Чисельне моделювання голосових зв'язок / Ю.В. Крак, І.О. Стеля // Математичне та програмне забезпечення інтелектуальних систем (MPZІS-2007): міжнар. наук.-практ. конф. 14-16 листопада 2007: тези доп./ Дніпропетровськ: ДНУ. - 2007. - С. 103.

Моделювання голосових сигналів та зображень голови людини / Ю.В. Крак, О.В. Бармак, О.С. Ганджа [та ін.] // Dynamіcal Systems Modelіng and Stabіlіty Іnvestіgatіon (DSMSІ'2007) : міжнар. конф. 22-25 травня 2007: тези доп. / К.: Вісник Київського національного університету імені Тараса Шевченка. - 2007. - С. 378.

Крак Ю.В. Чисельне дослідження моделей голосових зв'язок / Ю.В. Крак, І.О. Стеля // Dynamіcal Systems Modelіng and Stabіlіty Іnvestіgatіon (DSMSІ'2009): міжнар. конф. 22-25 травня 2007: тези доп. / К.: Вісник Київського національного університету імені Тараса Шевченка. - 2007. - С. 203.

Аналіз та синтез голосових і візуальних образів людини / Ю.В. Крак, Ю.Г. Кривонос, М.Ф. Кириченко [та ін.] // Питання оптимізації обчислень (ПОО-ХХХІІІ) пам'яті академіка В.С. Михалевича: міжнар. конф. 23-28 вересня 2007: праці / К.: Ін-т кібернетики ім. В.М. Глушкова НАН України. - 2007. - С. 147.

Крак Ю.В. Дослідження голосового джерела за допомогою двомасової моделі / Ю.В. Крак, В.І. Ляшко, І.О. Стеля // ХІІ Міжнародна наукова конференція ім. академіка М. Кравчука: міжнар. конф. 15-17 травня 2008: матеріали. / К.: НТУ України “КПІ”. - 2008. - С. 217.

Крак Ю.В. Моделювання голосових зв'язок на основі двомасової моделі для систем синтезу мови / Ю.В. Крак, І.О. Стеля // Інтелектуальні системи прийняття рішень і проблеми обчислювального інтелекту (ІSDMCІ'2008): міжнар. конф. 19-24 травня 2008: праці / Євпаторія. - 2008. - Том І. - С. 81-41.

Стеля І.О. Синтез мовного сигналу за моделями голосових зв'язок та мовного тракту людини / І.О. Стеля // ІХ Всеукраїнська міжнародна конференція з оброблення сигналів і зображень та розпізнавання образів УкрОбраз'2008: міжнар. конф. 3-7 листопада 2008: праці / К.: - 2008. - С. 90-92.

Крак Ю.В. Моделювання акустичної взаємодії між голосовими зв'язками та мовним трактом / Ю.В. Крак, І.О. Стеля // Математичне та програмне забезпечення інтелектуальних систем (MPZІS-2008): міжнар. наук.-практ. конф. 12-14 листопада 2008: тези доп. / Дніпропетровськ: ДНУ. - 2008. - С. 194.

Крак Ю.В. Комп'ютерна модель голосових зв'язок людини / Ю.В. Крак, І.О. Стеля // Штучний інтелект. Інтелектуальні системи (ШІ-2008) : міжнар. конф. 22 - 27 вересня 2008: матеріали / Кацивелі, АР Крим. - 2008. - Том 1. - С. 108-111.

Крак Ю.В. Чисельне дослідження двомасової моделі голосових зв'язок / Ю.В. Крак, І.О. Стеля // Інтелектуальні системи прийняття рішень і проблеми обчислювального інтелекту (ІSDMCІ'2009) : міжнар. конф. 18-22 травня 2009: праці / Євпаторія. -2009. - С. 89-91.

Крак Ю.В. Чисельний аналіз голосового джерела людини на основі двомасової моделі / Ю.В. Крак, І.О. Стеля // Dynamіcal Systems Modelіng and Stabіlіty Іnvestіgatіon (DSMSІ'2009) : міжнар. конф. 27-29 травня 2009: тези доп. / К.: Вісник Київського національного університету імені Тараса Шевченка. - 2009. - С. 334.

Крак Ю.В. Комп'ютерна модель мовного апарату людини для систем синтезу мови / Ю.В. Крак, І.О. Стеля // Конференція молодих учених із сучасних проблем механіки і математики імені академіка Я.С. Підстригача: всеукр. конф. 25-27 травня 2009: тези доп. / Львів. - 2009. - С. 109-110.

Анотація

Стеля І.О. Моделювання мовного апарату людини в задачах комп'ютерного синтезу. - Рукопис.

Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 01.05.02 - математичне моделювання та обчислювальні методи. - Київський національний університет імені Тараса Шевченка, Київ, 2010.

Дисертація присвячена комп'ютерному відтворенню звуків, що утворює людина, на основі спільного використання фізичних моделей мовного джерела та мовного тракту.

У роботі подальший розвиток отримала методика розв'язання проблеми синтезу мовної інформації, що дозволило розв'язати задачу штучного утворення звуків голосу людини, на основі спільного використання фізичних моделей голосового джерела та мовного тракту. Розроблений удосконалений чисельний алгоритм для реалізації двомасової моделі голосових зв'язок Ішізаки - Фланагана, в основу якого покладена комбінація методу розв'язання системи рівнянь коливання двох мас і методу розв'язання нелінійної системи для змін тиску. На базі розроблених алгоритмів створено програмно-алгоритмічний комплекс для дослідження впливу різних факторів та параметрів моделей у системі «голосове джерело - мовний тракт» на мовотворення.

Для акустичного рівняння Клейна - Гордона розв'язана обернена задача відновлення параметрів мовного тракту за вимірюваним сигналом на виході.

Ключові слова: синтез, голосове джерело, мовний тракт, обернена задача, програмний комплекс.

Аннотация

Стеля И.О. Моделирование речевого аппарата человека в задачах компьютерного синтеза. - Рукопись.

Диссертация на соискание ученой степени кандидата технических наук по специальности 01.05.02 - математическое моделирование и вычислительные методы. - Киевский национальный университет имени Тараса Шевченко, Киев, 2010.

Диссертация посвящена компьютерному воспроизведению звуков, создаваемых человеком, на основе совместного использования физических моделей голосового источника и речевого тракта.

В работе дальнейшее развитие получила методика решения проблемы синтеза речевой информации, что позволило решить задачу искусственного образования звуков голоса человека, основываясь на совместном использовании физических моделей голосового источника и речевого тракта. Разработан усовершенствованный численный алгоритм для реализации двухмассовой модели голосовых связок Ишизаки - Фланагана, в основу которого положена комбинация метода решения системы уравнений колебания двух масс и метода решения нелинейной системы для изменения давления. Численный алгоритм позволяет задавать желаемые фонетические параметры речевого сигнала путем изменения соответствующих параметров модели. Проверка адекватности результатов состояла из нескольких этапов, а именно: осуществлялось сравнение функции потока воздуха, полученной в результате моделирования, с физиологическими исследованиями голосового источника; полученные с помощью двухмассовой модели решения сравнивались с результатами моделирования потока другими моделями голосовых связок; результаты моделирования сравнивались с результатами, полученными по аналитическим моделям потока воздуха и аналитическими моделями производной от потока воздуха.

Распространение акустических волн в речевом тракте как в неоднородной акустической трубе, которая начинается от голосовых связок и заканчивается губами, промоделирована на базе разработанных алгоритмов решения системы уравнений акустики, уравнения Вебстера и уравнения Клейна - Гордона. Разработаные численные алгоритмы позволяют синтезировать речевой сигнал на выходе из тракта, используя в качестве голосового источника сигнал, полученный в модели голосовых связок.

На базе разработанных алгоритмов создан программно-алгоритмический комплекс для исследования влияния различных факторов и параметров моделей в системе «голосовой источник - речевой тракт» на речеобразование.

Для акустического уравнения Клейна - Гордона решена обратная задача восстановления параметров речевого тракта по измеренному сигналу на выходе. При решении обратной задачи минимум функционала находится градиентным методом, где градиент функционала определяется через решение сопряженной задачи. Решение прямой и сопряженной задач находится с помощью разработанных и программно реализованных алгоритмов на основе метода конечных разностей.

Ключевые слова: синтез, голосовой источник, речевой тракт, обратная задача, программный комплекс.

Abstract

Stelia I.O. Modeling human speech apparatus in problems of computer synthesis. - Manuscript.

The present thesis is devoted to nomination for the degree of the Candidate in technical sciences, specialty 01.05.02 - mathematical modelling and computing methods. - Taras Shevchenko National University of Kyiv, Kyiv, 2010.

This thesis is devoted to the computer reproduction of human voice on the basis of shared use of physical models of the voice source and vocal tract.

The paper has further developed the methods of solving the issue of synthesizing the voice data, thereby solving the issue of artificial formation of sounds of a human voice based on the shared use of physical models of the voice source and vocal tract. There was developed an enhanced numeric algorithm of implementation of a two-mass model of the vocal folds of Ishizaka - Flanagan, built on the combination of a method for solving a system of equations of vibrations of two masses and a method of solving a nonlinear system for changes in pressure. On the basis of the developed algorithms there was created the program and algorithmic complex for studying of influence of various factors and parameters of the models in the language source - vocal tract system on speech production.

For acoustical Klein - Gordon's equation the inverse problem of recovering the parameters of the vocal tract according to the measured output signal was solved.

Key words: synthesis, voice source, vocal tract, inverse problem, program complex.

Размещено на Allbest.ru

...

Подобные документы

  • Політичне прогнозування як процес розробки науково обгрунтованого судження про ймовірносний розвиток політичних подій, шляхи і терміни його здійснення. Можливості комп'ютерного моделювання - системний підхід. Моделі та методи моделювання, їх використання.

    контрольная работа [26,0 K], добавлен 13.03.2013

  • Аспекти технологізації навчального процесу в середній школі. Проблема наочності при викладанні шкільного курсу фізики. Навчальний фізичний експеримент і комп’ютерне моделювання. Поєднання традиційних та інформаційних технологій при вивченні фізики.

    дипломная работа [7,7 M], добавлен 24.09.2014

  • Дослідження особливостей роботи графічної бібліотеки OpenGL з метою використання її в комп'ютерному моделюванні. Розгляд синтаксису команд та програмного коду команд. Методи максимально реалістичного моделювання горіння вогню. Лістинг програми на мові С.

    курсовая работа [182,0 K], добавлен 22.12.2010

  • Характеристика основних методів сучасного викладання фізики. Моделювання як процес дослідження об’єктів пізнання за допомогою їх моделей. Розгляд особливостей використання табличного процесора EXCEL для обробки результатів лабораторних робіт з фізики.

    лабораторная работа [1,6 M], добавлен 22.12.2012

  • Широке використання інформаційних технологій у всіх сферах життя суспільства. Інформація як об’єкт захисту. Основні види загроз безпеки інформації в комп’ютерних мережах. Несанкційований доступ до інформації і його мета. Порушники безпеки інформації.

    реферат [253,2 K], добавлен 19.12.2010

  • Впровадження інформаційно-комунікаційних технологій в освітню практику. Комп'ютерне використання моделювання при вивченні хімії за програмою "Органічна хімія. Транспортні системи". Застосування моделі NetLogo для вивчення теми "Реакції йонного обміну".

    курсовая работа [11,0 M], добавлен 15.03.2014

  • Аналіз предметної галузі задачі моделювання пострілу балісти через стіну по мішені. Структури даних та діаграми класів для розв'язання задачі. Схеми взаємодії об’єктів та алгоритми виконання їх методів. Опис розробленої програми, інструкція користувача.

    курсовая работа [1,0 M], добавлен 18.05.2014

  • Ортогонaлізування функцій. Порівняння дискретного та хвильового перетворення. Інтерполяційні поліноми Лагранжа і Ньютона. Метод найменших квадратів. Побудова кривої для заданих результатів вимірювань. Розв’язання задачі по Лапласу операційним методом.

    курсовая работа [2,2 M], добавлен 10.04.2012

  • Визначення функціонального профілю захищеності комп’ютеризованої системи від несанкціонованого доступу і вимог до захищеності інформації від витоку технічними каналами. Вибір та обґрунтування необхідних фізичних та організаційних засобів захисту.

    курсовая работа [2,4 M], добавлен 22.11.2014

  • Аналіз фізичної організації передачі даних по каналах комп'ютерних мереж, топологія фізичних зв'язків та організація їх сумісного використання. Методи доступу до каналів, настроювання мережевих служб для здійснення авторизації доступу до мережі Інтернет.

    дипломная работа [2,6 M], добавлен 12.09.2010

  • Проектування програми керування мікропроцесорним пристроєм світлової індикації на мові С та Assembler. Розробка алгоритму роботи програми, структурної та електричної принципових схем. Здійснення комп’ютерного моделювання для перевірки розроблених програм.

    курсовая работа [710,7 K], добавлен 04.12.2014

  • Описання видів загроз безпеки інформації. Комп’ютерні віруси як особливий клас руйнуючих програмних дій, їх життєвий цикл та стадії виконання. Засоби і методи захисту інформації у комп’ютерних системах, механізм їх дії. Класифікація антивірусних програм.

    курсовая работа [48,9 K], добавлен 28.09.2011

  • Передумови та фактори, що зумовлюють необхідність комп’ютеризації у аптеці. Задачі та цілі, що вирішуються при використанні комп’ютерних програм в аптеці. Порівняльний аналіз деяких інформаційних систем для вибору постачальника лікарських засобів.

    курсовая работа [318,4 K], добавлен 01.03.2013

  • Інсталяція системи віртуальних машин, установка ліцензії на використання VMware. Особливості роботи з віртуальним комп'ютером: копіювання і вставка, призупинення, виділення оперативної пам'яті. Підключення фізичних дисків до віртуального комп'ютера.

    курсовая работа [1,1 M], добавлен 05.06.2010

  • Поняття комп'ютерної мережі як спільного підключення окремих комп’ютерів до єдиного каналу передачі даних. Сутність мережі однорангової та з виділеним сервером. Топології локальних мереж. Схема взаємодії комп'ютерів. Проблеми передачі даних у мережі.

    курсовая работа [605,0 K], добавлен 06.05.2015

  • Сутність поняття "контроль". Оцінювання результатів навчально-пізнавальної діяльності учнів. Особливості комп’ютерного контролю знань. Підходи до зіставлення комп’ютерних програм контролю. Створення тесту з математики за допомогою програми MyTest.

    курсовая работа [278,4 K], добавлен 24.04.2012

  • Відмінність комп'ютерного спілкування від природного. Система Opentest і поняття, пов’язані з нею. Класифікація автоматизованих систем, функціональні профілі захищеності оброблюваної інформації від несанкціонованого доступу. Тест на задані теми.

    дипломная работа [233,2 K], добавлен 19.06.2011

  • Графічне моделювання офісу програмування. Опис призначення офісу та його програмне забезпечення. Альтернативне комп'ютерне устаткування. Об'ємне проектування території, будинку, кімнат. Електропостачання офісу. Розрахунок споживаної електроенергії.

    курсовая работа [3,3 M], добавлен 20.06.2010

  • Спосіб завдання алгоритмів функціонування автоматів циклічної дії у вигляді циклограм. Розробка абстрактної моделі паралельного логічного контролера, структурної схеми. HDL-модель і комп’ютерне моделювання паралельного логічного контролера циклічної дії.

    курсовая работа [190,0 K], добавлен 24.06.2011

  • Комп'ютиризація навчального процесу у загальноосвітній школі. Використання комп'ютерних технологій у навчанні. Шляхи оновлення сучасного уроку. Методика використання слайдів. Призначення, функції й особливості використання мультимедійних презентацій.

    курсовая работа [43,7 K], добавлен 28.08.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.